Whisperboard

GitHub
1k 104 较难 1 次阅读 2天前GPL-3.0音频
AI 解读 由 AI 自动生成,仅供参考

Whisperboard 是一款专为 iOS 设备打造的开源语音转文字应用,旨在让高质量的语音转录变得触手可及。它基于 OpenAI 强大的 Whisper 模型构建,能够以极高的准确度将会议记录、日常对话或突发灵感转化为文本,有效解决了移动端缺乏精准、免费且隐私安全的语音转写工具的痛点。

这款应用非常适合需要频繁记录信息的普通用户、学生、记者以及注重数据隐私的专业人士使用。其核心亮点在于将复杂的 AI 模型轻量化并移植到手机端,用户无需联网即可在本地完成转录,既保护了隐私又提升了响应速度。Whisperboard 操作极简,支持一键录音与回放,允许用户自由导入导出音频文件,甚至能根据需求在应用内直接下载和切换不同规模的 Whisper 模型,以平衡转录速度与精度。此外,它还支持断点续传功能,即使应用意外关闭也能恢复进度。作为完全开源的项目,Whisperboard 也为开发者提供了研究移动端大模型部署的优秀范例。

使用场景

一位自由记者需要在嘈杂的咖啡馆和移动通勤途中,快速将采访录音整理为可编辑的文字稿件。

没有 Whisperboard 时

  • 设备依赖性强:必须携带笔记本电脑或返回工作室才能进行高质量转录,手机自带听写功能在长段落中极易出错。
  • 流程繁琐断裂:需先将录音文件导出至电脑,再上传至网页版工具,一旦网络波动或应用崩溃,进度全部丢失。
  • 音质适配困难:无法灵活切换麦克风源,导致在户外风噪环境下录制的素材识别率极低,后期校对耗时巨大。
  • 模型选择受限:难以在手机端根据需求平衡速度与精度,要么等待过久,要么得到满是错别字的粗糙结果。

使用 Whisperboard 后

  • 移动端即时处理:直接在 iPhone 上点击录制并调用 OpenAI Whisper 模型,利用本地算力实现高精度转写,无需额外设备。
  • 断点续传保障:得益于可恢复的转录架构,即使中途接听电话或应用意外关闭,也能从断开处继续生成文本,确保数据不丢失。
  • 专业音控优化:支持手动选择最佳麦克风输入,配合强大的降噪算法,即便在喧闹环境中也能捕捉清晰人声并准确转译。
  • 灵活模型定制:可在应用内直接下载不同规模的 Whisper 模型,根据当前网络状况和时效要求,自由切换“极速”或“高准”模式。

Whisperboard 将原本需要复杂工作流支持的專業级语音转写能力,浓缩为 iOS 设备上指尖轻触即可完成的流畅体验。

运行环境要求

操作系统
  • iOS
GPU

未说明 (基于 whisper.cpp 在 iOS 设备本地运行,利用 Apple Neural Engine 或 CPU)

内存

未说明 (取决于具体 iOS 设备型号)

依赖
notes这是一个专为 iOS 设计的开源应用程序,非 Python 脚本工具。安装需要 macOS 环境及 Xcode,通过运行 `make` 命令并使用 Tuist 构建项目。应用支持直接在手机端下载和运行不同大小的 Whisper 模型进行语音转文字,无需服务器或 NVIDIA GPU。
python不需要 (原生 iOS 应用,使用 Swift 开发)
whisper.cpp
The Composable Architecture (TCA)
Tuist
Xcode
Whisperboard hero image

快速开始

WhisperBoard

欢迎来到 WhisperBoard,这是一款开源的 iOS 应用程序,旨在让高质量的语音转文字功能在移动设备上更加普及。WhisperBoard 基于 OpenAI 的 Whisper 模型打造,是您记录想法、会议和对话的理想工具,能够以无与伦比的准确性完成转写。



Twitter: @sa1k0s 提交活跃度 许可证 由 Tuist 提供支持

🎙️ 强大功能,尽在掌握

  • 简单易用:只需轻点一下即可开始录音,并轻松播放音频。
  • 智能转写:依托 OpenAI 的 Whisper 模型,您的音频将通过尖端技术实现精准转写。
  • 音频文件管理:您可以导入现有音频文件,也可以导出新生成的文件,方便分享和编辑。
  • 麦克风选择:自由选择您偏好的麦克风,确保录音音质达到最佳。
  • 模型灵活配置:在应用内浏览并下载任意 Whisper 模型,满足个性化转写需求。

🚀 未来展望

  • 断点续传:支持可恢复的转写功能,即使应用关闭,也能从上次中断的地方继续。
  • 实时文本:我们正在规划实时转写功能,目标是利用更小、更快的模型为您提供即时结果。

安装说明

  1. 克隆本仓库
  2. 运行 make
  3. 在 Xcode 中打开项目

许可证

本项目采用 GPL-3.0 许可证授权。

项目中使用的 Poppins 和 Karla 字体依据 SIL 开源字体许可证授权。

相关链接

请我喝杯咖啡

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|昨天
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|4天前
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|6天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|1周前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|6天前
音频

ChatTTS

ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。

39k|★★★☆☆|今天
语言模型Agent开发框架