buzz
Buzz 是一款运行在个人电脑上的离线音频转写与翻译工具,核心动力源自 OpenAI 的 Whisper 模型。它主要解决了用户对于隐私安全及网络依赖的痛点,无需将音频上传至云端,即可在本地高效完成语音到文字的转换及多语言翻译,特别适合处理敏感会议记录、私人访谈或无网络环境下的工作场景。
这款软件非常友好地面向普通用户、内容创作者、记者及研究人员。无论是需要整理视频素材的博主,还是追求准确会议纪要的职场人士,都能通过 Buzz 轻松上手。它不仅支持导入本地音视频文件或 YouTube 链接,还具备独特的实时麦克风转录功能,甚至能在演示活动中提供辅助字幕。
在技术亮点方面,Buzz 展现了强大的硬件适应能力。它支持多种加速后端,包括 NVIDIA GPU 的 CUDA 加速、Mac 电脑的 Apple Silicon 优化,以及通过 Whisper.cpp 实现的 Vulkan 加速(覆盖大多数集成显卡),确保在不同设备上都能流畅运行。此外,它还集成了说话人识别、噪音环境下的语音分离技术,并提供字幕文件导出(TXT/SRT/VTT)及自动化监控文件夹等实用功能,让语音处理工作变得更加智能与便捷。
使用场景
一位自由职业字幕组译者需要紧急处理一批海外会议录像,既要保证翻译准确度,又要严格保护客户隐私数据不外泄。
没有 buzz 时
- 隐私风险高:必须将敏感音频上传至在线转录网站,担心会议内容泄露或被平台留存。
- 成本昂贵:依赖付费云 API 按分钟计费,处理长视频时费用高昂且受限于网络带宽。
- 流程割裂:转录、分离说话人、调整时间轴需在不同软件间切换,手动对齐字幕极其耗时。
- 硬件闲置:本地高性能显卡无法利用,只能等待云端排队处理,效率低下。
使用 buzz 后
- 数据完全本地化:基于 OpenAI Whisper 在离线环境下运行,音频文件从未离开电脑,彻底杜绝泄露风险。
- 零边际成本:一次性部署后无限次免费使用,充分利用本地 Nvidia CUDA 或 Apple Silicon 加速,转写速度飞快。
- 一站式工作流:内置说话人识别与语音分离功能,直接导出带时间戳的 SRT/VTT 格式,高级查看器支持实时微调。
- 自动化提效:配置“监听文件夹”后,新放入的视频自动开始转写,配合键盘快捷键可快速完成批量交付。
buzz 让个人电脑变身私有化智能转录工作站,在确保数据绝对安全的前提下,将字幕制作效率提升了数倍。
运行环境要求
- Linux
- macOS
- Windows
- 非必需
- 支持 NVIDIA GPU (需 CUDA 加速,示例版本 cu129/CUDA 12.x),Apple Silicon (Mac),以及支持 Vulkan 的 GPU (含集成显卡,通过 Whisper.cpp)
- 未明确具体显存要求
未说明

快速开始
[简体中文] <- 点击查看中文页面。
Buzz
在您的个人电脑上离线转录和翻译音频。由 OpenAI 的 Whisper 提供支持。

特性
- 转录音频和视频文件或 YouTube 链接
- 实时麦克风音频转录
- 演示窗口,方便在活动和演示中使用
- 在转录前进行语音分离,以提高嘈杂音频的准确性
- 转录媒体中的说话人识别
- 多种 Whisper 后端支持
- 支持 NVIDIA GPU 的 CUDA 加速
- 支持 Mac 的 Apple Silicon
- 支持大多数 GPU(包括集成 GPU)的 Whisper.cpp 的 Vulkan 加速
- 将字幕导出为 TXT、SRT 和 VTT 格式
- 高级转录查看器,带有搜索、播放控制和速度调节功能
- 快捷键实现高效导航
- 监视文件夹,自动转录新文件
- 命令行界面,用于脚本编写和自动化
安装
macOS
从 SourceForge 下载 .dmg 文件。
Windows
从 SourceForge 获取安装文件。
应用程序未签名,安装时会弹出警告。请选择“更多信息” -> “仍要运行”。
Linux
安装 Flatpak 的命令如下:
flatpak install flathub io.github.chidiwilliams.Buzz
安装 Snap 的命令如下:
sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module
sudo snap install buzz
PyPI
安装 ffmpeg
确保使用 Python 3.12 环境。
安装 Buzz:
pip install buzz-captions
python -m buzz
PyPI 版本的 GPU 支持
要在 Windows 上为 NVIDIA GPU 提供 GPU 支持,请确保已安装支持 CUDA 的 torch:
pip3 install -U torch==2.8.0+cu129 torchaudio==2.8.0+cu129 --index-url https://download.pytorch.org/whl/cu129
pip3 install nvidia-cublas-cu12==12.9.1.4 nvidia-cuda-cupti-cu12==12.9.79 nvidia-cuda-runtime-cu12==12.9.79 --extra-index-url https://pypi.ngc.nvidia.com
最新开发版本
有关如何获取包含最新功能和错误修复的最新开发版本的信息,请参阅 FAQ。
支持 Buzz
您可以通过给仓库标星 🌟 并与朋友分享来帮助 Buzz。
截图
版本历史
v1.4.42026/03/14v1.4.32026/01/25v1.4.22026/01/03v1.4.12026/01/03v1.3.32025/11/09v1.3.22025/11/04v1.2.02024/11/24v1.1.02024/09/08v1.0.12024/07/12v1.0.02024/07/06v0.9.02024/03/15v0.8.42023/08/20v0.8.32023/07/04v0.8.22023/06/20v0.8.12023/05/01v0.8.02023/04/30v0.7.22023/03/09v0.7.12023/01/03v0.7.02023/01/02v0.6.42022/12/11常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
ChatTTS
ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。
