whisper.api

GitHub
913 39 中等 1 次阅读 3天前MIT音频
AI 解读 由 AI 自动生成,仅供参考

whisper.api 是一个高性能、可私有部署的开源语音转文字 API 服务。它基于高效的 whisper.cpp 引擎,旨在让用户在完全掌控数据的前提下,轻松将语音识别功能集成到现有系统中,解决了依赖云端服务可能导致的数据隐私泄露及网络延迟问题。

该工具特别适合需要构建本地化语音应用的后端开发者、注重数据安全的企業技术团队,以及希望离线运行大模型的研究人员。其核心亮点在于提供了与 Deepgram 兼容的标准接口(支持 REST 和 WebSocket),这意味着开发者无需大幅修改代码即可实现无缝迁移。此外,whisper.api 还支持自定义词汇提示、音频片段裁剪、说话人区分等高级功能,并能直接输出 JSON、SRT 字幕等多种格式。通过内置的 CLI 工具,用户还可以方便地管理 API 密钥和模型,配合严格的 SSRF 防护机制,确保了从本地测试到生产环境的安全与便捷。

使用场景

一家初创播客团队需要每天处理大量采访录音,将其转化为带时间轴的字幕文件并发布到官网,同时必须确保音频数据不出内网以保护嘉宾隐私。

没有 whisper.api 时

  • 数据安全风险高:团队被迫使用公有云转录服务,导致未发布的独家采访内容上传至第三方服务器,存在泄露隐患。
  • 集成成本昂贵:现有工作流依赖特定厂商 SDK,切换模型需重写大量代码,且无法灵活定制专业术语识别。
  • 格式转换繁琐:原始转录结果仅为纯文本,开发人员需额外编写脚本手动转换为 SRT 或 VTT 字幕格式,耗时易错。
  • 实时性差:缺乏原生 WebSocket 支持,无法实现直播访谈的实时字幕上屏,只能事后批量处理。

使用 whisper.api 后

  • 数据完全自主:通过 Docker 私有化部署,所有音频处理均在本地服务器完成,彻底杜绝数据外泄风险。
  • 无缝平滑迁移:凭借 Deepgram 兼容接口,团队无需修改现有后端代码即可接入,并支持自定义提示词优化专有名词识别。
  • 多格式原生输出:直接通过 API 参数指定输出 JSON、SRT 或 VTT 格式,一键生成可直接用于网页播放的标准字幕。
  • 低延迟直播支持:利用 WebSocket 推送 16kHz PCM 流,实现了采访过程中的毫秒级实时字幕同步,提升了观众体验。

whisper.api 让团队在零代码重构的前提下,以最低成本构建了安全、高效且实时的私有化语音转写流水线。

运行环境要求

操作系统
  • 未说明
GPU

未说明 (基于 whisper.cpp,通常支持 CPU 推理,也可选配 GPU 加速,但 README 未明确具体型号或显存要求)

内存

未说明

依赖
notes该项目主要基于 Docker 部署 (SDK 为 docker),同时也提供本地 Python 运行方案。本地运行需执行 setup_whisper.sh 脚本编译或下载 whisper.cpp 核心及模型文件。支持 Deepgram 兼容的 REST 和 WebSocket 接口。生产环境请勿开启测试令牌端点。
python未说明 (需安装 requirements.txt 中的依赖)
uvicorn
whisper.cpp (通过 setup_whisper.sh 安装)
whisper.api hero image

快速开始


title: whisper.api emoji: 😶‍🌫️ colorFrom: purple colorTo: gray sdk: docker app_file: Dockerfile app_port: 7860

Whisper API 🎙️

一个开源、高性能、可自行部署的语音转文本转录 API,由 whisper.cpp 提供支持。

本项目提供与 Deepgram 兼容的接口(REST 和 WebSocket),便于集成到现有工作流中,同时确保数据完全归您所有。


核心特性

  • 标准化 API:与 /v1/listen 端点无缝兼容。
  • 高级转录功能:自定义词汇表(提示词)、音频裁剪(start/duration)以及说话人分离。
  • 灵活格式:原生支持导出为 JSONSRTVTT 格式。
  • 实时流式传输:通过 WebSocket 实现 16kHz PCM 的实时转录。
  • 离线管理:简单的命令行工具,用于安全生成 API 密钥和管理模型。

文档

文档位于 docs/ 文件夹中(Astro Starlight 主题)。使用 Bun 在本地运行:

cd docs && bun install && bun run dev

文档内容包括:

  • 快速入门与本地设置
  • 身份验证与 API 密钥
  • REST 和 WebSocket API 参考
  • 代码示例
  • 模型与部署指南
  • 贡献流程

快速开始

1. 安装依赖

pip install -r requirements.txt
cp .env.example .env
chmod +x setup_whisper.sh
./setup_whisper.sh

2. 初始化数据库与密钥

python -m app.cli init
python -m app.cli create --name "MyAdminKey"

注意:仅用于本地测试时,可通过设置 ENABLE_TEST_TOKEN_ENDPOINT=true 在 Swagger 中启用 POST /v1/auth/test-token。默认情况下该功能是关闭的;请勿在生产环境中启用。

3. 启动服务器

uvicorn app.main:app --host 0.0.0.0 --port 7860

4. 使用 cURL 转录文件

curl -X POST 'http://localhost:7860/v1/listen' \
  -H "Authorization: Token <YOUR_KEY>" \
  -H "Content-Type: audio/wav" \
  --data-binary @audio.wav

5. 使用 cURL 从 URL 转录

curl -X POST 'http://localhost:7860/v1/listen' \
  -H "Authorization: Token <YOUR_KEY>" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/audio.mp3"}'

服务器会为您下载指定 URL 的音频文件,并具备 SSRF 防护机制(仅允许公开主机,有大小限制,默认不跟随重定向)。有关 MAX_AUDIO_DOWNLOAD_BYTESAUDIO_URL_FOLLOW_REDIRECTS 等相关配置,请参阅 docs/.env.example 文件。


许可证与参考

MIT 许可证

作者: Ved Gupta

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.3k|★★☆☆☆|昨天
图像数据工具视频

Real-Time-Voice-Cloning

Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具,旨在通过短短 5 秒的音频样本,快速复刻说话人的声音特征,并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点,让个性化语音生成变得轻量且高效。 该项目的核心技术基于 SV2TTS(从说话人验证到多说话人文本转语音的迁移学习)深度学习框架。其工作流程分为三个阶段:首先从少量音频中提取说话人的数字声纹表示,随后将其作为参考,结合 Tacotron 合成器与 WaveRNN 声码器,高质量地生成目标语音。这种架构不仅实现了端到端的语音合成,还保证了在普通硬件上的实时运行能力。 Real-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中,研究人员可借此探索语音迁移学习的前沿进展,而具备一定动手能力的普通用户也能通过提供的图形界面工具箱,轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳,但作为一款免费开源项目,它依然是理解和学习实时语音合成技术的绝佳入门资源。

59.6k|★★★☆☆|3天前
音频开发框架

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|2周前
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|2周前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|2周前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|2周前
音频