whisper-asr-webservice

3.2k 570 中等 1 次阅读今天MIT音频

AI 解读由 AI 自动生成，仅供参考

whisper-asr-webservice 是一个基于 OpenAI Whisper 模型的通用语音识别（ASR）网络服务工具。它将强大的语音识别能力封装为标准的 REST API，让用户能够轻松通过 HTTP 请求将音频或视频文件转换为文本。

该工具主要解决了在本地部署复杂 AI 语音模型的门槛问题。用户无需深入处理深度学习环境配置、依赖管理或模型优化细节，只需通过简单的 Docker 命令即可快速启动服务。它支持多种主流引擎（包括原版 Whisper、加速版 Faster Whisper 及具备说话人分离功能的 WhisperX），并能灵活适配 CPU 或 GPU 环境，大大降低了高性能语音转写的应用难度。

whisper-asr-webservice 非常适合开发者集成到自己的应用中，也适合研究人员进行多语言识别、翻译或语言鉴定的实验。其技术亮点在于提供了丰富的输出格式（如 SRT 字幕、VTT、JSON 等）、精确到单词级的时间戳、语音活动检测（VAD）过滤以及自动说话人区分功能。此外，内置的 Swagger 文档让接口调试变得直观便捷，配合 FFmpeg 还能广泛兼容各类音视频格式，是构建离线、多语言语音转录系统的理想选择。

使用场景

某跨国播客制作团队每天需处理数十小时的多语言访谈录音，并将其转化为带时间轴的字幕文件以供发布。

没有 whisper-asr-webservice 时

部署门槛高：开发人员需在每台服务器上手动配置 Python 环境、安装 FFmpeg 及复杂的深度学习依赖，耗时且容易出错。
格式转换繁琐：原始转录结果仅为纯文本，团队需编写额外脚本才能转换为视频编辑所需的 SRT 或 VTT 格式，且缺乏精确到单词级的时间戳。
资源调度僵化：无法灵活切换推理引擎，面对紧急任务时难以利用 GPU 加速，导致长音频处理排队时间过长。
多语言支持弱：遇到非英语访谈时，需人工识别语言并调用不同模型，流程断裂且容易混淆语种。

使用 whisper-asr-webservice 后

一键容器化部署：通过 Docker 命令即可在几分钟内拉起服务，自动挂载缓存目录，彻底屏蔽了底层环境配置的复杂性。
原生多格式输出：直接通过 API 参数请求，即刻获取包含单词级时间戳的 SRT/VTT 文件，无缝对接后期剪辑软件。
弹性引擎切换：只需修改环境变量即可在 OpenAI Whisper、Faster Whisper 和 WhisperX 之间切换，轻松启用 GPU 加速与说话人分离功能。
全自动多语言处理：内置的语言识别能力可自动检测并转录数十种语言，无需人工干预即可统一处理全球各地的素材。

whisper-asr-webservice 将复杂的语音识别模型封装为标准的 REST API，让团队从繁琐的基础设施维护中解放出来，专注于内容创作本身。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
若使用 GPU 加速，需要支持 CUDA 的 NVIDIA GPU（具体型号和显存取决于所选模型大小，如 large-v3 通常需要 10GB+ 显存），CUDA 版本需与 PyTorch/TensorRT 兼容（镜像通常内置对应版本）

内存

未说明（取决于模型大小，tiny/base 模型约需 2-4GB，large 模型建议 16GB+）

依赖

notes推荐使用 Docker 部署（提供 CPU 和 GPU 专用镜像）。支持多种引擎（OpenAI Whisper, Faster Whisper, WhisperX）和模型尺寸。首次运行会自动下载模型，建议挂载缓存目录以加速启动。集成 FFmpeg 以支持广泛的音视频格式。可通过环境变量灵活配置引擎、模型、设备类型及超时策略。

python未说明（通过 Docker 运行则无需手动配置；源码开发需安装 Poetry 管理依赖）

openai/whisper

faster-whisper

whisperX

FFmpeg

Poetry

快速开始

Release Docker Pulls Build Licence

🚀 体验 Speech Box 桌面应用 | 离线、多语言桌面转录：https://speechbox.gumroad.com/l/desktop-app

Whisper ASR Box

Whisper ASR Box 是一款通用的语音识别工具包。Whisper 模型基于大规模多样化音频数据集进行训练，同时它也是一款多任务模型，能够执行多语言语音识别、语音翻译以及语言识别等功能。

🎉 加入我们的 Discord 社区！ 与其他用户交流、获取帮助，并及时了解最新功能：https://discord.gg/4Q5YVrePzZ

功能特性

当前版本 (v1.9.1) 支持以下 Whisper 模型：

快速使用

CPU

docker run -d -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest

GPU

docker run -d --gpus all -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest-gpu

缓存

为减少容器启动时间，避免重复下载，您可以持久化缓存目录：

docker run -d -p 9000:9000 \
  -v $PWD/cache:/root/.cache/ \
  onerahmet/openai-whisper-asr-webservice:latest

核心功能

多种 ASR 引擎支持（OpenAI Whisper、Faster Whisper、WhisperX）
多种输出格式（文本、JSON、VTT、SRT、TSV）
支持词级别时间戳
语音活动检测（VAD）过滤
发言人分离（配合 WhisperX 使用）
集成 FFmpeg，支持广泛的音视频格式
GPU 加速支持
可配置的模型加载与卸载
带 Swagger 文档的 REST API

环境变量

关键配置选项：

ASR_ENGINE：引擎选择（openai_whisper、faster_whisper、whisperx）
ASR_MODEL：模型选择（tiny、base、small、medium、large-v3 等）
ASR_MODEL_PATH：自定义存储/加载模型的路径
ASR_DEVICE：设备选择（cuda、cpu）
MODEL_IDLE_TIMEOUT：模型卸载超时时间

文档

完整文档请访问： https://ahmetoner.github.io/whisper-asr-webservice

开发

# 安装 poetry v2.X
pip3 install poetry

# 安装 CPU 依赖
poetry install --extras cpu

# 安装 CUDA 依赖
poetry install --extras cuda

# 运行服务
poetry run whisper-asr-webservice --host 0.0.0.0 --port 9000

启动服务后，您可以在浏览器中访问 http://localhost:9000 或 http://0.0.0.0:9000，以查看 Swagger UI 文档并试用 API 接口。

致谢

本软件使用了 FFmpeg 项目下的库，遵循 LGPLv2.1 许可协议。

Whisper ASR Webservice 快速上手指南

Whisper ASR Webservice 是一个通用的语音识别工具包，基于 OpenAI Whisper 模型，支持多语言语音识别、翻译及语言检测。它提供了 REST API 接口，支持多种引擎（OpenAI Whisper, Faster Whisper, WhisperX）和输出格式。

环境准备

系统要求

操作系统: Linux, macOS, Windows (需安装 Docker Desktop)
硬件:
- CPU 模式: 任意现代 CPU，建议 4GB+ 内存。
- GPU 模式: NVIDIA GPU，需安装 NVIDIA Container Toolkit 以支持 Docker GPU 透传。
软件依赖:
- Docker & Docker Compose
- (可选) NVIDIA Driver & CUDA Toolkit (仅 GPU 模式需要)

前置检查

确保 Docker 已正常运行：

docker --version

若使用 GPU，请验证 GPU 支持：

docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi

安装步骤

本项目推荐使用 Docker 部署，无需手动配置 Python 环境或下载模型文件。

1. CPU 模式部署

适用于无独立显卡或测试环境。

docker run -d -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest

2. GPU 模式部署

适用于生产环境或大文件处理，显著提升推理速度。

docker run -d --gpus all -p 9000:9000 \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest-gpu

3. (推荐) 持久化缓存

为避免每次重启容器时重新下载模型，建议挂载本地缓存目录。

mkdir -p ./cache

docker run -d -p 9000:9000 \
  -v $PWD/cache:/root/.cache/ \
  -e ASR_MODEL=base \
  -e ASR_ENGINE=openai_whisper \
  onerahmet/openai-whisper-asr-webservice:latest

注意: 国内用户若下载模型缓慢，可在宿主机配置 Hugging Face 镜像加速，或在 docker run 中添加环境变量 HF_ENDPOINT=https://hf-mirror.com。

基本使用

服务启动后，默认监听 9000 端口。

1. 访问 API 文档

在浏览器中打开以下地址查看 Swagger UI 界面，可直接在线测试接口：

http://localhost:9000
http://0.0.0.0:9000

2. 命令行调用示例

使用 curl 上传音频文件进行转录（假设当前目录下有 audio.mp3）：

curl -X POST "http://localhost:9000/asr" \
  -H "accept: application/json" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@audio.mp3" \
  -F "task=transcribe" \
  -F "language=zh" \
  -F "output_format=json"

3. 关键参数说明

ASR_ENGINE: 选择引擎 (openai_whisper, faster_whisper, whisperx)
ASR_MODEL: 选择模型大小 (tiny, base, small, medium, large-v3)
task: 任务类型 (transcribe 转录, translate 翻译为英文)
language: 源语言代码 (如 zh, en, ja，留空则自动检测)
output_format: 输出格式 (text, json, srt, vtt, tsv)

更多高级功能（如说话人分离、词级时间戳）请参考 Swagger 文档中的详细参数定义。

版本历史

v1.9.12025/07/01

v1.9.02025/06/29

v1.8.22025/02/18

v1.8.12025/02/18

v1.8.02025/02/17

v1.7.12024/12/18

v1.7.02024/12/17

v1.6.02024/10/06

v1.5.02024/07/04

v1.4.12024/04/16

v1.4.02024/04/16

v1.3.02024/02/15

v1.2.42023/11/27

v1.2.32023/11/06

v1.2.22023/11/03

v1.2.12023/11/03

v1.2.02023/10/01

v1.1.12023/05/29

v1.1.02023/04/17

v1.0.62023/02/05

常见问题

何时支持 Whisper Large-v3 模型？

是否支持 .m4a 格式的音频文件？

我的 GPU 不支持 float16 导致报错怎么办？

遇到 'libtorch_cuda.so: cannot open shared object file' 错误如何解决？

如何获取单词级别的时间戳和置信度评分？

运行该服务需要什么样的系统资源配置？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|1周前

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|1周前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|1周前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|1周前

音频

ChatTTS

ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。

★ 39k|★★★☆☆|4天前

语言模型Agent开发框架