[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ahmetoner--whisper-asr-webservice":3,"tool-ahmetoner--whisper-asr-webservice":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},5908,"ChatTTS","2noise\u002FChatTTS","ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。\n\n这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。",39042,"2026-04-09T11:54:03",[19,17,20,21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":29,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":111,"github_topics":112,"view_count":10,"oss_zip_url":83,"oss_zip_packed_at":83,"status":22,"created_at":120,"updated_at":121,"faqs":122,"releases":153},7183,"ahmetoner\u002Fwhisper-asr-webservice","whisper-asr-webservice","OpenAI Whisper ASR Webservice API","whisper-asr-webservice 是一个基于 OpenAI Whisper 模型的通用语音识别（ASR）网络服务工具。它将强大的语音识别能力封装为标准的 REST API，让用户能够轻松通过 HTTP 请求将音频或视频文件转换为文本。\n\n该工具主要解决了在本地部署复杂 AI 语音模型的门槛问题。用户无需深入处理深度学习环境配置、依赖管理或模型优化细节，只需通过简单的 Docker 命令即可快速启动服务。它支持多种主流引擎（包括原版 Whisper、加速版 Faster Whisper 及具备说话人分离功能的 WhisperX），并能灵活适配 CPU 或 GPU 环境，大大降低了高性能语音转写的应用难度。\n\nwhisper-asr-webservice 非常适合开发者集成到自己的应用中，也适合研究人员进行多语言识别、翻译或语言鉴定的实验。其技术亮点在于提供了丰富的输出格式（如 SRT 字幕、VTT、JSON 等）、精确到单词级的时间戳、语音活动检测（VAD）过滤以及自动说话人区分功能。此外，内置的 Swagger 文档让接口调试变得直观便捷，配合 FFmpeg 还能广泛兼容各","whisper-asr-webservice 是一个基于 OpenAI Whisper 模型的通用语音识别（ASR）网络服务工具。它将强大的语音识别能力封装为标准的 REST API，让用户能够轻松通过 HTTP 请求将音频或视频文件转换为文本。\n\n该工具主要解决了在本地部署复杂 AI 语音模型的门槛问题。用户无需深入处理深度学习环境配置、依赖管理或模型优化细节，只需通过简单的 Docker 命令即可快速启动服务。它支持多种主流引擎（包括原版 Whisper、加速版 Faster Whisper 及具备说话人分离功能的 WhisperX），并能灵活适配 CPU 或 GPU 环境，大大降低了高性能语音转写的应用难度。\n\nwhisper-asr-webservice 非常适合开发者集成到自己的应用中，也适合研究人员进行多语言识别、翻译或语言鉴定的实验。其技术亮点在于提供了丰富的输出格式（如 SRT 字幕、VTT、JSON 等）、精确到单词级的时间戳、语音活动检测（VAD）过滤以及自动说话人区分功能。此外，内置的 Swagger 文档让接口调试变得直观便捷，配合 FFmpeg 还能广泛兼容各类音视频格式，是构建离线、多语言语音转录系统的理想选择。","![Release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fahmetoner\u002Fwhisper-asr-webservice.svg)\n![Docker Pulls](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fonerahmet\u002Fopenai-whisper-asr-webservice.svg)\n![Build](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fdocker-publish.yml.svg)\n![Licence](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fahmetoner\u002Fwhisper-asr-webservice.svg)\n\n> 🚀 **Try Speech Box Desktop App | Offline, multi-language desktop transcriptions**: [https:\u002F\u002Fspeechbox.gumroad.com\u002Fl\u002Fdesktop-app](https:\u002F\u002Fspeechbox.gumroad.com\u002Fl\u002Fdesktop-app)\n\n# Whisper ASR Box\n\nWhisper ASR Box is a general-purpose speech recognition toolkit. Whisper Models are trained on a large dataset of diverse audio and is also a multitask model that can perform multilingual speech recognition as well as speech translation and language identification.\n\n🎉 **Join our Discord Community!** Connect with other users, get help, and stay updated on the latest features: [https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ](https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ)\n\n## Features\n\nCurrent release (v1.9.1) supports following whisper models:\n\n- [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)@[v20250625](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20250625)\n- [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper)@[v1.1.1](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.1.1)\n- [whisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)@[v3.4.2](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX\u002Freleases\u002Ftag\u002Fv3.4.2)\n\n## Quick Usage\n\n### CPU\n\n```shell\ndocker run -d -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n\n### GPU\n\n```shell\ndocker run -d --gpus all -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest-gpu\n```\n\n#### Cache\n\nTo reduce container startup time by avoiding repeated downloads, you can persist the cache directory:\n\n```shell\ndocker run -d -p 9000:9000 \\\n  -v $PWD\u002Fcache:\u002Froot\u002F.cache\u002F \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n\n## Key Features\n\n- Multiple ASR engines support (OpenAI Whisper, Faster Whisper, WhisperX)\n- Multiple output formats (text, JSON, VTT, SRT, TSV)\n- Word-level timestamps support\n- Voice activity detection (VAD) filtering\n- Speaker diarization (with WhisperX)\n- FFmpeg integration for broad audio\u002Fvideo format support\n- GPU acceleration support\n- Configurable model loading\u002Funloading\n- REST API with Swagger documentation\n\n## Environment Variables\n\nKey configuration options:\n\n- `ASR_ENGINE`: Engine selection (openai_whisper, faster_whisper, whisperx)\n- `ASR_MODEL`: Model selection (tiny, base, small, medium, large-v3, etc.)\n- `ASR_MODEL_PATH`: Custom path to store\u002Fload models\n- `ASR_DEVICE`: Device selection (cuda, cpu)\n- `MODEL_IDLE_TIMEOUT`: Timeout for model unloading\n\n## Documentation\n\nFor complete documentation, visit:\n[https:\u002F\u002Fahmetoner.github.io\u002Fwhisper-asr-webservice](https:\u002F\u002Fahmetoner.github.io\u002Fwhisper-asr-webservice)\n\n## Development\n\n```shell\n# Install poetry v2.X\npip3 install poetry\n\n# Install dependencies for cpu\npoetry install --extras cpu\n\n# Install dependencies for cuda\npoetry install --extras cuda\n\n# Run service\npoetry run whisper-asr-webservice --host 0.0.0.0 --port 9000\n```\n\nAfter starting the service, visit `http:\u002F\u002Flocalhost:9000` or `http:\u002F\u002F0.0.0.0:9000` in your browser to access the Swagger UI documentation and try out the API endpoints.\n\n## Credits\n\n- This software uses libraries from the [FFmpeg](http:\u002F\u002Fffmpeg.org) project under the [LGPLv2.1](http:\u002F\u002Fwww.gnu.org\u002Flicenses\u002Fold-licenses\u002Flgpl-2.1.html)\n","![Release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fahmetoner\u002Fwhisper-asr-webservice.svg)\n![Docker Pulls](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fonerahmet\u002Fopenai-whisper-asr-webservice.svg)\n![Build](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fdocker-publish.yml.svg)\n![Licence](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fahmetoner\u002Fwhisper-asr-webservice.svg)\n\n> 🚀 **体验 Speech Box 桌面应用 | 离线、多语言桌面转录**：[https:\u002F\u002Fspeechbox.gumroad.com\u002Fl\u002Fdesktop-app](https:\u002F\u002Fspeechbox.gumroad.com\u002Fl\u002Fdesktop-app)\n\n# Whisper ASR Box\n\nWhisper ASR Box 是一款通用的语音识别工具包。Whisper 模型基于大规模多样化音频数据集进行训练，同时它也是一款多任务模型，能够执行多语言语音识别、语音翻译以及语言识别等功能。\n\n🎉 **加入我们的 Discord 社区！** 与其他用户交流、获取帮助，并及时了解最新功能：[https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ](https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ)\n\n## 功能特性\n\n当前版本 (v1.9.1) 支持以下 Whisper 模型：\n\n- [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)@[v20250625](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20250625)\n- [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper)@[v1.1.1](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.1.1)\n- [whisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)@[v3.4.2](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX\u002Freleases\u002Ftag\u002Fv3.4.2)\n\n## 快速使用\n\n### CPU\n\n```shell\ndocker run -d -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n\n### GPU\n\n```shell\ndocker run -d --gpus all -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest-gpu\n```\n\n#### 缓存\n\n为减少容器启动时间，避免重复下载，您可以持久化缓存目录：\n\n```shell\ndocker run -d -p 9000:9000 \\\n  -v $PWD\u002Fcache:\u002Froot\u002F.cache\u002F \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n\n## 核心功能\n\n- 多种 ASR 引擎支持（OpenAI Whisper、Faster Whisper、WhisperX）\n- 多种输出格式（文本、JSON、VTT、SRT、TSV）\n- 支持词级别时间戳\n- 语音活动检测（VAD）过滤\n- 发言人分离（配合 WhisperX 使用）\n- 集成 FFmpeg，支持广泛的音视频格式\n- GPU 加速支持\n- 可配置的模型加载与卸载\n- 带 Swagger 文档的 REST API\n\n## 环境变量\n\n关键配置选项：\n\n- `ASR_ENGINE`：引擎选择（openai_whisper、faster_whisper、whisperx）\n- `ASR_MODEL`：模型选择（tiny、base、small、medium、large-v3 等）\n- `ASR_MODEL_PATH`：自定义存储\u002F加载模型的路径\n- `ASR_DEVICE`：设备选择（cuda、cpu）\n- `MODEL_IDLE_TIMEOUT`：模型卸载超时时间\n\n## 文档\n\n完整文档请访问：\n[https:\u002F\u002Fahmetoner.github.io\u002Fwhisper-asr-webservice](https:\u002F\u002Fahmetoner.github.io\u002Fwhisper-asr-webservice)\n\n## 开发\n\n```shell\n# 安装 poetry v2.X\npip3 install poetry\n\n# 安装 CPU 依赖\npoetry install --extras cpu\n\n# 安装 CUDA 依赖\npoetry install --extras cuda\n\n# 运行服务\npoetry run whisper-asr-webservice --host 0.0.0.0 --port 9000\n```\n\n启动服务后，您可以在浏览器中访问 `http:\u002F\u002Flocalhost:9000` 或 `http:\u002F\u002F0.0.0.0:9000`，以查看 Swagger UI 文档并试用 API 接口。\n\n## 致谢\n\n- 本软件使用了 [FFmpeg](http:\u002F\u002Fffmpeg.org) 项目下的库，遵循 [LGPLv2.1](http:\u002F\u002Fwww.gnu.org\u002Flicenses\u002Fold-licenses\u002Flgpl-2.1.html) 许可协议。","# Whisper ASR Webservice 快速上手指南\n\nWhisper ASR Webservice 是一个通用的语音识别工具包，基于 OpenAI Whisper 模型，支持多语言语音识别、翻译及语言检测。它提供了 REST API 接口，支持多种引擎（OpenAI Whisper, Faster Whisper, WhisperX）和输出格式。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux, macOS, Windows (需安装 Docker Desktop)\n- **硬件**:\n  - **CPU 模式**: 任意现代 CPU，建议 4GB+ 内存。\n  - **GPU 模式**: NVIDIA GPU，需安装 NVIDIA Container Toolkit 以支持 Docker GPU 透传。\n- **软件依赖**:\n  - Docker & Docker Compose\n  - (可选) NVIDIA Driver & CUDA Toolkit (仅 GPU 模式需要)\n\n### 前置检查\n确保 Docker 已正常运行：\n```shell\ndocker --version\n```\n若使用 GPU，请验证 GPU 支持：\n```shell\ndocker run --rm --gpus all nvidia\u002Fcuda:12.0-base nvidia-smi\n```\n\n## 安装步骤\n\n本项目推荐使用 Docker 部署，无需手动配置 Python 环境或下载模型文件。\n\n### 1. CPU 模式部署\n适用于无独立显卡或测试环境。\n\n```shell\ndocker run -d -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n\n### 2. GPU 模式部署\n适用于生产环境或大文件处理，显著提升推理速度。\n\n```shell\ndocker run -d --gpus all -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest-gpu\n```\n\n### 3. (推荐) 持久化缓存\n为避免每次重启容器时重新下载模型，建议挂载本地缓存目录。\n\n```shell\nmkdir -p .\u002Fcache\n\ndocker run -d -p 9000:9000 \\\n  -v $PWD\u002Fcache:\u002Froot\u002F.cache\u002F \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=openai_whisper \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:latest\n```\n> **注意**: 国内用户若下载模型缓慢，可在宿主机配置 Hugging Face 镜像加速，或在 `docker run` 中添加环境变量 `HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com`。\n\n## 基本使用\n\n服务启动后，默认监听 `9000` 端口。\n\n### 1. 访问 API 文档\n在浏览器中打开以下地址查看 Swagger UI 界面，可直接在线测试接口：\n- `http:\u002F\u002Flocalhost:9000`\n- `http:\u002F\u002F0.0.0.0:9000`\n\n### 2. 命令行调用示例\n使用 `curl` 上传音频文件进行转录（假设当前目录下有 `audio.mp3`）：\n\n```shell\ncurl -X POST \"http:\u002F\u002Flocalhost:9000\u002Fasr\" \\\n  -H \"accept: application\u002Fjson\" \\\n  -H \"Content-Type: multipart\u002Fform-data\" \\\n  -F \"file=@audio.mp3\" \\\n  -F \"task=transcribe\" \\\n  -F \"language=zh\" \\\n  -F \"output_format=json\"\n```\n\n### 3. 关键参数说明\n- `ASR_ENGINE`: 选择引擎 (`openai_whisper`, `faster_whisper`, `whisperx`)\n- `ASR_MODEL`: 选择模型大小 (`tiny`, `base`, `small`, `medium`, `large-v3`)\n- `task`: 任务类型 (`transcribe` 转录, `translate` 翻译为英文)\n- `language`: 源语言代码 (如 `zh`, `en`, `ja`，留空则自动检测)\n- `output_format`: 输出格式 (`text`, `json`, `srt`, `vtt`, `tsv`)\n\n更多高级功能（如说话人分离、词级时间戳）请参考 Swagger 文档中的详细参数定义。","某跨国播客制作团队每天需处理数十小时的多语言访谈录音，并将其转化为带时间轴的字幕文件以供发布。\n\n### 没有 whisper-asr-webservice 时\n- **部署门槛高**：开发人员需在每台服务器上手动配置 Python 环境、安装 FFmpeg 及复杂的深度学习依赖，耗时且容易出错。\n- **格式转换繁琐**：原始转录结果仅为纯文本，团队需编写额外脚本才能转换为视频编辑所需的 SRT 或 VTT 格式，且缺乏精确到单词级的时间戳。\n- **资源调度僵化**：无法灵活切换推理引擎，面对紧急任务时难以利用 GPU 加速，导致长音频处理排队时间过长。\n- **多语言支持弱**：遇到非英语访谈时，需人工识别语言并调用不同模型，流程断裂且容易混淆语种。\n\n### 使用 whisper-asr-webservice 后\n- **一键容器化部署**：通过 Docker 命令即可在几分钟内拉起服务，自动挂载缓存目录，彻底屏蔽了底层环境配置的复杂性。\n- **原生多格式输出**：直接通过 API 参数请求，即刻获取包含单词级时间戳的 SRT\u002FVTT 文件，无缝对接后期剪辑软件。\n- **弹性引擎切换**：只需修改环境变量即可在 OpenAI Whisper、Faster Whisper 和 WhisperX 之间切换，轻松启用 GPU 加速与说话人分离功能。\n- **全自动多语言处理**：内置的语言识别能力可自动检测并转录数十种语言，无需人工干预即可统一处理全球各地的素材。\n\nwhisper-asr-webservice 将复杂的语音识别模型封装为标准的 REST API，让团队从繁琐的基础设施维护中解放出来，专注于内容创作本身。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fahmetoner_whisper-asr-webservice_745ca95e.png","ahmetoner","Ahmet Öner","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fahmetoner_98842ee3.jpg","AI Researcher","@fraunhofer-iais","Bonn, Germany","me@ahmetoner.com",null,"ahmetoner.com","https:\u002F\u002Fgithub.com\u002Fahmetoner",[87,91],{"name":88,"color":89,"percentage":90},"Python","#3572A5",96.8,{"name":92,"color":93,"percentage":94},"Dockerfile","#384d54",3.2,3231,570,"2026-04-13T05:44:58","MIT","Linux, macOS, Windows","非必需。若使用 GPU 加速，需要支持 CUDA 的 NVIDIA GPU（具体型号和显存取决于所选模型大小，如 large-v3 通常需要 10GB+ 显存），CUDA 版本需与 PyTorch\u002FTensorRT 兼容（镜像通常内置对应版本）。","未说明（取决于模型大小，tiny\u002Fbase 模型约需 2-4GB，large 模型建议 16GB+）",{"notes":103,"python":104,"dependencies":105},"推荐使用 Docker 部署（提供 CPU 和 GPU 专用镜像）。支持多种引擎（OpenAI Whisper, Faster Whisper, WhisperX）和模型尺寸。首次运行会自动下载模型，建议挂载缓存目录以加速启动。集成 FFmpeg 以支持广泛的音视频格式。可通过环境变量灵活配置引擎、模型、设备类型及超时策略。","未说明（通过 Docker 运行则无需手动配置；源码开发需安装 Poetry 管理依赖）",[106,107,108,109,110],"openai\u002Fwhisper","faster-whisper","whisperX","FFmpeg","Poetry",[21],[113,114,115,116,117,118,119],"automatic-speech-recognition","speech-recognition","speech-to-text","openai-whisper","docker","asr","speech","2026-03-27T02:49:30.150509","2026-04-14T00:13:58.746095",[123,128,133,138,143,148],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},32239,"何时支持 Whisper Large-v3 模型？","Whisper Large-v3 模型的支持已在 v1.2.4 版本中发布。请注意，早期版本可能依赖于底层库（如 faster-whisper）在 PyPI 上的更新。如果您遇到问题，请确保升级到最新的 Docker 镜像版本：https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Freleases\u002Ftag\u002Fv1.2.4","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F161",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},32238,"是否支持 .m4a 格式的音频文件？","是的，该项目已经支持 .m4a 格式。此功能已在后续的版本更新（通过 PR #82 合并）中添加。请确保您使用的是较新版本的 Docker 镜像即可直接使用该格式。","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F42",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},32234,"我的 GPU 不支持 float16 导致报错怎么办？","如果您的硬件不支持高效的 float16 计算，可以将计算类型更改为 float32。具体方法是修改 `app\u002Ffaster_whisper\u002Fcore.py` 文件，将 `compute_type=\"float16\"` 改为 `compute_type=\"float32\"`。维护者已发布包含此修复的调试镜像，您可以使用以下命令运行：\n```bash\ndocker pull onerahmet\u002Fopenai-whisper-asr-webservice:debug-gpu\ndocker run -d --gpus all -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=faster_whisper onerahmet\u002Fopenai-whisper-asr-webservice:debug-gpu\n```","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F94",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},32235,"遇到 'libtorch_cuda.so: cannot open shared object file' 错误如何解决？","该错误通常出现在 v1.8.0 版本中，维护者已在 v1.8.1 版本中修复。请升级您的 Docker 镜像至 v1.8.1。启动命令如下：\n对于 GPU 用户：\n```shell\ndocker run -d --gpus all -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=whisperx \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:v1.8.1-gpu\n```\n对于 CPU 用户：\n```shell\ndocker run -d -p 9000:9000 \\\n  -e ASR_MODEL=base \\\n  -e ASR_ENGINE=whisperx \\\n  onerahmet\u002Fopenai-whisper-asr-webservice:v1.8.1\n```","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F284",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},32236,"如何获取单词级别的时间戳和置信度评分？","该功能已在 Faster Whisper 引擎中实现。请拉取包含此功能的最新 Docker 镜像（v1.1.1 或更高版本）。更新后，JSON 输出中将包含单词级别的时间戳信息。您可以查看发布说明获取更多细节：https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Freleases\u002Ftag\u002Fv1.1.1","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F95",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},32237,"运行该服务需要什么样的系统资源配置？","如果没有 GPU，处理速度会非常慢。用户反馈表明，最小的 VPS 配置（如 1vCPU, 1GB 内存）不足以完成转录任务。建议在拥有 GPU 的实例上部署以获得良好的性能。如果无法使用 GPU，可以尝试使用 whispercpp 作为替代方案。对于生产环境部署，建议参考相关的博客文章以获取具体的基准测试和资源需求分析。","https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fissues\u002F135",[154,159,164,169,174,179,184,189,194,199,204,209,214,219,224,229,234,239,244,249],{"id":155,"version":156,"summary_zh":157,"released_at":158},247008,"v1.9.1","### 修复\n\n- 修复了 WhisperX 分割管道的初始化问题\n- 修复了 WhisperX 的语言检测问题\n\n## 变更内容\n* 版本 1.9.0，由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F316 中发布\n* 修复 WhisperX 分割管道的初始化及语言检测问题，由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F317 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.9.0...v1.9.1","2025-07-01T19:14:30",{"id":160,"version":161,"summary_zh":162,"released_at":163},247009,"v1.9.0","## Discord 服务器\n\n> 🎉 **加入我们的 Discord 社区！** 与其他用户交流、获取帮助，并及时了解最新功能：[https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ](https:\u002F\u002Fdiscord.gg\u002F4Q5YVrePzZ)\n\n### 变更\n\n- 升级\n  - Poetry 至 v2.1.3\n  - [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)@[v20250625](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20250625)\n  - [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) 至 [v1.1.1](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.1.1)\n  - [whisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)@[v3.4.2](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX\u002Freleases\u002Ftag\u002Fv3.4.2)\n  - torch 至 v2.7.1\n  - torchaudio 至 v2.7.1\n  - numpy 至 v2.2.6\n  - fastapi 至 v0.115.14\n  - uvicorn 至 v0.35.0\n  - numba 至 v0.61.2\n\n\n## 变更内容\n* 由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F315 中升级了依赖项\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.8.2...v1.9.0","2025-06-29T01:02:00",{"id":165,"version":166,"summary_zh":167,"released_at":168},247010,"v1.8.2","## 变更内容\n\n* 通过在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F287 中使用 `nvidia\u002Fcuda:12.6.3-base-ubuntu22.04`，减小了 GPU 镜像的大小。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.8.1...v1.8.2","2025-02-18T00:59:08",{"id":170,"version":171,"summary_zh":172,"released_at":173},247011,"v1.8.1","## 变更内容\n\n### 修复\n\n* 修复 Torch CUDA 和 cuDNN 相关问题，由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F285 中分别解决了 #283 和 #284 问题。\n* 更新了 Torch 和 Torchaudio 的依赖，以支持多架构。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.8.0...v1.8.1","2025-02-18T00:05:37",{"id":175,"version":176,"summary_zh":177,"released_at":178},247012,"v1.8.0","### 新增\n\n- 增加了对 [whisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)@[v3.1.1](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX\u002Freleases\u002Ftag\u002Fv3.1.1) 的支持\n\n### 变更\n\n- 将 CUDA GPU 镜像升级至 v12.6.3\n- 升级了依赖库：\n  - torch 至 v2.6.0\n  - fastapi 至 v0.115.8\n  - llvmlite 至 v0.44.0\n  - numba 至 v0.61.0\n  - ruff 至 v0.9.6\n  - black 至 v25.1.0\n  - mkdocs-material 至 v9.6.4\n  - pymdown-extensions 至 v10.14.3\n\n## 变更内容\n* @charnesp 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F267 和 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F281 中集成了 Whisperx\n\n## 新贡献者\n* @charnesp 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F267 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.7.1...v1.8.0","2025-02-17T01:32:16",{"id":180,"version":181,"summary_zh":182,"released_at":183},247013,"v1.7.1","## 变更内容\n* 修复了由于 Faster Whisper v1.1.0 的变更导致的分段 JSON 序列化问题，由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F265 中完成。\n\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.7.0...v1.7.1","2024-12-18T22:07:20",{"id":185,"version":186,"summary_zh":187,"released_at":188},247014,"v1.7.0","### 新增\n\n  - 配置了超时机制，允许在空闲时卸载模型\n\n    ```sh\n    MODEL_IDLE_TIMEOUT=300\n    ```\n    默认值为 `0`。在此时间段（以秒为单位）内无任何活动后，将卸载模型，直到再次请求时才重新加载。将该值设置为 `0` 可禁用此超时机制，使模型始终保持加载状态。\n\n  - 在语言检测端点中增加了检测置信度\n  - 设置梅尔谱生成自动调整 `n_dims`，使其与已加载的模型匹配\n  - 重构类结构，添加注释、实现抽象方法，并为引擎选择添加工厂方法\n\n### 变更\n\n- 升级了以下依赖：\n  - [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) 至 [v1.1.0](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.1.0)\n  - uvicorn 至 v0.34.0\n  - tqdm 至 v4.67.1\n  - python-multipart 至 v0.0.20\n  - fastapi 至 v0.115.6\n  - pytest 至 v8.3.4\n  - ruff 至 v0.8.3\n  - black 至 v24.10.0\n  - mkdocs 至 v1.6.1\n  - mkdocs-material 至 v9.5.49\n  - pymdown-extensions 至 v10.12\n\n## 具体变更\n* @aidancrowther 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F259 中修复了正确加载 openai_whisper 模型的 `n_dims` 参数问题。\n* @aidancrowther 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F260 中为语言检测结果添加了置信度百分比。\n* @MatthewGlenn 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F239 中修正了端点文档中的拼写错误。\n* @kaveet 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F243 中修复了文档中输出参数的拼写错误。\n* @aidancrowther 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F256 中增加了显存刷新支持。\n* @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F261 中重构了类结构，并将 faster whisper 升级至 v1.1.0。\n\n## 新贡献者\n* @aidancrowther 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F259 中完成了首次贡献。\n* @MatthewGlenn 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F239 中完成了首次贡献。\n* @kaveet 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F243 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.6.0...v1.7.0","2024-12-17T00:39:07",{"id":190,"version":191,"summary_zh":192,"released_at":193},247015,"v1.6.0","### 变更\r\n\r\n- 升级了\r\n  - [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)@[v20240930](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20240930)\r\n  - fastapi 至 v0.115.0\r\n  - uvicorn 至 v0.31.0\r\n  - tqdm 至 v4.66.5\r\n  - python-multipart 至 v0.0.12\r\n\r\n## 变更内容\r\n* 版本 1.5.0，由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F231 中发布\r\n* 将 OpenAI Whisper 升级至 v20240930（turbo），由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F244 中完成\r\n\r\n\r\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.5.0...v1.6.0","2024-10-06T16:30:00",{"id":195,"version":196,"summary_zh":197,"released_at":198},247016,"v1.5.0","### 变更\r\n\r\n- 升级了\r\n  - [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) 至 [v1.0.3](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.0.3)\r\n  - fastapi 至 v0.111.0\r\n  - uvicorn 至 v0.30.1\r\n  - gunicorn 至 v22.0.0\r\n  - tqdm 至 v4.66.4\r\n  - llvmlite 至 v0.43.0\r\n  - numba 至 v0.60.0\r\n\r\n\r\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.4.1...v1.5.0","2024-07-04T16:40:20",{"id":200,"version":201,"summary_zh":202,"released_at":203},247017,"v1.4.1","### 变更\r\n\r\n- 将 torch 升级至 v1.13.1\r\n\r\n## 变更内容\r\n* 将 torch 升级至 v1.13.1，修复了由 @ahmetoner 在 https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F212 中提出的 #206 问题。\r\n\r\n\r\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.4.0...v1.4.1","2024-04-16T23:29:45",{"id":205,"version":206,"summary_zh":207,"released_at":208},247018,"v1.4.0","### Changed\r\n\r\n- Upgraded\r\n    - [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) to [v1.0.1](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv1.0.1)\r\n    - fastapi to v0.110.1\r\n    - uvicorn to v0.29.0\r\n    - gunicorn to v21.2.0\r\n    - tqdm to v4.66.2\r\n    - python-multipart to v0.0.9\r\n    - llvmlite to v0.42.0\r\n    - numba to v0.59.1\r\n\r\n\r\n## What's Changed\r\n* Upgrade dependencies by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F210\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.3.0...v1.4.0","2024-04-16T23:15:30",{"id":210,"version":211,"summary_zh":212,"released_at":213},247019,"v1.3.0","### Added\r\n\r\n- Compiled and added FFmpeg without LGPL libraries for license compliance\r\n\r\n## What's Changed\r\n\r\n* Add image EXPOSE commands by @nick-allen in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F188\r\n* updated docs\u002Fendpoints.md with list of request params and example curl request by @ariym in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F185\r\n* Fix fileName with non-ASCII char error :  https:\u002F\u002Fgithub.com\u002Fahmetone… by @zj1123581321 in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F184\r\n* Add FFmpeg compiling Docker stage by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F194\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.2.4...v1.3.0","2024-02-15T22:31:08",{"id":215,"version":216,"summary_zh":217,"released_at":218},247020,"v1.2.4","### Changed\r\n\r\n- Upgraded\r\n    - [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) to [v20231117](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20231117)\r\n    - [SYSTRAN\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) to [v0.10.0](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Freleases\u002Ftag\u002F0.10.0)\r\n\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.2.3...v1.2.4","2023-11-27T21:52:09",{"id":220,"version":221,"summary_zh":222,"released_at":223},247021,"v1.2.3","## What's Changed\r\n* Upgrade Whisper to `v20231106` for `large-v3` by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F160\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.2.2...v1.2.3","2023-11-06T23:12:13",{"id":225,"version":226,"summary_zh":227,"released_at":228},247022,"v1.2.2","### Fixed\r\n\r\n- Fixed `swagger-ui` rendering issues by upgrading to `v5.9.1`, fixes #153 and #154\r\n\r\n---\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.2.1...v1.2.2","2023-11-03T11:24:59",{"id":230,"version":231,"summary_zh":232,"released_at":233},247023,"v1.2.1","### Enabled\r\n\r\n- Enabled `vad_filter` for `faster-whisper` engine\r\n\r\n### Changed\r\n\r\n- Changed misspelling in \"Word level timestamps\"\r\n- Removed unused unidecode dependency\r\n- Upgraded\r\n    - uvicorn to v0.23.2\r\n    - gunicorn to v21.0.1\r\n    - tqdm to v4.66.1\r\n    - python-multipart to v0.0.6\r\n    - fastapi to v0.104.1\r\n    - llvmlite to v0.41.1\r\n    - numba to v0.58.0\r\n\r\n---\r\n\r\n## What's Changed\r\n* Upgrade whisper by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F136\r\n* Release 1.2.0 by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F137\r\n* Enhance faster_whisper Engine by @EvilFreelancer in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F128\r\n* Upgrade dependencies by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F151\r\n\r\n## New Contributors\r\n* @EvilFreelancer made their first contribution in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F128\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.1.1...v1.2.1","2023-11-03T00:05:53",{"id":235,"version":236,"summary_zh":237,"released_at":238},247024,"v1.2.0","### Changed\r\n\r\n- Upgraded\r\n    - [openai\u002Fwhisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) to [v20230918](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Freleases\u002Ftag\u002Fv20230918)\r\n    - [guillaumekln\u002Ffaster-whisper](https:\u002F\u002Fgithub.com\u002Fguillaumekln\u002Ffaster-whisper) to [v0.9.0](https:\u002F\u002Fgithub.com\u002Fguillaumekln\u002Ffaster-whisper\u002Freleases\u002Ftag\u002Fv0.9.0)\r\n\r\n### Added\r\n\r\n- Added Word-Level Timestamps option for OpenAI Whisper\r\n\r\n### Updated\r\n\r\n- Updated model conversion method (for Faster Whisper) to use Hugging Face downloader\r\n- Updated default model paths to `~\u002F.cache\u002Fwhisper`.\r\n    - For customization, modify the `ASR_MODEL_PATH` environment variable.\r\n    - Ensure Docker volume is set for the corresponding directory to use caching.\r\n      ```bash\r\n      docker run -d -p 9000:9000 -e ASR_MODEL_PATH=\u002Fdata\u002Fwhisper -v .\u002Fyourlocaldir:\u002Fdata\u002Fwhisper onerahmet\u002Fopenai-whisper-asr-webservice:latest\r\n      ```\r\n- Removed the `triton` dependency from `poetry.lock` to ensure the stability of the pipeline for `ARM-based` Docker images","2023-10-01T20:41:49",{"id":240,"version":241,"summary_zh":242,"released_at":243},247025,"v1.1.1","## What's Changed\r\n* 94 gpus that dont support float16 by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F103\r\n* Update compute type by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F108\r\n* Add word level functionality for Faster Whisper by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F109\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.1.0...v1.1.1","2023-05-29T11:21:02",{"id":245,"version":246,"summary_zh":247,"released_at":248},247026,"v1.1.0","## What's Changed\r\n* Docs by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F72\r\n* Fix language code typo by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F77\r\n* Adds support for FasterWhisper by @alienware in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F81\r\n* Add an optional param to skip the encoding step by @ayancey in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F82\r\n* Faster whisper by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F92\r\n\r\n## New Contributors\r\n* @alienware made their first contribution in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F81\r\n* @ayancey made their first contribution in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F82\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.0.6...v1.1.0","2023-04-17T20:29:46",{"id":250,"version":251,"summary_zh":252,"released_at":253},247027,"v1.0.6","## What's Changed\r\n* Update README.md by @Dalesjo in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F58\r\n* 68 update the versions by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F69\r\n* Fix gunicorn run command and remove deprecated poetry run script by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F70\r\n* Move torch installation method into the pyproject.toml file by @ahmetoner in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F71\r\n* Add prompt to ASR by @vijaim in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F66\r\n\r\n## New Contributors\r\n* @Dalesjo made their first contribution in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F58\r\n* @vijaim made their first contribution in https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fpull\u002F66\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fahmetoner\u002Fwhisper-asr-webservice\u002Fcompare\u002Fv1.0.5...v1.0.6","2023-02-05T00:33:01"]