[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-RapidAI--RapidASR":3,"tool-RapidAI--RapidASR":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,2,"2026-04-08T11:03:08",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},5908,"ChatTTS","2noise\u002FChatTTS","ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。\n\n这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。",39042,"2026-04-09T11:54:03",[19,17,20,21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":100,"forks":101,"last_commit_at":102,"license":103,"difficulty_score":10,"env_os":104,"env_gpu":105,"env_ram":106,"env_deps":107,"category_tags":113,"github_topics":114,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":22,"created_at":119,"updated_at":120,"faqs":121,"releases":157},5837,"RapidAI\u002FRapidASR","RapidASR","📣 商用级开源语音自动识别程序库，开箱即用，全平台支持，中英文混合识别。A Cross-platform implementation of ASR inference. It's based on ONNXRuntime and  FunASR. We provide a set of easier APIs to call ASR models.","RapidASR 是一款专为高效语音转文字打造的开源工具库，旨在让开发者轻松集成商用级自动语音识别（ASR）能力。它解决了传统 ASR 模型部署复杂、跨平台兼容性差以及中英文混合识别效果不佳等痛点，实现了真正的“开箱即用”。\n\n无论是需要快速构建语音交互应用的软件工程师，还是希望低成本验证算法的研究人员，RapidASR 都是理想选择。其核心优势在于基于阿里达摩院强大的 Paraformer 模型，并采用 ONNXRuntime 推理引擎，不仅大幅降低了资源消耗，还完美支持 Linux、Windows 和 macOS 全平台运行。\n\n在技术架构上，RapidASR 提供了简洁易用的 API 接口，支持 Python 和 C++ 双语言调用。它内置了完整的处理流水线：先通过 RapidVad 精准切除静音片段，再利用核心引擎进行高精度的中英文混合识别，最后可选配 RapidPunc 自动添加标点符号，直接输出通顺的最终文本。此外，项目还支持批量推理及多种音频输入格式，并持续更新以修复潜在问题。如果你正在寻找一个稳定、快速且易于集成的语音识别方案，RapidASR 值得加入你的技术栈。","## Rapid ASR\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FSWHL\u002FRapidASRDemo\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97-Hugging Face Demo-blue\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fliekkas\u002FRapidASRDemo\u002Fsummary\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Demo-blue\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOS-Linux%2C%20Win%2C%20Mac-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython->=3.6,\u003C3.13-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FC++-aff.svg\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n- 🎉 推出知识星球[RapidAI私享群](https:\u002F\u002Ft.zsxq.com\u002F0duLBZczw)，这里的提问会优先得到回答和支持，也会享受到RapidAI组织后续持续优质的服务。欢迎大家的加入。\n- Paraformer模型出自阿里达摩院[Paraformer语音识别-中文-通用-16k-离线-large-pytorch](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fdamo\u002Fspeech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary)。\n- 本仓库仅对模型做了转换，只采用ONNXRuntime推理引擎。该项目核心代码已经并入[FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR)。\n- 项目仍会持续更新，欢迎关注。\n- QQ群号：645751008\n\n#### 📖文档导航\n- 语音识别：\n    - rapid_paraformer:\n        - [rapid_paraformer-Python](.\u002Fpython\u002FREADME.md)\n        - [rapid_C++\u002FC](.\u002Fcpp_onnx\u002Freadme.md)\n    - [rapid_wenet](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet)\n        - [Python](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet\u002Fpython)\n        - [C++](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet\u002Fcpp)\n    - [rapid_paddlespeech-Python](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_paddlespeech)\n- 标点符号\n    - [RapidPunc](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidPunc)\n\n#### 📆TODO以及任务认领\n- 参见这里：[link](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F15)\n\n#### 🎨整体框架\n```mermaid\nflowchart LR\n\nA([wav]) --RapidVad--> B([各个小段的音频]) --RapidASR--> C([识别的文本内容]) --RapidPunc--> D([最终识别内容])\n```\n\n#### 📣更新日志\n\u003Cdetails>\n\u003Csummary>详情\u003C\u002Fsummary>\n- 2023-08-21 v2.0.4 update:\n  - 添加whl包支持\n  - 更新文档\n- 2023-02-25\n   - 添加C++版本推理，使用onnxruntime引擎，预\u002F后处理代码来自： [FastASR](https:\u002F\u002Fgithub.com\u002Fchenkui164\u002FFastASR)\n- 2023-02-14 v2.0.3 update:\n  - 修复librosa读取wav文件错误\n  - 修复fbank与torch下fbank提取结果不一致bug\n- 2023-02-11 v2.0.2 update:\n  - 模型和推理代码解耦（`rapid_paraformer`和`resources`）\n  - 支持批量推理（通过`resources\u002Fconfig.yaml`中`batch_size`指定）\n  - 增加多种输入方式（`Union[str, np.ndarray, List[str]]`）\n- 2023-02-10 v2.0.1 update:\n  - 添加对输入音频为噪音或者静音的文件推理结果捕捉。\n\n\u003C\u002Fdetails>\n","## Rapid ASR\n\u003Cp align=\"left\">\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FSWHL\u002FRapidASRDemo\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97-Hugging Face Demo-blue\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fwww.modelscope.cn\u002Fstudios\u002Fliekkas\u002FRapidASRDemo\u002Fsummary\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Demo-blue\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOS-Linux%2C%20Win%2C%20Mac-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython->=3.6,\u003C3.13-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FC++-aff.svg\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n- 🎉 推出知识星球[RapidAI私享群](https:\u002F\u002Ft.zsxq.com\u002F0duLBZczw)，这里的提问会优先得到回答和支持，也会享受到RapidAI组织后续持续优质的服务。欢迎大家的加入。\n- Paraformer模型出自阿里达摩院[Paraformer语音识别-中文-通用-16k-离线-large-pytorch](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fdamo\u002Fspeech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary)。\n- 本仓库仅对模型做了转换，只采用ONNXRuntime推理引擎。该项目核心代码已经并入[FunASR](https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FFunASR)。\n- 项目仍会持续更新，欢迎关注。\n- QQ群号：645751008\n\n#### 📖文档导航\n- 语音识别：\n    - rapid_paraformer:\n        - [rapid_paraformer-Python](.\u002Fpython\u002FREADME.md)\n        - [rapid_C++\u002FC](.\u002Fcpp_onnx\u002Freadme.md)\n    - [rapid_wenet](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet)\n        - [Python](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet\u002Fpython)\n        - [C++](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_wenet\u002Fcpp)\n    - [rapid_paddlespeech-Python](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Ftree\u002Frapid_paddlespeech)\n- 标点符号\n    - [RapidPunc](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidPunc)\n\n#### 📆TODO以及任务认领\n- 参见这里：[link](https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F15)\n\n#### 🎨整体框架\n```mermaid\nflowchart LR\n\nA([wav]) --RapidVad--> B([各个小段的音频]) --RapidASR--> C([识别的文本内容]) --RapidPunc--> D([最终识别内容])\n```\n\n#### 📣更新日志\n\u003Cdetails>\n\u003Csummary>详情\u003C\u002Fsummary>\n- 2023-08-21 v2.0.4 update:\n  - 添加whl包支持\n  - 更新文档\n- 2023-02-25\n   - 添加C++版本推理，使用onnxruntime引擎，预\u002F后处理代码来自： [FastASR](https:\u002F\u002Fgithub.com\u002Fchenkui164\u002FFastASR)\n- 2023-02-14 v2.0.3 update:\n  - 修复librosa读取wav文件错误\n  - 修复fbank与torch下fbank提取结果不一致bug\n- 2023-02-11 v2.0.2 update:\n  - 模型和推理代码解耦（`rapid_paraformer`和`resources`）\n  - 支持批量推理（通过`resources\u002Fconfig.yaml`中`batch_size`指定）\n  - 增加多种输入方式（`Union[str, np.ndarray, List[str]]`）\n- 2023-02-10 v2.0.1 update:\n  - 添加对输入音频为噪音或者静音的文件推理结果捕捉。\n\n\u003C\u002Fdetails>","# RapidASR 快速上手指南\n\nRapidASR 是一个基于 ONNXRuntime 推理引擎的高效语音识别工具，核心模型采用阿里达摩院的 Paraformer。它支持 Linux、Windows 和 macOS，提供 Python 和 C++ 接口，专注于离线、高精度的中文语音转文字任务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F Windows \u002F macOS\n*   **Python 版本**：3.6 \u003C= Python \u003C 3.13\n*   **依赖引擎**：项目内置 ONNXRuntime，无需单独配置复杂的深度学习框架（如 PyTorch\u002FTensorFlow）即可进行推理。\n*   **C++ 支持**（可选）：如需使用 C++ 接口，需具备 C++ 编译环境及 ONNXRuntime C++ 库。\n\n## 安装步骤\n\n推荐使用 pip 直接安装预编译的 wheel 包，这是最快捷的方式。\n\n```bash\npip install rapid_paraformer\n```\n\n> **提示**：如果下载速度较慢，可以使用国内镜像源加速安装：\n> ```bash\n> pip install rapid_paraformer -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n安装完成后，首次运行时工具会自动下载所需的模型资源（Paraformer 模型及配置文件）到本地缓存目录。\n\n## 基本使用\n\n以下是最简单的 Python 调用示例，用于将音频文件转换为文本。\n\n### 1. 导入与初始化\n\n```python\nfrom rapid_paraformer import RapidParaformer\n\n# 初始化识别器\n# 默认会自动下载模型，也可指定本地模型路径\nasr = RapidParaformer()\n```\n\n### 2. 执行识别\n\n支持多种输入格式：音频文件路径字符串、numpy 数组或文件路径列表（批量推理）。\n\n**单文件识别：**\n\n```python\n# 传入音频文件路径\nresult = asr('test.wav')\n\n# 打印识别结果\nprint(result)\n# 输出示例：[{'text': '你好，这是一个测试音频。', 'timestamp': [...]}]\n```\n\n**批量识别：**\n\n```python\n# 传入文件路径列表\nfiles = ['audio_1.wav', 'audio_2.wav']\nresults = asr(files)\n\nfor res in results:\n    print(res['text'])\n```\n\n### 3. 完整流程建议\n\n根据官方架构，为了获得最佳效果，建议配合 **VAD（语音活动检测）** 和 **标点恢复** 模块使用：\n\n1.  使用 `RapidVad` 切除静音片段。\n2.  使用 `RapidASR` (本工具) 识别语音内容。\n3.  使用 `RapidPunc` 为识别出的文本添加标点符号。\n\n更多高级用法（如调整 batch_size、自定义配置）请参考项目子模块文档。","某在线教育平台的技术团队需要每天处理数千小时的双语教学录像，将其自动转化为带标点、可检索的课程字幕文件。\n\n### 没有 RapidASR 时\n- **部署极其繁琐**：依赖复杂的深度学习框架（如 PyTorch），在不同操作系统（Windows\u002FMac\u002FLinux）上配置环境耗时数天，且极易出现版本冲突。\n- **中英混合识别差**：原有方案在处理老师频繁切换中英文授课的场景时，经常将英文单词识别为谐音中文，导致字幕无法阅读。\n- **缺乏后处理**：识别出的文本是一长串无标点的字符流，后期必须安排专人手动断句和添加标点，人力成本高昂。\n- **推理速度慢**：未针对推理引擎优化，批量处理视频时 GPU 利用率低，转写任务往往需要排队过夜才能完成。\n\n### 使用 RapidASR 后\n- **开箱即用**：基于 ONNXRuntime 构建，支持全平台一键安装，团队在几小时内便完成了从测试到生产环境的部署。\n- **精准混合识别**：内置阿里达摩院 Paraformer 模型，完美捕捉“这个 Algorithm 非常高效”类的中英混读内容，准确率显著提升。\n- **自动化流水线**：结合 RapidVad 进行语音检测分段，并串联 RapidPunc 自动添加标点，直接输出格式规范的最终字幕，无需人工二次编辑。\n- **高效批量推理**：支持多线程与批量输入，推理速度大幅提升，原本需要整晚的任务现在两小时内即可全部交付。\n\nRapidASR 通过极简的 API 和高效的推理引擎，将复杂的语音识别工程化难题转化为简单的代码调用，极大降低了多语言音视频内容的处理门槛与成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRapidAI_RapidASR_a2144360.png","RapidAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FRapidAI_02594d36.png","An open source organization for the development of AI based applications. We do not train a model but  apply models.",null,"znsoft@163.com","_SWHL","https:\u002F\u002Frapidai.tech","https:\u002F\u002Fgithub.com\u002FRapidAI",[84,88,92,96],{"name":85,"color":86,"percentage":87},"C++","#f34b7d",75.2,{"name":89,"color":90,"percentage":91},"C","#555555",16,{"name":93,"color":94,"percentage":95},"Python","#3572A5",8.4,{"name":97,"color":98,"percentage":99},"CMake","#DA3434",0.5,605,70,"2026-03-31T12:16:11","MIT","Linux, Windows, macOS","未说明 (基于 ONNXRuntime 推理引擎，通常支持 CPU 及可选 GPU 加速，具体配置未在文中列出)","未说明",{"notes":108,"python":109,"dependencies":110},"该项目核心采用 ONNXRuntime 推理引擎，已对阿里达摩院 Paraformer 模型进行转换；支持 C++ 和 Python 接口；支持批量推理（需在 config.yaml 中配置 batch_size）；输入支持字符串、numpy 数组或列表形式。",">=3.6, \u003C3.13",[111,112],"onnxruntime","librosa",[21],[115,116,117,118],"asr","paraformer","paddlespeech","wenet","2026-03-27T02:49:30.150509","2026-04-09T20:51:46.560526",[122,127,132,137,142,147,152],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},26472,"运行时报错 'InvalidProtobuf: Protobuf parsing failed' 或无法解析模型怎么办？","这通常是由于 onnx 或 onnxruntime 版本不兼容导致的。建议参考相关 Issue（如 #15）检查依赖版本。确保安装的 onnx 和 onnxruntime 版本与项目 requirements.txt 一致，或者尝试更新\u002F降级这两个库到稳定版本。如果在不同操作系统间切换（如 Mac 到 Windows），请重新创建虚拟环境并严格按要求安装依赖。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F13",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},26473,"使用自定义导出的 ONNX 模型时报错 'Model requires X inputs. Input Feed contains Y' 如何解决？","这是因为自定义训练的模型配置与推理代码预期的输入不一致。解决方法如下：\n1. 使用 [Netron](https:\u002F\u002Fnetron.app\u002F) 可视化你的 ONNX 模型。\n2. 点击输入节点（Input Node），在右侧面板检查实际的输入数量和数据形状。\n3. 确保你训练的模型配置（如 conformer.yaml）与项目默认配置完全一致，因为推理代码是基于特定配置生成的。\n如果输入数量不匹配，需要重新导出模型或修改推理代码以适配你的模型输入。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F2",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},26474,"为什么使用 GPU 版本（onnxruntime-gpu）进行预测时，速度反而比 CPU 慢？","这是预期行为。onnxruntime-gpu 对动态输入（dynamic axes）的支持较差，导致在处理变长音频时效率低下，速度甚至不如 CPU。这在 RapidOCR 等类似项目中也有相同表现。如果主要处理不定长音频且对延迟敏感，建议在 CPU 上运行或使用固定长度输入的优化方案。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F26",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},26475,"如何配置才能让 ONNX Runtime 使用 CUDA (GPU) 进行加速？","仅仅在配置文件中将 use_cuda 改为 true 是不够的，必须确保 Python 环境中安装了正确的包：\n1. 卸载当前的 cpu 版本：`pip uninstall onnxruntime`\n2. 安装 gpu 版本：`pip install onnxruntime-gpu`\n安装完成后，再在配置文件中使用 `use_cuda: true` 及相关 CUDAExecutionProvider 参数即可生效。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F33",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},26476,"该项目是否还在维护？与 FunASR 有什么区别？","该项目会持续更新。主要区别在于：RapidASR 更侧重于工程化落地，代码结构更加简洁易用，且不局限于阿里系的 ASR 模型，支持更多样化的模型集成；而 FunASR 是阿里达摩院的全功能算法库。如果你需要轻量级、易部署的解决方案，RapidASR 是更好的选择。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F12",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},26477,"自己将 WeNet 模型转为 ONNX 后，维度或结构与官方提供的模型不一致怎么办？","请严格使用项目提供的模型转换代码进行操作。推荐的转换环境配置为：`python3.7`, `torch1.10`, `1 个 GPU`, `16 CPU`, `内存 32G`。维度对不上（如官方输出 512 而自己转出 256）通常是因为训练时的配置文件（yaml）与转换脚本不匹配，或者 PyTorch 版本差异导致导出图结构变化。请务必核对训练配置是否与项目示例（如 aishell s0 conf）一致。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F11",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},26478,"运行 demo 时报错 'ValueError: negative dimensions are not allowed' 是什么原因？","该错误通常发生在特征提取阶段（feature.py），原因是输入音频文件的时长过短，导致计算滑动窗口时出现负数维度（x.shape[-1] - window_size + 1 \u003C 0）。请检查输入的 wav 文件是否有效且长度足够（通常需大于帧移和窗口大小的总和）。如果问题依然存在，请提供具体的 wav 文件以便复现排查。","https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fissues\u002F3",[158,163,168],{"id":159,"version":160,"summary_zh":161,"released_at":162},171710,"v2.0.5","## 变更内容\n* 在 https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fpull\u002F4 中，由 @SWHL 添加代码以捕获推断 wav 文件时的错误。\n* 在 https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fpull\u002F5 中，由 @SWHL 创建 LICENSE 文件。\n* 在 https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fpull\u002F34 中，由 @peach-water 使用 numpy 实现 DCT 函数。\n\n## 新贡献者\n* @SWHL 在 https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fpull\u002F4 中完成了首次贡献。\n* @peach-water 在 https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fpull\u002F34 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FRapidAI\u002FRapidASR\u002Fcompare\u002Fv2.0.0...v2.0.5","2024-05-15T04:57:31",{"id":164,"version":165,"summary_zh":166,"released_at":167},171711,"v2.0.0","- 解决v1.0.0中不支持变长推理的问题","2023-02-09T00:37:18",{"id":169,"version":170,"summary_zh":171,"released_at":172},171712,"v1.0.0","- 完全基于ONNX Runtime推理引擎进行推理，跨平台部署便捷。 - 模型效果达到当前最优水平，推理速度非常快。","2023-02-05T07:09:54"]