RapidASR

605 70 简单 1 次阅读 1周前MIT音频

AI 解读由 AI 自动生成，仅供参考

RapidASR 是一款专为高效语音转文字打造的开源工具库，旨在让开发者轻松集成商用级自动语音识别（ASR）能力。它解决了传统 ASR 模型部署复杂、跨平台兼容性差以及中英文混合识别效果不佳等痛点，实现了真正的“开箱即用”。

无论是需要快速构建语音交互应用的软件工程师，还是希望低成本验证算法的研究人员，RapidASR 都是理想选择。其核心优势在于基于阿里达摩院强大的 Paraformer 模型，并采用 ONNXRuntime 推理引擎，不仅大幅降低了资源消耗，还完美支持 Linux、Windows 和 macOS 全平台运行。

在技术架构上，RapidASR 提供了简洁易用的 API 接口，支持 Python 和 C++ 双语言调用。它内置了完整的处理流水线：先通过 RapidVad 精准切除静音片段，再利用核心引擎进行高精度的中英文混合识别，最后可选配 RapidPunc 自动添加标点符号，直接输出通顺的最终文本。此外，项目还支持批量推理及多种音频输入格式，并持续更新以修复潜在问题。如果你正在寻找一个稳定、快速且易于集成的语音识别方案，RapidASR 值得加入你的技术栈。

使用场景

某在线教育平台的技术团队需要每天处理数千小时的双语教学录像，将其自动转化为带标点、可检索的课程字幕文件。

没有 RapidASR 时

部署极其繁琐：依赖复杂的深度学习框架（如 PyTorch），在不同操作系统（Windows/Mac/Linux）上配置环境耗时数天，且极易出现版本冲突。
中英混合识别差：原有方案在处理老师频繁切换中英文授课的场景时，经常将英文单词识别为谐音中文，导致字幕无法阅读。
缺乏后处理：识别出的文本是一长串无标点的字符流，后期必须安排专人手动断句和添加标点，人力成本高昂。
推理速度慢：未针对推理引擎优化，批量处理视频时 GPU 利用率低，转写任务往往需要排队过夜才能完成。

使用 RapidASR 后

开箱即用：基于 ONNXRuntime 构建，支持全平台一键安装，团队在几小时内便完成了从测试到生产环境的部署。
精准混合识别：内置阿里达摩院 Paraformer 模型，完美捕捉“这个 Algorithm 非常高效”类的中英混读内容，准确率显著提升。
自动化流水线：结合 RapidVad 进行语音检测分段，并串联 RapidPunc 自动添加标点，直接输出格式规范的最终字幕，无需人工二次编辑。
高效批量推理：支持多线程与批量输入，推理速度大幅提升，原本需要整晚的任务现在两小时内即可全部交付。

RapidASR 通过极简的 API 和高效的推理引擎，将复杂的语音识别工程化难题转化为简单的代码调用，极大降低了多语言音视频内容的处理门槛与成本。

运行环境要求

操作系统

Linux
Windows
macOS

GPU

未说明 (基于 ONNXRuntime 推理引擎，通常支持 CPU 及可选 GPU 加速，具体配置未在文中列出)

内存

未说明

依赖

notes该项目核心采用 ONNXRuntime 推理引擎，已对阿里达摩院 Paraformer 模型进行转换；支持 C++ 和 Python 接口；支持批量推理（需在 config.yaml 中配置 batch_size）；输入支持字符串、numpy 数组或列表形式。

python>=3.6, <3.13

onnxruntime

librosa

快速开始

Rapid ASR

🎉 推出知识星球RapidAI私享群，这里的提问会优先得到回答和支持，也会享受到RapidAI组织后续持续优质的服务。欢迎大家的加入。
Paraformer模型出自阿里达摩院Paraformer语音识别-中文-通用-16k-离线-large-pytorch。
本仓库仅对模型做了转换，只采用ONNXRuntime推理引擎。该项目核心代码已经并入FunASR。
项目仍会持续更新，欢迎关注。
QQ群号：645751008

📖文档导航

语音识别：
- rapid_paraformer:
  - rapid_paraformer-Python
  - rapid_C++/C
- rapid_wenet
  - Python
  - C++
- rapid_paddlespeech-Python
标点符号
- RapidPunc

📆TODO以及任务认领

参见这里：link

🎨整体框架

flowchart LR

A([wav]) --RapidVad--> B([各个小段的音频]) --RapidASR--> C([识别的文本内容]) --RapidPunc--> D([最终识别内容])

📣更新日志

详情

- 2023-08-21 v2.0.4 update: - 添加whl包支持 - 更新文档 - 2023-02-25 - 添加C++版本推理，使用onnxruntime引擎，预/后处理代码来自： [FastASR](https://github.com/chenkui164/FastASR) - 2023-02-14 v2.0.3 update: - 修复librosa读取wav文件错误 - 修复fbank与torch下fbank提取结果不一致bug - 2023-02-11 v2.0.2 update: - 模型和推理代码解耦（`rapid_paraformer`和`resources`） - 支持批量推理（通过`resources/config.yaml`中`batch_size`指定） - 增加多种输入方式（`Union[str, np.ndarray, List[str]]`） - 2023-02-10 v2.0.1 update: - 添加对输入音频为噪音或者静音的文件推理结果捕捉。

RapidASR 快速上手指南

RapidASR 是一个基于 ONNXRuntime 推理引擎的高效语音识别工具，核心模型采用阿里达摩院的 Paraformer。它支持 Linux、Windows 和 macOS，提供 Python 和 C++ 接口，专注于离线、高精度的中文语音转文字任务。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / Windows / macOS
Python 版本：3.6 <= Python < 3.13
依赖引擎：项目内置 ONNXRuntime，无需单独配置复杂的深度学习框架（如 PyTorch/TensorFlow）即可进行推理。
C++ 支持（可选）：如需使用 C++ 接口，需具备 C++ 编译环境及 ONNXRuntime C++ 库。

安装步骤

推荐使用 pip 直接安装预编译的 wheel 包，这是最快捷的方式。

pip install rapid_paraformer

提示：如果下载速度较慢，可以使用国内镜像源加速安装：
pip install rapid_paraformer -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，首次运行时工具会自动下载所需的模型资源（Paraformer 模型及配置文件）到本地缓存目录。

基本使用

以下是最简单的 Python 调用示例，用于将音频文件转换为文本。

1. 导入与初始化

from rapid_paraformer import RapidParaformer

# 初始化识别器
# 默认会自动下载模型，也可指定本地模型路径
asr = RapidParaformer()

2. 执行识别

支持多种输入格式：音频文件路径字符串、numpy 数组或文件路径列表（批量推理）。

单文件识别：

# 传入音频文件路径
result = asr('test.wav')

# 打印识别结果
print(result)
# 输出示例：[{'text': '你好，这是一个测试音频。', 'timestamp': [...]}]

批量识别：

# 传入文件路径列表
files = ['audio_1.wav', 'audio_2.wav']
results = asr(files)

for res in results:
    print(res['text'])

3. 完整流程建议

根据官方架构，为了获得最佳效果，建议配合 VAD（语音活动检测） 和 标点恢复 模块使用：

使用 RapidVad 切除静音片段。
使用 RapidASR (本工具) 识别语音内容。
使用 RapidPunc 为识别出的文本添加标点符号。

更多高级用法（如调整 batch_size、自定义配置）请参考项目子模块文档。

版本历史

v2.0.52024/05/15

v2.0.02023/02/09

v1.0.02023/02/05

常见问题

运行时报错 'InvalidProtobuf: Protobuf parsing failed' 或无法解析模型怎么办？

使用自定义导出的 ONNX 模型时报错 'Model requires X inputs. Input Feed contains Y' 如何解决？

为什么使用 GPU 版本（onnxruntime-gpu）进行预测时，速度反而比 CPU 慢？

如何配置才能让 ONNX Runtime 使用 CUDA (GPU) 进行加速？

该项目是否还在维护？与 FunASR 有什么区别？

自己将 WeNet 模型转为 ONNX 后，维度或结构与官方提供的模型不一致怎么办？

运行 demo 时报错 'ValueError: negative dimensions are not allowed' 是什么原因？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|3天前

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|6天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|6天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|5天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|4天前

语言模型音频Agent