GigaAM

GitHub
547 81 简单 1 次阅读 今天MIT音频视频
AI 解读 由 AI 自动生成,仅供参考

GigaAM 是一套专为语音处理打造的开源基础模型家族,核心聚焦于高精度的俄语语音识别与情感分析。它有效解决了传统模型在面对呼叫中心录音、音乐背景、非典型语音特征及语音消息等复杂场景时识别率下降的难题,同时在公开基准测试中保持了顶尖水平。

这套工具特别适合 AI 开发者、语音技术研究人员以及需要构建定制化语音应用的企业团队使用。无论是希望快速集成高精度识别能力,还是打算基于现有模型进行微调(支持 CTC 和 RNNT 等多种解码器),GigaAM 都提供了灵活的支持。

其技术亮点显著:最新的 GigaAM-v3 版本通过在高达 70 万小时的多样化数据上预训练,在新领域数据上的词错误率(WER)降低了 30%。在端到端转录任务的对比中,GigaAM 甚至以 70:30 的优势超越了知名的 Whisper-large-v3 模型。此外,它还支持标点符号自动添加、文本规范化、单词级时间戳定位,并提供 ONNX 导出及 Triton 推理服务器部署方案,方便用户在不同环境下高效运行。项目采用宽松的 MIT 协议开源,社区友好,是深耕俄语语音技术的理想选择。

使用场景

某大型俄语客服中心正在构建智能质检系统,需将每日数万通包含背景噪音、音乐等待音及情绪波动的通话录音自动转为带标点的时间戳文本。

没有 GigaAM 时

  • 识别准确率低:通用模型在处理俄语特有的连读、方言或呼叫中心特有的嘈杂背景(如音乐等待音)时,词错误率(WER)极高,关键信息丢失严重。
  • 缺乏情感洞察:传统语音转文字工具仅输出纯文本,无法同步识别客户愤怒或焦虑的情绪,导致质检员需人工回听录音判断服务态度。
  • 后处理成本高:输出的文本缺乏标点符号和规范化格式,需要额外的 NLP 模型进行断句和清洗,增加了系统延迟和维护复杂度。
  • 长音频支持弱:面对长达数十分钟的完整通话录音,现有方案常出现截断或上下文丢失,难以生成连贯的对话记录。

使用 GigaAM 后

  • 领域适应性极强:GigaAM-v3 专为呼叫中心、音乐背景及非典型语音特征训练,在新数据域上的识别错误率降低了 30%,即使在高噪环境下也能精准捕捉俄语细节。
  • 原生情感识别:直接调用 GigaAM-Emo 模型,在转录同时输出情绪标签,宏观 F1 分数提升 15%,帮助系统自动标记潜在投诉风险。
  • 端到端标准化输出:利用 GigaAM-v3-e2e 版本,直接生成带标点、已规范化的文本及单词级时间戳,省去了繁琐的后处理流水线。
  • 长表单推理稳定:结合外部语音活动检测(VAD),GigaAM 能流畅处理超长通话录音,保持上下文连贯性,且在对比测试中优于 Whisper-large-v3。

GigaAM 通过单一基础模型家族解决了俄语场景下从高精度转录、情感分析到长音频处理的全链路难题,显著降低了客服智能化的落地门槛。

运行环境要求

操作系统
  • 未说明
GPU
  • 非必需(支持 CPU 运行)
  • 若需 GPU 加速或部署,建议使用 NVIDIA GPU
  • ONNX 导出支持 float16 以节省显存并提升速度,具体显存需求取决于模型版本(参数量约 2.2-2.4 亿)及是否进行长音频处理或微调
内存

未说明(微调部分提及有不同 VRAM 约束的示例,暗示内存需求随任务变化)

依赖
notes必须安装 ffmpeg 并添加到系统 PATH。默认 transcribe 函数仅支持 25 秒以内音频,处理长音频需额外安装 pyannote.audio 并配置 Hugging Face Token。模型支持导出为 ONNX 格式(默认 fp32,推荐 GPU 部署使用 fp16),也可通过 Triton Inference Server 和 TensorRT 进行服务器端部署。微调功能基于 PyTorch Lightning。
python3.10+
torch
ffmpeg
pyannote.audio (可选,用于长音频)
onnxruntime / onnxruntime-gpu
transformers (用于从 HuggingFace 加载)
pytest (可选,用于测试)
GigaAM hero image

快速开始

GigaAM:用于语音处理的开源声学模型家族

许可证:MIT Python 3.10+ arXiv HuggingFace 在Colab中打开


图表

最新消息


设置

要求

  • Python ≥ 3.10
  • 已安装并添加到系统PATH中的ffmpeg

安装 GigaAM 包

# 克隆仓库
git clone https://github.com/salute-developers/GigaAM.git
cd GigaAM

# 安装包依赖
pip install -e .[torch]

# (可选)验证安装:
pip install -e ".[tests]"
pytest -v tests/test_loading.py -m partial  # 或 `-m full` 测试所有模型

GigaAM 概述

GigaAM 是一个基于Conformer的基础模型(2.2亿至2.4亿参数),在多样化的俄语语音数据上进行了预训练。它作为整个GigaAM家族的核心,能够实现语音识别和情感识别方面的最先进微调性能。有关GigaAM-v1的更多信息,请参阅我们在Habr上的文章。我们使用CTCRNNT解码器对GigaAM编码器进行了ASR微调。GigaAM家族包括三类模型:

预训练方法 预训练时长(小时) ASR训练时长(小时) 可用版本
v1 Wav2vec 2.0 50,000 2,000 v1_ssl, emo, v1_ctc, v1_rnnt
v2 HuBERT–CTC 50,000 2,000 v2_ssl, v2_ctc, v2_rnnt
v3 HuBERT–CTC 700,000 4,000 v3_ssl, v3_ctc, v3_rnnt, v3_e2e_ctc, v3_e2e_rnnt

其中,v3_e2e_ctcv3_e2e_rnnt支持标点符号和文本规范化。

模型性能

GigaAM-v3的训练引入了新的内部数据集:呼叫中心、音乐、具有非典型特征的语音以及语音消息。因此,在这些新领域上,模型的平均表现比GigaAM-v2提高了30%,同时在公开基准测试上仍保持与GigaAM-v2相同的质量。在将e2e_ctce2e_rnnt与Whisper进行独立LLM评判的并排比较中,GigaAM模型以平均70:30的优势获胜。我们的情感识别模型GigaAM-Emo在Macro F1-Score上比现有模型高出15%

详细结果请参见这里


使用方法

模型推理

注意: 使用.transcribe函数进行的ASR仅适用于不超过25秒的音频。要启用.transcribe_longform功能,请安装额外的pyannote.audio依赖项。

长音频设置说明
pip install -e ".[longform]"
# 可选地运行长音频测试
pip install -e ".[tests]"
HF_TOKEN=<您的Hugging Face令牌> pytest -v tests/test_longform.py

import gigaam

# 加载测试音频
audio_path = gigaam.utils.download_short_audio()
long_audio_path = gigaam.utils.download_long_audio()

# 音频嵌入
model_name = "v3_ssl"       # 选项:`v1_ssl`, `v2_ssl`, `v3_ssl`
model = gigaam.load_model(model_name)
embedding, _ = model.embed_audio(audio_path)
print(embedding)

# ASR
model_name = "v3_e2e_rnnt"  # 选项:任何带有 `_ctc` 或 `_rnnt` 后缀的模型版本
model = gigaam.load_model(model_name)
transcription = model.transcribe(audio_path)
print(transcription)

# 带有词级时间戳的ASR
result = model.transcribe(audio_path, word_timestamps=True)
for word in result.words:
    print(f"  [{word.start:.2f} - {word.end:.2f}] {word.text}")

# 以及长音频ASR
import os
os.environ["HF_TOKEN"] = <具有“pyannote/segmentation-3.0”读取权限的HF_TOKEN>
result = model.transcribe_longform(long_audio_path)
for segment in result:
   print(f"[{gigaam.format_time(segment.start)} - {gigaam.format_time(segment.end)}]: {segment.text}")

# 情感识别
model = gigaam.load_model("emo")
emotion2prob = model.get_probs(audio_path)
print(", ".join([f"{emotion}: {prob:.3f}" for emotion, prob in emotion2prob.items()]))

模型微调

CTC和RNNT模型都可以使用PyTorch Lightning在自定义数据上进行微调。有关所有训练参数的详细说明,请参阅train_utils/README.md。不同显存限制下的端到端示例可在train_utils/example.ipynb中找到。

从 Hugging Face 加载

注意: 请从示例中安装所需依赖项。

from transformers import AutoModel

model = AutoModel.from_pretrained("ai-sage/GigaAM-v3", revision="e2e_rnnt", trust_remote_code=True)

ONNX 导出与推理

注意: to_onnx 默认以 fp32 格式导出。若要在 GPU 上部署,请传递 dtype=torch.float16 — 这样速度更快且显存占用更少。可通过卸载 onnxruntime 并运行 pip install onnxruntime-gpu==1.22.* 来启用 GPU 支持。

  1. 使用 model.to_onnx 方法将模型导出为 ONNX 格式:

    onnx_dir = "onnx"
    model_version = "v3_ctc"  # 可选:任意版本
    
    model = gigaam.load_model(model_version)
    model.to_onnx(dir_path=onnx_dir, dtype=torch.float32)  # 或者 fp16(推荐用于 GPU)
    
  2. 运行 ONNX 推理:

    from gigaam.onnx_utils import load_onnx, infer_onnx
    
    sessions, model_cfg = load_onnx(onnx_dir, model_version)
    result = infer_onnx([audio_path], model_cfg, sessions)
    print(result[0])
    
    # 或者使用整个数据集
    texts = infer_onnx("/path/to/eval/manifest.tsv", model_cfg, sessions)
    print(texts[0])
    

更多示例,包括高级用法(例如自定义音频加载、批处理等),请参阅 Colab 笔记本

Triton 推理服务器与 TensorRT

所有语音识别模型均可通过 Triton 推理服务器以 ONNX/TRT 格式在服务器环境中使用。有关设置说明、模型转换及部署细节,请参阅 Triton 推理服务器文档


引用

如果您在研究中使用了 GigaAM,请引用我们的论文:

@inproceedings{kutsakov25_interspeech,
  title     = {{GigaAM: 高效的自监督语音识别学习器}},
  author    = {Aleksandr Kutsakov 和 Alexandr Maximenko 和 Georgii Gospodinov 和 Pavel Bogomolov 和 Fyodor Minkin},
  year      = {2025},
  booktitle = {{Interspeech 2025}},
  pages     = {1213--1217},
  doi       = {10.21437/Interspeech.2025-1616},
  issn      = {2958-1796},
}

链接

常见问题

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|1周前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|6天前
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|1周前
音频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。

55k|★★★☆☆|1周前
开发框架语言模型Agent

oh-my-openagent

oh-my-openagent(简称 omo)是一款强大的开源智能体编排框架,前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒,解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案,omo 倡导开放市场理念,支持灵活调度多种主流大模型:利用 Claude、Kimi 或 GLM 进行任务编排,调用 GPT 处理复杂推理,借助 Minimax 提升响应速度,或发挥 Gemini 的创意优势。 这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口,用户可以轻松组合不同模型的长处,构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构,让用户不再受制于某一家公司的策略变动或定价调整,真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手,还是开发多步骤任务处理流程,oh-my-openagent 都能提供灵活且稳健的基础设施支持,助力用户在快速演进的 AI 生态中保持技术主动权。

52k|★★☆☆☆|今天
视频语言模型开发框架

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|1周前
音频开发框架图像