speech-trident
speech-trident 是一个专注于语音与音频大语言模型领域的开源资源库,旨在系统梳理该前沿方向的核心技术脉络。它主要解决了研究人员和开发者在面对海量、分散的语音 AI 论文与模型时,难以快速把握技术全貌和关键进展的痛点。
该项目将复杂的语音大模型技术体系清晰地拆解为三大支柱:首先是“语音表示学习”,负责提取语音的深层语义结构;其次是“神经编解码器”,专注于在低码率下生成高质量的声学离散令牌;最后是“语音大语言模型”,利用前两者生成的令牌进行理解与生成任务的训练。通过这种结构化的分类,speech-trident 帮助用户理清了从底层特征提取到上层语言建模的完整技术链路。
此外,该资源库还持续更新关于口语对话模型的最新综述论文及相关研究成果,具有极高的学术参考价值。无论是希望深入探索语音 AI 算法的研究人员,还是正在寻找技术选型参考的开发者,都能在这里找到详尽的模型列表、核心概念解析以及前沿动态。如果你正计划进入语音大模型领域,或需要一份权威的技术导航图,speech-trident 将是不可或缺的入门指南与研究助手。
使用场景
某智能客服团队正致力于升级其语音交互系统,希望让 AI 不仅能听懂用户指令,还能用带有情感的自然语音进行多轮对话。
没有 speech-trident 时
- 技术选型迷茫:面对分散的语义表征、神经编解码器和语音大模型论文,开发人员难以厘清三者关系,耗费数周调研仍无法确定最佳技术组合。
- 语音质感机械:由于缺乏高效的声学令牌(acoustic tokens)生成方案,合成的语音虽然内容正确,但语调平淡、缺乏呼吸感,被用户投诉“像机器人”。
- 理解与生成割裂:语音理解模块与语音生成模块各自为政,导致在处理复杂口语化表达或打断重说时,系统反应迟钝且上下文衔接生硬。
- 复现门槛极高:开源代码碎片化严重,缺少统一的基准测试和预训练模型参考,团队需从零搭建实验环境,研发周期被迫拉长。
使用 speech-trident 后
- 架构清晰明确:speech-trident 将表征学习、神经编解码和大模型三大核心领域梳理得井井有条,团队迅速锁定了适合业务场景的 SOTA 模型组合。
- 高保真语音合成:借助其中推荐的先进神经编解码模型,系统生成的语音在低码率下依然保留了丰富的音色细节和情感起伏,用户满意度显著提升。
- 端到端能力增强:基于 speech-trident 指引的语音大语言模型架构,实现了语义理解与语音生成的深度融合,系统能流畅处理带口音的指令及自然插话。
- 研发效率倍增:依托该仓库提供的全面综述和成熟模型列表,团队直接复用经过验证的方案,将原本两个月的原型开发期缩短至两周。
speech-trident 通过构建完整的语音大模型知识图谱,帮助开发者跨越了从理论调研到落地应用的鸿沟,让高质量的语音交互触手可及。
运行环境要求
未说明
未说明

快速开始
:trident: 语音三叉戟 - 强大的语音大语言模型
在这个仓库中,我们综述了三个关键领域:(1) 表征学习,(2) 神经编解码器,以及 (3) 语言模型,这些都对语音/音频大语言模型的发展起到了重要作用。
1.⚡ 语音表征模型:这些模型专注于学习语音的结构化表示,随后可以将其量化为离散的语音标记,通常被称为语义标记。
2.⚡ 语音神经编解码器模型:这些模型旨在学习语音和音频的离散标记,通常称为声学标记,同时保持重建能力和低比特率。
3.⚡ 语音大语言模型:这些模型基于语音和声学标记,采用语言建模的方式进行训练。它们在语音理解和语音生成任务中表现出色。
:trident: 贡献者
张凯威 |
吴海斌 |
曾伟成 |
陆可涵 |
关淳怡 |
李宏毅 |
:trident: 2026 年新闻
关于口语对话模型的新综述仓库已在 GitHub 上发布。
@article{chang2026tico,
title={TiCo: 口语对话模型的时间可控训练},
author={Kai-Wei Chang 和 Wei-Chih Chen 和 En-Pei Hu 和 Hung-yi Lee 和 James Glass},
journal={arXiv 预印本 arXiv:2603.22267},
year={2026}
}
:trident: 2025 年新闻
综述论文 “关于口语语言模型的全景:全面综述” 现已发表在 arXiv 上。
@article{arora2025landscape,
title={关于口语语言模型的全景:全面综述},
author={Arora, Siddhant 和 Chang, Kai-Wei 和 Chien, Chung-Ming 和 Peng, Yifan 和 Wu, Haibin 和 Adi, Yossi 和 Dupoux, Emmanuel 和 Lee, Hung-Yi 和 Livescu, Karen 和 Watanabe, Shinji},
journal={arXiv 预印本 arXiv:2504.08528},
year={2025}
}
该论文对口语语言模型(SLMs)进行了全面的综述,涵盖了本 Speech-Trident 项目中所调研的大量语音/音频语言模型,但讨论更为详细和技术化。论文将 SLMs 分为:
1.⚡ 纯语音 LM
2.⚡ 语音感知文本 LM
3.⚡ 语音 + 文本 LM
此外,论文还讨论了训练策略、语音/文本标记解码模式、双工语音对话、SLMs 的基准测试等内容。更多细节请阅读论文,相信你会喜欢!
:trident: 语音/音频语言模型
| 日期 | 模型名称 | 论文标题 | 链接 |
|---|---|---|---|
| 2025-07 | Audio Flamingo 3 | Audio Flamingo 3:通过全开源大型音频语言模型推进音频智能 | 论文 |
| 2025-07 | DeSTA2.5-Audio | DeSTA2.5-Audio:迈向具有自生成跨模态对齐的通用大型音频语言模型 | 论文 |
| 2025-05 | SLED | 基于连续潜空间中的能量距离实现高效语音语言建模 | 论文 |
| 2025-05 | BALSa | 从对齐到提升:利用合成数据自举音频-语言对齐 | 论文 |
| 2025-04 | - | 口语语言模型全景:全面综述 | 论文 |
| 2025-04 | Kimi-Audio | Kimi-Audio 技术报告 | 论文 |
| 2025-03 | Qwen2.5-Omni | Qwen2.5-Omni 技术报告 | 论文 |
| 2025-03 | Yue | YuE:面向长音频音乐生成的开源基础模型扩展 | 论文 |
| 2025-03 | CSM | 对话式语音生成 | 博客 |
| 2025-03 | Phi-4-Multimodal | Phi-4-Mini 技术报告:通过LoRA混合实现紧凑而强大的多模态语言模型 | 论文 |
| 2025-03 | Baichuan-Audio | Baichuan-Audio:端到端语音交互的统一框架 | 论文 |
| 2025-02 | DiTAR | DiTAR:用于语音生成的扩散Transformer自回归建模 | 论文 |
| 2025-02 | Slamming | Slamming:一天内在单张GPU上训练一个语音语言模型 | 论文 |
| 2025-02 | Step-Audio | Step-Audio:智能语音交互中的统一理解和生成 | 论文 |
| 2025-01 | BAICHUAN-OMNI-1.5 | BAICHUAN-OMNI-1.5 技术报告 | 论文 |
| 2025-01 | MiniCPM-o | 一款可在手机上运行、达到GPT-4o水平的视觉、语音及多模态直播MLLM | GitHub |
| 2025-01 | MinMo | MinMo:一款用于无缝语音交互的多模态大型语言模型 | 论文 |
| 2025-01 | VITA-1.5 | VITA-1.5:迈向GPT-4o级别的实时视觉与语音交互 | 论文 |
| 2025-01 | OMNICHAT | OmniChat:利用可扩展的合成数据增强多样化场景下的口语对话系统 | 论文 |
| 2025-01 | SLIDE | SLIDE:将语音语言模型与LLM结合以生成自发性口语对话 | 论文 |
| 2024-12 | SLAM-Omni | SLAM-Omni:单阶段训练的音色可控语音交互系统 | 论文, 代码 |
| 2024-12 | TouchTTS | TouchTTS:一个简单到人人都能上手的TTS框架 | 论文 |
| 2024-12 | CosyVoice 2 | CosyVoice 2:基于大型语言模型的可扩展流式语音合成 | 论文 |
| 2024-12 | GLM-4-Voice | GLM-4-Voice:迈向智能且拟人化的端到端口语聊天机器人 | 论文 |
| 2024-12 | AlignFormer | AlignFormer:模态匹配可实现更好的零样本指令遵循语音LLM | 论文 |
| 2024-11 | -- | 利用合成交错数据扩展语音-文本预训练 | 论文 |
| 2024-11 | -- | 状态空间大型音频语言模型 | 论文 |
| 2024-11 | -- | 构建台湾闽南语口语语言模型:首次尝试 | 论文 |
| 2024-11 | Ultravox | Ultravox:GPT-4o Realtime的开源权重替代方案 | 博客 |
| 2024-11 | hertz-dev | 博客 | GitHub |
| 2024-11 | Freeze-Omni | Freeze-Omni:一种智能且低延迟的冻结LLM语音对话模型 | 论文 |
| 2024-11 | Align-SLM | Align-SLM:无文本语音语言模型,通过AI反馈进行强化学习 | 论文 |
| 2024-10 | Ichigo | Ichigo:混合模态早期融合的实时语音助手 | 论文, 代码 |
| 2024-10 | OmniFlatten | OmniFlatten:一款用于无缝语音对话的端到端GPT模型 | 论文 |
| 2024-10 | GPT-4o | GPT-4o 系统卡片 | 论文 |
| 2024-10 | Baichuan-OMNI | Baichuan-Omni 技术报告 | 论文 |
| 2024-10 | GLM-4-Voice | GLM-4-Voice | GitHub |
| 2024-10 | -- | 使用大型语言模型实现超人类语音理解的路线图 | 论文 |
| 2024-10 | SALMONN-OMNI | SALMONN-OMNI:在无编解码器的全双工框架下实现语音理解和生成的LLM | 论文 |
| 2024-10 | Mini-Omni 2 | Mini-Omni2:朝着具备视觉、语音和双工能力的开源GPT-4o迈进 | 论文 |
| 2024-10 | HALL-E | HALL-E:用于分钟级零样本文本转语音合成的分层神经编解码语言模型 | 论文 |
| 2024-10 | SyllableLM | SyllableLM:为语音语言模型学习粗粒度语义单元 | 论文 |
| 2024-09 | DeSTA 2 | DeSTA2:无需语音指令微调数据即可开发指令遵循语音语言模型 | 论文 |
| 2024-09 | Moshi | Moshi:用于实时对话的语音-文本基础模型 | 论文 |
| 2024-09 | Takin AudioLLM | Takin:一批高质量的零样本语音生成模型 | 论文 |
| 2024-09 | FireRedTTS | FireRedTTS:面向工业级生成式语音应用的基础文本转语音框架 | 论文 |
| 2024-09 | LLaMA-Omni | LLaMA-Omni:与大型语言模型实现无缝语音交互 | 论文 |
| 2024-09 | MaskGCT | MaskGCT:使用掩码生成式编解码变压器实现零样本文本转语音 | 论文 |
| 2024-09 | SSR-Speech | SSR-Speech:致力于稳定、安全且鲁本的零样本基于文本的语音编辑和合成 | 论文 |
| 2024-09 | MoWE-Audio | MoWE-Audio:混合弱编码器的多任务音频LLM | 论文 |
| 2024-08 | Mini-Omni | Mini-Omni:语言模型可以在流式传输中听、说并思考 | 论文 |
| 2024-08 | Make-A-Voice 2 | Make-A-Voice:重新审视语音大型语言模型,将其视为可扩展的多语言和多任务学习者 | 论文 |
| 2024-08 | LSLM | 语言模型在说话时也能倾听 | 论文 |
| 2024-07 | Seed-ASR | Seed-ASR:利用基于LLM的语音识别理解多样化的语音和语境 | 论文 |
| 2024-07 | MELLE | 不使用向量量化实现自回归语音合成 | 论文 |
| 2024-06 | SimpleSpeech | SimpleSpeech:朝着使用标量潜在扩散模型实现简单高效的文本转语音迈进 | 论文 |
| 2024-06 | UniAudio 1.5 | UniAudio 1.5:由大型语言模型驱动的音频编解码器是少数-shot音频任务的学习者 | 论文 |
| 2024-06 | VALL-E R | VALL-E R:通过单调对齐实现稳健高效的零样本文本转语音合成 | 论文 |
| 2024-06 | VALL-E 2 | VALL-E 2:神经编解码语言模型是人类水平的零样本文本转语音合成者 | 论文 |
| 2024-06 | GPST | 具有高效分层Transformer的生成式预训练语音语言模型 | 论文 |
| 2024-04 | CLaM-TTS | CLaM-TTS:改进零样本文本转语音的神经编解码语言模型 | 论文 |
| 2024-04 | RALL-E | RALL-E:通过思维链提示进行稳健的编解码语言建模,用于文本转语音合成 | 论文 |
| 2024-04 | WavLLM | WavLLM:朝着稳健且适应性强的语音大型语言模型迈进 | 论文 |
| 2024-02 | MobileSpeech | MobileSpeech:一款快速且高保真的移动端零样本文本转语音框架 | 论文 |
| 2024-02 | SLAM-ASR | 一种简单到令人尴尬的、具备强大ASR能力的LLM方法 | 论文 |
| 2024-02 | AnyGPT | AnyGPT:统一的多模态LLM,采用离散序列建模 | 论文 |
| 2024-02 | SpiRit-LM | SpiRit-LM:交织的口语和书面语言模型 | 论文 |
| 2024-02 | USDM | 在赋能语音的大型语言模型中整合副语言学,以实现自然对话 | 论文 |
| 2024-02 | BAT | BAT:学习如何利用大型语言模型推理空间声音 | 论文 |
| 2024-02 | Audio Flamingo | Audio Flamingo:一种具有少量-shot学习和对话能力的新颖音频语言模型 | 论文 |
| 2024-02 | 文本描述转语音 | 通过合成注释实现高保真文本转语音的自然语言指导 | 论文 |
| 2024-02 | GenTranslate | GenTranslate:大型语言模型是生成式多语言语音和机器翻译者 | 论文 |
| 2024-02 | Base-TTS | BASE TTS:从在10万小时数据上构建十亿参数文本转语音模型中汲取的经验 | 论文 |
| 2024-02 | -- | 为自动语音识别将声学信息融入大型语言模型永远都不晚 | 论文 |
| 2024-01 | -- | 大型语言模型是噪声鲁棒语音识别的有效学习者 | 论文 |
| 2024-01 | ELLA-V | ELLA-V:通过对齐引导的序列重排实现稳定的神经编解码语言建模 | 论文 |
| 2023-12 | Seamless | Seamless:多语言、富有表现力且流式的语音翻译 | 论文 |
| 2023-11 | Qwen-Audio | Qwen-Audio:通过统一的大规模音频-语言模型推进通用音频理解 | 论文 |
| 2023-10 | LauraGPT | LauraGPT:用GPT聆听、关注、理解并再生音频 | 论文 |
| 2023-10 | SALMONN | SALMONN:迈向大型语言模型的通用听力能力 | 论文 |
| 2023-10 | UniAudio | UniAudio:一款面向通用音频生成的音频基础模型 | 论文 |
| 2023-10 | Whispering LLaMA | Whispering LLaMA:一种用于语音识别的跨模态生成式纠错框架 | 论文 |
| 2023-09 | VoxtLM | Voxtlm:统一的仅解码器模型,用于整合语音识别/合成以及语音/文本延续任务 | 论文 |
| 2023-09 | LTU-AS | 音频与语音的联合理解 | 论文 |
| 2023-09 | SLM | SLM:弥合语音与文本基础模型之间的薄壁 | 论文 |
| 2023-09 | -- | 利用大型语言模型和任务激活式提示进行生成式语音识别纠错 | 论文 |
| 2023-08 | SpeechGen | SpeechGen:通过提示释放语音语言模型的生成潜力 | 论文 |
| 2023-08 | SpeechX | SpeechX:作为多功能语音转换器的神经编解码语言模型 | 论文 |
| 2023-08 | LLaSM | 大型语言和语音模型 | 论文 |
| 2023-08 | SeamlessM4T | 大规模多语言和多模态机器翻译 | 论文 |
| 2023-07 | Speech-LLaMA | 关于仅解码器架构在语音转文本和大型语言模型集成中的应用 | 论文 |
| 2023-07 | LLM-ASR(temp.) | 用语音识别能力提示大型语言模型 | 论文 |
| 2023-06 | AudioPaLM | AudioPaLM:一款会说也会听的大型语言模型 | 论文 |
| 2023-05 | Make-A-Voice | Make-A-Voice:采用离散表示的统一语音合成 | 论文 |
| 2023-05 | Spectron | 利用光谱图驱动的LLM进行口语问答和语音延续 | 论文 |
| 2023-05 | TWIST | 文本预训练的语音语言模型 | 论文 |
| 2023-05 | Pengi | Pengi:一款用于音频任务的音频语言模型 | 论文 |
| 2023-05 | SoundStorm | 高效并行音频生成 | 论文 |
| 2023-05 | LTU | 音频与语音的联合理解 | 论文 |
| 2023-05 | SpeechGPT | 用内在的跨模态对话能力赋能大型语言模型 | 论文 |
| 2023-05 | VioLA | 统一编解码语言模型用于语音识别、合成和翻译 | 论文 |
| 2023-05 | X-LLM | X-LLM:通过将多模态视为外语来启动先进的大型语言模型 | 论文 |
| 2023-03 | Google USM | Google USM:将自动语音识别扩展到超过100种语言 | 论文 |
| 2023-03 | VALL-E X | 用自己的声音说外语:跨语言神经编解码语言建模 | 论文 |
| 2023-02 | SPEAR-TTS | 说、读并提示:在极少监督下实现高保真文本转语音 | 论文 |
| 2023-01 | VALL-E | 神经编解码语言模型是零样本文本转语音合成者 | 论文 |
| 2022-12 | Whisper | 通过大规模弱监督实现稳健的语音识别 | 论文 |
| 2022-10 | AudioGen | AudioGen:文本引导的音频生成 | 论文 |
| 2022-09 | AudioLM | AudioLM:一种基于语言建模的方法来进行音频生成 | 论文 |
| 2022-05 | Wav2Seq | Wav2Seq:使用伪语言对语音转文本编码解码模型进行预训练 | 论文 |
| 2022-04 | Unit mBART | 通过自监督预训练和数据增强,提升直接的语音转语音翻译 | 论文 |
| 2022-03 | d-GSLM | 生成式口语对话语言建模 | 论文 |
| 2021-10 | SLAM | SLAM:通过语音-文本联合预训练,为语音和语言建模提供统一编码器 | 论文 |
| 2021-09 | p-GSLM | 无文本韵律感知的生成式口语语言建模 | 论文 |
| 2021-02 | GSLM | 从原始音频中生成口语语言 | 论文 |
:trident: 语音/音频编解码模型
| 日期 | 模型名称 | 论文标题 | 链接 |
|---|---|---|---|
| 2025-06 | CodecSlime | CodecSlime: 通过动态帧率对神经语音编解码器进行时域冗余压缩 | 论文 |
| 2025-06 | 离散音频标记:不止于综述! | 论文 | |
| 2025-06 | TaDiCodec | TaDiCodec: 用于语音语言建模的文本感知扩散语音标记器 | 论文 |
| 2025-06 | MagiCodec | MagiCodec: 用于高保真重建和生成的简单掩码高斯注入编解码器 | 论文 |
| 2025-06 | - | 探究神经语音编解码器的鲁棒性特性 | 论文 |
| 2025-06 | DS-Codec | DS-Codec: 基于镜像到非镜像架构切换的双阶段训练语音编解码器 | 论文 |
| 2025-05 | LFSC | 低帧率语音编解码器:专为快速高质量语音LLM训练与推理设计的编解码器 | 论文 |
| 2025-05 | PAST | PAST: 语音声学语音标记器 | 论文 |
| 2025-04 | ALMTokenizer | ALMTokenizer: 用于音频语言建模的低比特率、语义丰富的音频编解码器标记器 | 论文 |
| 2025-04 | DualCodec | DualCodec: 一种用于语音生成的低帧率、语义增强型神经音频编解码器 | 论文 |
| 2025-04 | - | 一个量化器就够了:迈向轻量级音频编解码器 | 论文 |
| 2025-04 | TASTE | TASTE: 用于口语语言建模的文本对齐语音标记与嵌入 | 论文 |
| 2025-03 | UniCodec | 通过低比特率神经编解码器和预训练表示进行通用语音标记学习 | 论文 |
| 2025-03 | BiCodec | Spark-TTS: 一种基于LLM的高效单流解耦语音标记文本转语音模型 | 论文 |
| 2025-03 | FlowDec | FlowDec: 一种基于流的全频段通用音频编解码器,具有高感知质量 | 论文 |
| 2025-02 | UniCodec | UniCodec: 具有单一领域自适应码本的统一音频编解码器 | 论文 |
| 2025-02 | Baichuan-Audio Tokenizer | 白川音频:端到端语音交互的统一框架 | 论文 |
| 2025-02 | - | 离散语音标记的最新进展:综述 | 论文 |
| 2025-02 | FocalCodec | FocalCodec: 基于焦点调制网络的低比特率语音编码 | 论文 |
| 2025-02 | - | 神经编解码器中量化效应的高效评估 | 论文 |
| 2025-02 | X-Codec 2 | Llasa: 扩展基于Llama的语音合成的训练与推理计算资源 | 论文 |
| 2025-02 | ComplexDec | ComplexDec: 一种具有复杂频谱建模的领域鲁棒型高保真神经音频编解码器 | 论文 |
| 2024-12 | TS3-Codec | TS3-Codec: 基于Transformer的简单流式单编解码器 | 论文 |
| 2024-12 | FreeCodec | FreeCodec: 一种去耦合的神经语音编解码器,使用更少的标记 | 论文 |
| 2024-12 | TAAE | 扩展Transformer以实现低比特率高质量语音编码 | 论文 |
| 2024-11 | BEST-STD | BEST-STD: 用于口语术语检测的双向Mamba增强语音标记 | 论文 |
| 2024-11 | PyramidCodec | PyramidCodec: 音频领域中用于长篇音乐生成的层次化编解码器 | 论文 |
| 2024-11 | UniCodec | 通过低比特率神经编解码器和预训练表示进行通用语音标记学习 | 论文 |
| 2024-11 | SimVQ | 使用一层线性层解决向量量化模型中的表征坍塌问题 | 论文 |
| 2024-11 | MDCTCodec | MDCTCodec: 一种面向高采样率和低比特率场景的轻量级MDCT基神经音频编解码器 | 论文 |
| 2024-10 | APCodec+ | APCodec+: 一种基于频谱编码、具有分阶段训练范式的高保真、高压缩比神经音频编解码器 | 论文 |
| 2024-10 | - | 更深入地研究神经编解码器的重合成:弥合编解码器与波形生成之间的差距 | 论文 |
| 2024-10 | SNAC | SNAC: 多尺度神经音频编解码器 | 论文 |
| 2024-10 | LSCodec | LSCodec: 低比特率且与说话人无关的离散语音编解码器 | 论文 |
| 2024-10 | 编解码器与编解码器-LM的协同设计 | 朝着神经编解码器语言模型的编解码器-LM协同设计 | 论文 |
| 2024-10 | VChangeCodec | VChangeCodec: 一种内置变声器的高效率神经语音编解码器,适用于实时通信 | 论文 |
| 2024-10 | DC-Spin | DC-Spin: 一种面向口语语言模型的说话人不变语音标记器 | 论文 |
| 2024-10 | DM-Codec | DM-Codec: 为语音标记提炼多模态表示 | 论文 |
| 2024-09 | Mimi | Moshi: 一款用于实时对话的语音-文本基础模型 | 论文 |
| 2024-09 | NDVQ | NDVQ: 一种基于正态分布向量量化的稳健神经音频编解码器 | 论文 |
| 2024-09 | SoCodec | SoCodec: 一种语义有序的多流语音编解码器,用于高效的基于语言模型的文本转语音合成 | 论文 |
| 2024-09 | BigCodec | BigCodec: 推动低比特率神经语音编解码器的极限 | 论文 |
| 2024-08 | X-Codec | 编解码器很重要:探讨编解码器在音频语言模型中的语义不足 | 论文 |
| 2024-08 | WavTokenizer | WavTokenizer: 一种用于音频语言建模的高效声学离散编解码器标记器 | 论文 |
| 2024-07 | Super-Codec | SuperCodec: 一种带有选择性反投影网络的神经语音编解码器 | 论文 |
| 2024-07 | dMel | dMel: 简单的语音标记 | 论文 |
| 2024-06 | CodecFake | CodecFake: 通过基于编解码器的语音合成系统提升对抗深度伪造音频的反欺骗模型能力 | 论文 |
| 2024-06 | Single-Codec | Single-Codec: 一种面向高性能语音生成的单码本语音编解码器 | 论文 |
| 2024-06 | SQ-Codec | SimpleSpeech: 通过标量潜在扩散Transformer模型实现简单高效的文本转语音 | 论文 |
| 2024-06 | PQ-VAE | 使用双重解码产品量化变分自编码器解决大码本语音标记器的索引坍塌问题 | 论文 |
| 2024-06 | LLM-Codec | UniAudio 1.5: 大型语言模型驱动的音频编解码器是少数样本音频任务的学习者 | 论文 |
| 2024-05 | HILCodec | HILCodec: 高保真且轻量级的神经音频编解码器 | 论文 |
| 2024-04 | SemantiCodec | SemantiCodec: 一种超低比特率的通用声音语义音频编解码器 | 论文 |
| 2024-04 | PromptCodec | PromptCodec: 一种利用解耦表示学习的自适应特征感知提示编码器实现高保真神经语音编解码器 | 论文 |
| 2024-04 | ESC | ESC: 利用跨尺度残差向量量化Transformer实现高效语音编码 | 论文 |
| 2024-03 | FACodec | NaturalSpeech 3: 使用因子化编解码器和扩散模型实现零样本语音合成 | 论文 |
| 2024-02 | AP-Codec | APCodec: 一种具有并行幅度和相位频谱编码与解码功能的神经音频编解码器 | 论文 |
| 2024-02 | Language-Codec | Language-Codec: 减少离散编解码器表示与语音语言模型之间的差距 | 论文 |
| 2024-01 | ScoreDec | ScoreDec: 一种保留相位的高保真音频编解码器,配备通用评分基的扩散后滤波器 | 论文 |
| 2023-11 | HierSpeech++ | HierSpeech++: 通过零样本语音合成的层次化变分推理弥合语音的语义与声学表示之间的差距 | 论文 |
| 2023-10 | TiCodec | 更少标记的神经语音编解码器,采用时间不变码 | 论文 |
| 2023-09 | RepCodec | RepCodec: 一种用于语音标记的语音表示编解码器 | 论文 |
| 2023-09 | FunCodec | FunCodec: 一套基础、可复现且可集成的开源神经语音编解码工具包 | 论文 |
| 2023-08 | SpeechTokenizer | Speechtokenizer: 用于语音大型语言模型的统一语音标记器 | 论文 |
| 2023-06 | VOCOS | VOCOS: 弥合时域与基于傅里叶变换的神经声码器之间的差距,以实现高质量音频合成 | 论文 |
| 2023-06 | Descript-audio-codec | 高保真音频压缩,采用改进的RVQGAN | 论文 |
| 2023-05 | AudioDec | Audiodec: 一个开源的流式高保真神经音频编解码器 | 论文 |
| 2023-05 | HiFi-Codec | Hifi-codec: 用于高保真音频编解码器的组内残差向量量化 | 论文 |
| 2023-03 | LMCodec | LMCodec: 一种使用因果Transformer模型的低比特率语音编解码器 | 论文 |
| 2022-11 | Disen-TF-Codec | 用于实时神经语音编码的解耦特征学习 | 论文 |
| 2022-10 | EnCodec | 高保真神经音频压缩 | 论文 |
| 2022-07 | S-TFNet | 用于可扩展神经语音编码的跨尺度向量量化 | 论文 |
| 2022-01 | TFNet | 用于实时通信的端到端神经语音编码 | 论文 |
| 2021-07 | SoundStream | SoundStream: 一种端到端神经音频编解码器 | 论文 |
:trident: 语音/音频表示模型
| 日期 | 模型名称 | 论文标题 | 链接 |
|---|---|---|---|
| 2025-06 | USAD | USAD:通过蒸馏实现通用语音和音频表示 | 论文 |
| 2025-03 | UniWav | UniWav:迈向语音表示学习与生成的统一预训练 | 论文 |
| 2024-09 | NEST-RQ | NEST-RQ:用于语音自监督预训练的下一个标记预测 | 论文 |
| 2024-01 | EAT | 基于高效音频Transformer的自监督预训练 | 论文 |
| 2023-10 | MR-HuBERT | 多分辨率HuBERT:基于掩码单元预测的多分辨率语音自监督学习 | 论文 |
| 2023-10 | SpeechFlow | 基于流匹配的语音生成式预训练 | 论文 |
| 2023-09 | WavLabLM | 大规模多语言自监督学习中的联合预测与去噪 | 论文 |
| 2023-08 | W2v-BERT 2.0 | 超大规模多语言及多模态机器翻译 | 论文 |
| 2023-07 | Whisper-AT | 抗噪声自动语音识别器同时也是强大的通用音频事件标签器 | 论文 |
| 2023-06 | ATST | 适用于片段级和帧级任务的自监督音频师生Transformer | 论文 |
| 2023-05 | SPIN | 通过说话人无关聚类改进内容表示的自监督微调 | 论文 |
| 2023-05 | DinoSR | 自蒸馏与在线聚类用于自监督语音表示学习 | 论文 |
| 2023-05 | NFA | 用于解耦话语级语音表示的自监督神经因子分析 | 论文 |
| 2022-12 | Data2vec 2.0 | 基于上下文化目标表示的视觉、语音和语言高效自监督学习 | 论文 |
| 2022-12 | BEATs | 基于声学分词器的音频预训练 | 论文 |
| 2022-11 | MT4SSL | MT4SSL:通过整合多个目标提升自监督语音表示学习 | 论文 |
| 2022-08 | DINO | 话语级语音表示的非对比式自监督学习 | 论文 |
| 2022-07 | Audio-MAE | 能够“倾听”的掩码自编码器 | 论文 |
| 2022-04 | MAESTRO | 通过模态匹配实现语音文本表示的对齐 | 论文 |
| 2022-03 | MAE-AST | 掩码自编码音频频谱图Transformer | 论文 |
| 2022-03 | LightHuBERT | 具有一次到位隐藏单元BERT的轻量且可配置语音表示学习 | 论文 |
| 2022-02 | Data2vec | 语音、视觉和语言领域自监督学习的通用框架 | 论文 |
| 2021-10 | WavLM | WavLM:面向全栈语音处理的大规模自监督预训练 | 论文 |
| 2021-08 | W2v-BERT | 结合对比学习和掩码语言建模的自监督语音预训练 | 论文 |
| 2021-07 | mHuBERT | 使用离散单元进行直接的语音到语音翻译 | 论文 |
| 2021-06 | HuBERT | 通过掩码预测隐藏单元实现自监督语音表示学习 | 论文 |
| 2021-03 | BYOL-A | 用于通用音频表示的自监督学习 | 论文 |
| 2020-12 | DeCoAR2.0 | DeCoAR 2.0:结合向量量化技术的深度上下文化声学表示 | 论文 |
| 2020-07 | TERA | TERA:用于语音的Transformer编码器表示的自监督学习 | 论文 |
| 2020-06 | Wav2vec2.0 | wav2vec 2.0:语音表示自监督学习的框架 | 论文 |
| 2019-10 | APC | 基于自回归预测编码的语音生成式预训练 | 论文 |
| 2018-07 | CPC | 基于对比预测编码的表示学习 | 论文 |
:trident: SLT 2024 编解码器-SUPERB 挑战赛
- 该挑战赛涵盖当今的神经音频编解码器以及语音/音频语言模型。
- 时间:12月3日 15:15 开始
- 详细议程:https://codecsuperb.github.io/
关于 SLT 2024 编解码器-SUPERB 挑战赛的更多信息
- 主题演讲嘉宾
- Neil Zeghidour (Kyutai):15:15-16:00
- Dongchao Yang (CUHK):16:00-16:35
- Shang-Wen Li (Meta):16:35-17:10
- Wenwu Wang (萨里大学):17:40-18:15
- Minje Kim (UIUC):18:15-18:50
- 主办方
- 被接受的论文(录像)
- ESPnet-Codec:面向音频、音乐和语音的神经编解码器综合训练与评估
- Codec-SUPERB @ SLT 2024:一个用于神经音频编解码器模型的轻量级基准测试
- 基于语音语言模型的语音生成中神经音频编解码器的研究
- 利用双解码产品量化变分自编码器解决大码本语音分词器的索引坍塌问题
- MDCTCodec:一种面向高采样率和低比特率场景的轻量级基于 MDCT 的神经音频编解码器
:trident: Interspeech 2024 调查报告演讲
李宏毅教授将作为 Interspeech 2024 调查报告演讲的一部分,发表题为 口语语言模型开发中的挑战 的演讲。演讲主题将涵盖当今的语音/音频大型语言模型。
:trident: ICASSP 2024 教学讲座信息
我(Kai-Wei Chang)将作为 ICASSP 2024 教学讲座的一部分,发表题为 面向语音和语言基础模型的参数高效与提示学习 的演讲。演讲主题将涵盖当今的语音/音频大型语言模型。我的演示文稿幻灯片可在 https://kwchang.org/talks/ 上找到。如有任何讨论,请随时与我联系。
:trident: Interspeech 2026 教学讲座
即将推出……
🔱 相关仓库
| 名称 | GitHub 仓库 | 论文 |
|---|---|---|
| :fire: 新!口语对话模型调查 | :fire: 新!链接 | :fire: 新!论文 |
| 迈向音频语言模型的整体评估 | 链接 | 论文 |
| 大型音频模型 | 链接 | - |
| 优秀语音生成 | 链接 | - |
| 语音提示与适配器 | 链接 | - |
| Codec-SUPERB | 链接 | 论文 |
| 优秀神经编程与提示技术 | 链接 | - |
引用
综述论文 “关于语音语言模型的全景:全面综述” 现已在 arXiv 上发布。
@article{arora2025landscape,
title={On The Landscape of Spoken Language Models: A Comprehensive Survey},
author={Arora, Siddhant and Chang, Kai-Wei and Chien, Chung-Ming and Peng, Yifan and Wu, Haibin and Adi, Yossi and Dupoux, Emmanuel and Lee, Hung-Yi and Livescu, Karen and Watanabe, Shinji},
journal={arXiv preprint arXiv:2504.08528},
year={2025}
}
核心作者的相关论文:
@article{chang2026tico,
title={TiCo: 面向语音对话模型的时间可控训练},
author={Kai-Wei Chang 和 Wei-Chih Chen、En-Pei Hu、Hung-yi Lee、James Glass},
journal={arXiv预印本 arXiv:2603.22267},
year={2026}
}
@article{wu2024ts3,
title={TS3-Codec:基于 Transformer 的简单流式单编解码器},
author={Wu, Haibin 和 Kanda, Naoyuki、Eskimez, Sefik Emre、Li, Jinyu},
journal={arXiv预印本 arXiv:2411.18803},
year={2024}
}
@article{wu2024codec,
title={Codec-SUPERB@ SLT 2024:面向神经音频编解码器模型的轻量级基准测试},
author={Wu, Haibin 和 Chen, Xuanjun、Lin, Yi-Cheng、Chang, Kaiwei、Du, Jiawei、Lu, Ke-Han、Liu, Alexander H、Chung, Ho-Lam、Wu, Yuan-Kuei、Yang, Dongchao 等},
journal={arXiv预印本 arXiv:2409.14085},
year={2024}
}
@inproceedings{wu-etal-2024-codec,
title = "Codec-{SUPERB}:对声音编解码器模型的深入分析",
author = "Wu, Haibin 与 Chung, Ho-Lam、Lin, Yi-Cheng、Wu, Yuan-Kuei、Chen, Xuanjun、Pai, Yu-Chi、Wang, Hsiu-Hsuan、Chang, Kai-Wei、Liu, Alexander、Lee, Hung-yi",
editor = "Ku, Lun-Wei、Martins, Andre、Srikumar, Vivek",
booktitle = "计算语言学协会研究成果:ACL 2024",
month = aug,
year = "2024",
address = "曼谷,泰国",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2024.findings-acl.616",
doi = "10.18653/v1/2024.findings-acl.616",
pages = "10330--10348",
}
@article{wu2023speechgen,
title={Speechgen:利用提示解锁语音语言模型的生成能力},
author={Wu, Haibin 和 Chang, Kai-Wei、Wu, Yuan-Kuei、Lee, Hung-yi},
journal={arXiv预印本 arXiv:2306.02207},
year={2023}
}
@article{wu2024towards,
title={迈向音频语言建模——综述},
author={Wu, Haibin 和 Chen, Xuanjun、Lin, Yi-Cheng、Chang, Kai-Wei、Chung, Ho-Lam、Liu, Alexander H、Lee, Hung-yi},
journal={arXiv预印本 arXiv:2402.13236},
year={2024}
}
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。