speech-trident

1.2k 74 困难 1 次阅读 4天前语言模型音频

AI 解读由 AI 自动生成，仅供参考

speech-trident 是一个专注于语音与音频大语言模型领域的开源资源库，旨在系统梳理该前沿方向的核心技术脉络。它主要解决了研究人员和开发者在面对海量、分散的语音 AI 论文与模型时，难以快速把握技术全貌和关键进展的痛点。

该项目将复杂的语音大模型技术体系清晰地拆解为三大支柱：首先是“语音表示学习”，负责提取语音的深层语义结构；其次是“神经编解码器”，专注于在低码率下生成高质量的声学离散令牌；最后是“语音大语言模型”，利用前两者生成的令牌进行理解与生成任务的训练。通过这种结构化的分类，speech-trident 帮助用户理清了从底层特征提取到上层语言建模的完整技术链路。

此外，该资源库还持续更新关于口语对话模型的最新综述论文及相关研究成果，具有极高的学术参考价值。无论是希望深入探索语音 AI 算法的研究人员，还是正在寻找技术选型参考的开发者，都能在这里找到详尽的模型列表、核心概念解析以及前沿动态。如果你正计划进入语音大模型领域，或需要一份权威的技术导航图，speech-trident 将是不可或缺的入门指南与研究助手。

使用场景

某智能客服团队正致力于升级其语音交互系统，希望让 AI 不仅能听懂用户指令，还能用带有情感的自然语音进行多轮对话。

没有 speech-trident 时

技术选型迷茫：面对分散的语义表征、神经编解码器和语音大模型论文，开发人员难以厘清三者关系，耗费数周调研仍无法确定最佳技术组合。
语音质感机械：由于缺乏高效的声学令牌（acoustic tokens）生成方案，合成的语音虽然内容正确，但语调平淡、缺乏呼吸感，被用户投诉“像机器人”。
理解与生成割裂：语音理解模块与语音生成模块各自为政，导致在处理复杂口语化表达或打断重说时，系统反应迟钝且上下文衔接生硬。
复现门槛极高：开源代码碎片化严重，缺少统一的基准测试和预训练模型参考，团队需从零搭建实验环境，研发周期被迫拉长。

使用 speech-trident 后

架构清晰明确：speech-trident 将表征学习、神经编解码和大模型三大核心领域梳理得井井有条，团队迅速锁定了适合业务场景的 SOTA 模型组合。
高保真语音合成：借助其中推荐的先进神经编解码模型，系统生成的语音在低码率下依然保留了丰富的音色细节和情感起伏，用户满意度显著提升。
端到端能力增强：基于 speech-trident 指引的语音大语言模型架构，实现了语义理解与语音生成的深度融合，系统能流畅处理带口音的指令及自然插话。
研发效率倍增：依托该仓库提供的全面综述和成熟模型列表，团队直接复用经过验证的方案，将原本两个月的原型开发期缩短至两周。

speech-trident 通过构建完整的语音大模型知识图谱，帮助开发者跨越了从理论调研到落地应用的鸿沟，让高质量的语音交互触手可及。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（speech-trident）是一个关于语音大语言模型（Speech LM）、神经编解码器（Neural Codec）和表示学习的综述项目，主要提供论文列表、资源链接和技术调研，本身不包含可运行的代码库或具体的安装脚本，因此 README 中未提及任何操作系统、硬件配置、Python 版本或依赖库的具体需求。如需运行列表中提到的具体模型（如 CosyVoice, Mini-Omni 等），请参考各模型独立的官方仓库。

python未说明

快速开始

:trident: 语音三叉戟 - 强大的语音大语言模型

Speech Trident

在这个仓库中，我们综述了三个关键领域：(1) 表征学习，(2) 神经编解码器，以及 (3) 语言模型，这些都对语音/音频大语言模型的发展起到了重要作用。

1.⚡ 语音表征模型：这些模型专注于学习语音的结构化表示，随后可以将其量化为离散的语音标记，通常被称为语义标记。

2.⚡ 语音神经编解码器模型：这些模型旨在学习语音和音频的离散标记，通常称为声学标记，同时保持重建能力和低比特率。

3.⚡ 语音大语言模型：这些模型基于语音和声学标记，采用语言建模的方式进行训练。它们在语音理解和语音生成任务中表现出色。

:trident: 贡献者

:trident: 2026 年新闻

关于口语对话模型的新综述仓库已在 GitHub 上发布。

@article{chang2026tico,
      title={TiCo: 口语对话模型的时间可控训练},
      author={Kai-Wei Chang 和 Wei-Chih Chen 和 En-Pei Hu 和 Hung-yi Lee 和 James Glass},
      journal={arXiv 预印本 arXiv:2603.22267},
      year={2026}
}

:trident: 2025 年新闻

综述论文 “关于口语语言模型的全景：全面综述” 现已发表在 arXiv 上。

@article{arora2025landscape,
  title={关于口语语言模型的全景：全面综述},
  author={Arora, Siddhant 和 Chang, Kai-Wei 和 Chien, Chung-Ming 和 Peng, Yifan 和 Wu, Haibin 和 Adi, Yossi 和 Dupoux, Emmanuel 和 Lee, Hung-Yi 和 Livescu, Karen 和 Watanabe, Shinji},
  journal={arXiv 预印本 arXiv:2504.08528},
  year={2025}
}

该论文对口语语言模型（SLMs）进行了全面的综述，涵盖了本 Speech-Trident 项目中所调研的大量语音/音频语言模型，但讨论更为详细和技术化。论文将 SLMs 分为：

1.⚡ 纯语音 LM

2.⚡ 语音感知文本 LM

3.⚡ 语音 + 文本 LM

此外，论文还讨论了训练策略、语音/文本标记解码模式、双工语音对话、SLMs 的基准测试等内容。更多细节请阅读论文，相信你会喜欢！

:trident: 语音/音频语言模型

日期	模型名称	论文标题	链接
2025-07	Audio Flamingo 3	Audio Flamingo 3：通过全开源大型音频语言模型推进音频智能	论文
2025-07	DeSTA2.5-Audio	DeSTA2.5-Audio：迈向具有自生成跨模态对齐的通用大型音频语言模型	论文
2025-05	SLED	基于连续潜空间中的能量距离实现高效语音语言建模	论文
2025-05	BALSa	从对齐到提升：利用合成数据自举音频-语言对齐	论文
2025-04	-	口语语言模型全景：全面综述	论文
2025-04	Kimi-Audio	Kimi-Audio 技术报告	论文
2025-03	Qwen2.5-Omni	Qwen2.5-Omni 技术报告	论文
2025-03	Yue	YuE：面向长音频音乐生成的开源基础模型扩展	论文
2025-03	CSM	对话式语音生成	博客
2025-03	Phi-4-Multimodal	Phi-4-Mini 技术报告：通过LoRA混合实现紧凑而强大的多模态语言模型	论文
2025-03	Baichuan-Audio	Baichuan-Audio：端到端语音交互的统一框架	论文
2025-02	DiTAR	DiTAR：用于语音生成的扩散Transformer自回归建模	论文
2025-02	Slamming	Slamming：一天内在单张GPU上训练一个语音语言模型	论文
2025-02	Step-Audio	Step-Audio：智能语音交互中的统一理解和生成	论文
2025-01	BAICHUAN-OMNI-1.5	BAICHUAN-OMNI-1.5 技术报告	论文
2025-01	MiniCPM-o	一款可在手机上运行、达到GPT-4o水平的视觉、语音及多模态直播MLLM	GitHub
2025-01	MinMo	MinMo：一款用于无缝语音交互的多模态大型语言模型	论文
2025-01	VITA-1.5	VITA-1.5：迈向GPT-4o级别的实时视觉与语音交互	论文
2025-01	OMNICHAT	OmniChat：利用可扩展的合成数据增强多样化场景下的口语对话系统	论文
2025-01	SLIDE	SLIDE：将语音语言模型与LLM结合以生成自发性口语对话	论文
2024-12	SLAM-Omni	SLAM-Omni：单阶段训练的音色可控语音交互系统	论文, 代码
2024-12	TouchTTS	TouchTTS：一个简单到人人都能上手的TTS框架	论文
2024-12	CosyVoice 2	CosyVoice 2：基于大型语言模型的可扩展流式语音合成	论文
2024-12	GLM-4-Voice	GLM-4-Voice：迈向智能且拟人化的端到端口语聊天机器人	论文
2024-12	AlignFormer	AlignFormer：模态匹配可实现更好的零样本指令遵循语音LLM	论文
2024-11	--	利用合成交错数据扩展语音-文本预训练	论文
2024-11	--	状态空间大型音频语言模型	论文
2024-11	--	构建台湾闽南语口语语言模型：首次尝试	论文
2024-11	Ultravox	Ultravox：GPT-4o Realtime的开源权重替代方案	博客
2024-11	hertz-dev	博客	GitHub
2024-11	Freeze-Omni	Freeze-Omni：一种智能且低延迟的冻结LLM语音对话模型	论文
2024-11	Align-SLM	Align-SLM：无文本语音语言模型，通过AI反馈进行强化学习	论文
2024-10	Ichigo	Ichigo：混合模态早期融合的实时语音助手	论文, 代码
2024-10	OmniFlatten	OmniFlatten：一款用于无缝语音对话的端到端GPT模型	论文
2024-10	GPT-4o	GPT-4o 系统卡片	论文
2024-10	Baichuan-OMNI	Baichuan-Omni 技术报告	论文
2024-10	GLM-4-Voice	GLM-4-Voice	GitHub
2024-10	--	使用大型语言模型实现超人类语音理解的路线图	论文
2024-10	SALMONN-OMNI	SALMONN-OMNI：在无编解码器的全双工框架下实现语音理解和生成的LLM	论文
2024-10	Mini-Omni 2	Mini-Omni2：朝着具备视觉、语音和双工能力的开源GPT-4o迈进	论文
2024-10	HALL-E	HALL-E：用于分钟级零样本文本转语音合成的分层神经编解码语言模型	论文
2024-10	SyllableLM	SyllableLM：为语音语言模型学习粗粒度语义单元	论文
2024-09	DeSTA 2	DeSTA2：无需语音指令微调数据即可开发指令遵循语音语言模型	论文
2024-09	Moshi	Moshi：用于实时对话的语音-文本基础模型	论文
2024-09	Takin AudioLLM	Takin：一批高质量的零样本语音生成模型	论文
2024-09	FireRedTTS	FireRedTTS：面向工业级生成式语音应用的基础文本转语音框架	论文
2024-09	LLaMA-Omni	LLaMA-Omni：与大型语言模型实现无缝语音交互	论文
2024-09	MaskGCT	MaskGCT：使用掩码生成式编解码变压器实现零样本文本转语音	论文
2024-09	SSR-Speech	SSR-Speech：致力于稳定、安全且鲁本的零样本基于文本的语音编辑和合成	论文
2024-09	MoWE-Audio	MoWE-Audio：混合弱编码器的多任务音频LLM	论文
2024-08	Mini-Omni	Mini-Omni：语言模型可以在流式传输中听、说并思考	论文
2024-08	Make-A-Voice 2	Make-A-Voice：重新审视语音大型语言模型，将其视为可扩展的多语言和多任务学习者	论文
2024-08	LSLM	语言模型在说话时也能倾听	论文
2024-07	Seed-ASR	Seed-ASR：利用基于LLM的语音识别理解多样化的语音和语境	论文
2024-07	MELLE	不使用向量量化实现自回归语音合成	论文
2024-06	SimpleSpeech	SimpleSpeech：朝着使用标量潜在扩散模型实现简单高效的文本转语音迈进	论文
2024-06	UniAudio 1.5	UniAudio 1.5：由大型语言模型驱动的音频编解码器是少数-shot音频任务的学习者	论文
2024-06	VALL-E R	VALL-E R：通过单调对齐实现稳健高效的零样本文本转语音合成	论文
2024-06	VALL-E 2	VALL-E 2：神经编解码语言模型是人类水平的零样本文本转语音合成者	论文
2024-06	GPST	具有高效分层Transformer的生成式预训练语音语言模型	论文
2024-04	CLaM-TTS	CLaM-TTS：改进零样本文本转语音的神经编解码语言模型	论文
2024-04	RALL-E	RALL-E：通过思维链提示进行稳健的编解码语言建模，用于文本转语音合成	论文
2024-04	WavLLM	WavLLM：朝着稳健且适应性强的语音大型语言模型迈进	论文
2024-02	MobileSpeech	MobileSpeech：一款快速且高保真的移动端零样本文本转语音框架	论文
2024-02	SLAM-ASR	一种简单到令人尴尬的、具备强大ASR能力的LLM方法	论文
2024-02	AnyGPT	AnyGPT：统一的多模态LLM，采用离散序列建模	论文
2024-02	SpiRit-LM	SpiRit-LM：交织的口语和书面语言模型	论文
2024-02	USDM	在赋能语音的大型语言模型中整合副语言学，以实现自然对话	论文
2024-02	BAT	BAT：学习如何利用大型语言模型推理空间声音	论文
2024-02	Audio Flamingo	Audio Flamingo：一种具有少量-shot学习和对话能力的新颖音频语言模型	论文
2024-02	文本描述转语音	通过合成注释实现高保真文本转语音的自然语言指导	论文
2024-02	GenTranslate	GenTranslate：大型语言模型是生成式多语言语音和机器翻译者	论文
2024-02	Base-TTS	BASE TTS：从在10万小时数据上构建十亿参数文本转语音模型中汲取的经验	论文
2024-02	--	为自动语音识别将声学信息融入大型语言模型永远都不晚	论文
2024-01	--	大型语言模型是噪声鲁棒语音识别的有效学习者	论文
2024-01	ELLA-V	ELLA-V：通过对齐引导的序列重排实现稳定的神经编解码语言建模	论文
2023-12	Seamless	Seamless：多语言、富有表现力且流式的语音翻译	论文
2023-11	Qwen-Audio	Qwen-Audio：通过统一的大规模音频-语言模型推进通用音频理解	论文
2023-10	LauraGPT	LauraGPT：用GPT聆听、关注、理解并再生音频	论文
2023-10	SALMONN	SALMONN：迈向大型语言模型的通用听力能力	论文
2023-10	UniAudio	UniAudio：一款面向通用音频生成的音频基础模型	论文
2023-10	Whispering LLaMA	Whispering LLaMA：一种用于语音识别的跨模态生成式纠错框架	论文
2023-09	VoxtLM	Voxtlm：统一的仅解码器模型，用于整合语音识别/合成以及语音/文本延续任务	论文
2023-09	LTU-AS	音频与语音的联合理解	论文
2023-09	SLM	SLM：弥合语音与文本基础模型之间的薄壁	论文
2023-09	--	利用大型语言模型和任务激活式提示进行生成式语音识别纠错	论文
2023-08	SpeechGen	SpeechGen：通过提示释放语音语言模型的生成潜力	论文
2023-08	SpeechX	SpeechX：作为多功能语音转换器的神经编解码语言模型	论文
2023-08	LLaSM	大型语言和语音模型	论文
2023-08	SeamlessM4T	大规模多语言和多模态机器翻译	论文
2023-07	Speech-LLaMA	关于仅解码器架构在语音转文本和大型语言模型集成中的应用	论文
2023-07	LLM-ASR(temp.)	用语音识别能力提示大型语言模型	论文
2023-06	AudioPaLM	AudioPaLM：一款会说也会听的大型语言模型	论文
2023-05	Make-A-Voice	Make-A-Voice：采用离散表示的统一语音合成	论文
2023-05	Spectron	利用光谱图驱动的LLM进行口语问答和语音延续	论文
2023-05	TWIST	文本预训练的语音语言模型	论文
2023-05	Pengi	Pengi：一款用于音频任务的音频语言模型	论文
2023-05	SoundStorm	高效并行音频生成	论文
2023-05	LTU	音频与语音的联合理解	论文
2023-05	SpeechGPT	用内在的跨模态对话能力赋能大型语言模型	论文
2023-05	VioLA	统一编解码语言模型用于语音识别、合成和翻译	论文
2023-05	X-LLM	X-LLM：通过将多模态视为外语来启动先进的大型语言模型	论文
2023-03	Google USM	Google USM：将自动语音识别扩展到超过100种语言	论文
2023-03	VALL-E X	用自己的声音说外语：跨语言神经编解码语言建模	论文
2023-02	SPEAR-TTS	说、读并提示：在极少监督下实现高保真文本转语音	论文
2023-01	VALL-E	神经编解码语言模型是零样本文本转语音合成者	论文
2022-12	Whisper	通过大规模弱监督实现稳健的语音识别	论文
2022-10	AudioGen	AudioGen：文本引导的音频生成	论文
2022-09	AudioLM	AudioLM：一种基于语言建模的方法来进行音频生成	论文
2022-05	Wav2Seq	Wav2Seq：使用伪语言对语音转文本编码解码模型进行预训练	论文
2022-04	Unit mBART	通过自监督预训练和数据增强，提升直接的语音转语音翻译	论文
2022-03	d-GSLM	生成式口语对话语言建模	论文
2021-10	SLAM	SLAM：通过语音-文本联合预训练，为语音和语言建模提供统一编码器	论文
2021-09	p-GSLM	无文本韵律感知的生成式口语语言建模	论文
2021-02	GSLM	从原始音频中生成口语语言	论文

:trident: 语音/音频编解码模型

日期	模型名称	论文标题	链接
2025-06	CodecSlime	CodecSlime: 通过动态帧率对神经语音编解码器进行时域冗余压缩	论文
2025-06		离散音频标记：不止于综述！	论文
2025-06	TaDiCodec	TaDiCodec: 用于语音语言建模的文本感知扩散语音标记器	论文
2025-06	MagiCodec	MagiCodec: 用于高保真重建和生成的简单掩码高斯注入编解码器	论文
2025-06	-	探究神经语音编解码器的鲁棒性特性	论文
2025-06	DS-Codec	DS-Codec: 基于镜像到非镜像架构切换的双阶段训练语音编解码器	论文
2025-05	LFSC	低帧率语音编解码器：专为快速高质量语音LLM训练与推理设计的编解码器	论文
2025-05	PAST	PAST: 语音声学语音标记器	论文
2025-04	ALMTokenizer	ALMTokenizer: 用于音频语言建模的低比特率、语义丰富的音频编解码器标记器	论文
2025-04	DualCodec	DualCodec: 一种用于语音生成的低帧率、语义增强型神经音频编解码器	论文
2025-04	-	一个量化器就够了：迈向轻量级音频编解码器	论文
2025-04	TASTE	TASTE: 用于口语语言建模的文本对齐语音标记与嵌入	论文
2025-03	UniCodec	通过低比特率神经编解码器和预训练表示进行通用语音标记学习	论文
2025-03	BiCodec	Spark-TTS: 一种基于LLM的高效单流解耦语音标记文本转语音模型	论文
2025-03	FlowDec	FlowDec: 一种基于流的全频段通用音频编解码器，具有高感知质量	论文
2025-02	UniCodec	UniCodec: 具有单一领域自适应码本的统一音频编解码器	论文
2025-02	Baichuan-Audio Tokenizer	白川音频：端到端语音交互的统一框架	论文
2025-02	-	离散语音标记的最新进展：综述	论文
2025-02	FocalCodec	FocalCodec: 基于焦点调制网络的低比特率语音编码	论文
2025-02	-	神经编解码器中量化效应的高效评估	论文
2025-02	X-Codec 2	Llasa: 扩展基于Llama的语音合成的训练与推理计算资源	论文
2025-02	ComplexDec	ComplexDec: 一种具有复杂频谱建模的领域鲁棒型高保真神经音频编解码器	论文
2024-12	TS3-Codec	TS3-Codec: 基于Transformer的简单流式单编解码器	论文
2024-12	FreeCodec	FreeCodec: 一种去耦合的神经语音编解码器，使用更少的标记	论文
2024-12	TAAE	扩展Transformer以实现低比特率高质量语音编码	论文
2024-11	BEST-STD	BEST-STD: 用于口语术语检测的双向Mamba增强语音标记	论文
2024-11	PyramidCodec	PyramidCodec: 音频领域中用于长篇音乐生成的层次化编解码器	论文
2024-11	UniCodec	通过低比特率神经编解码器和预训练表示进行通用语音标记学习	论文
2024-11	SimVQ	使用一层线性层解决向量量化模型中的表征坍塌问题	论文
2024-11	MDCTCodec	MDCTCodec: 一种面向高采样率和低比特率场景的轻量级MDCT基神经音频编解码器	论文
2024-10	APCodec+	APCodec+: 一种基于频谱编码、具有分阶段训练范式的高保真、高压缩比神经音频编解码器	论文
2024-10	-	更深入地研究神经编解码器的重合成：弥合编解码器与波形生成之间的差距	论文
2024-10	SNAC	SNAC: 多尺度神经音频编解码器	论文
2024-10	LSCodec	LSCodec: 低比特率且与说话人无关的离散语音编解码器	论文
2024-10	编解码器与编解码器-LM的协同设计	朝着神经编解码器语言模型的编解码器-LM协同设计	论文
2024-10	VChangeCodec	VChangeCodec: 一种内置变声器的高效率神经语音编解码器，适用于实时通信	论文
2024-10	DC-Spin	DC-Spin: 一种面向口语语言模型的说话人不变语音标记器	论文
2024-10	DM-Codec	DM-Codec: 为语音标记提炼多模态表示	论文
2024-09	Mimi	Moshi: 一款用于实时对话的语音-文本基础模型	论文
2024-09	NDVQ	NDVQ: 一种基于正态分布向量量化的稳健神经音频编解码器	论文
2024-09	SoCodec	SoCodec: 一种语义有序的多流语音编解码器，用于高效的基于语言模型的文本转语音合成	论文
2024-09	BigCodec	BigCodec: 推动低比特率神经语音编解码器的极限	论文
2024-08	X-Codec	编解码器很重要：探讨编解码器在音频语言模型中的语义不足	论文
2024-08	WavTokenizer	WavTokenizer: 一种用于音频语言建模的高效声学离散编解码器标记器	论文
2024-07	Super-Codec	SuperCodec: 一种带有选择性反投影网络的神经语音编解码器	论文
2024-07	dMel	dMel: 简单的语音标记	论文
2024-06	CodecFake	CodecFake: 通过基于编解码器的语音合成系统提升对抗深度伪造音频的反欺骗模型能力	论文
2024-06	Single-Codec	Single-Codec: 一种面向高性能语音生成的单码本语音编解码器	论文
2024-06	SQ-Codec	SimpleSpeech: 通过标量潜在扩散Transformer模型实现简单高效的文本转语音	论文
2024-06	PQ-VAE	使用双重解码产品量化变分自编码器解决大码本语音标记器的索引坍塌问题	论文
2024-06	LLM-Codec	UniAudio 1.5: 大型语言模型驱动的音频编解码器是少数样本音频任务的学习者	论文
2024-05	HILCodec	HILCodec: 高保真且轻量级的神经音频编解码器	论文
2024-04	SemantiCodec	SemantiCodec: 一种超低比特率的通用声音语义音频编解码器	论文
2024-04	PromptCodec	PromptCodec: 一种利用解耦表示学习的自适应特征感知提示编码器实现高保真神经语音编解码器	论文
2024-04	ESC	ESC: 利用跨尺度残差向量量化Transformer实现高效语音编码	论文
2024-03	FACodec	NaturalSpeech 3: 使用因子化编解码器和扩散模型实现零样本语音合成	论文
2024-02	AP-Codec	APCodec: 一种具有并行幅度和相位频谱编码与解码功能的神经音频编解码器	论文
2024-02	Language-Codec	Language-Codec: 减少离散编解码器表示与语音语言模型之间的差距	论文
2024-01	ScoreDec	ScoreDec: 一种保留相位的高保真音频编解码器，配备通用评分基的扩散后滤波器	论文
2023-11	HierSpeech++	HierSpeech++: 通过零样本语音合成的层次化变分推理弥合语音的语义与声学表示之间的差距	论文
2023-10	TiCodec	更少标记的神经语音编解码器，采用时间不变码	论文
2023-09	RepCodec	RepCodec: 一种用于语音标记的语音表示编解码器	论文
2023-09	FunCodec	FunCodec: 一套基础、可复现且可集成的开源神经语音编解码工具包	论文
2023-08	SpeechTokenizer	Speechtokenizer: 用于语音大型语言模型的统一语音标记器	论文
2023-06	VOCOS	VOCOS: 弥合时域与基于傅里叶变换的神经声码器之间的差距，以实现高质量音频合成	论文
2023-06	Descript-audio-codec	高保真音频压缩，采用改进的RVQGAN	论文
2023-05	AudioDec	Audiodec: 一个开源的流式高保真神经音频编解码器	论文
2023-05	HiFi-Codec	Hifi-codec: 用于高保真音频编解码器的组内残差向量量化	论文
2023-03	LMCodec	LMCodec: 一种使用因果Transformer模型的低比特率语音编解码器	论文
2022-11	Disen-TF-Codec	用于实时神经语音编码的解耦特征学习	论文
2022-10	EnCodec	高保真神经音频压缩	论文
2022-07	S-TFNet	用于可扩展神经语音编码的跨尺度向量量化	论文
2022-01	TFNet	用于实时通信的端到端神经语音编码	论文
2021-07	SoundStream	SoundStream: 一种端到端神经音频编解码器	论文

:trident: 语音/音频表示模型

日期	模型名称	论文标题	链接
2025-06	USAD	USAD：通过蒸馏实现通用语音和音频表示	论文
2025-03	UniWav	UniWav：迈向语音表示学习与生成的统一预训练	论文
2024-09	NEST-RQ	NEST-RQ：用于语音自监督预训练的下一个标记预测	论文
2024-01	EAT	基于高效音频Transformer的自监督预训练	论文
2023-10	MR-HuBERT	多分辨率HuBERT：基于掩码单元预测的多分辨率语音自监督学习	论文
2023-10	SpeechFlow	基于流匹配的语音生成式预训练	论文
2023-09	WavLabLM	大规模多语言自监督学习中的联合预测与去噪	论文
2023-08	W2v-BERT 2.0	超大规模多语言及多模态机器翻译	论文
2023-07	Whisper-AT	抗噪声自动语音识别器同时也是强大的通用音频事件标签器	论文
2023-06	ATST	适用于片段级和帧级任务的自监督音频师生Transformer	论文
2023-05	SPIN	通过说话人无关聚类改进内容表示的自监督微调	论文
2023-05	DinoSR	自蒸馏与在线聚类用于自监督语音表示学习	论文
2023-05	NFA	用于解耦话语级语音表示的自监督神经因子分析	论文
2022-12	Data2vec 2.0	基于上下文化目标表示的视觉、语音和语言高效自监督学习	论文
2022-12	BEATs	基于声学分词器的音频预训练	论文
2022-11	MT4SSL	MT4SSL：通过整合多个目标提升自监督语音表示学习	论文
2022-08	DINO	话语级语音表示的非对比式自监督学习	论文
2022-07	Audio-MAE	能够“倾听”的掩码自编码器	论文
2022-04	MAESTRO	通过模态匹配实现语音文本表示的对齐	论文
2022-03	MAE-AST	掩码自编码音频频谱图Transformer	论文
2022-03	LightHuBERT	具有一次到位隐藏单元BERT的轻量且可配置语音表示学习	论文
2022-02	Data2vec	语音、视觉和语言领域自监督学习的通用框架	论文
2021-10	WavLM	WavLM：面向全栈语音处理的大规模自监督预训练	论文
2021-08	W2v-BERT	结合对比学习和掩码语言建模的自监督语音预训练	论文
2021-07	mHuBERT	使用离散单元进行直接的语音到语音翻译	论文
2021-06	HuBERT	通过掩码预测隐藏单元实现自监督语音表示学习	论文
2021-03	BYOL-A	用于通用音频表示的自监督学习	论文
2020-12	DeCoAR2.0	DeCoAR 2.0：结合向量量化技术的深度上下文化声学表示	论文
2020-07	TERA	TERA：用于语音的Transformer编码器表示的自监督学习	论文
2020-06	Wav2vec2.0	wav2vec 2.0：语音表示自监督学习的框架	论文
2019-10	APC	基于自回归预测编码的语音生成式预训练	论文
2018-07	CPC	基于对比预测编码的表示学习	论文

:trident: SLT 2024 编解码器-SUPERB 挑战赛

该挑战赛涵盖当今的神经音频编解码器以及语音/音频语言模型。
- 时间：12月3日 15:15 开始
- 详细议程：https://codecsuperb.github.io/

关于 SLT 2024 编解码器-SUPERB 挑战赛的更多信息

主题演讲嘉宾
- Neil Zeghidour (Kyutai)：15:15-16:00
  - 幻灯片 | 录像 | YouTube | Bilibili
  - 题目：音频语言模型
- Dongchao Yang (CUHK)：16:00-16:35
  - 幻灯片 | 录像 | YouTube | Bilibili
  - 题目：通用音频基础模型开发中的挑战
- Shang-Wen Li (Meta)：16:35-17:10
  - 幻灯片 | 录像 | YouTube | Bilibili
  - 题目：VoiceCraft：零样本语音编辑与野外环境下的 TTS
- Wenwu Wang (萨里大学)：17:40-18:15
  - 幻灯片 | 录像 | YouTube | Bilibili
  - 题目：神经音频编解码器：最新进展及 SemantiCodec 案例研究
- Minje Kim (UIUC)：18:15-18:50
  - 幻灯片 | 录像 | YouTube | Bilibili
  - 题目：神经语音通信编解码器的未来发展方向
主办方
- Hung-yi Lee (NTU)
- Haibin Wu (微软)
被接受的论文（录像）
- ESPnet-Codec：面向音频、音乐和语音的神经编解码器综合训练与评估
- Codec-SUPERB @ SLT 2024：一个用于神经音频编解码器模型的轻量级基准测试
- 基于语音语言模型的语音生成中神经音频编解码器的研究
- 利用双解码产品量化变分自编码器解决大码本语音分词器的索引坍塌问题
- MDCTCodec：一种面向高采样率和低比特率场景的轻量级基于 MDCT 的神经音频编解码器

:trident: Interspeech 2024 调查报告演讲

李宏毅教授将作为 Interspeech 2024 调查报告演讲的一部分，发表题为 口语语言模型开发中的挑战 的演讲。演讲主题将涵盖当今的语音/音频大型语言模型。

:trident: ICASSP 2024 教学讲座信息

我（Kai-Wei Chang）将作为 ICASSP 2024 教学讲座的一部分，发表题为 面向语音和语言基础模型的参数高效与提示学习 的演讲。演讲主题将涵盖当今的语音/音频大型语言模型。我的演示文稿幻灯片可在 https://kwchang.org/talks/ 上找到。如有任何讨论，请随时与我联系。

:trident: Interspeech 2026 教学讲座

即将推出……

🔱 相关仓库

名称	GitHub 仓库	论文
:fire: 新！口语对话模型调查	:fire: 新！链接	:fire: 新！论文
迈向音频语言模型的整体评估	链接	论文
大型音频模型	链接	-
优秀语音生成	链接	-
语音提示与适配器	链接	-
Codec-SUPERB	链接	论文
优秀神经编程与提示技术	链接	-

引用

综述论文 “关于语音语言模型的全景：全面综述” 现已在 arXiv 上发布。

@article{arora2025landscape,
  title={On The Landscape of Spoken Language Models: A Comprehensive Survey},
  author={Arora, Siddhant and Chang, Kai-Wei and Chien, Chung-Ming and Peng, Yifan and Wu, Haibin and Adi, Yossi and Dupoux, Emmanuel and Lee, Hung-Yi and Livescu, Karen and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2504.08528},
  year={2025}
}

核心作者的相关论文：

@article{chang2026tico,
      title={TiCo: 面向语音对话模型的时间可控训练},
      author={Kai-Wei Chang 和 Wei-Chih Chen、En-Pei Hu、Hung-yi Lee、James Glass},
      journal={arXiv预印本 arXiv:2603.22267},
      year={2026}
}

@article{wu2024ts3,
  title={TS3-Codec：基于 Transformer 的简单流式单编解码器},
  author={Wu, Haibin 和 Kanda, Naoyuki、Eskimez, Sefik Emre、Li, Jinyu},
  journal={arXiv预印本 arXiv:2411.18803},
  year={2024}
}

@article{wu2024codec,
  title={Codec-SUPERB@ SLT 2024：面向神经音频编解码器模型的轻量级基准测试},
  author={Wu, Haibin 和 Chen, Xuanjun、Lin, Yi-Cheng、Chang, Kaiwei、Du, Jiawei、Lu, Ke-Han、Liu, Alexander H、Chung, Ho-Lam、Wu, Yuan-Kuei、Yang, Dongchao 等},
  journal={arXiv预印本 arXiv:2409.14085},
  year={2024}
}

@inproceedings{wu-etal-2024-codec,
    title = "Codec-{SUPERB}：对声音编解码器模型的深入分析",
    author = "Wu, Haibin 与 Chung, Ho-Lam、Lin, Yi-Cheng、Wu, Yuan-Kuei、Chen, Xuanjun、Pai, Yu-Chi、Wang, Hsiu-Hsuan、Chang, Kai-Wei、Liu, Alexander、Lee, Hung-yi",
    editor = "Ku, Lun-Wei、Martins, Andre、Srikumar, Vivek",
    booktitle = "计算语言学协会研究成果：ACL 2024",
    month = aug,
    year = "2024",
    address = "曼谷，泰国",
    publisher = "计算语言学协会",
    url = "https://aclanthology.org/2024.findings-acl.616",
    doi = "10.18653/v1/2024.findings-acl.616",
    pages = "10330--10348",
}

@article{wu2023speechgen,
  title={Speechgen：利用提示解锁语音语言模型的生成能力},
  author={Wu, Haibin 和 Chang, Kai-Wei、Wu, Yuan-Kuei、Lee, Hung-yi},
  journal={arXiv预印本 arXiv:2306.02207},
  year={2023}
}

@article{wu2024towards,
  title={迈向音频语言建模——综述},
  author={Wu, Haibin 和 Chen, Xuanjun、Lin, Yi-Cheng、Chang, Kai-Wei、Chung, Ho-Lam、Liu, Alexander H、Lee, Hung-yi},
  journal={arXiv预印本 arXiv:2402.13236},
  year={2024}
}

Speech Trident 快速上手指南

Speech Trident 并非一个单一的可安装软件包，而是一个由台湾大学李宏毅教授团队维护的开源综述项目。它系统性地整理了语音大语言模型（Speech LLM）领域的三大核心方向：语音表示学习、神经编解码器以及语音大语言模型。

本指南旨在帮助开发者快速理解该项目结构，并获取列表中最新的模型资源进行开发。

环境准备

由于本项目主要提供论文列表、代码链接和技术调研，无需安装特定的 speech-trident 库。要运行列表中具体的模型（如 Mini-Omni, CosyVoice, GLM-4-Voice 等），建议准备以下通用深度学习环境：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python 版本: 3.9 - 3.11
硬件要求: 建议使用 NVIDIA GPU (显存 ≥ 16GB 用于推理，≥ 24GB 用于微调)
基础依赖:
- PyTorch (建议 2.0+)
- Git
- FFmpeg (用于音频处理)

前置依赖安装示例：

# 创建虚拟环境
python -m venv speech-env
source speech-env/bin/activate

# 安装基础深度学习栈 (以 CUDA 11.8 为例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装通用音频处理工具
pip install librosa soundfile ffmpeg-python

国内加速提示：推荐使用清华或阿里镜像源加速 Python 包安装：
pip install <package_name> -i https://pypi.tuna.tsinghua.edu.cn/simple

获取资源与安装

Speech Trident 的核心价值在于其维护的模型清单。你需要根据需求选择清单中的具体模型进行克隆和安装。

1. 克隆综述仓库

首先获取最新的模型列表和技术文档：

git clone https://github.com/ga642381/speech-trident.git
cd speech-trident

2. 选择并安装具体模型

在仓库的 README.md 表格中找到你感兴趣的模型（例如 Mini-Omni 2 或 CosyVoice 2），点击链接跳转至该模型的独立仓库。

示例：以 Mini-Omni 2 为例（2024-10 发布）

# 克隆具体模型仓库
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2

# 安装该模型特定依赖
pip install -r requirements.txt

注意：每个模型的环境配置可能不同，请务必阅读对应子项目的 README 文件。

基本使用

由于 Speech Trident 是综述项目，"使用"通常指运行其中收录的某个具体模型。以下以典型的语音对话模型（如 Mini-Omni 或类似架构）为例，展示通用的调用流程。

步骤 1: 加载模型与处理器

大多数 Speech LLM 使用 Hugging Face transformers 或官方提供的推理脚本。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 以假设的模型路径为例 (请替换为实际下载的模型路径)
model_path = "./mini-omni2" 

# 加载模型 (建议使用 float16 节省显存)
model = AutoModelForCausalLM.from_pretrained(
    model_path, 
    torch_dtype=torch.float16, 
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

步骤 2: 准备语音输入

将音频文件转换为模型所需的张量格式（通常为采样率 16k 的 Mono 音频）。

import librosa

audio_path = "input.wav"
# 重采样至模型要求的采样率 (例如 16000Hz)
speech_array, sampling_rate = librosa.load(audio_path, sr=16000)
inputs = processor(speech_array, sampling_rate=sampling_rate, return_tensors="pt").to(model.device)

步骤 3: 生成语音或文本响应

执行推理并保存输出。

# 生成响应
outputs = model.generate(**inputs, max_new_tokens=512)

# 解码结果 (如果是文本)
response_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("AI Response:", response_text)

# 如果是端到端语音生成，通常会有专门的 decode_audio 方法
# audio_output = model.decode_audio(outputs)
# soundfile.write("output.wav", audio_output, samplerate=16000)

核心领域参考

在使用具体模型前，建议参考 Speech Trident 整理的三大技术支柱，以便更好地理解模型原理：

Speech Representation Models (语音表示模型)
- 作用：将连续语音信号量化为离散语义 Token。
- 代表技术：HuBERT, WavLM。
Speech Neural Codec Models (语音神经编解码器)
- 作用：提取声学 Token，保持高重建质量和低码率。
- 代表技术：EnCodec, SoundStream。
Speech Large Language Models (语音大语言模型)
- 作用：基于上述 Token 进行语言建模，实现语音理解与生成。
- 代表模型：列表中的 Qwen2.5-Omni, Step-Audio, Moshi 等。

如需查看完整的模型演进时间轴和详细论文解读，请直接查阅本地 speech-trident/README.md 文件或访问其 arXiv 综述论文。

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|2天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他