Awesome-Audio-LLM

900 46 非常简单 2 次阅读 3天前音频

AI 解读由 AI 自动生成，仅供参考

Awesome-Audio-LLM 是一个专注于音频大语言模型领域的开源资源聚合库，汇集了该方向最新的模型、方法、数据集和评测基准，旨在帮助社区快速追踪技术动态。随着音频生成与理解技术的飞速发展，相关论文和项目往往分散在各地，研究人员难以全面掌握全貌。Awesome-Audio-LLM 解决了信息碎片化的问题，提供了一个一站式的学习与研究入口。

Awesome-Audio-LLM 非常适合人工智能领域的研究人员、算法开发者以及希望深入了解多模态技术的学生。内容涵盖模型与方法、基准测试、数据资源、安全性及多模态交互等多个维度。Awesome-Audio-LLM 的亮点在于收录了 Moshi、Ultravox 等知名项目，还特别关注安全评估、思维链推理（Audio-CoT）等前沿探索，并通过时间轴可视化展示技术演进路线。此外，社区氛围活跃，欢迎开发者提交 Issue 或 Pull Requests 来丰富资源列表。对于想要构建语音助手或进行音频分析应用的团队来说，这里提供了宝贵的参考素材和技术路线图。无论是学术研究还是工程落地，Awesome-Audio-LLM 都是了解音频大模型生态的首选指南。

使用场景

某智能客服团队正在研发新一代语音交互系统，需要快速筛选最适合的音频大模型架构以优化响应速度。

没有 Awesome-Audio-LLM 时

分散在各大论文网站和 GitHub 仓库，查找耗时且容易遗漏最新研究成果。
缺乏统一的评估标准，难以横向对比不同模型的准确率、延迟及多语言支持能力。
数据集资源零散分布，无法快速找到适合特定业务场景的高质量训练数据。
安全合规信息缺失，直接部署开源模型可能面临隐私泄露或内容生成风险。

使用 Awesome-Audio-LLM 后

Awesome-Audio-LLM 集中整理了主流模型与方法，一键获取最新技术动态与官方链接。
内置 Benchmark 板块提供标准化测试指标，辅助团队决策选择最优方案并验证性能。
链接丰富的 Dataset Resource，支持快速定位高质量音频训练集加速模型微调。
涵盖 Safety 章节，帮助团队提前识别潜在风险并参考相关防护策略。

Awesome-Audio-LLM 通过聚合全链路资源，显著降低了音频大模型的技术选型门槛与研发周期。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该仓库为音频大模型资源聚合列表（Awesome List），本身不包含可执行代码或安装依赖。具体模型（如 Step-Audio、PAL 等）的运行环境需参考各自独立的 GitHub 项目或论文文档。

python未说明

未说明

快速开始

🌟🌟🌟 寻找有趣的工作或希望你的作品被收录？提交 Issue 或 Pull Requests！:)

贡献者

我们感谢以下贡献者的宝贵贡献！ zwenyu, Yuan-ManX, chaoweihuang, Liu-Tianchi, Sakshi113, hbwu-ntu, potsawee, czwxian, marianasignal, 以及你！

模型与方法

【2025-06】-【PAL】-【CVSSP,PAI@英国萨里大学，MBZUAI 阿布扎比】-【类型：模型】
- PAL：通过大语言模型 (LLMs) 探测音频编码器——从音频编码器到大语言模型的信息传递研究
- 作者： Tony Alex, Wish Suharitdamrong, Sara Atito, Armin Mustafa, Philip J. B. Jackson, Imran Razzak, Muhammad Awais
- 论文 / 其他链接
【2025 年 2 月】-【Step-Audio】-【Step-Audio 团队，StepFun】-【类型：模型】
- Step-Audio：智能语音交互中的统一理解与生成
- 作者： Ailin Huang, Boyong Wu, Bruce Wang, Chao Yan, Chen Hu, Chengli Feng, Fei Tian, Feiyu Shen, Jingbei Li, Mingrui Chen, Peng Liu, Ruihang Miao, Wang You, Xi Chen, Xuerui Yang, Yechang Huang, Yuxiang Zhang, Zheng Gong, Zixin Zhang, Hongyu Zhou, Jianjian Sun, Brian Li, Chengting Feng, Changyi Wan, Hanpeng Hu, Jianchang Wu, Jiangjie Zhen, Ranchen Ming, Song Yuan, Xuelin Zhang, Yu Zhou, Bingxin Li, Buyun Ma, Hongyuan Wang, Kang An, Wei Ji, Wen Li, Xuan Wen, Xiangwen Kong, Yuankai Ma, Yuanwei Liang, Yun Mou, Bahtiyar Ahmidi, Bin Wang, Bo Li, Changxin Miao, Chen Xu, Chenrun Wang, Dapeng Shi, Deshan Sun, Dingyuan Hu, Dula Sai, Enle Liu, Guanzhe Huang, Gulin Yan, Heng Wang, Haonan Jia, Haoyang Zhang, Jiahao Gong, Junjing Guo, Jiashuai Liu, Jiahong Liu, Jie Feng, Jie Wu, Jiaoren Wu, Jie Yang, Jinguo Wang, Jingyang Zhang, Junzhe Lin, Kaixiang Li, Lei Xia, Li Zhou, Liang Zhao, Longlong Gu, Mei Chen, Menglin Wu, Ming Li, Mingxiao Li, Mingliang Li, Mingyao Liang, Na Wang, Nie Hao, Qiling Wu, Qinyuan Tan, Ran Sun, Shuai Shuai, Shaoliang Pang, Shiliang Yang, Shuli Gao, Shanshan Yuan, Siqi Liu, Shihong Deng, Shilei Jiang, Sitong Liu, Tiancheng Cao, Tianyu Wang, Wenjin Deng, Wuxun Xie, Weipeng Ming, Wenqing He , Wen Sun, Xin Han, Xin Huang, Xiaomin Deng, Xiaojia Liu, Xin Wu, Xu Zhao, Yanan Wei, Yanbo Yu, Yang Cao, Yangguang Li, Yangzhen Ma, Yanming Xu, Yaoyu Wang, Yaqiang Shi, Yilei Wang, Yizhuang Zhou, Yinmin Zhong, Yang Zhang, Yaoben Wei, Yu Luo, Yuanwei Lu, Yuhe Yin, Yuchu Luo, Yuanhao Ding, Yuting Yan, Yaqi Dai, Yuxiang Yang, Zhe Xie, Zheng Ge, Zheng Sun, Zhewei Huang, Zhichao Chang, Zhisheng Guan, Zidong Yang, Zili Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu
- 论文 / Hugging Face 模型
【2025 年 2 月】-【OSUM】-【ASLP@NPU】-【类型：模型】
- OSUM：利用学术界的有限资源推进开放语音理解模型
- 作者： Xuelong Geng, Kun Wei, Qijie Shao, Shuiyun Liu, Zhennan Lin, Zhixian Zhao, Guojian Li, Wenjie Tian, Peikun Chen, Yangze Li, Pengcheng Guo, Mingchen Shao, Shuiyuan Wang, Yuang Cao, Chengyou Wang, Tianyi Xu, Yuhang Dai, Xinfa Zhu, Yue Li, Li Zhang, Lei Xie
- 论文 / Hugging Face 模型
【2025 年 1 月】-【Audio-CoT】-【新加坡南洋理工大学】-【类型：模型】
- Audio-CoT：探索大型音频语言模型中的思维链推理（Chain-of-Thought Reasoning）
- 作者： Ziyang Ma, Zhuo Chen, Yuping Wang, Eng Siong Chng, Xie Chen
- 论文
【2025 年 1 月】-【LUCY】-【腾讯】-【类型：模型】
- LUCY：语言理解与控制成就其早期形态
- 作者： Heting Gao, Hang Shao, Xiong Wang, Chaofan Qiu, Yunhang Shen, Siqi Cai, Yuchen Shi, Zihan Xu, Zuwei Long, Yike Zhang, Shaoqi Dong, Chaoyou Fu, Ke Li, Long Ma, Xing Sun
- 论文
【2024 年 12 月】-【Typhoon2-Audio】-【SCB 10X】-【类型：多模态语言模型（Multimodal Language Model）】
- Typhoon2-Audio：用于语音和文本处理的泰语多模态语言模型
- 作者： Kunat Pipatanakul, Potsawee Manakul, Natapong Nitarach, Warit Sirichotedumrong, Surapon Nonesung, Teetouch Jaknamon, Parinthapat Pengpun, Pittawat Taveekitworachai, Adisai Na-Thalang, Sittipong Sripaisarnmongkol, Krisanapong Jirayoot, Kasima Tharnpipitchai
- 论文 / Hugging Face 模型 / 演示
【2024 年 12 月】-【MERaLiON-AudioLLM】-【I2R, A*STAR, 新加坡】-【类型：模型】
- MERaLiON-AudioLLM：利用大语言模型连接音频与语言
- 作者： Yingxu He, Zhuohan Liu, Shuo Sun, Bin Wang, Wenyu Zhang, Xunlong Zou, Nancy F. Chen, Ai Ti Aw
- 论文 / Hugging Face 模型 / 演示
【2024 年 11 月】-【台湾语 AudioLLM】-【国立台湾大学】-【类型：模型】
- 构建台湾华语口语语言模型：首次尝试
- 作者： Chih-Kai Yang, Yu-Kuan Fu, Chen-An Li, Yi-Cheng Lin, Yu-Xiang Lin, Wei-Chih Chen, Ho Lam Chung, Chun-Yi Kuan, Wei-Ping Huang, Ke-Han Lu, Tzu-Quan Lin, Hsiu-Hsuan Wang, En-Pei Hu, Chan-Jan Hsu, Liang-Hsuan Tseng, I-Hsiang Chiu, Ulin Sanga, Xuanjun Chen, Po-chun Hsu, Shu-wen Yang, Hung-yi Lee
- 论文
【2024 年 10 月】-【SPIRIT LM】-【Meta】-【类型：模型】
- SPIRIT LM：交织式口语与书面语语言模型
- 作者： Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
- 论文 / 其他链接
【2024 年 10 月】-【DiVA】-【佐治亚理工学院，斯坦福大学】-【类型：模型】
- 无需指令训练数据蒸馏端到端语音助手
- 作者： William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
- 论文 / 演示
【2024 年 10 月】-【SpeechEmotionLlama】-【麻省理工学院，Meta】-【类型：模型】
- 冻结的大语言模型能够感知语音的副语言特征（Paralinguistic Aspects）
- 作者： Wonjune Kang, Junteng Jia, Chunyang Wu, Wei Zhou, Egor Lakomkin, Yashesh Gaur, Leda Sari, Suyoun Kim, Ke Li, Jay Mahadeokar, Ozlem Kalinli
- 论文
【2024-10】-【SPIRIT LM】-【Meta】-【类型：模型】
- SPIRIT LM：交错式口语与书面语语言模型 (LM)
- 作者： Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoît Sagot, Emmanuel Dupoux
- 论文 / 演示
【2024-09】-【DeSTA2】-【国立台湾大学，英伟达】-【类型：模型】
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data
- 作者： Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
- 论文
【2024-09】-【Moshi】-【Kyutai】-【类型：模型】
- Moshi：用于实时对话的语音 - 文本基础模型
- 作者： Alexandre Défossez, Laurent Mazaré, Manu Orsini, Amélie Royer, Patrick Pérez, Hervé Jégou, Edouard Grave, Neil Zeghidour
- 论文
【2024-09】-【Ultravox】-【Fixie.ai】-【类型：模型】
- Ultravox：一种用于实时语音的快速多模态大语言模型 (LLM)
- 作者：
【2024-09】-【LLaMA-Omni】-【中国科学院计算技术研究所 (ICT/CAS)】-【类型：模型】
- LLaMA-Omni：与大语言模型的无缝语音交互
- 作者： Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
- 论文
【2024-09】-【MoWE-Audio】-【新加坡科技研究局 (A*STAR)】-【类型：模型】
- MoWE-Audio：具有弱编码器混合的多任务音频大语言模型
- 作者： Wenyu Zhang, Shuo Sun, Bin Wang, Xunlong Zou, Zhuohan Liu, Yingxu He, Geyu Lin, Nancy F. Chen, Ai Ti Aw
- 论文
【2024-09】-【ASRCompare】-【清华大学，腾讯 AI 实验室】-【类型：模型】
- 比较离散和连续空间的大语言模型用于语音识别 (ASR)
- 作者： Yaoxun Xu, Shi-Xiong Zhang, Jianwei Yu, Zhiyong Wu, Dong Yu
- 论文
【2024-09】-【AudioBERT】-【浦项科技大学，仁荷大学】-【类型：模型】
- AudioBERT：音频知识增强语言模型
- 作者： Hyunjong Ok, Suho Yoo, Jaeho Lee
- 论文
【2024-08】-【Typhoon-Audio】-【SCB 10X】-【类型：多模态语言模型】
- Typhoon-Audio：增强音频语言模型的低资源语言和遵循指令能力
- 作者： Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul
- 论文 / Hugging Face 模型
【2024-08】-【Mini-Omni】-【清华大学】-【类型：模型】
- Mini-Omni：语言模型可以在流式处理中听、说并思考
- 作者： Zhifei Xie, Changqiao Wu
- 论文
【2024-08】-【MooER】-【摩尔线程】-【类型：模型】
- MooER：来自摩尔线程的基于大语言模型的语音识别和翻译模型
- 作者： Zhenlin Liang, Junhao Xu, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang
- 论文
【2024-07】-【FunAudioLLM】-【阿里巴巴】-【类型：模型】
- FunAudioLLM：人类与大语言模型自然交互的语音理解和生成基础模型
- 作者： 提供的信息中未指定作者
- 论文 / 演示
【2024-07】-【LLaST】-【香港中文大学（深圳）；上海人工智能实验室；日本奈良先端科学技术大学院大学】-【类型：模型】
- LLaST：利用大语言模型改进的端到端语音翻译系统
- 作者： Xi Chen, Songyang Zhang, Qibing Bai, Kai Chen, Satoshi Nakamura
- 论文
【2024-07】-【GAMA】-【马里兰大学帕克分校】-【类型：模型】
- GAMA：具有高级音频理解和复杂推理能力的大型音频 - 语言模型
- 作者： Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
- 论文 / 演示
【2024-07】-【CompA】-【马里兰大学帕克分校；美国奥多比；印度班加罗尔英伟达】-【类型：模型】
- CompA：解决音频 - 语言模型在组合推理方面的差距
- 作者： Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
- 论文 / 演示
【2024-07】-【Qwen2-Audio】-【阿里巴巴集团】-【类型：模型】
- Qwen2-Audio 技术报告
- 作者： Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
- 论文
【2024-07】-【Decoder-only LLMs for STT】-【台湾国立大学，Meta】-【类型：研究】
- 探究仅解码器大型语言模型（LLM）用于语音转文本（STT）翻译
- 作者： 所提供信息中未指定作者
- 论文
【2024-06】-【DeSTA】-【台湾国立大学，英伟达】-【类型：模型】
- DeSTA：通过描述性语音 - 文本对齐增强语音语言模型
- 作者： 所提供信息中未指定作者
- 论文
【2024-06】-【Speech ReaLLM】-【Meta】-【类型：模型】
- Speech ReaLLM – 通过教导时间流实现多模态（Multimodal）大型语言模型（LLM）的实时流式语音识别
- 作者： 所提供信息中未指定作者
- 论文
【2024-06】-【MusiLingo】-【宾夕法尼亚大学】-【类型：模型】
- MusiLingo：利用预训练语言模型连接音乐与文本，用于音乐标注和查询响应
- 作者： Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos
- 论文
【2024-05】-【Audio Flamingo】-【英伟达】-【类型：模型】
- Audio Flamingo：一种具有少样本学习（Few-Shot Learning）和对话能力的新颖音频语言模型
- 作者： 所提供信息中未指定作者
- 论文
【2024-04】-【SALMONN】-【清华大学】-【类型：模型】
- SALMONN：迈向大型语言模型（LLM）的通用听觉能力
- 作者： 所提供信息中未指定作者
- 论文 / 演示
【2024-03】-【WavLLM】-【香港中文大学（CUHK）】-【类型：模型】
- WavLLM：迈向鲁棒且自适应的语音大型语言模型（LLM）
- 作者： 所提供信息中未指定作者
- 论文
【2024-02】-【SLAM-LLM】-【上海交通大学（SJTU）】-【类型：模型】
- 一种具有强大自动语音识别（ASR）能力的大型语言模型（LLM）的简单方法
- 作者： 所提供信息中未指定作者
- 论文
【2024-01】-【Pengi】-【微软】-【类型：模型】
- Pengi：用于音频任务的音频语言模型
- 作者： 所提供信息中未指定作者
- 论文
【2023-12】-【Qwen-Audio】-【阿里巴巴】-【类型：模型】
- Qwen-Audio：通过统一的大规模音频 - 语言模型推进通用音频理解
- 作者： 所提供信息中未指定作者
- 论文 / 演示
【2023-10】-【UniAudio】-【香港中文大学（CUHK）】-【类型：模型】
- 面向通用音频生成的音频基础模型（Foundation Model）
- 作者： 所提供信息中未指定作者
- 论文 / 演示
【2023-09】-【Segment-level Q-Former】-【清华大学，字节跳动】-【类型：模型】
- 连接语音编码器和大型语言模型（LLM）以实现自动语音识别（ASR）
- 作者： Wenyi Yu, Changli Tang, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
- 论文
【2023-09】-【LLaSM】-【LinkSoul.AI】-【类型：模型】
- LLaSM：大型语言与语音模型
- 作者： 所提供信息中未指定作者
- 论文
【2023-07】-【Prompting LLMs with Speech Recognition】-【Meta】-【类型：模型】
- 使用语音识别能力提示大型语言模型（LLM）
- 作者： Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer
- 论文
【2023-05】-【SpeechGPT】-【复旦大学】-【类型：模型】
- SpeechGPT：赋予大型语言模型（LLM）内在的跨模态对话能力
- 作者： Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu
- 论文 / 演示
【2023-04】-【AudioGPT】-【浙江大学】-【类型：模型】
- AudioGPT：理解和生成语音、音乐、声音和说话人头
- 作者： Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou Zhao, Shinji Watanabe
- 论文

基准测试

【2025-06】-【CMI-Bench】-【伦敦大学玛丽女王学院】-【类型：基准测试】
- CMI-Bench：用于评估音乐指令遵循的综合基准
- 作者： Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
- 论文 / Hugging Face 模型
【2025-05】-【MMAR】-【上海交通大学】-【类型：基准测试】
- MMAR：语音、音频、音乐及其混合领域深度推理的挑战性基准
- 作者： Ziyang Ma, Yinghao Ma, Yanqiao Zhu, Chen Yang, Yi-Wen Chao, Ruiyang Xu, Wenxi Chen, Yuanzhe Chen, Zhuo Chen, Jian Cong, Kai Li, Keliang Li, Siyou Li, Xinfeng Li, Xiquan Li, Zheng Lian, Yuzhe Liang, Minghao Liu, Zhikang Niu, Tianrui Wang, Yuping Wang, Yuxuan Wang, Yihao Wu, Guanrou Yang, Jianwei Yu, Ruibin Yuan, Zhisheng Zheng, Ziya Zhou, Haina Zhu, Wei Xue, Emmanouil Benetos, Kai Yu, Eng-Siong Chng, Xie Chen
- 论文
【2025-01】-【UltraEval-Audio】-【OpenBMB】-【类型：基准测试】
- UltraEval-Audio
- 作者： OpenBMB
【2024-12】-【ADU-Bench】-【清华大学，牛津大学】-【类型：基准测试】
- 大型音频 - 语言模型的开放式音频对话理解基准测试
- 作者： Kuofeng Gao, Shu-Tao Xia, Ke Xu, Philip Torr, Jindong Gu
- 论文
【2024-12】-【TalkArena】-【斯坦福大学，SCB 10X】-【类型：交互式基准测试工具】
- TalkArena：大型音频模型的交互式评估
- 作者： Ella Minzhi Li*, Will Held*, Michael J. Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang (*同等贡献)
- 演示 / 其他链接
【2024-12】-【ADU-Bench】-【清华大学，牛津大学】-【类型：基准测试】
- 大型音频 - 语言模型的开放式音频对话理解基准测试
- 作者： Kuofeng Gao, Shu-Tao Xia, Ke Xu, Philip Torr, Jindong Gu
- 论文
【2024-11】-【Dynamic-SUPERB Phase-2】-【国立台湾大学，德克萨斯大学奥斯汀分校，卡内基梅隆大学，南洋理工大学，芝加哥丰田技术研究所，魁北克大学 INRS-EMT，NVIDIA，ASAPP，中国人民大学】-【类型：评估框架】
- Dynamic-SUPERB Phase-2：包含 180 项任务的协作扩展基准，用于衡量语音语言模型的能力
- 作者： Chien-yu Huang, Wei-Chih Chen, Shu-wen Yang, Andy T. Liu, Chen-An Li, Yu-Xiang Lin, Wei-Cheng Tseng, Anuj Diwan, Yi-Jen Shih, Jiatong Shi, William Chen, Xuanjun Chen, Chi-Yuan Hsiao, Puyuan Peng, Shih-Heng Wang, Chun-Yi Kuan, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi Lee
- 论文 / 其他链接
【2024-10】-【VoiceBench】-【新加坡国立大学】-【类型：基准测试】
- VoiceBench：基于大语言模型的语音助手基准测试
- 作者： Yiming Chen, Xianghu Yue, Chen Zhang, Xiaoxue Gao, Robby T. Tan, Haizhou Li
- 论文
【2024-10】-【MMAU】-【马里兰大学】-【类型：基准测试】
- MMAU：大规模多任务音频理解与推理基准
- 作者： S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
- 论文 / 其他链接
【2024-09】-【SALMon】-【耶路撒冷希伯来大学】-【类型：基准测试】
- 声学语言模型评估套件
- 作者： Gallil Maimon, Amit Roth, Yossi Adi
- 论文 / 演示
【2024-08】-【MuChoMusic】-【庞培法布拉大学，伦敦大学玛丽女王学院，环球音乐集团】-【类型：基准测试】
- MuChoMusic：评估多模态音频 - 语言模型中的音乐理解能力
- 作者： Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov
- 论文
【2024-07】-【AudioEntailment】-【卡内基梅隆大学，微软】-【类型：基准测试】
- 音频蕴含：评估音频理解的演绎推理能力
- 作者： Soham Deshmukh, Shuo Han, Hazim Bukhari, Benjamin Elizalde, Hannes Gamper, Rita Singh, Bhiksha Raj
- 论文
【2024-06】-【AudioBench】-【新加坡科技研究局，新加坡】-【类型：基准测试】
- AudioBench：音频大语言模型的通用基准
- 作者： Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen
- 论文 / 演示
【2024-06】-【SD-Eval】-【香港中文大学，字节跳动】-【类型：基准测试】
- SD-Eval：超越文本的口语对话理解基准数据集
- 作者： Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu
- 论文
【2024-05】-【AIR-Bench】-【浙江大学，阿里巴巴】-【类型：基准测试】
- AIR-Bench：通过生成式理解对大型音频 - 语言模型进行基准测试
- 作者： Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou
- 论文
【2024-03】-【SpokenWOZ】-【腾讯】-【类型：基准测试】
- SpokenWOZ：面向语音任务导向对话代理的大规模语音 - 文本基准测试
- 作者： Shuzheng Si, Wentao Ma, Haoyu Gao, Yuchuan Wu, Ting-En Lin, Yinpei Dai, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li
- 论文 / 演示
【2023-09】-【Dynamic-SUPERB】-【台湾大学等】-【类型：基准测试】
- Dynamic-SUPERB：迈向动态、协作且全面的语音指令微调基准测试
- 作者： Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chi-Yuan Hsiao, Chun-Yi Kuan, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Jiatong Shi, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi Lee
- 论文

数据集资源

【2025-02】-【Audio-FLAN】-【香港科技大学】-【类型：数据集资源】
- Audio-FLAN：初步发布
- 作者： Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
- 论文 / Hugging Face 模型
【2024-04】-【LibriSQA】-【上海交通大学】-【类型：数据集资源】
- LibriSQA：一种用于大语言模型语音问答的新颖数据集与框架
- 作者： Zihan Zhao, Yiyang Jiang, Heyang Liu, Yanfeng Wang, Yu Wang
- 论文

安全性

【2024-06】-【CodecFake】-【台湾大学】-【类型：安全性】
- CodecFake：增强针对基于编解码器语音合成系统深度伪造音频的反欺骗模型
- 作者： Haibin Wu, Yuan Tseng, Hung-yi Lee
- 论文 / 其他链接
【2024-05】-【VoiceJailbreak】-【CISPA】-【类型：方法】
- 针对 GPT-4o 的语音越狱攻击
- 作者： Xinyue Shen, Yixin Wu, Michael Backes, Yang Zhang
- 论文

多模态

【2024-09】-【EMOVA】-【香港科技大学】-【类型：模型】
- EMOVA：赋能语言模型以生动情感看、听和说
- 作者： Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Jun Yao, Lanqing Hong, Lu Hou, Hang Xu
- 论文 / 演示
【2023-11】-【CoDi-2】-【加州大学伯克利分校】-【类型：模型】
- CoDi-2：上下文内、交错且交互式的任意到任意生成
- 作者： Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
- 论文 / 演示
【2023-06】-【Macaw-LLM】-【腾讯】-【类型：模型】
- Macaw-LLM：集成图像、视频、音频和文本的多模态语言建模
- 作者： Chenyang Lyu, Minghao Wu, Longyue Wang, Xinting Huang, Bingshuai Liu, Zefeng Du, Shuming Shi, Zhaopeng Tu
- 论文

综述

【2024-11】-【WavChat-Survey】-【浙江大学】-【类型：综述】
- WavChat：语音对话模型综述
- 作者： Shengpeng Ji, Yifu Chen, Minghui Fang, Jialong Zuo, Jingyu Lu, Hanting Wang, Ziyue Jiang, Long Zhou, Shujie Liu, Xize Cheng, Xiaoda Yang, Zehan Wang, Qian Yang, Jian Li, Yidi Jiang, Jingzhen He, Yunfei Chu, Jin Xu, Zhou Zhao
- 论文
【2024-10】-【SpeechLM-Survey】-【香港中文大学，腾讯】-【类型：综述】
- 语音语言模型最新进展：综述
- 作者： Wenqian Cui, Dianzhi Yu, Xiaoqi Jiao, Ziqiao Meng, Guangyan Zhang, Qichao Wang, Yiwen Guo, Irwin King
- 论文
【2024-10】-【SpeechLLM-Survey】-【上海交通大学，思必驰】-【类型：综述】
- 语音大语言模型综述
- 作者： Jing Peng, Yucheng Wang, Yu Xi, Xu Li, Xizhuo Zhang, Kai Yu
- 论文
【2024-02】-【AudioLM-Survey】-【台湾大学，麻省理工学院】-【类型：综述】
- 迈向音频语言建模——概述
- 作者： Haibin Wu, Xuanjun Chen, Yi-Cheng Lin, Kai-wei Chang, Ho-Lam Chung, Alexander H. Liu, Hung-yi Lee
- 论文

研究

【2024-06】-【Audio Hallucination】-【台湾大学】-【类型：研究】
- 理解声音，错过问题：大型音频 - 语言模型中对象幻觉的挑战
- 作者： Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee
- 论文

聊天机器人

【2025-01】-【MinMo】-【FunAudioLLM 团队，通义实验室 (Tongyi Lab), 阿里巴巴集团 (Alibaba Group)】-【类型：多模态大语言模型 (Multimodal Large Language Model)】
- MinMo：用于无缝语音交互的多模态大语言模型
- 作者： Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
- 论文 / 其他链接

Awesome-Audio-LLM 快速上手指南

Awesome-Audio-LLM 是一个专注于音频大语言模型（Audio LLM）的开源资源聚合库，收录了最新的模型、方法、数据集、基准测试及调研论文。本指南帮助您快速克隆并浏览该资源库。

1. 环境准备

由于本仓库主要作为资源索引和文档集合，无需复杂的编译或依赖安装环境。请确保您的开发环境满足以下基础要求：

操作系统: Linux / macOS / Windows (支持 Git)
网络环境: 稳定的互联网连接（用于访问 GitHub 及外部链接）
前置工具:
- Git (版本控制工具)
- 现代 Web 浏览器 (用于阅读 README 和跳转链接)
- Python 3.x (可选，部分关联项目可能需要运行代码)

💡 国内加速建议: 若 GitHub 访问不稳定，建议使用国内镜像源或代理工具进行克隆操作。

2. 安装步骤

通过 Git 将仓库克隆到本地即可开始使用。

git clone https://github.com/AudioLLMs/Awesome-Audio-LLM.git
cd Awesome-Audio-Audio-LLM

如需保持资源库为最新状态，可定期执行更新命令：

git pull origin main

3. 基本使用

本工具的核心价值在于其结构化的资源导航。您无需运行特定脚本，主要通过以下方式探索内容：

浏览目录结构

打开根目录下的 README.md 文件，查看顶部的 Table of Contents，快速定位感兴趣的内容板块：

Model and Methods: 查看最新音频模型架构与训练方法。
Benchmark: 获取评估基准与测试集信息。
Dataset Resource: 查找可用的音频数据集。
Chatbot: 探索现有的语音对话机器人实现。

访问具体项目

在列表中点击具体的模型名称（如 Step-Audio, PAL, OSUM 等），会跳转到对应的：

GitHub 仓库: 获取源代码与部署说明。
Hugging Face 页面: 下载预训练权重或体验 Demo。
ArXiv 论文: 阅读详细技术报告。

示例：查看时间线

仓库中包含一个可视化时间线图（model_release_timeline_vertical_listed.png），帮助开发者直观了解音频 LLM 技术的发展脉络。

注意: 本仓库本身不包含可执行的独立软件包。所列出的每个模型或项目（如 Step-Audio, Ultravox 等）均有独立的安装和使用文档，请在跳转后查阅对应项目的 README 以完成具体部署。

常见问题

如何向 Awesome-Audio-LLM 仓库添加新的项目条目？

添加‘模型’类型的项目需要提供哪些 JSON 字段？

添加'Benchmark'类型的项目格式与模型有何不同？

如果只有 arXiv 论文链接，可以直接提交吗？

如何提交包含多个版本或详细配置的模型信息？

如何提交交互式平台或排行榜（如 TalkArena）的信息？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|3天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|2天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|今天

语言模型音频Agent

MockingBird

MockingBird 是一款开源的实时语音克隆工具，旨在让用户仅需 5 秒的参考音频，即可快速合成任意内容的语音，并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点，让个性化语音生成变得触手可及。这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究，还是制作创意内容，MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力，也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。在技术亮点方面，MockingBird 基于 PyTorch 框架，不仅完美支持中文普通话及多种主流数据集，还实现了跨平台运行，兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器，只需微调合成器即可获得出色效果，大幅降低了部署门槛。此外，项目内置了现成的 Web 服务器功能，方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本，但 MockingBird 作为经典的本地部署方案

★ 36.9k|★★★★☆|3天前

Agent音频图像