Amphion
Amphion 是一款专为音频、音乐及语音生成领域打造的开源工具包。它的核心使命是降低研究门槛,支持可复现的科学研究,帮助初学者快速上手音频生成技术的研发工作。
在功能上,Amphion 致力于构建一个将任意输入转化为音频的统一平台。它全面支持文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、口音转换(AC)、歌声转换(SVC)以及文本转音频(TTA)等多种任务,并集成了高质量声码器与专业的评估指标模块,确保生成效果的可控性与一致性。此外,项目还积极建设大规模数据集,推动技术在真实场景中的落地。
Amphion 特别适合人工智能领域的研究人员、工程师以及希望深入理解模型原理的学生使用。其最具特色的技术亮点在于提供了经典模型架构的可视化功能,让复杂的内部机制变得直观易懂,极大地辅助了学习与调试过程。无论是想要复现前沿论文成果,还是希望从零开始探索音频生成技术,Amphion 都能提供坚实的技术支撑与友好的开发环境。
使用场景
某初创游戏工作室的音频工程师需要为独立游戏快速生成多风格的角色语音和背景音乐,同时确保不同模型生成的音频质量一致且可复现。
没有 Amphion 时
- 环境搭建繁琐:工程师需分别寻找 TTS、SVS 和 Vocoder 的独立代码库,依赖冲突频发,配置环境耗时数天。
- 模型黑盒难调优:缺乏直观的架构可视化,初级开发人员难以理解模型内部机制,调整参数全靠盲目试错。
- 评估标准不统一:不同任务使用不同的评估脚本,导致生成的语音和音乐质量无法横向对比,难以确定最优模型。
- 数据复现困难:开源项目往往缺少完整的数据预处理流程,导致实验结果无法复现,阻碍团队协作迭代。
使用 Amphion 后
- 一站式集成开发:Amphion 内置了 TTS、SVS、VC 等全套任务流水线,工程师在统一框架下即可调用多种模型,环境部署时间缩短至几小时。
- 可视化辅助理解:利用 Amphion 独有的模型架构可视化功能,团队成员快速掌握了 prosody learning 等核心机制,针对性调优效率显著提升。
- 标准化质量评估:内置的统一评估指标模块让语音清晰度与音乐生成质量的对比有了客观依据,快速锁定了适合游戏风格的最佳模型组合。
- 可复现的研究路径:基于 Amphion 提供的大规模数据集构建工具和标准化流程,团队轻松复现了 SOTA 效果,并在此基础上定制了专属角色音色。
Amphion 通过统一的框架、可视化的洞察和标准化的评估,将音频生成的研发门槛从“专家级”降低至“工程级”,极大加速了创意落地。
运行环境要求
- 未说明
未说明 (作为音频生成工具,训练和推理通常强烈依赖 NVIDIA GPU,但 README 文本中未列出具体的型号、显存或 CUDA 版本要求)
未说明

快速开始
Amphion:一款开源的音频、音乐和语音生成工具包
Amphion(/æmˈfaɪən/)是一款用于音频、音乐和语音生成的工具包。 其宗旨是支持可复现的研究,并帮助初学者研究人员和工程师入门音频、音乐和语音生成领域的研究与开发。Amphion 的一项独特功能是提供经典模型或架构的可视化展示。我们相信,这些可视化对于希望更深入理解模型的初学者研究人员和工程师大有裨益。
Amphion 的核心目标是提供一个平台,用于研究如何将任意输入转换为音频。 Amphion 旨在支持多种具体的生成任务,包括但不限于:
- TTS:文本到语音(⛳ 已支持)
- SVS:歌声合成(⛳ 已支持)
- VC:语音转换(⛳ 已支持)
- AC:口音转换(⛳ 已支持)
- SVC:歌声转换(⛳ 已支持)
- TTA:文本到音频(⛳ 已支持)
- TTM:文本到音乐(👨💻 正在开发中)
- 更多……
除了具体的生成任务外,Amphion 还包含多种声码器和评估指标。声码器是生成高质量音频信号的重要模块,而评估指标则对确保生成任务中的一致性至关重要。此外,Amphion 致力于推动音频生成技术在实际应用中的发展,例如构建用于语音合成的大规模数据集。
🚀 新闻
- 2026年3月25日: 我们发布了Vevo2,这是一个统一且可控的语音与歌声生成框架。Vevo2通过统一的韵律学习,实现了可控语音与歌声生成之间的桥梁,支持TTS、SVS、VC、SVC、歌声编辑、演唱风格转换、旋律控制等多种功能。
- 2025年5月26日: 我们发布了DualCodec,这是一种低帧率(12.5Hz或25Hz)、语义增强(带有SSL特征)的神经音频编解码器,旨在提取离散标记以实现高效的语音生成。
- 2025年4月12日: 我们发布了Vevo1.5,它扩展了Vevo的功能,专注于语音和歌声的统一可控生成。Vevo1.5可应用于一系列语音和歌声生成任务,包括VC、TTS、AC、SVS、SVC、语音/歌声编辑、演唱风格转换等。
- 2025年2月26日: 我们发布了Metis,这是一个用于统一语音生成的基础模型。该系统支持零样本文本到语音转换、语音转换、目标说话人提取、语音增强以及唇形同步语音等功能。
- 2025年2月26日: 包含超过20万小时数据的Emilia-Large数据集现已开放!!! Emilia-Large结合了原始的10.1万小时Emilia数据集(采用
CC BY-NC 4.0许可)与全新的11.4万小时Emilia-YODAS数据集(采用CC BY 4.0许可)。可在下载。详细信息请参阅
。
- 2025年1月30日: 我们发布了Amphion v0.2技术报告,其中全面概述了2024年Amphion的各项更新。
- 2025年1月23日: MaskGCT和Vevo已被ICLR 2025接收!🎉
- 2024年12月22日: 我们发布了Vevo的复现版本,这是一个具有可控音色和风格的零样本语音模仿框架。Vevo可应用于一系列语音生成任务,包括VC、TTS、AC等。发布的预训练模型基于Emilia数据集训练,并在零样本VC任务中达到了SOTA水平。
- 2024年10月19日: 我们发布了MaskGCT,这是一种完全非自回归的TTS模型,无需显式的文本与语音监督之间的对齐信息。MaskGCT基于Emilia数据集训练,在零样本TTS任务中达到了SOTA水平。
- 2024年9月1日: Amphion、Emilia和DSFF-SVC已被IEEE SLT 2024接收!🤗
- 2024年8月28日: 欢迎加入Amphion的Discord频道,与社区保持联系并互动!
- 2024年8月20日: SingVisio已被Computers & Graphics接收,详情请见此处! 🎉
- 2024年8月27日: Emilia数据集现已公开发布! 现在您可以在
或
发现这个包含10.1万小时野外语音数据的最广泛、最多样化的语音生成数据集!👑👑👑
- 2024年7月1日: Amphion现在发布了Emilia,这是首个开源的多语言野外语音生成数据集,包含超过10.1万小时的语音数据;同时发布了Emilia-Pipe,这是首个开源的预处理管道,旨在将野外语音数据转化为高质量的标注训练数据,用于语音生成!
- 2024年3月12日: Amphion现在支持NaturalSpeech3 FACodec,并发布了预训练检查点。
- 2024年2月22日: Amphion首个可视化工具SingVisio发布。
- 2023年12月18日: Amphion v0.1发布。
- 2023年11月28日: Amphion alpha版本发布。
⭐ 核心功能
TTS:文本到语音
- Amphion 在文本到语音(TTS)系统方面,相较于现有的开源库,达到了最先进的性能。它支持以下模型或架构:
- FastSpeech2:一种非自回归的 TTS 架构,采用前馈 Transformer 块。
- VITS:一种端到端的 TTS 架构,利用条件变分自编码器结合对抗学习。
- VALL-E:一种零样本 TTS 架构,使用具有离散码的神经编解码语言模型。
- NaturalSpeech2:一种基于潜在扩散模型生成自然语音的 TTS 架构。
- Jets:一个端到端的 TTS 模型,联合训练 FastSpeech2 和 HiFi-GAN,并配备对齐模块。
- MaskGCT:一种完全非自回归的 TTS 架构,无需显式的文本与语音监督之间的对齐信息。
- Vevo-TTS:一种可控制音色和风格的零样本 TTS 架构,由自回归 Transformer 和流匹配 Transformer 组成。
- DualCodec-VALLE:基于 12.5Hz DualCodec 令牌训练的 VALLE 模型,用于超快速生成。
- FastSpeech2:一种非自回归的 TTS 架构,采用前馈 Transformer 块。
VC:语音转换
Amphion 支持以下语音转换模型:
- Vevo:一个可控制音色和风格的零样本语音模仿框架。Vevo-Timbre 进行保持风格的语音转换,而 Vevo-Voice 则进行风格转换的语音转换。
- FACodec:FACodec 将语音分解为表示内容、韵律和音色等不同属性的子空间,能够实现零样本语音转换。
- Noro:一个抗噪声的零样本语音转换系统。Noro 引入了专为使用嘈杂参考语音进行 VC 而设计的创新组件,包括双分支参考编码模块和噪声无关的对比说话人损失。
神经音频编解码器
- DualCodec,一种低帧率(12.5Hz 或 25Hz)、语义增强(带有 SSL 特征)的神经音频编解码器,旨在提取离散令牌以实现高效的语音生成。
- FACodec:FACodec 将语音分解为表示内容、韵律和音色等不同属性的子空间。
AC:口音转换
- Amphion 支持通过 Vevo-Style 进行 AC。特别是,它可以以零样本的方式进行口音转换。
SVC:歌声转换
- Vevo2:一个统一且可控的语音和歌声生成框架。Vevo2 支持保持风格的 VC/SVC、风格转换的 VC/SVC、TTS、SVS、歌声编辑、歌声风格转换、旋律控制等。
- Vevo1.5:一个多功能的零样本语音模仿框架,用于统一的语音和歌声生成,支持 VC、TTS、AC、SVS、SVC、编辑、歌声风格转换等。
- Amphion 支持来自多种预训练模型的多模态内容特征,包括 WeNet、Whisper 和 ContentVec。这些模型在 SVC 中的具体作用已在我们 SLT 2024 的论文中进行了研究。
- Amphion 实现了多种最先进的模型架构,包括扩散模型、Transformer 模型、VAE 模型和流模型。其中,扩散模型架构采用 双向扩张 CNN 作为后端,并支持多种采样算法,如 DDPM、DDIM 和 PNDM。此外,它还支持基于 一致性模型 的单步推理。
TTA:文本到音频
- Amphion 使用潜在扩散模型支持 TTA。其设计类似于 AudioLDM、Make-an-Audio 和 AUDIT。它同时也是我们 NeurIPS 2023 论文中文本到音频生成部分的官方实现。
语音合成器
- Amphion 支持多种广泛使用的神经网络语音合成器,包括:
- Amphion 提供了 多尺度常Q变换判别器(我们 ICASSP 2024 论文)的官方实现。它可以在训练过程中用于增强任何基于 GAN 的语音合成器架构,同时保持推理阶段的性能(如内存占用或速度)不变。
评估
支持的评估指标包括:
- 基频建模:基频皮尔逊相关系数、基频周期性均方根误差、基频均方根误差、有声/无声 F1 分数等。
- 能量建模:能量均方根误差、能量皮尔逊相关系数等。
- 可懂度:字符/单词错误率,可基于 Whisper 等工具计算。
- 频谱失真:弗雷歇音频距离 (FAD)、梅尔倒谱失真 (MCD)、多分辨率 STFT 距离 (MSTFT)、语音质量感知评价 (PESQ)、短时客观可懂度 (STOI) 等。
- 说话人相似度:余弦相似度,可基于 RawNet3、Resemblyzer、WeSpeaker、WavLM 等计算。
数据集
- Amphion 统一了开源数据集的数据预处理流程,涵盖 AudioCaps、LibriTTS、LJSpeech、M4Singer、Opencpop、OpenSinger、SVCC、VCTK 等。支持的数据集列表可在 这里 查看(持续更新)。
- Amphion 独家支持 Emilia 数据集及其预处理流水线 Emilia-Pipe,专为野生环境下的语音数据设计!
可视化
Amphion 提供可视化工具,以交互方式展示经典模型的内部处理机制。这为教育目的和促进可理解的研究提供了宝贵的资源。
目前,Amphion 支持 SingVisio,一款用于歌唱语音转换的扩散模型可视化工具。
📀 安装
Amphion 可通过 Setup 安装程序或 Docker 镜像进行安装。
Setup 安装程序
git clone https://github.com/open-mmlab/Amphion.git
cd Amphion
# 创建 Python 环境
conda create --name amphion python=3.9.15
conda activate amphion
# 安装 Python 包依赖
sh env.sh
Docker 镜像
安装 Docker、NVIDIA 驱动程序、NVIDIA 容器工具包 和 CUDA。
运行以下命令:
git clone https://github.com/open-mmlab/Amphion.git
cd Amphion
docker pull realamphion/amphion
docker run --runtime=nvidia --gpus all -it -v .:/app realamphion/amphion
使用 Docker 时,必须通过 -v 参数挂载数据集。更多详情请参阅 在 Docker 容器中挂载数据集 和 Docker 文档。
🐍 Python 使用
我们在以下示例中详细介绍了不同任务的操作说明:
👨💻 贡献
我们非常欢迎所有有助于改进 Amphion 的贡献。请参阅 CONTRIBUTING.md 获取贡献指南。
🙏 致谢
- ming024 的 FastSpeech2 和 jaywalnut310 的 VITS,感谢其提供的模型架构代码。
- lifeiteng 的 VALL-E,感谢其提供的训练流程和模型架构设计。
- SpeechTokenizer,感谢其语义蒸馏分词器的设计。
- WeNet、Whisper、ContentVec 和 RawNet3,感谢其提供的预训练模型和推理代码。
- HiFi-GAN,感谢其提供的基于 GAN 的语音合成器架构设计和训练策略。
- Encodec,感谢其组织良好的 GAN 判别器架构和基础模块。
- Latent Diffusion,感谢其提供的模型架构设计。
- TensorFlowTTS,感谢其提供的 MFA 工具准备。
©️ 许可证
Amphion 采用 MIT 许可证,无论用于研究还是商业用途均免费。
📚 参考文献
Amphion v0.2:
@article{amphion_v0.2,
title = {Amphion 工具包概述(v0.2)},
author = {李佳琪、张雪瑶、王元成、何浩睿、王超仁、王力、廖欢、敖俊毅、谢泽宇、黄一乔、张俊安、吴志正},
year = {2025},
journal = {arXiv 预印本 arXiv:2501.15442},
}
Amphion v0.1:
@inproceedings{amphion,
author={张雪瑶、薛留萌、顾义成、王元成、李佳琪、何浩睿、王超仁、宋婷、陈曦、方子豪、陈浩鹏、张俊安、唐子莹、邹乐晓、王明轩、韩俊、陈凯、李海舟、吴志正},
title={Amphion:一个开源的音频、音乐和语音生成工具包},
booktitle={{IEEE} 口语语言技术研讨会,{SLT} 2024},
year={2024}
}
版本历史
v0.1.1-alpha2024/02/23v0.1.02024/02/23v0.1.0-alpha2024/02/23常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
airi
airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。
MockingBird
MockingBird 是一款开源的实时语音克隆工具,旨在让用户仅需 5 秒的参考音频,即可快速合成任意内容的语音,并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点,让个性化语音生成变得触手可及。 这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究,还是制作创意内容,MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力,也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。 在技术亮点方面,MockingBird 基于 PyTorch 框架,不仅完美支持中文普通话及多种主流数据集,还实现了跨平台运行,兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器,只需微调合成器即可获得出色效果,大幅降低了部署门槛。此外,项目内置了现成的 Web 服务器功能,方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本,但 MockingBird 作为经典的本地部署方案