[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-open-mmlab--Amphion":3,"tool-open-mmlab--Amphion":65},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":22},3788,"airi","moeru-ai\u002Fairi","airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。\n\nairi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。\n\n这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。",37086,1,"2026-04-05T10:54:25",[19,21,17],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":77,"owner_website":81,"owner_url":82,"languages":83,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":29,"env_os":115,"env_gpu":116,"env_ram":115,"env_deps":117,"category_tags":120,"github_topics":121,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":139,"updated_at":140,"faqs":141,"releases":171},3470,"open-mmlab\u002FAmphion","Amphion","Amphion (\u002Fæmˈfaɪən\u002F) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.","Amphion 是一款专为音频、音乐及语音生成领域打造的开源工具包。它的核心使命是降低研究门槛，支持可复现的科学研究，帮助初学者快速上手音频生成技术的研发工作。\n\n在功能上，Amphion 致力于构建一个将任意输入转化为音频的统一平台。它全面支持文本转语音（TTS）、歌声合成（SVS）、语音转换（VC）、口音转换（AC）、歌声转换（SVC）以及文本转音频（TTA）等多种任务，并集成了高质量声码器与专业的评估指标模块，确保生成效果的可控性与一致性。此外，项目还积极建设大规模数据集，推动技术在真实场景中的落地。\n\nAmphion 特别适合人工智能领域的研究人员、工程师以及希望深入理解模型原理的学生使用。其最具特色的技术亮点在于提供了经典模型架构的可视化功能，让复杂的内部机制变得直观易懂，极大地辅助了学习与调试过程。无论是想要复现前沿论文成果，还是希望从零开始探索音频生成技术，Amphion 都能提供坚实的技术支撑与友好的开发环境。","# Amphion: An Open-Source Audio, Music, and Speech Generation Toolkit\n\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Famphion\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Amphion-pink\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Famphion\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Amphion-cyan\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002FAmphion\">\u003Cimg src=\"https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FdrhW7ajqAG\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20chat-blue.svg\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Ftts\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-TTS-blue\">\u003C\u002Fa>\n    \u003Ca href=\"models\u002Fvc\u002Fvevo\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-VC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"models\u002Fvc\u002Fvevo\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-AC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fsvc\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-SVC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Ftta\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-TTA-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fvocoder\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Vocoder-purple\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fmetrics\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Evaluation-yellow\">\u003C\u002Fa>\n    \u003Ca href=\"LICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-red\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F5469\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-mmlab_Amphion_readme_4a68feb902da.png\" alt=\"open-mmlab%2FAmphion | Trendshift\" style=\"width: 150px; height: 33px;\" width=\"150\" height=\"33\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cbr>\n\n**Amphion (\u002Fæmˈfaɪən\u002F) is a toolkit for Audio, Music, and Speech Generation.** Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development. Amphion offers a unique feature: **visualizations** of classic models or architectures. We believe that these visualizations are beneficial for junior researchers and engineers who wish to gain a better understanding of the model.\n\n**The North-Star objective of Amphion is to offer a platform for studying the conversion of any inputs into audio.** Amphion is designed to support individual generation tasks, including but not limited to,\n\n- **TTS**: Text to Speech (⛳ supported)\n- **SVS**: Singing Voice Synthesis (⛳ supported)\n- **VC**: Voice Conversion (⛳ supported)\n- **AC**: Accent Conversion (⛳ supported)\n- **SVC**: Singing Voice Conversion (⛳ supported)\n- **TTA**: Text to Audio (⛳ supported)\n- **TTM**: Text to Music (👨‍💻 developing)\n- more…\n\nIn addition to the specific generation tasks, Amphion includes several **vocoders** and **evaluation metrics**. A vocoder is an important module for producing high-quality audio signals, while evaluation metrics are critical for ensuring consistent metrics in generation tasks. Moreover, Amphion is dedicated to advancing audio generation in real-world applications, such as building **large-scale datasets** for speech synthesis.\n\n## 🚀 News\n- **2026\u002F03\u002F25**: We release [***Vevo2***](models\u002Fsvc\u002Fvevo2\u002FREADME.md), a unified and controllable framework for speech and singing voice generation. Vevo2 bridges controllable speech and singing voice generation via unified prosody learning, supporting TTS, SVS, VC, SVC, Singing Voice Editing, Singing Style Conversion, Melody Control, and more. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2508.16332-brightgreen.svg?style=flat-square)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.16332) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002FRMSnow\u002FVevo2) [![WebPage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Fversasinger.github.io\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fsvc\u002Fvevo2\u002FREADME.md)\n- **2025\u002F05\u002F26**: We release [***DualCodec***](models\u002Fcodec\u002Fdualcodec\u002FREADME.md), a low-frame-rate (12.5Hz or 25Hz), semantically-enhanced (with SSL feature) Neural Audio Codec designed to extract discrete tokens for efficient speech generation.[![paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.13000-brightgreen.svg?style=flat-square)](http:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13000)[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1VvUhsDffLdY5TdNuaqlLnYzIoXhvI8MK#scrollTo=Lsos3BK4J-4E)[![demo page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub.io-Demo_Page-blue?logo=Github&style=flat-square)](https:\u002F\u002Fdualcodec.github.io\u002F)[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)\n- **2025\u002F04\u002F12**: We release [***Vevo1.5***](models\u002Fsvc\u002Fvevosing\u002FREADME.md), which extends Vevo and focuses on unified and controllable generation for both speech and singing voice. Vevo1.5 can be applied into a series of speech and singing voice generation tasks, including VC, TTS, AC, SVS, SVC, Speech\u002FSinging Voice Editing, Singing Style Conversion, and more. [![blog](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Blog-blue.svg)](https:\u002F\u002Fveiled-army-9c5.notion.site\u002FVevo1-5-1d2ce17b49a280b5b444d3fa2300c93a)\n- **2025\u002F02\u002F26**: We release [***Metis***](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Ftree\u002Fmain\u002Fmodels\u002Ftts\u002Fmetis), a foundation model for unified speech generation. The system supports zero-shot text-to-speech, voice conversion, target speaker extraction, speech enhancement, and lip-to-speech. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.03128) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fmetis)\n- **2025\u002F02\u002F26**: *The Emilia-Large dataset, featuring over 200,000 hours of data, is now available!!!* Emilia-Large combines the original 101k-hour Emilia dataset (licensed under `CC BY-NC 4.0`) with the brand-new 114k-hour **Emilia-YODAS dataset** (licensed under `CC BY 4.0`). Download at [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset). Check details at [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15907).\n- **2025\u002F01\u002F30**: We release [Amphion v0.2 Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15442), which provides a comprehensive overview of the Amphion updates in 2024. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15442)\n- **2025\u002F01\u002F23**: [MaskGCT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750) and [Vevo](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP) got accepted by ICLR 2025! 🎉\n- **2024\u002F12\u002F22**: We release the reproduction of **Vevo**, a zero-shot voice imitation framework with controllable timbre and style. Vevo can be applied into a series of speech generation tasks, including VC, TTS, AC, and more. The released pre-trained models are trained on [Emilia](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset) dataset and achieve SOTA zero-shot VC performance. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenReview-Paper-COLOR.svg)](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002FVevo) [![WebPage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Fversavoice.github.io\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- **2024\u002F10\u002F19**: We release **MaskGCT**, a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision. MaskGCT is trained on [Emilia](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset) dataset and achieves SOTA zero-shot TTS performance.  [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fmaskgct) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-demo-pink)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Famphion\u002Fmaskgct) [![ModelScope](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-space-purple)](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Famphion\u002Fmaskgct) [![ModelScope](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-model-cyan)](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Famphion\u002FMaskGCT) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Ftts\u002Fmaskgct\u002FREADME.md)\n- **2024\u002F09\u002F01**: [Amphion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911), [Emilia](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05361) and [DSFF-SVC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11160) got accepted by IEEE SLT 2024! 🤗\n- **2024\u002F08\u002F28**: Welcome to join Amphion's [Discord channel](https:\u002F\u002Fdiscord.com\u002Finvite\u002FdrhW7ajqAG) to stay connected and engage with our community！\n- **2024\u002F08\u002F20**: [SingVisio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660) got accepted by Computers & Graphics, [available here](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS0097849324001936)! 🎉\n- **2024\u002F08\u002F27**: *The Emilia dataset is now publicly available!* Discover the most extensive and diverse speech generation dataset with 101k hours of in-the-wild speech data now at [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset) or [![OpenDataLab](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenDataLab-Dataset-blue)](https:\u002F\u002Fopendatalab.com\u002FAmphion\u002FEmilia)! 👑👑👑\n- **2024\u002F07\u002F01**: Amphion now releases **Emilia**, the first open-source multilingual in-the-wild dataset for speech generation with over 101k hours of speech data, and the **Emilia-Pipe**, the first open-source preprocessing pipeline designed to transform in-the-wild speech data into high-quality training data with annotations for speech generation! [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05361) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia) [![demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Femilia-dataset.github.io\u002FEmilia-Demo-Page\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](preprocessors\u002FEmilia\u002FREADME.md)\n- **2024\u002F03\u002F12**: Amphion now support **NaturalSpeech3 FACodec** and release pretrained checkpoints. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-demo-pink)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Famphion\u002Fnaturalspeech3_facodec) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fcodec\u002Fns3_codec\u002FREADME.md)\n- **2024\u002F02\u002F22**: The first Amphion visualization tool, **SingVisio**, release. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660) [![openxlab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002FAmphion\u002FSingVisio) [![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVideo-Demo-orange)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15097SGhQh-SwUNbdWDYNyWEP--YGLba5\u002Fview) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](egs\u002Fvisualization\u002FSingVisio\u002FREADME.md)\n- **2023\u002F12\u002F18**: Amphion v0.1 release. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Amphion-pink)](https:\u002F\u002Fhuggingface.co\u002Famphion) [![youtube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-Demo-red)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=1aw0HhcggvQ) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F39)\n- **2023\u002F11\u002F28**: Amphion alpha release. [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F2)\n\n## ⭐ Key Features\n\n### TTS: Text to Speech\n\n- Amphion achieves state-of-the-art performance compared to existing open-source repositories on text-to-speech (TTS) systems. It supports the following models or architectures:\n    - [FastSpeech2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.04558): A non-autoregressive TTS architecture that utilizes feed-forward Transformer blocks. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FFastSpeech2\u002FREADME.md)\n    - [VITS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.06103): An end-to-end TTS architecture that utilizes conditional variational autoencoder with adversarial learning [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FVITS\u002FREADME.md)\n    - [VALL-E](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111): A zero-shot TTS architecture that uses a neural codec language model with discrete codes. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FVALLE\u002FREADME.md)\n    - [NaturalSpeech2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09116): An architecture for TTS that utilizes a latent diffusion model to generate natural-sounding voices. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FNaturalSpeech2\u002FREADME.md)\n    - [Jets](Jets): An end-to-end TTS model that jointly trains FastSpeech2 and HiFi-GAN with an alignment module. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FJets\u002FREADME.md)\n    - [MaskGCT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750): A fully non-autoregressive TTS architecture that eliminates the need for explicit alignment information between text and speech supervision. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Ftts\u002Fmaskgct\u002FREADME.md)\n    - [Vevo-TTS](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP): A zero-shot TTS architecture with controllable timbre and style. It consists of an autoregressive transformer and a flow-matching transformer. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n    - [DualCodec-VALLE](models\u002Fcodec\u002Fdualcodec\u002FREADME.md): A VALLE model trained on 12.5Hz DualCodec tokens for super fast generation.\n\n### VC: Voice Conversion\n\nAmphion supports the following voice conversion models:\n\n- [Vevo](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP): A zero-shot voice imitation framework with controllable timbre and style. **Vevo-Timbre** conducts the style-preserved voice conversion, and **Vevo-Voice** conducts the style-converted voice conversion. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [FACodec](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100): FACodec decomposes speech into subspaces representing different attributes like content, prosody, and timbre. It can achieve zero-shot voice conversion. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec)\n- [Noro](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19770): A **noise-robust** zero-shot voice conversion system. Noro introduces innovative components tailored for VC using noisy reference speeches, including a dual-branch reference encoding module and a noise-agnostic contrastive speaker loss. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fvc\u002FNoro\u002FREADME.md)\n\n### Neural Audio Codec\n- [DualCodec](models\u002Fcodec\u002Fdualcodec\u002FREADME.md), a low-frame-rate (12.5Hz or 25Hz), semantically-enhanced (with SSL feature) Neural Audio Codec designed to extract discrete tokens for efficient speech generation.[![paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.13000-brightgreen.svg?style=flat-square)](http:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13000)[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1VvUhsDffLdY5TdNuaqlLnYzIoXhvI8MK#scrollTo=Lsos3BK4J-4E)[![demo page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub.io-Demo_Page-blue?logo=Github&style=flat-square)](https:\u002F\u002Fdualcodec.github.io\u002F)[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)\n- [FACodec](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100): FACodec decomposes speech into subspaces representing different attributes like content, prosody, and timbre. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec)\n\n### AC: Accent Conversion\n\n- Amphion supports AC with [Vevo-Style](models\u002Fvc\u002Fvevo\u002FREADME.md). Particularly, it can conduct the accent conversion in a zero-shot manner. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n\n### SVC: Singing Voice Conversion\n\n- [Vevo2](models\u002Fsvc\u002Fvevo2\u002FREADME.md): A unified and controllable framework for speech and singing voice generation. Vevo2 supports style-preserved VC\u002FSVC, style-converted VC\u002FSVC, TTS, SVS, Singing Voice Editing, Singing Style Conversion, Melody Control, and more. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2508.16332-brightgreen.svg?style=flat-square)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.16332) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fsvc\u002Fvevo2\u002FREADME.md)\n- [Vevo1.5](models\u002Fsvc\u002Fvevosing\u002FREADME.md): A versatile zero-shot voice imitation framework for unified speech and singing voice generation, supporting VC, TTS, AC, SVS, SVC, Editing, Singing Style Conversion, and more. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fsvc\u002Fvevosing\u002FREADME.md)\n- Ampion supports multiple content-based features from various pretrained models, including [WeNet](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet), [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper), and [ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec). Their specific roles in SVC has been investigated in our SLT 2024 paper. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11160) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fsvc\u002FMultipleContentsSVC)\n- Amphion implements several state-of-the-art model architectures, including diffusion-, transformer-, VAE- and flow-based models. The diffusion-based architecture uses [Bidirectional dilated CNN](https:\u002F\u002Fopenreview.net\u002Fpdf?id=a-xFK8Ymz5J) as a backend and supports several sampling algorithms such as [DDPM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.11239.pdf), [DDIM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.02502.pdf), and [PNDM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.09778.pdf). Additionally, it supports single-step inference based on the [Consistency Model](https:\u002F\u002Fopenreview.net\u002Fpdf?id=FmqFfMTNnv). [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fsvc\u002FDiffComoSVC\u002FREADME.md)\n\n### TTA: Text to Audio\n\n- Amphion supports the TTA with a latent diffusion model. It is designed like [AudioLDM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503), [Make-an-Audio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12661), and [AUDIT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.00830). It is also the official implementation of the text-to-audio generation part of our NeurIPS 2023 paper. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.00830) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftta\u002FRECIPE.md)\n\n### Vocoder\n\n- Amphion supports various widely-used neural vocoders, including:\n    - GAN-based vocoders: [MelGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.06711), [HiFi-GAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.05646), [NSF-HiFiGAN](https:\u002F\u002Fgithub.com\u002Fnii-yamagishilab\u002Fproject-NN-Pytorch-scripts), [BigVGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04658), [APNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.07952).\n    - Flow-based vocoders: [WaveGlow](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.00002).\n    - Diffusion-based vocoders: [Diffwave](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.09761).\n    - Auto-regressive based vocoders: [WaveNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.03499), [WaveRNN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.08435v1).\n- Amphion provides the official implementation of [Multi-Scale Constant-Q Transform Discriminator](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.14957) (our ICASSP 2024 paper). It can be used to enhance any architecture GAN-based vocoders during training, and keep the inference stage (such as memory or speed) unchanged. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.14957) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fvocoder\u002Fgan\u002Ftfr_enhanced_hifigan)\n\n### Evaluation\n\nAmphion provides a comprehensive objective evaluation of the generated audio. [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fmetrics\u002FREADME.md) \n\nThe supported evaluation metrics contain:\n\n- **F0 Modeling**: F0 Pearson Coefficients, F0 Periodicity Root Mean Square Error, F0 Root Mean Square Error, Voiced\u002FUnvoiced F1 Score, etc.\n- **Energy Modeling**: Energy Root Mean Square Error, Energy Pearson Coefficients, etc.\n- **Intelligibility**: Character\u002FWord Error Rate, which can be calculated based on [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) and more.\n- **Spectrogram Distortion**: Frechet Audio Distance (FAD), Mel Cepstral Distortion (MCD), Multi-Resolution STFT Distance (MSTFT), Perceptual Evaluation of Speech Quality (PESQ), Short Time Objective Intelligibility (STOI), etc.\n- **Speaker Similarity**: Cosine similarity, which can be calculated based on [RawNet3](https:\u002F\u002Fgithub.com\u002FJungjee\u002FRawNet), [Resemblyzer](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002FResemblyzer), [WeSpeaker](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwespeaker), [WavLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) and more.\n\n### Datasets\n\n- Amphion unifies the data preprocess of the open-source datasets including [AudioCaps](https:\u002F\u002Faudiocaps.github.io\u002F), [LibriTTS](https:\u002F\u002Fwww.openslr.org\u002F60\u002F), [LJSpeech](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F), [M4Singer](https:\u002F\u002Fgithub.com\u002FM4Singer\u002FM4Singer), [Opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F), [OpenSinger](https:\u002F\u002Fgithub.com\u002FMulti-Singer\u002FMulti-Singer.github.io), [SVCC](http:\u002F\u002Fvc-challenge.org\u002F), [VCTK](https:\u002F\u002Fdatashare.ed.ac.uk\u002Fhandle\u002F10283\u002F3443), and more. The supported dataset list can be seen [here](egs\u002Fdatasets\u002FREADME.md) (updating). \n- Amphion (exclusively) supports the [**Emilia**](preprocessors\u002FEmilia\u002FREADME.md) dataset and its preprocessing pipeline **Emilia-Pipe** for in-the-wild speech data!\n\n### Visualization\n\nAmphion provides visualization tools to interactively illustrate the internal processing mechanism of classic models. This provides an invaluable resource for educational purposes and for facilitating understandable research.\n\nCurrently, Amphion supports [SingVisio](egs\u002Fvisualization\u002FSingVisio\u002FREADME.md), a visualization tool of the diffusion model for singing voice conversion. [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660) [![openxlab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002FAmphion\u002FSingVisio) [![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVideo-Demo-orange)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15097SGhQh-SwUNbdWDYNyWEP--YGLba5\u002Fview)\n\n\n## 📀 Installation\n\nAmphion can be installed through either Setup Installer or Docker Image.\n\n### Setup Installer\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion.git\ncd Amphion\n\n# Install Python Environment\nconda create --name amphion python=3.9.15\nconda activate amphion\n\n# Install Python Packages Dependencies\nsh env.sh\n```\n\n### Docker Image\n\n1. Install [Docker](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F), [NVIDIA Driver](https:\u002F\u002Fwww.nvidia.com\u002Fdownload\u002Findex.aspx), [NVIDIA Container Toolkit](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html), and [CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads).\n\n2. Run the following commands:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion.git\ncd Amphion\n\ndocker pull realamphion\u002Famphion\ndocker run --runtime=nvidia --gpus all -it -v .:\u002Fapp realamphion\u002Famphion\n```\nMount dataset by argument `-v` is necessary when using Docker. Please refer to [Mount dataset in Docker container](egs\u002Fdatasets\u002Fdocker.md) and [Docker Docs](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Freference\u002Fcommandline\u002Fcontainer_run\u002F#volume) for more details.\n\n\n## 🐍 Usage in Python\n\nWe detail the instructions of different tasks in the following recipes:\n\n- [Text to Speech (TTS)](egs\u002Ftts\u002FREADME.md)\n- [Voice Conversion (VC)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [Accent Conversion (AC)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [Singing Voice Conversion (SVC)](egs\u002Fsvc\u002FREADME.md)\n- [Text to Audio (TTA)](egs\u002Ftta\u002FREADME.md)\n- [Vocoder](egs\u002Fvocoder\u002FREADME.md)\n- [Evaluation](egs\u002Fmetrics\u002FREADME.md)\n- [Visualization](egs\u002Fvisualization\u002FREADME.md)\n\n## 👨‍💻 Contributing\nWe appreciate all contributions to improve Amphion. Please refer to [CONTRIBUTING.md](.github\u002FCONTRIBUTING.md) for the contributing guideline.\n\n## 🙏 Acknowledgement\n\n\n- [ming024's FastSpeech2](https:\u002F\u002Fgithub.com\u002Fming024\u002FFastSpeech2) and [jaywalnut310's VITS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fvits) for model architecture code.\n- [lifeiteng's VALL-E](https:\u002F\u002Fgithub.com\u002Flifeiteng\u002Fvall-e) for training pipeline and model architecture design.\n- [SpeechTokenizer](https:\u002F\u002Fgithub.com\u002FZhangXInFD\u002FSpeechTokenizer) for semantic-distilled tokenizer design.\n- [WeNet](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet), [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper), [ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec), and [RawNet3](https:\u002F\u002Fgithub.com\u002FJungjee\u002FRawNet) for pretrained models and inference code.\n- [HiFi-GAN](https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan) for GAN-based Vocoder's architecture design and training strategy.\n- [Encodec](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fencodec) for well-organized GAN Discriminator's architecture and basic blocks.\n- [Latent Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion) for model architecture design.\n- [TensorFlowTTS](https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowTTS) for preparing the MFA tools.\n\n\n## ©️ License\n\nAmphion is under the [MIT License](LICENSE). It is free for both research and commercial use cases.\n\n## 📚 Citations\nAmphion v0.2:\n```bibtex\n@article{amphion_v0.2,\n  title        = {Overview of the Amphion Toolkit (v0.2)},\n  author       = {Jiaqi Li and Xueyao Zhang and Yuancheng Wang and Haorui He and Chaoren Wang and Li Wang and Huan Liao and Junyi Ao and Zeyu Xie and Yiqiao Huang and Junan Zhang and Zhizheng Wu},\n  year         = {2025},\n  journal      = {arXiv preprint arXiv:2501.15442},\n}\n```\nAmphion v0.1: \n```bibtex\n@inproceedings{amphion,\n    author={Xueyao Zhang and Liumeng Xue and Yicheng Gu and Yuancheng Wang and Jiaqi Li and Haorui He and Chaoren Wang and Ting Song and Xi Chen and Zihao Fang and Haopeng Chen and Junan Zhang and Tze Ying Tang and Lexiao Zou and Mingxuan Wang and Jun Han and Kai Chen and Haizhou Li and Zhizheng Wu},\n    title={Amphion: An Open-Source Audio, Music and Speech Generation Toolkit},\n    booktitle={{IEEE} Spoken Language Technology Workshop, {SLT} 2024},\n    year={2024}\n}\n```\n","# Amphion：一款开源的音频、音乐和语音生成工具包\n\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Famphion\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Amphion-pink\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Famphion\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Amphion-cyan\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002FAmphion\">\u003Cimg src=\"https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FdrhW7ajqAG\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20chat-blue.svg\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Ftts\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-TTS-blue\">\u003C\u002Fa>\n    \u003Ca href=\"models\u002Fvc\u002Fvevo\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-VC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"models\u002Fvc\u002Fvevo\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-AC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fsvc\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-SVC-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Ftta\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-TTA-blue\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fvocoder\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Vocoder-purple\">\u003C\u002Fa>\n    \u003Ca href=\"egs\u002Fmetrics\u002FREADME.md\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Evaluation-yellow\">\u003C\u002Fa>\n    \u003Ca href=\"LICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-red\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F5469\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-mmlab_Amphion_readme_4a68feb902da.png\" alt=\"open-mmlab%2FAmphion | Trendshift\" style=\"width: 150px; height: 33px;\" width=\"150\" height=\"33\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cbr>\n\n**Amphion（\u002Fæmˈfaɪən\u002F）是一款用于音频、音乐和语音生成的工具包。** 其宗旨是支持可复现的研究，并帮助初学者研究人员和工程师入门音频、音乐和语音生成领域的研究与开发。Amphion 的一项独特功能是提供经典模型或架构的**可视化展示**。我们相信，这些可视化对于希望更深入理解模型的初学者研究人员和工程师大有裨益。\n\n**Amphion 的核心目标是提供一个平台，用于研究如何将任意输入转换为音频。** Amphion 旨在支持多种具体的生成任务，包括但不限于：\n\n- **TTS**：文本到语音（⛳ 已支持）\n- **SVS**：歌声合成（⛳ 已支持）\n- **VC**：语音转换（⛳ 已支持）\n- **AC**：口音转换（⛳ 已支持）\n- **SVC**：歌声转换（⛳ 已支持）\n- **TTA**：文本到音频（⛳ 已支持）\n- **TTM**：文本到音乐（👨‍💻 正在开发中）\n- 更多……\n\n除了具体的生成任务外，Amphion 还包含多种**声码器**和**评估指标**。声码器是生成高质量音频信号的重要模块，而评估指标则对确保生成任务中的一致性至关重要。此外，Amphion 致力于推动音频生成技术在实际应用中的发展，例如构建用于语音合成的**大规模数据集**。\n\n## 🚀 新闻\n- **2026年3月25日**: 我们发布了[***Vevo2***](models\u002Fsvc\u002Fvevo2\u002FREADME.md)，这是一个统一且可控的语音与歌声生成框架。Vevo2通过统一的韵律学习，实现了可控语音与歌声生成之间的桥梁，支持TTS、SVS、VC、SVC、歌声编辑、演唱风格转换、旋律控制等多种功能。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2508.16332-brightgreen.svg?style=flat-square)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.16332) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002FRMSnow\u002FVevo2) [![WebPage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Fversasinger.github.io\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fsvc\u002Fvevo2\u002FREADME.md)\n- **2025年5月26日**: 我们发布了[***DualCodec***](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)，这是一种低帧率（12.5Hz或25Hz）、语义增强（带有SSL特征）的神经音频编解码器，旨在提取离散标记以实现高效的语音生成。[![paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.13000-brightgreen.svg?style=flat-square)](http:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13000)[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1VvUhsDffLdY5TdNuaqlLnYzIoXhvI8MK#scrollTo=Lsos3BK4J-4E)[![demo page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub.io-Demo_Page-blue?logo=Github&style=flat-square)](https:\u002F\u002Fdualcodec.github.io\u002F)[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)\n- **2025年4月12日**: 我们发布了[***Vevo1.5***](models\u002Fsvc\u002Fvevosing\u002FREADME.md)，它扩展了Vevo的功能，专注于语音和歌声的统一可控生成。Vevo1.5可应用于一系列语音和歌声生成任务，包括VC、TTS、AC、SVS、SVC、语音\u002F歌声编辑、演唱风格转换等。[![blog](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Blog-blue.svg)](https:\u002F\u002Fveiled-army-9c5.notion.site\u002FVevo1-5-1d2ce17b49a280b5b444d3fa2300c93a)\n- **2025年2月26日**: 我们发布了[***Metis***](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Ftree\u002Fmain\u002Fmodels\u002Ftts\u002Fmetis)，这是一个用于统一语音生成的基础模型。该系统支持零样本文本到语音转换、语音转换、目标说话人提取、语音增强以及唇形同步语音等功能。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.03128) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fmetis)\n- **2025年2月26日**: *包含超过20万小时数据的Emilia-Large数据集现已开放!!!* Emilia-Large结合了原始的10.1万小时Emilia数据集（采用`CC BY-NC 4.0`许可）与全新的11.4万小时**Emilia-YODAS数据集**（采用`CC BY 4.0`许可）。可在[![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset)下载。详细信息请参阅[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15907)。\n- **2025年1月30日**: 我们发布了[Amphion v0.2技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15442)，其中全面概述了2024年Amphion的各项更新。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15442)\n- **2025年1月23日**: [MaskGCT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750)和[Vevo](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP)已被ICLR 2025接收！🎉\n- **2024年12月22日**: 我们发布了**Vevo**的复现版本，这是一个具有可控音色和风格的零样本语音模仿框架。Vevo可应用于一系列语音生成任务，包括VC、TTS、AC等。发布的预训练模型基于[Emilia](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset)数据集训练，并在零样本VC任务中达到了SOTA水平。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenReview-Paper-COLOR.svg)](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002FVevo) [![WebPage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Fversavoice.github.io\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- **2024年10月19日**: 我们发布了**MaskGCT**，这是一种完全非自回归的TTS模型，无需显式的文本与语音监督之间的对齐信息。MaskGCT基于[Emilia](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset)数据集训练，在零样本TTS任务中达到了SOTA水平。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fmaskgct) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-demo-pink)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Famphion\u002Fmaskgct) [![ModelScope](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-space-purple)](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Famphion\u002Fmaskgct) [![ModelScope](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-model-cyan)](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Famphion\u002FMaskGCT) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Ftts\u002Fmaskgct\u002FREADME.md)\n- **2024年9月1日**: [Amphion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911)、[Emilia](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05361)和[DSFF-SVC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11160)已被IEEE SLT 2024接收！🤗\n- **2024年8月28日**: 欢迎加入Amphion的[Discord频道](https:\u002F\u002Fdiscord.com\u002Finvite\u002FdrhW7ajqAG)，与社区保持联系并互动！\n- **2024年8月20日**: [SingVisio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660)已被Computers & Graphics接收，详情请见[此处](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS0097849324001936)! 🎉\n- **2024年8月27日**: *Emilia数据集现已公开发布!* 现在您可以在[![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-Dataset)或[![OpenDataLab](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenDataLab-Dataset-blue)](https:\u002F\u002Fopendatalab.com\u002FAmphion\u002FEmilia)发现这个包含10.1万小时野外语音数据的最广泛、最多样化的语音生成数据集！👑👑👑\n- **2024年7月1日**: Amphion现在发布了**Emilia**，这是首个开源的多语言野外语音生成数据集，包含超过10.1万小时的语音数据；同时发布了**Emilia-Pipe**，这是首个开源的预处理管道，旨在将野外语音数据转化为高质量的标注训练数据，用于语音生成！[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05361) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia) [![demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebPage-Demo-red)](https:\u002F\u002Femilia-dataset.github.io\u002FEmilia-Demo-Page\u002F) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](preprocessors\u002FEmilia\u002FREADME.md)\n- **2024年3月12日**: Amphion现在支持**NaturalSpeech3 FACodec**，并发布了预训练检查点。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-model-yellow)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-demo-pink)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Famphion\u002Fnaturalspeech3_facodec) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](models\u002Fcodec\u002Fns3_codec\u002FREADME.md)\n- **2024年2月22日**: Amphion首个可视化工具**SingVisio**发布。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660) [![openxlab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002FAmphion\u002FSingVisio) [![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVideo-Demo-orange)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15097SGhQh-SwUNbdWDYNyWEP--YGLba5\u002Fview) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](egs\u002Fvisualization\u002FSingVisio\u002FREADME.md)\n- **2023年12月18日**: Amphion v0.1发布。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.09911) [![hf](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Amphion-pink)](https:\u002F\u002Fhuggingface.co\u002Famphion) [![youtube](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-Demo-red)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=1aw0HhcggvQ) [![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F39)\n- **2023年11月28日**: Amphion alpha版本发布。[![readme](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Key%20Features-blue)](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F2)\n\n## ⭐ 核心功能\n\n### TTS：文本到语音\n\n- Amphion 在文本到语音（TTS）系统方面，相较于现有的开源库，达到了最先进的性能。它支持以下模型或架构：\n    - [FastSpeech2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.04558)：一种非自回归的 TTS 架构，采用前馈 Transformer 块。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FFastSpeech2\u002FREADME.md)\n    - [VITS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.06103)：一种端到端的 TTS 架构，利用条件变分自编码器结合对抗学习。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FVITS\u002FREADME.md)\n    - [VALL-E](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111)：一种零样本 TTS 架构，使用具有离散码的神经编解码语言模型。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FVALLE\u002FREADME.md)\n    - [NaturalSpeech2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09116)：一种基于潜在扩散模型生成自然语音的 TTS 架构。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FNaturalSpeech2\u002FREADME.md)\n    - [Jets](Jets)：一个端到端的 TTS 模型，联合训练 FastSpeech2 和 HiFi-GAN，并配备对齐模块。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftts\u002FJets\u002FREADME.md)\n    - [MaskGCT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00750)：一种完全非自回归的 TTS 架构，无需显式的文本与语音监督之间的对齐信息。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Ftts\u002Fmaskgct\u002FREADME.md)\n    - [Vevo-TTS](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP)：一种可控制音色和风格的零样本 TTS 架构，由自回归 Transformer 和流匹配 Transformer 组成。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n    - [DualCodec-VALLE](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)：基于 12.5Hz DualCodec 令牌训练的 VALLE 模型，用于超快速生成。\n\n### VC：语音转换\n\nAmphion 支持以下语音转换模型：\n\n- [Vevo](https:\u002F\u002Fopenreview.net\u002Fpdf?id=anQDiQZhDP)：一个可控制音色和风格的零样本语音模仿框架。**Vevo-Timbre** 进行保持风格的语音转换，而 **Vevo-Voice** 则进行风格转换的语音转换。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [FACodec](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100)：FACodec 将语音分解为表示内容、韵律和音色等不同属性的子空间，能够实现零样本语音转换。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec)\n- [Noro](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.19770)：一个**抗噪声**的零样本语音转换系统。Noro 引入了专为使用嘈杂参考语音进行 VC 而设计的创新组件，包括双分支参考编码模块和噪声无关的对比说话人损失。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fvc\u002FNoro\u002FREADME.md)\n\n### 神经音频编解码器\n- [DualCodec](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)，一种低帧率（12.5Hz 或 25Hz）、语义增强（带有 SSL 特征）的神经音频编解码器，旨在提取离散令牌以实现高效的语音生成。[![paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2505.13000-brightgreen.svg?style=flat-square)](http:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13000)[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1VvUhsDffLdY5TdNuaqlLnYzIoXhvI8MK#scrollTo=Lsos3BK4J-4E)[![demo page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub.io-Demo_Page-blue?logo=Github&style=flat-square)](https:\u002F\u002Fdualcodec.github.io\u002F)[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fcodec\u002Fdualcodec\u002FREADME.md)\n- [FACodec](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03100)：FACodec 将语音分解为表示内容、韵律和音色等不同属性的子空间。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](https:\u002F\u002Fhuggingface.co\u002Famphion\u002Fnaturalspeech3_facodec)\n\n### AC：口音转换\n\n- Amphion 支持通过 [Vevo-Style](models\u002Fvc\u002Fvevo\u002FREADME.md) 进行 AC。特别是，它可以以零样本的方式进行口音转换。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n\n### SVC：歌声转换\n\n- [Vevo2](models\u002Fsvc\u002Fvevo2\u002FREADME.md)：一个统一且可控的语音和歌声生成框架。Vevo2 支持保持风格的 VC\u002FSVC、风格转换的 VC\u002FSVC、TTS、SVS、歌声编辑、歌声风格转换、旋律控制等。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2508.16332-brightgreen.svg?style=flat-square)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.16332) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fsvc\u002Fvevo2\u002FREADME.md)\n- [Vevo1.5](models\u002Fsvc\u002Fvevosing\u002FREADME.md)：一个多功能的零样本语音模仿框架，用于统一的语音和歌声生成，支持 VC、TTS、AC、SVS、SVC、编辑、歌声风格转换等。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](models\u002Fsvc\u002Fvevosing\u002FREADME.md)\n- Amphion 支持来自多种预训练模型的多模态内容特征，包括 [WeNet](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet)、[Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 和 [ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec)。这些模型在 SVC 中的具体作用已在我们 SLT 2024 的论文中进行了研究。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11160) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fsvc\u002FMultipleContentsSVC)\n- Amphion 实现了多种最先进的模型架构，包括扩散模型、Transformer 模型、VAE 模型和流模型。其中，扩散模型架构采用 [双向扩张 CNN](https:\u002F\u002Fopenreview.net\u002Fpdf?id=a-xFK8Ymz5J) 作为后端，并支持多种采样算法，如 [DDPM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.11239.pdf)、[DDIM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.02502.pdf) 和 [PNDM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.09778.pdf)。此外，它还支持基于 [一致性模型](https:\u002F\u002Fopenreview.net\u002Fpdf?id=FmqFfMTNnv) 的单步推理。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fsvc\u002FDiffComoSVC\u002FREADME.md)\n\n### TTA：文本到音频\n\n- Amphion 使用潜在扩散模型支持 TTA。其设计类似于 [AudioLDM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12503)、[Make-an-Audio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12661) 和 [AUDIT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.00830)。它同时也是我们 NeurIPS 2023 论文中文本到音频生成部分的官方实现。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.00830) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Ftta\u002FRECIPE.md)\n\n### 语音合成器\n\n- Amphion 支持多种广泛使用的神经网络语音合成器，包括：\n    - 基于 GAN 的语音合成器：[MelGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.06711)、[HiFi-GAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.05646)、[NSF-HiFiGAN](https:\u002F\u002Fgithub.com\u002Fnii-yamagishilab\u002Fproject-NN-Pytorch-scripts)、[BigVGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04658)、[APNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.07952)。\n    - 基于流的语音合成器：[WaveGlow](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.00002)。\n    - 基于扩散模型的语音合成器：[Diffwave](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.09761)。\n    - 基于自回归模型的语音合成器：[WaveNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.03499)、[WaveRNN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.08435v1)。\n- Amphion 提供了 [多尺度常Q变换判别器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.14957)（我们 ICASSP 2024 论文）的官方实现。它可以在训练过程中用于增强任何基于 GAN 的语音合成器架构，同时保持推理阶段的性能（如内存占用或速度）不变。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.14957) [![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fvocoder\u002Fgan\u002Ftfr_enhanced_hifigan)\n\n### 评估\n\nAmphion 提供对生成音频的全面客观评估。[![code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FREADME-Code-blue)](egs\u002Fmetrics\u002FREADME.md)\n\n支持的评估指标包括：\n\n- **基频建模**：基频皮尔逊相关系数、基频周期性均方根误差、基频均方根误差、有声\u002F无声 F1 分数等。\n- **能量建模**：能量均方根误差、能量皮尔逊相关系数等。\n- **可懂度**：字符\u002F单词错误率，可基于 [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 等工具计算。\n- **频谱失真**：弗雷歇音频距离 (FAD)、梅尔倒谱失真 (MCD)、多分辨率 STFT 距离 (MSTFT)、语音质量感知评价 (PESQ)、短时客观可懂度 (STOI) 等。\n- **说话人相似度**：余弦相似度，可基于 [RawNet3](https:\u002F\u002Fgithub.com\u002FJungjee\u002FRawNet)、[Resemblyzer](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002FResemblyzer)、[WeSpeaker](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwespeaker)、[WavLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) 等计算。\n\n### 数据集\n\n- Amphion 统一了开源数据集的数据预处理流程，涵盖 [AudioCaps](https:\u002F\u002Faudiocaps.github.io\u002F)、[LibriTTS](https:\u002F\u002Fwww.openslr.org\u002F60\u002F)、[LJSpeech](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F)、[M4Singer](https:\u002F\u002Fgithub.com\u002FM4Singer\u002FM4Singer)、[Opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F)、[OpenSinger](https:\u002F\u002Fgithub.com\u002FMulti-Singer\u002FMulti-Singer.github.io)、[SVCC](http:\u002F\u002Fvc-challenge.org\u002F)、[VCTK](https:\u002F\u002Fdatashare.ed.ac.uk\u002Fhandle\u002F10283\u002F3443) 等。支持的数据集列表可在 [这里](egs\u002Fdatasets\u002FREADME.md) 查看（持续更新）。\n- Amphion 独家支持 [**Emilia**](preprocessors\u002FEmilia\u002FREADME.md) 数据集及其预处理流水线 **Emilia-Pipe**，专为野生环境下的语音数据设计！\n\n### 可视化\n\nAmphion 提供可视化工具，以交互方式展示经典模型的内部处理机制。这为教育目的和促进可理解的研究提供了宝贵的资源。\n\n目前，Amphion 支持 [SingVisio](egs\u002Fvisualization\u002FSingVisio\u002FREADME.md)，一款用于歌唱语音转换的扩散模型可视化工具。[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-COLOR.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12660) [![openxlab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002FAmphion\u002FSingVisio) [![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVideo-Demo-orange)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15097SGhQh-SwUNbdWDYNyWEP--YGLba5\u002Fview)\n\n\n## 📀 安装\n\nAmphion 可通过 Setup 安装程序或 Docker 镜像进行安装。\n\n### Setup 安装程序\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion.git\ncd Amphion\n\n# 创建 Python 环境\nconda create --name amphion python=3.9.15\nconda activate amphion\n\n# 安装 Python 包依赖\nsh env.sh\n```\n\n### Docker 镜像\n\n1. 安装 [Docker](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F)、[NVIDIA 驱动程序](https:\u002F\u002Fwww.nvidia.com\u002Fdownload\u002Findex.aspx)、[NVIDIA 容器工具包](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html) 和 [CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)。\n\n2. 运行以下命令：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion.git\ncd Amphion\n\ndocker pull realamphion\u002Famphion\ndocker run --runtime=nvidia --gpus all -it -v .:\u002Fapp realamphion\u002Famphion\n```\n使用 Docker 时，必须通过 `-v` 参数挂载数据集。更多详情请参阅 [在 Docker 容器中挂载数据集](egs\u002Fdatasets\u002Fdocker.md) 和 [Docker 文档](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Freference\u002Fcommandline\u002Fcontainer_run\u002F#volume)。\n\n\n## 🐍 Python 使用\n\n我们在以下示例中详细介绍了不同任务的操作说明：\n\n- [文本到语音 (TTS)](egs\u002Ftts\u002FREADME.md)\n- [语音转换 (VC)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [口音转换 (AC)](models\u002Fvc\u002Fvevo\u002FREADME.md)\n- [歌唱语音转换 (SVC)](egs\u002Fsvc\u002FREADME.md)\n- [文本到音频 (TTA)](egs\u002Ftta\u002FREADME.md)\n- [语音合成器](egs\u002Fvocoder\u002FREADME.md)\n- [评估](egs\u002Fmetrics\u002FREADME.md)\n- [可视化](egs\u002Fvisualization\u002FREADME.md)\n\n## 👨‍💻 贡献\n\n我们非常欢迎所有有助于改进 Amphion 的贡献。请参阅 [CONTRIBUTING.md](.github\u002FCONTRIBUTING.md) 获取贡献指南。\n\n## 🙏 致谢\n\n\n- [ming024 的 FastSpeech2](https:\u002F\u002Fgithub.com\u002Fming024\u002FFastSpeech2) 和 [jaywalnut310 的 VITS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fvits)，感谢其提供的模型架构代码。\n- [lifeiteng 的 VALL-E](https:\u002F\u002Fgithub.com\u002Flifeiteng\u002Fvall-e)，感谢其提供的训练流程和模型架构设计。\n- [SpeechTokenizer](https:\u002F\u002Fgithub.com\u002FZhangXInFD\u002FSpeechTokenizer)，感谢其语义蒸馏分词器的设计。\n- [WeNet](https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet)、[Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)、[ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec) 和 [RawNet3](https:\u002F\u002Fgithub.com\u002FJungjee\u002FRawNet)，感谢其提供的预训练模型和推理代码。\n- [HiFi-GAN](https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan)，感谢其提供的基于 GAN 的语音合成器架构设计和训练策略。\n- [Encodec](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fencodec)，感谢其组织良好的 GAN 判别器架构和基础模块。\n- [Latent Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion)，感谢其提供的模型架构设计。\n- [TensorFlowTTS](https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowTTS)，感谢其提供的 MFA 工具准备。\n\n\n## ©️ 许可证\n\nAmphion 采用 [MIT 许可证](LICENSE)，无论用于研究还是商业用途均免费。\n\n## 📚 参考文献\nAmphion v0.2：\n```bibtex\n@article{amphion_v0.2,\n  title        = {Amphion 工具包概述（v0.2）},\n  author       = {李佳琪、张雪瑶、王元成、何浩睿、王超仁、王力、廖欢、敖俊毅、谢泽宇、黄一乔、张俊安、吴志正},\n  year         = {2025},\n  journal      = {arXiv 预印本 arXiv:2501.15442},\n}\n```\nAmphion v0.1：\n```bibtex\n@inproceedings{amphion,\n    author={张雪瑶、薛留萌、顾义成、王元成、李佳琪、何浩睿、王超仁、宋婷、陈曦、方子豪、陈浩鹏、张俊安、唐子莹、邹乐晓、王明轩、韩俊、陈凯、李海舟、吴志正},\n    title={Amphion：一个开源的音频、音乐和语音生成工具包},\n    booktitle={{IEEE} 口语语言技术研讨会，{SLT} 2024},\n    year={2024}\n}\n```","# Amphion 快速上手指南\n\nAmphion 是一个开源的音频、音乐和语音生成工具包，旨在支持可复现的研究，并帮助初学者快速进入该领域。它支持文本转语音 (TTS)、歌声合成 (SVS)、语音转换 (VC)、歌声转换 (SVC) 等多种任务，并提供独特的模型可视化功能。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python**: 版本 3.8 或更高。\n*   **GPU**: 推荐使用 NVIDIA GPU (CUDA 11.7+) 以加速模型训练和推理。\n*   **Git**: 用于克隆代码库。\n*   **FFmpeg**: 用于音频处理。\n\n**前置依赖安装 (以 Ubuntu 为例):**\n\n```bash\nsudo apt-get update\nsudo apt-get install -y git ffmpeg libsndfile1-dev\n```\n\n## 2. 安装步骤\n\n建议通过 `conda` 创建独立的虚拟环境进行安装。\n\n### 步骤 1: 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion.git\ncd Amphion\n```\n\n### 步骤 2: 创建并激活 Conda 环境\n```bash\nconda create -n amphion python=3.9\nconda activate amphion\n```\n\n### 步骤 3: 安装核心依赖\nAmphion 提供了 `requirements.txt` 文件。为了获得更快的下载速度，国内用户可配置 pip 使用清华源或阿里源。\n\n```bash\n# 配置国内镜像源 (可选，推荐国内用户使用)\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装依赖\npip install -r requirements.txt\n```\n\n### 步骤 4: 安装 Amphion 包\n```bash\npip install -e .\n```\n\n> **注意**: 部分高级功能（如特定声码器或评估指标）可能需要额外安装对应的子模块依赖，请参考具体任务目录下的 `README.md`。\n\n## 3. 基本使用\n\nAmphion 采用统一的命令行接口。以下以运行一个预训练的 **文本转语音 (TTS)** 模型为例，展示最简单的推理流程。\n\n### 场景：使用预训练模型进行 TTS 推理\n\n假设您已下载了预训练模型（例如 MaskGCT），并准备好了一段输入文本。\n\n1.  **准备配置文件和输入数据**\n    确保您有对应的实验配置文件夹（通常在 `egs\u002Ftts\u002F` 下）和包含输入文本的文件 `input.txt`。\n\n2.  **执行推理命令**\n    使用 `amphion` 命令行工具调用推理脚本。以下命令结构为通用模板，具体参数需根据所选模型调整：\n\n```bash\npython scripts\u002Finference.py \\\n    --config egs\u002Ftts\u002FMaskGCT\u002Fconf\u002Ftrain.yaml \\\n    --checkpoint_path checkpoints\u002Fmaskgct.pth \\\n    --input_file data\u002Finput.txt \\\n    --output_dir results\u002Foutput_audio\n```\n\n*   `--config`: 指向模型的配置文件。\n*   `--checkpoint_path`: 指向预训练权重文件 (.pth)。\n*   `--input_file`: 包含待合成文本的文件路径。\n*   `--output_dir`: 生成音频文件的保存路径。\n\n### 获取预训练模型\n您可以从以下平台直接下载官方提供的预训练模型和数据集：\n*   **HuggingFace**: [https:\u002F\u002Fhuggingface.co\u002Famphion](https:\u002F\u002Fhuggingface.co\u002Famphion)\n*   **ModelScope (魔搭)**: [https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Famphion](https:\u002F\u002Fmodelscope.cn\u002Forganization\u002Famphion) (国内访问速度更快)\n*   **OpenXLab**: [https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002FAmphion](https:\u002F\u002Fopenxlab.org.cn\u002Fusercenter\u002FAmphion)\n\n### 进阶：可视化功能\nAmphion 的特色之一是模型可视化。如果您想分析歌声合成模型的结构，可以使用其内置的可视化工具（如 SingVisio）：\n\n```bash\n# 示例：启动可视化服务 (具体命令参考 egs\u002Fvisualization\u002FSingVisio\u002FREADME.md)\npython egs\u002Fvisualization\u002FSingVisio\u002Fapp.py\n```\n\n---\n*更多详细任务（如 SVC、VC、TTA）的配置和训练流程，请参阅仓库中对应目录（如 `egs\u002Fsvc\u002F`, `models\u002Fvc\u002F`）下的 `README.md` 文档。*","某初创游戏工作室的音频工程师需要为独立游戏快速生成多风格的角色语音和背景音乐，同时确保不同模型生成的音频质量一致且可复现。\n\n### 没有 Amphion 时\n- **环境搭建繁琐**：工程师需分别寻找 TTS、SVS 和 Vocoder 的独立代码库，依赖冲突频发，配置环境耗时数天。\n- **模型黑盒难调优**：缺乏直观的架构可视化，初级开发人员难以理解模型内部机制，调整参数全靠盲目试错。\n- **评估标准不统一**：不同任务使用不同的评估脚本，导致生成的语音和音乐质量无法横向对比，难以确定最优模型。\n- **数据复现困难**：开源项目往往缺少完整的数据预处理流程，导致实验结果无法复现，阻碍团队协作迭代。\n\n### 使用 Amphion 后\n- **一站式集成开发**：Amphion 内置了 TTS、SVS、VC 等全套任务流水线，工程师在统一框架下即可调用多种模型，环境部署时间缩短至几小时。\n- **可视化辅助理解**：利用 Amphion 独有的模型架构可视化功能，团队成员快速掌握了 prosody learning 等核心机制，针对性调优效率显著提升。\n- **标准化质量评估**：内置的统一评估指标模块让语音清晰度与音乐生成质量的对比有了客观依据，快速锁定了适合游戏风格的最佳模型组合。\n- **可复现的研究路径**：基于 Amphion 提供的大规模数据集构建工具和标准化流程，团队轻松复现了 SOTA 效果，并在此基础上定制了专属角色音色。\n\nAmphion 通过统一的框架、可视化的洞察和标准化的评估，将音频生成的研发门槛从“专家级”降低至“工程级”，极大加速了创意落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-mmlab_Amphion_183e8aea.png","open-mmlab","OpenMMLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopen-mmlab_7c171dd7.png","",null,"https:\u002F\u002Fopenmmlab.com","https:\u002F\u002Fgithub.com\u002Fopen-mmlab",[84,88,92,96,100,104,108],{"name":85,"color":86,"percentage":87},"Python","#3572A5",50.5,{"name":89,"color":90,"percentage":91},"Jupyter Notebook","#DA5B0B",46.9,{"name":93,"color":94,"percentage":95},"JavaScript","#f1e05a",1.2,{"name":97,"color":98,"percentage":99},"Shell","#89e051",1.1,{"name":101,"color":102,"percentage":103},"HTML","#e34c26",0.2,{"name":105,"color":106,"percentage":107},"Dockerfile","#384d54",0,{"name":109,"color":110,"percentage":107},"Cython","#fedf5b",9738,804,"2026-04-04T16:35:35","MIT","未说明","未说明 (作为音频生成工具，训练和推理通常强烈依赖 NVIDIA GPU，但 README 文本中未列出具体的型号、显存或 CUDA 版本要求)",{"notes":118,"python":115,"dependencies":119},"README 主要介绍了工具的功能（TTS, SVS, VC, SVC 等）、发布的模型（如 Vevo2, DualCodec, MaskGCT）以及数据集（Emilia）。文中提到了支持 Colab 运行，暗示基于 PyTorch 生态，但未在提供的片段中列出具体的环境安装指令、操作系统兼容性列表或详细的硬件配置需求。建议参考项目仓库中的 'requirements.txt' 或 'install.md' 获取准确信息。",[115],[21],[122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138],"audio-generation","audio-synthesis","audioldm","music-generation","naturalspeech2","singing-voice-conversion","speech-synthesis","text-to-audio","text-to-speech","vall-e","voice-conversion","audit","fastspeech2","vits","emilia","maskgct","vocoder","2026-03-27T02:49:30.150509","2026-04-06T07:11:55.823596",[142,147,151,156,161,166],{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},15918,"运行 VALL-E 时出现 \"WARNING | phonemizer | words count mismatch\" 警告且生成音频质量差，是因为数据量不足吗？","该警告本身不是导致性能差的主要原因。要获得令人满意的 VALL-E 效果，必须在大规模数据集上进行训练。正如原论文所述，训练 VALL-E 需要使用约 60,000 小时的数据集。如果仅使用如 train-clean-100 这样的小数据集，会导致模型效果不佳。","https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fissues\u002F31",{"id":148,"question_zh":149,"answer_zh":150,"source_url":146},15919,"VALL-E 推理时只使用 NAR 模型而不使用 AR 模型，这是正确的吗？","是的，这是正确的。VALL-E 的训练分为两个阶段：第一阶段训练 AR 模型以预测第一个码本 token；第二阶段基于第一阶段训练的 AR 模型训练 NAR 模型（用于预测第 2-7 个码本）。在推理阶段，主要使用第二阶段训练的 NAR 模型来生成音频。",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},15920,"运行时遇到 \"Monotonic align not found. Please make sure you have compiled it.\" 错误如何解决？","这是因为 monotonic_align 模块未编译。请进入对应目录并运行以下命令进行构建：\ncd modules\u002Fmonotonic_align\npython setup.py build_ext --inplace\n编译完成后即可解决该报错。","https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fissues\u002F91",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},15921,"TTA (Text-to-Audio) 任务中如何提取声学特征或转换波形为梅尔频谱图？","由于 TTA 任务使用官方的 HifiGAN 仓库来训练声码器，您可以参考 HifiGAN 的官方实现将波形转换为梅尔频谱图。相关代码和逻辑请参阅：https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan","https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fissues\u002F50",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},15922,"是否可以直接微调预训练的 VALL-E 模型而不是从头开始训练？修改 G2P 或词表大小时需要注意什么？","可以尝试微调，但需确保配置匹配。如果修改了 G2P（例如去掉了音素位置标签 \"B\u002FI\u002FE\"），可能会导致模型可懂度下降或重复读取 prompt 文本。此外，必须确保配置文件中的词表大小设置（vocabulary size setting）与实际使用的词表一致，包括 phone_vocab_size 以及相关的 bos\u002Feos\u002Fpad token ID 都需要相应调整，否则会导致维度不匹配或训练失败。","https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fissues\u002F243",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},15923,"预处理时遇到 \"OSError: Model file not found: pretrained\u002Fcontentvec\u002Fcheckpoint_best_legacy_500.pt\" 错误怎么办？","该错误表示系统无法在指定路径找到 ContentVec 预训练模型文件。请确认您已下载 `checkpoint_best_legacy_500.pt` 文件，并将其放置在配置文件中指定的绝对路径下（例如 `\u002Froot\u002FAmphion\u002Fpretrained\u002Fcontentvec\u002F`）。如果路径正确但仍报错，请检查配置文件中的路径设置是否与文件实际存放位置完全一致。","https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fissues\u002F87",[172,177,182],{"id":173,"version":174,"summary_zh":175,"released_at":176},90661,"v0.1.1-alpha","## 变更内容\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F41 中更新了 README.md\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F42 中添加了 SVC、TTA 和 TTS 的演示徽章\n* @Adorable-Qin 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F48 中避免了 download_root 未绑定的情况\n* @Adorable-Qin 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F55 中提供了 DEMO 指南并表达了感谢\n* @VocodexElysium 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F56 中新增了 DiffWave 编码器\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F52 中修复了 VALLE 训练中的 cosine_schedule_with_warmup 问题\n* @zyingt 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F53 中添加了 HifiTTS 数据预处理工具\n* @VocodexElysium 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F65 中修复了编码器推理中的一个 bug\n* @YasienDwieb 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F60 中通过将 sh 替换为 bash，修复了 while 循环和尾部斜杠相关的问题\n* @HarryHe11 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F73 中通过回退到 accelerate 包的 0.24.1 版本，修复了与 accelerate 包的兼容性问题\n* @Merakist 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F75 中添加了 Resemblyzer 用于说话人相似度评估，并修复了一些 bug\n* @viewfinder-annn 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F72 中提供了 SVC 任务的自定义数据集及恢复训练方案\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F82 中修复了 issue 76（Import VariableSampler 错误）的问题\n* @Merakist 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F85 中将 RawNet3\u002FResemblyzer 标记为关键词，并更新了 README 文件\n* @ChenX17 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F86 中移除了冗余代码，并更新了 fs2 特征的相关函数\n* @HarryHe11 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F92 中添加了 Amphion 的贡献指南\n* @HarryHe11 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F96 中检查并更新了 PR 模板\n* @yuantuo666 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F98 中添加了 issue 模板\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F97 中添加了 WavLM 说话人相似度评估功能\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F100 中为 TTA 添加了 AudioCaps 数据集链接\n* @HarryHe11 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F102 中删除了 utils\u002Fwhisper.py 文件\n* @wsywsywsywsywsy979 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F104 中加速了 CER 指标的计算\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F108 中修复了 VITS 恢复训练中的 bug\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F101 中添加了基于 6000 小时 Librilight 数据集训练的 VALL-E 预训练模型\n* @HarryHe11 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F107 中添加了 Librilight 数据集的预处理脚本\n* @viewfinder-annn 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F95 中实现了 VitsSVC 的恢复训练\u002F微调功能\n* @Merakist 在 https:\u002F\u002Fgithub.com 中对 MFA 进行了重构，并修复了环境相关的问题","2024-02-23T17:52:41",{"id":178,"version":179,"summary_zh":180,"released_at":181},90662,"v0.1.0","## 变更内容\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F1 中更新了 README.md\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F2 中发布了 Amphion Alpha 版本\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fcommits\u002Fv0.1.0-alpha\n\n## 变更内容\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F4 中添加了 valle 的核心代码\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F5 中重构了 G2P 模块及相关流程\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F6 中调试了 VITS 的多说话人训练\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F7 中修复了提取 Whisper 特征的 bug\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F8 中恢复了 SVC 歌手预训练检查点\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F13 中修复了 TTS 推理中的 bug\n* @ChenX17 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F12 中修复了在更新后的 phone_extractor 上进行 FS2 推理时的 bug\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F17 中为 valle 添加了动态批大小\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F18 中撤销了“为 valle 添加动态批大小”的更改\n* @viewfinder-annn 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F14 中添加了 VitsSVC 的实现\n* @VocodexElysium 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F20 中提供了更好的评估和声码器训练方案\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F19 中为 VALLE 添加了动态批大小\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F29 中更新了预训练的 TTS 模型\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F28 中更新了 TTS 的声学特征提取器\n* @treya-lin 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F30 中改进了 TTS 的 G2P 词典模块\n* @BakerBunker 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F27 中添加了使用 black 格式化工具检查代码格式的工作流\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F33 中对已更改文件进行了 black 格式化，以使工作流正常运行\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F25 中拆分并处理了验证集\n* @Adorable-Qin 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F32 中优化了 Whisper 和 WeNet 内容提取器\n* @viewfinder-annn 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F37 中修复了使用 nsfhifigan 作为生成器时 VitsSVC 模型推理的 bug\n* @ChenX17 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F34 中调试了问题 23\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F38 中通过参数控制扩散 SVC 推理步骤\n* @HeCheng0625 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F35 中添加了 NaturalSpeech2\n* @RMSnow 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F39 中发布了 Amphion v0.1 版本\n\n## 新贡献者\n* @treya-lin 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F30 中做出了首次贡献\n* @BakerBunker 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F27 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.co","2024-02-23T17:52:11",{"id":183,"version":184,"summary_zh":185,"released_at":186},90663,"v0.1.0-alpha","## 变更内容\n* @lmxue 在 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F1 中更新了 README.md\n* @RMSnow 发布了 Amphion Alpha 版本，详情见 https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fpull\u002F2\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002FAmphion\u002Fcommits\u002Fv0.1.0-alpha","2024-02-23T17:51:37"]