MeloTTS
MeloTTS 是由 MIT 与 MyShell.ai 联合开源的一款高质量多语言文本转语音(TTS)库。它致力于解决传统语音合成工具在多语种支持、口音多样性及混合语言处理上的不足,能够自然流畅地将文字转换为听觉逼真的语音。
该工具原生支持英语(涵盖美式、英式、印度及澳洲等多种口音)、西班牙语、法语、日语、韩语以及中文。其独特亮点在于中文模型完美支持“中英混合”输入,无需额外处理即可自动识别并切换语言发音;同时,得益于高效的架构优化,MeloTTS 即使在普通 CPU 上也能实现实时推理,大幅降低了部署门槛。
MeloTTS 非常适合各类用户群体:开发者可轻松将其集成到应用或智能硬件中;研究人员能基于其开源代码进行二次开发或自定义数据集训练;内容创作者与普通用户则可通过简易的命令行或 Web 界面快速生成配音素材。项目采用宽松的 MIT 协议,允许免费用于商业及非商业用途,是构建全球化语音交互应用的理想选择。
使用场景
一家面向全球市场的在线教育初创公司,急需将原本仅支持英文的课程脚本快速本地化为中、日、韩等多语种有声课程,以拓展亚洲市场。
没有 MeloTTS 时
- 多语言适配成本极高:团队需分别对接不同语种的独立 TTS 服务,针对中文混读英文专有名词(如"Python 编程”)时,发音生硬且经常断句错误。
- 硬件资源负担重:现有高精度语音方案严重依赖 GPU 推理,导致服务器云端算力成本居高不下,难以在低配设备上实时生成。
- 口音单一缺乏亲和力:仅提供标准普通话或美式英语,无法提供英式、印度或澳洲等特定口音,难以满足多样化用户群体的听感需求。
- 部署流程繁琐:集成多个第三方 API 需要处理复杂的鉴权、计费及网络延迟问题,严重拖慢了课程上线节奏。
使用 MeloTTS 后
- 原生混合语言支持:利用其中文扬声器对“中英混合”文本的天然支持,课程中出现的技术术语能自然流畅地切换发音,无需额外标注音标。
- CPU 实时推理降本:凭借高效的架构,MeloTTS 能在普通 CPU 上实现实时语音合成,直接削减了 80% 的云端 GPU 租赁费用。
- 丰富口音一键切换:通过简单参数调整即可调用英式、印度式英语或日韩本地化音色,让课程内容听起来更像当地真人讲师录制。
- 开源本地化部署:基于 MIT 协议免费商用且支持本地离线运行,团队彻底摆脱了对外部 API 的依赖,数据隐私与响应速度得到双重保障。
MeloTTS 以极低的技术门槛和算力成本,帮助团队实现了高质量、多口音的全球课程音频自动化生产。
运行环境要求
非必需,支持 CPU 实时推理

快速开始
简介
MeloTTS是由MIT和MyShell.ai共同开发的高质量多语言文本转语音库。支持的语言包括:
| 语言 | 示例 |
|---|---|
| 英语(美式) | 链接 |
| 英语(英式) | 链接 |
| 英语(印式) | 链接 |
| 英语(澳式) | 链接 |
| 英语(默认) | 链接 |
| 西班牙语 | 链接 |
| 法语 | 链接 |
| 中文(混英语) | 链接 |
| 日语 | 链接 |
| 韩语 | 链接 |
其他一些特性包括:
- 中文语音支持
中英文混合。 - 速度足够快,可实现
CPU实时推理。
使用方法
Python API 和模型卡片可以在此仓库或HuggingFace上找到。
贡献
如果您觉得这项工作有用,请考虑为本仓库做出贡献。
- 特别感谢@fakerybakery添加了 Web UI 和 CLI 部分。
作者
- 清华大学的Wenliang Zhao
- 清华大学的Xumin Yu
- MIT 和 MyShell 的项目负责人 Zengyi Qin
引用
@software{zhao2024melo,
author={Zhao, Wenliang and Yu, Xumin and Qin, Zengyi},
title = {MeloTTS: 高质量多语言多口音文本转语音},
url = {https://github.com/myshell-ai/MeloTTS},
year = {2023}
}
许可证
本库采用 MIT 许可证,这意味着它可用于商业和非商业用途,完全免费。
致谢
本实现基于 TTS、VITS、VITS2 和 Bert-VITS2。我们非常感谢他们的出色工作。
版本历史
v0.1.22024/03/01常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
Real-Time-Voice-Cloning
Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具,旨在通过短短 5 秒的音频样本,快速复刻说话人的声音特征,并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点,让个性化语音生成变得轻量且高效。 该项目的核心技术基于 SV2TTS(从说话人验证到多说话人文本转语音的迁移学习)深度学习框架。其工作流程分为三个阶段:首先从少量音频中提取说话人的数字声纹表示,随后将其作为参考,结合 Tacotron 合成器与 WaveRNN 声码器,高质量地生成目标语音。这种架构不仅实现了端到端的语音合成,还保证了在普通硬件上的实时运行能力。 Real-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中,研究人员可借此探索语音迁移学习的前沿进展,而具备一定动手能力的普通用户也能通过提供的图形界面工具箱,轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳,但作为一款免费开源项目,它依然是理解和学习实时语音合成技术的绝佳入门资源。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
