vixtts-demo
vixtts-demo 是一款专注于越南语的语音克隆文字转语音(TTS)模型。它基于强大的 XTTS-v2 架构,并利用高质量的 viVoice 数据集进行微调,旨在解决越南语合成中自然度不足及特定说话人声音复刻的难题。用户只需提供少量参考音频,即可生成音色逼真、情感丰富的越南语语音,同时也支持其他语言的基础合成。
这款工具特别适合需要快速验证效果的开发者、研究多语言语音合成的学者,以及希望体验前沿 AI 配音技术的普通用户。对于想要本地部署的技术人员,项目提供了详细的 Ubuntu/WSL2 环境配置指南;而普通用户则可直接通过 Hugging Face 空间或 Google Colab 在线试用,无需复杂安装。
其技术亮点在于集成了 Vinorm 等库进行专业的越南语文本规范化处理,有效提升了发音准确性,并引入 DeepFilterNet 进行降噪优化。此外,借助 DeepSpeed 加速推理,即使在消费级显卡上也能获得流畅的体验。需要注意的是,该模型在少于 10 个字的短句处理上仍有提升空间,且主要优化方向为越南语,其他语言效果可能略逊一筹。作为一个以演示为核心的开源项目,vixtts-demo 为越南语语音技术领域提供了一个易用且高效的参考范例。
使用场景
越南一家小型有声书制作团队正急需将大量短篇故事快速转化为音频,但苦于缺乏专业的越南语配音员和录音设备。
没有 vixtts-demo 时
- 人力成本高昂:必须聘请母语为越南语的专业配音演员,按小时计费导致预算严重超支。
- 制作周期漫长:从预约录音棚、协调演员档期到后期剪辑降噪,单个故事上线需耗时数天。
- 声音风格单一:难以找到能完美契合不同角色性格(如老人、儿童)的特定嗓音,作品缺乏感染力。
- 修改极其困难:一旦文本有细微调整,必须重新召集人员进棚重录,流程繁琐且效率低下。
使用 vixtts-demo 后
- 实现零成本克隆:仅需录入几分钟参考音频,vixtts-demo 即可克隆出逼真的越南语人声,无需支付昂贵配音费。
- 即时生成音频:在 Hugging Face 空间或本地部署后,输入文本秒级生成语音,将制作周期从几天缩短至几分钟。
- 灵活定制音色:利用其声音克隆特性,轻松为不同角色生成专属音色,大幅提升故事的演绎层次感。
- 文本驱动迭代:修改文案后只需重新运行推理,vixtts-demo 立刻输出新音频,彻底告别重复录音的麻烦。
vixtts-demo 通过低门槛的越南语声音克隆技术,让小型团队也能以极低成本实现专业级的有声内容规模化生产。
运行环境要求
- Linux
- WSL2
- 必需(Nvidia GPU),最低显存 4GB
- 若无 GPU 将使用 CPU 运行但速度极慢,未明确指定 CUDA 版本
最低 16GB

快速开始
viXTTS 演示 🗣️🔥
快速使用 ✨
👉 访问 https://huggingface.co/spaces/thinhlpg/vixtts-demo 即可立即使用,无需安装。
简介 👋
viXTTS 是一款文本转语音的语音生成工具,支持越南语及其他语言的语音克隆。该模型基于 XTTS-v2.0.3 进行微调,并使用了 viVoice 数据集。本仓库主要用于演示目的。
模型访问地址:viXTTS 在 Hugging Face 上
在线使用(推荐)
- 您可以在这里试用该模型:https://huggingface.co/spaces/thinhlpg/vixtts-demo
- 如需快速演示,请参阅 Google Colab 上的 此笔记本。
教程(越南语):https://youtu.be/pbwEbpOy0m8?feature=shared

本地使用
此代码专为 Ubuntu 或 WSL2 系统设计,不适用于 macOS 或 Windows 系统。

硬件建议
- 至少 10GB 可用磁盘空间
- 至少 16GB 内存
- Nvidia GPU,显存不低于 4GB
- 默认情况下,模型会利用 GPU 运行。若无 GPU,则将在 CPU 上运行,速度会显著变慢。
必要软件
- Git
- Python 版本 >=3.9 且 <=3.11。默认版本设置为 3.11,但您可以在
run.sh文件中修改 Python 版本。
使用方法
git clone https://github.com/thinhlpg/vixtts-demo
cd vixtts-demo
./run.sh
- 运行
run.sh(首次运行时会自动安装依赖项)。 - 打开 Gradio 演示链接。
- 加载模型并等待加载完成。
- 进行推理并享受成果 🤗
- 结果将保存在
output/目录下。
局限性
- 对于越南语中少于 10 个词的输入句子,性能较差(输出不稳定,末尾常伴有奇怪的声音)。
- 本模型仅针对越南语进行了微调。对于其他语言,其效果尚未经过测试,可能会降低质量。
贡献
该项目目前未处于积极维护状态,出于敏感原因,我暂不打算公开微调代码,以免被用于不道德的目的。如果您希望为其他操作系统(如 Windows 或 macOS)创建版本并作出贡献,请 fork 本仓库,新建分支,在相应操作系统上充分测试后提交包含您贡献内容的 pull request。
致谢
我们衷心感谢所有在本演示开发过程中发挥作用的库和资源,尤其是:
- Coqui TTS,提供 XTTS 基础模型及推理代码
- Vinorm 和 Undethesea,用于越南语文本规范化
- Deepspeed,实现快速推理
- Huggingface Hub,托管该模型
- Gradio,提供 Web UI
- DeepFilterNet,用于噪声去除
引用
@misc{viVoice,
author = {Thinh Le Phuoc Gia, Tuan Pham Minh, Hung Nguyen Quoc, Trung Nguyen Quoc, Vinh Truong Hoang},
title = {viVoice: 实现越南语多说话人语音合成},
url = {https://github.com/thinhlpg/viVoice},
year = {2024}
}
后续可能会发布一篇论文以及记录开发过程的友好日志(其中还将包含其他实验性工作),但关于滤波处理的详细信息并未在此 README 文件中说明。
联系方式 💬
- Facebook:https://fb.com/thinhlpg/(首选;欢迎加好友并随意私信)
- GitHub:https://github.com/thinhlpg
- 邮箱:thinhlpg@gmail.com(请勿发送邮件;我更喜欢轻松友好的交流 💀)
常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
ChatTTS
ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。