KAN-TTS

524 88 中等 1 次阅读 1周前MIT音频

AI 解读由 AI 自动生成，仅供参考

KAN-TTS 是一款由阿里巴巴达摩院开源的语音合成训练框架，旨在帮助用户从零开始构建属于自己的高质量文本转语音（TTS）模型。它主要解决了传统语音合成技术门槛高、定制难度大以及多语言支持不足的问题，让开发者能够轻松训练出符合特定需求的个性化语音系统。

这款工具非常适合人工智能开发者、语音技术研究人员以及希望深入探索 TTS 领域的技术爱好者使用。通过 KAN-TTS，用户不仅可以快速上手训练流程，还能灵活适配多种语言场景。目前，它已原生支持包括普通话、英语、粤语、上海话、四川话在内的十余种语言及方言，并兼容 Sam-Bert 和 HiFi-GAN 等主流模型架构，展现了强大的多语言处理能力与灵活的扩展性。

作为一套完整的训练框架，KAN-TTS 提供了详尽的教程文档和基于 ModelScope 的在线演示，大幅降低了实验与部署的难度。无论是想要研究前沿语音算法的学者，还是致力于开发多语言语音应用的工程师，都能在其中找到高效可靠的解决方案。随着更多模型和语言的持续更新，KAN-TTS 正成为开源语音合成领域极具潜力的选择。

使用场景

一家专注于方言文化保护的初创团队，正试图为濒危的上海话和四川话构建高质量的语音导航系统。

没有 KAN-TTS 时

方言数据匮乏：市面上通用的 TTS 框架大多仅支持标准普通话或英语，难以找到现成的上海话、四川话等小众方言预训练模型。
开发门槛极高：团队需从零搭建复杂的声学模型（如 Sam-Bert）与声码器（如 HiFi-GAN）训练流水线，调试周期长达数周。
语音自然度差：自行拼凑的简易模型生成的方言语音机械感重，缺乏地方特有的语调韵味，无法通过用户验收。
多语言管理混乱：若要同时支持粤语、韩语等多种语言，需维护多套独立的代码库和训练环境，运维成本高昂。

使用 KAN-TTS 后

开箱即用的方言支持：直接调用 KAN-TTS 内置的上海话、四川话及粤语等专用模型链接，瞬间获得高质量的方言基线能力。
全流程训练框架：利用其“从零到英雄”的一站式训练框架，快速完成从数据预处理到 Sam-Bert 与 HiFi-GAN 联合训练的全过程。
拟真度显著提升：生成的方言语音不仅发音准确，更完美还原了地方特色的语气和情感，听感自然流畅。
统一的多语言架构：在单一框架内即可统一管理中文、英式英语、意大利语等十几种语言的模型训练，大幅降低维护复杂度。

KAN-TTS 通过提供低门槛、多语种且高自然度的端到端训练方案，让小众方言的数字化重生变得高效且触手可及。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 中未提供具体的运行环境需求（如操作系统、GPU、内存、Python 版本及依赖库列表）。仅提及通过 'pip install -r requirements.txt' 安装依赖，且训练教程和模型详情需参考外部 Wiki 或 ModelScope 链接。

python未说明

快速开始

KAN-TTS

借助 KAN-TTS，您可以从零开始训练属于自己的 TTS 模型，让它从入门到精通 :).

模型

目前我们支持 sam-bert 和 hifi-GAN，其他模型即将上线。

支持的语言

语言	模型链接
普通话	https://modelscope.cn/models?name=zhcn&page=1&tasks=text-to-speech&type=audio
英语	https://modelscope.cn/models?name=enus&page=1&tasks=text-to-speech&type=audio
英国英语	https://modelscope.cn/models?name=engb&page=1&tasks=text-to-speech&type=audio
上海话	https://modelscope.cn/models?name=WuuShanghai&page=1&tasks=text-to-speech&type=audio
四川话	https://modelscope.cn/models?name=Sichuan&page=1&tasks=text-to-speech&type=audio
粤语	https://modelscope.cn/models?name=Cantonese&page=1&tasks=text-to-speech&type=audio
意大利语	https://modelscope.cn/models?name=itit&page=1&tasks=text-to-speech&type=audio
西班牙语	https://modelscope.cn/models?name=eses&page=1&tasks=text-to-speech&type=audio
俄语	https://modelscope.cn/models?name=ruru&page=1&tasks=text-to-speech&type=audio
韩语	https://modelscope.cn/models?name=kokr&page=1&tasks=text-to-speech&type=audio
更多语言即将上线。

训练教程

您可以在我们的维基页面 KAN-TTS Wiki 中找到训练教程。

ModelScope 试用

欢迎在 ModelScope 上试用我们的演示 KAN-TTS Demo。

参与本仓库的贡献

pip install -r requirements.txt
pre-commit install

联系我们

如果您有任何问题，请随时联系我们。

扫描二维码加入我们的钉钉群。

KAN-TTS 快速上手指南

KAN-TTS 是一款支持从零开始训练自定义语音合成（TTS）模型的开源工具，目前支持 Sam-Bert 和 HiFi-GAN 等模型架构，并涵盖普通话、英语、粤语、四川话等多种语言。

环境准备

操作系统：Linux / macOS / Windows (推荐 Linux)
Python 版本：Python 3.6+
前置依赖：
- Git
- pip
- 建议配置国内镜像源以加速依赖下载（如阿里云、清华源）

安装步骤

克隆项目仓库：

git clone https://github.com/AlibabaResearch/KAN-TTS.git
cd KAN-TTS

安装 Python 依赖（推荐使用国内镜像加速）：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

配置代码提交规范（可选，贡献者必需）：

pre-commit install

基本使用

方式一：在线体验（无需安装）

访问 ModelScope 平台直接试用预训练模型：

中文演示：https://modelscope.cn/models?page=1&tasks=text-to-speech
支持语言包括：普通话、英语、英式英语、上海话、四川话、粤语、意大利语、西班牙语、俄语、韩语等。

方式二：本地推理或训练

详细训练教程请参考官方 Wiki：

训练指南：KAN-TTS Wiki

如需获取特定语言的预训练模型，可访问 ModelScope 对应页面下载（例如普通话模型）：

普通话模型列表

提示：具体推理代码示例及参数配置请参照 Wiki 中的完整教程，以确保与最新模型版本兼容。

常见问题

生成的音频开头有截断或延迟感，如何处理？

如何加载 ModelScope 上的预训练模型并进行本地推理或导出 ONNX？

微调 Sambert 时遇到 'size mismatch for spk_tokenizer.weight' 报错怎么办？

如何在推理阶段控制语音的语速？

ttsfrd 模块是否存在内存泄漏问题，如何解决？

HiFi-GAN 声码器中使用的 `x = torch.sin(x) + x` 激活函数有什么依据？

使用通用格式数据微调 Sambert-hifigan 时出现 'num_samples=0' 报错是什么原因？

ttsfrd 模块是否支持单独返回拼音或正则化文本？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|今天

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|3天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|2天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|今天

语言模型音频Agent