ComfyUI_IndexTTS
ComfyUI_IndexTTS 是一款集成在 ComfyUI 中的高性能声音克隆节点,基于 IndexTTS 模型打造。它不仅能实现高质量的中英文语音合成与音色复刻,更突破了传统工具的限制,原生支持双人对话模式及“无限情绪表达”。
该工具主要解决了现有 TTS 方案情感单一、难以处理多角色互动以及长文本推理效率低的问题。用户只需提供简短的参考音频,即可克隆出逼真的声音;通过输入简单的情绪提示词(如“哭哭”、“大笑”)或调整情绪向量,能精准控制语音的喜怒哀乐,甚至模拟复杂的对话场景。此外,它还支持 DeepSpeed 加速和自定义 CUDA 内核,显著提升了生成速度与长文本处理能力。
ComfyUI_IndexTTS 非常适合 AI 内容创作者、视频博主、游戏开发者以及需要制作有声读物或广播剧的设计师使用。对于熟悉 ComfyUI 工作流的进阶用户,它能极大丰富音频创作的维度;而其对安装环境的优化(如 Windows 下的依赖修复),也让普通技术爱好者能更轻松地部署体验。无论是制作生动的短视频配音,还是构建多角色互动的音频剧情,它都能提供专业且灵活的解决方案。
使用场景
一位独立游戏开发者正在为一款恋爱模拟游戏制作剧情音频,需要让男女主角进行充满情感起伏的双人对话配音。
没有 ComfyUI_IndexTTS 时
- 多人配音成本高昂:传统方案需分别录制两个角色的声音再后期剪辑,或聘请两名配音演员,预算和时间成本极高。
- 情绪表达僵硬单一:普通 TTS 工具难以精准控制“大笑”、“哭泣”或“暧昧低语”等复杂情绪,导致对话听起来像机器人念稿,缺乏感染力。
- 中英混合识别困难:剧本中夹杂的英文台词(如"Babe"、"Alipay")常被误读或发音生硬,破坏沉浸感。
- 迭代修改极其繁琐:一旦剧本微调,必须重新录制或调整大量音频片段,工作流断裂且效率低下。
使用 ComfyUI_IndexTTS 后
- 一键生成双人对话:直接在节点中输入包含
[S1]和[S2]标记的剧本,ComfyUI_IndexTTS 即可自动区分角色并生成连贯的双人互动音频。 - 无限情绪精细调控:通过
emo_text提示词(如“哭哭哭”)或emo_vector向量,精准赋予角色惊喜、愤怒或温柔等特定情绪,甚至支持“大笑”与“抽泣”的同框演绎。 - 自然流畅的中英混读:内置模型完美处理中英文混杂台词,确保"¥1314.52"或"Flight MU5378"等细节发音地道自然。
- 实时预览快速迭代:开发者可随时调整情绪参数或文本内容,秒级重新生成预览,大幅缩短从剧本到成品的创作周期。
ComfyUI_IndexTTS 将原本昂贵且繁琐的双人情感配音流程,转化为低成本、高表现力且可即时调整的自动化工作流。
运行环境要求
- Linux
- macOS
- Windows
- 需要 NVIDIA GPU (支持 CUDA),首次运行需构建自定义 CUDA 内核扩展
- 可选安装 DeepSpeed 加速(Windows 需特殊配置)
未说明 (提及分句参数越小占用内存越多)

快速开始
ComfyUI 的 IndexTTS 声音克隆节点
声音克隆质量非常高, 速度非常快, 支持中英文, 支持自定义音色,支持无限情绪表达!
📣 更新
[2025-09-09]⚒️: 发布 v2.0.0. 支持IndexTTS2!声音生成,克隆王者登基!
[S1] 2024年02月14日 Valentine’s Day,你居然忘了?!
[S2] Babe 对不起!我特意订了 dinner at 7:30 PM,还买了你最爱的 rose,99朵,每朵¥13.14,total ¥1300.86!
[S1] 哼…那520.13元的红包呢?去年你说“我爱你一生”都发了,今年呢?
[S2] Already sent!Alipay 提示音你没听到?
[S1] …那周末去三亚的机票?你上个月说“March 15日出发,住海景房¥2888.88/晚”?
[S2] Confirmed!Flight MU5378,3月15日08:45起飞。房费我pay,你负责…smile like sunshine!
[S1] 这还差不多~但下次纪念日别用“Babe”糊弄我!
[S2] Yes, my Queen!下次发红包¥1314.52。
- 提示词:
男:大笑笑笑笑。。。女:哭哭哭。。。
https://github.com/user-attachments/assets/6de33c3a-439b-4921-8f94-796c8852508b
[2025-05-30]⚒️: 发布 v1.2.0. 支持双人对话, 支持预览说话者, Windows 正常安装 pynini, 不再是阉割版 TTS!
IndexTTS 正式发布1.5 版本了,效果666,晕XUAN4是一种GAN3觉,我爱你!,I love you!,“我爱你”的英语是“I love you”,2.5平方电线,共465篇,约315万字,2002年的第一场雪,下在了2003年.
https://github.com/user-attachments/assets/b67891f2-0982-4540-8c3b-1a870305466f
[2025-05-14]⚒️: 支持 v1.5 版本. 模型下载并更名放到 ComfyUI\models\TTS\Index-TTS 路径下:
- https://huggingface.co/IndexTeam/IndexTTS-1.5/blob/main/bigvgan_generator.pth →
bigvgan_generator_v1_5.pth - https://huggingface.co/IndexTeam/IndexTTS-1.5/blob/main/bpe.model →
bpe_v1_5.model - https://huggingface.co/IndexTeam/IndexTTS-1.5/blob/main/gpt.pth →
gpt_v1_5.pth
[2025-05-02]⚒️: 可用 DeepSpeed 加速, 需要安装 DeepSpeed, Windows 详见 DeepSpeed 安装. 加速不明显.
[2025-04-30]⚒️: 发布 v1.0.0.
使用
V2重要参数说明(全是可选的):
deepspeed: 是否开启 deepspeed 加速(需要先安装deepspeed)。emo_audio_prompt: 第一个说话人,情绪音频参考。emo_alpha: 第一个说话人,情绪强度。emo_vector: 第一个说话人,情绪控制向量,英文格式输入类似这样的列表[0, 0, 0, 0, 0, 0, 0.45, 0](每一个强度范围0-1,表示惊喜强度 0.45),数字分别对应 : [Happy, Angery, Sad, Fear, Hate, Low, Surprise, Neutral], 几乎无限组合。use_emo_text: 第一个说话人,是否开启提示词控制情绪。如果使用提示词控制,情绪参考音频失效。emo_text: 第一个说话人,情绪控制提示词。随便写,例如哭哭。。。苦苦。。。use_random: 第一个说话人,是否开启随机性。emo_audio_prompt_s2: 第二个说话人,同上。emo_alpha_s2: 第二个说话人,同上。emo_vector_s2: 第二个说话人,同上。use_emo_text_s2: 第二个说话人,同上。emo_text_s2: 第二个说话人,同上。use_random_s2: 第二个说话人,同上。
如果不提供任何情绪控制,自动使用克隆音频作为情绪参考。
重要参数说明(其他参数不是很重要的就不一一介绍了):
max_mel_tokens: 控制生成的语音长度, 长文本需要增加这个参数.max_text_tokens_per_sentence: 分句的最大token数,越小,推理速度越快,占用内存更多,可能影响质量sentences_bucket_max_size: 分句分桶的最大容量,越大,推理速度越快,占用内存更多,可能影响质量fast_inference: 开启快速推理custom_cuda_kernel: 开启自定义 CUDA 内核, 第一次运行将自动构建 CUDA 内核扩展dialogue_audio_s2: 双人会话时的第二个音频, 如果输入这个音频, 自动启动会话模式. 会话模式下, 输入文本必须如下([S1] 表示第一个说话者, [S2] 表示第二个说话者):
[S1] 轻喘像风掠过耳畔,
[S2] 你靠近时,连呼吸都慢了半拍。
[S1] 指尖在我锁骨上游移,
[S2] 仿佛试探一扇未曾开启的门。
- 情绪控制:

- 加载音频:

- 预览说话者:
我将会把所有 TTS 节点的说话者音频全部统一放到 ComfyUI\models\TTS\speakers 路径下, 这些节点包括 IndexTTS, CSM, Dia, MegaTTS, QuteTTS, SparkTTS, StepAudioTTS 等.

- 双人对话:

安装
- Windows 先安装以下依赖:
pynini-windows-wheels 下载相应 python 版本的 pynini 轮子.
示例:
D:\AIGC\python\py310\python.exe -m pip install pynini-2.1.6.post1-cp3xx-cp3xx-win_amd64.whl
D:\AIGC\python\py310\python.exe -m pip install importlib_resources
D:\AIGC\python\py310\python.exe -m pip install WeTextProcessing>=1.0.4 --no-deps
- Linux, Mac, Windows:
cd ComfyUI/custom_nodes
git clone https://github.com/billwuhao/ComfyUI_IndexTTS.git
cd ComfyUI_IndexTTS
pip install -r requirements.txt
# python_embeded
./python_embeded/python.exe -m pip install -r requirements.txt
模型下载
V2模型下载:
模型手动下载到 ComfyUI\models\TTS 下的指定文件夹:
https://hf-mirror.com/nvidia/bigvgan_v2_22khz_80band_256x/tree/main
https://hf-mirror.com/amphion/MaskGCT/tree/main/semantic_codec
- bigvgan_v2_22khz_80band_256x
bigvgan_generator.pt
config.json
- campplus
campplus_cn_common.bin
- IndexTTS-2
│ .gitattributes
│ bpe.model
│ config.yaml
│ feat1.pt
│ feat2.pt
│ gpt.pth
│ README.md
│ s2mel.pth
│ wav2vec2bert_stats.pt
│
└─ qwen0.6bemo4-merge
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.safetensors
Modelfile
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json
- MaskGCT
semantic_codec
model.safetensors
- w2v-bert-2.0
.gitattributes
config.json
conformer_shaw.pt
model.safetensors
preprocessor_config.json
README.md
- 模型需要手动下载放到
ComfyUI\models\TTS\Index-TTS路径下:
Index-TTS 结构如下:
bigvgan_generator.pth
bpe.model
gpt.pth
鸣谢
常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
ChatTTS
ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。