ComfyUI-Qwen-TTS
ComfyUI-Qwen-TTS 是一款基于阿里通义千问团队开源 Qwen3-TTS 模型的 ComfyUI 自定义节点插件,旨在为用户提供高效、灵活的语音合成解决方案。它主要解决了在可视化工作流中难以实现高质量文本转语音、零样本声音克隆及个性化声音设计的痛点,让用户无需编写代码即可通过节点连接完成复杂的音频生成任务。
这款工具非常适合 AI 创作者、视频制作人、游戏开发者以及希望探索语音技术的研究人员使用。无论是需要为虚拟角色定制独特声线,还是希望快速克隆参考音频中的声音,亦或是进行多语言(支持中、英、日、韩等 10 种语言)的批量配音,都能轻松应对。
其技术亮点在于集成了多种先进功能:支持“零样本”声音克隆,仅需短短几秒的参考音频即可复刻音色;提供基于自然语言描述的“声音设计”功能,可创造现实中不存在的虚拟嗓音;具备超低延迟流式推理能力,并允许用户根据显存情况灵活选择注意力机制或自动卸载模型以优化资源占用。此外,它还内置了智能模型缓存机制,无需繁琐的手动加载步骤,让创作流程更加流畅自然。
使用场景
一位独立游戏开发者正在为一款多语言叙事冒险游戏制作角色配音,需要快速生成具有不同性格特征且支持中、英、日等多语种的角色台词。
没有 ComfyUI-Qwen-TTS 时
- 多角色配音成本高昂:聘请多位配音演员录制不同语言和性格的台词预算超标,且修改台词需重新预约录音棚,周期长达数周。
- 声音风格难以统一:使用传统 TTS 工具生成的声音机械感强,缺乏情感起伏,难以匹配游戏中“温柔女法师”或“粗犷老兵”等特定人设。
- 多语言工作流割裂:针对不同语言需切换不同的合成引擎,导致音频格式、音量电平不一致,后期混音整理极其繁琐。
- 显存管理困难:在本地部署高质量模型时,常因显存不足导致生成中断,无法在同一会话中连续处理大量对话数据。
使用 ComfyUI-Qwen-TTS 后
- 零样本克隆降低门槛:利用
VoiceCloneNode,仅需一段 5-15 秒的参考音频即可完美复刻角色音色,开发者可自己录制样音或通过 AI 生成基底,瞬间获得数百句高质量台词。 - 自然语言定制人设:通过
VoiceDesignNode直接输入“带有沙哑质感的中年男性嗓音”等描述,即可生成符合剧情的独特声线,无需微调训练。 - 原生多语言无缝切换:依托 Qwen3-TTS 的原生能力,同一节点即可流畅输出中、英、日等 10 种语言,确保所有角色语音风格统一且情感自然。
- 高效显存调度:内置的自动模型卸载机制(
unload_model_after_generate)让有限显存的显卡也能连续批量生成大量音频,无需手动干预内存清理。
ComfyUI-Qwen-TTS 将原本耗时数周、成本高昂的多角色多语言配音流程,转化为可在本地单机高效完成的自动化工作流,极大提升了独立游戏的音频制作效率。
运行环境要求
- Linux
- macOS
- Windows
- NVIDIA GPU 推荐(支持 CUDA),显存建议 8GB+(低于 8GB 需开启模型卸载功能)
- macOS 支持 MPS (Metal Performance Shaders)
- 支持多种注意力机制加速(sage_attn, flash_attn),低显存用户可使用 eager 模式配合 0.6B 模型
未说明

快速开始
ComfyUI-Qwen-TTS
英语 | 中文版

基于阿里巴巴通义实验室团队开源的 Qwen3-TTS 项目,为 ComfyUI 提供的语音合成、语音克隆和语音设计自定义节点。
📋 更改日志
- 2026-02-04: 功能更新:新增全局暂停控制(
QwenTTSConfigNode)及对extra_model_paths.yaml的支持(update.md) - 2026-01-29: 功能更新:支持加载自定义微调模型与说话人(update.md)
- 注:目前微调功能仍处于实验阶段;为获得最佳效果,建议使用零样本克隆。
- 2026-01-27: UI 优化:简洁的 LoadSpeaker 界面;修复了与 PyTorch 2.6+ 的兼容性问题(update.md)
- 2026-01-26: 功能更新:新增语音持久化系统(SaveVoice / LoadSpeaker)(update.md)
- 2026-01-24: 增加注意力机制选择及模型内存管理功能(update.md)
- 2026-01-24: 在所有 TTS 节点中添加生成参数(top_p、top_k、温度、重复惩罚)(update.md)
- 2026-01-23: 依赖兼容性与 Mac (MPS) 支持,新增节点:VoiceClonePromptNode、DialogueInferenceNode(update.md)
在线工作流
核心特性
- 🎵 语音合成:高质量文本转语音转换。
- 🎭 语音克隆:从短参考音频实现零样本语音克隆。
- 🎨 语音设计:根据自然语言描述创建自定义语音特征。
- 🚀 高效推理:同时支持 12Hz 和 25Hz 语音分词器架构。
- 🎯 多语言支持:原生支持 10 种语言(中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语)。
- ⚡ 集成加载:无需单独的加载节点;模型加载采用按需管理并结合全局缓存。
- ⏱️ 超低延迟:支持高保真语音重建与低延迟流式传输。
- 🧠 注意力机制选择:可从多种注意力实现(sage_attn、flash_attn、sdpa、eager)中选择,并具备自动检测与优雅回退功能。
- 💾 内存管理:生成完成后可选择卸载模型,以释放显存,适用于显存有限的用户。
节点列表
1. Qwen3-TTS 语音设计(VoiceDesignNode)
根据文本描述生成独特语音。
- 输入:
text:待合成的目标文本。instruct:语音描述(例如:“温柔的女声,音调较高”)。model_choice:目前语音设计功能仅支持 1.7B 模型。attention:注意力机制(auto、sage_attn、flash_attn、sdpa、eager)。unload_model_after_generate:生成完成后将模型从内存中卸载,以释放显存。
- 适用场景:最适合用于创建“想象中的”语音或特定角色原型。
2. Qwen3-TTS 语音克隆(VoiceCloneNode)
从参考音频片段克隆语音。
- 输入:
ref_audio:用于克隆的短音频片段(5–15秒)。ref_text:参考音频中所包含的文本(有助于提升质量)。target_text:希望克隆后的语音说出的新文本。model_choice:可选择 0.6B(速度快)或 1.7B(质量高)。attention:注意力机制(auto、sage_attn、flash_attn、sdpa、eager)。unload_model_after_generate:生成完成后将模型从内存中卸载,以释放显存。
- 适用场景:从参考音频中提取语音特征并进行克隆。
3. Qwen3-TTS 自定义语音(CustomVoiceNode)
使用预设说话人进行标准 TTS 合成。
- 输入:
text:目标文本。speaker:从预设语音中选择(Aiden、Eric、Serena 等)。instruct:可选的风格指令。attention:注意力机制(auto、sage_attn、flash_attn、sdpa、eager)。unload_model_after_generate:生成完成后将模型从内存中卸载,以释放显存。
- 适用场景:使用预设语音进行常规语音合成。
4. Qwen3-TTS 角色库(RoleBankNode)[新]
收集并管理多个语音提示,用于对话生成。
- 输入:
- 最多 8 个角色,每个角色包含:
role_name_N:角色名称(如“Alice”、“Bob”、“旁白”)。prompt_N:来自VoiceClonePromptNode的语音克隆提示。
- 最多 8 个角色,每个角色包含:
- 适用场景:为
DialogueInferenceNode创建命名语音注册表。每个角色库最多支持 8 种不同语音。
5. Qwen3-TTS 语音克隆提示(VoiceClonePromptNode)[新]
从参考音频中提取并复用语音特征。
- 输入:
ref_audio:用于提取特征的短音频片段(5–15秒)。ref_text:参考音频中所包含的文本(强烈推荐以提高质量)。model_choice:可选择 0.6B(速度快)或 1.7B(质量高)。attention:注意力机制(auto、sage_attn、flash_attn、sdpa、eager)。unload_model_after_generate:生成完成后将模型从内存中卸载,以释放显存。
- 适用场景:一次性提取“提示项”,并在不同的
VoiceCloneNode实例中多次使用,从而实现更快、更一致的生成效果。
6. Qwen3-TTS 多角色对话(DialogueInferenceNode)[新]
合成包含多名说话人的复杂对话。
- 输入:
script:对话脚本,格式为“角色名:文本”。role_bank:来自RoleBankNode的包含语音提示的角色库。model_choice:可选择 0.6B(速度快)或 1.7B(质量高)。attention:注意力机制(auto、sage_attn、flash_attn、sdpa、eager)。unload_model_after_generate:生成完成后将模型从内存中卸载,以释放显存。pause_seconds:句子之间的静默时长。merge_outputs:将所有对话片段合并为一段长音频。batch_size:可并行处理的行数(数值越大速度越快,但显存消耗也越多)。
- 适用场景:在一个节点中完成多角色语音合成,非常适合有声书配音或角色扮演场景。
7. Qwen3-TTS 加载说话人(LoadSpeakerNode)[新]
无需任何配置即可加载已保存的语音特征和元数据。
- 适用场景:通过自动加载预先计算好的特征和元数据,实现“选择即播放”的体验。
8. Qwen3-TTS 保存语音(SaveVoiceNode)[新]
将提取的语音特征和元数据持久化到磁盘,以供未来使用。
- 适用场景:构建永久性的语音库,以便后续通过
LoadSpeakerNode重复使用。
9. Qwen3-TTS 配置(QwenTTSConfigNode)[新功能]
定义标点符号的全局停顿时长,以控制语音节奏。
- 输入:
pause_linebreak:换行符后的静音时长。period_pause:句号(.)后的静音时长。comma_pause:逗号(,)后的静音时长。question_pause:问号(?)后的静音时长。hyphen_pause:连字符(-)后的静音时长。
- 用法:将输出连接到其他 TTS 节点的
config输入端。
注意力机制
所有节点都支持多种注意力实现方式,并具备自动检测和优雅降级功能:
| 机制 | 描述 | 速度 | 安装方法 |
|---|---|---|---|
| sage_attn | SAGE 注意力实现 | ⚡⚡⚡ 最快 | pip install sage_attn |
| flash_attn | Flash Attention 2 | ⚡⚡ 快速 | pip install flash_attn |
| sdpa | 缩放点积注意力(PyTorch 内置) | ⚡ 中速 | 内置(无需安装) |
| eager | 标准注意力(回退选项) | 🐢 最慢 | 内置(无需安装) |
| auto | 自动选择最佳可用选项 | 变化 | 不适用 |
自动检测优先级
当选择 attention: "auto" 时,系统会按以下顺序检查:
- sage_attn → 如果已安装,则使用 SAGE 注意力(最快)
- flash_attn → 如果已安装,则使用 Flash Attention 2
- sdpa → 始终可用(PyTorch 内置)
- eager → 始终可用(回退选项,最慢)
所选机制会记录在控制台中,以确保透明性。
优雅降级
如果您选择的注意力机制不可用:
- 系统会回退到
sdpa(如果可用) - 如果仍不可用,则回退到
eager(最后手段) - 并会记录降级决策及警告信息。
模型缓存
- 模型会按注意力机制特定的键进行缓存。
- 更改注意力机制时,会自动清除缓存并重新加载模型。
- 使用不同注意力机制的同一模型可在缓存中共存。
内存管理
生成后卸载模型
所有节点均提供 unload_model_after_generate 切换开关:
- 启用:生成完成后清除模型缓存、GPU 内存并执行垃圾回收。
- 禁用:模型保留在缓存中,以便后续更快地生成(默认设置)。
适用场景:
- ✅ 如果显存有限(< 8GB),建议启用。
- ✅ 如果需要依次运行多个不同的模型,建议启用。
- ✅ 如果已完成生成并希望释放内存,建议启用。
- ❌ 如果使用同一模型生成多个片段,则建议禁用(速度更快)。
控制台输出:
🗑️ [Qwen3-TTS] 正在卸载 1 个缓存模型...
✅ [Qwen3-TTS] 模型缓存和 GPU 内存已清空
安装
请确保已安装所需依赖项:
pip install torch torchaudio transformers librosa accelerate
模型目录结构
ComfyUI-Qwen-TTS 会按照以下优先级自动搜索模型:
ComfyUI/
├── models/
│ └── qwen-tts/
│ ├── Qwen/Qwen3-TTS-12Hz-1.7B-Base/
│ ├── Qwen/Qwen3-TTS-12Hz-0.6B-Base/
│ ├── Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign/
│ ├── Qwen/Qwen3-TTS-Tokenizer-12Hz/
│ └── voices/(保存的预设 .wav/.qvp 文件)
注意:您也可以使用 extra_model_paths.yaml 来定义自定义模型路径:
qwen-tts: D:\MyModels\Qwen
最佳实践提示
音质
- 克隆:使用干净、无噪声的参考音频(5–15 秒)。
- 参考文本:提供参考音频中所说的文本可显著提升质量。
- 语言:选择正确的语言以获得最佳发音和韵律。
性能与内存
- 显存:使用
bf16精度可在几乎不损失质量的情况下大幅节省显存。 - 注意力机制:使用
attention: "auto"可自动选择最快的可用机制。 - 卸载模型:如果显存有限(< 8GB)或需要运行多个不同模型,建议启用
unload_model_after_generate。 - 本地模型:将权重预先下载到
models/qwen-tts/目录下,以优先从本地加载,避免 HuggingFace 超时。
注意力机制
- 最佳性能:安装
sage_attn或flash_attn可使速度比sdpa提升 2–3 倍。 - 兼容性:使用
sdpa(默认)可获得最大兼容性,且无需安装。 - 低显存:对于其他机制可能导致 OOM 错误的小模型(0.6B),可使用
eager。
对话生成
- 批量大小:增加
batch_size可加快生成速度(但会占用更多显存)。 - 停顿:调整
pause_seconds可控制对话片段之间的时长。 - 合并:启用
merge_outputs可生成连续对话;禁用则生成独立片段。
致谢
- Qwen3-TTS:阿里巴巴 Qwen 团队的官方开源仓库。
许可证
- 本项目采用 Apache License 2.0 许可证。
- 模型权重受 Qwen3-TTS 许可协议约束。
作者
常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
ChatTTS
ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。