xtts-webui

GitHub
878 167 简单 1 次阅读 3天前MIT开发框架音频
AI 解读 由 AI 自动生成,仅供参考

xtts-webui 是一款专为 XTTS 语音合成模型打造的图形化操作界面,旨在让用户无需编写代码即可轻松体验强大的 AI 配音功能。它主要解决了传统 AI 语音工具部署复杂、参数调整困难以及批量处理不便的痛点,将繁琐的技术流程转化为直观的网页操作。

这款工具非常适合希望快速生成高质量语音的内容创作者、视频制作者,同时也为需要微调专属声音模型的研究人员提供了便利。对于普通用户,它提供了“开箱即用”的便携版(仅限 Windows),只需具备 NVIDIA 显卡即可运行;而开发者则可以通过脚本或手动方式在 Linux/Windows 环境下灵活部署。

xtts-webui 的核心亮点在于其高度的集成性与自动化能力。它不仅支持批量文件处理和带音色保留的音频翻译,还能自动联动 RVC、OpenVoice 及 Resemble Enhance 等先进神经网络工具,进一步优化输出音质。此外,用户可以在界面中直接对模型进行微调训练,并立即应用生成的个性化声音,真正实现了从声音克隆到最终合成的全流程闭环。无论是制作多语言有声书,还是打造独特的虚拟主播音色,xtts-webui 都能提供高效且专业的支持。

使用场景

一家小型游戏本地化团队急需将一款独立游戏的英文剧情对话快速转化为中文配音,且要求保留原角色的独特声线以维持沉浸感。

没有 xtts-webui 时

  • 技术门槛极高:团队成员需手动配置 Python 环境、安装 CUDA 驱动及编译 C++ 依赖库,往往因环境冲突耗费数天仍无法运行 XTTS 模型。
  • 工作流割裂严重:语音克隆、文本翻译和音频增强需分别使用不同脚本或软件,人工拼接音频导致效率低下且容易出错。
  • 批量处理能力缺失:面对游戏中数百句台词,只能逐条生成音频,无法实现自动化批处理,项目交付周期被迫大幅延长。
  • 音色还原度不稳定:缺乏集成的后处理工具(如 RVC 或 Resemble Enhance),生成的语音机械感强,难以达到商业发布标准。

使用 xtts-webui 后

  • 开箱即用部署:直接下载 Windows 便携版压缩包,无需配置复杂环境,拥有 6GB 显存的 Nvidia 显卡即可一键启动服务。
  • 全流程一体化:在同一个网页界面中完成“上传参考音→输入译文→自动翻译并克隆音色→音频增强”的闭环操作,极大简化了工作流。
  • 高效批量合成:利用内置的批处理功能,一次性导入所有剧本文件,系统自动按顺序生成带角色情感的配音,效率提升十倍以上。
  • 音质显著优化:自动调用集成的神经网络的音频修复工具,有效去除机械噪点,使最终输出的中文配音自然流畅且高度还原原角色特征。

xtts-webui 通过极简的交互设计和强大的集成能力,让中小团队也能零成本实现电影级的高质量多语言语音本地化。

运行环境要求

操作系统
  • Windows
  • Linux
GPU
  • 必需(便携式版本明确要求)
  • 需要 NVIDIA 显卡,显存至少 6GB
  • 支持 CUDA 11.8 或 CUDA 12.1
  • 提供 --lowvram 参数以优化低显存环境
内存

未说明

依赖
notes1. Windows 用户若使用便携版无需手动安装依赖,仅需 NVIDIA 显卡和 6GB 显存。 2. 手动安装时需确保已安装 Microsoft Build Tools 2019 及 C++ 包。 3. 训练功能在当前界面已损坏,需使用独立的 xtts-finetune-webui 项目进行模型微调。 4. 支持集成 RVC、OpenVoice 和 Resemble Enhance 等后处理工具。 5. DeepSpeed 加速仅在 Windows 的 Python 3.10/3.11 环境下可用。
python3.10.x 或 3.11
torch==2.1.1+cu118
torchaudio==2.1.1+cu118
faster-whisper==0.10.0
Microsoft Build Tools 2019 (含 C++ 组件)
ffmpeg
xtts-webui hero image

快速开始

XTTS-WebUI

便携版

该项目现已推出便携版,您无需再费心安装所有依赖项。

点击此处下载

运行此版本仅需 Windows 系统及配备 6GB 显存的 NVIDIA 显卡即可。

“训练”选项卡目前存在故障,如需训练模型,请使用独立的 WebUI:

xtts-finetune-webui

阅读说明支持以下语言:

英语

俄语

葡萄牙语

关于本项目

XTTS-WebUI 是一个基于网页的界面,旨在帮助用户充分发挥 XTTS 的潜力。在此界面的基础上,还可以结合其他神经网络模型以进一步提升效果。此外,用户还可以对模型进行微调,从而获得高质量的语音合成模型。

image

核心功能

  • 轻松使用 XTTSv2
  • 批量处理功能,适用于大量文件的配音任务
  • 支持任意音频的翻译并保留原声
  • 自动利用神经网络和音频工具优化输出效果
  • 可直接对模型进行微调并立即使用
  • 支持同时或单独使用 RVCOpenVoiceResemble Enhance 等工具
  • 允许自定义 XTTS 生成参数,包括所有设置及多段发音样本

待办事项

  • 添加包含进度与错误信息的状态栏
  • 将训练功能集成到标准界面中
  • 增加流式传输功能以便实时检查结果
  • 引入新的文本处理方式用于语音合成
  • 在批量处理时增加对不同说话人的自定义功能
  • 添加 API 接口

安装说明

可通过 Google Colab 使用本 Web UI。

请确保已安装 Python 3.10.x 或 Python 3.11、CUDA 11.8 或 CUDA 12.1、Microsoft Builder Tools 2019(含 C++ 包)以及 FFmpeg。

方法一:通过脚本

Windows

开始步骤:

  • 运行 install.bat 文件
  • 启动 Web UI 时运行 start_xtts_webui.bat
  • 打开您喜欢的浏览器,并访问控制台显示的本地地址。

Linux

开始步骤:

  • 运行 install.sh 文件
  • 启动 Web UI 时运行 start_xtts_webui.sh
  • 打开您喜欢的浏览器,并访问控制台显示的本地地址。

方法二:手动安装

请按照以下步骤进行安装:

  1. 确保已安装 CUDA

  2. 克隆仓库:git clone https://github.com/daswer123/xtts-webui

  3. 进入目录:cd xtts-webui

  4. 创建虚拟环境:python -m venv venv

  5. 激活虚拟环境:

    • Windows 用户:venv\scripts\activate
    • Linux 用户:source venv/bin/activate
  6. 使用 pip 命令安装 PyTorch 和 torchaudio: pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118

  7. 安装 requirements.txt 中的所有依赖项: pip install -r requirements.txt

运行应用程序

请按照以下步骤启动界面:

启动 XTTS WebUI:

激活您的虚拟环境:

venv/scripts/activate

或者在 Linux 上:

source venv/bin/activate

然后运行以下命令启动 XTTS WebUI:

python app.py

以下是启动应用程序时可使用的运行时参数:

参数 默认值 描述
-hs, --host 127.0.0.1 绑定的主机地址
-p, --port 8010 监听的端口号
-d, --device cuda 使用的设备(cpu 或 cuda)
-sf,--speaker_folder speakers/ 包含 TTS 样本的目录
-o,--output "output/" 输出目录
-l,--language "auto" WebUI 语言,可用语言可在 i18n/locale 文件夹中查看。
-ms,--model-source "local" 指定模型来源:“api”表示从仓库获取最新版本并进行推理,“local”则使用本地推理及模型 v2.0.2。
-v,-version "v2.0.2" 可指定要使用的 XTTS 版本。若要使用自定义模型,只需将模型文件夹放入 models 目录,并在此处指定文件夹名称。
--lowvram 启用低显存模式,该模式会在非活跃处理时将模型切换至内存。
--deepspeed 启用 DeepSpeed 加速。适用于 Windows 上的 Python 3.10 和 3.11。
--share 允许在局域网外共享界面。
--rvc 启用 RVC 后处理,所有模型应放置在 rvc 文件夹中。

TTS -> RVC

RVC 模块可用于对生成的音频进行后处理。您可以通过在命令行中添加 --rvc 标志来启用此模块,或将该标志写入启动文件。

为了让模型在 RVC 设置中正常工作,您需要选择一个模型,并将其上传至 voice2voice/rvc 文件夹。模型文件和索引文件必须放在一起,其中索引文件为可选。每个模型应位于单独的文件夹内。

XTTS-WebUI 与 官方 WebUI 的区别

数据处理

  1. 更新了 faster-whisper 至 0.10.0,并增加了选择 larger-v3 模型的功能。
  2. 将输出文件夹调整为主文件夹内的 output 文件夹。
  3. 如果 output 文件夹中已存在数据集,您可以直接添加新音频;原有数据不会被重复处理,新数据将自动合并。
  4. 启用 VAD 过滤器。
  5. 数据集创建完成后,会生成一个指定数据集语言的文件。该文件将在训练前被读取,以确保语言一致性。这在重新启动界面时非常方便。

XTTS 编码器的微调

  1. 增加了选择 XTTS 基础模型的功能,且在再次训练时无需重新下载模型。
  2. 增加了在训练过程中选择自定义基础模型的能力,从而可以对已微调过的模型进行进一步微调。
  3. 新增了一键优化模型的功能(步骤 2.5:将优化后的模型放入 output 文件夹)。
  4. 您可以选择在优化模型后是否删除训练文件夹。
  5. 优化模型时,参考示例音频会被移动到 output 文件夹。
  6. 检查指定语言与数据集语言的一致性。

推理

  1. 增加了在模型测试阶段自定义推理设置的功能。

其他

  1. 如果在某个步骤中不小心重启了界面,可以将数据加载到其他按钮上。
  2. 移除了日志的显示,因为重启时会导致问题。
  3. 完成的结果会被复制到“ready”文件夹中,这些是完全完成的文件,您可以将它们移动到任何位置并作为标准模型使用。
  4. 增加了对日语的支持这里

该项目已在 BrowserStack 上进行了测试。

版本历史

deepspeed2023/12/15

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架