[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-daswer123--xtts-webui":3,"tool-daswer123--xtts-webui":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":99,"forks":100,"last_commit_at":101,"license":102,"difficulty_score":23,"env_os":103,"env_gpu":104,"env_ram":105,"env_deps":106,"category_tags":115,"github_topics":116,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":122,"updated_at":123,"faqs":124,"releases":156},3152,"daswer123\u002Fxtts-webui","xtts-webui","Webui for using XTTS and for finetuning it","xtts-webui 是一款专为 XTTS 语音合成模型打造的图形化操作界面，旨在让用户无需编写代码即可轻松体验强大的 AI 配音功能。它主要解决了传统 AI 语音工具部署复杂、参数调整困难以及批量处理不便的痛点，将繁琐的技术流程转化为直观的网页操作。\n\n这款工具非常适合希望快速生成高质量语音的内容创作者、视频制作者，同时也为需要微调专属声音模型的研究人员提供了便利。对于普通用户，它提供了“开箱即用”的便携版（仅限 Windows），只需具备 NVIDIA 显卡即可运行；而开发者则可以通过脚本或手动方式在 Linux\u002FWindows 环境下灵活部署。\n\nxtts-webui 的核心亮点在于其高度的集成性与自动化能力。它不仅支持批量文件处理和带音色保留的音频翻译，还能自动联动 RVC、OpenVoice 及 Resemble Enhance 等先进神经网络工具，进一步优化输出音质。此外，用户可以在界面中直接对模型进行微调训练，并立即应用生成的个性化声音，真正实现了从声音克隆到最终合成的全流程闭环。无论是制作多语言有声书，还是打造独特的虚拟主播音色，xtts-webui 都能提供高效且专业","xtts-webui 是一款专为 XTTS 语音合成模型打造的图形化操作界面，旨在让用户无需编写代码即可轻松体验强大的 AI 配音功能。它主要解决了传统 AI 语音工具部署复杂、参数调整困难以及批量处理不便的痛点，将繁琐的技术流程转化为直观的网页操作。\n\n这款工具非常适合希望快速生成高质量语音的内容创作者、视频制作者，同时也为需要微调专属声音模型的研究人员提供了便利。对于普通用户，它提供了“开箱即用”的便携版（仅限 Windows），只需具备 NVIDIA 显卡即可运行；而开发者则可以通过脚本或手动方式在 Linux\u002FWindows 环境下灵活部署。\n\nxtts-webui 的核心亮点在于其高度的集成性与自动化能力。它不仅支持批量文件处理和带音色保留的音频翻译，还能自动联动 RVC、OpenVoice 及 Resemble Enhance 等先进神经网络工具，进一步优化输出音质。此外，用户可以在界面中直接对模型进行微调训练，并立即应用生成的个性化声音，真正实现了从声音克隆到最终合成的全流程闭环。无论是制作多语言有声书，还是打造独特的虚拟主播音色，xtts-webui 都能提供高效且专业的支持。","# XTTS-WebUI\n\n## Portable version\n\nThe project now has a portable version, so you don't have to go to the trouble of installing all the dependencies.\n\n[Click here to download](https:\u002F\u002Fhuggingface.co\u002Fdaswer123\u002Fxtts_portable\u002Fresolve\u002Fmain\u002Fxtts-webui-v1_0-portable.zip?download=true)\n\nYou don't need anything but Windows and an Nvidia graphics card with 6 GB of video memory to run it.\n\n## The Train tab is broken, if you want to train a model use a separate webui\n## [xtts-finetune-webui](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-finetune-webui)\n\n## Readme is available in the following languages\n\n[English](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME.md)\n\n[Russian](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME_ru_RU.md)\n\n[Português](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME_pt-BR.md)\n\n## About the Project\nXTTS-Webui is a web interface that allows you to make the most of XTTS. There are other neural networks around this interface that will improve your results. You can also fine tune the model and get a high quality voice model.\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdaswer123_xtts-webui_readme_32b8580c3000.png)\n\n## Key Features\n- Easy working with XTTSv2\n- Batch processing for dubbing a large number of files\n- Ability to translate any audio with voice saving\n- Ability to improve results using neural networks and audio tools automatically\n- Ability to fine tune the model and use it immediately\n- Ability to use tools such as: **RVC**, **OpenVoice**, **Resemble Enhance**, both together and separately\n- Ability to customize XTTS generation, all parameters, multiple speaking samples\n\n## TODO\n- [x] Add a status bar with progress and error information\n- [x] Integrate training into the standard interface\n- [ ] Add the ability to stream to check the result\n- [ ] Add a new way to process text for voiceover\n- [ ] Add the ability to customize speakers when batch processing\n- [ ] Add API\n\n## Installation\n\nUse this web UI through [Google Colab](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1MrzAYgANm6u79rCCQQqBSoelYGiJ1qYL)\n\n**Please ensure you have Python 3.10.x or Python 3.11, CUDA 11.8 or CUDA 12.1 , Microsoft Builder Tools 2019 with c++ package, and ffmpeg installed**\n\n### 1 Method, through scripts\n\n#### Windows\nTo get started:\n- Run 'install.bat' file\n- To start the web UI, run 'start_xtts_webui.bat'\n- Open your preferred browser and go to local address displayed in console.\n- \n#### Linux\nTo get started:\n- Run 'install.sh' file\n- To start the web UI, run 'start_xtts_webui.sh'\n- Open your preferred browser and go to local address displayed in console.\n\n### 2 Method, Manual\nFollow these steps for installation:\n1. Ensure that `CUDA` is installed\n2. Clone the repository: `git clone https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui`\n3. Navigate into the directory: `cd xtts-webui`\n4. Create a virtual environment: `python -m venv venv`\n5. Activate the virtual environment:\n   - On Windows use : `venv\\scripts\\activate`\n   - On linux use    : `source venv\\bin\\activate`\n\n6. Install PyTorch and torchaudio with pip command :\n\n   `pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118`\n\n7. Install all dependencies from requirements.txt :\n\n    `pip install -r requirements.txt`\n\n## Running The Application\n\nTo launch the interface please follow these steps:\n\n#### Starting XTTS WebUI :\nActivate your virtual environment:\n```bash\nvenv\u002Fscripts\u002Factivate\n```\nor if you're on Linux,\n```bash\nsource venv\u002Fbin\u002Factivate\n```\nThen start the webui for xtts by running this command:\n```bash\npython app.py\n```\n\nHere are some runtime arguments that can be used when starting the application:\n\n| Argument | Default Value | Description |\n| --- | --- | --- |\n| -hs, --host | 127.0.0.1 | The host to bind to |\n| -p, --port  | 8010       | The port number to listen on |\n| -d, --device   | cuda    | Which device to use (cpu or cuda) |\n| -sf,--speaker_folder  | speakers\u002F   | Directory containing TTS samples|\n|-o,--output  \t|\"output\u002F\"\t\t|Output directory|\n|-l,--language  \t|\"auto\"\t\t|Webui language, you can see the available translations in the i18n\u002Flocale folder.|\n|-ms,--model-source  \t|\"local\"\t\t\t|Define the model source: 'api' for latest version from repository, api inference or 'local' for using local inference and model v2.0.2|\n|-v,-version  \t\t\t|\"v2.0.2\"\t\t\t\t|You can specify which version of xtts to use. You can specify the name of the custom model for this purpose put the folder in models and specify the name of the folder in this flag|\n|--lowvram   \t\t||Enable low vram mode which switches the model to RAM when not actively processing|\n|--deepspeed   \t\t||Enable deepspeed acceleration. Works on windows on python 3.10 and 3.11|\n|--share   \t\t ||Allows sharing of interface outside local computer|\n|--rvc     \t ||Enable RVC post-processing, all models should locate in rvc folder|\n\n### TTS -> RVC\n\nModule for RVC, you can enable the RVC module to postprocess the received audio for this you need to add the --rvc flag if you are running in the console or write it to the startup file\n\nIn order for the model to work in RVC settings you need to select a model that you must first upload to the voice2voice\u002Frvc folder, the model and index file must be together, the index file is optional, each model must be in a separate folder.\n\n## Differences between xtts-webui and the [official webui](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS\u002Fpull\u002F3296)\n\n### Data processing\n\n1. Updated faster-whisper to 0.10.0 with the ability to select a larger-v3 model.\n2. Changed output folder to output folder inside the main folder.\n3. If there is already a dataset in the output folder and you want to add new data, you can do so by simply adding new audio, what was there will not be processed again and the new data will be automatically added\n4. Turn on VAD filter\n5. After the dataset is created, a file is created that specifies the language of the dataset. This file is read before training so that the language always matches. It is convenient when you restart the interface\n\n### Fine-tuning XTTS Encoder\n\n1. Added the ability to select the base model for XTTS, as well as when you re-training does not need to download the model again.\n2. Added ability to select custom model as base model during training, which will allow finetune already finetune model.\n3. Added possibility to get optimized version of the model for 1 click ( step 2.5, put optimized version in output folder).\n4. You can choose whether to delete training folders after you have optimized the model\n5. When you optimize the model, the example reference audio is moved to the output folder\n6. Checking for correctness of the specified language and dataset language\n\n### Inference\n\n1. Added possibility to customize infer settings during model checking.\n\n### Other\n\n1. If you accidentally restart the interface during one of the steps, you can load data to additional buttons\n2. Removed the display of logs as it was causing problems when restarted\n3. The finished result is copied to the ready folder, these are fully finished files, you can move them anywhere and use them as a standard model\n4. Added support for Japanese [here](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fissues\u002F15#issuecomment-1869090189)\n\nThis project is tested with BrowserStack\n","# XTTS-WebUI\n\n## 便携版\n\n该项目现已推出便携版，您无需再费心安装所有依赖项。\n\n[点击此处下载](https:\u002F\u002Fhuggingface.co\u002Fdaswer123\u002Fxtts_portable\u002Fresolve\u002Fmain\u002Fxtts-webui-v1_0-portable.zip?download=true)\n\n运行此版本仅需 Windows 系统及配备 6GB 显存的 NVIDIA 显卡即可。\n\n## “训练”选项卡目前存在故障，如需训练模型，请使用独立的 WebUI：\n## [xtts-finetune-webui](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-finetune-webui)\n\n## 阅读说明支持以下语言：\n\n[英语](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME.md)\n\n[俄语](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME_ru_RU.md)\n\n[葡萄牙语](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fblob\u002Fmain\u002FREADME_pt-BR.md)\n\n## 关于本项目\nXTTS-WebUI 是一个基于网页的界面，旨在帮助用户充分发挥 XTTS 的潜力。在此界面的基础上，还可以结合其他神经网络模型以进一步提升效果。此外，用户还可以对模型进行微调，从而获得高质量的语音合成模型。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdaswer123_xtts-webui_readme_32b8580c3000.png)\n\n## 核心功能\n- 轻松使用 XTTSv2\n- 批量处理功能，适用于大量文件的配音任务\n- 支持任意音频的翻译并保留原声\n- 自动利用神经网络和音频工具优化输出效果\n- 可直接对模型进行微调并立即使用\n- 支持同时或单独使用 **RVC**、**OpenVoice**、**Resemble Enhance** 等工具\n- 允许自定义 XTTS 生成参数，包括所有设置及多段发音样本\n\n## 待办事项\n- [x] 添加包含进度与错误信息的状态栏\n- [x] 将训练功能集成到标准界面中\n- [ ] 增加流式传输功能以便实时检查结果\n- [ ] 引入新的文本处理方式用于语音合成\n- [ ] 在批量处理时增加对不同说话人的自定义功能\n- [ ] 添加 API 接口\n\n## 安装说明\n\n可通过 [Google Colab](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1MrzAYgANm6u79rCCQQqBSoelYGiJ1qYL) 使用本 Web UI。\n\n**请确保已安装 Python 3.10.x 或 Python 3.11、CUDA 11.8 或 CUDA 12.1、Microsoft Builder Tools 2019（含 C++ 包）以及 FFmpeg。**\n\n### 方法一：通过脚本\n\n#### Windows\n开始步骤：\n- 运行 `install.bat` 文件\n- 启动 Web UI 时运行 `start_xtts_webui.bat`\n- 打开您喜欢的浏览器，并访问控制台显示的本地地址。\n\n#### Linux\n开始步骤：\n- 运行 `install.sh` 文件\n- 启动 Web UI 时运行 `start_xtts_webui.sh`\n- 打开您喜欢的浏览器，并访问控制台显示的本地地址。\n\n### 方法二：手动安装\n请按照以下步骤进行安装：\n1. 确保已安装 `CUDA`。\n2. 克隆仓库：`git clone https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui`。\n3. 进入目录：`cd xtts-webui`。\n4. 创建虚拟环境：`python -m venv venv`。\n5. 激活虚拟环境：\n   - Windows 用户：`venv\\scripts\\activate`。\n   - Linux 用户：`source venv\u002Fbin\u002Factivate`。\n\n6. 使用 pip 命令安装 PyTorch 和 torchaudio：\n   `pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118`。\n\n7. 安装 `requirements.txt` 中的所有依赖项：\n   `pip install -r requirements.txt`。\n\n## 运行应用程序\n\n请按照以下步骤启动界面：\n\n#### 启动 XTTS WebUI：\n激活您的虚拟环境：\n```bash\nvenv\u002Fscripts\u002Factivate\n```\n或者在 Linux 上：\n```bash\nsource venv\u002Fbin\u002Factivate\n```\n\n然后运行以下命令启动 XTTS WebUI：\n```bash\npython app.py\n```\n\n以下是启动应用程序时可使用的运行时参数：\n\n| 参数 | 默认值 | 描述 |\n| --- | --- | --- |\n| -hs, --host | 127.0.0.1 | 绑定的主机地址 |\n| -p, --port  | 8010       | 监听的端口号 |\n| -d, --device   | cuda    | 使用的设备（cpu 或 cuda） |\n| -sf,--speaker_folder  | speakers\u002F   | 包含 TTS 样本的目录|\n|-o,--output  \t|\"output\u002F\"\t\t|输出目录|\n|-l,--language  \t|\"auto\"\t\t|WebUI 语言，可用语言可在 i18n\u002Flocale 文件夹中查看。|\n|-ms,--model-source  \t|\"local\"\t\t\t|指定模型来源：“api”表示从仓库获取最新版本并进行推理，“local”则使用本地推理及模型 v2.0.2。|\n|-v,-version  \t\t\t|\"v2.0.2\"\t\t\t\t|可指定要使用的 XTTS 版本。若要使用自定义模型，只需将模型文件夹放入 models 目录，并在此处指定文件夹名称。|\n|--lowvram   \t\t||启用低显存模式，该模式会在非活跃处理时将模型切换至内存。|\n|--deepspeed   \t\t||启用 DeepSpeed 加速。适用于 Windows 上的 Python 3.10 和 3.11。|\n|--share   \t\t ||允许在局域网外共享界面。|\n|--rvc     \t ||启用 RVC 后处理，所有模型应放置在 rvc 文件夹中。|\n\n### TTS -> RVC\n\nRVC 模块可用于对生成的音频进行后处理。您可以通过在命令行中添加 `--rvc` 标志来启用此模块，或将该标志写入启动文件。\n\n为了让模型在 RVC 设置中正常工作，您需要选择一个模型，并将其上传至 voice2voice\u002Frvc 文件夹。模型文件和索引文件必须放在一起，其中索引文件为可选。每个模型应位于单独的文件夹内。\n\n## XTTS-WebUI 与 [官方 WebUI](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS\u002Fpull\u002F3296) 的区别\n\n### 数据处理\n\n1. 更新了 faster-whisper 至 0.10.0，并增加了选择 larger-v3 模型的功能。\n2. 将输出文件夹调整为主文件夹内的 output 文件夹。\n3. 如果 output 文件夹中已存在数据集，您可以直接添加新音频；原有数据不会被重复处理，新数据将自动合并。\n4. 启用 VAD 过滤器。\n5. 数据集创建完成后，会生成一个指定数据集语言的文件。该文件将在训练前被读取，以确保语言一致性。这在重新启动界面时非常方便。\n\n### XTTS 编码器的微调\n\n1. 增加了选择 XTTS 基础模型的功能，且在再次训练时无需重新下载模型。\n2. 增加了在训练过程中选择自定义基础模型的能力，从而可以对已微调过的模型进行进一步微调。\n3. 新增了一键优化模型的功能（步骤 2.5：将优化后的模型放入 output 文件夹）。\n4. 您可以选择在优化模型后是否删除训练文件夹。\n5. 优化模型时，参考示例音频会被移动到 output 文件夹。\n6. 检查指定语言与数据集语言的一致性。\n\n### 推理\n\n1. 增加了在模型测试阶段自定义推理设置的功能。\n\n### 其他\n\n1. 如果在某个步骤中不小心重启了界面，可以将数据加载到其他按钮上。\n2. 移除了日志的显示，因为重启时会导致问题。\n3. 完成的结果会被复制到“ready”文件夹中，这些是完全完成的文件，您可以将它们移动到任何位置并作为标准模型使用。\n4. 增加了对日语的支持[这里](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fissues\u002F15#issuecomment-1869090189)。\n\n该项目已在 BrowserStack 上进行了测试。","# XTTS-WebUI 快速上手指南\n\nXTTS-WebUI 是一个基于 XTTSv2 的 Web 界面工具，支持批量配音、语音翻译、模型微调以及集成 RVC、OpenVoice 等后处理工具，旨在提供高质量的语音合成体验。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n### 系统要求\n- **操作系统**: Windows 或 Linux\n- **显卡**: NVIDIA GPU（推荐显存 ≥ 6GB）\n- **Python 版本**: Python 3.10.x 或 3.11\n- **CUDA 版本**: CUDA 11.8 或 CUDA 12.1\n- **其他依赖**:\n  - Microsoft Build Tools 2019 (Windows 用户需安装 C++ 构建工具)\n  - FFmpeg\n\n### 前置检查\n请确保已安装 Git 和对应的 CUDA 驱动。Windows 用户若选择手动安装，需提前配置好 C++ 编译环境。\n\n## 安装步骤\n\n您可以选择**便携版**（推荐 Windows 用户）或**手动安装**。\n\n### 方法一：便携版安装（仅限 Windows，最简单）\n无需配置复杂的环境依赖，解压即用。\n\n1. 下载便携版压缩包：\n   [点击下载 xtts-webui-v1_0-portable.zip](https:\u002F\u002Fhuggingface.co\u002Fdaswer123\u002Fxtts_portable\u002Fresolve\u002Fmain\u002Fxtts-webui-v1_0-portable.zip?download=true)\n2. 解压下载的 ZIP 文件到任意目录。\n3. 双击运行 `start_xtts_webui.bat` 启动服务。\n4. 在浏览器中访问控制台显示的本地地址（通常为 `http:\u002F\u002F127.0.0.1:8010`）。\n\n> **注意**：当前版本的“训练 (Train)\"标签页在便携版中不可用。如需微调模型，请使用独立的 [xtts-finetune-webui](https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-finetune-webui)。\n\n### 方法二：手动安装（通用）\n\n#### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\ncd xtts-webui\n```\n\n#### 2. 创建并激活虚拟环境\n```bash\npython -m venv venv\n```\n- **Windows**:\n  ```bash\n  venv\\scripts\\activate\n  ```\n- **Linux**:\n  ```bash\n  source venv\u002Fbin\u002Factivate\n  ```\n\n#### 3. 安装 PyTorch\n根据您的需求选择 CUDA 版本（以下为 CUDA 11.8 示例，国内用户可使用清华源加速）：\n```bash\npip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n*(可选：使用清华源加速)*\n```bash\npip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n#### 4. 安装项目依赖\n```bash\npip install -r requirements.txt\n```\n*(建议添加国内镜像源以加快下载速度)*\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\n### 启动应用\n确保虚拟环境已激活，运行以下命令启动 WebUI：\n\n```bash\npython app.py\n```\n\n启动成功后，终端会显示访问地址，默认通常为 `http:\u002F\u002F127.0.0.1:8010`。在浏览器中打开该地址即可使用。\n\n### 常用启动参数\n您可以根据需要添加参数自定义启动行为：\n\n| 参数 | 说明 | 示例 |\n| :--- | :--- | :--- |\n| `-p`, `--port` | 指定端口号 | `python app.py -p 8080` |\n| `--device` | 指定运行设备 (cpu\u002Fcuda) | `python app.py --device cuda` |\n| `--lowvram` | 低显存模式（将模型切换至内存） | `python app.py --lowvram` |\n| `--rvc` | 启用 RVC 后处理（需预先在 `voice2voice\u002Frvc` 文件夹放置模型） | `python app.py --rvc` |\n| `--share` | 生成公网可访问链接 | `python app.py --share` |\n\n### 简单操作流程\n1. **文本转语音 (TTS)**: 在界面输入文本，选择参考音频（Speaker Sample），点击生成。\n2. **批量处理**: 上传多个文件或文本列表进行批量配音。\n3. **语音转换**: 上传音频文件，利用 XTTS 进行变声或翻译，并可勾选启用 RVC 进一步优化音色。\n4. **模型管理**: 将训练好的模型文件夹放入 `models` 目录，即可在界面中选择加载。\n\n> **提示**: 生成的最终结果会自动复制到 `output\u002Fready` 文件夹，方便直接调用。","一家小型游戏本地化团队急需将一款独立游戏的英文剧情对话快速转化为中文配音，且要求保留原角色的独特声线以维持沉浸感。\n\n### 没有 xtts-webui 时\n- **技术门槛极高**：团队成员需手动配置 Python 环境、安装 CUDA 驱动及编译 C++ 依赖库，往往因环境冲突耗费数天仍无法运行 XTTS 模型。\n- **工作流割裂严重**：语音克隆、文本翻译和音频增强需分别使用不同脚本或软件，人工拼接音频导致效率低下且容易出错。\n- **批量处理能力缺失**：面对游戏中数百句台词，只能逐条生成音频，无法实现自动化批处理，项目交付周期被迫大幅延长。\n- **音色还原度不稳定**：缺乏集成的后处理工具（如 RVC 或 Resemble Enhance），生成的语音机械感强，难以达到商业发布标准。\n\n### 使用 xtts-webui 后\n- **开箱即用部署**：直接下载 Windows 便携版压缩包，无需配置复杂环境，拥有 6GB 显存的 Nvidia 显卡即可一键启动服务。\n- **全流程一体化**：在同一个网页界面中完成“上传参考音→输入译文→自动翻译并克隆音色→音频增强”的闭环操作，极大简化了工作流。\n- **高效批量合成**：利用内置的批处理功能，一次性导入所有剧本文件，系统自动按顺序生成带角色情感的配音，效率提升十倍以上。\n- **音质显著优化**：自动调用集成的神经网络的音频修复工具，有效去除机械噪点，使最终输出的中文配音自然流畅且高度还原原角色特征。\n\nxtts-webui 通过极简的交互设计和强大的集成能力，让中小团队也能零成本实现电影级的高质量多语言语音本地化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdaswer123_xtts-webui_32b8580c.png","daswer123","Danil Boldyrev","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdaswer123_b6976741.jpg","Backend dev.\r\nAI enjoyer.",null,"daswerq123@gmail.com","https:\u002F\u002Ft.me\u002Fdaswer123","https:\u002F\u002Fgithub.com\u002Fdaswer123",[85,89,93,96],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99.7,{"name":90,"color":91,"percentage":92},"Shell","#89e051",0.1,{"name":94,"color":95,"percentage":92},"Batchfile","#C1F12E",{"name":97,"color":98,"percentage":92},"CSS","#663399",878,167,"2026-04-02T23:20:02","MIT","Windows, Linux","必需（便携式版本明确要求）。需要 NVIDIA 显卡，显存至少 6GB。支持 CUDA 11.8 或 CUDA 12.1。提供 --lowvram 参数以优化低显存环境。","未说明",{"notes":107,"python":108,"dependencies":109},"1. Windows 用户若使用便携版无需手动安装依赖，仅需 NVIDIA 显卡和 6GB 显存。\n2. 手动安装时需确保已安装 Microsoft Build Tools 2019 及 C++ 包。\n3. 训练功能在当前界面已损坏，需使用独立的 xtts-finetune-webui 项目进行模型微调。\n4. 支持集成 RVC、OpenVoice 和 Resemble Enhance 等后处理工具。\n5. DeepSpeed 加速仅在 Windows 的 Python 3.10\u002F3.11 环境下可用。","3.10.x 或 3.11",[110,111,112,113,114],"torch==2.1.1+cu118","torchaudio==2.1.1+cu118","faster-whisper==0.10.0","Microsoft Build Tools 2019 (含 C++ 组件)","ffmpeg",[13,55],[117,118,119,120,121],"cocqui","finetuning","tts","xtts","xttsv2","2026-03-27T02:49:30.150509","2026-04-06T05:32:19.108729",[125,130,135,139,143,147,152],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},14522,"在 Windows 上运行时遇到\"Unsupported Python version\"错误或类型错误（TypeError: unsupported operand type(s) for |）怎么办？","该错误通常是因为 Python 版本不兼容（项目需要 Python 3.10.x，但检测到的是 3.9）或语法兼容性问题。请确保安装并使用 Python 3.10 版本。如果是类型提示语法错误（如 `Path | None`），这通常是 Python 3.9 不支持的写法，升级到 Python 3.10 即可解决。同时，DeepSpeed 在 Windows 上仅支持特定的 Python 和 CUDA 组合（如 Python 3.10 + CUDA 11.8）。","https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fissues\u002F9",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},14523,"微调数据集创建时出现\"Requested float16 compute type, but the target device or backend do not support efficient float16 computation\"错误如何解决？","这通常是因为 PyTorch 未正确链接 CUDA 或缺少 GPU 支持。请按以下步骤操作：\n1. 在项目文件夹打开命令行。\n2. 激活虚拟环境：运行 `venv\\scripts\\activate`（Windows）或 `source venv\u002Fscripts\u002Factivate`（Linux）。\n3. 检查 Torch 版本：输入 `pip show torch`。\n4. 如果版本号中没有 `+cu118` 前缀，请运行以下命令重新安装支持 CUDA 的版本：\n`pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118`\n安装完成后重试创建数据集。","https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fissues\u002F7",{"id":136,"question_zh":137,"answer_zh":138,"source_url":134},14524,"训练过程中报错或找不到模型文件（如 speakers_xtts.pth）怎么办？","尝试删除 `models` 文件夹下的 `v2.0.2` 文件夹，然后重新开始训练。如果错误重复出现，请手动下载基础模型文件 [speakers_xtts.pth](https:\u002F\u002Fhuggingface.co\u002Fcoqui\u002FXTTS-v2\u002Fresolve\u002Fmain\u002Fspeakers_xtts.pth?download=true)，并将其放入基础模型文件夹（即 `v2.0.2` 目录）中，再次运行训练。",{"id":140,"question_zh":141,"answer_zh":142,"source_url":129},14525,"如何在 xtts-api-server 中使用自定义微调后的模型？","要在 API 服务器中使用自定义模型，请执行以下步骤：\n1. 在项目的 `models` 文件夹下创建一个新文件夹，命名为你想要的自定义模型名称。\n2. 将你的自定义模型文件放入该文件夹中。\n3. 启动服务器时，使用 `-v` 标志指定模型名称，例如：`-v \"Model name\"`。\n此外，现在也可以在 `text` 字段中直接传递文本文件的路径，系统会自动读取。",{"id":144,"question_zh":145,"answer_zh":146,"source_url":129},14526,"如何指定使用特定的显卡（GPU）进行推理？","可以通过启动参数 `-d` 来指定具体的显卡。根据系统检测到的显卡顺序，使用 `cuda:0` 代表第一张卡，`cuda:1` 代表第二张卡，以此类推。例如：`-d cuda:0`。",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},14527,"开启“提高输出质量\u002F降低噪音”选项后生成失败或报错怎么办？","如果在使用增强功能（如 resemblance\u002Fdenoiser）时遇到异常，首先检查是否已正确安装所有依赖。虽然音频文件可能已成功生成并保存在输出文件夹中（即使 WebUI 界面未显示），但如果遇到崩溃，请尝试更新到最新版本，因为开发者计划添加状态栏以显示更详细的进度和错误信息。如果问题依旧，请检查控制台输出的具体 Traceback 信息，通常与显存不足或特定音频格式处理有关。","https:\u002F\u002Fgithub.com\u002Fdaswer123\u002Fxtts-webui\u002Fissues\u002F10",{"id":153,"question_zh":154,"answer_zh":155,"source_url":151},14528,"Deepspeed 安装报错提示缺少 CUDA_HOME 环境变量怎么办？","如果在安装或使用 Deepspeed 时提示找不到 `CUDA_HOME` 路径，你需要手动设置该环境变量。请确保已安装 CUDA Toolkit（推荐版本需与 PyTorch 匹配，如 11.8），然后将 CUDA 的安装路径添加到系统环境变量中。变量名设为 `CUDA_HOME`，值为 CUDA 的安装目录（例如 `C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v11.8`）。设置完成后重启终端或 IDE 再试。",[157],{"id":158,"version":159,"summary_zh":160,"released_at":161},81434,"deepspeed","适用于 Windows 的 DeepSpeed 11.2\n\n按照 https:\u002F\u002Fgithub.com\u002Foobabooga\u002Ftext-generation-webui\u002Fissues\u002F4734#issuecomment-1843984142 中的说明，分别使用以下配置进行了构建：\n- Python 3.10.x 配合 CUDA 11.8 和 CUDA 12.1\n- Python 3.11 配合 CUDA 12.1\n\n对于 Python 3.11 的预编译 wheel 文件，感谢 [S95Sedan](https:\u002F\u002Fgithub.com\u002FS95Sedan\u002FDeepspeed-Windows)。","2023-12-15T23:15:13"]