[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-lenML--Speech-AI-Forge":3,"tool-lenML--Speech-AI-Forge":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156033,2,"2026-04-14T23:32:00",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":76,"owner_url":78,"languages":79,"stars":117,"forks":118,"last_commit_at":119,"license":120,"difficulty_score":32,"env_os":121,"env_gpu":122,"env_ram":123,"env_deps":124,"category_tags":138,"github_topics":140,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":159,"updated_at":160,"faqs":161,"releases":195},7640,"lenML\u002FSpeech-AI-Forge","Speech-AI-Forge","🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.","Speech-AI-Forge 是一个功能强大的开源语音合成（TTS）集成平台，旨在为用户提供一站式的文本转语音解决方案。它不仅仅是一个单一的模型，而是一个围绕多种主流 TTS 模型构建的生态框架，内置了 API 服务器和基于 Gradio 的友好网页界面，让用户无需编写复杂代码即可轻松体验前沿语音技术。\n\n该项目有效解决了当前语音合成领域模型分散、部署门槛高以及缺乏统一操作界面的痛点。通过整合包、Colab 云端运行或本地容器化部署等多种方式，用户可以在几分钟内搭建起自己的语音生成服务。无论是需要批量处理长文本的内容创作者，还是希望快速验证不同模型效果的开发者，都能从中受益。\n\nSpeech-AI-Forge 特别适合 AI 研究者、应用开发者以及对语音技术感兴趣的普通用户。其核心亮点在于广泛的模型兼容性，支持包括 ChatTTS、CosyVoice、F5-TTS、FishSpeech、OpenVoice 等在内的十余种顶尖开源模型，并持续更新。此外，它还提供了丰富的进阶功能，如自定义音色克隆、多风格控制、超长文本自动分割、语速音调调节以及人声增强等，能够满足从基础配音到高质量语音创","Speech-AI-Forge 是一个功能强大的开源语音合成（TTS）集成平台，旨在为用户提供一站式的文本转语音解决方案。它不仅仅是一个单一的模型，而是一个围绕多种主流 TTS 模型构建的生态框架，内置了 API 服务器和基于 Gradio 的友好网页界面，让用户无需编写复杂代码即可轻松体验前沿语音技术。\n\n该项目有效解决了当前语音合成领域模型分散、部署门槛高以及缺乏统一操作界面的痛点。通过整合包、Colab 云端运行或本地容器化部署等多种方式，用户可以在几分钟内搭建起自己的语音生成服务。无论是需要批量处理长文本的内容创作者，还是希望快速验证不同模型效果的开发者，都能从中受益。\n\nSpeech-AI-Forge 特别适合 AI 研究者、应用开发者以及对语音技术感兴趣的普通用户。其核心亮点在于广泛的模型兼容性，支持包括 ChatTTS、CosyVoice、F5-TTS、FishSpeech、OpenVoice 等在内的十余种顶尖开源模型，并持续更新。此外，它还提供了丰富的进阶功能，如自定义音色克隆、多风格控制、超长文本自动分割、语速音调调节以及人声增强等，能够满足从基础配音到高质量语音创作的各种需求。","[![Telegram](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-7289DA?style=for-the-badge&logo=telegram&logoColor=white)](https:\u002F\u002Ft.me\u002F+Nqh6IFJmvHQ1NzQ9) \n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-5865F2?style=for-the-badge&logo=discord&logoColor=white)](https:\u002F\u002Fdiscord.gg\u002F9XnXUhAy3t)\n\n\n# 🍦 Speech-AI-Forge\n\nSpeech-AI-Forge 是一个围绕 TTS 生成模型开发的项目，实现了 API Server 和 基于 Gradio 的 WebUI。\n\n![banner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FlenML_Speech-AI-Forge_readme_fe0e68c7b63e.png)\n\n你可以通过以下几种方式体验和部署 Speech-AI-Forge：\n\n| -            | 描述                     | 链接                                                                                                                                                               |\n| ------------ | ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| **整合包** | Windows整合包解压即用         | [Releases](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Freleases) |\n| **Colab体验** | 点击按钮，一键启动 Colab | [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FlenML\u002FSpeech-AI-Forge\u002Fblob\u002Fmain\u002Fcolab.ipynb) |\n| **本地部署** | 查看环境准备部分         | [本地部署](#InstallationandRunning)                                                                                                                                |\n| **容器部署** | 查看 docker 部分         | [Docker](#docker)                                                                                                                                                  |\n\n## Breaking change logs\n\n- 260402: Support Cloud TTS (minimax tts) [#293](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fpull\u002F293)\n- 260202: Support CosyVoice3 [#264](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F264)\n- 260129: Support Qwen3-TTS [#282](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F282)\n- 250912: Support Index-TTS-2 [#265](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F265)\n- 250702: Support Index-TTS-1.5 [#250](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F250)\n- 250522: Support GptSoVits [#198](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F198)\n- 250518: Support SenseVoice ASR [#122](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F122)\n- 250508: Support Spark-TTS [#223](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F223)\n- 250507: Support F5TTS-TTS-v1 model [#231](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F231)\n- 250505: Support Index-TTS [#229](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F229)\n- 241111: Add `v2\u002Ftts` API [#187](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F187)\n- 241109: Support fishspeech [#191](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F191)\n- 241015: Support F5TTS v0.6.2 [#176](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F176)\n- 241009: Support FireRedTTS [#165](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F165)\n- 240813: Support OpenVoice [#100](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F100)\n- 240801: Add ASR API [#92](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F92)\n- 240723: Support CosyVoice [#90](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F90)\n\n## Installation and Running\n\n首先，确保 [相关依赖](.\u002Fdocs\u002Fdependencies.md) 已经正确安装，并查看 [模型下载](#模型下载) 下载所需模型\n\n启动：\n\n```\npython webui.py\n```\n\u003Cdetails>\n\u003Csummary>WebUI 功能\u003C\u002Fsummary>\n\n[点我看详细图文介绍](.\u002Fdocs\u002Fwebui_features.md)\n\n- **TTS (文本转语音)**: 提供多种强大的 TTS 功能\n\n  - **音色切换 (Speaker Switch)**: 可选择不同音色\n    - **内置音色**: 提供多个内置音色，包括 `27 ChatTTS` \u002F `7 CosyVoice` 音色 + `1 参考音色`\n    - **自定义音色上传**: 支持上传自定义音色文件并进行实时推理\n    - **参考音色**: 支持上传参考音频\u002F文本，直接基于参考音频进行 TTS 推理\n  - **风格控制 (Style)**: 内置多种风格控制选项，调整语音风格\n  - **长文本推理 (Long Text)**: 支持超长文本的推理，自动分割文本\n    - **Batch Size**: 支持设置 `Batch size`，提升支持批量推理模型的长文本推理速度\n  - **Refiner**: 支持 `ChatTTS` 原生文本 `refiner`，支持无限长文本处理\n  - **分割器设置 (Splitter)**: 调整分割器配置，控制分割结束符（`eos`）和分割阈值\n  - **调节器 (Adjuster)**: 支持调整 `速度\u002F音调\u002F音量`，并增加 `响度均衡` 功能，优化音频输出\n  - **人声增强 (Voice Enhancer)**: 使用 `Enhancer` 模型增强 TTS 输出，提高语音质量\n  - **生成历史 (Generation History)**: 保存最近三次生成结果，便于对比和选择\n  - **多模型支持 (Multi-model Support)**: 支持多种 TTS 模型推理，包括 `ChatTTS` \u002F `CosyVoice` \u002F `FishSpeech` \u002F `GPT-SoVITS` \u002F `F5-TTS` 等\n\n- **SSML (语音合成标记语言)**: 提供高级 TTS 合成控制工具\n\n  - **分割器 (Splitter)**: 精细控制长文本的分割结果\n  - **Podcast**: 帮助创建 `长文本`、`多角色` 的音频，适合博客或剧本式的语音合成\n  - **From Subtitle**: 从字幕文件生成 SSML 脚本，方便一键生成语音\n  - **脚本编辑器 (Script Editor)**: 新增 SSML 脚本编辑器，支持从分割器（Podcast、来自字幕）导出并编辑 SSML 脚本，进一步优化语音生成效果\n\n- **音色管理 (Voice Management)**:\n\n  - **音色构建器 (Builder)**: 创建自定义音色，可从 ChatTTS seed 创建音色，或使用参考音频生成音色\n  - **试音功能 (Test Voice)**: 上传音色文件，进行简单的试音和效果评估\n  - **ChatTTS 调试工具**: 专门针对 `ChatTTS` 音色的调试工具\n    - **音色抽卡 (Random Seed)**: 使用随机种子抽取不同的音色，生成独特的语音效果\n    - **音色融合 (Blend)**: 融合不同种子创建的音色，获得新的语音效果\n  - **音色 Hub**: 从音色库中选择并下载音色到本地，访问音色仓库 [Speech-AI-Forge-spks](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge-spks) 获取更多音色资源\n\n- **ASR (自动语音识别)**:\n\n  - **ASR**: 使用 Whisper\u002FSenseVoice 等模型进行高质量的语音转文本（ASR）\n  - **Force Aligment**: 使用 Whisper 模型可以进行【文稿匹配】提高识别准确性\n\n- **工具 (Tools)**:\n  - **后处理工具 (Post Process)**: 提供音频剪辑、调整和增强等功能，优化生成的语音质量\n\n\u003C\u002Fdetails>\n\n### `launch.py`: API Server\n\n某些情况，你并不需要 webui 或者需要更高的 api 吞吐，那么可以使用这个脚本启动单纯的 api 服务。\n\n启动：\n\n```\npython launch.py\n```\n\n启动之后开启 `http:\u002F\u002Flocalhost:7870\u002Fdocs` 可以查看开启了哪些 api 端点\n\n更多帮助信息:\n\n- 通过 `python launch.py -h` 查看脚本参数\n- 查看 [API 文档](.\u002Fdocs\u002Fapi.md)\n\n## Docker\n\n### 手动 build\n\n- webui: `docker-compose -f .\u002Fdocker-compose.webui.yml up -d`\n- api: `docker-compose -f .\u002Fdocker-compose.api.yml up -d`\n\n环境变量配置\n\n- webui: [.env.webui](.\u002F.env.webui)\n- api: [.env.api](.\u002F.env.api)\n\n## 模型支持\n\n| 模型类别        | 模型名称                                                           | 支持多语言          | 实现情况    |\n|-----------------|--------------------------------------------------------------------|---------------------|-------------|\n| **TTS**         |                        |               |            |\n|                 | [Index-TTS](https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts)                | en, zh              | ✅ (v1\u002Fv1.5) |\n|                 | [Qwen3-TTS](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS)                   | en, zh              | ✅ |\n|                 | [FishSpeech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)             | en, zh, jp, ko      | ✅ (1.4)     |\n|                 | [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)              | en, zh, jp, yue, ko | ✅ (v2\u002Fv3)      |\n|                 | [FireRedTTS](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS)            | en, zh              | ✅           |\n|                 | [F5-TTS](https:\u002F\u002Fgithub.com\u002FSWivid\u002FF5-TTS)                         | en, zh              | ✅ (v0.6\u002Fv1) |\n|                 | [Spark-TTS](https:\u002F\u002Fgithub.com\u002FSparkAudio\u002FSpark-TTS)               | en, zh              | ✅           |\n|                 | [GPT-SoVITS](https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS\u002Ftree\u002Fmain)     | en, zh, ja, ko, yue | ✅           |\n|          | [ChatTTS](https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS)                       | en, zh              | ✅           |\n| **Cloud TTS**   |                        |                   |            |\n|                 | [MiniMax Cloud TTS](https:\u002F\u002Fplatform.minimaxi.com\u002F)                | en, zh, jp, ko + more | ✅ (speech-2.8-hd\u002Fturbo) |\n| **ASR**         |                        |                   |            |\n|          | [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)                       | ✅                  | ✅           |\n|                 | [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice)            | ✅                  | ✅           |\n| **Voice Clone** | [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)               | —                   | ✅           |\n| **Enhancer**    | [ResembleEnhance](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fresemble-enhance) | —                   | ✅           |\n\n## 模型下载\n\n```bash\npython -m scripts.download_models --source=modelscope --models=\"model1,model2,...\"\n```\n\n> 🔍 **说明**：\n> - 支持 `--source=huggingface` 或 `--source=modelscope` 或 `--source=auto` （自动根据网络环境选择hf或者ms）\n> - 模型 ID 大小写不敏感，可忽略 `-`, `_`, `\u002F` 等符号\n> - 例如：`Qwen3-TTS-12Hz-0.6B-Base` 可写作 `qwen3tts12hz06bbase` 或 `qwen3-tts-0.6b-base`\n\n\u003Cdetails>\n\u003Csummary>📌 模型ID列表\u003C\u002Fsummary>\n\n| 模型类别       | 内部模型 ID（可直接用于 `--models`） |\n|----------------|----------------------------------------|\n| **TTS**        | `ChatTTS`                              |\n|                | `CosyVoice2-0.5B`                      |\n|                | `CosyVoice_300M_Instruct`              |\n|                | `Fun-CosyVoice3-0.5B-2512`              |\n|                | `F5-TTS-V1`                            |\n|                | `FireRedTTS`                           |\n|                | `fish-speech-1_4`                      |\n|                | `fish-speech-1.2-sft`                  |\n|                | `Index-TTS-1.5`                        |\n|                | `Index-TTS`                            |\n|                | `Index-TTS-2`                          |\n|                | `Qwen3-TTS-12Hz-0.6B-Base`             |\n|                | `Qwen3-TTS-12Hz-0.6B-CustomVoice`      |\n|                | `Qwen3-TTS-12Hz-1.7B-Base`             |\n|                | `Qwen3-TTS-12Hz-1.7B-CustomVoice`      |\n|                | `Qwen3-TTS-12Hz-1.7B-VoiceDesign`      |\n|                | `Spark-TTS-0.5B`                       |\n|                | `gpt_sovits_v4`                        |\n| **ASR**        | `faster-whisper-large-v3`              |\n|                | `faster-whisper-large-v3-turbo-ct2`    |\n|                | `SenseVoiceSmall`                      |\n| **CV \u002F Voice Clone** | `OpenVoiceV2`                     |\n| **Enhancer**   | `resemble-enhance`                     |\n| **依赖模型（Index-TTS-2 所需）** | `amphion\u002FMaskGCT`       |\n|                                 | `nvidia\u002Fbigvgan_v2_22khz_80band_256x` |\n|                                 | `funasr\u002Fcampplus`                      |\n|                                 | `facebook\u002Fw2v-bert-2.0`               |\n|                                 | `vocos-mel-24khz`                      |\n|    (sense_voice依赖)            | `fsmn-vad`                             |\n\u003C\u002Fdetails>\n\n## 自动下载\n\n配置环境变量 `AUTO_DOWNLOAD` 或者运行参数 `--auto_download`\n\n- `auto_download=False`: 关闭自动下载\n- `auto_download=*`: 当使用到的时候自动下载匹配的模型 `\"*\"` 表示通配所有模型\n- `auto_download=qwen3*`: 自动下载 `\"qwen3\"` 开头的模型\n\n## FAQ\n\n[Goto Discussion Page](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fdiscussions\u002F242)\n\n# Documents\n\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002FlenML\u002FSpeech-AI-Forge)\n\n[Learn About Documents](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F240)\n\n# Contributing\n\nTo contribute, clone the repository, make your changes, commit and push to your clone, and submit a pull request.\n\n## format code\n\n```\nisort --profile black\n```\n\n# References\n\n- ChatTTS: https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS\n- PaddleSpeech: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSpeech\n- resemble-enhance: https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fresemble-enhance\n- OpenVoice: https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice\n- FishSpeech: https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech\n- SenseVoice: https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice\n- CosyVoice: https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice\n- FireRedTTS: https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS\n- F5-TTS: https:\u002F\u002Fgithub.com\u002FSWivid\u002FF5-TTS\n- Index-TTS: https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts\n- Spark-TTS: https:\u002F\u002Fgithub.com\u002FSparkAudio\u002FSpark-TTS\n- GPT-SoVITS: https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS\n- Qwen3-TTS: https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\n\n- Whisper: https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\n\n- ChatTTS 默认说话人: https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS\u002Fissues\u002F238\n","[![Telegram](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-7289DA?style=for-the-badge&logo=telegram&logoColor=white)](https:\u002F\u002Ft.me\u002F+Nqh6IFJmvHQ1NzQ9) \n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-5865F2?style=for-the-badge&logo=discord&logoColor=white)](https:\u002F\u002Fdiscord.gg\u002F9XnXUhAy3t)\n\n\n# 🍦 Speech-AI-Forge\n\nSpeech-AI-Forge 是一个围绕 TTS 生成模型开发的项目，实现了 API Server 和 基于 Gradio 的 WebUI。\n\n![banner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FlenML_Speech-AI-Forge_readme_fe0e68c7b63e.png)\n\n你可以通过以下几种方式体验和部署 Speech-AI-Forge：\n\n| -            | 描述                     | 链接                                                                                                                                                               |\n| ------------ | ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| **整合包** | Windows整合包解压即用         | [Releases](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Freleases) |\n| **Colab体验** | 点击按钮，一键启动 Colab | [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FlenML\u002FSpeech-AI-Forge\u002Fblob\u002Fmain\u002Fcolab.ipynb) |\n| **本地部署** | 查看环境准备部分         | [本地部署](#InstallationandRunning)                                                                                                                                |\n| **容器部署** | 查看 docker 部分         | [Docker](#docker)                                                                                                                                                  |\n\n## 重大变更日志\n\n- 260402: 支持云端TTS（minimax tts）[#293](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fpull\u002F293)\n- 260202: 支持 CosyVoice3 [#264](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F264)\n- 260129: 支持 Qwen3-TTS [#282](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F282)\n- 250912: 支持 Index-TTS-2 [#265](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F265)\n- 250702: 支持 Index-TTS-1.5 [#250](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F250)\n- 250522: 支持 GptSoVits [#198](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F198)\n- 250518: 支持 SenseVoice ASR [#122](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F122)\n- 250508: 支持 Spark-TTS [#223](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F223)\n- 250507: 支持 F5TTS-TTS-v1 模型 [#231](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F231)\n- 250505: 支持 Index-TTS [#229](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F229)\n- 241111: 添加 `v2\u002Ftts` API [#187](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F187)\n- 241109: 支持 fishspeech [#191](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F191)\n- 241015: 支持 F5TTS v0.6.2 [#176](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F176)\n- 241009: 支持 FireRedTTS [#165](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F165)\n- 240813: 支持 OpenVoice [#100](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F100)\n- 240801: 添加 ASR API [#92](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F92)\n- 240723: 支持 CosyVoice [#90](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F90)\n\n## 安装与运行\n\n首先，确保 [相关依赖](.\u002Fdocs\u002Fdependencies.md) 已经正确安装，并查看 [模型下载](#模型下载) 下载所需模型\n\n启动：\n\n```\npython webui.py\n```\n\u003Cdetails>\n\u003Csummary>WebUI 功能\u003C\u002Fsummary>\n\n[点我看详细图文介绍](.\u002Fdocs\u002Fwebui_features.md)\n\n- **TTS (文本转语音)**: 提供多种强大的 TTS 功能\n\n  - **音色切换 (Speaker Switch)**: 可选择不同音色\n    - **内置音色**: 提供多个内置音色，包括 `27 ChatTTS` \u002F `7 CosyVoice` 音色 + `1 参考音色`\n    - **自定义音色上传**: 支持上传自定义音色文件并进行实时推理\n    - **参考音色**: 支持上传参考音频\u002F文本，直接基于参考音频进行 TTS 推理\n  - **风格控制 (Style)**: 内置多种风格控制选项，调整语音风格\n  - **长文本推理 (Long Text)**: 支持超长文本的推理，自动分割文本\n    - **Batch Size**: 支持设置 `Batch size`，提升支持批量推理模型的长文本推理速度\n  - **Refiner**: 支持 `ChatTTS` 原生文本 `refiner`，支持无限长文本处理\n  - **分割器设置 (Splitter)**: 调整分割器配置，控制分割结束符（`eos`）和分割阈值\n  - **调节器 (Adjuster)**: 支持调整 `速度\u002F音调\u002F音量`，并增加 `响度均衡` 功能，优化音频输出\n  - **人声增强 (Voice Enhancer)**: 使用 `Enhancer` 模型增强 TTS 输出，提高语音质量\n  - **生成历史 (Generation History)**: 保存最近三次生成结果，便于对比和选择\n  - **多模型支持 (Multi-model Support)**: 支持多种 TTS 模型推理，包括 `ChatTTS` \u002F `CosyVoice` \u002F `FishSpeech` \u002F `GPT-SoVITS` \u002F `F5-TTS` 等\n\n- **SSML (语音合成标记语言)**: 提供高级 TTS 合成控制工具\n\n  - **分割器 (Splitter)**: 精细控制长文本的分割结果\n  - **Podcast**: 帮助创建 `长文本`、`多角色` 的音频，适合博客或剧本式的语音合成\n  - **From Subtitle**: 从字幕文件生成 SSML 脚本，方便一键生成语音\n  - **脚本编辑器 (Script Editor)**: 新增 SSML 脚本编辑器，支持从分割器（Podcast、来自字幕）导出并编辑 SSML 脚本，进一步优化语音生成效果\n\n- **音色管理 (Voice Management)**:\n\n  - **音色构建器 (Builder)**: 创建自定义音色，可从 ChatTTS seed 创建音色，或使用参考音频生成音色\n  - **试音功能 (Test Voice)**: 上传音色文件，进行简单的试音和效果评估\n  - **ChatTTS 调试工具**: 专门针对 `ChatTTS` 音色的调试工具\n    - **音色抽卡 (Random Seed)**: 使用随机种子抽取不同的音色，生成独特的语音效果\n    - **音色融合 (Blend)**: 融合不同种子创建的音色，获得新的语音效果\n  - **音色 Hub**: 从音色库中选择并下载音色到本地，访问音色仓库 [Speech-AI-Forge-spks](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge-spks) 获取更多音色资源\n\n- **ASR (自动语音识别)**:\n\n  - **ASR**: 使用 Whisper\u002FSenseVoice 等模型进行高质量的语音转文本（ASR）\n  - **Force Aligment**: 使用 Whisper 模型可以进行【文稿匹配】提高识别准确性\n\n- **工具 (Tools)**:\n  - **后处理工具 (Post Process)**: 提供音频剪辑、调整和增强等功能，优化生成的语音质量\n\n\u003C\u002Fdetails>\n\n### `launch.py`: API Server\n\n某些情况，你并不需要 webui 或者需要更高的 api 吞吐，那么可以使用这个脚本启动单纯的 api 服务。\n\n启动：\n\n```\npython launch.py\n```\n\n启动之后开启 `http:\u002F\u002Flocalhost:7870\u002Fdocs` 可以查看开启了哪些 api 端点\n\n更多帮助信息:\n\n- 通过 `python launch.py -h` 查看脚本参数\n- 查看 [API 文档](.\u002Fdocs\u002Fapi.md)\n\n## Docker\n\n### 手动 build\n\n- webui: `docker-compose -f .\u002Fdocker-compose.webui.yml up -d`\n- api: `docker-compose -f .\u002Fdocker-compose.api.yml up -d`\n\n环境变量配置\n\n- webui: [.env.webui](.\u002F.env.webui)\n- api: [.env.api](.\u002F.env.api)\n\n## 模型支持\n\n| 模型类别        | 模型名称                                                           | 支持多语言          | 实现情况    |\n|-----------------|--------------------------------------------------------------------|---------------------|-------------|\n| **TTS**         |                        |               |            |\n|                 | [Index-TTS](https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts)                | en, zh              | ✅ (v1\u002Fv1.5) |\n|                 | [Qwen3-TTS](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS)                   | en, zh              | ✅ |\n|                 | [FishSpeech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)             | en, zh, jp, ko      | ✅ (1.4)     |\n|                 | [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)              | en, zh, jp, yue, ko | ✅ (v2\u002Fv3)      |\n|                 | [FireRedTTS](https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS)            | en, zh              | ✅           |\n|                 | [F5-TTS](https:\u002F\u002Fgithub.com\u002FSWivid\u002FF5-TTS)                         | en, zh              | ✅ (v0.6\u002Fv1) |\n|                 | [Spark-TTS](https:\u002F\u002Fgithub.com\u002FSparkAudio\u002FSpark-TTS)               | en, zh              | ✅           |\n|                 | [GPT-SoVITS](https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS\u002Ftree\u002Fmain)     | en, zh, ja, ko, yue | ✅           |\n|          | [ChatTTS](https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS)                       | en, zh              | ✅           |\n| **Cloud TTS**   |                        |                   |            |\n|                 | [MiniMax Cloud TTS](https:\u002F\u002Fplatform.minimaxi.com\u002F)                | en, zh, jp, ko + more | ✅ (speech-2.8-hd\u002Fturbo) |\n| **ASR**         |                        |                   |            |\n|          | [Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)                       | ✅                  | ✅           |\n|                 | [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice)            | ✅                  | ✅           |\n| **Voice Clone** | [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)               | —                   | ✅           |\n| **Enhancer**    | [ResembleEnhance](https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fresemble-enhance) | —                   | ✅           |\n\n## 模型下载\n\n```bash\npython -m scripts.download_models --source=modelscope --models=\"model1,model2,...\"\n```\n\n> 🔍 **说明**：\n> - 支持 `--source=huggingface` 或 `--source=modelscope` 或 `--source=auto` （自动根据网络环境选择hf或者ms）\n> - 模型 ID 大小写不敏感，可忽略 `-`, `_`, `\u002F` 等符号\n> - 例如：`Qwen3-TTS-12Hz-0.6B-Base` 可写作 `qwen3tts12hz06bbase` 或 `qwen3-tts-0.6b-base`\n\n\u003Cdetails>\n\u003Csummary>📌 模型ID列表\u003C\u002Fsummary>\n\n| 模型类别       | 内部模型 ID（可直接用于 `--models`） |\n|----------------|----------------------------------------|\n| **TTS**        | `ChatTTS`                              |\n|                | `CosyVoice2-0.5B`                      |\n|                | `CosyVoice_300M_Instruct`              |\n|                | `Fun-CosyVoice3-0.5B-2512`              |\n|                | `F5-TTS-V1`                            |\n|                | `FireRedTTS`                           |\n|                | `fish-speech-1_4`                      |\n|                | `fish-speech-1.2-sft`                  |\n|                | `Index-TTS-1.5`                        |\n|                | `Index-TTS`                            |\n|                | `Index-TTS-2`                          |\n|                | `Qwen3-TTS-12Hz-0.6B-Base`             |\n|                | `Qwen3-TTS-12Hz-0.6B-CustomVoice`      |\n|                | `Qwen3-TTS-12Hz-1.7B-Base`             |\n|                | `Qwen3-TTS-12Hz-1.7B-CustomVoice`      |\n|                | `Qwen3-TTS-12Hz-1.7B-VoiceDesign`      |\n|                | `Spark-TTS-0.5B`                       |\n|                | `gpt_sovits_v4`                        |\n| **ASR**        | `faster-whisper-large-v3`              |\n|                | `faster-whisper-large-v3-turbo-ct2`    |\n|                | `SenseVoiceSmall`                      |\n| **CV \u002F Voice Clone** | `OpenVoiceV2`                     |\n| **Enhancer**   | `resemble-enhance`                     |\n| **依赖模型（Index-TTS-2 所需）** | `amphion\u002FMaskGCT`       |\n|                                 | `nvidia\u002Fbigvgan_v2_22khz_80band_256x` |\n|                                 | `funasr\u002Fcampplus`                      |\n|                                 | `facebook\u002Fw2v-bert-2.0`               |\n|                                 | `vocos-mel-24khz`                      |\n|    (sense_voice依赖)            | `fsmn-vad`                             |\n\u003C\u002Fdetails>\n\n## 自动下载\n\n配置环境变量 `AUTO_DOWNLOAD` 或者运行参数 `--auto_download`\n\n- `auto_download=False`: 关闭自动下载\n- `auto_download=*`: 当使用到的时候自动下载匹配的模型 `\"*\"` 表示通配所有模型\n- `auto_download=qwen3*`: 自动下载 `\"qwen3\"` 开头的模型\n\n## FAQ\n\n[Goto Discussion Page](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fdiscussions\u002F242)\n\n# Documents\n\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002FlenML\u002FSpeech-AI-Forge)\n\n[Learn About Documents](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F240)\n\n# Contributing\n\nTo contribute, clone the repository, make your changes, commit and push to your clone, and submit a pull request.\n\n## format code\n\n```\nisort --profile black\n```\n\n# References\n\n- ChatTTS: https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS\n- PaddleSpeech: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSpeech\n- resemble-enhance: https:\u002F\u002Fgithub.com\u002Fresemble-ai\u002Fresemble-enhance\n- OpenVoice: https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice\n- FishSpeech: https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech\n- SenseVoice: https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice\n- CosyVoice: https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice\n- FireRedTTS: https:\u002F\u002Fgithub.com\u002FFireRedTeam\u002FFireRedTTS\n- F5-TTS: https:\u002F\u002Fgithub.com\u002FSWivid\u002FF5-TTS\n- Index-TTS: https:\u002F\u002Fgithub.com\u002Findex-tts\u002Findex-tts\n- Spark-TTS: https:\u002F\u002Fgithub.com\u002FSparkAudio\u002FSpark-TTS\n- GPT-SoVITS: https:\u002F\u002Fgithub.com\u002FRVC-Boss\u002FGPT-SoVITS\n- Qwen3-TTS: https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\n\n- Whisper: https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\n\n- ChatTTS 默认说话人: https:\u002F\u002Fgithub.com\u002F2noise\u002FChatTTS\u002Fissues\u002F238","# Speech-AI-Forge 快速上手指南\n\nSpeech-AI-Forge 是一个功能强大的开源 TTS（文本转语音）集成项目，支持 ChatTTS、CosyVoice、FishSpeech、F5-TTS 等多种主流模型，并提供 API Server 和基于 Gradio 的 WebUI。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Windows \u002F Linux \u002F macOS\n- **Python**: 3.10 或更高版本\n- **GPU**: 推荐 NVIDIA GPU (CUDA 11.8+) 以获得最佳推理速度；CPU 亦可运行但速度较慢。\n\n### 前置依赖\n确保已安装以下基础依赖：\n- Git\n- FFmpeg (用于音频处理)\n- Python pip\n\n> **国内加速建议**：\n> 项目原生支持从 **ModelScope (魔搭社区)** 下载模型，国内用户无需配置特殊网络即可高速下载。\n\n## 2. 安装步骤\n\n### 方式一：本地源码部署（推荐开发者）\n\n1. **克隆项目**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge.git\n   cd Speech-AI-Forge\n   ```\n\n2. **安装依赖**\n   请参照项目根目录下的 `requirements.txt` 或文档安装依赖（具体依赖列表见 `.\u002Fdocs\u002Fdependencies.md`）：\n   ```bash\n   pip install -r requirements.txt\n   ```\n\n3. **下载模型**\n   使用内置脚本一键下载所需模型。**国内用户强烈建议使用 `modelscope` 源**。\n\n   **命令格式：**\n   ```bash\n   python -m scripts.download_models --source=modelscope --models=\"模型 ID\"\n   ```\n\n   **常用模型 ID 示例：**\n   - 下载 ChatTTS: `--models=\"ChatTTS\"`\n   - 下载 CosyVoice2: `--models=\"CosyVoice2-0.5B\"`\n   - 下载 FishSpeech: `--models=\"fish-speech-1_4\"`\n   - 下载多个模型：`--models=\"ChatTTS,CosyVoice2-0.5B\"`\n\n   > **提示**：模型 ID 不区分大小写，可忽略 `-` 或 `_`。例如 `Qwen3-TTS` 可简写为 `qwen3tts`。\n\n   **自动下载配置（可选）：**\n   若希望在使用时自动按需下载模型，可设置环境变量或启动参数：\n   ```bash\n   # 自动下载所有用到的模型\n   export AUTO_DOWNLOAD=\"*\" \n   # 或在启动时添加参数 --auto_download=\"*\"\n   ```\n\n### 方式二：Windows 整合包（适合普通用户）\n前往 [Releases](https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Freleases) 页面下载最新的 Windows 整合包，解压后直接运行即可，无需配置环境。\n\n### 方式三：Docker 部署\n```bash\n# 启动 WebUI\ndocker-compose -f .\u002Fdocker-compose.webui.yml up -d\n\n# 仅启动 API 服务\ndocker-compose -f .\u002Fdocker-compose.api.yml up -d\n```\n*注：需提前配置 `.env.webui` 或 `.env.api` 环境变量文件。*\n\n## 3. 基本使用\n\n### 启动 WebUI (图形界面)\n这是最直观的使用方式，支持音色管理、长文本合成、ASR 语音识别等功能。\n\n```bash\npython webui.py\n```\n启动后，浏览器访问终端显示的地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）。\n\n**核心功能速览：**\n- **TTS 推理**：选择模型（如 ChatTTS），输入文本，点击生成。支持上传参考音频进行音色克隆。\n- **音色构建**：使用 \"Builder\" 功能通过随机种子抽取新音色，或融合现有音色。\n- **长文本处理**：开启 \"Long Text\" 模式，系统会自动分割超长文本并批量推理。\n- **SSML 编辑**：高级用户可使用 SSML 编辑器精细控制停顿、语调和多角色对话。\n\n### 启动 API Server (纯后端服务)\n如果你只需要 API 接口进行二次开发，或需要更高的吞吐量：\n\n```bash\npython launch.py\n```\n启动后，访问 `http:\u002F\u002Flocalhost:7870\u002Fdocs` 查看 Swagger API 文档及测试端点。\n\n**查看帮助参数：**\n```bash\npython launch.py -h\n```","某独立游戏开发者正在为一款多角色剧情冒险游戏制作本地化配音，需要快速生成数十种不同性格角色的语音台词。\n\n### 没有 Speech-AI-Forge 时\n- **模型切换繁琐**：想尝试 ChatTTS、CosyVoice 或 FishSpeech 等不同效果时，需分别配置多个独立环境，代码冲突频发，调试耗时极长。\n- **音色定制门槛高**：想让反派角色拥有独特的沙哑嗓音，必须编写复杂的脚本上传参考音频并进行微调，无法实时预览效果。\n- **长文本处理易崩溃**：输入大段剧情对话时，原有方案常因超出长度限制而报错，需手动切割文本并分段合成，后期拼接工作量大且痕迹明显。\n- **音质优化缺失**：生成的原始音频音量忽大忽小，缺乏统一的响度均衡和人声增强处理，导致玩家体验割裂。\n\n### 使用 Speech-AI-Forge 后\n- **一站式模型管理**：通过 Gradio WebUI 即可在界面下拉框中一键切换包括 Qwen3-TTS、F5TTS 在内的十多种主流模型，无需重复部署环境。\n- **零代码音色克隆**：直接上传一段反派角色的参考录音，利用“参考音色”功能即时推理出同款声线，并可通过调节器微调音调与语速直至满意。\n- **智能长文本分割**：开启“长文本推理”功能，系统自动将超长剧情按语义精准切分并批量处理，生成的音频连贯自然，彻底告别手动拼接。\n- **内置专业后期处理**：勾选“人声增强”与“响度均衡”选项，输出即达到广播级音质，省去了额外使用音频编辑软件进行降噪和标准化的步骤。\n\nSpeech-AI-Forge 将复杂的 TTS 工程链路整合为可视化的流畅工作流，让开发者能专注于内容创作而非技术折腾。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FlenML_Speech-AI-Forge_fe0e68c7.png","lenML","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FlenML_52f4bfb7.png","",null,"len-ml@outlook.com","https:\u002F\u002Fgithub.com\u002FlenML",[80,84,88,92,96,99,103,107,110,114],{"name":81,"color":82,"percentage":83},"Python","#3572A5",97.5,{"name":85,"color":86,"percentage":87},"JavaScript","#f1e05a",1,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",0.6,{"name":93,"color":94,"percentage":95},"C","#555555",0.3,{"name":97,"color":98,"percentage":95},"Jupyter Notebook","#DA5B0B",{"name":100,"color":101,"percentage":102},"CSS","#663399",0.2,{"name":104,"color":105,"percentage":106},"Shell","#89e051",0.1,{"name":108,"color":109,"percentage":106},"C++","#f34b7d",{"name":111,"color":112,"percentage":113},"HTML","#e34c26",0,{"name":115,"color":116,"percentage":113},"Cython","#fedf5b",1396,185,"2026-04-13T12:23:21","AGPL-3.0","Windows, Linux","需要 NVIDIA GPU (具体型号和显存取决于所选模型，如 ChatTTS\u002FCosyVoice\u002FFishSpeech 等通常建议 8GB+ 显存；支持 CPU 推理但速度较慢)","未说明 (建议 16GB+ 以运行大型 TTS 模型)",{"notes":125,"python":126,"dependencies":127},"项目提供 Windows 整合包、Colab 体验及 Docker 部署方案。支持多种 TTS 模型（如 ChatTTS, CosyVoice, FishSpeech, Qwen3-TTS 等）和 ASR 模型（Whisper, SenseVoice）。首次运行需通过脚本下载模型，支持从 HuggingFace 或 ModelScope 自动下载。可通过环境变量配置自动下载策略。","未说明 (通常为 3.9+)",[128,129,130,131,132,133,134,135,136,137],"torch","transformers","gradio","faster-whisper","funasr","resemble-enhance","openvoice","cosyvoice","fish-speech","chat-tts",[13,139,35,14],"音频",[141,142,143,144,145,146,147,148,149,150,151,152,136,135,153,154,155,156,157,158],"chattts","ssml","tts","chattts-forge","agent","gpt","llm","text-to-speech","colab","llama","chinese","english","cosy-voice","asr","stt","firered","whisper","fireredtts","2026-03-27T02:49:30.150509","2026-04-15T10:58:58.705300",[162,167,171,175,180,185,190],{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},34226,"为什么在 Google Colab 中运行速度非常慢（只有 2 it\u002Fs）？","请确保使用的是 GPU 而非 CPU。具体设置步骤如下：\n1. 点击菜单栏【修改】(Runtime)\n2. 点击【笔记本设置】(Notebook settings)\n3. 选择【硬件加速器】(Hardware accelerator) => T4 GPU","https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F241",{"id":168,"question_zh":169,"answer_zh":170,"source_url":166},34227,"为什么开启了 `--compile` 参数后推理速度反而变慢？","由于目前尚未实现推理 padding，如果每次推理的输入形状（shape）发生改变，都可能触发 torch 重新进行 compile，从而导致变慢。暂时不建议开启此参数。",{"id":172,"question_zh":173,"answer_zh":174,"source_url":166},34228,"Style 配置中带 `_p` 后缀和不带 `_p` 后缀有什么区别？","Style 中带有 `_p` 的配置使用了 prompt + prefix，而不带 `_p` 的则只使用 prefix。\n注意：此特性已永久废弃，不再继续更新和维护。",{"id":176,"question_zh":177,"answer_zh":178,"source_url":179},34229,"长文本合成时为什么会中断或无法播放全部文字？如何控制文本分割？","这通常与 `spliter_threshold` 参数设置有关。该参数用于控制分割器确定一次生成的文本片段长度（以 token 计算）：\n- `spliter_threshold=100`：如果一个句子超过 100 token 将直接作为一次合成上下文；如果小于 100 将尝试和后续文本合并。\n- `spliter_threshold=30`：限制为 30 token。\n- `spliter_threshold=1`：限制为 1 token，所有超过 1 token 的句子都不再与之后的上下文合并。\n\n如果设置过大（如 100），长文本会尝试一次性合成导致中断；改为较小值（如 30）会将文本切割为多次合成，从而解决问题。`batch_size` 主要影响显存占用，与输入文本长度无直接关系。","https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F259",{"id":181,"question_zh":182,"answer_zh":183,"source_url":184},34230,"安装时遇到 `networkx==3.3` 版本错误或 Python 版本混乱怎么办？","`requirements.dev.txt` 是用于 CI\u002FCD 测试的，正常用户请使用 `requirements.txt`。\n如果在 Mac M1 或其他环境遇到依赖问题，建议执行以下步骤：\n1. 创建虚拟环境并指定 Python 版本为 3.10。\n2. 安装依赖时，将 `requirements.txt` 中的 `numpy` 修改为 `numpy==1.26.4`。\n3. 执行 `pip install -r requirements.txt`。\n4. 安装 modelscope：`pip install modelscope`。\n5. 下载模型：`python -m scripts.download_models --source modelscope`。\n6. 配置 `sndfile` 和 `ffmpeg` 路径后启动。","https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F55",{"id":186,"question_zh":187,"answer_zh":188,"source_url":189},34231,"仅微调 Speaker Embedding 时，Audio CE Loss 降到多少才能听起来像本人？","没有准确的 Loss 数值可以直接表示训练结束或达到“很像”的效果，因为这涉及过拟合问题和频域问题（某些频域是模型的盲区，单靠微调 embed 难以完全覆盖）。\n建议方法：\n1. 使用几个随机的 embed 测试你的数据集，得出当前模型的基础 Loss 大概是多少。\n2. 训练后的 Loss 如果能大幅小于这个基础 Loss，基本上就是有效训练。\n3. 具体多少 Loss 能听起来像本人，需要根据数据集情况慢慢调整。","https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F121",{"id":191,"question_zh":192,"answer_zh":193,"source_url":194},34232,"性能测试脚本中 BatchSize 不为 1 时，Duration 和 RTF 计算结果异常怎么办？","这是因为脚本中总时长 (Duration) 定义为所有生成音频片段的总时长（即 $SingleSegmentDuration \\times BatchSize$），导致 BatchSize 较大时 Duration 偏大，进而使计算出的实时率 (RTF) 偏小。\n为了更准确地评估处理性能，建议以 `BatchSize = 1` 的情况作为基准来计算 RTF。\n计算公式应为：$RTF_{single} = ProcessingTime \u002F SingleSegmentDuration$。\n此外，如果单段音频时长异常长（如 60 秒以上），可能是模型输出了过多的空音频（副语言），需检查输入文本或模型状态。","https:\u002F\u002Fgithub.com\u002FlenML\u002FSpeech-AI-Forge\u002Fissues\u002F215",[196],{"id":197,"version":198,"summary_zh":199,"released_at":200},264109,"portable_v0.7","本项目一键整合包（Windows）\n\n- 不包含模型文件，启动WebUI后可自动下载，也可参考README自行下载模型。\n- Python：3.10\n- PyTorch：2.6.0\n- CUDA：12.6\n\n文件说明：\n- `run_webui_cn.bat`：运行WebUI，使用中文界面。\n- `run_webui_en.bat`：运行WebUI，使用英文界面。\n- `update.bat`：拉取最新代码并安装依赖。\n- `run_api.bat`：运行本项目的API服务器。","2026-02-02T04:58:15"]