[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-fishaudio--Bert-VITS2":3,"tool-fishaudio--Bert-VITS2":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":99,"env_ram":99,"env_deps":100,"category_tags":103,"github_topics":105,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":117,"updated_at":118,"faqs":119,"releases":120},9760,"fishaudio\u002FBert-VITS2","Bert-VITS2","vits2 backbone with multilingual-bert","Bert-VITS2 是一款基于 VITS2 架构并融合多语言 BERT 模型的开源语音合成工具，旨在生成自然流畅且富有情感的多语言语音。它有效解决了传统语音合成在跨语言场景下发音不准、语调生硬以及情感表达匮乏的痛点，特别适用于需要高质量多语种配音或角色语音生成的场景。\n\n该项目主要面向具备一定技术基础的开发者、AI 研究人员及热衷于声音创作的爱好者。虽然普通用户也可通过相关界面尝试使用，但若要发挥其最大潜力，通常需要对模型训练流程有所了解。Bert-VITS2 的核心技术亮点在于创新性地将多语言 BERT 引入语音合成后端，利用大语言模型强大的语义理解能力来指导韵律和情感控制，从而显著提升了合成语音的自然度与表现力。\n\n值得注意的是，项目维护方已推荐用户关注其团队最新的 Fish-Speech 项目以获取更先进的效果，Bert-VITS2 目前短期内不再进行主动维护，但其作为探索 BERT 与 TTS 结合的经典案例，仍具有重要的学习与参考价值。使用时请严格遵守法律法规，严禁将其用于任何违法或政治相关用途。","\u003Cdiv align=\"center\">\n\n\u003Cimg alt=\"LOGO\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffishaudio_Bert-VITS2_readme_9838c1204c9e.png\" width=\"256\" height=\"256\" \u002F>\n\n# Bert-VITS2\n\nVITS2 Backbone with multilingual bert\n\nFor quick guide, please refer to `webui_preprocess.py`.\n\n简易教程请参见 `webui_preprocess.py`。\n\n## 【项目推介】\n# FishAudio下的全新自回归TTS [Fish-Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)现已可用，效果为目前开源SOTA水准，且在持续维护，推荐使用该项目作为BV2\u002FGSV的替代。本项目短期内不再进行维护。\n## Demo Video: https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV18E421371Q\n## Tech slides Video: https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1zJ4m1K7cj\n## 请注意，本项目核心思路来源于[anyvoiceai\u002FMassTTS](https:\u002F\u002Fgithub.com\u002Fanyvoiceai\u002FMassTTS) 一个非常好的tts项目\n## MassTTS的演示demo为[ai版峰哥锐评峰哥本人,并找回了在金三角失落的腰子](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1w24y1c7z9)\n\n[\u002F\u002F]: # (## 本项目与[PlayVoice\u002Fvits_chinese]&#40;https:\u002F\u002Fgithub.com\u002FPlayVoice\u002Fvits_chinese&#41; 没有任何关系)\n\n[\u002F\u002F]: # ()\n[\u002F\u002F]: # (本仓库来源于之前朋友分享了ai峰哥的视频，本人被其中的效果惊艳，在自己尝试MassTTS以后发现fs在音质方面与vits有一定差距，并且training的pipeline比vits更复杂，因此按照其思路将bert)\n\n## 成熟的旅行者\u002F开拓者\u002F舰长\u002F博士\u002Fsensei\u002F猎魔人\u002F喵喵露\u002FV应当参阅代码自己学习如何训练。\n\n### 严禁将此项目用于一切违反《中华人民共和国宪法》，《中华人民共和国刑法》，《中华人民共和国治安管理处罚法》和《中华人民共和国民法典》之用途。\n### 严禁用于任何政治相关用途。\n#### Video:https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1hp4y1K78E\n#### Demo:https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1TF411k78w\n## References\n+ [anyvoiceai\u002FMassTTS](https:\u002F\u002Fgithub.com\u002Fanyvoiceai\u002FMassTTS)\n+ [jaywalnut310\u002Fvits](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fvits)\n+ [p0p4k\u002Fvits2_pytorch](https:\u002F\u002Fgithub.com\u002Fp0p4k\u002Fvits2_pytorch)\n+ [svc-develop-team\u002Fso-vits-svc](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)\n+ [PaddlePaddle\u002FPaddleSpeech](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSpeech)\n+ [emotional-vits](https:\u002F\u002Fgithub.com\u002Finnnky\u002Femotional-vits)\n+ [fish-speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)\n+ [Bert-VITS2-UI](https:\u002F\u002Fgithub.com\u002Fjiangyuxiaoxiao\u002FBert-VITS2-UI)\n## 感谢所有贡献者作出的努力\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffishaudio\u002FBert-VITS2\u002Fgraphs\u002Fcontributors\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffishaudio_Bert-VITS2_readme_c6f591db9295.png\"\u002F>\n\u003C\u002Fa>\n\n[\u002F\u002F]: # (# 本项目所有代码引用均已写明，bert部分代码思路来源于[AI峰哥]&#40;https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1w24y1c7z9&#41;，与[vits_chinese]&#40;https:\u002F\u002Fgithub.com\u002FPlayVoice\u002Fvits_chinese&#41;无任何关系。欢迎各位查阅代码。同时，我们也对该开发者的[碰瓷，乃至开盒开发者的行为]&#40;https:\u002F\u002Fwww.bilibili.com\u002Fread\u002Fcv27101514\u002F&#41;表示强烈谴责。)\n","\u003Cdiv align=\"center\">\n\n\u003Cimg alt=\"LOGO\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffishaudio_Bert-VITS2_readme_9838c1204c9e.png\" width=\"256\" height=\"256\" \u002F>\n\n# Bert-VITS2\n\n多语言Bert作为VITS2骨干网络\n\n简易教程请参见 `webui_preprocess.py`。\n\n## 【项目推介】\n# FishAudio下的全新自回归TTS [Fish-Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)现已可用，效果为目前开源SOTA水准，且在持续维护，推荐使用该项目作为BV2\u002FGSV的替代。本项目短期内不再进行维护。\n## Demo Video: https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV18E421371Q\n## Tech slides Video: https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1zJ4m1K7cj\n## 请注意，本项目核心思路来源于[anyvoiceai\u002FMassTTS](https:\u002F\u002Fgithub.com\u002Fanyvoiceai\u002FMassTTS) 一个非常好的tts项目\n## MassTTS的演示demo为[ai版峰哥锐评峰哥本人,并找回了在金三角失落的腰子](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1w24y1c7z9)\n\n[\u002F\u002F]: # (## 本项目与[PlayVoice\u002Fvits_chinese]&#40;https:\u002F\u002Fgithub.com\u002FPlayVoice\u002Fvits_chinese&#41; 没有任何关系)\n\n[\u002F\u002F]: # ()\n[\u002F\u002F]: # (本仓库来源于之前朋友分享了ai峰哥的视频，本人被其中的效果惊艳，在自己尝试MassTTS以后发现fs在音质方面与vits有一定差距，并且training的pipeline比vits更复杂，因此按照其思路将bert)\n\n## 成熟的旅行者\u002F开拓者\u002F舰长\u002F博士\u002Fsensei\u002F猎魔人\u002F喵喵露\u002FV应当参阅代码自己学习如何训练。\n\n### 严禁将此项目用于一切违反《中华人民共和国宪法》，《中华人民共和国刑法》，《中华人民共和国治安管理处罚法》和《中华人民共和国民法典》之用途。\n### 严禁用于任何政治相关用途。\n#### Video:https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1hp4y1K78E\n#### Demo:https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1TF411k78w\n## References\n+ [anyvoiceai\u002FMassTTS](https:\u002F\u002Fgithub.com\u002Fanyvoiceai\u002FMassTTS)\n+ [jaywalnut310\u002Fvits](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fvits)\n+ [p0p4k\u002Fvits2_pytorch](https:\u002F\u002Fgithub.com\u002Fp0p4k\u002Fvits2_pytorch)\n+ [svc-develop-team\u002Fso-vits-svc](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)\n+ [PaddlePaddle\u002FPaddleSpeech](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSpeech)\n+ [emotional-vits](https:\u002F\u002Fgithub.com\u002Finnnky\u002Femotional-vits)\n+ [fish-speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)\n+ [Bert-VITS2-UI](https:\u002F\u002Fgithub.com\u002Fjiangyuxiaoxiao\u002FBert-VITS2-UI)\n## 感谢所有贡献者作出的努力\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffishaudio\u002FBert-VITS2\u002Fgraphs\u002Fcontributors\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffishaudio_Bert-VITS2_readme_c6f591db9295.png\"\u002F>\n\u003C\u002Fa>\n\n[\u002F\u002F]: # (# 本项目所有代码引用均已写明，bert部分代码思路来源于[AI峰哥]&#40;https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1w24y1c7z9&#41;，与[vits_chinese]&#40;https:\u002F\u002Fgithub.com\u002FPlayVoice\u002Fvits_chinese&#41;无任何关系。欢迎各位查阅代码。同时，我们也对该开发者的[碰瓷，乃至开盒开发者的行为]&#40;https:\u002F\u002Fwww.bilibili.com\u002Fread\u002Fcv27101514\u002F&#41;表示强烈谴责。)","# Bert-VITS2 快速上手指南\n\n> **⚠️ 重要提示**：本项目短期内不再进行维护。作者推荐使用 FishAudio 旗下的全新自回归 TTS 项目 **[Fish-Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech)** 作为替代，其效果目前为开源 SOTA 水准且持续更新。本指南仅供学习参考或现有用户迁移使用。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 Windows\n*   **Python**: 3.8 - 3.10 (建议使用 3.9)\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡 (训练必需，推理可选 CPU 但速度较慢)\n*   **依赖工具**: `git`, `ffmpeg`\n\n### 前置依赖安装\n\n**Linux (Ubuntu\u002FDebian):**\n```bash\nsudo apt-get update && sudo apt-get install -y ffmpeg git\n```\n\n**Windows:**\n请手动安装 [Git](https:\u002F\u002Fgit-scm.com\u002F) 和 [FFmpeg](https:\u002F\u002Fffmpeg.org\u002Fdownload.html) (需配置环境变量)，或使用包管理器 `choco`:\n```powershell\nchoco install git ffmpeg -y\n```\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffishaudio\u002FBert-VITS2.git\ncd Bert-VITS2\n```\n\n### 2.2 创建虚拟环境并安装依赖\n推荐使用 `conda` 或 `venv` 隔离环境。\n\n```bash\n# 创建 Python 3.9 环境\nconda create -n bert-vits2 python=3.9 -y\nconda activate bert-vits2\n\n# 安装 PyTorch (根据是否使用 CUDA 选择，以下为 CUDA 11.8 示例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装项目依赖\n# 国内用户推荐使用清华源加速\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 3. 基本使用\n\n本项目核心流程分为数据预处理、模型训练和推理。对于初学者，最快捷的方式是使用自带的 WebUI 进行预处理和操作。\n\n### 3.1 数据预处理\n将您的音频数据集整理好（建议采样率 44100Hz 或 48000Hz，单声道），放入指定目录后，运行预处理脚本。这是最关键的一步，详细参数请参考脚本内部注释。\n\n```bash\npython webui_preprocess.py\n```\n*运行后将启动图形界面，按照指引完成音频切片、声纹提取和配置文件生成。*\n\n### 3.2 开始训练\n预处理完成后，使用生成的配置文件启动训练。\n\n```bash\n# 示例：使用默认配置启动训练\npython train_ms.py -c configs\u002Fconfig.json -m logs\u002Fyour_model_name\n```\n\n### 3.3 推理测试\n训练完成后，可通过 WebUI 或命令行进行语音合成。\n\n**启动 WebUI 推理界面：**\n```bash\npython webui.py\n```\n在浏览器打开显示的地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），加载模型后即可输入文本进行合成。\n\n---\n*注：严禁将此项目用于违反中国法律法规及政治相关的用途。*","一位独立游戏开发者正在为一款多语言奇幻 RPG 制作剧情配音，需要让同一位角色在不同语言版本中保持音色一致且情感饱满。\n\n### 没有 Bert-VITS2 时\n- **音色割裂严重**：为中文、日文、英文分别训练不同的 TTS 模型，导致角色在切换语言时声音特质完全不同，破坏沉浸感。\n- **情感表达生硬**：传统模型难以精准捕捉文本中的细微情绪（如愤怒、悲伤），配音听起来像毫无感情的朗读机器。\n- **数据门槛极高**：为了让模型学会某种语种的发音，必须收集该语种大量的高质量录音数据，小团队根本无力承担。\n- **调试周期漫长**：调整发音准确度或情感强度需要重新训练整个模型，一次迭代往往耗时数小时甚至数天。\n\n### 使用 Bert-VITS2 后\n- **跨语言音色统一**：利用多语言 BERT 作为骨干网络，仅需一份角色底模，即可用同一种音色流畅演绎中、日、英等多种语言。\n- **情感细腻自然**：模型能深度理解文本语义，自动根据上下文生成带有呼吸感和情绪起伏的语音，无需手动标注复杂的情感标签。\n- **低资源快速启动**：借助预训练的多语言理解能力，极少的新语种样本也能快速微调出高质量效果，大幅降低数据收集成本。\n- **高效迭代优化**：支持针对特定语句或情感进行快速推理调整，开发者可在几分钟内验证不同语气效果，显著缩短制作流程。\n\nBert-VITS2 通过引入多语言语义理解，彻底解决了跨语言角色配音中音色不一致与情感缺失的核心难题，让单人开发者也能产出电影级的多语言听觉体验。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffishaudio_Bert-VITS2_9838c120.png","fishaudio","Fish Audio","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffishaudio_9838c120.png","A Spark Between Voice and Text",null,"FishAudio","https:\u002F\u002Ffish.audio","https:\u002F\u002Fgithub.com\u002Ffishaudio",[82,86,90],{"name":83,"color":84,"percentage":85},"Python","#3572A5",99.9,{"name":87,"color":88,"percentage":89},"Shell","#89e051",0.1,{"name":91,"color":92,"percentage":93},"CSS","#663399",0,8728,1275,"2026-04-18T11:00:50","AGPL-3.0",4,"未说明",{"notes":101,"python":99,"dependencies":102},"README 中未提供具体的运行环境配置（如操作系统、GPU、内存、Python 版本及依赖库）。文中主要声明项目短期内不再维护，推荐使用 Fish-Speech 作为替代方案，并强调了严禁用于违法及政治相关用途的法律合规要求。",[99],[104,14,13,35],"音频",[106,107,108,109,110,111,112,113,114,115,116],"bert","bert-vits2","tts","vits","vits2","bert-vits","llm","fish","vocoder","fish-speech","agent","2026-03-27T02:49:30.150509","2026-04-20T04:04:31.522072",[],[121,126,131,136,141,146,151,156,161,166,171,176],{"id":122,"version":123,"summary_zh":124,"released_at":125},351257,"JP-Exta","在看到中文特别版取得成功后，我们也训练了日语特别版。\n更新日志：\n1. 删除了中英文支持。\n2. 合并了 Pull Request (#312)，该请求修复了此前日语 g2p 中存在的一个错误。（感谢 @litagin02）\n3. 我们将日语训练数据量增加了数倍，目前单语数据已达约 800 小时。\n4. 移除了 DurationDiscriminator，因为它常常导致训练不稳定。\n5. 修改了情感向量量化模块，尝试使用更大的码本大小和更小的码本维度，以提高码本的利用率。同时，我们还修复了 loss_commit，并将其加入反向传播中。\n基础模型可在 [huggingface](https:\u002F\u002Fhuggingface.co\u002FStardust-minus\u002FBert-VITS2-Japanese-Extra) 上找到。\nBert-VITS2 开发团队  \n诚挚地","2024-02-01T05:11:16",{"id":127,"version":128,"summary_zh":129,"released_at":130},351258,"Extra-v2","本次是在Extra：中文特化版上所作的一些小优化，模型完全兼容，可进行无缝迁移。\r\n主要所作的改动如下：\r\n1.修改了g2p部分，进行全句g2p并换用了g2pW以提升g2p准确率。(感谢 @duliangang )\r\n2.删除了Clap加噪，增强了Clap prompt的控制力。\r\n3.重新加入了DD。\r\n4.config中加入了FP16推理支持，显存占用低至\u003C4G\r\n5.优化中文文本的规范化（#275）\r\n底模以及g2pW模型已上传openi，模型训练请前往Extra-Fix分支。\r\n由于我们大部分精力已经转向了Fish-Speech开发，Bert-VITS2目前是半弃坑状态。稍后我们计划训练一个日语特化基座模型，其余事宜待定。\r\nBert-VITS2开发组\r\n敬上","2024-01-25T05:47:32",{"id":132,"version":133,"summary_zh":134,"released_at":135},351259,"Extra","本次中文特化版本采用国产IDEA-CCNL\u002FErlangshen-MegatronBert-1.3B大模型进行Bert特征提取，基本完全解决了发音方面的bad case问题，同时在情感表达上也有显著提升。可以作为此前V1.0.1纯中文版本的更好替代方案。\n\n此外，还重新合入了之前移除的Clap模型。\n\n目前仅支持中文推理，多语言功能暂未确定。\n\n本版本不作为正式版本发布于Github，请前往ZH-Clap分支进行训练。\n\n底模及Bert模型均已上传至OpenI平台。\n\n由于更换了更大的Bert模型，推理所需的显存较大，至少需要8GB显存。","2024-01-04T09:21:44",{"id":137,"version":138,"summary_zh":139,"released_at":140},351260,"v2.3","本次更新内容如下：\n1. 完善了 webui_preprocess.py（By @OedoSoldier ）\n2. 修正了存在于 Duration Predictor Discriminator 的 bug。并添加了 LSTM。对 SDP 有较大提升。\n3. 支持 BF16 训练。\n4. 对英语的 G2P 进行修复。\n5. 添加基于 WavLM 的 Discriminator（来源于 StyleTTS2）\n6. 因情感控制效果不佳，去除了 CLAP。更换了更简单的 BERT 融合语义方式。（By @litagin02 ）\n\n这可能是 Bert-VITS2 近期的 final release，接下来我们将会加入对 [Fish Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech) 的开发。\n\nBert-VITS2项目组\n敬上\n\n这可能是我们目前阶段的最终版本，因为我们即将把重心转移到新项目 [Fish Speech](https:\u002F\u002Fgithub.com\u002Ffishaudio\u002Ffish-speech) 上。\n\n我们一如既往地感谢大家提出的建设性建议，以帮助进一步改进模型。欢迎通过 Pull Request 分享您的想法。\n\n------\n\n基础模型：https:\u002F\u002Fhuggingface.co\u002FOedoSoldier\u002FBert-VITS2-2.3\n\n------\n\n更新：预训练 2.3 版本权重中 `gin_channels` 参数的配置已调整为 512。为与这一变更保持一致，我们已更新了 config.json 文件中的相应条目。","2023-12-19T11:17:33",{"id":142,"version":143,"summary_zh":144,"released_at":145},351261,"v2.2","本次更新主要内容如下：\n\n1. 修正了commons.py中slicer存在的bug，彻底解决卡死问题，并有提速。（PR 由 @OedoSoldier 提交）\n2. Emotion 模型换用 CLAP 多模态模型，推理支持输入 text prompt 引导风格化进行合成。\n3. 借鉴 vq-vae 对 CLAP 做 vq，同时对 clap vec 概率置空，防止过拟合。（PR 由 @OedoSoldier 提交）\n4. 推理及训练时未使用到的其他语种 bert 不再置空，而是使用 rand。（PR 由 @OedoSoldier 提交）\n5. 新增预处理 web UI。\n6. preprocess_text 阶段不再选择 val_per_spk，换用 val_per_lang(ua)。\n\n底模和 CLAP 模型已上传 openi。\n\nBert-VITS2 开发组 敬上\n\n基础模型：\n- OpenI：https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fshow_model\n- Hugging Face：https:\u002F\u002Fhuggingface.co\u002FOedoSoldier\u002FBert-VITS2-2.2-CLAP","2023-12-12T11:35:49",{"id":147,"version":148,"summary_zh":149,"released_at":150},351262,"2.1","本次更新主要内容如下：\r\n1. 修正了日语\u002F英语的BERT对齐问题，效果进一步优化。\r\n2. 对底模使用的数据进行优化和加量，减少微调失败以及生成电音的可能性。\r\n3. 日语BERT换用WWM版本。\r\n4. 修正多机训练问题。\r\n5. 修复在A800上速度异常的问题。\r\n6. 新增谱图缓存开关和谱图预生成脚本（可选）。\r\n7. 新增情绪嵌入。\r\n8. 完善多语言推理功能。\r\n9. 新增模型混合功能。\r\n10. 修正混合合成时，前后句子停顿过长的问题。\r\n11. 新增ONNX导出支持。\r\n底模和使用的WWM BERT现在已可在https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fshow_model 下载。\r\n感谢所有开发者做出的贡献。\r\nBert-VITS2开发组\r\n敬上","2023-11-25T05:22:25",{"id":152,"version":153,"summary_zh":154,"released_at":155},351263,"v2.0.2.1","我们修复了2.0先前版本中的重大bug，并对底模进行了重炼。  \n日语和英语的合成效果相比2.0有了显著提升，推荐使用此版本。  \n此外，我们还新增了自动混合合成功能（auto），支持无需打标即可进行多语言混合合成。 @Artrajz  \n新的WebUI加入了盲盒机制（见附件）。 @jiangyuxiaoxiao  \n底模请参阅：https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fmodel_filelist_tmpl?name=Bert-VITS2%E4%B8%AD%E6%97%A5%E8%8B%B1%E5%BA%95%E6%A8%A1-fix\n\n","2023-11-10T04:24:05",{"id":157,"version":158,"summary_zh":159,"released_at":160},351264,"2.0.1","# 紧急通知  \n我们在2.0版本中发现了重大bug，该bug导致日文和英文bert被置0后训练，即失去bert效果。  \n我们将重炼2.0版本底模，已经开炉的建议关炉静候  \n\n本次我们基于1.1.1做了非常大量的更改，支持了三语言训练及混合合成。  \n这是自1.0以来最大的更改，因此另起2.0大版本号。  \n本版本对日语做了极大的优化，效果提升非常巨大。  \n\n主要更新内容如下：  \n1. 日语bert换用deberta-large。  \n2. 日语g2p经过了大量修改和优化。  \n（感谢 @OedoSoldier 和 @Akito-UzukiP 的贡献）  \n3. 新增英语支持，具体请参见新增的reference。  \n4. 将英语的g2p和bert稍作修改。（PR by @OedoSoldier）  \n4. 新增推理向下兼容支持，只需指定版本号即可推理先前版本模型。（PR by @jiangyuxiaoxiao）  \n5. 新增全局配置文件，只需修改config.yml即可控制训练流程。（PR by @jiangyuxiaoxiao）  \n6. 新增WebUI合成的翻译支持（PR By @jiangyuxiaoxiao）  \n7. 降低训练显存开销。  \n8. 修正nccl训练卡死问题。  \n9. 新增preprocess_text的数据集自动清洗功能。  \n10. 新增server_fastapi和更美观好用的前端。（请见Release附件 @jiangyuxiaoxiao )  \n11. WebUI美化。 （PR By @AnyaCoder）  \n12. 修正resample的运行问题。  \n13. 预添加emotional embedding，将在下个版本实装。  \n14. 新增bert和底模自动下载功能。  \n15. 修正音量不均衡问题。（PR By @lzyplayer )  \n16. 修正多机训练rank获取不正确问题。(PR By @Lvjinhong )  \n\n## 使用到的所有bert模型和底模均可在 https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fshow_model 下载  \n\nBert-VITS开发组  \n敬上","2023-10-28T02:49:22",{"id":162,"version":163,"summary_zh":164,"released_at":165},351265,"1.1.1","自1.1版本发布以来，我们在主分支又进行了诸多测试并进行了bug修复。  \r\n现放出适配主分支的中-日双语言底模，可供微调使用。  \r\n中-日底模：https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fmodel_filelist_tmpl?name=Bert-VITS2%E4%B8%AD%E6%97%A5%E5%BA%95%E6%A8%A1  \r\n日语bert境内分流下载：https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fmodel_filelist_tmpl?name=bert-base-japanese-v3  \r\n中文bert境内分流下载：https:\u002F\u002Fopeni.pcl.ac.cn\u002FStardust_minus\u002FBert-VITS2\u002Fmodelmanage\u002Fmodel_filelist_tmpl?name=chinese-roberta-wwm-ext-large  \r\n本次所做的主要调整有：  \r\n1. 修正了bert重复加载的问题，大幅提升bert生成速度。 （PR by @jiangyuxiaoxiao ）  \r\n2. 修正了webui多语言推理可能出现的问题。  \r\n3. 修正了bert_gen.py的hps未传入问题。  \r\n4. 将transformer flow层数翻倍。  \r\n5. 修正了Duration predictor 的前向激活函数  \r\n6. 添加分段合成，可以使用 | 来控制分段。  \r\n7. GPU利用率优化。（对于新GPU）  \r\n感谢 @leng-yue @innnky @ylzz1997 @fumiama 所作出的贡献。","2023-10-05T03:29:44",{"id":167,"version":168,"summary_zh":169,"released_at":170},351266,"1.1","我们已经新加入了日语支持，现合并到主分支。  \n同时感谢 @leng-yue 对代码的一些格式化和清理。  \n@fumiama 新增的部分功能和一些代码清理。  \n本次代码更改较多，先前的训练教程可能已经不再适用，请注意。","2023-09-12T07:59:31",{"id":172,"version":173,"summary_zh":174,"released_at":175},351267,"1.0.1","由于某些疏忽导致训练代码出现了一些问题，重新release一下（\r\n同时补加了一些提示性的注释\r\n更新环境需求，为即将到来的日语支持做准备。","2023-09-04T17:09:51",{"id":177,"version":178,"summary_zh":179,"released_at":180},351268,"1.0","经过大量的小bug修复，我们认为目前仓库的主分支已经是功能较为完备且完全可供训练的了。  \r\n这里进行一次Release，除出现恶性bug外，其余commit和稍后的多语种支持都将在dev分支进行。\r\n特别感谢[@innnky](https:\u002F\u002Fgithub.com\u002Finnnky) 的Bert实现和技术上的大力支持\r\n~~R门~~","2023-09-04T14:37:18"]