[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-yxlllc--DDSP-SVC":3,"tool-yxlllc--DDSP-SVC":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":89,"env_ram":90,"env_deps":91,"category_tags":101,"github_topics":102,"view_count":23,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":104,"updated_at":105,"faqs":106,"releases":137},3034,"yxlllc\u002FDDSP-SVC","DDSP-SVC","Real-time end-to-end singing voice conversion system based on DDSP (Differentiable Digital Signal Processing)","DDSP-SVC 是一款开源的实时端到端歌声转换工具，基于可微分数字信号处理（DDSP）技术，旨在让个人电脑也能轻松运行高质量的 AI 变声软件。它主要解决了传统歌声转换模型对硬件要求高、训练耗时久以及实时推理资源消耗大的痛点。与知名的 SO-VITS-SVC 相比，DDSP-SVC 大幅降低了对显卡等硬件的依赖，训练速度提升了数个数量级，接近 RVC 的效率，同时在实时变声时的资源占用也显著更低。\n\n虽然基础 DDSP 模型的合成音质有限，但该项目通过引入预训练声码器增强或浅层扩散模型进行后处理，成功将音质提升至媲美主流模型的水平，尤其在特定数据集上表现优异。无论是希望快速部署本地变声服务的开发者、研究低资源语音合成的科研人员，还是想要体验个性化歌声转换的普通用户，都能从中受益。只需准备合法的授权音频数据，按照指引配置预训练模型并进行简单预处理，即可开始训练属于自己的歌声转换模型。请注意，务必使用合法获取的数据进行训练，并遵守相关法律法规，切勿用于侵权或非法用途。","Language: **English** [简体中文](.\u002Fcn_README.md)\n\n# DDSP-SVC\n\n## 0. Introduction\n\nDDSP-SVC is an open source singing voice conversion project dedicated to the development of free AI voice changer software that can be popularized on personal computers.\n\nCompared with the famous [SO-VITS-SVC](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc), its training and synthesis have much lower requirements for computer hardware, and the training time can be shortened by orders of magnitude, which is close to the training speed of [RVC](https:\u002F\u002Fgithub.com\u002FRVC-Project\u002FRetrieval-based-Voice-Conversion-WebUI).\n\nIn addition, when performing real-time voice changing, the hardware resource consumption of this project is significantly lower than that of SO-VITS-SVC，but probably slightly higher than the latest version of RVC.\n\nAlthough the original synthesis quality of DDSP is not ideal (the original output can be heard in tensorboard while training), after enhancing the sound quality with a pre-trained vocoder based enhancer (old version) or with a shallow diffusion model (new version) , for some datasets, it can achieve the synthesis quality no less than SOVITS-SVC and RVC.\n\nDisclaimer: Please make sure to only train DDSP-SVC models with **legally obtained authorized data**, and do not use these models and any audio they synthesize for illegal purposes. The author of this repository is not responsible for any infringement, fraud and other illegal acts caused by the use of these model checkpoints and audio.\n\nUpdate log: I am too lazy to translate, please see the Chinese version readme.\n\n## 1. Installing the dependencies\n\nWe recommend first installing PyTorch from the [official website](https:\u002F\u002Fpytorch.org\u002F), then run:\n\n```bash\npip install -r requirements.txt\n```\n\npython 3.11 (windows) + cuda 13.0 + torch 2.9.1 + torchaudio 2.9.1 works.\n\n## 2. Configuring the pretrained model\n\n- Feature Encoder (choose only one):\n\n(1) Download the pre-trained [ContentVec](https:\u002F\u002Fhuggingface.co\u002Flengyue233\u002Fcontent-vec-best\u002Fresolve\u002Fmain\u002Fpytorch_model.bin?download=true) encoder and put it under `pretrain\u002Fcontentvec` folder.\n\n(2) Download the pre-trained [HubertSoft](https:\u002F\u002Fgithub.com\u002Fbshall\u002Fhubert\u002Freleases\u002Fdownload\u002Fv0.1\u002Fhubert-soft-0d54a1f4.pt) encoder and put it under `pretrain\u002Fhubert` folder, and then modify the configuration file at the same time.\n\n- Vocoder:\n\nDownload and unzip the pre-trained [NSF-HiFiGAN](https:\u002F\u002Fgithub.com\u002Fopenvpi\u002Fvocoders\u002Freleases\u002Fdownload\u002Fpc-nsf-hifigan-44.1k-hop512-128bin-2025.02\u002Fpc_nsf_hifigan_44.1k_hop512_128bin_2025.02.zip) vocoder \n\nor use the https:\u002F\u002Fgithub.com\u002Fopenvpi\u002FSingingVocoders project to fine-tune the vocoder for higher sound quality.\n\nThen rename the checkpoint file and place it at the location specified by the 'vocoder.ckpt' parameter in the configuration file. The default value is `pretrain\u002Fnsf_hifigan\u002Fmodel`.\n\nThe 'config.json' of the vocoder needs to be at the same directory, for example, `pretrain\u002Fnsf_hifigan\u002Fconfig.json`.\n\n- Pitch extractor:\n\nDownload the pre-trained [RMVPE](https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FRMVPE\u002Freleases\u002Fdownload\u002F230917\u002Frmvpe.zip) extractor and unzip it into `pretrain\u002F` folder.\n\n## 3. Preprocessing\n\nPut all the training dataset (.wav format audio clips) in the below directory: `data\u002Ftrain\u002Faudio`. Put all the validation dataset (.wav format audio clips) in the below directory: `data\u002Fval\u002Faudio`. You can also run\n\n```bash\npython draw.py\n```\n\nto help you select validation data (you can adjust the parameters in `draw.py` to modify the number of extracted files and other parameters)\n\nThen run the preprocessor:\n\n```bash\npython preprocess.py -c configs\u002Freflow.yaml -j \u003Cnumber of processes>\n```\n\nNOTE 1: The default configuration is suitable for with RTX-4060 graphics card.\n\nNOTE 2: Please keep the sampling rate of all audio clips consistent with the sampling rate in the yaml configuration file ! If it is not consistent, the program can be executed safely, but the resampling during the training process will be very slow.\n\nNOTE 3: The total number of the audio clips for training dataset is recommended to be about 1000, especially long audio clip can be cut into short segments, which will speed up the training, but the duration of all audio clips should not be less than 2 seconds. If there are too many audio clips, you need a large internal-memory or set the 'cache_all_data' option to false in the configuration file.\n\nNOTE 4: The total number of the audio clips for validation dataset is recommended to be about 10, please don't put too many or it will be very slow to do the validation.\n\nNOTE 5: If your dataset is not very high quality, set 'f0_extractor' to 'rmvpe' in the config file.\n\nNOTE 6: Multi-speaker training is supported now. The 'n_spk' parameter in configuration file controls whether it is a multi-speaker model. If you want to train a **multi-speaker** model, audio folders need to be named with **positive integers not greater than 'n_spk'** to represent speaker ids, the directory structure is like below:\n\n```bash\n# training dataset\n# the 1st speaker\ndata\u002Ftrain\u002Faudio\u002F1\u002Faaa.wav\ndata\u002Ftrain\u002Faudio\u002F1\u002Fbbb.wav\n...\n# the 2nd speaker\ndata\u002Ftrain\u002Faudio\u002F2\u002Fccc.wav\ndata\u002Ftrain\u002Faudio\u002F2\u002Fddd.wav\n...\n\n# validation dataset\n# the 1st speaker\ndata\u002Fval\u002Faudio\u002F1\u002Feee.wav\ndata\u002Fval\u002Faudio\u002F1\u002Ffff.wav\n...\n# the 2nd speaker\ndata\u002Fval\u002Faudio\u002F2\u002Fggg.wav\ndata\u002Fval\u002Faudio\u002F2\u002Fhhh.wav\n...\n```\n\nIf 'n_spk' \\= 1, The directory structure of the **single speaker** model is still supported, which is like below:\n\n```bash\n# training dataset\ndata\u002Ftrain\u002Faudio\u002Faaa.wav\ndata\u002Ftrain\u002Faudio\u002Fbbb.wav\n...\n# validation dataset\ndata\u002Fval\u002Faudio\u002Fccc.wav\ndata\u002Fval\u002Faudio\u002Fddd.wav\n...\n```\n\n## 4. Training\n\n```bash\npython train_reflow.py -c configs\u002Freflow.yaml\n```\n\nAfter training starts, a weight is temporarily saved every ‘interval_val’ step, and a weight is permanently saved every ‘interval_force_save’ step. These two configuration items can be modified according to the situation.\n\nYou can safely interrupt training, then running the same command line will resume training.\n\nYou can also finetune the model if you interrupt training first, then re-preprocess the new dataset or change the training parameters (batchsize, lr etc.) and then run the same command line.\n\n## 5. Visualization\n\n```bash\n# check the training status using tensorboard\ntensorboard --logdir=exp\n```\n\nTest audio samples will be visible in TensorBoard after the first validation.\n\n\n## 6. Non-real-time VC\n\n```bash\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_ckpt.pt> -o \u003Coutput.wav> -k \u003Ckeychange (semitones)> -id \u003Cspeaker_id> -step \u003Cinfer_step> -method \u003Cmethod> -ts \u003Ct_start>\n```\n\n'infer_step' is the number of sampling steps for rectified-flow ODE, 'method' is 'euler' or 'rk4', 't_start' is the start time point of ODE, which needs to be larger than or equal to t_start in the configuration file, it is recommended to keep it equal (the default is 0.0).\n\nYou can use \"-mix\" option to design your own vocal timbre, below is an example:\n\n```bash\n# Mix the timbre of 1st and 2nd speaker in a 0.5 to 0.5 ratio\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_file.pt> -o \u003Coutput.wav> -k \u003Ckeychange (semitones)> -mix \"{1:0.5, 2:0.5}\" -eak 0\n```\n\nOther options about the f0 extractor and response threhold，see:\n\n```bash\npython main_reflow.py -h\n```\n\n## 7. Real-time VC\n\nStart a simple GUI with the following command:\n\n```bash\npython gui_reflow.py\n```\n\nThe front-end uses technologies such as sliding window, cross-fading, SOLA-based splicing and contextual semantic reference, which can achieve sound quality close to non-real-time synthesis with low latency and resource occupation.\n\n## 8. Acknowledgement\n\n- [ddsp](https:\u002F\u002Fgithub.com\u002Fmagenta\u002Fddsp)\n\n- [pc-ddsp](https:\u002F\u002Fgithub.com\u002Fyxlllc\u002Fpc-ddsp)\n\n- [soft-vc](https:\u002F\u002Fgithub.com\u002Fbshall\u002Fsoft-vc)\n\n- [ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec)\n\n- [DiffSinger (OpenVPI version)](https:\u002F\u002Fgithub.com\u002Fopenvpi\u002FDiffSinger)\n\n- [Diff-SVC](https:\u002F\u002Fgithub.com\u002Fprophesier\u002Fdiff-svc)\n\n- [Diffusion-SVC](https:\u002F\u002Fgithub.com\u002FCNChTu\u002FDiffusion-SVC)\n\n- [SO-VITS-SVC](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)\n","语言：**英语** [简体中文](.\u002Fcn_README.md)\n\n# DDSP-SVC\n\n## 0. 引言\n\nDDSP-SVC 是一个开源的歌声转换项目，致力于开发可在个人电脑上普及使用的免费 AI 变声软件。\n\n与著名的 [SO-VITS-SVC](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc) 相比，它的训练和合成对计算机硬件的要求要低得多，训练时间可以缩短几个数量级，接近 [RVC](https:\u002F\u002Fgithub.com\u002FRVC-Project\u002FRetrieval-based-Voice-Conversion-WebUI) 的训练速度。\n\n此外，在进行实时变声时，该项目的硬件资源消耗明显低于 SO-VITS-SVC，但可能略高于最新版本的 RVC。\n\n尽管 DDSP 的原始合成质量并不理想（在训练过程中可以通过 TensorBoard 听到原始输出），但在使用预训练的声码器增强器（旧版）或浅层扩散模型（新版）提升音质后，对于某些数据集而言，其合成质量可以达到不亚于 SOVITS-SVC 和 RVC 的水平。\n\n免责声明：请确保仅使用 **合法获取的授权数据** 来训练 DDSP-SVC 模型，并且不得将这些模型及其生成的任何音频用于非法目的。本仓库的作者不对因使用这些模型检查点及音频而引起的任何侵权、欺诈或其他违法行为承担责任。\n\n更新日志：我懒得翻译了，请查看中文版 README。\n\n## 1. 安装依赖\n\n我们建议先从 [官方网站](https:\u002F\u002Fpytorch.org\u002F) 安装 PyTorch，然后运行：\n\n```bash\npip install -r requirements.txt\n```\n\nPython 3.11（Windows）+ CUDA 13.0 + PyTorch 2.9.1 + TorchAudio 2.9.1 可以正常工作。\n\n## 2. 配置预训练模型\n\n- 特征编码器（仅选择一个）：\n\n(1) 下载预训练的 [ContentVec](https:\u002F\u002Fhuggingface.co\u002Flengyue233\u002Fcontent-vec-best\u002Fresolve\u002Fmain\u002Fpytorch_model.bin?download=true) 编码器，并将其放入 `pretrain\u002Fcontentvec` 文件夹中。\n\n(2) 下载预训练的 [HubertSoft](https:\u002F\u002Fgithub.com\u002Fbshall\u002Fhubert\u002Freleases\u002Fdownload\u002Fv0.1\u002Fhubert-soft-0d54a1f4.pt) 编码器，并将其放入 `pretrain\u002Fhubert` 文件夹中，同时修改配置文件。\n\n- 声码器：\n\n下载并解压预训练的 [NSF-HiFiGAN](https:\u002F\u002Fgithub.com\u002Fopenvpi\u002Fvocoders\u002Freleases\u002Fdownload\u002Fpc-nsf-hifigan-44.1k-hop512-128bin-2025.02\u002Fpc_nsf_hifigan_44.1k_hop512_128bin_2025.02.zip) 声码器，\n\n或者使用 https:\u002F\u002Fgithub.com\u002Fopenvpi\u002FSingingVocoders 项目对声码器进行微调以获得更高的音质。\n\n然后重命名检查点文件，并将其放置在配置文件中 ‘vocoder.ckpt’ 参数指定的位置。默认值为 `pretrain\u002Fnsf_hifigan\u002Fmodel`。声码器的 ‘config.json’ 文件需要位于同一目录下，例如 `pretrain\u002Fnsf_hifigan\u002Fconfig.json`。\n\n- 基频提取器：\n\n下载预训练的 [RMVPE](https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FRMVPE\u002Freleases\u002Fdownload\u002F230917\u002Frmvpe.zip) 提取器，并将其解压到 `pretrain\u002F` 文件夹中。\n\n## 3. 数据预处理\n\n将所有训练数据集（.wav 格式的音频片段）放入以下目录：`data\u002Ftrain\u002Faudio`。将所有验证数据集（.wav 格式的音频片段）放入以下目录：`data\u002Fval\u002Faudio`。你也可以运行\n\n```bash\npython draw.py\n```\n\n来帮助你选择验证数据（你可以调整 `draw.py` 中的参数来修改提取文件的数量及其他参数）。\n\n然后运行预处理器：\n\n```bash\npython preprocess.py -c configs\u002Freflow.yaml -j \u003C进程数>\n```\n\n注意 1：默认配置适用于 RTX-4060 显卡。\n\n注意 2：请确保所有音频片段的采样率与 yaml 配置文件中的采样率一致！如果不一致，程序仍可安全执行，但训练过程中的重采样会非常缓慢。\n\n注意 3：建议训练数据集中的音频片段总数约为 1000 个，尤其是较长的音频可以切割成较短的片段，这样可以加快训练速度，但每个音频片段的时长不应少于 2 秒。如果音频片段过多，则需要较大的内存，或者在配置文件中将 ‘cache_all_data’ 选项设置为 false。\n\n注意 4：建议验证数据集中的音频片段总数约为 10 个，不要放太多，否则验证过程会非常缓慢。\n\n注意 5：如果你的数据集质量不是很高，可以在配置文件中将 ‘f0_extractor’ 设置为 ‘rmvpe’。\n\n注意 6：目前支持多说话人训练。配置文件中的 ‘n_spk’ 参数控制是否为多说话人模型。如果你想训练一个 **多说话人** 模型，音频文件夹需要以 **不大于 ‘n_spk’ 的正整数** 命名，用来表示说话人 ID，目录结构如下：\n\n```bash\n# 训练数据集\n# 第 1 位说话人\ndata\u002Ftrain\u002Faudio\u002F1\u002Faaa.wav\ndata\u002Ftrain\u002Faudio\u002F1\u002Fbbb.wav\n...\n# 第 2 位说话人\ndata\u002Ftrain\u002Faudio\u002F2\u002Fccc.wav\ndata\u002Ftrain\u002Faudio\u002F2\u002Fddd.wav\n...\n\n# 验证数据集\n# 第 1 位说话人\ndata\u002Fval\u002Faudio\u002F1\u002Feee.wav\ndata\u002Fval\u002Faudio\u002F1\u002Ffff.wav\n...\n# 第 2 位说话人\ndata\u002Fval\u002Faudio\u002F2\u002Fggg.wav\ndata\u002Fval\u002Faudio\u002F2\u002Fhhh.wav\n...\n```\n\n如果 ‘n_spk’ = 1，则仍然支持 **单说话人** 模型的目录结构，如下所示：\n\n```bash\n# 训练数据集\ndata\u002Ftrain\u002Faudio\u002Faaa.wav\ndata\u002Ftrain\u002Faudio\u002Fbbb.wav\n...\n# 验证数据集\ndata\u002Fval\u002Faudio\u002Fccc.wav\ndata\u002Fval\u002Faudio\u002Fddd.wav\n...\n```\n\n## 4. 训练\n\n```bash\npython train_reflow.py -c configs\u002Freflow.yaml\n```\n\n训练开始后，每经过 ‘interval_val’ 步骤会临时保存一次权重，每经过 ‘interval_force_save’ 步骤则会永久保存一次权重。这两个配置项可以根据实际情况进行调整。\n\n你可以安全地中断训练，之后再次运行相同的命令行即可恢复训练。\n\n你也可以在中断训练后对模型进行微调：重新预处理新数据集或更改训练参数（batchsize、lr 等），然后再运行相同的命令行。\n\n## 5. 可视化\n\n```bash\n# 使用 TensorBoard 查看训练状态\ntensorboard --logdir=exp\n```\n\n首次验证完成后，TensorBoard 中将显示测试音频样本。\n\n\n## 6. 非实时 VC\n\n```bash\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_ckpt.pt> -o \u003Coutput.wav> -k \u003C音高变化（半音）> -id \u003C说话人ID> -step \u003Cinfer_step> -method \u003Cmethod> -ts \u003Ct_start>\n```\n\n‘infer_step’ 是修正流 ODE 的采样步数，‘method’ 可以是 ‘euler’ 或 ‘rk4’，‘t_start’ 是 ODE 的起始时间点，必须大于或等于配置文件中的 t_start，默认值为 0.0，建议保持一致。\n\n你可以使用 “-mix” 选项来自定义自己的声音音色，示例如下：\n\n```bash\n\n# 将第1和第2个声码器的音色以0.5:0.5的比例混合\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_file.pt> -o \u003Coutput.wav> -k \u003C音高变化（半音）> -mix \"{1:0.5, 2:0.5}\" -eak 0\n```\n\n有关f0提取器和响应阈值的其他选项，请参阅：\n\n```bash\npython main_reflow.py -h\n```\n\n## 7. 实时语音转换\n\n使用以下命令启动一个简单的GUI界面：\n\n```bash\npython gui_reflow.py\n```\n\n前端采用了滑动窗口、交叉淡入淡出、基于SOLA的拼接以及上下文语义参考等技术，能够在低延迟和较低资源占用的情况下，实现接近于非实时合成的音质。\n\n## 8. 致谢\n\n- [ddsp](https:\u002F\u002Fgithub.com\u002Fmagenta\u002Fddsp)\n\n- [pc-ddsp](https:\u002F\u002Fgithub.com\u002Fyxlllc\u002Fpc-ddsp)\n\n- [soft-vc](https:\u002F\u002Fgithub.com\u002Fbshall\u002Fsoft-vc)\n\n- [ContentVec](https:\u002F\u002Fgithub.com\u002Fauspicious3000\u002Fcontentvec)\n\n- [DiffSinger（OpenVPI版本）](https:\u002F\u002Fgithub.com\u002Fopenvpi\u002FDiffSinger)\n\n- [Diff-SVC](https:\u002F\u002Fgithub.com\u002Fprophesier\u002Fdiff-svc)\n\n- [Diffusion-SVC](https:\u002F\u002Fgithub.com\u002FCNChTu\u002FDiffusion-SVC)\n\n- [SO-VITS-SVC](https:\u002F\u002Fgithub.com\u002Fsvc-develop-team\u002Fso-vits-svc)","# DDSP-SVC 快速上手指南\n\nDDSP-SVC 是一个开源的歌声变声项目，旨在提供可在个人电脑上普及的免费 AI 变声软件。相比 SO-VITS-SVC，它对硬件要求更低，训练速度提升数个数量级（接近 RVC），且在实时变声时资源消耗显著降低。通过预训练声码器增强或浅层扩散模型，其合成质量可媲美主流方案。\n\n> **免责声明**：请确保仅使用**合法获得授权的数据**训练模型，严禁将模型及其合成音频用于非法用途。作者不对任何侵权行为负责。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**：Windows \u002F Linux\n- **Python 版本**：推荐 3.11 (Windows)\n- **CUDA 版本**：推荐 13.0 (需与 PyTorch 版本匹配)\n- **显卡建议**：默认配置适合 RTX 4060 及以上显卡\n- **内存建议**：若数据集较大，需大内存或在配置中关闭 `cache_all_data`\n\n### 前置依赖\n建议先从 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002F) 安装对应版本的 PyTorch，然后安装其他依赖。\n\n## 2. 安装步骤\n\n### 2.1 安装 Python 依赖\n```bash\npip install -r requirements.txt\n```\n*注：测试通过的组合为 python 3.11 + cuda 13.0 + torch 2.9.1 + torchaudio 2.9.1*\n\n### 2.2 配置预训练模型\n需手动下载以下文件并放置到指定目录：\n\n1.  **特征编码器 (二选一)**\n    *   **ContentVec** (推荐): 下载 [pytorch_model.bin](https:\u002F\u002Fhuggingface.co\u002Flengyue233\u002Fcontent-vec-best\u002Fresolve\u002Fmain\u002Fpytorch_model.bin?download=true) 至 `pretrain\u002Fcontentvec` 文件夹。\n    *   **HubertSoft**: 下载模型至 `pretrain\u002Fhubert` 文件夹，并修改配置文件。\n\n2.  **声码器 (Vocoder)**\n    *   下载并解压 [NSF-HiFiGAN](https:\u002F\u002Fgithub.com\u002Fopenvpi\u002Fvocoders\u002Freleases\u002Fdownload\u002Fpc-nsf-hifigan-44.1k-hop512-128bin-2025.02\u002Fpc_nsf_hifigan_44.1k_hop512_128bin_2025.02.zip)。\n    *   重命名检查点文件，路径需在配置文件的 `vocoder.ckpt` 参数中指定（默认 `pretrain\u002Fnsf_hifigan\u002Fmodel`）。\n    *   确保 `config.json` 与模型文件在同一目录（如 `pretrain\u002Fnsf_hifigan\u002Fconfig.json`）。\n\n3.  **音高提取器**\n    *   下载 [RMVPE](https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FRMVPE\u002Freleases\u002Fdownload\u002F230917\u002Frmvpe.zip) 并解压至 `pretrain\u002F` 文件夹。\n\n## 3. 数据预处理\n\n### 3.1 准备数据集\n将训练集和验证集的 `.wav` 音频片段放入以下目录：\n- 训练集：`data\u002Ftrain\u002Faudio`\n- 验证集：`data\u002Fval\u002Faudio`\n\n**多说话人支持**：\n若训练多说话人模型，需在配置文件中设置 `n_spk`，并将音频按说话人 ID（正整数）放入子文件夹，结构如下：\n```bash\ndata\u002Ftrain\u002Faudio\u002F1\u002Fspeaker1_audio.wav\ndata\u002Ftrain\u002Faudio\u002F2\u002Fspeaker2_audio.wav\n```\n若 `n_spk = 1`，可直接将文件平铺在 `audio` 目录下。\n\n> **注意**：\n> 1. 所有音频采样率必须与 yaml 配置文件中的设置一致，否则训练时会因重采样导致极慢。\n> 2. 建议训练集约 1000 条，验证集约 10 条。\n> 3. 单条音频时长不应少于 2 秒，长音频可切割以加速训练。\n> 4. 若数据质量一般，请在配置文件中将 `f0_extractor` 设为 `rmvpe`。\n\n### 3.2 运行预处理\n```bash\npython preprocess.py -c configs\u002Freflow.yaml -j \u003C进程数>\n```\n*可选：运行 `python draw.py` 辅助选择验证数据。*\n\n## 4. 模型训练\n\n启动训练命令：\n```bash\npython train_reflow.py -c configs\u002Freflow.yaml\n```\n\n- **断点续训**：安全中断后，再次运行相同命令即可自动恢复。\n- **微调**：中断训练 -> 重新预处理新数据或调整参数（如 batchsize, lr）-> 运行相同命令。\n- **监控**：使用 TensorBoard 查看训练状态和试听样本。\n  ```bash\n  tensorboard --logdir=exp\n  ```\n\n## 5. 基本使用\n\n### 5.1 非实时变声 (离线推理)\n将输入音频转换为指定说话人的声音：\n```bash\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_ckpt.pt> -o \u003Coutput.wav> -k \u003C变调半音数> -id \u003C说话人 ID> -step \u003C采样步数> -method \u003Ceuler 或 rk4> -ts \u003Ct_start>\n```\n**音色混合示例** (混合 1 号和 2 号说话人，比例各 0.5)：\n```bash\npython main_reflow.py -i \u003Cinput.wav> -m \u003Cmodel_file.pt> -o \u003Coutput.wav> -k \u003C变调半音数> -mix \"{1:0.5, 2:0.5}\" -eak 0\n```\n\n### 5.2 实时变声\n启动简易图形界面进行实时变声：\n```bash\npython gui_reflow.py\n```\n该界面采用了滑动窗口、交叉淡入淡出及基于 SOLA 的拼接技术，能在低延迟和低资源占用下实现接近离线合成的音质。","独立音乐人小林想将自己录制的粗糙 Demo 快速转换为特定歌手的音色，以制作高质量试听小样，但他仅拥有一台配置普通的家用游戏本。\n\n### 没有 DDSP-SVC 时\n- **硬件门槛过高**：主流的高精度歌声转换模型（如 SO-VITS-SVC）对显存要求极高，小林的电脑在训练时频繁爆显存或直接无法运行。\n- **时间成本巨大**：即便勉强运行，训练一个可用模型往往需要数天甚至更久，严重拖慢创作迭代节奏。\n- **实时体验卡顿**：尝试进行实时变声测试时，延迟高达数百毫秒且风扇狂转，根本无法用于直播或即时监听。\n- **音质与效率难兼得**：若为了速度降低模型复杂度，合成出的声音又充满机械感，缺乏情感细节，无法满足发行标准。\n\n### 使用 DDSP-SVC 后\n- **低配设备流畅跑**：得益于可微数字信号处理架构，DDSP-SVC 在小林的 RTX 4060 显卡上即可轻松完成训练与推理，资源占用显著降低。\n- **训练速度飞跃**：模型训练时间从“天”级缩短至“小时”甚至分钟级，让小林能在一下午内尝试多种音色方案。\n- **低延迟实时变声**：在进行实时演唱测试时，系统延迟极低且运行平稳，实现了接近原声的自然听感与即时反馈。\n- **音质大幅增强**：结合预训练的 NSF-HiFiGAN 声码器或浅层扩散模型，最终输出的歌声清晰自然，细节丰富度媲美大型模型。\n\nDDSP-SVC 通过极致的效率优化，让普通创作者也能在个人电脑上低成本、高效率地实现专业级的歌声转换与实时互动。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyxlllc_DDSP-SVC_e89828b1.png","yxlllc","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyxlllc_bdc61fa5.jpg",null,"https:\u002F\u002Fgithub.com\u002Fyxlllc",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,2525,282,"2026-04-03T10:48:05","MIT","Windows","需要 NVIDIA GPU，推荐 RTX 4060，需支持 CUDA 13.0","未说明（若数据集过大需大内存或关闭 cache_all_data）",{"notes":92,"python":93,"dependencies":94},"默认配置针对 RTX 4060 显卡优化；训练数据音频采样率需与配置文件一致；建议训练集约 1000 条片段（每条不少于 2 秒），验证集约 10 条；支持多说话人训练，需按数字命名文件夹；实时变声功能包含简易 GUI；请务必使用合法授权数据进行训练。","3.11",[95,96,97,98,99,100],"torch==2.9.1","torchaudio==2.9.1","ContentVec","HubertSoft","NSF-HiFiGAN","RMVPE",[13],[103],"pytorch","2026-03-27T02:49:30.150509","2026-04-06T07:14:21.977528",[107,112,117,122,127,132],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},13983,"训练时出现 'nan loss' 错误如何解决？","首先尝试使用默认参数进行训练。如果问题依旧，可能是代码中的误差检查过于严格导致的。有用户反馈在 `solver.py` 文件中移除相关的 `else raise error` 语句后可以继续训练，但这可能会影响模型稳定性。建议优先检查数据预处理是否正确或降低学习率。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F69",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},13984,"项目是否支持中文 Hubert 模型以改善标注效果？应该选择哪个模型？","项目已支持中文预训练模型。在腾讯提供的 `chinese-wav2vec2-base`、`chinese-wav2vec2-large`、`chinese-hubert-base`、`chinese-hubert-large` 四个模型中，本项目仅支持 `chinese-hubert-base` 模型。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F33",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},13985,"在没有 GPU 或使用 CPU 版本 PyTorch 时，运行预处理脚本报错（如 RMVPE 加载失败）怎么办？","这是因为模型默认尝试加载到 CUDA 设备。解决方法有两种：\n1. 修改代码：在 `encoder\u002Frmvpe\u002Finference.py` 第 14 行，将 `torch.load(model_path)` 改为 `torch.load(model_path, map_location='cpu')`。\n2. 更换配置：在配置文件（如 `combsub.yaml`）中将 F0 提取器从 `RMVPE` 切换为 `Parselmouth`。\n此外，如果遇到其他兼容性问题，请尝试将 `numpy` 降级到 1.x 版本。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F132",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},13986,"在 Windows 上运行时遇到 'ModuleNotFoundError: No module named jaxlib' 错误如何解决？","这是因为 `transformers` 库依赖 `jax`，但默认未安装 `jaxlib`。对于 Windows CPU 用户，可以通过以下命令安装兼容版本的 jax：\n`pip install \"jax[cpu]===0.4.11\" -f https:\u002F\u002Fwhls.blob.core.windows.net\u002Funstable\u002Findex.html --use-deprecated legacy-resolver`\n安装完成后即可正常运行。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F67",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},13987,"是否有适用于 ContentVec 编码器的预训练模型？","官方发布的预训练模型主要适用于 Hubertsoft 编码器。如果需要针对 ContentVec 编码器进行推理或训练，通常需要自行训练模型，或者在社区中寻找第三方分享的特定于 ContentVec 的 `.pt` 模型文件及对应的配置文件（yaml）。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F48",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},13988,"如何在 Google Colab 上快速开始使用 DDSP-SVC？","项目提供了专门的 Colab 笔记本用于快速体验。用户可以点击项目 Issue 或 README 中的 \"Open in Colab\" 徽章链接直接打开环境。注意部分旧版 Colab 链接可能已停止更新，建议查看最新发布的笔记本地址。如果在运行中遇到 TensorBoard 重复加载警告，可以使用 `%reload_ext tensorboard` 重载或使用 `!kill \u003Cpid>` 终止旧进程。","https:\u002F\u002Fgithub.com\u002Fyxlllc\u002FDDSP-SVC\u002Fissues\u002F4",[138,143,148,153,158,163],{"id":139,"version":140,"summary_zh":141,"released_at":142},80752,"5.0","`model_0.pt` 是一个使用 contentvec768l12 编码器的预训练模型。\n从头开始训练（不使用预训练模型）的示例请见[这里](https:\u002F\u002Fwww.bilibili.com\u002Faudio\u002Fau4270993)。","2024-02-08T09:46:31",{"id":144,"version":145,"summary_zh":146,"released_at":147},80753,"4.0","将演示模型解压到 `exp` 目录下，将示例音频解压到主目录，然后运行演示样本：\r\n```bash\r\n# opencpop（第1位说话人）\r\npython main_diff.py -i samples\u002Fsource.wav -diff exp\u002Fdiffusion-new-demo\u002Fmodel_200000.pt -o samples\u002Fsvc-opencpop+12key.wav -id 1 -k 12 -kstep 100\r\n# kiritan（第2位说话人）\r\npython main_diff.py -i samples\u002Fsource.wav -diff exp\u002Fdiffusion-new-demo\u002Fmodel_200000.pt -o samples\u002Fsvc-kiritan+12key.wav -id 2 -k 12 -kstep 100\r\n# 将 opencpop 和 kiritan 的音色以 0.5:0.5 的比例混合\r\npython main_diff.py -i samples\u002Fsource.wav -diff exp\u002Fdiffusion-new-demo\u002Fmodel_200000.pt -o samples\u002Fsvc-opencpop_kiritan_mix+12key.wav -mix \"{1:0.5,2:0.5}\" -k 12 -kstep 100\r\n```\r\n该双说话人模型的训练数据来自 [opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F) 和 [kiritan](https:\u002F\u002Fzunko.jp\u002Fkiridev\u002Flogin.php)。\n\n感谢 [CN_ChiTu](https:\u002F\u002Fgithub.com\u002FCNChTu) 帮助训练此模型。","2023-08-15T15:47:11",{"id":149,"version":150,"summary_zh":151,"released_at":152},80754,"3.0","将两个演示模型解压到 `exp` 目录下，然后运行演示示例：\r\n```bash\r\n# opencpop（第1位说话人）\r\npython main_diff.py -i samples\u002Fsource.wav -ddsp exp\u002Fddsp-demo\u002Fmodel_300000.pt -diff exp\u002Fdiffusion-demo\u002Fmodel_400000.pt -o samples\u002Fsvc-opencpop+12key.wav -id 1 -k 12 -kstep 300\r\n# kiritan（第2位说话人）\r\npython main_diff.py -i samples\u002Fsource.wav -ddsp exp\u002Fddsp-demo\u002Fmodel_300000.pt -diff exp\u002Fdiffusion-demo\u002Fmodel_400000.pt -o samples\u002Fsvc-kiritan+12key.wav -id 2 -k 12 -kstep 300\r\n# 将 opencpop 和 kiritan 的音色以 0.5:0.5 的比例混合\r\npython main_diff.py -i samples\u002Fsource.wav -ddsp exp\u002Fddsp-demo\u002Fmodel_300000.pt -diff exp\u002Fdiffusion-demo\u002Fmodel_400000.pt -o samples\u002Fsvc-opencpop_kiritan_mix+12key.wav -mix \"{1:0.5,2:0.5}\" -k 12 -kstep 300\r\n```\r\n该双说话人模型的训练数据来自 [opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F) 和 [kiritan](https:\u002F\u002Fzunko.jp\u002Fkiridev\u002Flogin.php)。\n\n感谢 [lafi2333](https:\u002F\u002Fgithub.com\u002Flafi2333) 帮助训练这些演示模型。","2023-05-13T18:45:47",{"id":154,"version":155,"summary_zh":156,"released_at":157},80755,"2.0","将预训练模型解压到 `exp` 目录下，然后运行示例代码：\r\n```bash\r\n# opencpop（第1位说话人）\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop+12key.wav -k 12 -id 1\r\n# kiritan（第2位说话人）\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-kiritan+12key.wav -k 12 -id 2\r\n# 将 opencpop 和 kiritan 的音色以 0.5:0.5 的比例混合\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop_kiritan_mix+12key.wav -k 12 -mix \"{1:0.5, 2:0.5}\"\r\n```\r\n该双说话人模型的训练数据来自 [opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F) 和 [kiritan](https:\u002F\u002Fzunko.jp\u002Fkiridev\u002Flogin.php)。\n\n感谢 [CN_ChiTu](https:\u002F\u002Fgithub.com\u002FCNChTu) 帮助训练此模型。","2023-03-21T16:46:31",{"id":159,"version":160,"summary_zh":161,"released_at":162},80756,"1.1","将预训练模型解压到 `exp` 目录下，然后运行示例脚本：\r\n```bash\r\n# opencpop（第1位音色）\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop+12key.wav -k 12 -pe crepe -e true -id 1\r\n# kiritan（第2位音色）\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-kiritan+12key.wav -k 12 -pe crepe -e true -id 2\r\n# 将 opencpop 和 kiritan 的音色以 0.5:0.5 的比例混合\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fmulti_speaker\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop_kiritan_mix+12key.wav -k 12 -pe crepe -e true -mix \"{1:0.5, 2:0.5}\"\r\n```\r\n该双音色模型的训练数据来自 [opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F) 和 [kiritan](https:\u002F\u002Fzunko.jp\u002Fkiridev\u002Flogin.php)。\n\n感谢 [CN_ChiTu](https:\u002F\u002Fgithub.com\u002FCNChTu) 帮助训练此模型。","2023-03-08T14:02:05",{"id":164,"version":165,"summary_zh":166,"released_at":167},80757,"1.0","将预训练模型解压到 `exp` 目录下，然后运行示例代码：\r\n```bash\r\n# 原始输出\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fopencpop\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop+10key-origin.wav -k 10 -pe crepe\r\n# 增强输出\r\npython main.py -i samples\u002Fsource.wav -m exp\u002Fopencpop\u002Fmodel_300000.pt -o samples\u002Fsvc-opencpop+10key-enhance.wav -k 10 -pe crepe -e true\r\n```\r\n训练数据来自 [opencpop](https:\u002F\u002Fwenet.org.cn\u002Fopencpop\u002F)。","2023-03-05T03:08:36"]