[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-modelscope--ClearerVoice-Studio":3,"tool-modelscope--ClearerVoice-Studio":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":77,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":32,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":101,"github_topics":104,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":154},6041,"modelscope\u002FClearerVoice-Studio","ClearerVoice-Studio","An AI-Powered Speech Processing Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Enhancement, Separation, and Target Speaker Extraction, etc.","ClearerVoice-Studio 是一款由阿里巴巴开源的 AI 语音处理工具箱，旨在利用先进的人工智能技术让声音更清晰。它核心解决了复杂声学环境下的语音质量问题，能够有效去除背景噪音、分离重叠的人声、提取特定说话人语音，甚至将低采样率的模糊音频“超分辨率”重建为高保真音质。\n\n无论是需要快速部署能力的开发者、致力于算法研究的研究人员，还是希望优化音频体验的普通用户，都能从中受益。对于技术人员，ClearerVoice-Studio 提供了业界领先的预训练模型、完整的训练与推理脚本，并支持灵活的 NumPy 数组调用接口，便于集成到各类流水线中；近期更新还增加了多种无参考评价指标和非侵入式评估工具，方便量化模型效果。对于非专业用户，项目提供了 HuggingFace 和 ModelScope 在线演示，无需配置环境即可体验强大的降噪与音质增强功能。\n\n该工具的显著亮点在于其广泛的格式兼容性（支持 MP3、AAC 等十余种格式及立体声处理）以及持续迭代的前沿能力，如带宽扩展技术可将 16kHz 音频提升至 48kHz。凭借开箱即用的特性和活跃的社区维护，ClearerVoice-St","ClearerVoice-Studio 是一款由阿里巴巴开源的 AI 语音处理工具箱，旨在利用先进的人工智能技术让声音更清晰。它核心解决了复杂声学环境下的语音质量问题，能够有效去除背景噪音、分离重叠的人声、提取特定说话人语音，甚至将低采样率的模糊音频“超分辨率”重建为高保真音质。\n\n无论是需要快速部署能力的开发者、致力于算法研究的研究人员，还是希望优化音频体验的普通用户，都能从中受益。对于技术人员，ClearerVoice-Studio 提供了业界领先的预训练模型、完整的训练与推理脚本，并支持灵活的 NumPy 数组调用接口，便于集成到各类流水线中；近期更新还增加了多种无参考评价指标和非侵入式评估工具，方便量化模型效果。对于非专业用户，项目提供了 HuggingFace 和 ModelScope 在线演示，无需配置环境即可体验强大的降噪与音质增强功能。\n\n该工具的显著亮点在于其广泛的格式兼容性（支持 MP3、AAC 等十余种格式及立体声处理）以及持续迭代的前沿能力，如带宽扩展技术可将 16kHz 音频提升至 48kHz。凭借开箱即用的特性和活跃的社区维护，ClearerVoice-Studio 正成为语音增强领域不可或缺的高效助手。","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_ClearerVoice-Studio_readme_5448474ebf08.png\" width=\"768\" height=\"192\">\n\u003C\u002Fdiv>\n\n\u003Cstrong>ClearerVoice-Studio\u003C\u002Fstrong> is an open-source, AI-powered speech processing toolkit designed for researchers, developers, and end-users. It provides capabilities of speech enhancement, speech separation, speech super-resolution, target speaker extraction, and more. The toolkit provides state-of-the-art pre-trained models, along with training and inference scripts, all accessible from this repository.\n \n#### 👉🏻[HuggingFace Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FClearVoice)👈🏻  | 👉🏻[ModelScope Demo](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002FClearerVoice-Studio) ｜ 👉🏻[SpeechScore Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FSpeechScore)👈🏻 ｜ 👉🏻[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.19398)👈🏻 \n\n---\n![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmodelscope\u002FClearerVoice-Studio) Please leave your ⭐ on our GitHub to support this community project！\n\n记得点击右上角的星星⭐来支持我们一下，您的支持是我们更新模型的最大动力！\n\n## News :fire:\n- Upcoming: More tasks will be added to ClearVoice.\n- [2025.6] Add an interface for [ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice) that allows passing a Numpy array into the model and receiving its output as a NumPy array. It allows a more flexible call of the models during a training or inference pipeline. Please check out [`demo_Numpy2Numpy.py`](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002Fdemo_Numpy2Numpy.py).\n- [2025.5] Updated speechscore with more non-intrusive metrics: NISQA and DISTILL_MOS\n- [2025.4] Updated pip installation for [ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice). Now you can simply type `pip install clearvoice` to use all the pretrained models in ClearVoice, see project description in PyPi [link](https:\u002F\u002Fpypi.org\u002Fproject\u002Fclearvoice\u002F).\n- [2025.4] Added a training script for speech super-resolution, supporting both retraining and fine-tuning of models. For details, refer to the documentation [here](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fspeech_super_resolution).\n- [2025.4] Added data generation scripts for training\u002Ffinetuning speech enhancement models. The scripts generate either noisy speech or noisy-reverberant speech. Please check [here](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fdata_generation\u002Fspeech_enhancement).\n- [2025.1] ClearVoice demo is ready for try on both [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FClearVoice) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002FClearerVoice-Studio). However, HuggingFace has limited GPU usage, and ModelScope has more GPU usage quota.\n- [2025.1] ClearVoice now offers **speech super-resolution**, also known as bandwidth extension. This feature improves the perceptual quality of speech by converting low-resolution audio (with an effective sampling rate of at least 16,000 Hz) into high-resolution audio with a sampling rate of 48,000 Hz. A full upscaled **LJSpeech-1.1-48kHz dataset** can be downloaded from [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Falibabasglab\u002FLJSpeech-1.1-48kHz) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fiic\u002FLJSpeech-1.1-48kHz).\n- [2025.1] ClearVoice now supports more audio formats including **\"wav\", \"aac\", \"ac3\", \"aiff\", \"flac\", \"m4a\", \"mp3\", \"ogg\", \"opus\", \"wma\", \"webm\"**, etc. It also supports both mono and stereo channels with 16-bit or 32-bit precisions. A latest version of [ffmpeg](https:\u002F\u002Fgithub.com\u002FFFmpeg\u002FFFmpeg) is required for audio codecs.  \n- [2024.12] Upload pre-trained models on ModelScope. User now can download the models from either [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002FClearerVoice-Studio\u002Fsummary) or [Huggingface](https:\u002F\u002Fhuggingface.co\u002Falibabasglab)  \n- [2024.11] Our FRCRN speech denoiser has been used over **3.0 million** times on [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_frcrn_ans_cirm_16k)\n- [2024.11] Our MossFormer speech separator has been used over **2.5 million** times on [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_mossformer_separation_temporal_8k)\n- [2024.11] Release of this repository\n\n### 🌟 Why Choose ClearerVoice-Studio?\n\n- **Pre-Trained Models:** Includes cutting-edge pre-trained models, fine-tuned on extensive, high-quality datasets. No need to start from scratch!\n- **Ease of Use:** Designed for seamless integration with your projects, offering a simple yet flexible interface for inference and training.\n- **Comprehensive Features:** Combines advanced algorithms for multiple speech processing tasks in one platform.\n- **Community-Driven:** Built for researchers, developers, and enthusiasts to collaborate and innovate together.\n\n## Contents of this repository\nThis repository is organized into three main components: **[ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice)**, **[Train](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain)**, and **[SpeechScore](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fspeechscore)**.\n\n### 1. **ClearVoice [[Readme](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002FREADME.md)][[文档](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002FREADME.md)]**  \nClearVoice offers a user-friendly  solution for speech processing tasks such as speech denoising, separation, super-resolution, audio-visual target speaker extraction, and more. It is designed as a unified inference platform leveraged pre-trained models (e.g., [FRCRN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07293), [MossFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.11824)), all trained on extensive datasets. If you're looking for a tool to improve speech quality, ClearVoice is the perfect choice. Simply click on [`ClearVoice`](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice) and follow our detailed instructions to get started.\n\n### 2. **Train**  \nFor advanced researchers and developers, we provide model finetune and training scripts for all the tasks offerred in ClearVoice and more:\n\n- **Task 1: [Speech enhancement](train\u002Fspeech_enhancement)** (16kHz & 48kHz)\n- **Task 2: [Speech separation](train\u002Fspeech_separation)** (8kHz & 16kHz)\n- **Task 2: [Speech super-resolution](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fspeech_super_resolution)** (48kHz) \n- **Task 4: [Target speaker extraction](train\u002Ftarget_speaker_extraction)** \n  - **Sub-Task 1: Audio-only Speaker Extraction Conditioned on a Reference Speech** (8kHz)\n  - **Sub-Task 2: Audio-visual Speaker Extraction Conditioned on Face (Lip) Recording** (16kHz)\n  - **Sub-Task 3: Audio-visual Speaker Extraction Conditioned on Body Gestures** (16kHz)\n  - **Sub-Task 4: Neuro-steered Speaker Extraction Conditioned on EEG Signals** (16kHz)\n\nContributors are welcomed to include more model architectures and tasks!\n\n### 3. **SpeechScore [[Readme](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fspeechscore\u002FREADME.md)][[文档](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fspeechscore\u002FREADME.md)]**  \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fspeechscore\">`SpeechScore`\u003Ca\u002F> is a speech quality assessment toolkit. We include it here to evaluate different model performance. SpeechScore includes many popular speech metrics:\n\n- Signal-to-Noise Ratio (SNR)\n- Perceptual Evaluation of Speech Quality (PESQ)\n- Short-Time Objective Intelligibility (STOI)\n- Deep Noise Suppression Mean Opinion Score (DNSMOS)\n- Scale-Invariant Signal-to-Distortion Ratio (SI-SDR)\n- and many more quality benchmarks  \n  \n## Contact\nIf you have any comments or questions about ClearerVoice-Studio, feel free to raise an issue in this repository or contact us directly at:\n- email: {shengkui.zhao, zexu.pan}@alibaba-inc.com\n\nAlternatively, welcome to join our DingTalk group to share and discuss algorithms, technology, and user experience feedback. You may scan the following QR codes to join our official chat group. \n\n\u003Cp align=\"center\">\n  \u003Ctable>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:center;\">\n        \u003Ca href=\".\u002Fasset\u002FQR.jpg\">\u003Cimg alt=\"ClearVoice in DingTalk\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FClearVoice-DingTalk-d9d9d9\">\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n       \u003Ctd style=\"text-align:center;\">\n      \u003Cimg alt=\"Light\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_ClearerVoice-Studio_readme_f92ed232716b.png\" width=\"68%\" \u002F>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fp>\n \n## Friend Links\nCheckout some awesome Github repositories from Speech Lab of Institute for Intelligent Computing, Alibaba Group.\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FInspireMusic\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-InspireMusic?labelColor=&label=InspireMusic&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR\" target=\"_blank\">\n        \u003Cimg alt=\"Github\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-FunASR?labelColor=&label=FunASR&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FFunAudioLLM\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-FunAudioLLM?labelColor=&label=FunAudioLLM&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002F3D-Speaker\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-3DSpeaker?labelColor=&label=3D-Speaker&color=green\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\n## Acknowledge\nClearerVoice-Studio contains third-party components and code modified from some open-source repos, including: \u003Cbr>\n[Speechbrain](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain), [ESPnet](https:\u002F\u002Fgithub.com\u002Fespnet), [TalkNet-ASD\n](https:\u002F\u002Fgithub.com\u002FTaoRuijie\u002FTalkNet-ASD)\n","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_ClearerVoice-Studio_readme_5448474ebf08.png\" width=\"768\" height=\"192\">\n\u003C\u002Fdiv>\n\n\u003Cstrong>ClearerVoice-Studio\u003C\u002Fstrong> 是一款开源的、基于人工智能的语音处理工具包，专为研究人员、开发者和终端用户设计。它提供语音增强、语音分离、语音超分辨率、目标说话人提取等功能。该工具包配备了最先进的预训练模型，并附带训练和推理脚本，所有内容均可从此仓库获取。\n\n#### 👉🏻[HuggingFace 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FClearVoice)👈🏻  | 👉🏻[ModelScope 演示](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002FClearerVoice-Studio) ｜ 👉🏻[SpeechScore 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FSpeechScore)👈🏻 ｜ 👉🏻[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.19398)👈🏻 \n\n---\n![GitHub 仓库星标数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fmodelscope\u002FClearerVoice-Studio) 请在我们的 GitHub 上留下你的 ⭐，以支持这个社区项目！\n\n记得点击右上角的星星⭐来支持我们一下，您的支持是我们更新模型的最大动力！\n\n## 新闻 :fire:\n- 即将推出：ClearVoice 将新增更多任务。\n- [2025.6] 为 [ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice) 添加接口，允许将 NumPy 数组输入模型，并以 NumPy 数组形式接收输出。这使得在训练或推理流程中调用模型更加灵活。请查看 [`demo_Numpy2Numpy.py`](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002Fdemo_Numpy2Numpy.py)。\n- [2025.5] 更新了 speechscore，增加了更多非侵入式指标：NISQA 和 DISTILL_MOS。\n- [2025.4] 更新了 [ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice) 的 pip 安装方式。现在只需输入 `pip install clearvoice` 即可使用 ClearVoice 中的所有预训练模型，详情请参见 PyPi 上的项目说明 [链接](https:\u002F\u002Fpypi.org\u002Fproject\u002Fclearvoice\u002F)。\n- [2025.4] 新增了语音超分辨率的训练脚本，支持对模型进行再训练和微调。详细信息请参考文档 [这里](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fspeech_super_resolution)。\n- [2025.4] 新增了用于训练\u002F微调语音增强模型的数据生成脚本。这些脚本可以生成含噪语音或含噪混响语音。请查看 [这里](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fdata_generation\u002Fspeech_enhancement)。\n- [2025.1] ClearVoice 演示已在 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Falibabasglab\u002FClearVoice) 和 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002Fiic\u002FClearerVoice-Studio) 上开放试用。不过，HuggingFace 的 GPU 使用量有限，而 ModelScope 则有更大的 GPU 配额。\n- [2025.1] ClearVoice 现已提供 **语音超分辨率** 功能，也称为带宽扩展。该功能通过将低分辨率音频（有效采样率至少为 16,000 Hz）转换为采样率为 48,000 Hz 的高分辨率音频，从而提升语音的感知质量。完整的升采样版 **LJSpeech-1.1-48kHz 数据集** 可从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Falibabasglab\u002FLJSpeech-1.1-48kHz) 和 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fiic\u002FLJSpeech-1.1-48kHz) 下载。\n- [2025.1] ClearVoice 现在支持更多音频格式，包括 **“wav”、“aac”、“ac3”、“aiff”、“flac”、“m4a”、“mp3”、“ogg”、“opus”、“wma”、“webm”** 等。它还支持单声道和立体声通道，以及 16 位或 32 位精度。使用这些音频编解码器需要最新版本的 [ffmpeg](https:\u002F\u002Fgithub.com\u002FFFmpeg\u002FFFmpeg)。\n- [2024.12] 将预训练模型上传至 ModelScope。用户现在可以从 [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002FClearerVoice-Studio\u002Fsummary) 或 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Falibabasglab) 下载这些模型。\n- [2024.11] 我们的 FRCRN 语音去噪器在 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_frcrn_ans_cirm_16k) 上已被使用超过 **300 万次**。\n- [2024.11] 我们的 MossFormer 语音分离器在 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002Fspeech_mossformer_separation_temporal_8k) 上已被使用超过 **250 万次**。\n- [2024.11] 本仓库正式发布。\n\n### 🌟 为什么选择 ClearerVoice-Studio？\n\n- **预训练模型：** 包含最先进的预训练模型，并在大量高质量数据集上进行了微调。无需从零开始！\n- **易用性：** 设计便于无缝集成到您的项目中，提供简单而灵活的推理和训练接口。\n- **功能全面：** 将多种语音处理任务的先进算法整合在一个平台上。\n- **社区驱动：** 专为研究人员、开发者和爱好者打造，旨在促进协作与创新。\n\n## 本仓库内容\n本仓库主要分为三个部分：**[ClearVoice](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice)**、**[Train](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain)** 和 **[SpeechScore](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fspeechscore)**。\n\n### 1. **ClearVoice [[Readme](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002FREADME.md)][[文档](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002FREADME.md)]**  \nClearVoice 提供了一种用户友好的解决方案，用于语音去噪、分离、超分辨率、音视频结合的目标说话人提取等语音处理任务。它被设计为一个统一的推理平台，利用预训练模型（例如 [FRCRN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07293)、[MossFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.11824)），这些模型均在大规模数据集上训练而成。如果您正在寻找一款能够提升语音质量的工具，ClearVoice 就是理想之选。只需点击 [`ClearVoice`](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fclearvoice)，按照我们的详细说明即可开始使用。\n\n### 2. **Train**  \n对于高级研究人员和开发者，我们提供了 ClearVoice 中所有任务以及其他相关任务的模型微调和训练脚本：\n\n- **任务 1：[语音增强](train\u002Fspeech_enhancement)**（16kHz 和 48kHz）\n- **任务 2：[语音分离](train\u002Fspeech_separation)**（8kHz 和 16kHz）\n- **任务 2：[语音超分辨率](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Ftrain\u002Fspeech_super_resolution)**（48kHz） \n- **任务 4：[目标说话人提取](train\u002Ftarget_speaker_extraction)** \n  - **子任务 1：仅音频条件下的说话人提取，基于参考语音**（8kHz）\n  - **子任务 2：音视频结合的说话人提取，基于面部（嘴唇）录像**（16kHz）\n  - **子任务 3：音视频结合的说话人提取，基于身体姿态**（16kHz）\n  - **子任务 4：神经引导的说话人提取，基于 EEG 信号**（16kHz）\n\n欢迎贡献者加入更多模型架构和任务！\n\n### 3. **SpeechScore [[Readme](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fspeechscore\u002FREADME.md)][[文档](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fspeechscore\u002FREADME.md)]**  \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Ftree\u002Fmain\u002Fspeechscore\">`SpeechScore`\u003Ca\u002F> 是一个语音质量评估工具包。我们在此将其纳入，用于评估不同模型的性能。SpeechScore 包含许多流行的语音指标：\n\n- 信噪比（SNR）\n- 语音质量感知评价（PESQ）\n- 短时客观可懂度（STOI）\n- 深度噪声抑制平均意见分（DNSMOS）\n- 不变尺度信干比（SI-SDR）\n- 以及更多质量基准测试  \n  \n## 联系方式\n如果您对 ClearerVoice-Studio 有任何意见或疑问，欢迎在此仓库中提交问题，或直接通过以下方式联系我们：\n- 邮箱：{shengkui.zhao, zexu.pan}@alibaba-inc.com\n\n此外，也欢迎您加入我们的钉钉群，分享和讨论算法、技术及用户体验反馈。您可以通过扫描以下二维码加入我们的官方交流群。\n\n\u003Cp align=\"center\">\n  \u003Ctable>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:center;\">\n        \u003Ca href=\".\u002Fasset\u002FQR.jpg\">\u003Cimg alt=\"ClearVoice 在钉钉\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FClearVoice-DingTalk-d9d9d9\">\u003C\u002Fa>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n       \u003Ctd style=\"text-align:center;\">\n      \u003Cimg alt=\"Light\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_ClearerVoice-Studio_readme_f92ed232716b.png\" width=\"68%\" \u002F>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fp>\n \n## 友情链接\n请查看阿里巴巴集团智能计算实验室语音组的一些优秀 GitHub 仓库。\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FInspireMusic\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-InspireMusic?labelColor=&label=InspireMusic&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR\" target=\"_blank\">\n        \u003Cimg alt=\"Github\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-FunASR?labelColor=&label=FunASR&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FFunAudioLLM\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-FunAudioLLM?labelColor=&label=FunAudioLLM&color=green\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmodelscope\u002F3D-Speaker\" target=\"_blank\">\n        \u003Cimg alt=\"Demo\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRepo | Space-3DSpeaker?labelColor=&label=3D-Speaker&color=green\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\n## 致谢\nClearerVoice-Studio 包含第三方组件，以及从一些开源项目修改而来的代码，其中包括： \u003Cbr>\n[Speechbrain](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain)、[ESPnet](https:\u002F\u002Fgithub.com\u002Fespnet)、[TalkNet-ASD\n](https:\u002F\u002Fgithub.com\u002FTaoRuijie\u002FTalkNet-ASD)","# ClearerVoice-Studio 快速上手指南\n\nClearerVoice-Studio 是一款开源的 AI 语音处理工具包，提供语音增强、语音分离、语音超分辨率（带宽扩展）、目标说话人提取等功能。本指南将帮助您快速完成环境配置并开始使用。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐), macOS, 或 Windows\n*   **Python 版本**: Python 3.8 或更高版本\n*   **硬件要求**: \n    *   推理：支持 CPU 运行，推荐使用 NVIDIA GPU 以获得更佳性能。\n    *   训练：强烈建议使用 NVIDIA GPU。\n*   **前置依赖**:\n    *   需要安装最新版本的 [ffmpeg](https:\u002F\u002Fgithub.com\u002FFFmpeg\u002FFFmpeg) 以支持多种音频格式（如 wav, mp3, flac, aac 等）的编解码。\n    *   PyTorch 环境（安装 `clearvoice` 时会自动处理相关依赖，但建议预先确认 PyTorch 是否可用）。\n\n## 2. 安装步骤\n\n您可以通过 pip 直接安装核心推理库 `clearvoice`，这是最简便的使用方式。\n\n### 方式一：通过 pip 安装（推荐）\n\n直接使用以下命令安装，它将包含所有预训练模型和推理脚本：\n\n```bash\npip install clearvoice\n```\n\n> **提示**：如果您在中国大陆地区遇到下载速度慢的问题，可以使用国内镜像源加速安装：\n> ```bash\n> pip install clearvoice -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 方式二：从源码安装（适用于开发者\u002F研究者）\n\n如果您需要运行训练脚本或修改源代码，建议克隆仓库进行安装：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio.git\ncd ClearerVoice-Studio\npip install -e .\n```\n\n## 3. 基本使用\n\n安装完成后，您可以立即调用预训练模型进行语音处理。以下是两种最常用的使用方式。\n\n### 方法 A：使用 NumPy 数组接口（灵活集成）\n\n适合在现有的 Python 训练或推理管道中直接调用，输入输出均为 NumPy 数组。\n\n```python\nimport numpy as np\nfrom clearvoice import ClearVoice\n\n# 初始化模型，例如使用语音增强模型 (FRCRN)\n# 可选任务：'enhancement', 'separation', 'super_resolution', 'extraction' 等\nmodel = ClearVoice(task='enhancement')\n\n# 准备输入音频数据 (假设已加载为 numpy 数组，采样率需符合模型要求)\n# input_audio: shape 通常为 [samples] 或 [channels, samples]\ninput_audio = np.random.randn(16000) # 示例：1 秒的随机噪声数据\n\n# 执行推理\noutput_audio = model.infer(input_audio)\n\nprint(f\"输入形状：{input_audio.shape}, 输出形状：{output_audio.shape}\")\n# output_audio 即为处理后的干净语音数据\n```\n\n*更多详细示例请参考仓库中的 [`demo_Numpy2Numpy.py`](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fblob\u002Fmain\u002Fclearvoice\u002Fdemo_Numpy2Numpy.py)。*\n\n### 方法 B：使用命令行处理音频文件\n\n适合直接对本地音频文件进行批量处理。\n\n```bash\n# 语法示例：clearvoice --task \u003C任务名> --input \u003C输入文件> --output \u003C输出文件>\n\n# 示例 1: 语音增强 (去除噪音)\nclearvoice --task enhancement --input noisySpeech.wav --output cleanSpeech.wav\n\n# 示例 2: 语音超分辨率 (将 16k 音频提升至 48k)\nclearvoice --task super_resolution --input low_res.wav --output high_res.wav\n\n# 示例 3: 语音分离 (分离混合语音中的不同说话人)\nclearvoice --task separation --input mix.wav --output separated.wav\n```\n\n**支持的任务类型 (`--task`)**:\n*   `enhancement`: 语音增强\u002F去噪\n*   `separation`: 语音分离\n*   `super_resolution`: 语音超分辨率\n*   `extraction`: 目标说话人提取\n\n---\n*如需评估处理后的语音质量，可使用同仓库下的 `SpeechScore` 工具计算 PESQ, STOI, DNSMOS 等指标。*","一位播客制作人在处理户外采访录音时，面临背景噪音大、多人对话混杂以及音频采样率低导致音质模糊的严峻挑战。\n\n### 没有 ClearerVoice-Studio 时\n- **噪音难以去除**：传统滤波器无法有效分离风声和街道嘈杂声，强行降噪会导致人声严重失真，听起来像“机器人说话”。\n- **多人对话混杂**：当受访者与路人声音重叠时，缺乏有效的源分离手段，只能手动逐帧剪辑，耗时数小时且效果不佳。\n- **音质提升受限**：原始录音仅为 16kHz 采样率，缺乏带宽扩展能力，无法将其还原为广播级的 48kHz 高保真音质。\n- **格式兼容麻烦**：面对 AAC、OPUS 等多种压缩格式，需要额外安装复杂的转码工具链才能进行统一处理。\n- **模型部署门槛高**：若想尝试最新的学术算法，需自行复现论文代码并训练模型，对非算法工程师而言几乎不可能完成。\n\n### 使用 ClearerVoice-Studio 后\n- **智能语音增强**：利用内置的 FRCRN 等 SOTA 预训练模型，一键去除背景噪音的同时完美保留人声自然度。\n- **精准目标提取**：通过目标说话人提取功能，直接从混合音频中分离出受访者的声音，自动过滤无关干扰。\n- **超分辨率重建**：调用语音超分辨率功能，将低采样率音频智能 upscaled 至 48kHz，显著提升听感清晰度与丰富度。\n- **全格式无缝支持**：直接读取 wav、mp3、aac 等十余种主流格式，无需预处理即可输入模型并获得高质量输出。\n- **开箱即用体验**：通过简单的 Python 接口或 NumPy 数组调用，开发者可立即集成业界最先进的语音处理能力到工作流中。\n\nClearerVoice-Studio 将原本需要专业声学团队数天处理的音频修复工作，简化为开发者几行代码即可完成的自动化流程，极大降低了高保真语音处理的门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmodelscope_ClearerVoice-Studio_5448474e.png","modelscope","ModelScope","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmodelscope_66a27ef8.png","Model-as-a-Service in the making: bring accessible AI to all.",null,"contact@modelscope.cn","https:\u002F\u002Fwww.modelscope.cn\u002F","https:\u002F\u002Fgithub.com\u002Fmodelscope",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",98.8,{"name":87,"color":88,"percentage":89},"Shell","#89e051",1.2,4029,332,"2026-04-09T15:38:41","Apache-2.0","未说明","推理和训练建议使用 GPU（HuggingFace Demo 提及 GPU 资源有限，ModelScope 提供更多配额），具体型号、显存大小及 CUDA 版本未在文中明确说明。",{"notes":97,"python":94,"dependencies":98},"1. 必须安装最新版本的 FFmpeg 以支持多种音频格式（如 wav, mp3, flac 等）及不同声道\u002F精度处理。\n2. 支持通过 pip 直接安装核心库：`pip install clearvoice`。\n3. 提供 HuggingFace 和 ModelScope 在线演示，其中 ModelScope 提供更充足的 GPU 使用额度。\n4. 支持输入输出为 Numpy 数组的灵活调用方式。\n5. 包含语音增强、分离、超分辨率（带宽扩展）、目标说话人提取等多种任务的预训练模型。",[99,100],"numpy","ffmpeg (最新版，用于音频编解码)",[15,14,102,103,52],"其他","音频",[105,106,107,108,109,110,111,112,113,114,115],"audio","bandwidth-extension","deep-learning","noise-suppression","pytorch","speaker-extraction","speech","speech-enhancement","speech-separation","speech-super-resolution","speech-quality-evaluation","2026-03-27T02:49:30.150509","2026-04-10T07:55:17.613472",[119,124,129,134,139,144,149],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},27366,"项目支持哪些 Python 版本？安装依赖报错怎么办？","目前项目基本支持 Python 3.8, 3.9, 3.10 和 3.12，前提是正确安装依赖库。如果在 Mac M2 上使用 Python 3.8 安装时遇到 pyyaml 报错，可以尝试指定版本安装：pip install pyyaml==6.0.2。此外，requirements.txt 中的 mimetypes 是 Python 自带库，建议将其删除以避免 pip install -r 失败。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F13",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},27367,"在 Windows 上运行 Audio-Visual Speaker Extraction (Task 3) 报路径错误如何解决？","该代码主要在 Linux 下开发，Windows 用户可能会遇到路径分隔符错误（如 OSError: [WinError 123]）。维护者已修改了部分代码（如 videoPath.split('\u002F')[-1]），但 video_process.py 中仍可能存在 Linux 风格的路径命名。建议 Windows 用户手动检查并修改相关脚本中的路径处理逻辑，将 '\u002F' 替换为适用于 Windows 的路径处理方式，或尝试在 Linux 环境（如 WSL）中运行。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F12",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},27368,"训练目标说话人提取模型后，生成的模型文件大小与官方默认模型不一致怎么办？","如果训练生成的模型文件结构或大小（如只有 90M 而官方为 700M+）与官方不符，请确保使用正确的配置文件。建议使用 train\u002Ftarget_speaker_extraction\u002Fconfig\u002Fconfig_VoxCeleb2_lip_mossformer2_2spk.yaml 进行训练，并可加入更多自己的数据。注意，某些配置（如 log_VoxCeleb2_lip_dprnn_2spk）因未在大数据集上训练且效果较差，未包含在官方 Demo 中。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F94",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},27369,"训练时 Batch Size 对结果影响很大，如何正确设置有效批大小（effective batch size）？","Batch Size 是实际加载和处理的大小，而 effective batch size 是用于累积梯度并更新参数的大小。两者关系为：effective_batch_size = batch_size * accu_grad。其中 accu_grad 是布尔类型（设置为 1 或 0）。如果更改 batch_size，请相应调整 effec_batch_size 以保持训练稳定性。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F4",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},27370,"运行 streamlit_app.py 上传音频处理时报“找不到配置文件”错误如何解决？","该问题通常与 Python 版本或依赖包冲突有关。首先确保使用 Python 3.8 环境，并从 requirements.txt 中删除 mimetypes（因为它是 Python 内置库，重复声明会导致安装或运行问题）。如果问题依旧，请检查运行目录是否正确，确保配置文件路径相对于脚本执行位置是可访问的。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F52",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},27371,"dataloader.py 报错 'local variable audio referenced before assignment' 怎么修复？","这是一个代码变量引用错误。解决方法是在 dataloader.py 文件中，将错误的变量名 'audio' 替换为 'data'。具体操作是找到报错行，将涉及 'audio' 的引用改为 'data'，即可解决该局部变量未赋值的问题。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F38",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},27372,"如何在本地运行 Hugging Face 的 Gradio\u002FWebUI 界面？","如果本地运行 Gradio 或 WebUI 失败，请确保已更新到最新代码。维护者已将相关功能更新并部署到 Hugging Face Spaces（如 ClearVoice-SR）。如果本地 app.py 未包含最新 SR 功能，请拉取最新仓库代码或参考 Hugging Face 上的 Demo 源码进行同步。","https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio\u002Fissues\u002F50",[]]