[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-google-research--sound-separation":3,"tool-google-research--sound-separation":65},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":22},3788,"airi","moeru-ai\u002Fairi","airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。\n\nairi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。\n\n这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。",37086,1,"2026-04-05T10:54:25",[19,21,17],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":69,"owner_location":69,"owner_email":69,"owner_twitter":69,"owner_website":80,"owner_url":81,"languages":82,"stars":99,"forks":100,"last_commit_at":101,"license":102,"difficulty_score":29,"env_os":103,"env_gpu":103,"env_ram":103,"env_deps":104,"category_tags":107,"github_topics":69,"view_count":29,"oss_zip_url":69,"oss_zip_packed_at":69,"status":22,"created_at":108,"updated_at":109,"faqs":110,"releases":116},786,"google-research\u002Fsound-separation","sound-separation",null,"sound-separation 是一个专注于声音分离技术的开源项目，通过提供丰富的数据集和深度学习模型，帮助用户将混合在一起的音频信号精准拆解为独立声源。现实生活中，录音常面临多种声音混杂的挑战，例如会议中的多人对话重叠、视频背景噪音干扰或自然界的鸟鸣识别。sound-separation 有效解决了从复杂混音中提取特定目标声音的难题。\n\n项目非常适合人工智能开发者、音频算法研究人员以及多媒体内容创作者使用。其技术亮点在于引入了 MixIT 无监督学习框架，大幅降低了对标注数据的依赖，同时支持通用声音分离、会议人声分离乃至结合视觉信息的音视频同步分离。项目还涵盖了 FUSS 基准测试数据和合成会议音频集，为学术研究与应用落地提供了坚实支撑。无论你是想优化语音通话质量，还是探索环境音效处理，sound-separation 都能提供强大的底层能力与实验资源。","# Sound Separation\n\nOpen-source datasets and deep learning models for separating sounds.\n\n## Datasets\n\n* [Free Universal Sound Separation (FUSS)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Ffuss\u002FFUSS_license_doc\u002FREADME.md).\n\n* [Audio from YFCC100M videos for mixture-invariant training (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fyfcc100m\u002FREADME.md).\n\n* [Audio-visual YFCC100M with annotations for on-screen sound separation with AudioScope](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Faudioscope\u002FREADME.md).\n\n* [Audio-visual YFCC100M with annotations for on-screen sound separation with AudioScopeV2](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Faudioscope-v2\u002FREADME.md).\n\n* [Synthetic AMI for speech separation in meeting room scenarios](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fsynthetic_ami\u002FREADME.md).\n\n## Models\n\n* [Free Universal Sound Separation (FUSS) baseline separation model](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fdcase2020_fuss_baseline\u002FREADME.md).\n\n* [Universal unsupervised separation models using mixture invariant training (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fneurips2020_mixit\u002FREADME.md).\n\n* [Unsupervised separation models for birds using mixture invariant training (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fbird_mixit\u002FREADME.md).\n","# 声音分离\n\n用于分离声音的开源数据集和深度学习 (Deep Learning) 模型。\n\n## 数据集\n\n* [免费通用声音分离 (FUSS)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Ffuss\u002FFUSS_license_doc\u002FREADME.md).\n\n* [来自 YFCC100M 视频的音频，用于混合不变性训练 (mixture-invariant training) (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fyfcc100m\u002FREADME.md).\n\n* [带有标注的视听 (Audio-visual) YFCC100M，用于使用 AudioScope 进行屏幕内声音分离](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Faudioscope\u002FREADME.md).\n\n* [带有标注的视听 (Audio-visual) YFCC100M，用于使用 AudioScopeV2 进行屏幕内声音分离](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Faudioscope-v2\u002FREADME.md).\n\n* [用于会议室场景语音分离的合成 AMI](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fsynthetic_ami\u002FREADME.md).\n\n## 模型\n\n* [免费通用声音分离 (FUSS) 基线分离模型](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fdcase2020_fuss_baseline\u002FREADME.md).\n\n* [使用混合不变性训练的通用无监督分离模型 (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fneurips2020_mixit\u002FREADME.md).\n\n* [使用混合不变性训练的鸟类无监督分离模型 (MixIT)](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fbird_mixit\u002FREADME.md).","# Sound Separation 快速上手指南\n\nSound Separation 是一个用于声音分离的开源数据集和深度学习模型集合。本指南帮助您快速搭建环境并了解核心功能。\n\n## 环境准备\n\n- **操作系统**：Linux \u002F macOS \u002F Windows (推荐使用 WSL2)\n- **编程语言**：Python 3.7+\n- **深度学习框架**：PyTorch (建议参考具体模型的 README 确认版本)\n- **硬件要求**：建议使用 NVIDIA GPU 进行训练或推理\n- **其他依赖**：`ffmpeg` (用于音频文件处理)\n\n## 安装步骤\n\n### 1. 克隆代码库\n由于该仓库托管于 GitHub，国内用户若连接缓慢，建议使用代理或镜像源加速。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation.git\ncd sound-separation\n```\n\n### 2. 安装依赖\n本项目采用模块化结构，不同模型的数据集和依赖可能不同。请进入具体的模型或数据集目录查找 `requirements.txt` 并安装。\n\n```bash\n# 示例：安装 FUSS 基线模型依赖\ncd models\u002Fdcase2020_fuss_baseline\npip install -r requirements.txt\n```\n\n## 基本使用\n\n### 1. 获取数据集\n项目提供了多种场景的音频数据集，请根据您的任务选择下载：\n\n- **通用声音分离**：[FUSS Dataset](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Ffuss\u002FFUSS_license_doc\u002FREADME.md)\n- **混合不变性训练 (MixIT)**：[YFCC100M Audio](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fyfcc100m\u002FREADME.md)\n- **音视频屏幕声音分离**：[AudioScope \u002F AudioScopeV2](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Faudioscope\u002FREADME.md)\n- **会议室语音分离**：[Synthetic AMI](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fblob\u002Fmaster\u002Fdatasets\u002Fsynthetic_ami\u002FREADME.md)\n\n### 2. 运行模型\n主要模型包括通用基线、无监督 MixIT 及鸟类声音分离模型。具体推理或训练命令需参照各模型目录内的文档。\n\n- **FUSS Baseline**：[查看模型详情](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fdcase2020_fuss_baseline\u002FREADME.md)\n- **Universal MixIT**：[查看模型详情](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fneurips2020_mixit\u002FREADME.md)\n- **Bird MixIT**：[查看模型详情](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Ftree\u002Fmaster\u002Fmodels\u002Fbird_mixit\u002FREADME.md)\n\n> **提示**：在运行任何脚本前，请务必阅读对应目录下的 `README.md` 以获取准确的命令行参数和数据路径配置。","一位纪录片导演正在处理一段在嘈杂街头录制的采访素材，急需从混乱的背景音中清晰提取人声以用于正片。\n\n### 没有 sound-separation 时\n- 传统降噪软件容易误伤人声，导致对话听起来发闷失真，听感不自然\n- 无法有效区分背景车流声和核心对话内容，整体信噪比始终偏低\n- 后期剪辑耗时极长，需逐段手动调整参数，效率极其低下\n- 多音源混合导致关键采访信息被突发噪音完全淹没，难以补救\n\n### 使用 sound-separation 后\n- sound-separation 能精准分离人声与街道环境噪音，两者互不干扰\n- 利用 FUSS 模型自动识别并保留语音特征的完整性和原始自然度\n- 无需复杂调试，支持批量处理节省大量后期制作时间与人力成本\n- 即使有背景音乐或人群喧哗干扰也能保持对话高度清晰可懂\n\nsound-separation 让复杂环境下的音频清洗变得高效且自然，极大提升了成片质量。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-research_sound-separation_ab69edc1.png","google-research","Google Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-research_c23b2adf.png","","https:\u002F\u002Fresearch.google","https:\u002F\u002Fgithub.com\u002Fgoogle-research",[83,87,91,95],{"name":84,"color":85,"percentage":86},"Python","#3572A5",74.7,{"name":88,"color":89,"percentage":90},"HTML","#e34c26",18.8,{"name":92,"color":93,"percentage":94},"Shell","#89e051",5.5,{"name":96,"color":97,"percentage":98},"CSS","#663399",0.9,708,125,"2026-04-01T09:49:05","Apache-2.0","未说明",{"notes":105,"python":103,"dependencies":106},"提供的 README 内容主要为数据集和模型链接的索引列表，未包含具体的环境配置、依赖安装命令及系统要求。该项目为深度学习相关工具，通常建议使用 Linux 系统并配备 NVIDIA GPU，具体配置需参考各子目录（如 models\u002Fdcase2020_fuss_baseline）内的详细文档。",[103],[21],"2026-03-27T02:49:30.150509","2026-04-06T07:11:57.939577",[111],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},3377,"如何在 `reverberate_and_mix` 中解决混响导致的音频对齐问题？","可以通过设置 `output_align` 参数来修复。具体有两种方式：1. `output_align = 'causal'`（默认值），使用因果卷积，解决了源信号提前的问題，但因 RIRs 会导致轻微延迟；2. `output_align = 'align_sources'`，确保源信号与干声对齐，根据每个源信号的 RIR 平均峰值提前每个源信号，使源信号几乎完全与其干版本对齐。","https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation\u002Fissues\u002F8",[]]