[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-JusperLee--Speech-Separation-Paper-Tutorial":3,"tool-JusperLee--Speech-Separation-Paper-Tutorial":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,2,"2026-04-18T11:00:28",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},8436,"Real-Time-Voice-Cloning","CorentinJ\u002FReal-Time-Voice-Cloning","Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具，旨在通过短短 5 秒的音频样本，快速复刻说话人的声音特征，并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点，让个性化语音生成变得轻量且高效。\n\n该项目的核心技术基于 SV2TTS（从说话人验证到多说话人文本转语音的迁移学习）深度学习框架。其工作流程分为三个阶段：首先从少量音频中提取说话人的数字声纹表示，随后将其作为参考，结合 Tacotron 合成器与 WaveRNN 声码器，高质量地生成目标语音。这种架构不仅实现了端到端的语音合成，还保证了在普通硬件上的实时运行能力。\n\nReal-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中，研究人员可借此探索语音迁移学习的前沿进展，而具备一定动手能力的普通用户也能通过提供的图形界面工具箱，轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳，但作为一款免费开源项目，它依然是理解和学习实时语音合成技术的绝佳入门资源。",59627,3,"2026-04-16T23:06:58",[21,20],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,"2026-04-05T22:15:46",[21],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":102,"forks":103,"last_commit_at":104,"license":78,"difficulty_score":105,"env_os":106,"env_gpu":107,"env_ram":107,"env_deps":108,"category_tags":111,"github_topics":112,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":22,"created_at":117,"updated_at":118,"faqs":119,"releases":120},9424,"JusperLee\u002FSpeech-Separation-Paper-Tutorial","Speech-Separation-Paper-Tutorial","A must-read paper for speech separation based on neural networks","Speech-Separation-Paper-Tutorial 是一个专为语音分离领域打造的开源知识库与学习指南。它系统性地整理了 2016 年至 2025 年间基于神经网络的语音分离核心论文、模型架构及关键资源，旨在帮助从业者快速理清该领域的技术演进脉络。\n\n在复杂的会议或嘈杂环境中，从混合音频中清晰分离出特定人声是一项极具挑战的任务。本项目通过汇总 69 个主流模型，直观展示了从确定性模型到生成式模型、从掩膜机制到映射方法的技术分类，并提供了 WSJ0-2Mix、WHAM! 等权威数据集上的性能对比与参数量分析。无论是寻找最新 SOTA（最先进）模型，还是追溯基础理论，用户都能在此找到详尽的基准数据和代码链接。\n\n这份教程特别适合人工智能研究人员、算法工程师以及高校学生使用。对于希望深入理解语音分离技术细节的开发者，它不仅提供了按年份排序的论文清单，还涵盖了多模态分离、评估指标解读及视频教程等实用内容。其独特的亮点在于将分散的学术成果转化为结构化的可视化图表和性能排行榜，让复杂的技术选型变得一目了然，是进入语音分离领域不可或缺的入门与参考工具。","# 🎵 Speech Separation Paper Tutorial\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fawesome.re) \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_9b9b482de3a1.png\" alt=\"访客统计\" \u002F> [![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial.svg?style=social&label=Star)](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial) [![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial.svg?style=social&label=Fork)](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial) [![Live Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLive-Demo-blue?style=flat-square&logo=github-pages)](https:\u002F\u002Fcslikai.cn\u002FSpeech-Separation-Paper-Tutorial\u002F)\n\n> 🚀 **A comprehensive collection of speech separation papers, models, and resources from 2016-2025**\n\n## 📋 Table of Contents\n\n- [📊 Overview & Statistics](#-overview--statistics)\n- [📈 Model Timeline](#-model-timeline)\n- [🏆 Performance Comparison](#-performance-comparison)\n- [🔬 Model Categories](#-model-categories)\n  - [🎯 Deterministic vs Generative](#-deterministic-vs-generative)\n  - [🏗️ Network Architecture](#️-network-architecture)\n  - [🎭 Mask vs Mapping](#-mask-vs-mapping)\n  - [🧠 Learning Methods](#-learning-methods)\n  - [👥 Speaker Knowledge](#-speaker-knowledge)\n- [📅 Papers by Year](#-papers-by-year)\n- [🎬 Multi-Modal Speech Separation](#-multi-modal-speech-separation)\n- [📏 Evaluation Metrics](#-evaluation-metrics)\n- [📚 Datasets](#-datasets)\n- [🎥 Video Tutorial](#-video-tutorial)\n\n## 📊 Overview & Statistics\n\n### 📈 Model Timeline\n\n![Model Timeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_c71e28d9bf10.png)\n*Figure 1: Speech separation models development timeline (2016-2025)*\n\n### 📊 Parameter vs Performance Analysis\n\n![Parameters vs Performance](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_3fc0032fa653.png)\n*Figure 2: Model parameters vs WSJ0-2Mix performance scatter plot*\n\n### 🔢 Statistics Summary\n\n- **Total Models**: 69\n- **Years Covered**: 2016-2025 (10 years)\n- **Deterministic Models**: 60 (87%)\n- **Generative Models**: 9 (13%)\n- **Known Speaker Models**: 58 (84%)\n- **Unknown Speaker Models**: 11 (16%)\n\n## 🏆 Performance Comparison\n\n### 🥇 Top Performing Models\n\n#### WSJ0-2Mix Dataset (SI-SNRi)\n| Rank | Model | Year | SI-SNRi (dB) | SDRi (dB) | Params (M) | Code |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | SepTDA | 2024 | **24.0** | **23.9** | 21.2 | - |\n| 2 | SFSRNet | 2022 | **24.0** | **24.1** | 59.0 | [🔗](https:\u002F\u002Fgithub.com\u002Farda-num\u002FSFSRNet) |\n| 3 | MossFormer2 | 2024 | **24.1** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 4 | Separate And Diffuse | 2023 | **23.9** | - | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) |\n| 5 | QDPN | 2022 | **23.6** | - | 200.0 | - |\n\n#### WHAM! Dataset (SI-SNRi)\n| Rank | Model | Year | SI-SNRi (dB) | SDRi (dB) | Params (M) | Code |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | MossFormer2 | 2024 | **18.1** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 2 | SPMamba | 2024 | **17.4** | **17.6** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) |\n| 3 | MossFormer | 2023 | **17.3** | - | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 4 | SepFormer | 2021 | **16.4** | - | 26.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Ftree\u002Fdevelop\u002Frecipes\u002FWSJ0Mix) |\n| 5 | WaveSplit | 2021 | **16.0** | **16.5** | 29.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fasdlei99\u002FWaveSplit-pytorch-incomplete) |\n\n#### LibriMix Dataset (SI-SNRi)\n| Rank | Model | Year | SI-SNRi (dB) | SDRi (dB) | Params (M) | Code |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | Separate And Diffuse | 2023 | **21.5** | - | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) |\n| 2 | MossFormer2 | 2024 | **21.7** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 3 | SPMamba | 2024 | **19.9** | **20.4** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) |\n| 4 | MossFormer | 2023 | **19.7** | - | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 5 | TFPSNet | 2022 | **19.7** | **19.9** | 2.7 | - |\n\n## 🔬 Model Categories\n\n### 🎯 Deterministic vs Generative\n\n#### 🔧 Deterministic Models (60 models)\nDeterministic models use fixed neural network architectures to directly predict separation masks or mappings.\n\n**Representative Models:**\n- **SepTDA** (2024): 24.0 dB SI-SNRi on WSJ0-2Mix\n- **MossFormer2** (2024): 24.1 dB SI-SNRi on WSJ0-2Mix\n- **SPMamba** (2024): State-space model approach\n- **SepFormer** (2021): Pure attention-based architecture\n\n#### 🎨 Generative Models (9 models)\nGenerative models use probabilistic approaches like GANs, VAEs, or diffusion models.\n\n**Representative Models:**\n- **EDSep** (2025): Diffusion-based method, 15.9 dB SI-SNRi\n- **Fast-GeCo** (2024): Fast generative correction\n- **SepDiff** (2023): Denoising diffusion model\n- **DiffSep** (2023): Diffusion-based generative separation\n\n### 🏗️ Network Architecture\n\n#### 🔄 Dual-path Architecture (22 models)\nDual-path networks process sequences in both intra-chunk and inter-chunk dimensions.\n\n**Key Models:**\n- **SepTDA** (2024): Transformer decoder-based attractor\n- **SPMamba** (2024): State-space model integration\n- **TF-GridNet** (2023): Full and sub-band modeling\n- **SepFormer** (2021): Pure transformer architecture\n- **DPRNN** (2020): Foundational dual-path RNN\n\n#### 🌊 Conv-TasNet Architecture (20 models)\nTime-domain audio separation networks using 1D convolutions.\n\n**Key Models:**\n- **MossFormer2** (2024): 55.7M parameters\n- **MossFormer** (2023): Gated single-head transformer\n- **ConvTasNet** (2019): Original Conv-TasNet architecture\n- **TaSNet** (2018): Time-domain audio separation\n\n#### 🏗️ U-Net Architecture (10 models)\nEncoder-decoder architectures with skip connections.\n\n**Key Models:**\n- **EDSep** (2025): Diffusion-based U-Net\n- **S4M** (2023): Neural state-space model\n- **TDANet** (2022): Top-down attention\n- **A-FRCNN** (2021): Asynchronous fully recurrent CNN\n\n### 🎭 Mask vs Mapping\n\n#### 🎭 Mask-based Methods (39 models)\nPredict multiplicative masks to separate sources.\n\n**Advantages:**\n- Interpretable separation process\n- Preserves phase information\n- Stable training\n\n#### 🗺️ Mapping-based Methods (24 models)\nDirectly map mixed signals to separated sources.\n\n**Advantages:**\n- End-to-end optimization\n- Potentially better reconstruction\n- More flexible architectures\n\n### 🧠 Learning Methods\n\n#### 🎯 Predictive Methods (58 models)\nSupervised learning with known target separations.\n\n#### 🔄 Clustering Methods (6 models)\nUse embedding clustering for speaker separation:\n- **Chimera++ Network** (2018)\n- **DANet** (2017)\n- **DPCL** (2016)\n\n#### 🎲 Unsupervised Methods (4 models)\nLearn separation without paired training data:\n- **UNSSOR** (2023)\n- **TS-MixIT** (2021)\n- **MixIT** (2020)\n- **VAE** (2021)\n\n### 👥 Speaker Knowledge\n\n#### ✅ Known Speaker Models (58 models)\nAssume fixed number of speakers (typically 2).\n\n#### ❓ Unknown Speaker Models (11 models)\nHandle variable number of speakers:\n- **SepTDA** (2024): Transformer decoder-based attractor\n- **SepEDA** (2022): Encoder-decoder attractors\n- **VSUNOS** (2020): Voice separation for unknown speakers\n- **Multi-Decoder DPRNN** (2021)\n\n## 📅 Papers by Year\n\n### 🚀 2025 (1 model)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| EDSep | EDSep: An Effective Diffusion-Based Method for Speech Source Separation | 15.9 | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.15965) |\n\n### 🔥 2024 (10 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| ReSepFormer | Resource-Efficient Separation Transformer | 18.6 | 8.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Fblob\u002Fdevelop\u002Frecipes\u002FWSJ0Mix\u002Fseparation\u002Fhparams\u002Fresepformer.yaml) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10446670) |\n| Conv-TasNet GAN | Exploring GANs With Conv-TasNet | - | - | [🔗](https:\u002F\u002Fetd.ohiolink.edu\u002Facprod\u002Fodb_etd\u002Fws\u002Fsend_file\u002Fsend?accession=ohiou1714137508806109&disposition=inline) | - |\n| SepTDA | Boosting Unknown-Number Speaker Separation | **24.0** | 21.2 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10446032) |\n| SPMamba | SPMamba: State-space model is all you need | **22.5** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.02063) |\n| Fast-GeCo | Noise-robust Speech Separation with Fast Generative Correction | - | - | [🔗](https:\u002F\u002Fgithub.com\u002FWangHelin1997\u002FFast-GeCo) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.07461) |\n| DIP | Speech Separation With Pretrained Frontend | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10640238) |\n| TIGER | TIGER: Time-frequency Interleaved Gain Extraction | - | 0.8 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FTIGER) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01469) |\n| CodecSS | Speech Separation using Neural Audio Codecs | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10848753) |\n| TCodecSS | Towards Audio Codec-based Speech Separation | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12434) |\n| MossFormer2 | MossFormer2: Combining Transformer and RNN-Free Recurrent Network | **24.1** | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10445985) |\n\n### ⭐ 2023 (10 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| SepDiff | Sepdiff: Speech separation based on denoising diffusion | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10095979) |\n| S4M | A Neural State-Space Model Approach | 20.5 | 3.6 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FS4M) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.16932) |\n| HuBERT | Cocktail Hubert: Generalized Self-Supervised Pre-Training | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10096630) |\n| Diff-Refiner | Diffusion-based signal refiner for speech separation | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.05857) |\n| CycleGAN-SS | Cycle GAN-Based Audio Source Separation | - | - | - | [📄](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs00034-022-02178-1) |\n| pSkiM | Predictive Skim: Contrastive Predictive Coding | 15.5 | 8.5 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10097107) |\n| PGSS | PGSS: Pitch-Guided Speech Separation | - | - | - | [📄](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F26542) |\n| Separate And Diffuse | Using a Pretrained Diffusion Model | **23.9** | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.10752) |\n| DiffSep | Diffusion-Based Generative Speech Source Separation | 14.3 | - | [🔗](https:\u002F\u002Fgithub.com\u002Ffakufaku\u002Fdiffusion-separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10095310) |\n| TF-GridNet | Integrating Full- and Sub-Band Modeling | **23.5** | 14.5 | [🔗](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10214650) |\n| UNSSOR | Unsupervised Neural Speech Separation | - | - | - | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002F6b44765c9201730a27f7931afb4d7434-Paper-Conference.pdf) |\n| MossFormer | Pushing the Performance Limit of Monaural Speech Separation | **22.8** | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10096646) |\n\n### 🎯 2022 (7 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| SepEDA | Speech Separation for Unknown Number of Speakers | 21.2 | 12.5 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2022\u002Fchetupalli22_interspeech.pdf) |\n| SSL-SS | Investigating Self-Supervised Learning | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746303) |\n| SkiM | Skipping Memory Lstm for Low-Latency | 18.3 | 5.9 | [🔗](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746372) |\n| TDANet | Efficient encoder-decoder architecture | 18.6 | 2.3 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FTDANet) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.15200) |\n| MTDS | Efficient Monaural Speech Separation | 21.5 | 4.0 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746882) |\n| QDPN | Quasi-dual-path Network | **23.6** | 200.0 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2022\u002Frixen22_interspeech.pdf) |\n| SFSRNet | Super-resolution for Single-Channel Audio | **24.0** | 59.0 | [🔗](https:\u002F\u002Fgithub.com\u002Farda-num\u002FSFSRNet) | [📄](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F21372) |\n| TFPSNet | Time-Frequency Domain Path Scanning Network | 21.1 | 2.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9747554) |\n\n### 🌟 2021 (13 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| Unknow-SS | Single channel voice separation for unknown number | 19.4 | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413627) |\n| VAE | Unsupervised Blind Source Separation with VAE | - | - | [🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9616154) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9616154) |\n| A-FRCNN | Speech Separation Using Asynchronous Fully Recurrent CNN | 18.3 | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FAFRCNN-For-Speech-Separation) | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2021\u002Ffile\u002Fbe1bc7997695495f756312886f566110-Paper.pdf) |\n| Sandglasset | A Light Multi-Granularity Self-Attentive Network | 20.8 | 2.3 | [🔗](https:\u002F\u002Fgithub.com\u002FZhongyang-debug\u002FSandglasset-A-Light-Multi-Granularity-Self-Attentive-Network-For-Time-Domain-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413837) |\n| CDGAN | Generative adversarial networks for single channel separation | - | - | - | [📄](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS0925231221000734) |\n| SepFormer | Attention Is All You Need In Speech Separation | **22.3** | 26.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Ftree\u002Fdevelop\u002Frecipes\u002FWSJ0Mix) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413901) |\n| WaveSplit | End-to-End Speech Separation by Speaker Clustering | **22.3** | 29.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fasdlei99\u002FWaveSplit-pytorch-incomplete) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9495162) |\n| TS-MixIT | Teacher-Student MixIT for Unsupervised Speech Separation | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.07843) |\n| MSGT-TasNet | Multi-Scale Group Transformer | 17.0 | 66.8 | - | [📄](https:\u002F\u002Fwww.ijcai.org\u002Fproceedings\u002F2020\u002F0450.pdf) |\n| Multi-Decoder DPRNN | Source Separation for Variable Number of Speakers | 19.1 | - | [🔗](https:\u002F\u002Fjunzhejosephzhu.github.io\u002FMulti-Decoder-DPRNN\u002F) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9414205) |\n| DPTCN-ATPP | Multi-scale End-to-end Modeling | 19.6 | 4.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9645957) |\n\n### 🔬 2020 (8 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| DPTNet | Dual-Path Transformer Network | 20.2 | 2.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fujscjj\u002FDPTNet) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.13975) |\n| Conv-TasSAN | Separative Adversarial Network | 15.1 | 5.0 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2020\u002Fdeng20b_interspeech.pdf) |\n| DPRNN | Dual-path RNN | 18.8 | 2.9 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FDual-Path-RNN-Pytorch) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9054266) |\n| VSUNOS | Voice Separation with Unknown Number of Speakers | 20.1 | 7.5 | [🔗](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsvoice) | [📄](https:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Fnachmani20a\u002Fnachmani20a.pdf) |\n| Two-Step CTN | Training On Learned Latent Targets | 16.1 | 8.6 | [🔗](https:\u002F\u002Fgithub.com\u002Fetzinis\u002Ftwo_step_mask_learning) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9054172) |\n| Sudo RM-RF | Efficient Networks for Universal Audio Source Separation | 17.0 | 2.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fetzinis\u002Fsudo_rm_rf) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9231900) |\n| MixIT | Unsupervised Sound Separation Using Mixture Invariant Training | - | - | [🔗](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation) | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2020\u002Ffile\u002F28538c394c36e4d5ea8ff5ad60562a93-Paper.pdf) |\n| FurcaNeXt | End-to-End Monaural Speech Separation | - | 51.4 | [🔗](https:\u002F\u002Fgithub.com\u002FShiZiqiang\u002Ffurcanext-samples) | [📄](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-030-37731-1_53) |\n\n### 📚 2019 (4 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| Deep CASA | Divide and Conquer: A Deep CASA Approach | 17.7 | 12.8 | [🔗](https:\u002F\u002Fgithub.com\u002Fyuzhou-git\u002Fdeep-casa) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8834838) |\n| ConvTasNet | Surpassing Ideal Time–Frequency Magnitude Masking | 15.3 | 5.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FConv-TasNet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8707065) |\n| OR-PIT | Recursive speech separation for unknown number | 14.8 | - | [🔗](https:\u002F\u002Fgithub.com\u002Ftky823\u002FDNN-based_source_separation) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.03065) |\n| Chimera++ sign | Deep Learning Based Phase Reconstruction | 15.3 | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8683231) |\n\n### 🎨 2018 (7 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| SSGAN-PIT | Permutation Invariant Training of GAN | - | - | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2018\u002Fchen18i_interspeech.pdf) |\n| CBLDNN-GAT | Speaker-Independent Speech Separation Via GAT | - | 39.5 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462505) |\n| ADAN | Speaker-Independent Speech Separation With Deep Attractor | 10.4 | 9.1 | [🔗](https:\u002F\u002Fwww.google.com\u002Furl?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwili6iLyNSMAxUShq8BHZnXFSoQFnoECBsQAQ&url=https%3A%2F%2Fgithub.com%2Fnaplab%2FDANet&usg=AOvVaw3KziucfYdKvm1o4ucrOKQ1&opi=89978449) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8264702) |\n| TaSNet | Time-Domain Audio Separation Network | 13.2 | 23.6 | [🔗](https:\u002F\u002Fgithub.com\u002Fkaituoxu\u002FTasNet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462116) |\n| Wave-UNet | A Multi-Scale Neural Network for End-to-End Audio | - | - | [🔗](https:\u002F\u002Fgithub.com\u002Ff90\u002FWave-U-Net) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.03185) |\n| SSGAN | Generative Adversarial Source Separation | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8461671) |\n| Chimera++ Network | Alternative Objective Functions for Deep Clustering | 11.5 | 32.9 | [🔗](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Fdeep-learning-for-practitioners\u002Fblob\u002Fmaster\u002FREADME.md) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462507\u002F) |\n\n### 🌱 2017 (3 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| DANet | Deep Attractor Network for Single-Microphone Speaker Separation | 10.5 | 9.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fnaplab\u002FDANet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7952155) |\n| uPIT-BLSTM | Multitalker Speech Separation With Utterance-Level PIT | 9.8 | 92.7 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FUtterancePIT-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7979557) |\n| PIT | Permutation invariant training of deep models | - | 92.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7952154) |\n\n### 🏁 2016 (2 models)\n\n| Model | Paper | SI-SNRi (WSJ0) | Params (M) | Code | Paper |\n|-------|-------|----------------|------------|------|-------|\n| DPCL | Deep clustering: Discriminative embeddings | 10.8 | - | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FDeep-Clustering-for-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7471631) |\n| DPCL | Single-Channel Multi-Speaker Separation using Deep Clustering | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.02173) |\n\n## 🎬 Multi-Modal Speech Separation\n\n### Audio-Visual Speech Separation\n\n- **Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation** | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.03619.pdf) | [Code](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FLooking-to-Listen-at-the-Cocktail-Party)\n- **The conversation: deep audio-visual speech enhancement** | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.04121.pdf) | [Code](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FThe-Conversation-Deep-Audio-visual-Speech-Enhancement)\n- **Audio-visual speech separation and dereverberation with a two-stage multimodal network** | [Paper](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8902632\u002F) | [Code](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FAudio-visual-speech-separation-and-dereverberation)\n\n### Audio-Text Speech Separation\n\n- **VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking** | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04826.pdf) | [Code](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FVoiceFilter)\n- **SpEx: Multi-Scale Time Domain Speaker Extraction Network** | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.08326.pdf) | [Code](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpEx)\n\n## 📏 Evaluation Metrics\n\n### Signal-to-Noise Ratio Improvement (SI-SNRi)\n**Definition**: Measures the improvement in signal-to-noise ratio after separation.\n\n```\nSI-SNRi = SI-SNR(separated) - SI-SNR(mixture)\n```\n\n### Signal-to-Distortion Ratio Improvement (SDRi)\n**Definition**: Measures the improvement in signal-to-distortion ratio.\n\n```\nSDRi = SDR(separated) - SDR(mixture)\n```\n\n### Scale-Invariant Signal-to-Noise Ratio (SI-SNR)\n**Definition**: Scale-invariant version of SNR that is robust to scaling differences.\n\n```\nSI-SNR = 10 * log10(||s_target||² \u002F ||e_noise||²)\n```\n\n## 📚 Datasets\n\n### WSJ0-2Mix 📊\n- **Description**: 2-speaker mixtures from WSJ0 corpus\n- **Training**: 20,000 utterances (30 hours)\n- **Validation**: 5,000 utterances (7.5 hours)\n- **Test**: 3,000 utterances (4.5 hours)\n- **Sampling Rate**: 8 kHz \u002F 16 kHz\n- **Dataset Size**: ~330GB (full dataset)\n- **License**: Requires WSJ0 license from LDC\n- **Generation Method**: \n  - Install: `pip install pywsj0-mix`\n  - Generate: Use `generate_wsjmix.py` script\n  - GitHub: [pywsj0-mix](https:\u002F\u002Fgithub.com\u002Fasteroid-team\u002Fpywsj0-mix)\n- **Requirements**: Original WSJ0 dataset from LDC\n- **Extensions**: Can be extended to 3, 4, or 5 speakers\n\n### WHAM! 🔊\n- **Description**: WSJ0-2Mix with real noise from WHAM dataset\n- **Noise**: Real-world environmental noise\n- **Challenge**: Noise robustness\n- **Dataset Size**: 17GB (noise dataset)\n- **Download Links**:\n  - Noise Dataset: [WHAM Noise](https:\u002F\u002Fwham.whisper.ai\u002F)\n  - Generation Scripts: Available on official website\n- **Generation Method**:\n  - Download WHAM noise dataset (17GB)\n  - Requires WSJ0 dataset access\n  - Use provided generation scripts\n- **Audio Format**: 32-bit float WAV, 16 kHz\n- **Splits**: Training\u002FValidation\u002FTest sets\n\n### LibriMix 📚\n- **Description**: 2 and 3-speaker mixtures from LibriSpeech\n- **Languages**: English\n- **Sampling Rate**: 16 kHz \u002F 8 kHz\n- **Challenge**: Clean speech separation\n- **Dataset Size**: \n  - Libri2Mix: ~430GB\n  - Libri3Mix: ~332GB\n  - Additional: 80GB (LibriSpeech + WHAM noise)\n- **License**: Open-source\n- **Generation Method**:\n  - GitHub: [LibriMix](https:\u002F\u002Fgithub.com\u002FJorisCos\u002FLibriMix)\n  - Script: `generate_librimix.sh`\n  - Requirements: SoX installation\n- **Customization Options**:\n  - Speakers: 2 or 3\n  - Sample rate: 16kHz or 8kHz\n  - Mixture modes: min\u002Fmax\n  - Types: mix_clean, mix_both, mix_single\n- **Alternative**: SparseLibriMix (sparse version)\n\n### WHAMR! 🌊\n- **Description**: WHAM! with reverberation\n- **Challenge**: Noise + reverberation robustness\n- **Base Dataset**: WHAM! + artificial reverberation\n- **Download Links**:\n  - Official: [WHAMR Website](https:\u002F\u002Fwham.whisper.ai\u002F)\n  - Generation scripts available\n- **Requirements**: \n  - WSJ0 dataset access\n  - WHAM noise dataset\n- **Audio Processing**: Adds artificial reverberation to WHAM!\n- **Applications**: More realistic acoustic scenarios\n\n### LRS2-2Mix 👁️‍🗨️\n- **Description**: 2-speaker mixtures from LRS2 dataset\n- **Modality**: Audio-visual\n- **Challenge**: Visual information integration\n- **Base Dataset**: LRS2 (Lip Reading Sentences 2)\n- **License**: BBC copyright, non-commercial research only\n- **Download**: \n  - Hugging Face: [LRS2-2Mix](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJorisCos\u002FLRS2-2Mix)\n  - Requires LRS2 dataset access\n- **Features**: \n  - Varying SNR mixtures\n  - Real-world reverberation and noise\n  - Closer to realistic scenarios\n- **SNR Range**: Variable signal-to-noise ratios\n\n### SonicSet 🎵\n- **Description**: Large-scale audio separation dataset\n- **Sources**: Multiple audio sources\n- **Challenge**: Universal audio separation\n- **Dataset Size**: \n  - Training: 377GB\n  - Validation\u002FTest: Smaller subsets\n- **Construction**: \n  - Base: SonicSim simulation\n  - Audio: LibriSpeech, FSD50K, Free Music Archive\n  - Scenes: Matterport3D environments\n- **Download Options**:\n  - Pre-constructed: OneDrive, Baidu Disk\n  - GitHub: [SonicSet](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSonicSim)\n  - Generation: Use provided scripts\n- **Features**: \n  - Moving sound sources\n  - Realistic 3D acoustic simulation\n  - Benchmark for universal separation\n- **Related**: FUSS dataset (Free Universal Sound Separation)\n\n## 🎥 Video Tutorial\n\n- **Speech Separation Overview** | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=example)\n- **Deep Learning for Audio** | [Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002Fexample)\n\n---\n\n## 📊 Citation\n\nIf you find this repository useful, please consider citing:\n\n```bibtex\n@misc{speech-separation-tutorial,\n  title={Speech Separation Paper Tutorial},\n  author={JusperLee and Contributors},\n  year={2025},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial}}\n}\n```\n\n## 🤝 Contributing\n\nContributions are welcome! Please feel free to submit a Pull Request.\n\n## 📄 License\n\nThis project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details.\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Cstrong>⭐ Star this repository if you find it helpful! ⭐\u003C\u002Fstrong>\n\u003C\u002Fdiv>\n","# 🎵 语音分离论文教程\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fawesome.re) \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_9b9b482de3a1.png\" alt=\"访客统计\" \u002F> [![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial.svg?style=social&label=Star)](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial) [![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial.svg?style=social&label=Fork)](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial) [![Live Demo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLive-Demo-blue?style=flat-square&logo=github-pages)](https:\u002F\u002Fcslikai.cn\u002FSpeech-Separation-Paper-Tutorial\u002F)\n\n> 🚀 **2016年至2025年语音分离领域论文、模型及资源的全面汇总**\n\n## 📋 目录\n\n- [📊 概述与统计数据](#-overview--statistics)\n- [📈 模型时间线](#-model-timeline)\n- [🏆 性能对比](#-performance-comparison)\n- [🔬 模型分类](#-model-categories)\n  - [🎯 确定性模型 vs 生成式模型](#-deterministic-vs-generative)\n  - [🏗️ 网络架构](#️-network-architecture)\n  - [🎭 掩码法 vs 映射法](#-mask-vs-mapping)\n  - [🧠 学习方法](#-learning-methods)\n  - [👥 发话人知识](#-speaker-knowledge)\n- [📅 按年份划分的论文](#-papers-by-year)\n- [🎬 多模态语音分离](#-multi-modal-speech-separation)\n- [📏 评估指标](#-evaluation-metrics)\n- [📚 数据集](#-datasets)\n- [🎥 视频教程](#-video-tutorial)\n\n## 📊 概述与统计数据\n\n### 📈 模型时间线\n\n![Model Timeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_c71e28d9bf10.png)\n*图1：语音分离模型发展时间线（2016-2025）*\n\n### 📊 参数与性能分析\n\n![Parameters vs Performance](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_readme_3fc0032fa653.png)\n*图2：模型参数与WSJ0-2Mix数据集性能散点图*\n\n### 🔢 统计摘要\n\n- **模型总数**：69\n- **覆盖年份**：2016-2025（10年）\n- **确定性模型**：60（87%）\n- **生成式模型**：9（13%）\n- **已知发话人模型**：58（84%）\n- **未知发话人模型**：11（16%）\n\n## 🏆 性能对比\n\n### 🥇 表现最佳的模型\n\n#### WSJ0-2Mix数据集（SI-SNRi）\n\n| 排名 | 模型 | 年份 | SI-SNRi (dB) | SDRi (dB) | 参数 (M) | 代码 |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | SepTDA | 2024 | **24.0** | **23.9** | 21.2 | - |\n| 2 | SFSRNet | 2022 | **24.0** | **24.1** | 59.0 | [🔗](https:\u002F\u002Fgithub.com\u002Farda-num\u002FSFSRNet) |\n| 3 | MossFormer2 | 2024 | **24.1** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 4 | Separate And Diffuse | 2023 | **23.9** | - | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) |\n| 5 | QDPN | 2022 | **23.6** | - | 200.0 | - |\n\n#### WHAM!数据集（SI-SNRi）\n\n| 排名 | 模型 | 年份 | SI-SNRi (dB) | SDRi (dB) | 参数 (M) | 代码 |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | MossFormer2 | 2024 | **18.1** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 2 | SPMamba | 2024 | **17.4** | **17.6** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) |\n| 3 | MossFormer | 2023 | **17.3** | - | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 4 | SepFormer | 2021 | **16.4** | - | 26.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Ftree\u002Fdevelop\u002Frecipes\u002FWSJ0Mix) |\n| 5 | WaveSplit | 2021 | **16.0** | **16.5** | 29.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fasdlei99\u002FWaveSplit-pytorch-incomplete) |\n\n#### LibriMix数据集（SI-SNRi）\n\n| 排名 | 模型 | 年份 | SI-SNRi (dB) | SDRi (dB) | 参数 (M) | 代码 |\n|------|-------|------|--------------|-----------|------------|------|\n| 1 | Separate And Diffuse | 2023 | **21.5** | - | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) |\n| 2 | MossFormer2 | 2024 | **21.7** | - | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 3 | SPMamba | 2024 | **19.9** | **20.4** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) |\n| 4 | MossFormer | 2023 | **19.7** | - | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) |\n| 5 | TFPSNet | 2022 | **19.7** | **19.9** | 2.7 | - |\n\n## 🔬 模型分类\n\n### 🎯 确定性模型 vs 生成式模型\n\n#### 🔧 确定性模型（60个模型）\n确定性模型采用固定的神经网络架构，直接预测分离掩码或映射。\n\n**代表性模型：**\n- **SepTDA**（2024）：在WSJ0-2Mix数据集上取得24.0 dB的SI-SNRi\n- **MossFormer2**（2024）：在WSJ0-2Mix数据集上取得24.1 dB的SI-SNRi\n- **SPMamba**（2024）：基于状态空间模型的方法\n- **SepFormer**（2021）：纯注意力机制架构\n\n#### 🎨 生成式模型（9个模型）\n生成式模型使用概率方法，如GAN、VAE或扩散模型等。\n\n**代表性模型：**\n- **EDSep**（2025）：基于扩散的方法，SI-SNRi为15.9 dB\n- **Fast-GeCo**（2024）：快速生成校正\n- **SepDiff**（2023）：去噪扩散模型\n- **DiffSep**（2023）：基于扩散的生成式分离\n\n### 🏗️ 网络架构\n\n#### 🔄 双路径架构（22个模型）\n双路径网络在块内和块间两个维度上处理序列。\n\n**关键模型：**\n- **SepTDA**（2024）：基于Transformer解码器的吸引子\n- **SPMamba**（2024）：整合了状态空间模型\n- **TF-GridNet**（2023）：全带和子带建模\n- **SepFormer**（2021）：纯Transformer架构\n- **DPRNN**（2020）：基础的双路径RNN\n\n#### 🌊 Conv-TasNet架构（20个模型）\n使用一维卷积的时间域音频分离网络。\n\n**关键模型：**\n- **MossFormer2**（2024）：参数量达55.7M\n- **MossFormer**（2023）：门控单头Transformer\n- **ConvTasNet**（2019）：原始的Conv-TasNet架构\n- **TaSNet**（2018）：时间域音频分离\n\n#### 🏗️ U-Net架构（10个模型）\n带有跳跃连接的编码器-解码器架构。\n\n**关键模型：**\n- **EDSep**（2025）：基于扩散的U-Net\n- **S4M**（2023）：神经状态空间模型\n- **TDANet**（2022）：自顶向下注意力\n- **A-FRCNN**（2021）：异步全循环CNN\n\n### 🎭 掩码法 vs 映射法\n\n#### 🎭 掩码法（39个模型）\n通过预测乘性掩码来分离声源。\n\n**优点：**\n- 分离过程可解释\n- 保留相位信息\n- 训练稳定\n\n#### 🗺️ 映射法（24个模型）\n直接将混合信号映射到分离后的各个声源。\n\n**优点：**\n- 端到端优化\n- 可能有更好的重建效果\n- 架构更加灵活\n\n### 🧠 学习方法\n\n#### 🎯 预测方法（58个模型）\n利用已知目标分离结果进行监督学习。\n\n#### 🔄 聚类方法（6个模型）\n通过嵌入聚类实现发话人分离：\n- **Chimera++ Network**（2018）\n- **DANet**（2017）\n- **DPCL**（2016）\n\n#### 🎲 无监督方法（4个模型）\n在没有配对训练数据的情况下学习分离：\n- **UNSSOR**（2023）\n- **TS-MixIT**（2021）\n- **MixIT**（2020）\n- **VAE**（2021）\n\n### 👥 发言人知识\n\n#### ✅ 已知发言人模型（58个）\n假设有固定数量的发言人（通常为2个）。\n\n#### ❓ 未知发言人模型（11个）\n处理可变数量的发言人：\n- **SepTDA**（2024年）：基于Transformer解码器的吸引子\n- **SepEDA**（2022年）：编码器-解码器吸引子\n- **VSUNOS**（2020年）：针对未知发言人的语音分离\n- **多解码器DPRNN**（2021年）\n\n## 📅 按年份划分的论文\n\n### 🚀 2025年（1个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| EDSep | EDSep：一种有效的基于扩散的语音源分离方法 | 15.9 | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.15965) |\n\n### 🔥 2024年（10个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| ReSepFormer | 资源高效的分离Transformer | 18.6 | 8.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Fblob\u002Fdevelop\u002Frecipes\u002FWSJ0Mix\u002Fseparation\u002Fhparams\u002Fresepformer.yaml) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10446670) |\n| Conv-TasNet GAN | 探索Conv-TasNet与GAN结合 | - | - | [🔗](https:\u002F\u002Fetd.ohiolink.edu\u002Facprod\u002Fodb_etd\u002Fws\u002Fsend_file\u002Fsend?accession=ohiou1714137508806109&disposition=inline) | - |\n| SepTDA | 提升未知数量发言人的分离性能 | **24.0** | 21.2 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10446032) |\n| SPMamba | SPMamba：状态空间模型就够了 | **22.5** | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.02063) |\n| Fast-GeCo | 基于快速生成式校正的抗噪语音分离 | - | - | [🔗](https:\u002F\u002Fgithub.com\u002FWangHelin1997\u002FFast-GeCo) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.07461) |\n| DIP | 基于预训练前端的语音分离 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10640238) |\n| TIGER | TIGER：时频交织增益提取 | - | 0.8 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FTIGER) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01469) |\n| CodecSS | 使用神经音频编解码器进行语音分离 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10848753) |\n| TCodecSS | 向基于音频编解码器的语音分离迈进 | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12434) |\n| MossFormer2 | MossFormer2：结合Transformer与无RNN循环网络 | **24.1** | 55.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10445985) |\n\n### ⭐ 2023年（10个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| SepDiff | Sepdiff：基于去噪扩散的语音分离 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10095979) |\n| S4M | 一种神经状态空间模型方法 | 20.5 | 3.6 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FS4M) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.16932) |\n| HuBERT | 鸡尾酒Hubert：通用自监督预训练 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10096630) |\n| Diff-Refiner | 基于扩散的信号精炼器用于语音分离 | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.05857) |\n| CycleGAN-SS | 基于Cycle GAN的音频源分离 | - | - | - | [📄](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs00034-022-02178-1) |\n| pSkiM | 预测性Skim：对比预测编码 | 15.5 | 8.5 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10097107) |\n| PGSS | PGSS：音高引导的语音分离 | - | - | - | [📄](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F26542) |\n| Separate And Diffuse | 使用预训练扩散模型 | **23.9** | - | [🔗](https:\u002F\u002Fopenreview.net\u002Fattachment?id=UXALv0lJZS&name=supplementary_material) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.10752) |\n| DiffSep | 基于扩散的生成式语音源分离 | 14.3 | - | [🔗](https:\u002F\u002Fgithub.com\u002Ffakufaku\u002Fdiffusion-separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10095310) |\n| TF-GridNet | 整合全频段与子频段建模 | **23.5** | 14.5 | [🔗](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10214650) |\n| UNSSOR | 无监督神经语音分离 | - | - | - | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002F6b44765c9201730a27f7931afb4d7434-Paper-Conference.pdf) |\n| MossFormer | 推动单声道语音分离性能极限 | **22.8** | 42.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FClearerVoice-Studio) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10096646) |\n\n### 🎯 2022年（7个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| SepEDA | 针对未知数量发言人的语音分离 | 21.2 | 12.5 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2022\u002Fchetupalli22_interspeech.pdf) |\n| SSL-SS | 研究自监督学习 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746303) |\n| SkiM | 跳过记忆LSTM以实现低延迟 | 18.3 | 5.9 | [🔗](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746372) |\n| TDANet | 高效的编码器-解码器架构 | 18.6 | 2.3 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FTDANet) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.15200) |\n| MTDS | 高效的单声道语音分离 | 21.5 | 4.0 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9746882) |\n| QDPN | 准双路径网络 | **23.6** | 200.0 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2022\u002Frixen22_interspeech.pdf) |\n| SFSRNet | 单通道音频的超分辨率 | **24.0** | 59.0 | [🔗](https:\u002F\u002Fgithub.com\u002Farda-num\u002FSFSRNet) | [📄](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F21372) |\n| TFPSNet | 时频域路径扫描网络 | 21.1 | 2.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9747554) |\n\n### 🌟 2021年（13个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| Unknow-SS | 未知人数的单通道语音分离 | 19.4 | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413627) |\n| VAE | 基于VAE的无监督盲源分离 | - | - | [🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9616154) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9616154) |\n| A-FRCNN | 基于异步全循环CNN的语音分离 | 18.3 | 6.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FAFRCNN-For-Speech-Separation) | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2021\u002Ffile\u002Fbe1bc7997695495f756312886f566110-Paper.pdf) |\n| Sandglasset | 轻量级多粒度自注意力网络 | 20.8 | 2.3 | [🔗](https:\u002F\u002Fgithub.com\u002FZhongyang-debug\u002FSandglasset-A-Light-Multi-Granularity-Self-Attentive-Network-For-Time-Domain-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413837) |\n| CDGAN | 单通道分离的生成对抗网络 | - | - | - | [📄](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS0925231221000734) |\n| SepFormer | 语音分离中“注意力就是一切” | **22.3** | 26.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fspeechbrain\u002Fspeechbrain\u002Ftree\u002Fdevelop\u002Frecipes\u002FWSJ0Mix) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9413901) |\n| WaveSplit | 基于说话人聚类的端到端语音分离 | **22.3** | 29.0 | [🔗](https:\u002F\u002Fgithub.com\u002Fasdlei99\u002FWaveSplit-pytorch-incomplete) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9495162) |\n| TS-MixIT | 教师-学生MixIT用于无监督语音分离 | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.07843) |\n| MSGT-TasNet | 多尺度组变换器 | 17.0 | 66.8 | - | [📄](https:\u002F\u002Fwww.ijcai.org\u002Fproceedings\u002F2020\u002F0450.pdf) |\n| Multi-Decoder DPRNN | 可变数量说话人的源分离 | 19.1 | - | [🔗](https:\u002F\u002Fjunzhejosephzhu.github.io\u002FMulti-Decoder-DPRNN\u002F) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9414205) |\n| DPTCN-ATPP | 多尺度端到端建模 | 19.6 | 4.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9645957) |\n\n### 🔬 2020年（8个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| DPTNet | 双路径Transformer网络 | 20.2 | 2.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fujscjj\u002FDPTNet) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.13975) |\n| Conv-TasSAN | 分离式对抗网络 | 15.1 | 5.0 | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2020\u002Fdeng20b_interspeech.pdf) |\n| DPRNN | 双路径RNN | 18.8 | 2.9 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FDual-Path-RNN-Pytorch) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9054266) |\n| VSUNOS | 未知人数的语音分离 | 20.1 | 7.5 | [🔗](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsvoice) | [📄](https:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Fnachmani20a\u002Fnachmani20a.pdf) |\n| Two-Step CTN | 基于学习到的潜在目标进行训练 | 16.1 | 8.6 | [🔗](https:\u002F\u002Fgithub.com\u002Fetzinis\u002Ftwo_step_mask_learning) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9054172) |\n| Sudo RM-RF | 用于通用音频源分离的高效网络 | 17.0 | 2.7 | [🔗](https:\u002F\u002Fgithub.com\u002Fetzinis\u002Fsudo_rm_rf) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F9231900) |\n| MixIT | 使用混合不变性训练的无监督声音分离 | - | - | [🔗](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fsound-separation) | [📄](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2020\u002Ffile\u002F28538c394c36e4d5ea8ff5ad60562a93-Paper.pdf) |\n| FurcaNeXt | 端到端单声道语音分离 | - | 51.4 | [🔗](https:\u002F\u002Fgithub.com\u002FShiZiqiang\u002Ffurcanext-samples) | [📄](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-030-37731-1_53) |\n\n### 📚 2019年（4个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| Deep CASA | 分而治之：深度CASA方法 | 17.7 | 12.8 | [🔗](https:\u002F\u002Fgithub.com\u002Fyuzhou-git\u002Fdeep-casa) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8834838) |\n| ConvTasNet | 超越理想时频幅度掩膜 | 15.3 | 5.1 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FConv-TasNet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8707065) |\n| OR-PIT | 递归式未知人数语音分离 | 14.8 | - | [🔗](https:\u002F\u002Fgithub.com\u002Ftky823\u002FDNN-based_source_separation) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.03065) |\n| Chimera++ sign | 基于深度学习的相位重建 | 15.3 | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8683231) |\n\n### 🎨 2018年（7个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| SSGAN-PIT | GAN的排列不变性训练 | - | - | - | [📄](https:\u002F\u002Fwww.isca-archive.org\u002Finterspeech_2018\u002Fchen18i_interspeech.pdf) |\n| CBLDNN-GAT | 基于GAT的说话人无关语音分离 | - | 39.5 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462505) |\n| ADAN | 基于深度吸引子的说话人无关语音分离 | 10.4 | 9.1 | [🔗](https:\u002F\u002Fwww.google.com\u002Furl?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwili6iLyNSMAxUShq8BHZnXFSoQFnoECBsQAQ&url=https%3A%2F%2Fgithub.com%2Fnaplab%2FDANet&usg=AOvVaw3KziucfYdKvm1o4ucrOKQ1&opi=89978449) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8264702) |\n| TaSNet | 时域音频分离网络 | 13.2 | 23.6 | [🔗](https:\u002F\u002Fgithub.com\u002Fkaituoxu\u002FTasNet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462116) |\n| Wave-UNet | 用于端到端音频处理的多尺度神经网络 | - | - | [🔗](https:\u002F\u002Fgithub.com\u002Ff90\u002FWave-U-Net) | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.03185) |\n| SSGAN | 生成对抗式的源分离 | - | - | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8461671) |\n| Chimera++ Network | 深度聚类的替代目标函数 | 11.5 | 32.9 | [🔗](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Fdeep-learning-for-practitioners\u002Fblob\u002Fmaster\u002FREADME.md) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8462507\u002F) |\n\n### 🌱 2017年（3个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| DANet | 用于单麦克风说话人分离的深度吸引子网络 | 10.5 | 9.1 | [🔗](https:\u002F\u002Fgithub.com\u002Fnaplab\u002FDANet) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7952155) |\n| uPIT-BLSTM | 基于话语级别的PIT的多说话人语音分离 | 9.8 | 92.7 | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FUtterancePIT-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7979557) |\n| PIT | 深度模型的排列不变性训练 | - | 92.7 | - | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7952154) |\n\n### 🏁 2016年（2个模型）\n\n| 模型 | 论文 | SI-SNRi（WSJ0） | 参数量（M） | 代码 | 论文 |\n|-------|-------|----------------|------------|------|-------|\n| DPCL | 深度聚类：判别式嵌入 | 10.8 | - | [🔗](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FDeep-Clustering-for-Speech-Separation) | [📄](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F7471631) |\n| DPCL | 基于深度聚类的单通道多说话人分离 | - | - | - | [📄](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.02173) |\n\n## 🎬 多模态语音分离\n\n### 音频-视觉语音分离\n\n- **在鸡尾酒会上倾听：一种与说话人无关的音频-视觉语音分离模型** | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.03619.pdf) | [代码](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FLooking-to-Listen-at-the-Cocktail-Party)\n- **对话：深度音频-视觉语音增强** | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.04121.pdf) | [代码](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FThe-Conversation-Deep-Audio-visual-Speech-Enhancement)\n- **基于两阶段多模态网络的音频-视觉语音分离与去混响** | [论文](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8902632\u002F) | [代码](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FAudio-visual-speech-separation-and-dereverberation)\n\n### 音频-文本语音分离\n\n- **VoiceFilter：基于说话人条件谱图掩码的目标语音分离** | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04826.pdf) | [代码](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FVoiceFilter)\n- **SpEx：多尺度时域说话人提取网络** | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.08326.pdf) | [代码](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpEx)\n\n## 📏 评估指标\n\n### 信噪比改善（SI-SNRi）\n**定义**：衡量分离后信噪比的提升。\n\n```\nSI-SNRi = SI-SNR(分离后) - SI-SNR(混合信号)\n```\n\n### 信干比改善（SDRi）\n**定义**：衡量分离后信干比的提升。\n\n```\nSDRi = SDR(分离后) - SDR(混合信号)\n```\n\n### 不变尺度信噪比（SI-SNR）\n**定义**：对缩放差异具有鲁棒性的信噪比变体。\n\n```\nSI-SNR = 10 * log10(||s_target||² \u002F ||e_noise||²)\n```\n\n## 📚 数据集\n\n### WSJ0-2Mix 📊\n- **描述**：来自WSJ0语料库的双说话人混合数据\n- **训练**：20,000条语音片段（30小时）\n- **验证**：5,000条语音片段（7.5小时）\n- **测试**：3,000条语音片段（4.5小时）\n- **采样率**：8 kHz \u002F 16 kHz\n- **数据集大小**：约330GB（完整数据集）\n- **许可**：需获得LDC的WSJ0使用许可\n- **生成方法**：\n  - 安装：`pip install pywsj0-mix`\n  - 生成：使用`generate_wsjmix.py`脚本\n  - GitHub：[pywsj0-mix](https:\u002F\u002Fgithub.com\u002Fasteroid-team\u002Fpywsj0-mix)\n- **要求**：原始WSJ0数据集（来自LDC）\n- **扩展**：可扩展为3、4或5个说话人的混合数据\n\n### WHAM! 🔊\n- **描述**：在WSJ0-2Mix基础上加入WHAM数据集中的真实噪声\n- **噪声**：真实环境噪声\n- **挑战**：噪声鲁棒性\n- **数据集大小**：17GB（噪声数据集）\n- **下载链接**：\n  - 噪声数据集：[WHAM Noise](https:\u002F\u002Fwham.whisper.ai\u002F)\n  - 生成脚本：可在官方网站上找到\n- **生成方法**：\n  - 下载WHAM噪声数据集（17GB）\n  - 需要访问WSJ0数据集\n  - 使用提供的生成脚本\n- **音频格式**：32位浮点WAV，16 kHz\n- **划分**：训练\u002F验证\u002F测试集\n\n### LibriMix 📚\n- **描述**：来自LibriSpeech的2和3说话人混合数据\n- **语言**：英语\n- **采样率**：16 kHz \u002F 8 kHz\n- **挑战**：干净语音分离\n- **数据集大小**：\n  - Libri2Mix：约430GB\n  - Libri3Mix：约332GB\n  - 另外：80GB（LibriSpeech + WHAM噪声）\n- **许可**：开源\n- **生成方法**：\n  - GitHub：[LibriMix](https:\u002F\u002Fgithub.com\u002FJorisCos\u002FLibriMix)\n  - 脚本：`generate_librimix.sh`\n  - 要求：安装SoX\n- **自定义选项**：\n  - 说话人数：2或3\n  - 采样率：16kHz或8kHz\n  - 混合模式：最小值\u002F最大值\n  - 类型：纯清洁混合、双声道混合、单声道混合\n- **替代方案**：SparseLibriMix（稀疏版本）\n\n### WHAMR! 🌊\n- **描述**：在WHAM的基础上加入混响\n- **挑战**：噪声+混响双重鲁棒性\n- **基础数据集**：WHAM + 人工混响\n- **下载链接**：\n  - 官方：[WHAMR网站](https:\u002F\u002Fwham.whisper.ai\u002F)\n  - 提供生成脚本\n- **要求**：\n  - 访问WSJ0数据集\n  - 拥有WHAM噪声数据集\n- **音频处理**：在WHAM的基础上添加人工混响\n- **应用**：更接近真实的声学场景\n\n### LRS2-2Mix 👁️‍🗨️\n- **描述**：来自LRS2数据集的双说话人混合数据\n- **模态**：音频-视觉\n- **挑战**：视觉信息融合\n- **基础数据集**：LRS2（唇读句子2）\n- **许可**：BBC版权，仅限非商业研究用途\n- **下载**：\n  - Hugging Face：[LRS2-2Mix](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJorisCos\u002FLRS2-2Mix)\n  - 需要访问LRS2数据集\n- **特性**：\n  - 不同信噪比的混合\n  - 真实世界的混响和噪声\n  - 更贴近实际场景\n- **信噪比范围**：可变\n\n### SonicSet 🎵\n- **描述**：大规模音频分离数据集\n- **来源**：多种音频源\n- **挑战**：通用音频分离\n- **数据集大小**：\n  - 训练：377GB\n  - 验证\u002F测试：较小子集\n- **构建**：\n  - 基础：SonicSim模拟\n  - 音频：LibriSpeech、FSD50K、Free Music Archive\n  - 场景：Matterport3D环境\n- **下载选项**：\n  - 预先构建好的：OneDrive、百度网盘\n  - GitHub：[SonicSet](https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSonicSim)\n  - 也可使用提供的脚本自行生成\n- **特性**：\n  - 移动声源\n  - 真实的3D声学模拟\n  - 通用分离的基准测试\n- **相关**：FUSS数据集（自由通用声音分离）\n\n## 🎥 视频教程\n\n- **语音分离概述** | [YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=example)\n- **深度学习在音频领域的应用** | [Bilibili](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002Fexample)\n\n---\n\n## 📊 引用\n\n如果您觉得本仓库有用，请考虑引用：\n\n```bibtex\n@misc{speech-separation-tutorial,\n  title={语音分离论文教程},\n  author={JusperLee及贡献者},\n  year={2025},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial}}\n}\n```\n\n## 🤝 贡献\n\n欢迎贡献！请随时提交Pull Request。\n\n## 📄 许可\n\n本项目采用MIT许可证授权——详情请参阅[LICENSE](LICENSE)文件。\n\n---\n\n\u003Cdiv align=\"center\">\n  \u003Cstrong>⭐ 如果您觉得本仓库有帮助，请给它一颗星吧！⭐\u003C\u002Fstrong>\n\u003C\u002Fdiv>","# Speech-Separation-Paper-Tutorial 快速上手指南\n\n本指南旨在帮助开发者快速了解并使用 **Speech-Separation-Paper-Tutorial** 资源库。该项目并非单一的代码模型，而是一个汇集了 2016-2025 年间语音分离领域论文、模型性能对比、分类统计及代码链接的综合知识库。\n\n## 📋 项目简介\n该项目提供了：\n- **69+ 个主流模型**的性能排行榜（WSJ0-2Mix, WHAM!, LibriMix 数据集）。\n- **模型分类详解**：确定性 vs 生成式、网络架构（Dual-path, Conv-TasNet, U-Net）、掩码 vs 映射等。\n- **最新论文追踪**：按年份整理的论文列表及对应的 GitHub 代码链接。\n- **可视化统计**：参数量与性能的关系图、发展时间线。\n\n---\n\n## 🛠️ 环境准备\n\n由于本项目主要是文档和资源索引，无需复杂的运行时环境。但若要运行列表中链接的具体模型代码，通常需要具备以下基础环境：\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2 推荐)\n- **Python 版本**: 3.8 - 3.10 (具体取决于目标模型的依赖)\n- **GPU**: 推荐 NVIDIA GPU (CUDA 11.0+) 以加速推理和训练\n\n### 前置依赖\n浏览本项目内容仅需浏览器。若需复现榜单中的模型（如 MossFormer2, SPMamba 等），请确保安装以下通用深度学习库：\n\n```bash\npip install torch torchaudio numpy scipy soundfile\n# 推荐使用国内镜像源加速安装\npip install torch torchaudio numpy scipy soundfile -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n---\n\n## 📥 安装\u002F获取步骤\n\n本项目本身是一个 Markdown 文档集合，无需传统意义上的“安装”。你可以通过克隆仓库来获取最新的论文列表和统计图表。\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSpeech-Separation-Paper-Tutorial.git\ncd Speech-Separation-Paper-Tutorial\n```\n\n*国内用户若克隆速度慢，可使用 Gitee 镜像（如有）或通过代理加速，或直接在线浏览：*\n👉 [在线预览页面](https:\u002F\u002Fcslikai.cn\u002FSpeech-Separation-Paper-Tutorial\u002F)\n\n### 2. 查看内容\n克隆后，直接在本地用 Markdown 编辑器（如 VS Code, Typora）打开 `README.md` 即可查看完整的模型榜单、分类解析和论文链接。\n\n---\n\n## 🚀 基本使用\n\n本项目的核心用法是**查阅榜单**并**跳转至具体模型代码库**进行实战。以下是典型的使用流程：\n\n### 步骤 1: 选择目标模型\n根据需求查阅 `README.md` 中的 **[Performance Comparison](#-performance-comparison)** 章节。\n- **追求最高精度**: 参考 WSJ0-2Mix 榜单，选择 **MossFormer2** (SI-SNRi 24.1 dB) 或 **SepTDA**。\n- **追求轻量级**: 参考参数量列，选择 **SPMamba** (仅 6.1M 参数) 或 **TIGER** (0.8M 参数)。\n- **特定场景**: 如需处理未知说话人数量，查看 **Unknown Speaker Models** 分类下的 **SepTDA** 或 **SepEDA**。\n\n### 步骤 2: 获取具体模型代码\n在表格中找到目标模型的 **Code** 列链接，点击跳转至其独立的 GitHub 仓库。\n\n*示例：想要复现 2024 年高性能模型 **SPMamba***\n1. 在表格中找到 `SPMamba` 行。\n2. 点击代码链接：`https:\u002F\u002Fgithub.com\u002FJusperLee\u002FSPMamba`\n3. 进入该仓库后，按照其独立的 `README` 进行具体的模型安装和推理。\n\n### 步骤 3: 参考论文与数据集\n- **论文原文**: 点击表格中的 **Paper** 列链接直接下载 PDF。\n- **数据集**: 查阅 **[Datasets](#-datasets)** 章节获取 WSJ0-2Mix, WHAM!, LibriMix 等标准数据集的下载指引。\n\n### 💡 使用技巧\n- **对比分析**: 利用项目中的 `params.pdf` 和 `all_model.pdf` 图表，快速评估模型复杂度与性能的权衡。\n- **技术选型**: 通过 **[Model Categories](#-model-categories)** 章节，了解不同架构（如 Dual-path vs Conv-TasNet）的优缺点，辅助技术决策。\n\n> **注意**: 本仓库不提供统一的推理脚本。每个模型都有独立的实现细节，请务必前往对应模型的子仓库执行具体的 `pip install` 和 `python infer.py` 等操作。","某语音算法团队正在为智能会议系统研发“多人同时说话分离”功能，急需从海量学术成果中筛选出兼顾高精度与低延迟的最优模型架构。\n\n### 没有 Speech-Separation-Paper-Tutorial 时\n- **文献检索如大海捞针**：研究人员需在 Google Scholar 和 arXiv 上手动翻阅近十年数百篇论文，难以快速定位 2016-2025 年间的关键技术突破。\n- **模型选型缺乏数据支撑**：面对确定性模型与生成式模型的抉择，团队无法直观对比参数量与 WSJ0-2Mix 等数据集上的 SI-SNRi 性能指标，容易误选高耗低效模型。\n- **复现路径模糊**：许多论文未提供代码链接或分类混乱，工程师花费数周时间寻找可复现的开源项目，严重拖慢开发进度。\n- **技术演进脉络断裂**：难以理清从 Mask 到 Mapping、从单模态到多模态的技术迭代逻辑，导致架构设计缺乏前瞻性。\n\n### 使用 Speech-Separation-Paper-Tutorial 后\n- **一站式获取核心资源**：团队直接利用其收录的 69 个主流模型清单，按年份和类别快速锁定了 MossFormer2 和 SPMamba 等前沿方案。\n- **基于数据的精准决策**：通过内置的参数 vs 性能散点图和排行榜，迅速确认 SPMamba 仅用 6.1M 参数即可在 WHAM! 数据集达到 17.4dB 的高分，完美契合端侧部署需求。\n- **代码链接直达**：每个模型条目均附带官方 GitHub 仓库链接，算法工程师当天即可完成环境搭建与基线测试，效率提升十倍。\n- **清晰的技术地图**：借助模型时间轴和分类体系，团队迅速掌握了从 SepFormer 到最新扩散模型的技术演进路线，制定了合理的迭代计划。\n\nSpeech-Separation-Paper-Tutorial 将原本需要数月的调研工作压缩至几天，让研发团队能专注于算法优化而非信息搜集。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FJusperLee_Speech-Separation-Paper-Tutorial_08b07238.png","JusperLee","Kai Li (李凯)","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FJusperLee_970ed0a8.jpg",null,"@thu-ml","Tsinghua University","tsinghua.kaili@gmail.com","cs_kai_li","cslikai.cn","https:\u002F\u002Fgithub.com\u002FJusperLee",[86,90,94,98],{"name":87,"color":88,"percentage":89},"TypeScript","#3178c6",93.4,{"name":91,"color":92,"percentage":93},"CSS","#663399",3.8,{"name":95,"color":96,"percentage":97},"JavaScript","#f1e05a",1.8,{"name":99,"color":100,"percentage":101},"HTML","#e34c26",1,925,140,"2026-04-15T04:16:55",4,"","未说明",{"notes":109,"python":107,"dependencies":110},"该仓库是一个语音分离论文、模型和资源的综合教程与列表（2016-2025），主要提供文献综述、性能对比统计和指向各个独立模型代码库的链接。README 中未包含本仓库本身的安装指南或运行环境需求。若要运行文中提到的具体模型（如 MossFormer2, SepTDA 等），需访问表格中提供的各自独立的 GitHub 仓库链接以获取相应的环境配置信息。",[],[21],[113,114,115,116],"paper","speech-enhancement","speech-separation","voice-separation","2026-03-27T02:49:30.150509","2026-04-19T09:14:22.845997",[],[]]