awesome-deep-learning-music

GitHub
3k 341 非常简单 7 次阅读 5天前MIT音频开发框架其他
AI 解读 由 AI 自动生成,仅供参考

awesome-deep-learning-music 是一个专注于深度学习与音乐领域交叉研究的开源资源库,通过系统整理学术论文、技术报告和代码资源,为研究者提供一站式参考。它解决了音乐信息处理领域研究资料分散、检索成本高的问题,尤其针对音乐生成、音源分离、乐器识别等任务,覆盖从1988年至今的重要研究成果。

该资源库适合人工智能、音乐技术领域的研究人员和开发者使用,尤其对需要跟踪前沿算法、验证模型效果的研究者具有较高价值。其独特优势在于提供结构化数据:每项研究均附带论文标题、PDF链接、代码地址,并通过表格和Bib文件格式呈现元数据,方便学术引用。项目还包含统计可视化模块,可直观展示研究趋势和热点分布。

尽管项目当前处于无人维护状态,但作者保留了完整的技术文档和贡献指南,鼓励社区协作更新。对于开发者而言,这里不仅是文献检索工具,更是了解音乐AI技术演进脉络的窗口。普通用户若对AI音乐创作原理感兴趣,也可通过摘要部分获取基础认知。

使用场景

音乐科技初创公司的一名研发工程师正在开发AI作曲工具,需要快速了解深度学习在音乐生成领域的最新研究进展和技术方案。

没有 awesome-deep-learning-music 时

  • 需要手动在arXiv、Google Scholar等平台搜索"deep learning music generation",每天耗费2小时仍难以覆盖所有相关文献
  • 遇到1995年提出的源识别算法与2023年的Transformer变体难以对比,研究演进脉络不清晰
  • 找到的论文中仅30%提供可复现的代码仓库,且代码质量参差不齐
  • 面对"Music Information Retrieval"等跨学科术语时,需要额外查阅领域专有名词解释
  • 无法判断哪些研究已被后续工作改进,存在重复研究风险

使用 awesome-deep-learning-music 后

  • 通过按年份/任务分类的表格,30分钟内即可掌握从1988年神经网络建模到2023年扩散模型的完整发展脉络
  • 每篇条目附带论文摘要、代码链接和关键创新点说明,可直接定位到2021年提出的MusicLM等里程碑工作
  • 代码仓库标注了"PyTorch实现"或"Colab可运行"等标签,优先选择验证过的高质量实现方案
  • 术语表解释了"Monophonic Source Identification"等专业概念,降低跨学科理解门槛
  • 通过引用关系图谱发现某篇2018年论文已被2022年研究改进,避免重复开发相似方案

这个工具将音乐领域深度学习研究的检索效率提升了70%,使工程师能将80%精力集中在技术验证而非文献筛选上,显著加速了AI作曲产品的原型开发周期。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该项目为论文与代码资源汇总清单,本身无具体运行环境需求。实际使用需参考各条目对应的代码仓库文档
python未说明
awesome-deep-learning-music hero image

快速开始

⚠️ 本仓库已停止维护。虽然信息仍然相关,但欢迎贡献以保持其更新!一个不错的起点是此处引用的文章:https://github.com/ybayle/awesome-deep-learning-music/issues/5

音乐领域的深度学习(DL4M)Awesome

Yann Bayle个人网站GitHub)来自 LaBRI(官网Twitter)、Univ. Bordeaux(官网Twitter)、CNRS(官网Twitter)和 SCRIME(官网)。

TL;DR 音乐领域深度学习的非详尽科学论文列表:摘要(论文标题、PDF链接和代码),详情(表格 - 更多信息),详情(参考文献格式 - 所有信息)

本精选列表旨在汇总使用深度学习(Deep Learning)方法应用于音乐的科学论文、博士论文和报告。 该列表仍在建设中,欢迎补充缺失字段或添加其他资源!请参见如何贡献部分了解具体方式。 此处提供的资源来源于我为博士论文撰写的综述文章,目前相关论文正在撰写中。 目前已有关于深度学习在音乐生成语音分离说话人识别方面的综述。 然而,这些综述未涵盖本仓库包含的音乐信息检索(Music Information Retrieval)任务。

目录

DL4M 摘要

年份 文章、论文和报告 代码
1988 神经网络音乐建模
1988 通过细化创造:梯度下降学习网络的创造力范式
1988 音乐应用的序列网络设计
1989 神经网络和弦分类模型中的音高表示
1989 神经网络音乐作曲算法:改进的CBR范式
1989 算法作曲的联结主义方法
1994 通过预测的神经网络音乐创作:探索听觉心理约束和多尺度处理的优势
1995 单音色乐器声音的自动源识别
1995 基于神经网络的音乐类型分类模型
1997 机器学习在音乐风格识别中的应用
1998 音乐类型的识别
1999 音乐网络:并行分布式感知与表现
2001 爵士即兴演奏与互动的多阶段学习
2002 监督学习在音乐风格识别中的应用
2002 在音乐中寻找时间结构:使用LSTM循环网络的蓝调即兴演奏
2002 钢琴音乐中的音符起始检测神经网络
2004 基于卷积核的钢琴独奏音频信号音符起始检测方法
2009 使用卷积深度信念网络的音频分类无监督特征学习
2010 使用卷积神经网络和音高、节奏变换的音频音乐流派分类
2010 使用卷积神经网络的自动音乐模式特征提取
2011 基于预训练卷积网络的音频音乐分类
2012 重新思考使用卷积神经网络的自动和弦识别
2012 超越特征设计:音乐信息学中的深度架构和自动特征学习
2012 使用卷积神经网络进行局部特征图整合的音乐流派分类
2012 用于音乐标注和检索的稀疏特征表示学习
2012 用于音乐分类的无监督局部特征学习
2013 多尺度音乐音频特征学习方法
2013 使用卷积神经网络的音乐音符起始检测
2013 深度内容驱动的音乐推荐
2014 慕尼黑LSTM-RNN在MediaEval 2014音乐情感任务中的应用
2014 端到端音乐音频学习
2014 深度学习在音乐流派分类中的应用
2014 使用深度神经网络进行声学事件识别
2014 深度图像特征在音乐信息检索中的应用
2014 从音乐音频到和弦表格:教深度卷积网络弹吉他
2014 改进的卷积神经网络音乐音符起始检测
2014 使用卷积神经网络进行音乐结构分析边界检测
2014 使用深度学习改进基于内容和混合音乐推荐
2014 用于不变性和音乐分类的深度表示
2015 深度卷积神经网络的听觉化:聆听学习特征 GitHub
2015 使用多种特征和深度神经网络的拍点追踪
2015 使用神经网络在频谱图和自相似滞后矩阵上进行音乐边界检测
2015 使用卷积神经网络对空间音频位置和内容进行分类
2015 深度学习、音频对抗与音乐内容分析
2015 深度学习与音乐对抗 GitHub
2015 使用深度循环神经网络的歌唱声检测
2015 使用卷积神经网络进行多音音乐中乐器的自动识别
2015 音乐数据增强的软件框架
2015 用于音乐自动标记的深度词袋模型
2015 使用卷积神经网络在时空域进行音乐-噪声分割
2015 使用特征融合方法的深度卷积神经网络进行乐器声音分类
2015 使用卷积神经网络进行环境声音分类
2015 探索数据增强以改进神经网络的歌唱声检测 GitHub
2015 使用深度神经网络识别歌手特征
2015 混合循环神经网络用于音乐转录
2015 用于多音音乐转录的端到端神经网络
2015 深度卡拉OK:使用卷积深度神经网络从音乐混合中提取人声
2015 使用长短期记忆单元的循环神经网络进行民间音乐风格建模 GitHub
2015 基于深度神经网络的音乐中乐器提取
2015 用于音乐建模的深度神经网络
2016 一种高效的音频信号分割、特征提取和分类方法
2016 基于LSTM网络的文本驱动自动音乐创作
2016 使用基于曲目内转换的RNN生成播放列表的算法
2016 自动标记的深度卷积神经网络
2016 使用深度神经网络进行七和弦词汇的自动和弦估计
2016 DeepBach:巴赫合唱曲生成的可导向模型 GitHub
2016 基于学习信号表示的贝叶斯节拍跟踪
2016 深度学习在音乐中的应用
2016 使用深度神经网络学习时间特征及其在音乐流派分类中的应用
2016 钢琴转录中简单帧级方法的潜力
2016 和弦识别的特征学习:深度色度提取器 GitHub
2016 用于音乐和弦识别的全卷积深度听觉模型
2016 基于深度双向长短期记忆的多尺度方法用于音乐动态情感预测
2016 音乐自动标记中的事件定位 GitHub
2016 基于音高螺旋的深度卷积网络用于乐器识别 GitHub
2016 SampleRNN:无条件端到端神经音频生成模型 GitHub
2016 使用1-max池化卷积神经网络的鲁棒音频事件识别
2016 基于音乐动机的卷积神经网络实验 GitHub
2016 使用深度神经网络的歌唱旋律转录
2016 使用深度神经网络和F0估计的歌唱声分离 网站
2016 从弱标记示例中定位歌唱声
2016 使用卷积神经网络分析时频表示进行音乐起始检测
2016 基于神经网络的多ODF融合进行音乐信号音符起始检测
2016 使用深度学习进行音乐转录建模和创作 GitHub
2016 用于鲁棒音高确定的卷积神经网络
2016 深度卷积神经网络和数据增强在声学事件检测中的应用 网站
2017 音频处理中的Gabor帧和深度散射网络
2017 基于视觉的声学定时事件检测:单簧管音符起始的案例研究
2017 深度学习在音乐生成中的技术综述
2017 JamBot:基于LSTM的音乐理论感知和弦多音音乐生成 GitHub
2017 XFlow:用于音视频分类的1D<->2D跨模态深度神经网络
2017 机器听觉智能
2017 使用深度卷积神经网络的单耳音频源分离 GitHub
2017 多标签分类的深度多模态网络
2017 深度学习在音乐信息检索中的教程 GitHub
2017 音乐标记中音频信号预处理方法的比较 GitHub
2017 音乐分类和回归任务的迁移学习 GitHub
2017 用于音乐分类的卷积循环神经网络 GitHub
2017 使用频谱图评估卷积神经网络在音乐分类中的应用
2017 基于深度神经网络的大词汇量自动和弦估计:设计框架、系统变体和局限性
2017 卷积神经网络的基本滤波器:训练还是设计?
2017 用于声学场景分类的深度神经网络集成
2017 使用卷积网络集成的鲁棒拍点跟踪
2017 使用向量乘积神经网络进行音乐信号处理
2017 通过流派分类卷积神经网络转换音乐信号
2017 通过结合语音和时长信息进行音频到乐谱匹配 GitHub
2017 使用前瞻性RNN进行带位置约束的交互式音乐生成
2017 基于深度排名的音乐序列转置不变距离
2017 GLSR-VAE:变分自编码器架构的测地线潜在空间正则化
2017 用于多音音乐中主要乐器识别的深度卷积神经网络
2017 大规模音频分类的CNN架构
2017 DeepSheet:基于深度学习的乐谱生成器
2017 Talking Drums:使用神经网络生成鼓节奏
2017 使用深度U-Net卷积网络进行歌唱声分离 GitHub
2017 基于端到端多模态神经网络的音乐情感识别
2017 通过深度学习集成和声间隔表示进行和弦标签个性化
2017 使用卷积神经网络进行端到端音乐调性估计
2017 MediaEval 2017 AcousticBrainz流派任务:多层感知机方法
2017 基于深度卷积神经网络的分类歌唱旋律提取
2017 使用预训练卷积神经网络进行多级多尺度特征聚合的音乐自动标记
2017 使用样本级深度卷积神经网络进行多级多尺度特征聚合的音乐分类 GitHub
2017 使用原始波形的样本级深度卷积神经网络进行音乐自动标记
2017 用于多音音乐生成的SeqGAN GitHub
2017 使用卷积自编码器进行和声与打击乐源分离
2017 用于音乐情感识别的堆叠卷积和循环神经网络
2017 嘻哈音乐源分离和混音的深度学习方法
2017 使用掩码条件神经网络的音乐流派分类
2017 使用跳跃过滤连接和时间频率掩码递归推理的单声道歌唱声分离 GitHub
2017 生成数据以训练用于古典音乐源分离的卷积神经网络 GitHub

返回顶部

DL4M 详细信息

一个可读性更强的表格汇总版本显示在文件 dl4m.tsv 中。每篇文章的完整细节存储在对应的 BibTeX 条目(bib entry)中,位于 dl4m.bib。每个条目包含标准的 bib 字段:

  • author
  • year
  • title
  • journalbooktitle

dl4m.bib 中的每个条目还包含额外信息:

  • link - PDF 文件的 HTML 链接
  • code - 可用的源代码链接
  • archi - 神经网络架构(Neural Network Architecture)
  • layer - 层数
  • task - 文章中研究的提出任务
  • dataset - 使用的数据集名称
  • dataaugmentation - 使用的数据增强技术类型
  • time - 计算时间
  • hardware - 使用的硬件
  • note - 额外说明和信息
  • repro - 实验可重复性的程度说明

返回顶部

无关联论文的代码项目

返回顶部

统计数据与可视化

  • 引用了 167 篇论文。详情见 dl4m.bib。 2017 年的论文数量超过其他年份的总和。 按年份划分的文章数量: 每年的文章数量
  • 如果你正在应用深度学习(Deep Learning, DL)进行音乐研究,那么还有 364 位其他研究者 在这个领域。
  • 调查了 34 项任务。任务列表见 tasks。 任务饼图: 任务饼图
  • 使用了 55 个数据集。数据集列表见 datasets。 数据集饼图: 数据集饼图
  • 使用了 30 种架构。架构列表见 architectures。 架构饼图: 架构饼图
  • 使用了 9 种框架。框架列表见 frameworks。 框架饼图: 框架饼图
  • 仅有 47 篇文章(28%)提供了源代码。 可重复性是科学的关键,因此请查看 MIR 和 ML 领域可重复性的有用资源列表

返回顶部

dl4m 论文审阅建议

请参考 advice_review.md 文件。

如何贡献

欢迎贡献! 请参考 CONTRIBUTING.md 文件。

返回顶部

常见问题

文章是如何排序的?

文章首先按年份降序排列(以便紧跟最新动态),然后按主要作者的姓氏字母顺序排列。

为什么 arXiv 的预印本包含在列表中?

我希望对 DL4M 进行全面研究并获取最新动态。然而,应注意当前处于评审中的文章信息。如果可能,请等待最终被接受并经过同行评审的版本后再引用 arXiv 论文。我会定期更新 arXiv 链接为已发表的论文链接(如果可用)。

我能信任文章中发表的结果吗?

此处提供的列表不保证文章的质量。您应尝试重现描述的实验,或向 ReScience 提交请求。使用一篇文章的结论需自行承担风险。

返回顶部

使用的缩写

深度学习和音乐领域常用缩写列表存储在 acronyms.md 中。

返回顶部

来源

用于收集所列材料的会议、期刊和聚合器列表存储在 sources.md 中。

返回顶部

贡献者

返回顶部

其他有用的列表和资源

音频

返回顶部

音乐数据集

返回顶部

深度学习

返回顶部

被引用情况(Cited by)

如果您使用了本仓库中的信息,请告知我们!本仓库已被以下内容引用:

返回顶部

许可证(License)

您可以在 MIT 许可证条款下自由复制、修改和分发 Deep Learning for Music(DL4M),并需注明来源。详情请参阅 LICENSE 文件。
本项目使用了其他项目,请参考以下项目以获取相应的许可证信息:

返回顶部

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架