[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-umbrellabeach--music-generation-with-DL":3,"tool-umbrellabeach--music-generation-with-DL":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":78,"stars":80,"forks":81,"last_commit_at":82,"license":78,"difficulty_score":83,"env_os":84,"env_gpu":85,"env_ram":85,"env_deps":86,"category_tags":89,"github_topics":91,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":96,"updated_at":97,"faqs":98,"releases":99},4908,"umbrellabeach\u002Fmusic-generation-with-DL","music-generation-with-DL","Resources on Music Generation with Deep Learning","music-generation-with-DL 是一个专注于深度学习音乐生成领域的开源资源库，旨在汇集该方向的前沿学术论文与代码实现。它主要解决了音乐创作中如何利用人工智能自动谱写旋律、转换风格以及生成多轨伴奏等技术难题，为研究者提供了从理论模型到实际应用的完整参考路径。\n\n该项目非常适合 AI 研究人员、算法工程师以及对计算机音乐创作感兴趣的学生使用。通过整理包括 MuseGAN、C-RNN-GAN、MidiNet 等在内的经典工作，它展示了生成对抗网络（GAN）、循环神经网络（RNN\u002FLSTM）以及强化学习在音乐序列建模中的独特应用。这些技术亮点不仅让机器能够“理解”乐理结构，还能创造出具有流行音乐特征或特定风格（如 8-bit 芯片音乐）的新曲目。无论是希望复现经典实验的开发者，还是寻求灵感探索新模型的研究者，都能在这里找到宝贵的学术资料和技术线索，是推动智能音乐创作发展的重要知识库。","# music-generation-with-DL\n\n## Papers\n\n- **Melody Generation for Pop Music via Word Representation of Musical Properties** (2017.10) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.11549)] [[Code](https:\u002F\u002Fgithub.com\u002Fmil-tokyo\u002FNeuralMelody)]\n\n- **Generating Nontrivial Melodies for Music as a Service** (2017.10) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.02280)] [[Page](https:\u002F\u002Fcomposing.ai)]\n\n- **MuseGAN: Symbolic-domain Music Generation and Accompaniment with Multi-track Sequential Generative Adversarial Networks** (2017.9) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.06298)] [[Page](https:\u002F\u002Fsalu133445.github.io\u002Fmusegan\u002F)]\n\n- **Similarity Embedding Network for Unsupervised Sequential Pattern Learning by Playing Music Puzzle Games** （2017.9）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.04384)] [[Page](https:\u002F\u002Fremyhuang.github.io\u002FDJnet)]\n\n- **A Tutorial on Deep Learning for Music Information Retrieval** (2017.9) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.04396)]\n\n- **Deep Learning Techniques for Music Generation - A Survey** (2017.9) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.01620)]\n\n- **Neural Translation of Musical Style** (2017.8) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1708.03535)] [[Page](http:\u002F\u002Fimanmalik.com\u002Fcs\u002F2017\u002F06\u002F05\u002Fneural-style.html)]\n\n- **GLSR-VAE: Geodesic Latent Space Regularization for Variational AutoEncoder Architectures** (2017.7) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.04588)]\n\n- **Learning and Evaluating Musical Features with Deep Autoencoders** (2017.6) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.04486)]\n\n- **Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models** (2017.5) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.10843)] [[Code](https:\u002F\u002Fgithub.com\u002Fgablg1\u002FORGAN)]\n\n- **MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions** - **ISMIR 2017** (2017.3) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.10847)] [[Page](https:\u002F\u002Frichardyang40148.github.io\u002FTheBlog\u002Fmidinet_arxiv_demo.html)] \n\n- **Automatic Conversion of Pop Music into Chiptunes for 8-bit Pixel Art** - **ICASSP 2017** (2017.2) [[Paper](http:\u002F\u002Fmac.citi.sinica.edu.tw\u002F~yang\u002Fpub\u002Fsu17icassp_8bit.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002FLemonATsu\u002Fpop-to-8bit)] [[Page](https:\u002F\u002Flemonatsu.github.io)]\n\n\n- **C-RNN-GAN: Continuous Recurrent Neural Networks with Adversarial Training** (2016.11) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.09904)] [[Code](https:\u002F\u002Fgithub.com\u002Folofmogren\u002Fc-rnn-gan)]\n\n- **Tuning Recurrent Neural Networks with Reinforcement Learning - ICLR 2017** (2016.11) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.02796)] [[Web](https:\u002F\u002Fmagenta.tensorflow.org\u002F2016\u002F11\u002F09\u002Ftuning-recurrent-networks-with-reinforcement-learning)] [[Code](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmagenta\u002Ftree\u002Fmaster\u002Fmagenta\u002Fmodels\u002Frl_tuner)]\n\n- **SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient** - **AAAI 2017** (2016.9) [[Paper](http:\u002F\u002Fwww.aaai.org\u002Focs\u002Findex.php\u002FAAAI\u002FAAAI17\u002Fpaper\u002Fdownload\u002F14344\u002F14489)] [[Code](https:\u002F\u002Fgithub.com\u002FLantaoYu\u002FSeqGAN)]\n\n- **Song From PI: A Musically Plausible Network for Pop Music Generation** - **ICLR 2017** [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.03477)]\n\n- **Text-based LSTM networks for Automatic Music Composition** (2016.4) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.05358#)] [[Web](https:\u002F\u002Fkeunwoochoi.wordpress.com\u002F2016\u002F02\u002F23\u002Flstmetallica\u002F)] [[Code](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002FLSTMetallica)]\n\n- **Music Transcription Modelling and Composition Using Deep Learning** (2016.4) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.08723)] [[Code](https:\u002F\u002Fgithub.com\u002FIraKorshunova\u002Ffolk-rnn)]\n\n- **Composing A Melody with Long-short Term Memory (LSTM) Recurrent Neural Networks** (2016.2) [[Web](http:\u002F\u002Fkonstilackner.github.io\u002FLSTM-RNN-Melody-Composer-Website\u002F)] [[Code](https:\u002F\u002Fgithub.com\u002Fkonstilackner\u002FLSTM-RNN-Melody-Composer)] [[Paper](http:\u002F\u002Fkonstilackner.github.io\u002FLSTM-RNN-Melody-Composer-Website\u002FThesis_final01.pdf)]\n\n- **Neural Adaptive Sequential Monte Carlo - NIPS 2015** (2015) [[Paper](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5961-neural-adaptive-sequential-monte-carlo.pdf)]\n\n- **A Recurrent Latent Variable Model for Sequential Data - NIPS 2015** (2015) [[Paper](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5653-a-recurrent-latent-variable-model-for-sequential-data.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fjych\u002Fnips2015_vrnn)]\n\n- **AI Methods in Algorithmic Composition: A Comprehensive Survey** (2013) [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1402.0585)]\n\n- **Modeling Temporal Dependencies in High-dimensional Sequences: Application to Polyphonic Music Generation and Transcription** (2012) [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1206.6392)] \n\n- **Towards Adaptive Music Generation By Reinforcement Learning of Musical Tension** (2010) [[Paper](https:\u002F\u002Fccrma.stanford.edu\u002F~slegroux\u002Faffect\u002Fpubs\u002FSMC2010.pdf)]\n\n- **A First Look at Music Composition using LSTM Recurrent Neural Networks** (2002) [[Web](http:\u002F\u002Fwww.iro.umontreal.ca\u002F~eckdoug\u002Fblues\u002Findex.html)] [[Paper](http:\u002F\u002Fwww.iro.umontreal.ca\u002F~eckdoug\u002Fblues\u002FIDSIA-07-02.pdf)]\n\n## Blogs\n\n- **Neural Nets for Generating Music** [[Web](https:\u002F\u002Fmedium.com\u002F@kcimc\u002Fneural-nets-for-generating-music-f46dffac21c0)]\n\n- **Generative Music with JavaScript & Web Audio** [[Web](https:\u002F\u002Fteropa.info\u002Fgenerative-music-slides\u002F)]\n\n- **The Current State Of AI: Artificial Intelligence In Music, Movies & More** (2017.7) [[Web](http:\u002F\u002Fwww.hypebot.com\u002Fhypebot\u002F2017\u002F07\u002Fai-today-the-current-state-of-artificial-intelligence.html)]\n- **Composing Music With Recurrent Neural Networks** (2015.8) [[Web](http:\u002F\u002Fwww.hexahedria.com\u002F2015\u002F08\u002F03\u002Fcomposing-music-with-recurrent-neural-networks\u002F)] [[Code](https:\u002F\u002Fgithub.com\u002Fhexahedria\u002Fbiaxial-rnn-music-composition)]\n\n\n## Codes\n\n-  **Google Magenta** [[Web](https:\u002F\u002Fmagenta.tensorflow.org\u002Fwelcome-to-magenta)] [[Code](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmagenta)] \n\n- **Deep Jazz**  [[Web](https:\u002F\u002Fdeepjazz.io\u002F)] [[Code](https:\u002F\u002Fdeepjazz.io\u002F)]\n\n- **BachBot** [[Web](http:\u002F\u002Fbachbot.com\u002F)] [[Code](https:\u002F\u002Fgithub.com\u002Ffeynmanliang\u002Fbachbot\u002F)]\n\n- **WaveNet** [[Code](https:\u002F\u002Fgithub.com\u002Fibab\u002Ftensorflow-wavenet)] (not fully)\n\n- **GRUV** [[Code](https:\u002F\u002Fgithub.com\u002FMattVitelli\u002FGRUV)]\n\n- **Kulitta** [[Code](https:\u002F\u002Fgithub.com\u002Fdonya\u002FKulitta)]\n\n## Conferences&Workshops\n\n- **ACM MM** - ACM MultiMedia [[Web](http:\u002F\u002Fwww.acmmm.org\u002F2017)]\n- **ISMIR** - The International Society of Music Information Retrieval [[Web](http:\u002F\u002Fwww.ismir.net\u002F)]\n- **ICASSP** - Conference on Acoustics, Speech and Signal Processing [[Web](http:\u002F\u002Fwww.ieee-icassp2017.org\u002F)]\n- **DLM** - Deep Learning for Music Workshop [[Web](http:\u002F\u002Fdorienherremans.com\u002Fdlm2017\u002F)]\n- **CSMC** - Conference on Computer Simulation of Musical  Creativity [[Web](https:\u002F\u002Fcsmc2016.wordpress.com\u002F)]\n- **CCRMA** - Center for Computer Research in Music and Acoustics (Stanford University) [[Web](https:\u002F\u002Fccrma.stanford.edu\u002F)]\n- **ICMC** - Internatonal Computer Music Conference [[Web](http:\u002F\u002Fwww.icmc2017.com\u002F)] [[Lists](http:\u002F\u002Fwww.icmc2017.com\u002Fcn\u002Fpage1.html)]\n\n## Applications\n\n- **Google A.I. Duet** [[Link](https:\u002F\u002Faiexperiments.withgoogle.com\u002Fai-duet)]\n- **The Infinite Drum Machine** [[Link](https:\u002F\u002Faiexperiments.withgoogle.com\u002Fdrum-machine)]\n- **Amper Music** [[Link](https:\u002F\u002Fwww.ampermusic.com\u002Fapp#\u002F)]\n- **Intelligent Music System** [[Link](http:\u002F\u002F120.52.72.53\u002Fwww.intelligentmusicsystems.com\u002Fc3pr90ntc0td\u002Fvid\u002Ftempo_shifting.mp4)]\n- **Unwind** [[Link](http:\u002F\u002Funwind.ai)]\n- **Tidalcycles** [[Link](https:\u002F\u002Ftidalcycles.org)] [[Video](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=xoa3OT8ncX0)]\n","# 使用深度学习进行音乐生成\n\n## 论文\n\n- **基于音乐属性词表示的流行音乐旋律生成**（2017年10月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.11549)] [[代码](https:\u002F\u002Fgithub.com\u002Fmil-tokyo\u002FNeuralMelody)]\n\n- **为音乐即服务生成非平凡旋律**（2017年10月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.02280)] [[页面](https:\u002F\u002Fcomposing.ai)]\n\n- **MuseGAN：基于多轨序列生成对抗网络的符号域音乐生成与伴奏**（2017年9月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.06298)] [[页面](https:\u002F\u002Fsalu133445.github.io\u002Fmusegan\u002F)]\n\n- **用于无监督序列模式学习的相似性嵌入网络——通过玩音乐拼图游戏实现**（2017年9月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.04384)] [[页面](https:\u002F\u002Fremyhuang.github.io\u002FDJnet)]\n\n- **面向音乐信息检索的深度学习教程**（2017年9月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.04396)]\n\n- **音乐生成中的深度学习技术——综述**（2017年9月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.01620)]\n\n- **音乐风格的神经翻译**（2017年8月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1708.03535)] [[页面](http:\u002F\u002Fimanmalik.com\u002Fcs\u002F2017\u002F06\u002F05\u002Fneural-style.html)]\n\n- **GLSR-VAE：用于变分自编码器架构的测地线潜在空间正则化**（2017年7月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.04588)]\n\n- **利用深度自编码器学习和评估音乐特征**（2017年6月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.04486)]\n\n- **面向序列生成模型的目标强化生成对抗网络（ORGAN）**（2017年5月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.10843)] [[代码](https:\u002F\u002Fgithub.com\u002Fgablg1\u002FORGAN)]\n\n- **MidiNet：一种使用1D和2D条件的符号域音乐生成卷积生成对抗网络**——ISMIR 2017（2017年3月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.10847)] [[页面](https:\u002F\u002Frichardyang40148.github.io\u002FTheBlog\u002Fmidinet_arxiv_demo.html)]\n\n- **将流行音乐自动转换为8位像素艺术风格的芯片音乐**——ICASSP 2017（2017年2月）[[论文](http:\u002F\u002Fmac.citi.sinica.edu.tw\u002F~yang\u002Fpub\u002Fsu17icassp_8bit.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FLemonATsu\u002Fpop-to-8bit)] [[页面](https:\u002F\u002Flemonatsu.github.io)]\n\n\n- **C-RNN-GAN：具有对抗训练的连续循环神经网络**（2016年11月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.09904)] [[代码](https:\u002F\u002Fgithub.com\u002Folofmogren\u002Fc-rnn-gan)]\n\n- **用强化学习调优循环神经网络——ICLR 2017**（2016年11月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.02796)] [[网页](https:\u002F\u002Fmagenta.tensorflow.org\u002F2016\u002F11\u002F09\u002Ftuning-recurrent-networks-with-reinforcement-learning)] [[代码](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmagenta\u002Ftree\u002Fmaster\u002Fmagenta\u002Fmodels\u002Frl_tuner)]\n\n- **SeqGAN：带有策略梯度的序列生成对抗网络**——AAAI 2017（2016年9月）[[论文](http:\u002F\u002Fwww.aaai.org\u002Focs\u002Findex.php\u002FAAAI\u002FAAAI17\u002Fpaper\u002Fdownload\u002F14344\u002F14489)] [[代码](https:\u002F\u002Fgithub.com\u002FLantaoYu\u002FSeqGAN)]\n\n- **来自π的歌曲：一种音乐上合理的流行音乐生成网络**——ICLR 2017[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1611.03477)]\n\n- **基于文本的LSTM网络用于自动音乐创作**（2016年4月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.05358#)] [[网页](https:\u002F\u002Fkeunwoochoi.wordpress.com\u002F2016\u002F02\u002F23\u002Flstmetallica\u002F)] [[代码](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002FLSTMetallica)]\n\n- **利用深度学习进行音乐转录建模与作曲**（2016年4月）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1604.08723)] [[代码](https:\u002F\u002Fgithub.com\u002FIraKorshunova\u002Ffolk-rnn)]\n\n- **用长短时记忆（LSTM）循环神经网络创作旋律**（2016年2月）[[网页](http:\u002F\u002Fkonstilackner.github.io\u002FLSTM-RNN-Melody-Composer-Website\u002F)] [[代码](https:\u002F\u002Fgithub.com\u002Fkonstilackner\u002FLSTM-RNN-Melody-Composer)] [[论文](http:\u002F\u002Fkonstilackner.github.io\u002FLSTM-RNN-Melody-Composer-Website\u002FThesis_final01.pdf)]\n\n- **神经自适应序列蒙特卡洛——NIPS 2015**（2015年）[[论文](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5961-neural-adaptive-sequential-monte-carlo.pdf)]\n\n- **用于序列数据的循环隐变量模型——NIPS 2015**（2015年）[[论文](http:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F5653-a-recurrent-latent-variable-model-for-sequential-data.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fjych\u002Fnips2015_vrnn)]\n\n- **算法作曲中的AI方法：全面综述**（2013年）[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1402.0585)]\n\n- **高维序列中时间依赖性的建模：应用于复调音乐生成与转录**（2012年）[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1206.6392)]\n\n- **通过音乐张力的强化学习迈向自适应音乐生成**（2010年）[[论文](https:\u002F\u002Fccrma.stanford.edu\u002F~slegroux\u002Faffect\u002Fpubs\u002FSMC2010.pdf)]\n\n- **首次尝试使用LSTM循环神经网络进行音乐创作**（2002年）[[网页](http:\u002F\u002Fwww.iro.umontreal.ca\u002F~eckdoug\u002Fblues\u002Findex.html)] [[论文](http:\u002F\u002Fwww.iro.umontreal.ca\u002F~eckdoug\u002Fblues\u002FIDSIA-07-02.pdf)]\n\n## 博客\n\n- **用于生成音乐的神经网络**[[网页](https:\u002F\u002Fmedium.com\u002F@kcimc\u002Fneural-nets-for-generating-music-f46dffac21c0)]\n\n- **使用JavaScript与Web Audio生成音乐**[[网页](https:\u002F\u002Fteropa.info\u002Fgenerative-music-slides\u002F)]\n\n- **人工智能现状：音乐、电影等领域的AI应用**（2017年7月）[[网页](http:\u002F\u002Fwww.hypebot.com\u002Fhypebot\u002F2017\u002F07\u002Fai-today-the-current-state-of-artificial-intelligence.html)]\n- **用循环神经网络作曲**（2015年8月）[[网页](http:\u002F\u002Fwww.hexahedria.com\u002F2015\u002F08\u002F03\u002Fcomposing-music-with-recurrent-neural-networks\u002F)] [[代码](https:\u002F\u002Fgithub.com\u002Fhexahedria\u002Fbiaxial-rnn-music-composition)]\n\n\n## 代码库\n\n- **Google Magenta**[[网页](https:\u002F\u002Fmagenta.tensorflow.org\u002Fwelcome-to-magenta)] [[代码](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmagenta)]\n\n- **Deep Jazz**[[网页](https:\u002F\u002Fdeepjazz.io\u002F)] [[代码](https:\u002F\u002Fdeepjazz.io\u002F)]\n\n- **BachBot**[[网页](http:\u002F\u002Fbachbot.com\u002F)] [[代码](https:\u002F\u002Fgithub.com\u002Ffeynmanliang\u002Fbachbot\u002F)]\n\n- **WaveNet**[[代码](https:\u002F\u002Fgithub.com\u002Fibab\u002Ftensorflow-wavenet)]（未完全实现）\n\n- **GRUV**[[代码](https:\u002F\u002Fgithub.com\u002FMattVitelli\u002FGRUV)]\n\n- **Kulitta**[[代码](https:\u002F\u002Fgithub.com\u002Fdonya\u002FKulitta)]\n\n## 会议与研讨会\n\n- **ACM MM**——ACM多媒体大会[[网页](http:\u002F\u002Fwww.acmmm.org\u002F2017)]\n- **ISMIR**——国际音乐信息检索学会[[网页](http:\u002F\u002Fwww.ismir.net\u002F)]\n- **ICASSP**——声学、语音与信号处理会议[[网页](http:\u002F\u002Fwww.ieee-icassp2017.org\u002F)]\n- **DLM**——音乐深度学习研讨会[[网页](http:\u002F\u002Fdorienherremans.com\u002Fdlm2017\u002F)]\n- **CSMC**——计算机模拟音乐创造力会议[[网页](https:\u002F\u002Fcsmc2016.wordpress.com\u002F)]\n- **CCRMA**——斯坦福大学音乐与声学计算研究中心[[网页](https:\u002F\u002Fccrma.stanford.edu\u002F)]\n- **ICMC**——国际计算机音乐大会[[网页](http:\u002F\u002Fwww.icmc2017.com\u002F)] [[列表](http:\u002F\u002Fwww.icmc2017.com\u002Fcn\u002Fpage1.html)]\n\n## 应用\n\n- **Google A.I. Duet** [[链接](https:\u002F\u002Faiexperiments.withgoogle.com\u002Fai-duet)]\n- **无限鼓机** [[链接](https:\u002F\u002Faiexperiments.withgoogle.com\u002Fdrum-machine)]\n- **Amper Music** [[链接](https:\u002F\u002Fwww.ampermusic.com\u002Fapp#\u002F)]\n- **智能音乐系统** [[链接](http:\u002F\u002F120.52.72.53\u002Fwww.intelligentmusicsystems.com\u002Fc3pr90ntc0td\u002Fvid\u002Ftempo_shifting.mp4)]\n- **Unwind** [[链接](http:\u002F\u002Funwind.ai)]\n- **Tidalcycles** [[链接](https:\u002F\u002Ftidalcycles.org)] [[视频](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=xoa3OT8ncX0)]","# music-generation-with-DL 快速上手指南\n\n**注意**：`music-generation-with-DL` 是一个收录了深度学习音乐生成领域论文、博客、代码库及相关会议的**资源列表（Awesome List）**，而非一个单一的可安装软件包。本指南将指导你如何基于该列表中推荐的核心项目（以 Google Magenta 为例，因其最成熟且文档齐全）搭建开发环境并生成音乐。\n\n## 1. 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux (Ubuntu 16.04+ 推荐), macOS, 或 Windows (建议使用 WSL2)。\n*   **Python 版本**：Python 3.7 - 3.9 (取决于具体模型，Magenta 通常推荐 3.8+)。\n*   **硬件要求**：\n    *   **CPU**：用于推理和小型模型训练。\n    *   **GPU**：强烈推荐 NVIDIA GPU (显存 4GB+) 用于训练大型模型（如 WaveNet, MuseGAN），需安装 CUDA 和 cuDNN。\n*   **前置依赖**：\n    *   `pip` (Python 包管理工具)\n    *   `git`\n    *   `ffmpeg` (用于音频处理)\n\n**国内加速建议**：\n在安装 Python 依赖时，建议使用清华源或阿里源以提升下载速度：\n```bash\nexport PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 2. 安装步骤\n\n由于该仓库是资源集合，我们将安装其中最主流的音乐生成框架 **Google Magenta** 作为入门起点。\n\n### 步骤 1: 创建虚拟环境\n为了避免依赖冲突，建议创建独立的虚拟环境：\n\n```bash\npython3 -m venv magenta-env\nsource magenta-env\u002Fbin\u002Factivate  # Windows 用户请使用: magenta-env\\Scripts\\activate\n```\n\n### 步骤 2: 安装 Magenta\n直接通过 pip 安装最新稳定版：\n\n```bash\npip install magenta\n```\n\n*注：若需使用特定模型（如列表中提到的 `NeuralMelody` 或 `MuseGAN`），请前往 README 中对应的 GitHub 链接克隆代码并按其单独的 `requirements.txt` 安装。*\n\n### 步骤 3: 验证安装\n检查是否安装成功：\n\n```bash\npython -c \"import magenta; print(magenta.__version__)\"\n```\n\n## 3. 基本使用\n\n以下示例展示如何使用 Magenta 命令行工具生成一段简单的 MIDI 旋律（基于预训练的 LSTM 模型）。\n\n### 示例：生成旋律\n\n1.  **运行生成命令**：\n    使用 `melody_rnn_generate` 工具生成一个长度为 30 秒的 MIDI 文件。\n\n    ```bash\n    melody_rnn_generate \\\n      --config=lookback_rnn \\\n      --output_dir=\u002Ftmp\u002Fmelody_rnn\u002Fgenerated \\\n      --num_outputs=1 \\\n      --num_steps=128 \\\n      --qpm=120\n    ```\n\n    *参数说明*：\n    *   `--config`: 选择预训练模型配置（如 `lookback_rnn`, `attention_rnn`）。\n    *   `--output_dir`: 生成文件的保存路径。\n    *   `--num_steps`: 生成的步数（128 步约等于 4-8 小节，取决于节拍）。\n    *   `--qpm`: 每分钟节拍数 (Quarter Notes Per Minute)。\n\n2.  **查看结果**：\n    命令执行完成后，MIDI 文件将保存在 `\u002Ftmp\u002Fmelody_rnn\u002Fgenerated` 目录下。你可以使用任何支持 MIDI 的播放器（如 VLC, GarageBand, 或在线 MIDI 播放器）试听，或使用 Python 库将其转换为 WAV。\n\n3.  **进阶：使用 Python API 生成**：\n    你也可以在 Python 脚本中直接调用模型进行更灵活的控制：\n\n    ```python\n    import magenta.music as mm\n    from magenta.models.shared import events_input_graph\n    from magenta.models.melody_rnn import melody_rnn_config_registry\n    import tensorflow as tf\n\n    # 加载配置\n    config = melody_rnn_config_registry.config('lookback_rnn')\n    \n    # 初始化模型 (实际使用中需加载检查点 checkpoint)\n    # 此处仅为逻辑示意，完整流程需下载预训练 checkpoint 文件\n    print(\"Model loaded. Ready to generate.\")\n    \n    # 生成逻辑通常涉及构建序列、运行会话并解码输出\n    # 详细代码请参考: https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmagenta\u002Ftree\u002Fmaster\u002Fmagenta\u002Fmodels\u002Fmelody_rnn\n    ```\n\n**提示**：README 中列出的其他优秀项目（如 `BachBot`, `Deep Jazz`, `MuseGAN`）均有独立的仓库和使用说明，建议根据具体音乐风格需求（如爵士、巴赫风格、多轨伴奏）选择对应的项目进行克隆和运行。","独立游戏开发者小林正在为一款复古像素风冒险游戏创作背景音乐，急需大量符合 8-bit 风格且旋律多样的曲目来匹配不同关卡。\n\n### 没有 music-generation-with-DL 时\n- **风格转换成本极高**：将现有的流行音乐小样手动改编为 8-bit 芯片音乐（Chiptunes）需要精通乐理和特定音源，耗时数天才能完成一首。\n- **旋律创意枯竭**：面对数十个关卡的背景音乐需求，人工作曲容易陷入重复套路，难以快速生成足够多“不单调”的新旋律。\n- **多轨配合困难**：想要生成包含鼓点、贝斯和主旋律的完整多轨伴奏，需要分别编写再反复调试对齐，工作流繁琐且易出错。\n- **试错周期漫长**：每次调整音乐情绪或节奏都需要重新编曲，无法实时预览不同风格变体，严重拖慢游戏原型迭代速度。\n\n### 使用 music-generation-with-DL 后\n- **自动风格迁移**：利用工具中的自动转换模型（如 Pop-to-8bit），一键将普通旋律小样转化为地道的 8-bit 像素音乐，效率提升数十倍。\n- **无限旋律生成**：基于 MuseGAN 或 C-RNN-GAN 等模型，输入简单条件即可批量生成结构完整、非平凡的新型旋律，彻底解决创意瓶颈。\n- **智能多轨合成**：直接生成包含多乐器轨道的同步伴奏，确保鼓点与旋律完美契合，省去了繁琐的分轨制作与对齐过程。\n- **快速风格探索**：通过调整潜在空间参数或强化学习奖励机制，几分钟内即可试听多种情绪和节奏的变体，加速游戏关卡的音乐适配。\n\nmusic-generation-with-DL 将原本需要专业乐理知识和数天工时的音乐制作流程，转化为可自动化、可迭代的代码生成任务，极大降低了独立游戏的音频开发门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fumbrellabeach_music-generation-with-DL_6d14e800.png","umbrellabeach","Jiaqi Fu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fumbrellabeach_7b2a96b0.png","Good luck for every Music Generation and NLP Learner!! ^_^","Zhejiang University","Hangzhou, China",null,"https:\u002F\u002Fgithub.com\u002Fumbrellabeach",724,117,"2026-03-25T09:33:50",5,"","未说明",{"notes":87,"python":85,"dependencies":88},"该 README 仅为音乐生成领域相关论文、博客、代码库、会议及应用项目的资源汇总列表，并非单一可执行软件的工具文档。因此，文中未包含具体的操作系统、硬件配置、Python 版本或依赖库安装要求。用户若需运行其中列出的具体项目（如 Google Magenta, MuseGAN, C-RNN-GAN 等），需分别前往对应的代码仓库链接查看其独立的环境配置说明。",[],[14,90,15],"音频",[92,93,94,95],"music-generation","music-composition","gan","deep-learning","2026-03-27T02:49:30.150509","2026-04-07T14:39:47.085994",[],[]]