[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-musikalkemist--DeepLearningForAudioWithPython":3,"tool-musikalkemist--DeepLearningForAudioWithPython":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":23,"env_os":94,"env_gpu":94,"env_ram":94,"env_deps":95,"category_tags":105,"github_topics":82,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":106,"updated_at":107,"faqs":108,"releases":137},2683,"musikalkemist\u002FDeepLearningForAudioWithPython","DeepLearningForAudioWithPython","Code and slides for the \"Deep Learning (For Audio) With Python\" course on TheSoundOfAI Youtube channel.","DeepLearningForAudioWithPython 是一套专为音频深度学习打造的开源教程与代码库，源自 TheSoundOfAI 频道的热门视频课程。它旨在解决初学者在进入音频 AI 领域时面临的理论晦涩与实践脱节难题，提供了一条从数学原理到完整项目落地的清晰路径。\n\n这套资源非常适合希望系统掌握音频处理技术的开发者、学生及研究人员。其最大亮点在于“循序渐进”的教学设计：课程不仅涵盖使用 TensorFlow、Keras 和 Librosa 等现代框架进行音乐流派分类的实战项目，更难得地引导用户从零开始手写神经元与反向传播算法，从而深刻理解底层逻辑。内容涉及 MLP、CNN 及 RNN-LSTM 等多种架构，并配有自动化的数据集下载工具，大幅降低了环境配置门槛。无论是想夯实理论基础，还是寻求可复用的工程代码，DeepLearningForAudioWithPython 都能提供扎实且与时俱进的支持。","# Deep Learning For Audio With Python\nCode for the \"[Deep Learning (for Audio) with Python](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PL-wATfeyAMNrtbkCNsLcpoAyBBRJZVlnf)\" series on The Sound of AI YouTube channel.\n\nThis repository is a comprehensive collection of resources and code for understanding and implementing deep learning models for audio tasks. It serves as a practical guide, starting from the absolute basics (building neurons and backpropagation from scratch), moving to TensorFlow implementation, and culminating in building a complete Music Genre Classification system using various architectures (MLP, CNN, RNN-LSTM).\n\n![Maintained](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMaintained%3F-yes-green.svg)\n![Python 3.11](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.11-blue.svg)\n![librosa](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flibrosa-9418A8?style=flat&logo=python&logoColor=white)\n![TensorFlow](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTensorFlow-FF6F00?style=flat&logo=tensorflow&logoColor=white)\n![Keras](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKeras-%23D00000.svg?style=flat&logo=Keras&logoColor=white)\n![Scikit-Learn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fscikit_learn-F7931E?style=flat&logo=scikit-learn&logoColor=white)\n![NumPy](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNumPy-004a96?style=flat&logo=numpy&logoColor=white)\n![Matplotlib](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMatplotlib-11557C?style=flat&logo=matplotlib&logoColor=white)\n![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-green.svg)\n\n### Note on Versioning\n> While this v2 release is fully functional and optimized for current environments, it may differ from the original version shown in the course. The codebase has been updated to reflect modern best practices (e.g. TensorFlow 2.16+, Librosa 0.11+) and improved dependency management. Consequently, the original course version has been deprecated; however, it remains available in the [legacy branch](https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Ftree\u002Flegacy) for those wishing to follow the video content exactly.\n\n# Table of Contents\n* [Dataset Setup (GTZAN)](#dataset-setup-gtzan)\n* [Course Structure](#course-structure)\n    * [1. Fundamentals & Math](#part-1-fundamentals--math)\n    * [2. Neural Networks from Scratch](#part-2-neural-networks-from-scratch)\n    * [3. TensorFlow & Audio Preprocessing](#part-3-tensorflow--audio-preprocessing)\n    * [4. Music Genre Classification Project](#part-4-music-genre-classification-project-mlp)\n    * [5. Advanced Architectures (CNN & RNN)](#part-5-advanced-architectures-cnn--rnn-lstm)\n* [How to Run the Scripts](#how-to-run-the-scripts)\n\n---\n\n## Dataset Setup _(GTZAN)_\n\nTo run the music genre classification lessons (Part 4 & 5), you will need the GTZAN dataset. We provide an **automated downloader** to handle the acquisition, extraction, and folder organization for you.\n\n* **Quick Start:** Run `python dataset_downloader.py` from the root directory.\n* **Prerequisites:** Install requirements.txt.\n\n> **Full Instructions:** Please check the [Instructions GTZAN](Instructions_GTZAN.md) file for detailed help using the downloader script or manual download steps.\n\n---\n\n## Course Structure\n\n### Part 1: Fundamentals & Math\n\n1.  **Course Overview:** _[Video][1yt] | [Slides][1sl]_\n2.  **AI, Machine Learning and Deep Learning:** _[Video][2yt] | [Slides][2sl]_\n3.  **Implementing an Artificial Neuron from Scratch:** _[Video][3yt] | [Slides][3sl] | [Code][3cd]_\n4.  **Vector and Matrix Operations:** _[Video][4yt] | [Slides][4sl]_\n5.  **Computation in Neural Networks:** _[Video][5yt] | [Slides][5sl]_\n\n---\n\n### Part 2: Neural Networks from Scratch\n\n6.  **Implementing a Neural Network from Scratch:** _[Video][6yt] | [Code][6cd]_\n7.  **Training a Neural Network (Backprop & Gradient Descent):** _[Video][7yt] | [Slides][7sl]_\n8.  **Implementing Backpropagation from Scratch:** _[Video][8yt] | [Code][8cd]_\n\n---\n\n### Part 3: TensorFlow & Audio Preprocessing\n\n9.  **Implementing a Neural Network with TensorFlow 2:** _[Video][9yt] | [Code][9cd]_\n10. **Understanding Audio Data for Deep Learning:** _[Video][10yt] | [Slides][10sl]_\n11. **Preprocessing Audio Data (MFCCs\u002FSpectrograms):** _[Video][11yt] | [Code][11cd]_\n\n---\n\n### Part 4: Music Genre Classification Project (MLP)\n\n12. **Preparing the Dataset:** _[Video][12yt] | [Code][12cd]_\n13. **Implementing a Neural Network for Classification:** _[Video][13yt] | [Slides][13sl] | [Code][13cd]_\n14. **Solving Overfitting:** _[Video][14yt] | [Slides][14sl] | [Code][14cd]_\n\n---\n\n### Part 5: Advanced Architectures (CNN & RNN-LSTM)\n\n15. **Convolutional Neural Networks (CNN) Explained:** _[Video][15yt] | [Slides][15sl]_\n16. **Implementing a CNN for Music Genre Classification:** _[Video][16yt] | [Code][16cd]_\n17. **Recurrent Neural Networks (RNN) Explained:** _[Video][17yt] | [Slides][17sl]_\n18. **Long Short Term Memory (LSTM) Explained:** _[Video][18yt] | [Slides][18sl]_\n19. **Implementing an RNN-LSTM for Music Genre Classification:** _[Video][19yt] | [Code][19cd]_\n\n---\n\n## How to Run the Scripts\nTo ensure the models and scripts execute correctly, please follow these steps from your terminal:\n\n### 2. Prepare the Environment (Recommended)\nBefore running inference, ensure you have the necessary dependencies installed:\n```bash\npip install -r requirements.txt\n```\n\n### 2. Navigate to the Lesson Folder\nEach class is self-contained. Move into the specific directory for the lesson you are studying:\n```bash\ncd class\u002Ffolder\u002Fname  # Replace with the specific class directory\n```\n\n### 3. Execute the Script\nRun the main script using Python:\n```bash\npython mlp.py  # Replace with the specific script name\n```\n\n\u003C!-- Reference links for every chapter:\nYouTube videos (#yt), PDF-file slides (#sl) and Jupyter Notebooks (#nb) -->\n[1yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=fMqL5vckiU0\n[1sl]: \u003C01 - Course overview\u002Fslides\u002FCourse overview.pdf>\n\n[2yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=1LLxZ35ru_g\n[2sl]: \u003C02 - Ai, machine learning and deep learning\u002Fslides\u002FAI, machine learning and deep learning.pdf>\n\n[3yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qxIaW-WvLDU\n[3cd]: \u003C03 - Implementing an artificial neuron from scratch\u002Fcode\u002Fartificialneuron.py>\n[3sl]: \u003C03 - Implementing an artificial neuron from scratch\u002Fslides\u002FImplementing an artificial neuron from scratch.pdf>\n\n[4yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=FmD1S5yP_os\n[4sl]: \u003C04 - Vector and matrix operations\u002Fslides\u002FVector and matrix operations.pdf>\n\n[5yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=QUCzvlgvk6I\n[5sl]: \u003C05 - Computation in neural networks\u002Fslides\u002FComputation in neural networks.pdf>\n\n[6yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0oWnheK-gGk\n[6cd]: \u003C06 - Implementing a neural network from scratch\u002Fcode\u002Fmlp.py>\n\n[7yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ScL18goxsSg\n[7sl]: \u003C07 - Bagkpropagation and gradient descent\u002Fslides\u002FTraining a neural network_ Backward propagation and gradient descent.pdf>\n\n[8yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Z97XGNUUx9o\n[8cd]: \u003C08 - Training a neural network - Implementing back propagation from scratch\u002Fcode\u002Fmlp.py>\n\n[9yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=JdXxaZcQer8\n[9cd]: \u003C09 - How to imlement a simple neural network with TensorFlow\u002Fcode\u002Fmlp.py>\n\n[10yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=m3XbqfIij_Y\n[10sl]: \u003C10 - Understanding audio data for deep learning\u002Fslides\u002FUnderstanding audio data for  deep learning.pdf>\n\n[11yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Oa_d-zaUti8\n[11cd]: \u003C11 - Preprocessing audio data for deep learning\u002Fcode\u002Faudio_prep.py>\n\n[12yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=szyGiObZymo\n[12cd]: \u003C12 - Music genre classification - Preparing the dataset\u002Fcode\u002Fextract_data_fast.py>\n\n[13yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_xcFAiufwd0\n[13cd]: \u003C13 - Implementing a neural network for music genre classification\u002Fcode\u002Fmlp_genre_classifier.py>\n[13sl]: \u003C13 - Implementing a neural network for music genre classification\u002Fslides\u002FImplementing a neural network for music genre calssification.pdf>\n\n[14yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Gf5DO6br0ts\n[14cd]: \u003C14 - Solving overfitting in neural networks\u002Fcode\u002Fsolving_overfitting.py>\n[14sl]: \u003C14 - Solving overfitting in neural networks\u002Fslides\u002FSolving overfitting in neural networks.pdf>\n\n[15yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=t3qWfUYJEYU\n[15sl]: \u003C15 - How does a convolutional neural network work\u002Fslides\u002FHow does a convolutional  neural network work.pdf>\n\n[16yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=dOG-HxpbMSw\n[16cd]: \u003C16 - How to implement a CNN for music genre classification\u002Fcode\u002Fcnn_genre_classifier.py>\n\n[17yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=DY82Goknf0s\n[17sl]: \u003C17 - Recurrent Neural Networks explained easily\u002Fslides\u002FRecurrent Neural Networks explained easily.pdf>\n\n[18yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=eCvz-kB4yko\n[18sl]: \u003C18 - LSTM networks explained easily\u002Fslides\u002FLSTM networks  explained easily.pdf>\n\n[19yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=4nXI0h2sq2I\n[19cd]: \u003C19 - How to implement an RNN-LSTM for music genre classification\u002Fcode\u002Flstm_genre_classifier.py>","# 使用 Python 进行音频深度学习\n这是 The Sound of AI YouTube 频道上“使用 Python 进行深度学习（音频）”系列课程的代码。\n\n本仓库是一个全面的资源和代码集合，用于理解和实现针对音频任务的深度学习模型。它提供了一个实用的指南，从最基础的内容开始（从零构建神经元和反向传播），逐步过渡到 TensorFlow 的实现，最终完成一个完整的音乐流派分类系统，该系统采用了多种架构（MLP、CNN、RNN-LSTM）。\n\n![维护中](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMaintained%3F-yes-green.svg)\n![Python 3.11](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.11-blue.svg)\n![librosa](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flibrosa-9418A8?style=flat&logo=python&logoColor=white)\n![TensorFlow](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTensorFlow-FF6F00?style=flat&logo=tensorflow&logoColor=white)\n![Keras](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKeras-%23D00000.svg?style=flat&logo=Keras&logoColor=white)\n![Scikit-Learn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fscikit_learn-F7931E?style=flat&logo=scikit-learn&logoColor=white)\n![NumPy](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FNumPy-004a96?style=flat&logo=numpy&logoColor=white)\n![Matplotlib](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMatplotlib-11557C?style=flat&logo=matplotlib&logoColor=white)\n![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-green.svg)\n\n### 关于版本说明\n> 尽管此 v2 版本功能齐全，并针对当前环境进行了优化，但它可能与课程中展示的原始版本有所不同。代码库已更新，以反映现代最佳实践（例如 TensorFlow 2.16+、Librosa 0.11+），并改进了依赖管理。因此，原始课程版本已被弃用；不过，对于希望完全按照视频内容学习的用户，我们仍将其保留在[旧版分支](https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Ftree\u002Flegacy)中。\n\n# 目录\n* [数据集设置 (GTZAN)](#dataset-setup-gtzan)\n* [课程结构](#course-structure)\n    * [1. 基础知识与数学](#part-1-fundamentals--math)\n    * [2. 从零构建神经网络](#part-2-neural-networks-from-scratch)\n    * [3. TensorFlow 与音频预处理](#part-3-tensorflow--audio-preprocessing)\n    * [4. 音乐流派分类项目 (MLP)](#part-4-music-genre-classification-project-mlp)\n    * [5. 高级架构 (CNN 和 RNN-LSTM)](#part-5-advanced-architectures-cnn--rnn-lstm)\n* [如何运行脚本](#how-to-run-the-scripts)\n\n---\n\n## 数据集设置 _(GTZAN)_\n\n要运行音乐流派分类课程（第 4 部分和第 5 部分），您需要 GTZAN 数据集。我们提供了一个**自动化下载器**，可为您完成获取、解压和文件夹整理工作。\n\n* **快速入门：** 在根目录下运行 `python dataset_downloader.py`。\n* **先决条件：** 安装 `requirements.txt` 中列出的依赖项。\n\n> **完整说明：** 请查看 [Instructions_GTZAN.md](Instructions_GTZAN.md) 文件，了解使用下载脚本或手动下载步骤的详细帮助。\n\n---\n\n## 课程结构\n\n### 第一部分：基础知识与数学\n\n1.  **课程概述：** _[视频][1yt] | [幻灯片][1sl]_\n2.  **人工智能、机器学习和深度学习：** _[视频][2yt] | [幻灯片][2sl]_\n3.  **从零实现人工神经元：** _[视频][3yt] | [幻灯片][3sl] | [代码][3cd]_\n4.  **向量与矩阵运算：** _[视频][4yt] | [幻灯片][4sl]_\n5.  **神经网络中的计算：** _[视频][5yt] | [幻灯片][5sl]_\n\n---\n\n### 第二部分：从零构建神经网络\n\n6.  **从零构建神经网络：** _[视频][6yt] | [代码][6cd]_\n7.  **训练神经网络（反向传播与梯度下降）：** _[视频][7yt] | [幻灯片][7sl]_\n8.  **从零实现反向传播：** _[视频][8yt] | [代码][8cd]_\n\n---\n\n### 第三部分：TensorFlow 与音频预处理\n\n9.  **使用 TensorFlow 2 构建神经网络：** _[视频][9yt] | [代码][9cd]_\n10. **理解深度学习中的音频数据：** _[视频][10yt] | [幻灯片][10sl]_\n11. **音频数据预处理（MFCC\u002F频谱图）：** _[视频][11yt] | [代码][11cd]_\n\n---\n\n### 第四部分：音乐流派分类项目 (MLP)\n\n12. **准备数据集：** _[视频][12yt] | [代码][12cd]_\n13. **实现用于分类的神经网络：** _[视频][13yt] | [幻灯片][13sl] | [代码][13cd]_\n14. **解决过拟合问题：** _[视频][14yt] | [幻灯片][14sl] | [代码][14cd]_\n\n---\n\n### 第五部分：高级架构 (CNN 和 RNN-LSTM)\n\n15. **卷积神经网络 (CNN) 解释：** _[视频][15yt] | [幻灯片][15sl]_\n16. **实现 CNN 用于音乐流派分类：** _[视频][16yt] | [代码][16cd]_\n17. **循环神经网络 (RNN) 解释：** _[视频][17yt] | [幻灯片][17sl]_\n18. **长短期记忆网络 (LSTM) 解释：** _[视频][18yt] | [幻灯片][18sl]_\n19. **实现 RNN-LSTM 用于音乐流派分类：** _[视频][19yt] | [代码][19cd]_\n\n---\n\n## 如何运行脚本\n为确保模型和脚本正确执行，请在终端中按照以下步骤操作：\n\n### 2. 准备环境（推荐）\n在运行推理之前，请确保已安装必要的依赖项：\n```bash\npip install -r requirements.txt\n```\n\n### 2. 导航到课程文件夹\n每个课程都是独立的。请进入您正在学习的特定课程目录：\n```bash\ncd class\u002Ffolder\u002Fname  # 替换为具体的课程目录\n```\n\n### 3. 执行脚本\n使用 Python 运行主脚本：\n```bash\npython mlp.py  # 替换为具体的脚本名称\n```\n\n\u003C!-- 每章的参考链接：\nYouTube 视频 (#yt)、PDF 幻灯片 (#sl) 和 Jupyter Notebook (#nb) -->\n[1yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=fMqL5vckiU0\n[1sl]: \u003C01 - 课程概述\u002F幻灯片\u002F课程概述.pdf>\n\n[2yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=1LLxZ35ru_g\n[2sl]: \u003C02 - 人工智能、机器学习和深度学习\u002F幻灯片\u002F人工智能、机器学习和深度学习.pdf>\n\n[3yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qxIaW-WvLDU\n[3cd]: \u003C03 - 从零实现人工神经元\u002F代码\u002Fartificialneuron.py>\n[3sl]: \u003C03 - 从零实现人工神经元\u002F幻灯片\u002F从零实现人工神经元.pdf>\n\n[4yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=FmD1S5yP_os\n[4sl]: \u003C04 - 向量与矩阵运算\u002F幻灯片\u002F向量与矩阵运算.pdf>\n\n[5yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=QUCzvlgvk6I\n[5sl]: \u003C05 - 神经网络中的计算\u002F幻灯片\u002F神经网络中的计算.pdf>\n\n[6yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0oWnheK-gGk\n[6cd]: \u003C06 - 从零实现神经网络\u002F代码\u002Fmlp.py>\n\n[7yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ScL18goxsSg\n[7sl]: \u003C07 - 反向传播与梯度下降\u002F幻灯片\u002F训练神经网络_反向传播与梯度下降.pdf>\n\n[8yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Z97XGNUUx9o\n[8cd]: \u003C08 - 训练神经网络 - 从零实现反向传播\u002F代码\u002Fmlp.py>\n\n[9yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=JdXxaZcQer8\n[9cd]: \u003C09 - 如何用 TensorFlow 实现一个简单的神经网络\u002F代码\u002Fmlp.py>\n\n[10yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=m3XbqfIij_Y\n[10sl]: \u003C10 - 理解用于深度学习的音频数据\u002F幻灯片\u002F理解用于深度学习的音频数据.pdf>\n\n[11yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Oa_d-zaUti8\n[11cd]: \u003C11 - 针对深度学习的音频数据预处理\u002F代码\u002Faudio_prep.py>\n\n[12yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=szyGiObZymo\n[12cd]: \u003C12 - 音乐流派分类 - 准备数据集\u002F代码\u002Fextract_data_fast.py>\n\n[13yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_xcFAiufwd0\n[13cd]: \u003C13 - 实现用于音乐流派分类的神经网络\u002F代码\u002Fmlp_genre_classifier.py>\n[13sl]: \u003C13 - 实现用于音乐流派分类的神经网络\u002F幻灯片\u002F实现用于音乐流派分类的神经网络.pdf>\n\n[14yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Gf5DO6br0ts\n[14cd]: \u003C14 - 解决神经网络过拟合问题\u002F代码\u002Fsolving_overfitting.py>\n[14sl]: \u003C14 - 解决神经网络过拟合问题\u002F幻灯片\u002F解决神经网络过拟合问题.pdf>\n\n[15yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=t3qWfUYJEYU\n[15sl]: \u003C15 - 卷积神经网络是如何工作的\u002F幻灯片\u002F卷积神经网络是如何工作的.pdf>\n\n[16yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=dOG-HxpbMSw\n[16cd]: \u003C16 - 如何实现用于音乐流派分类的 CNN\u002F代码\u002Fcnn_genre_classifier.py>\n\n[17yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=DY82Goknf0s\n[17sl]: \u003C17 - 易懂的循环神经网络讲解\u002F幻灯片\u002F易懂的循环神经网络讲解.pdf>\n\n[18yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=eCvz-kB4yko\n[18sl]: \u003C18 - 易懂的 LSTM 网络讲解\u002F幻灯片\u002FLSTM 网络易懂讲解.pdf>\n\n[19yt]: https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=4nXI0h2sq2I\n[19cd]: \u003C19 - 如何实现用于音乐流派分类的 RNN-LSTM\u002F代码\u002Flstm_genre_classifier.py>","# DeepLearningForAudioWithPython 快速上手指南\n\n本指南旨在帮助开发者快速搭建基于 Python 的音频深度学习环境，并运行音乐流派分类等示例项目。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Windows, macOS 或 Linux\n*   **Python 版本**：推荐 **Python 3.11** (代码库已针对此版本优化)\n*   **核心依赖**：\n    *   TensorFlow 2.16+\n    *   Librosa 0.11+\n    *   NumPy, Scikit-Learn, Matplotlib, Keras\n\n> **注意**：本项目代码已更新以符合现代最佳实践。如果您需要完全复现视频课程中的旧版代码，请切换至 `legacy` 分支，但本指南默认基于主分支（v2）。\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n首先，将代码仓库克隆到本地：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython.git\ncd DeepLearningForAudioWithPython\n```\n\n### 2.2 安装依赖\n建议使用虚拟环境（如 `venv` 或 `conda`）隔离依赖。安装所有必要的 Python 包：\n\n```bash\npip install -r requirements.txt\n```\n\n*(国内用户若下载缓慢，可添加清华源加速：`pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n### 2.3 准备数据集 (GTZAN)\n第 4 和第 5 部分的音乐流派分类项目需要 **GTZAN 数据集**。项目提供了一个自动下载脚本来处理数据的获取、解压和文件夹整理。\n\n在项目根目录运行：\n```bash\npython dataset_downloader.py\n```\n\n> 如需手动下载或查看详细说明，请参考项目内的 `Instructions_GTZAN.md` 文件。\n\n## 3. 基本使用\n\n本项目按课程章节组织，每个章节的代码相对独立。以下是运行一个典型示例（如多层感知机 MLP 分类器）的步骤：\n\n### 3.1 进入对应章节目录\n根据您想学习的部分，进入相应的文件夹。例如，进入第 13 课（实现音乐流派分类神经网络）：\n```bash\ncd \"13 - Implementing a neural network for music genre classification\u002Fcode\"\n```\n\n### 3.2 运行脚本\n执行具体的 Python 脚本：\n```bash\npython mlp_genre_classifier.py\n```\n\n### 3.3 学习路径建议\n您可以按照以下顺序逐步深入：\n\n1.  **基础原理**：从 `03` 到 `08` 章节，从零开始构建神经元和反向传播算法，理解数学基础。\n2.  **框架与预处理**：在 `09` 到 `11` 章节，学习如何使用 TensorFlow 以及如何使用 Librosa 处理音频数据（如提取 MFCCs 和声谱图）。\n3.  **实战项目**：\n    *   **MLP 模型**：运行 `13` - `14` 章节代码，构建基础分类器并解决过拟合问题。\n    *   **高级架构**：运行 `16` (CNN) 和 `19` (RNN-LSTM) 章节代码，体验更先进的深度学习模型在音频任务中的应用。\n\n所有章节均配有对应的 YouTube 视频教程和 PPT 幻灯片（位于各章节的 `slides` 文件夹或 README 链接中），建议结合代码与视频进行学习。","某初创音乐科技公司的算法工程师需要快速构建一个能自动识别用户上传音频片段风格（如爵士、摇滚、古典）的原型系统，以验证新产品功能。\n\n### 没有 DeepLearningForAudioWithPython 时\n- **理论落地困难**：团队虽懂深度学习理论，但缺乏将数学公式（如反向传播）转化为音频处理代码的具体参考，从零手写神经元耗时且易错。\n- **预处理门槛高**：音频数据清洗复杂，工程师需花费数天研究 Librosa 库来提取梅尔频谱图特征，常因参数设置不当导致模型输入质量差。\n- **架构试错成本高**：在 MLP、CNN 和 RNN-LSTM 等多种架构间选择时，缺乏现成的对比基准，盲目尝试不同网络结构导致开发周期延长。\n- **环境配置混乱**：自行整合 TensorFlow、Keras 和 Scikit-Learn 时频繁遭遇版本冲突，调试依赖问题占据了大量本应用于模型优化的时间。\n\n### 使用 DeepLearningForAudioWithPython 后\n- **原理直观复现**：直接复用项目中“从零实现神经网络”的代码模块，团队迅速理解了音频数据在反向传播中的计算逻辑，夯实了基础。\n- **预处理标准化**：利用其成熟的音频预处理脚本，一键完成 GTZAN 数据集的下载与特征提取，确保了梅尔频谱图等输入数据的规范性和一致性。\n- **架构迭代高效**：基于项目提供的完整音乐分类案例，工程师可直接运行并对比 MLP、CNN 及 RNN-LSTM 的性能表现，快速锁定最适合当前业务的架构。\n- **开箱即用环境**：遵循其更新的依赖管理（支持 TensorFlow 2.16+ 和 Librosa 0.11+），避免了版本兼容陷阱，让团队在半天内即可跑通整个训练流程。\n\nDeepLearningForAudioWithPython 通过提供从数学原理到完整工程落地的闭环资源，将音频深度学习项目的启动时间从数周缩短至数天。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmusikalkemist_DeepLearningForAudioWithPython_bf33c70c.png","musikalkemist","Valerio Velardo","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmusikalkemist_9c46207c.png","AI (music) engineer. Programmer. Founder of Transparent Audio. AI audio consultant. Creator of The Sound of AI.","Transparent Audio","Malaga","velardovalerio@gmail.com",null,"https:\u002F\u002Fvaleriovelardoadvisor.com\u002F","https:\u002F\u002Fgithub.com\u002Fmusikalkemist",[86],{"name":87,"color":88,"percentage":89},"Python","#3572A5",100,705,277,"2026-03-14T17:38:30","MIT","未说明",{"notes":96,"python":97,"dependencies":98},"该项目是音频深度学习教程的代码库。运行音乐流派分类课程（第 4 和第 5 部分）需要 GTZAN 数据集，可通过运行 `python dataset_downloader.py` 自动下载。代码已更新以适配现代最佳实践，若需完全复现视频中的原始版本，请使用 'legacy' 分支。","3.11",[99,100,101,102,103,104],"TensorFlow>=2.16","Keras","librosa>=0.11","scikit-learn","NumPy","Matplotlib",[55,13],"2026-03-27T02:49:30.150509","2026-04-06T05:19:29.261120",[109,114,119,123,128,133],{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},12435,"为什么训练时的损失曲线保持平坦且没有下降迹象？","这通常表明输入数据存在问题，而非模型架构本身。如果模型接收到的是空文件、静音或损坏的数据，它将无法学习。请按以下步骤排查：\n1. 检查 data.json：打开生成的 JSON 文件，确认其中是否包含数值（如 MFCCs）。如果文件为空、过小或主要包含零，说明数据集处理不正确。\n2. 验证数据集路径：在 extract_data.py 脚本中，确保 DATASET_PATH 指向机器上实际解压后的 GTZAN 数据集文件夹。\n3. 检查下载完整性：GTZAN 数据集的链接有时会失败或导致下载不完整，如果 librosa 无法读取文件也会导致此问题。","https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Fissues\u002F6",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},12436,"处理长度可变的音频文件时出现 ValueError 错误怎么办？","当音频长度不一致时，直接处理会导致维度对齐错误（如 'can't extend empty axis'）。对于 CNN 等模型，通常需要统一输入尺寸。虽然具体代码未在此处完全展示，但通用解决方案包括：\n1. 动态计算持续时间或设置固定时长片段（num_segments）。\n2. 对较短的音频进行填充（padding），对较长的音频进行截断。\n3. 确保在提取特征（如 MFCC）之前处理好音频长度，避免生成空的数组轴。","https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Fissues\u002F4",{"id":120,"question_zh":121,"answer_zh":122,"source_url":118},12437,"如何在数据集中为 CNN 模型添加新的维度轴？","为了适配卷积神经网络（CNN）的输入要求（通常需要增加通道维），需要在训练集、验证集和测试集数据的末尾添加一个新轴。可以使用以下 NumPy 代码实现：\n\n# 为输入数据集添加一个轴\nX_train = X_train[..., np.newaxis]\nX_validation = X_validation[..., np.newaxis]\nX_test = X_test[..., np.newaxis]\n\n这将把形状从 (samples, features) 转换为 (samples, features, 1)，使其符合 CNN 输入格式。",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},12438,"本地变量更新了，但 MLP 的权重是如何更新的？","这通常涉及 Python 中的对象引用机制。在神经网络实现中，权重列表或字典通常是可变对象。当你更新局部变量（例如通过反向传播计算出的梯度更新）时，如果该变量是对原始权重对象的引用（即使是浅拷贝 shallow copy），原始对象的内容也会随之改变。因此，不需要显式返回权重，修改引用的对象即可生效。","https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Fissues\u002F7",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},12439,"代码中发现拼写错误（如 compilie 应为 compile）如何处理？","如果在源代码中发现明显的拼写错误（例如在 09-mlp.py 第 42 行将 compile 误写为 compilie），这会导致代码运行报错。维护者通常会感谢社区的指正并迅速修复。用户遇到此类问题时，可以直接在本地代码中修正该拼写错误，或者在 GitHub 上提交 Issue 或 Pull Request 通知维护者更新官方仓库。","https:\u002F\u002Fgithub.com\u002Fmusikalkemist\u002FDeepLearningForAudioWithPython\u002Fissues\u002F2",{"id":134,"question_zh":135,"answer_zh":136,"source_url":127},12440,"应该在哪里提问关于课程理论内容的问题？","根据项目维护者的规定，GitHub Issues 仅专门用于修复代码错误和技术 Bug。所有关于课程理论的问题，应当直接发布在对应 YouTube 视频评论区。这样可以确保答案能惠及整个社区，并保持 GitHub 仓库的整洁，专注于代码问题。",[]]