deep-learning-book
deep-learning-book 是畅销书《Python 机器学习》作者 Sebastian Raschka 推出的进阶开源项目,旨在为读者提供《人工神经网络与深度学习导论:Python 实战指南》一书的配套代码、练习解答及详细教程。它主要解决了深度学习领域中理论复杂、数学门槛高以及从概念到代码落地困难的问题,帮助学习者跨越从基础机器学习到深度神经网络的鸿沟。
该项目非常适合具有一定 Python 基础的开发者、数据科学家、研究人员以及高校学生使用。无论是希望深入理解图像识别、语音处理背后的算法原理,还是需要在实际业务中构建卷积神经网络(CNN)、循环神经网络(RNN)或生成对抗网络(GAN),都能从中获得系统性的指导。
其独特的技术亮点在于“理论与实践并重”的教学方式。除了涵盖感知机、反向传播、正则化等核心概念的清晰讲解外,项目还提供了基于 PyTorch(部分兼容 TensorFlow)的完整代码实现和独立的"Model Zoo"模型库。此外,书中附带了详细的数学附录,通俗地解释了线性代数、微积分和概率论等必备知识,让非数学专业的用户也能轻松上手,是通往深度学习深处的一座坚实桥梁。
使用场景
某初创公司的算法工程师小李,正负责从零搭建一个基于 PyTorch 的医疗影像病灶识别系统,急需深入理解卷积神经网络(CNN)的底层原理与代码实现。
没有 deep-learning-book 时
- 理论断层严重:面对复杂的反向传播推导和梯度消失问题,只能碎片化搜索博客,缺乏系统性的数学讲解(如微积分与线性代数基础),导致模型调优全靠“猜”。
- 代码落地困难:虽然知道 CNN 的概念,但无法将论文公式转化为高效的 PyTorch 代码,在构建多层感知机和处理数据加载时频繁报错。
- 调试无从下手:遇到模型不收敛或过拟合时,不清楚是学习率设置不当、权重初始化有问题,还是正则化策略缺失,排查效率极低。
- 资源分散混乱:需要在 GitHub 各处寻找零散的示例代码,缺乏统一、经过验证的“模型动物园”参考,重复造轮子浪费大量时间。
使用 deep-learning-book 后
- 知识体系完整:通过书中从感知机到深度生成模型的循序渐进章节,配合附录中的数学精讲,彻底理清了优化成本函数与正则化的内在逻辑。
- 实战代码现成:直接复用仓库中对应章节的 PyTorch 手撕代码(如第 9 章 CNN 实现),快速搭建了基准模型,将开发周期从数周缩短至几天。
- 调参有据可依:依据书中关于学习率调整和权重初始化的专门指导,精准定位并解决了训练震荡问题,显著提升了病灶识别的准确率。
- 一站式资源库:利用配套的 Model Zoo 和 Jupyter Notebook 案例,直接站在巨人的肩膀上进行二次开发,无需再为环境配置和基础算子发愁。
deep-learning-book 成功填补了理论与工程之间的鸿沟,让开发者能从数学根源理解深度学习,并迅速将其转化为可落地的 Python 解决方案。
运行环境要求
未说明
未说明

快速开始
人工神经网络与深度学习导论:基于 Python 的实践指南
本书《人工神经网络与深度学习导论:基于 Python 的实践指南》的代码仓库。
深度学习不仅仅是科技圈内的热门话题。它使我们能够解决复杂问题,通过训练人工神经网络来识别图像和语音中的复杂模式。在本书中,我们将延续《Python 机器学习》(GitHub 项目链接)的内容,并在 PyTorch 中实现深度学习算法。
- 本仓库将包含各章节“动手实践”和“练习”部分的说明、代码示例及解答。
- 本书的 PDF 和电子书版本将在 Leanpub 上提供。

ISBN-10:待定
ISBN-13:待定
平装本:预计 2018 年出版
手稿 / 提前访问草稿
- 01 - 引言
- 02 - 感知器
- 03 - 使用梯度下降优化损失函数
- 04 - 逻辑回归与 Softmax 回归
- 05 - 从 Softmax 回归到多层感知器
- 06 - 交叉验证与性能指标
- 07 - 神经网络中的正则化
- 08 - 学习率与权重初始化
- 09 - 卷积神经网络
- 10 - 循环神经网络
- 11 - 自编码器
- 12 - 通用对抗神经网络
- 13 - 深度生成模型
- 14 - 强化学习
支持材料
- 附录 A:数学符号 [PDF]
- 附录 B:代数基础 [PDF]
- 附录 C:线性代数要点
- 附录 D:微积分与导数入门 [PDF]
- 附录 E:概率论概述
- 附录 F:符号约定参考
- 附录 G:Python 环境搭建
- 附录 H:NumPy 入门 [PDF] [代码笔记本]
- 附录 I:PyTorch 基础
- 附录 I(替代版):TensorFlow 基础 [PDF] [代码笔记本]
- 附录 J:云计算 [PDF]
模型库
关于本书
机器学习已经成为我们生活的核心组成部分——无论是作为消费者、客户,还是作为研究人员和从业者!我非常感谢大家对《Python 机器学习》(GitHub 项目链接)给予的积极反馈,也很高兴得知它对你们的学习、商业应用和研究项目都大有裨益。自该书出版以来,我收到了许多邮件,其中不少读者询问是否有续集或前传的可能性。
起初,我曾考虑深入探讨“数学”部分,因为这对大多数没有数学专业背景的人来说确实是一大障碍。我一度认为编写一本关于“机器学习数学”的书会很有意义。如今,我已经积累了约 15 章关于预微积分、微积分、线性代数、统计学和概率论的笔记。然而,经过深思熟虑后,我意识到市面上已经有许多优秀的数学书籍,它们不仅内容更全面、准确,而且质量远超我计划撰写的这本约 500 页的入门读物。毕竟,真正驱动我们学习和理解一门学科的动力,往往来自于对它的热情;如果你对机器学习充满兴趣,当遇到微积分中的链式法则时,如今借助你常用的搜索引擎就能轻松找到可靠的参考资料。
因此,与其写那本“前传”,不如围绕我在《Python 机器学习》(GitHub 项目链接)后几章中介绍的概念继续展开——即深度学习的相关算法。在亲手实现了一个多层感知器(一种前馈式人工神经网络)之后,我们简要了解了几种用于实现深度学习算法的 Python 库,并从概念层面介绍了卷积神经网络和循环神经网络。
在这本书中,我打算继续之前的探索,使用 Python、NumPy 和 SciPy 从头开始实现深度神经网络及相关算法,贯穿整个学习过程。除了原生的 Python 科学计算栈之外,我们还将利用高性能且易于使用的深度学习框架 TensorFlow,将其应用于实际问题中。
许可协议
代码
本仓库中的所有代码(包括 Jupyter Notebook 中的示例代码)均采用开源许可,遵循 MIT 软件许可证。简而言之,宽松的 MIT 许可允许你在适当注明出处且不提供任何担保的情况下自由使用这些代码;更多详细信息请参阅 LICENSE 文件中的 MIT 许可声明。
文字与图形
本仓库中的所有非代码内容及创意作品,包括文字和图形,均由作者 Sebastian Raschka 独家拥有版权。除非另有说明,本仓库中分享的文字内容仅供个人使用。您可以引用、修改或分享本文中的短小段落,但需注明作者出处。然而,如果您计划对本书的大量内容进行修改并用于其他创作,例如博客文章、杂志专栏或教学材料,请事先联系作者获取许可。
标有 知识共享署名-相同方式共享 4.0 国际许可 的图片和图形,可在遵守相应许可条款(详见 LICENSE 文件中“知识共享署名-相同方式共享 4.0 国际许可”部分)及正确注明出处的前提下自由分享。
致谢
我要特别感谢各位读者,他们发现了文中的各种错别字和错误,并提出了许多有助于澄清我写作的建议。
- 附录A:阿特姆·索博列夫、瑞安·孙
- 附录B:布雷特·米勒、瑞安·孙
- 附录D:马塞尔·布拉特纳、伊格纳西奥·坎帕巴达尔、瑞安·孙
- 附录F:吉列尔莫·蒙塞奇、盖德·里奇韦
- 附录H:布雷特·米勒
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。