PyTorchStepByStep

1.4k 497 简单 1 次阅读 4天前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

PyTorchStepByStep 是畅销书《Deep Learning with PyTorch Step-by-Step》的官方配套代码库，旨在为深度学习初学者提供一套完整、可交互的学习资源。它解决了传统技术书籍中代码难以复现、环境配置复杂以及理论脱离实践的痛点，让读者能够直接运行书中每一章对应的 Jupyter Notebook，并重现与书本完全一致的输出结果，从而建立学习信心。

这套资源非常适合希望系统掌握 PyTorch 框架的开发者、学生及研究人员。内容涵盖从梯度下降可视化、基础回归与分类，到计算机视觉（如卷积神经网络、迁移学习）、序列模型以及自然语言处理等核心领域。其独特的技术亮点在于紧跟技术前沿，已针对 PyTorch 2.x、Torchvision 及 HuggingFace 等库的最新变化进行了全面修订，确保代码的时效性与可用性。此外，项目提供了便捷的 Google Colab 链接，用户无需本地配置环境，即可利用云端 GPU 资源按顺序执行代码单元格，真正实现“手把手”的沉浸式学习体验。无论是想要夯实基础的入门者，还是寻求最新实践参考的从业者，都能从中获益。

使用场景

一名刚入门深度学习的数据科学实习生，正试图从零开始构建一个图像分类模型以完成公司分配的原型验证任务。

没有 PyTorchStepByStep 时

环境配置劝退：面对 PyTorch 2.x、Torchvision 及 HuggingFace 等库的版本迭代，手动搭建兼容环境耗时耗力，常因依赖冲突导致代码无法运行。
理论落地困难：书本上的梯度下降或卷积原理抽象难懂，缺乏可执行的代码参照，难以将数学公式转化为实际的训练循环。
复现结果受阻：网上碎片化的教程代码往往缺少关键细节或已过时，跑出的结果与预期不符，无法判断是算法问题还是代码错误，严重打击学习信心。
硬件门槛限制：本地电脑缺乏高性能 GPU，无法进行大规模的图像训练实验，导致学习进程被迫停滞。

使用 PyTorchStepByStep 后

开箱即用体验：直接通过 Google Colab 加载书中配套的 Jupyter Notebook，自动利用云端 GPU 资源，且代码已针对最新库版本修订，彻底免除环境配置烦恼。
代码逐行拆解：每个章节对应一个完整的 Notebook，从简单的回归问题到复杂的 Transformer 架构，所有代码均可按顺序执行，直观展示数据流转与模型构建过程。
结果精准复现：严格遵循书中的代码逻辑，能够轻松复现完全一致的输出结果，快速验证算法有效性，让学习者确信自己的理解无误。
渐进式实战路径：按照“基础原理→计算机视觉→序列模型→自然语言处理”的结构化路径，手把手指导完成从理论推导到微调大模型的全流程实战。

PyTorchStepByStep 通过提供可复现、模块化且紧跟技术前沿的实战代码，将深度学习的学习曲线从“陡峭悬崖”变成了“平缓阶梯”。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
如有 NVIDIA GPU 可加速，需安装对应版本的 CUDA（文中示例提及 10.1，具体取决于 PyTorch 版本）
无 GPU 可使用 CPU 模式运行

内存

未说明

依赖

notes建议使用 Anaconda 创建虚拟环境（如 pytorchbook）进行管理。若无 GPU，安装 PyTorch 时需指定'cpuonly'参数。GraphViz 为可选依赖，主要用于可视化模型结构，在 Windows 上配置较复杂（需手动添加环境变量 PATH），若安装失败不影响大部分代码运行。可通过 Google Colab、Binder 或本地安装三种方式运行笔记本。

python3.x (Python 2 已停止支持)

pytorch (2.x)

torchvision

tensorboard

graphviz (可选)

torchviz (可选)

git

jupyter

anaconda

快速开始

使用 PyTorch 的深度学习逐步指南

新书：《大型语言模型微调实战指南》

Kindle | 平装本 | PDF [Leanpub] | PDF [Gumroad]

针对 PyTorch 2.x 进行了修订！

修订版针对 PyTorch、Torchvision、HuggingFace 等库的更新进行了调整。受影响最大的章节是第二卷中的第4章和第三卷中的第11章。

请查看下方包含变更内容的 PDF 文件（红色高亮部分）：

这是我的书籍“使用 PyTorch 的深度学习逐步指南”的官方仓库。在这里，您将找到书中每一章对应的 一个 Jupyter 笔记本。

每个笔记本都包含了相应章节中展示的 所有代码，您可以按照顺序运行其中的单元格，以获得与书中一致的 输出结果。我坚信，能够 复现结果会为读者带来信心。

您有三种方式可以运行这些 Jupyter 笔记本：

Google Colab

您可以通过 Colab 轻松地从 GitHub 直接加载笔记本，并在 Google 提供的 GPU 上运行它们。您需要登录自己的 Google 帐户。

您可以通过以下链接直接浏览各章节：

第一部分 - 基础知识

第二部分 - 计算机视觉

第三部分 - 序列数据

第四部分 - 自然语言处理

第11章 - 走进黄砖路的兔子洞

Binder

您也可以通过 Binder 直接从 GitHub 加载笔记本，但流程稍有不同。Binder 会在云端创建一个环境，并允许您在浏览器中访问 Jupyter 主页，列出所有可用的笔记本，就像在您自己的电脑上一样。

如果您对笔记本进行了修改，请务必将其 下载保存，因为 Binder 在您关闭后不会保留这些更改。

您现在就可以通过下面的按钮启动云端环境：

本地安装

这种方式能为您提供更多的 灵活性，但设置起来需要 更多精力。我鼓励您尝试搭建自己的环境。虽然一开始可能会觉得有些复杂，但只要按照 七个简单步骤，您一定可以成功：

1 - Anaconda

如果您还没有安装 Anaconda Individual 版，现在正是好时机——它是一个非常方便的工具，因为它包含了数据科学家开发和训练模型所需的大多数 Python 库。

请根据您的操作系统遵循 安装说明：

请确保选择 Python 3.X 版本，因为 Python 2 已于 2020 年 1 月停止维护。

2 - Conda（虚拟）环境

虚拟环境是一种方便的方式，可以隔离与不同项目相关的 Python 安装。

首先，您需要为您的环境选择一个名字 :-) 我们就叫它 pytorchbook（或者任何您更容易记住的名字）。然后，在终端（Ubuntu）或 Anaconda Prompt（Windows 或 macOS）中输入以下命令：

conda create -n pytorchbook anaconda

上述命令会创建一个名为 pytorchbook 的 conda 环境，并包含 所有 Anaconda 包（该喝杯咖啡了，这可能需要一些时间……）。如果您想了解更多关于创建和使用 conda 环境的信息，请查阅 Anaconda 的 管理环境 用户指南。

环境创建完成了吗？太好了！现在是时候 激活它了，也就是让这个 Python 安装成为当前使用的版本。在同一终端（或 Anaconda Prompt）中输入：

conda activate pytorchbook

您的提示符应该看起来像这样（如果您使用的是 Linux）……

(pytorchbook)$

或者像这样（如果您使用的是 Windows）：

(pytorchbook)C:\>

完成了！你现在正使用一个全新的 conda 环境。每次打开新的终端时，你都需要激活它；如果你是 Windows 或 macOS 用户，可以直接打开对应的 Anaconda Prompt（在我们的例子中会显示为 Anaconda Prompt (pytorchbook)），这样它就会从一开始就处于激活状态。

重要提示：从现在开始，我假设你每次打开终端或 Anaconda Prompt 时都会激活 pytorchbook 环境。后续的所有安装步骤都必须在这个环境中执行。

3 - PyTorch

现在该安装今天的主角了 :-) 我们可以直接访问 PyTorch 官网的本地安装部分，网站会自动根据你的本地环境选择最适合的选项，并给出需要运行的命令。

你的选择应该如下：

PyTorch 版本：“稳定版”
操作系统：你的操作系统
包管理器：“Conda”
编程语言：“Python”
CUDA：如果你没有 GPU，选择“无”；如果你有 GPU，则选择最新版本（例如“10.1”）。

安装命令会直接显示在你的选择下方，你可以将其复制下来。如果你使用的是Windows电脑且没有 GPU，就需要在 Anaconda Prompt (pytorchbook) 中运行以下命令：

(pytorchbook) C:\> conda install pytorch torchvision cpuonly -c pytorch

4 - TensorBoard

TensorBoard 是一个功能强大的工具，即使我们在用 PyTorch 开发模型时也可以使用它。幸运的是，你不需要安装整个 TensorFlow 才能使用 TensorBoard，只需通过 conda 单独安装 TensorBoard 即可。你只需要在终端或Anaconda Prompt中运行以下命令（同样是在激活环境之后）：

(pytorchbook)C:\> conda install -c conda-forge tensorboard

5 - GraphViz 和 TorchViz（可选）

这一步是可选的，主要是因为 GraphViz 的安装有时可能会比较困难（尤其是在 Windows 上）。如果由于某种原因你未能正确安装它，或者决定跳过这一步，你仍然可以运行本书中的代码，除了第 1 章动态计算图部分中用于生成模型结构图的少数几个单元格之外。

我们需要安装 GraphViz 才能使用 TorchViz，这是一个非常实用的工具，可以帮助我们可视化模型的结构。请根据你的操作系统查看安装说明。

如果你使用的是Windows，请下载 GraphViz 的 Windows 安装包。此外，你还需将 GraphViz 添加到 Windows 的 PATH 环境变量中。通常，GraphViz 的可执行文件位于 C:\ProgramFiles(x86)\Graphviz2.38\bin。找到该路径后，你需要相应地设置或修改 PATH，将 GraphViz 的位置添加进去。有关具体操作方法，请参考如何向 Windows PATH 环境变量添加路径。

你还可以参考如何安装 GraphViz 软件的指南以获取更多信息。如果成功安装了 GraphViz，接下来就可以安装 torchviz 包了。这个包并不包含在 Anaconda 发行版中，而只存在于 Python 包索引 PyPI 上，因此我们需要使用 pip 来安装。

再次打开终端或Anaconda Prompt，并运行以下命令（记住：务必先激活环境）：

(pytorchbook)C:\> pip install torchviz

6 - Git

本指南无法深入介绍版本控制及其最流行的工具——git。如果你已经熟悉它，那太好了，可以直接跳过这一节！

否则，我建议你花点时间学习一下，这在以后的工作中绝对会派上用场。在此期间，我将向你展示最基本的使用方法，以便你能用 git 来克隆本书所用的所有代码仓库——这样你就拥有了一个属于自己的本地副本，可以随意修改和实验。

首先，你需要安装 git。前往其下载页面，按照你的操作系统说明进行操作。安装完成后，请打开一个新的终端或Anaconda Prompt（之前的可以关闭）。在新窗口中，你应该能够运行 git 命令。要克隆本书的代码仓库，只需运行以下命令：

(pytorchbook)C:\> git clone https://github.com/dvgodoy/PyTorchStepByStep.git

上述命令会在当前目录下创建一个名为 PyTorchStepByStep 的文件夹，其中包含了 GitHub 仓库中的所有内容的本地副本。

7 - Jupyter

克隆完仓库后，进入 PyTorchStepByStep 目录，然后在该目录内，只需在终端或 Anaconda Prompt 中启动 Jupyter 即可：

(pytorchbook)C:\> jupyter notebook

这将会打开你的浏览器，并显示 Jupyter 的首页，其中包含了本书的所有笔记本和代码。

恭喜你！现在你已经准备好开始阅读各章节的笔记本了！

PyTorchStepByStep 快速上手指南

本指南基于《Deep Learning with PyTorch Step-by-Step》官方仓库，帮助开发者快速搭建环境并运行书中的配套代码。

环境准备

操作系统：Windows, macOS, 或 Linux
Python 版本：Python 3.x (Python 2 已停止维护)
硬件要求：
- 基础运行：任意 CPU
- 加速训练（可选）：NVIDIA GPU (需安装对应版本的 CUDA)
前置知识：具备基础的 Python 编程知识

安装步骤

推荐通过 Anaconda 管理虚拟环境，以确保依赖隔离和安装简便。

1. 安装 Anaconda

如果尚未安装，请前往 Anaconda 官网下载并安装 Individual Edition。安装时请选择 Python 3.x 版本。

2. 创建并激活虚拟环境

打开终端（Linux/macOS）或 Anaconda Prompt（Windows），执行以下命令创建名为 pytorchbook 的环境：

conda create -n pytorchbook anaconda

创建完成后，激活该环境：

conda activate pytorchbook

注：激活成功后，命令行提示符前会出现 (pytorchbook) 标识。后续所有命令均需在此环境下执行。

3. 安装 PyTorch

访问 PyTorch 官网启动页，根据你的系统配置获取安装命令。

无 GPU 用户 (以 Windows 为例)：

conda install pytorch torchvision cpuonly -c pytorch

有 GPU 用户：请在官网选择对应的 CUDA 版本后复制生成的命令执行。

国内加速建议：若下载速度慢，可使用清华源或中科大源。例如：

conda install pytorch torchvision cpuonly -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

4. 安装 TensorBoard

用于可视化训练过程，无需安装完整的 TensorFlow：

conda install -c conda-forge tensorboard

5. 安装可视化工具 (可选)

若需查看模型结构图（如第 1 章部分示例），需安装 GraphViz 和 TorchViz。

安装 GraphViz：
- Windows: 下载安装包安装，并将 bin 目录（通常在 C:\ProgramFiles(x86)\Graphviz2.38\bin）添加到系统环境变量 PATH 中。
- Linux/macOS: 使用包管理器安装 (如 sudo apt-get install graphviz 或 brew install graphviz)。
安装 TorchViz：
```
pip install torchviz
```

6. 克隆项目代码

安装 Git 后，克隆官方仓库到本地：

git clone https://github.com/dvgodoy/PyTorchStepByStep.git

进入项目目录并启动 Jupyter Notebook：

cd PyTorchStepByStep
jupyter notebook

浏览器将自动打开，显示所有章节的 Notebook 文件。

基本使用

本项目为书籍的每一章提供了一个独立的 Jupyter Notebook 文件（例如 Chapter01.ipynb）。

选择章节：在 Jupyter 界面中点击对应的 .ipynb 文件（如 Chapter01.ipynb）。
顺序执行：按照书中逻辑，从上到下依次点击单元格左侧的 Run 按钮（或按 Shift + Enter）。
验证结果：每个 Notebook 包含书中展示的所有代码，顺序执行后应能得到与书中完全一致的输出结果和图表。

替代方案（无需本地安装）： 如果不想配置本地环境，可直接点击仓库 README 中的 Google Colab 链接，在云端免费使用 GPU 直接运行各章节代码。

常见问题

为什么在计算梯度时，有时代码中没有负号，而有时又有？哪种是正确的？

书中图 9.3 关于正方形顶点标记（ABCD）和序列编号（1234）的描述令人困惑，它们是如何对应的？

在代码重构过程中，为什么函数名从 `train_step` 变成了 `step`？我找不到定义的地方。

尝试导入 `data_generation.square_sequences` 模块时出现 `ModuleNotFoundError`，但类似的自定义目录结构却能正常导入，原因是什么？

对于有数学背景但想转行数据科学的人，有什么推荐的学习路径？

Autograd 是如何处理误差公式中项的顺序（如 y_train - y_hat vs y_hat - y_train）对梯度符号的影响的？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架