thorough-pytorch

3.6k 536 非常简单 2 次阅读今天NOASSERTION开发框架

AI 解读由 AI 自动生成，仅供参考

thorough-pytorch 是由 DataWhale 开源社区打造的一套系统化 PyTorch 入门教程，采用"理论讲解 + 动手实践 + 项目实战"的三段式学习路径，帮助学习者从零基础逐步掌握深度学习开发技能。

这套教程解决了 PyTorch 学习资源分散、缺乏体系化引导的问题。内容涵盖 PyTorch 安装配置、张量运算、自动求导等基础知识，到模型构建、训练优化、可视化等核心技能，再到计算机视觉、自然语言处理等领域的经典网络源码解读。特别值得一提的是，教程紧跟技术前沿，包含了 timm 模型库、半精度训练、SwanLab 可视化等实用进阶技巧，以及 ONNX 模型部署等工程化内容。

thorough-pytorch 适合具备 Python 基础和机器学习理论储备的学生、研究人员及算法工程师使用。教程采用 Markdown 和 Jupyter Notebook 形式呈现，配合 B 站视频讲解与组队学习模式，既适合自学也适合社群共学。目前已完成前两部分的编写，第三部分将聚焦更贴近工业界的实战案例。

使用场景

某高校计算机专业研一学生李明，需要在两周内完成导师布置的"基于ResNet的医学影像分类"课程项目，但他此前只有Python基础，从未接触过PyTorch深度学习框架。

没有 thorough-pytorch 时

面对PyTorch官方文档的碎片化API说明，不知从何入手搭建完整训练流程，三天过去仍停留在环境配置阶段
在CSDN和GitHub间反复搜索"PyTorch入门教程"，发现各博客代码风格不一、版本混乱，复制粘贴后报错频发却无人解答
试图直接跑通GitHub上的开源项目，却因缺乏对数据加载、模型定义、训练循环等模块的系统理解，调试时陷入"改一处崩一处"的困境
导师要求可视化训练过程并导出ONNX模型部署，但网上找到的TensorBoard和部署教程与当前项目代码结构不匹配，被迫推倒重来

使用 thorough-pytorch 后

按照"第一章安装→第二章张量基础→第三章核心模块"的递进路径，5天内即掌握从数据读入到模型训练的完整闭环，每个环节都有可运行的代码示例
直接参考第四章的"果蔬分类实战"notebook，将医学影像数据集替换进去即可跑通baseline，再对照第五章的模型定义方式逐步优化ResNet结构
第六章的动态学习率调整、半精度训练等进阶技巧让模型准确率提升8%，且每个技巧都配有原理讲解和一行代码即可复现的实现方式
第七章的TensorBoard可视化教程与项目代码完全兼容，第九章的ONNX部署指南更是直接提供了从PyTorch模型到推理引擎的完整转换脚本，两天完成全部交付

核心价值：thorough-pytorch 以"理论+代码+实战"三位一体的结构化学习路径，将PyTorch的入门周期从数周压缩至10天，让深度学习新手能够独立走完从环境搭建到模型部署的全流程。

运行环境要求

操作系统

未说明

GPU

未明确说明，但涉及CUDA和cuDNN、并行计算、半精度训练等内容，建议配备NVIDIA GPU

内存

未说明

依赖

notes本教程为PyTorch学习课程，非可直接运行的工具或框架；内容涵盖PyTorch基础到进阶，包括模型部署、可视化等；建议使用Jupyter Notebook运行配套代码；在线文档更新滞后于仓库，建议直接查看source文件夹下的markdown文件

python未说明

torch

torchvision

torchtext

torchaudio

PyTorchVideo

timm

wandb

tensorboard

SwanLab

onnx

快速开始

深入浅出PyTorch

[!IMPORTANT] 在线阅读地址 | 配套视频教程 | 智海（国家级AI科教平台）

请注意：在线文档更新落后于主仓库更新，建议看source文件夹下的markdown文件

一、项目初衷

PyTorch是利用深度学习（Deep Learning）进行数据科学研究的重要工具，在灵活性、可读性和性能上都具备相当的优势，近年来已成为学术界实现深度学习算法最常用的框架。

考虑到PyTorch的学习兼具理论储备和动手训练，两手都要抓两手都要硬的特点，我们开发了《深入浅出PyTorch》课程，期望以组队学习的形式，帮助大家从入门到熟练掌握PyTorch工具，进而实现自己的深度学习算法。

我们的愿景是：通过组队学习，大家能够掌握由浅入深地PyTorch的基本知识和内容，经过自己的动手实践加深操作的熟练度。同时通过项目实战，充分锻炼编程能力，掌握PyTorch进行深度学习的基本流程，提升解决实际问题的能力。

学习的先修要求是，会使用Python编程，了解包括神经网络（Neural Network）在内的机器学习（Machine Learning）算法，勤于动手实践。

《深入浅出PyTorch》是一个系列，一共有三个部分。已经上线的是本系列的第一、二部分，后续会不断更新《深入浅出PyTorch》（下），给出更贴合实际应用的实战案例。

二、内容简介

第零章：前置知识（选学）
- 人工智能简史
- 相关评价指标
- 常用包的学习
- Jupyter相关操作
第一章：PyTorch的简介和安装
- PyTorch简介
- PyTorch的安装
- PyTorch相关资源简介
第二章：PyTorch基础知识
- 张量（Tensor）及其运算
- 自动求导（Autograd）简介
- 并行计算、CUDA和cuDNN简介
第三章：PyTorch的主要组成模块
- 思考：完成一套深度学习流程需要哪些关键环节
- 基本配置
- 数据读入
- 模型构建
- 损失函数（Loss Function）
- 优化器（Optimizer）
- 训练和评估
- 可视化
第四章：PyTorch基础实战
- 基础实战——Fashion-MNIST时装分类
- 基础实战——果蔬分类实战（notebook）
第五章：PyTorch模型定义
- 模型定义方式
- 利用模型块快速搭建复杂网络
- 模型修改
- 模型保存与读取
第六章：PyTorch进阶训练技巧
- 自定义损失函数
- 动态调整学习率（Learning Rate）
- 模型微调（Fine-tuning）-torchvision
- 模型微调-timm
- 半精度训练（Half-precision Training）
- 数据扩充（Data Augmentation）
- 超参数的修改及保存
- PyTorch模型定义与进阶训练技巧
第七章：PyTorch可视化
- 可视化网络结构
- 可视化CNN卷积层
- 使用TensorBoard可视化训练过程
- 使用wandb可视化训练过程
- 使用SwanLab可视化训练过程
第八章：PyTorch生态简介
- 简介
- 图像—torchvision
- 视频—PyTorchVideo
- 文本—torchtext
- 音频-torchaudio
第九章：模型部署
- 使用ONNX进行部署并推理
第十章：常见网络代码的解读(推进中)
- 计算机视觉（Computer Vision）
  - 图像分类（Image Classification）
    - ResNet源码解读
    - Swin Transformer源码解读
    - Vision Transformer源码解读
    - RNN源码解读
    - LSTM源码解读及其实战
  - 目标检测（Object Detection）
    - YOLO系列解读（与MMYOLO合作）
  - 图像分割（Image Segmentation）
- 自然语言处理（Natural Language Processing, NLP）
  - RNN源码解读
- 音频处理
- 视频处理
- 其他

三、人员安排

成员	个人简介	个人主页
牛志康	DataWhale成员，西安电子科技大学本科生	[知乎][个人主页]
李嘉骐	DataWhale成员，清华大学研究生	[知乎]
刘洋	Datawhale成员，中国科学院数学与系统科学研究所研究生	[知乎]
陈安东	DataWhale成员，哈尔滨工业大学研究生	[个人主页]

教程贡献情况（已上线课程内容）：

李嘉骐：第三章；第四章；第五章；第六章；第七章；第八章；内容整合

牛志康：第一章；第三章；第六章；第七章；第八章，第九章，第十章；文档部署

刘洋：第二章；第三章

陈安东：第二章；第三章；第七章

四、课程编排与配套视频

部分章节直播讲解请观看B站回放（持续更新）：https://www.bilibili.com/video/BV1L44y1472Z

课程编排：深入浅出PyTorch分为三个阶段：PyTorch深度学习基础知识、PyTorch进阶操作、PyTorch案例分析。
使用方法:

我们的课程内容都以markdown格式或jupyter notebook的形式保存在本仓库内。除了多看加深课程内容的理解外，最重要的还是动手练习、练习、练习
组队学习安排:

第一部分：第一章到第四章，学习周期：10天；

第二部分：第五章到第八章，学习周期：11天

五、关于贡献

本项目使用Forking工作流，具体参考atlassian文档大致步骤如下：

在GitHub上Fork本仓库
Clone Fork后的个人仓库
设置upstream仓库地址，并禁用push
使用分支开发，课程分支名为lecture{#NO}，#NO保持两位，如lecture07，对应课程目录
PR之前保持与原始仓库的同步，之后发起PR请求

命令示例：

# fork
# clone
git clone git@github.com:USERNAME/thorough-pytorch.git
# set upstream
git remote add upstream git@github.com:datawhalechina/thorough-pytorch.git
# disable upstream push
git remote set-url --push upstream DISABLE
# verify
git remote -v
# some sample output:
# origin	git@github.com:NoFish-528/thorough-pytorch.git (fetch)
# origin	git@github.com:NoFish-528/thorough-pytorch.git (push)
# upstream	git@github.com:datawhalechina/thorough-pytorch.git (fetch)
# upstream	DISABLE (push)
# do your work
git checkout -b lecture07
# edit and commit and push your changes
git push -u origin lecture07
# keep your fork up to date
## fetch upstream main and merge with forked main branch
git fetch upstream
git checkout main
git merge upstream/main
## rebase brach and force push
git checkout lecture07
git rebase main
git push -f

Commit Message

提交信息使用如下格式：<type>: <short summary>

<type>: <short summary>
  │            │
  │            └─⫸ Summary in present tense. Not capitalized. No period at the end.
  │
  └─⫸ Commit Type: [docs #NO]:others

others包括非课程相关的改动，如本README.md中的变动，.gitignore的调整等。

六、更新计划

内容	更新时间	内容
apex		apex的简介和使用
模型部署		Flask部署PyTorch模型
TorchScript		TorchScript
并行训练		并行训练
模型预训练 - torchhub		torchhub的简介和使用方法
目标检测 - SSD		SSD的简介和实现
目标检测 - RCNN系列		Fast-RCNN & Mask-RCNN
目标检测 - DETR		DETR的实现
图像分类 - GoogLeNet		GoogLeNet的介绍与实现
图像分类 - MobileNet系列		MobileNet系列介绍与实现
图像分类 - GhostNet		GhostNet代码讲解
生成式对抗网络 - 生成手写数字实战		生成数字并可视化
生成式对抗网络 - DCGAN
风格迁移 - StyleGAN
生成网络 - VAE
图像分割 Deeplab系列		Deeplab系列代码讲解
自然语言处理 LSTM		LSTM情感分析实战
自然语言处理 Transformer
自然语言处理 BERT
视频		待定
音频		待定
自定义CUDA扩展和算子

七、鸣谢与反馈

非常感谢DataWhale成员叶前坤 @PureBuckwheat 和胡锐锋 @Relph1119 对文档的细致校对！
如果有任何想法可以联系我们DataWhale也欢迎大家多多提出issue。
特别感谢以下为教程做出贡献的同学！并特别感谢MMYOLO的贡献者们！

Made with contrib.rocks.

八、关注我们

Datawhale是一个专注AI领域的开源组织，以“for the learner，和学习者一起成长”为愿景，构建对学习者最有价值的开源学习社区。关注我们，一起学习成长。

LICENSE

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

深入浅出PyTorch 快速上手指南

一、环境准备

系统要求

操作系统：Linux / macOS / Windows
Python：3.7 及以上版本
CUDA（可选）：如需 GPU 加速，需 NVIDIA 显卡及对应 CUDA 版本

前置依赖

掌握 Python 基础编程
了解神经网络等机器学习基础概念

二、安装步骤

1. 安装 PyTorch

推荐：使用国内镜像源加速

# 使用清华镜像源（推荐国内用户）
pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

# 或官方命令（根据 CUDA 版本选择）
# CPU 版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

# CUDA 11.8 版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# CUDA 12.1 版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

验证安装：python -c "import torch; print(torch.__version__)"

2. 获取教程资源

# 克隆仓库
git clone https://github.com/datawhalechina/thorough-pytorch.git

# 进入目录
cd thorough-pytorch

# 安装其他依赖（如需要）
pip install -r requirements.txt

三、基本使用

1. 张量操作基础

import torch

# 创建张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(x.shape)  # torch.Size([2, 3])

# GPU 加速（如可用）
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
x = x.to(device)

2. 自动求导示例

import torch

# 创建需要梯度的张量
x = torch.tensor(2.0, requires_grad=True)
y = x ** 3 + 2 * x

# 反向传播
y.backward()
print(x.grad)  # 输出: 14.0 (即 3*x^2 + 2 = 14)

3. 完整训练流程模板

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# 1. 定义模型
class SimpleNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Linear(784, 10)
    
    def forward(self, x):
        return self.fc(x.view(x.size(0), -1))

# 2. 准备数据
model = SimpleNet().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 3. 训练循环（示例）
for epoch in range(5):
    # 假设 data_loader 已定义
    for inputs, labels in data_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
    
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

四、学习路径建议

阶段	章节	周期
基础篇	第1-4章（安装→基础→模块→实战）	10天
进阶篇	第5-8章（模型定义→训练技巧→可视化→生态）	11天
实战篇	第9-10章（部署→源码解读）	持续更新

配套资源：

📖 在线文档（建议优先查看 source 文件夹源码）
🎬 B站视频教程
🏫 智海AI科教平台

常见问题

文档中的图片无法显示，如何解决？

PyTorch离线安装后无法import torch，如何解决？

混淆矩阵中TP、FP、TN、FN的定义是什么？

是否提供Jupyter Notebook文件以便直接运行代码？

如何使用交叉验证（K-Fold）进行模型训练？

多GPU环境下如何正确保存和加载模型权重？

如何获取ResNet50中avgpool层的中间输出结果？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 thorough-pytorch 时

使用 thorough-pytorch 后

运行环境要求

快速开始

深入浅出PyTorch

一、项目初衷

二、内容简介

三、人员安排

四、 课程编排与配套视频

五、关于贡献

Commit Message

六、更新计划

七、鸣谢与反馈

八、关注我们

LICENSE

深入浅出PyTorch 快速上手指南

一、环境准备

系统要求

前置依赖

二、安装步骤

1. 安装 PyTorch

2. 获取教程资源

三、基本使用

1. 张量操作基础

2. 自动求导示例

3. 完整训练流程模板

四、学习路径建议

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

四、课程编排与配套视频