computer-vision-in-action

2.8k 404 简单 1 次阅读今天NOASSERTION开发框架语言模型图像

AI 解读由 AI 自动生成，仅供参考

computer-vision-in-action 是一个专为计算机视觉学习者打造的闭环实战平台，核心载体是《计算机视觉实战演练：算法与应用》中文电子书。它不仅仅是一本静态的技术文档，更是一个支持代码在线交互式运行的动态学习环境。

该项目主要解决了传统 AI 学习中“理论与实操脱节”的痛点。许多初学者在阅读算法原理时，往往因环境配置复杂或缺乏即时反馈而难以深入。computer-vision-in-action 通过独特的 L0CV 学习媒介，将代码、图示和 HTML 说明深度融合，用户无需在本地繁琐搭建环境，即可直接在浏览器中修改并运行代码，直观观察算法效果，真正实现“以用促学，先会后懂”。

这里非常适合计算机视觉领域的开发者、高校学生以及希望转型 AI 的研究人员使用。无论你是想系统掌握从基础图像处理到 Transformer、强化学习等前沿技术，还是寻找高质量的开源源码进行二次开发，都能在这里找到丰富资源。项目由迈微 AI 研习社创始人维护，内容持续更新且完全免费开源，配合活跃的读者交流社区，为学习者提供了一条从入门到进阶的清晰成长路径。

使用场景

某高校计算机专业研究生李明正在准备毕业论文，需要复现一篇关于“视频动作识别”的顶会论文算法，并验证其在自定义数据集上的效果。

没有 computer-vision-in-action 时

环境配置耗时极长：为了运行论文代码，李明需要在本地手动安装特定版本的 PyTorch、OpenCV 及各类依赖库，频繁遭遇版本冲突和报错，整整两天无法跑通"Hello World"。
理论与实践脱节：手中只有晦涩的 PDF 论文和零散的 GitHub 代码片段，难以将书中的数学公式与具体的代码实现逻辑对应起来，理解成本极高。
缺乏交互式调试：想要修改某个卷积层参数观察效果，必须本地修改代码、重新运行整个脚本，无法实时查看中间特征图的变化，试错效率低下。
资源孤立无援：遇到算法瓶颈时，只能在通用论坛发帖求助，缺乏针对该具体项目的垂直交流社区，问题往往石沉大海。

使用 computer-vision-in-action 后

开箱即用的在线环境：李明直接通过浏览器访问 L0CV 在线平台，无需本地配置任何环境，即可在预置好的 Jupyter Notebook 中一键运行视频理解相关的示例代码。
代码与图文深度融合：依托《计算机视觉实战演练》电子书，他能够边看动态图解边对照源码，清晰地看到 Transformer 模块在代码中的具体落地方式，迅速打通理论任督二脉。
交互式闭环学习：利用平台的交互特性，他实时修改网络超参数并立即可视化输出结果，快速验证了不同架构对动作识别准确率的影响，实验迭代速度提升数倍。
精准社区支持：在项目中内置的读者交流社区里，他找到了同样研究视频理解的伙伴，并参考作者更新的最新笔记，顺利解决了数据预处理的关键难题。

computer-vision-in-action 通过“代码 + 图示 + 在线交互”的闭环模式，将枯燥的算法学习转化为高效的实战演练，极大降低了计算机视觉技术的入门与研发门槛。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明 (项目基于 PyTorch，通常建议 NVIDIA GPU 以加速训练，但 README 未明确具体型号或显存要求)

内存

未说明

依赖

notes项目支持跨平台运行，只需浏览器即可通过在线阅读或使用 Binder/Colab 在线运行 Notebook；本地运行可安装作者提供的 'L0CV' 包简化环境配置；提供 Docker 镜像 (v1.0.1) 和 Gitpod 支持以进一步降低环境搭建难度。

python3.8.10

PyTorch>=1.9.0

Jupyter>=4.7.1

L0CV (作者自定义第三方包)

快速开始

"如果你只是看了这个项目的在线文档，那么你并没有利用好这个项目。太可惜！"

✨ 以用促学，先会后懂 ✨

L0CV ^🔊 一种结合了代码、图示和HTML的在线学习媒介

全面 前沿 免费

计算机视觉实战演练：算法与应用 ^📌
Computer Vision in Action

作者：张伟（Charmve）

跨平台，只需一个浏览器即可！

👉 在线阅读（优先更新实战篇和进阶篇）
- 地址：https://charmve.github.io/computer-vision-in-action/

最新版PDF下载
- 地址：https://github.com/Charmve/computer-vision-in-action/releases (马上来 ...)

分享到

Index

💠 全书组织
🌈 愿景
📘 本书目录
🔍 文件浏览
🌼 L0CV-DemoDay
🔑 如何食用
❓ 常见问题
👥 社区互助
:heart: 致谢
📄 LICENSE
👐 参与项目
🤝 关注我们
📎 Citation

:label: sec_code 图1 L0CV 结构图

💠 全书组织

:label: fig_book_org

全书详细思维导图

本书详细介绍，请移步序言。

第一部分包括基础知识和预备知识。提供深度学习的入门课程，然后在理论篇中，将快速向你介绍实践计算机视觉所需的前提条件，例如如何存储和处理数据，以及如何应用基于线性代数、微积分和概率基本概念的各种数值运算，涵盖了深度学习的最基本概念和技术，例如线性回归、多层感知机和正则化。
第二部分是本书涉及的计算机视觉基础理论，核心部分为神经网络模型，包括神经网络、卷积神经网络、循环神经网络理论讲解，以图像分类、模型拟合与优化作为其代码的实战项目。在模型拟合和优化章节中，着重分享梯度下降、随机梯度下降、动量法、AdaBoost等方法。
接下来的七章集中讨论现代计算机视觉技术实战，也是本书的核心部分。围绕这样的组织逻辑：什么是计算机视觉？计算机视觉解决什么问题，都是怎么解决的？传统方法——以卷积神经网络为中心的神经网络；现代方法——Transformer、强化学习、迁移学习、生成对抗等。各种方法是如何实现的，用到了什么框架？在第7章中，描述了计算机视觉的经典卷积神经网络PyTorch实现，并为我们随后实现更复杂的模型奠定了基础。在随后的几个章节中，我们主要解决图像分类、目标检测、语义分割、3D重建等实际问题，并给出实战项目。
该部分以项目为实战指导，给出详细的项目指导书和代码实现，更为特别的是，给出了notebook可以直接在线运行，跑通结果，免去了本地运行环境的搭建复杂性。于此同时，为了方便读者在本地调试，作者建立了一个名为 L0CV 的第三方包，可以直接在代码中 import L0CV 后使用。
第三部分讨论最近几年出现的“网红”模型，诸如：Transformer、Attention、知识蒸馏、迁移学习、生成对抗模型等。这部分也是此份资料的力挺之作。最后，在 chap_optimization 中，我们讨论了用于训练深度学习模型的几种常用优化算法，如：模型压缩、模型剪枝、微调、蒸馏等。

Index

🌈 愿景

本开源项目代表了我们的一种尝试：我们将教给读者概念、背景知识和代码；我们将在同一个地方阐述剖析问题所需的批判性思维、解决问题所需的数学知识，以及实现解决方案所需的工程技能。

我们的目标是创建一个为实现以下目标的统一资源：

所有人均可在网上免费获取；
提供足够的技术深度，从而帮助读者实际成为计算机视觉应用科学家：既理解数学原理，又能够实现并不断改进方法；
包含可运行的代码，为读者展示如何在实际中解决问题。这样不仅直接将数学公式对应成实际代码，而且可以修改代码、观察结果并及时获取经验；
允许我们和整个社区不断快速迭代内容，从而紧跟仍在高速发展的计算机视觉领域；
由包含有关技术细节问答的论坛作为补充，使大家可以相互答疑并交换经验。

Index

📘 本书目录

👉 在线阅读（优先更新实战篇和进阶篇）
- 地址：https://charmve.github.io/computer-vision-in-action/

📘 详细目录(点击展开)

序言
主要符号表
绪论篇
- 第 0 章计算机视觉概述
  - 0.1 概述
    - 0.1.1 什么是计算机视觉
    - 0.1.2 计算机视觉解决什么问题
    - 0.1.3 行业应用
  - 0.2 计算机视觉基本概念
  - 0.3 发展历史回顾
  - 0.4 典型的计算机视觉任务
    - 图像分类
    - 目标识别与目标检测
    - 实例分割与语义分割
    - 3D 建模
  - 0.5 国内外优秀的计算机视觉团队汇总
  - 小练习
  - 小结
  - 参考文献
理论篇
- 第 1 章神经网络
  - 1.1 线性回归
    - 1.1.1 基本原理
    - 1.1.2 从零实现线性回归
    - 1.1.3 线性回归的简洁实现
  - 1.2 Softmax 回归
    - 1.2.1 softmax回归模型
    - 1.2.2 从零开始实现softmax回归
    - 1.2.3 softmax回归的简洁实现
  - 1.3 多层感知器
    - 1.3.1 基本原理
    - 1.3.2 从零开始实现多层感知器
    - 1.3.3 多层感知器的简洁实现
  - 1.4 反向传播算法
  - 1.5 神经网络
    - 1.5.1 神经学观点
    - 1.5.2 神经网络1-建立神经网络架构
    - 1.5.3 神经网络2-设置数据和损失
    - 1.5.4 神经网络3-学习和评估
    - 1.5.5 案例分析-最小神经网络案例研究
  - 1.6 实战项目 1 - 手写字分类
  - 小结
  - 参考文献
- 第 2 章卷积神经网络
  - 2.1 从神经网络到卷积神经网络
    - 2.1.1 定义
    - 2.1.2 卷积神经网络的架构
  - 2.2 卷积网络的层级结构
    - 2.2.1 数据输入层
    - 2.2.2 卷积计算层
    - 2.2.3 非线性层（或激活层）
    - 2.2.4 池化层
    - 2.2.5 全连接层
  - 2.3 卷积神经网络的几点说明
  - 2.4 实战项目 2 - 动手搭建一个卷积神经网络
  - 小结
  - 参考文献
- 第 3 章图像分类
  - 3.1 数据驱动方法
    - 3.1.1 语义上的差别
    - 3.1.2 图像分类任务面临着许多挑战
    - 3.1.3 数据驱动的方法
  - 3.2 k 最近邻算法
    - 3.2.1 k 近邻模型
    - 3.2.2 k 近邻模型三个基本要素
    - 3.2.3 KNN算法的决策过程
    - 3.2.4 k 近邻算法Python实现
    - 小结
    - 参考文献
  - 3.3 支持向量机
    - 3.3.1 概述
    - 3.3.2 线性支持向量机
    - 3.3.3 从零开始实现支持向量机
    - 3.3.4 支持向量机的简洁实现
  - 3.4 逻辑回归 LR
    - 3.4.1 逻辑回归模型
    - 3.4.2 从零开始实现逻辑回归
    - 3.4.3 逻辑回归的简洁实现
  - 3.5 实战项目 3 - 表情识别
  - 3.6 实战项目 4 - 使用卷积神经网络对CIFAR10图片进行分类
  - 小结
  - 参考文献
- 第 4 章循环神经网络
  - 4.1 循环神经网络 RNN
  - 4.2 循环神经网络的从零开始实现
  - 4.3 循环神经网络的简洁实现
  - 4.4 长短期记忆人工神经网络 LSTM
  - 4.5 门控循环单元（GRU）
  - 小结
  - 练习
  - 参考文献
- 第 5 章图神经网络
  - 5.1 历史脉络
  - 5.2 图神经网络(Graph Neural Network)
    - 5.2.1 状态更新与输出
    - 5.2.2 不动点理论
    - 5.2.3 具体实现
    - 5.2.4 模型学习
    - 5.2.5 GNN与RNN
    - 5.2.6 GNN的局限
  - 5.3 门控图神经网络(Gated Graph Neural Network)
    - 5.3.1 状态更新
    - 5.3.2 实例1:到达判断
    - 5.3.3 实例2:语义解析
    - 5.3.4 GNN与GGNN
  - 5.4 图卷积神经网络(GCNN)
    - 5.4.1 图卷积缘起
    - 5.4.2 图卷积框架(Framework)
    - 5.4.3 再谈卷积
    - 5.4.4 空域卷积(Spatial Convolution)
    - 5.4.5 消息传递网络(Message Passing Neural Network)
    - 5.4.6 图采样与聚合(Graph Sample and Aggregate)
    - 5.4.7 图结构序列化(PATCHY-SAN)
    - 5.4.8 频域卷积(Spectral Convolution)
  - 5.5 生成图表示
    - 5.5.1 图读出操作(ReadOut)
    - 5.5.2 基于统计的方法(Statistics Category)
    - 5.5.3 基于学习的方法(Learning Category)
    - 5.5.4 其他方法
  - 5.6 图神经网络在计算机视觉上的应用
    - 5.6.1 点云分割
    - 5.6.2 点云生成
    - 5.6.3 RGBD图像分割
    - 5.6.4 视觉问答VQA
    - 5.6.5 零次学习ZSL
  - 小结
  - 参考文献
- 第 5 章模型选择、欠拟合和过拟合
  - 5.1 训练误差和泛化误差
  - 5.2 模型选择
  - 5.3 欠拟合和过拟合
  - 5.4 多项式函数拟合实验
  - 5.5 数值稳定性和模型初始化
  - 小结
  - 参考文献
- 第 6 章模型拟合与优化算法
  - 6.1 优化与深度学习
  - 6.2 梯度下降和随机梯度下降
  - 6.3 小批量随机梯度下降
  - 6.4 动量法
  - 6.5 AdaGrad算法
  - 6.6 RMSProp算法
  - 6.7 AdaDelta算法
  - 6.8 Adam算法
  - 小结
  - 参考文献
实战篇
- 第 6 章软件环境搭建与工具使用
  - 6.1 深度学习环境搭建指南
  - 6.2 Pytorch 基础使用介绍
    - 6.2.1 Tensors
    - 6.2.2 Operations
    - 6.2.3 Numpy桥梁
    - 6.2.4 CUDA Tensors
  - 6.3 Python
  - 6.4 Numpy 基础使用
  - 6.5 Pandas 基础使用
  - 6.6 OpenCV 安装及基础使用
  - 6.7 Jupyter Notebook 配置及基础使用
  - 6.8 基本的图像操作和处理
    - 6.8.1 PIL：Python图像处理类库
    - 6.8.2 Matplotlib
    - 6.8.3 NumPy
    - 6.8.4 SciPy
    - 6.8.5 高级示例：图像去噪
  - 6.9 实战项目 5 - 使用OpenCV进行图像全景拼接
  - 小结
  - 参考文献
- 第 7 章经典卷积神经网络架构：原理与PyTorch实现
  - 7.1 卷积神经网络（LeNet）
  - 7.2 深度卷积神经网络（AlexNet）
  - 7.3 使用重复元素的网络（VGG）
  - 7.4 含并行连结的网络（GoogLeNet）
  - 7.5 残差网络（ResNet）
  - 7.6 二阶网络编码解码（U-Net）
  - 7.7 稠密连接网络（DenseNet）
  - 7.8 语义分割网络（SegNet）
  - 7.9 实例分割网络（Mask-RCNN）
  - 7.10 区域卷积神经网络（R-CNN）
  - 7.11 全卷积网络（FCN）
  - 7.12 YOLO: 实时目标检测
  - 小结
  - 参考文献
- 第 8 章著名数据集及基准
  - 8.1 数据集
    - 8.1.1 常见数据集
      - 8.1.1.1 ImageNet
      - 8.1.1.2 MNIST
      - 8.1.1.3 COCO
      - 8.1.1.4 CIFAR-10
    - 8.1.2 Pytorch数据集及读取方法简介
    - 8.1.3 数据增强简介
    - 总结
  - 8.2 基准测试
  - 8.3 评价指标
  - 8.4 实战项目 6 - Kaggle比赛：图像分类（CIFAR-10）
  - 8.5 实战项目 7 - Kaggle比赛：狗的品种识别（ImageNet Dogs）
  - 小结
  - 参考文献
- 第 9 章检测与分割实战项目
  - 9.1 语义分割
    - 9.1.1 语义分割 PyTorch 版
    - 9.1.2 实战项目 8 - 基于PolarNet的点云端到端语义分割项目实战
  - 9.2 目标检测
    - 9.2.1 常用网络
    - 9.2.2 实战项目 9 - 基于PyTorch的YOLO5目标检测项目实战
  - 9.3 实例分割
    - 9.3.1 常用网络
    - 9.3.2 实战项目 10 - 实时高分辨率背景抠图
    - 9.3.3 新方法：滑动窗口, PointRend, PolarMask
  - 小结
  - 参考文献
- 第 10 章计算机视觉课题研究初探
  - 10.1 手写字识别
  - 10.2 文本检测
  - 10.3 车道线检测
    - 10.3.1 常用网络
    - 10.3.2 实战项目 11 - 车道线检测项目实战
  - 10.4 镜面检测
  - 10.5 图像抠图 Matting
  - 10.6 图像超分辨率
  - 10.7 3D 重建
  - 小结
  - 参考文献
进阶篇
- 第 11 章可视化和理解卷积神经网络
  - 11.1 特征可视化
  - 11.2 倒置
  - 11.3 可视化数据梯度
  - 11.4 Embeddings
  - 11.5 对抗样本
  - 11.6 DeepDream 和风格迁移
  - 11.7 实战项目 12: PyTorch 如何使用TensorBoard
    - 11.4.1 创建 TensorBoard
    - 11.4.2 写入 TensorBoard
    - 11.4.3 使用 TensorBoard 检查模型
    - 11.4.4 向 TensorBoard 添加 "Projector"
    - 11.4.5 使用 TensorBoard 跟踪模型训练
    - 11.4.6 使用 TensorBoard 评估训练好的模型
    - 11.4.7 案例总结
  - 小结
  - 参考文献
- 第 12 章生成对抗模型
  - 12.1 Pixel RNN/CNN
  - 12.2 自编码器 Auto-encoder
  - 12.3 生成对抗网络 GAN
    - 12.3.1 概述
    - 12.3.2 GAN的基本思想
    - 12.3.3 GAN浅析
      - 12.3.3.1 GAN的基本结构
      - 12.3.3.2 GAN的训练方式
        
        关于生成器
        
        关于判别器
        
        如何训练
    - 12.3.4 训练相关理论基础
    - 12.3.5 项目实战案例StyleGAN
      - StyleGAN
      - StyleGAN 2.0
    - 12.3.6 实战项目11 - 图像风格迁移
    - 小结
    - 参考文献
  - 12.4 变分自编码器 Variational Auto-encoder, VAE
    - 12.4.1 概述
    - 12.4.2 基本原理
      - 12.4.2.1 定义
      - 12.4.2.2 理论基础：三要素
      - 12.4.2.3 推导过程
    - 12.4.3 VAE v.s. AE 区别与联系
    - 12.4.4 变分自编码器的代码实现
    - 12.4.5 卷积变分自编码器的实现与简单应用
    - 12.4.6 实战项目 13 - 旧照片修复
    - 小结
    - 参考文献
  - 参考文献
- 第 13 章深度增强学习
  - 13.1 引言-如何解决通用人工智能的难点
  - 13.2 什么是深度增强学习
    - 13.2.1 深度学习
    - 13.2.2 增强学习
    - 13.2.3 二者的融合
  - 13.3 怎么利用深度增强学习解决问题
    - 13.3.1 Policy-based DRL
    - 13.3.2 Value-based DRL
    - 13.3.3 Model-based DRL
  - 13.4 深度增强学习在计算机视觉中的应用
  - 小结
  - 参考文献
- 第 14 章视频理解
  - 14.1 概述
  - 14.2 视频理解场景中的主要问题
  - 14.3 常用数据集
  - 14.4 主流方法与模型架构
  - 14.5 指标 METRICS
  - 14.6 可能的未来方向
  - 小结
  - 参考文献
- 第 15 章迁移学习
  - 15.1 概述
    - 15.1.1 背景
    - 15.1.2 定义及分类
    - 15.1.3 关键点
  - 15.2 基于实例的迁移
  - 15.3 基于特征的迁移
  - 15.4 基于共享参数的迁移
  - 15.5 深度学习和迁移学习结合
  - 15.7 实战项目 14 - 蚂蚁和蜜蜂的分类问题
    - 15.7.1 迁移学习在计算机视觉领域的应用
    - 15.7.2 实战项目: 蚂蚁和蜜蜂的分类问题
  - 小结
  - 参考文献
- 第 16 章计算机视觉中的注意力机制 Attention is All You Need
  - 16.1 概述
  - 16.2 Attention with RNNs
  - 16.3 Self-attention 自注意力
  - 16.4 软注意力（soft-attention）
    - 16.4.1 空间域注意力
    - 16.4.2 通道注意力
    - 16.4.3 Positional encoding
    - 16.4.4 混合域模型
    - 16.4.5 Masked attention
    - 16.4.6 Multi-head attention
  - 16.5 强注意力（hard attention）
  - 16.6 Attention九层塔 - 注意力机制的九重理解
  - 小结
  - 参考文献
- 第 17 章跨界模型 Transformer
  - 17.1 思想和框图
  - 17.2 实现细节
  - 17.3 应用任务和结果
    - 17.3.1 NLP领域
    - 17.3.2 CV领域
      - 17.3.2.1 检测DETR
      - 17.3.2.2 分类ViT
      - 17.3.2.3 分割SETR
      - 17.3.2.4 Deformable-DETR
  - 17.4 优点及分析
  - 17.5 缺点及分析
  - 实战项目 15 - 基于Transformer的视频实例分割网络VisTR (CVPR2021)
  - 小结
  - 参考文献
- 第 18 章知识蒸馏
  - 18.1 概要
  - 18.2 KD主要方法
    - 18.2.1 Logits(Response)-based Knowledge
    - 18.2.2 Feature-based Knowledge
    - 18.2.3 Relation-based Knowledge
  - 18.3 知识蒸馏的应用 NLP-BERT
  - 18.4 常见疑问解答
  - 实战项目 16 - 支付宝CVPR细粒度视觉分类挑战赛夺冠方案解读
  - 小结
  - 参考文献
- 第 19 章 Normalization 模型
  - 19.1 从Mini-Batch SGD说起
  - 19.2 Normalization到底是在做什么
  - 19.3 Batch Normalization如何做
    - 19.3.1 前向神经网络中的BN
    - 19.3.2 CNN网络中的BN
    - 19.3.3 Batch Norm的四大罪状
  - 19.4 Layer Normalization、Instance Normalization及Group Normalization
    - 19.4.1 Layer Normalization
    - 19.4.2 Instance Normalization
    - 19.4.3 Group Normalization
    - 19.4.4 用一个故事来总结
  - 19.5 Normalization操作的Re-Scaling不变性
  - 19.6 Batch Normalization为何有效
  - 小结
  - 参考文献
- 第 20 章模型压缩与裁剪
  - 20.1 概述
  - 20.2 模型压缩
    - 20.2.1 线性或非线性量化（1990~2014 - 至今）
    - 20.2.2 结构或非结构剪枝（1989~2014 - 至今
    - 20.2.3 网络结构搜索（2016 - 至今）
    - 20.2.4 权重矩阵的低秩分解（）
    - 20.2.5 知识蒸馏（2014-至今）
  - 20.3 模型优化加速
    - 20.3.1 Op-Level 的快速算法
    - 20.3.2 Layer0-level 的快速算法
    - 20.3.3 硬件计算单元优化算法
      - CPU、GPU和NPU
      - ASIC 和 FPGA
      - PIM（NDP）
  - 20.4 优化工具与库
    - 20.4.1 TensorRT Nvidia)
    - 20.4.2 TVM (Tensor Virtual Machine)
    - 20.4.3 Tensor Comprehension (Facebook)
    - 20.4.4 Distiller (Intel)
  - 小结
  - 参考文献
- 附录
  - A 矩阵
  - B 常用激活函数总结
  - C 梯度下降法
  - D 深度学习调参技巧总结
- 后记
- 参考文献

- 更新中 ...

收起

Index

🔍 文件浏览

按书中内容先后顺序逐章阅读，或者选取特定章节祥读 📁 docs/ ¹，动手实践章节代码，在代码文件 📁 code/ ² 下找到对应代码，本地测试或者Colab 📁 notebooks/ ³ 在线测试。

📁 L0CV/ - 专为本项目建立的 💮 L0CV 包

📁 code/ - 书中完整代码

📁 datasets/ - 本书所用数据集

📁 images/ - 经典图像处理图片

📁 docs/ - 全书按照一下几个篇目进行编写

📁 0_绪论/ - 全书绪论

📁 1_理论篇/ - 基本理论和算法基础

📁 2_实战篇/ - 项目实战教程

📁 3_进阶篇/ - 最新CV模型和算法

📁 附件/ - 所需数学和统计学知识

📁 img/ - 各章节所使用的插图

📁 models/ - 封装可用的预训练模型

📁 notebooks/ - 🚩 全书 Colab notebook，可在线测试

📁 chapter01_neural-networks/ - 第 1 章 - 神经网络 Jupyter Notebook 实现

📁 chapter02_CNN/ - 第 2 章 - 卷积神经网络 Jupyter Notebook 实现

📁 chapter03_Image-Classification - 第 3 章 - 图像分类 Jupyter Notebook 实现

📁 chapter04_recurrent-neural-networks/ - 第 4 章 - 递归神经网络 Jupyter Notebook 实现

📁 chapter05_graph-neural-network/ - 第 5 章 - 图神经网络 Jupyter Notebook 实现

📁 chapter07_optimization/ - 第 6 章 - 模型拟合与优化算法 Jupyter Notebook 实现

📁 chapter08_environment-setup-and-tool-use/ - 第 7 章 - 软件环境搭建与工具使用 Jupyter Notebook 实现

📁 chapter09_convolutional-neural-networks/ - 第 8 章 - 经典神经网络架构：原理与PyTorch实现 Jupyter Notebook 实现

📁 chapter12_practice-projects - 第 12 章 - 计算机视觉课题研究初探 Jupyter Notebook 实现

📁 chapter13_Understanding-and-Visualizing/ - 第 13 章 - 可视化与理解卷积神经网络 Jupyter Notebook 实现

📁 chapter14_GAN/ - 第 14 章 - 生成对抗模型 Jupyter Notebook 实现

📁 chapter15_Transfer-Learning/ - 第 15 章 - 迪移学习 Jupyter Notebook 实现

📁 chapter16_Attention/ - 第 16 章 - 注意力机制 Jupyter Notebook 实现

📁 chapter17_Transformers/ - 第 17 章 - Transformers Jupyter Notebook 实现

...

📁 imgs/ - Jupyter Notebook 中用到的图片

📁 docker/ - 为降低读者的学习成本，目前未进行搭建

📁 res/ - ui 图片及全书思维导图PDF

📄 README.md - 全书介绍及目录

Index

L0CV DemoDay

L0CV Demo Day L0CV-Universe

如果你也是从这里出发，在开源的项目中应用进去，并在标题下给出引用，您的项目将会在这里展现！

以用促学，先会后懂。理解深度学习的最佳方法是学以致用。

*《计算机视觉实战演练：算法与应用》V1.2 部分项目还在更新中

实战项目	章节	Binder
实战项目 1 - 手写字分类	第 1 章 - 神经网络
实战项目 2 - 动手搭建一个卷积神经网络	第 2 章 - 卷积神经网络
实战项目 3 - 基于卷积神经网络的人脸表情识别	第 3 章 - 图像分类
实战项目 4 - 使用卷积神经网络对CIFAR10图片进行分类	第 3 章 - 图像分类
实战项目 5 - 使用OpenCV进行图像全景拼接	第 6 章 - 软件环境搭建与工具使用
实战项目 6 - Kaggle比赛：图像分类（CIFAR-10）	第 8 章 - 著名数据集及基准
实战项目 7 - Kaggle比赛：狗的品种识别（ImageNet Dogs）	第 8 章 - 著名数据集及基准
实战项目 8 - 基于PolarNet的点云端到端语义分割项目实战	第 9 章 - 检测与分割实战项目
实战项目 9 - 基于PyTorch的YOLO5目标检测项目实战	第 9 章 - 检测与分割实战项目
实战项目 10 - 实时高分辨率背景抠图	第 9 章 - 检测与分割实战项目
实战项目 11 - 车道线检测项目实战	第 10 章 - 计算机视觉课题研究初探
实战项目 12 - PyTorch 如何使用TensorBoard	第 13 章 - 可视ization and understanding
实战项目 13 - 图像样式迁移	第 14 章生成对抗模型
实战项目 14 - 旧照片修复	第 14 章 - 生成对抗模型
实战项目 15 - 动漫头像生成	第 14 章 - 生成对抗模型
项目实战 16 - 视频理解项目实战 SlowFast + Multi-Moments in Time	第 16 章 - 视频理解
实战项目 17 - 蚂蚁和蜜蜂的分类问题	第 17 章 - 迁移学习
实战项目 18 - 基于Transformer的视频实例分割网络VisTR (CVPR2021)	第 19 章 - 跨界模型 Transformer
实战项目 19 - 支付宝CVPR细粒度视觉分类挑战赛夺冠方案解读	第 20 章 - 知识蒸馏
...	...	...

Index

🔑 如何食用

🔎 详细攻略展开

方法一 Jupyter Notebook（推荐方式 ✨）

1. 本地运行

安装依赖包

pip3 install -r requirements.txt

安装 Jupyter

python3 -m pip install --upgrade pip
python3 -m pip install jupyter

查看并运行 Jupyter

请在终端（Mac / Linux）或命令提示符（Windows）上运行以下命令：

cd notebooks
jupyter notebook

2. 远程运行

打开每章节首页，点击可直接打开 Google Colab ，点击 [Copy to Drive] 即可在线运行测试。
点击也可在 mybinder 查看和在线运行。

Run on Colab
图2 例子：12.3.3 样式迁移

点击 Copy to Drive
图3 例子：12.3.3 样式迁移 Colab 点击 [Copy to Drive]

方法二使用 `/code`

1. 运行环境 + L0CV 加载

安装依赖包

sudo apt-get update
pip3 install -r requirements.txt

创建 L0CV

python3 setup.py

测试环境

cd code
python3 L0CV_test.py

2. 直接调用每个章节的代码测试

import L0CV

收起

每一小节都是可以运行的 Jupyter 记事本你可以自由修改代码和超参数来获取及时反馈，从而积累深度学习的实战经验。 Run locally Google Colab

公式 + 图示 + 代码我们不仅结合文字、公式和图示来阐明深度学习里常用的模型和算法，还提供代码来演示如何从零开始实现它们，并使用真实数据来提供一个交互式的学习体验。

Index

❓ 常见问题

在线教程页面无法打开：

测试中存在部分人打不开在线教程的情况。

部分小伙伴反馈尝试切换浏览器后可以正常打开了，如果仍然不行，最有效的解决办法是科学上网。
无法加载图片的解决办法：

根本解决办法还是科学上网，也可以尝试修改host文件看下是否能解决。

解决方案: 修改host文件 Mac Windows
公式无法正常显示解决办法：

GitHub中的Markdown原生是不支持LATEX公式显示的，如果你喜欢在本项目中直接浏览教程，可以安装Chrome的MathJax Plugin for Github插件让大部分公式正常显示。而docs文件夹已经利用docsify被部署到了GitHub Pages上，包含公式的章节强力建议使用《计算机视觉实战演练：算法与应用》在线阅读进行学习。

当然如果你还想跑一下运行相关代码的话还是得把本项目clone下来，然后运行code文件夹下相关代码。
Jupyter Notebook 无法在 GitHub 上呈现？ 使用 nbviewer。

Index

致谢

Index

参考文献

感谢前人的杰出工作，我才得以写出此书。感谢 参考文献 中列出及未列出的，所有对此开源工作有帮助的前辈！

Index

许可协议

L0CV代码部分采用 Apache 2.0协议进行许可，包括名为 L0CV 的原创第三方库、/code和/notebook下的源代码。遵循许可的前提下，你可以自由地对代码进行修改，再发布，可以将代码用作商业用途。但要求你：
- 署名：在原有代码和衍生代码中，保留原作者署名及代码来源信息。
- 保留许可证：在原有代码和衍生代码中，保留Apache 2.0协议文件。
L0CV文档部分采用知识共享署名 4.0 国际许可协议进行许可。遵循许可的前提下，你可以自由地共享，包括在任何媒介上以任何形式复制、发行本作品，亦可以自由地演绎、修改、转换或以本作品为基础进行二次创作。但要求你：
- 署名：应在使用本文档的全部或部分内容时候，注明原作者及来源信息。
- 非商业性使用：不得用于商业出版或其他任何带有商业性质的行为。如需商业使用，请联系作者。
- 相同方式共享的条件：在本文档基础上演绎、修改的作品，应当继续以知识共享署名 4.0国际许可协议进行许可。

Index

👥 社区互助

如果您在使用的过程中碰到问题，可以通过下面几个途径寻求帮助，同时我们也鼓励资深用户通过下面的途径给新人提供帮助。

通过提问时，建议使用 Q&A 标签。
通过或者提问时，建议加上 L0CV 标签。
微信、知乎、微博开话题可以生成tag，如微信聊天、朋友圈加 #L0CV 可话题交流。
L0CV 读者微信交流群 (加我微信Yida_Zhang2，备注：L0CV-高校/企业-称呼)

Index

💖 支持本项目

请通过捐赠来支持我继续推进该项目。非常感谢所有在赞助者名单中的朋友们。

贡献

作者会尽最大努力来确保书中内容的准确性，但难免会存在疏漏与不妥之处。欢迎您将发现的问题反馈给我们，帮助提升本开放资源的质量。

Help us make these docs great!

All VC-action docs are open source. See something that's wrong or unclear? Submit a pull request.

Make a contribution

Or, learn how to contribute.

Still need help?

Ask our community Contact support

Index

引用

使用以下BibTeX格式引用本仓库：

@misc{computer-vision-in-action,
  title={计算机视觉实战演练：算法与应用（Computer Vision in Action）},
  author={Charmve},
  year={2021.06},
  publisher={Github},
  journal={GitHub repository},
  howpublished={\url{https://github.com/Charmve/computer-vision-in-action}},
}

Index

星标随时间变化

太棒了！ Charmve/computer-vision-in-action 在2个月前创建，如今已获得1546颗星。

欢迎随时提问，如果你觉得有地方可以改进，请提交PR！

🌟 给这个仓库点个星吧 🌟

由 Charmve 和 maiwei.ai 社区共同创建 | 部署于 GitHub Pages

computer-vision-in-action 快速上手指南

环境准备

本项目旨在提供计算机视觉的实战演练，支持多种运行方式（本地、云端、容器）。

系统要求：

操作系统：Linux / macOS / Windows (WSL 推荐)
Python 版本：>= 3.8.10
浏览器：现代浏览器（用于在线阅读和 Notebook 预览）

核心依赖：

PyTorch >= 1.9.0
Jupyter Notebook / JupyterLab >= 4.7.1
L0CV (项目自定义工具包)

安装步骤

你可以选择以下任意一种方式进行环境搭建：

方案一：本地源码安装（推荐）

克隆项目代码

git clone https://github.com/Charmve/computer-vision-in-action.git
cd computer-vision-in-action

创建虚拟环境并安装依赖 建议使用 conda 或 venv 创建独立环境。

# 创建环境
conda create -n l0cv python=3.8.10
conda activate l0cv

# 安装核心依赖 (国内用户推荐使用清华源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装项目自定义包 L0CV
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

方案二：使用 Docker（最简便，免配置）

如果你已安装 Docker，可直接拉取预构建镜像，避免环境冲突。

docker pull charmve/l0cv:latest
docker run -it -p 8888:8888 -v $(pwd):/workspace charmve/l0cv:latest jupyter notebook --ip=0.0.0.0 --no-browser --allow-root

启动后，在浏览器访问终端输出的 http://localhost:8888/?token=... 地址即可。

方案三：云端免安装运行

无需本地配置，直接在浏览器中运行 Notebook：

Google Colab: 点击项目主页的 "Run on Colab" 徽章导入笔记本。
Binder: 点击 "Binder" 徽章直接加载交互式环境。
Gitpod: 使用 Gitpod 在线开发环境。

基本使用

本项目核心在于“以用促学”，通过运行 notebooks 目录下的交互式教程学习。

1. 启动学习界面

进入项目根目录，启动 Jupyter Notebook：

jupyter notebook

浏览器将自动打开，导航至 notebooks/ 文件夹。

2. 运行第一个示例

在 notebooks 中找到基础章节（例如 chapter1_Neural-Networks 或 chapter0_Overview），打开任意 .ipynb 文件。

代码示例： 在 Notebook 单元格中，你可以直接调用项目封装的 L0CV 库进行快速实验：

import L0CV
from L0CV import utils

# 示例：加载并展示内置数据集或工具
# 具体函数请参考对应章节的 Notebook 说明
print("Welcome to Computer Vision in Action!")

3. 在线阅读与文档同步

如果仅需查阅理论或查看渲染后的代码结果，可直接访问在线文档（更新最快）：

地址: https://charmve.github.io/computer-vision-in-action/

提示：建议边阅读在线文档，边在本地或云端运行对应的 Notebook 代码，以获得最佳学习效果。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

使用场景

没有 computer-vision-in-action 时

使用 computer-vision-in-action 后

运行环境要求

快速开始

✨ 以用促学，先会后懂 ✨

L0CV 🔊 一种结合了代码、图示和HTML的在线学习媒介

计算机视觉实战演练：算法与应用 📌 Computer Vision in Action

👉 在线阅读（优先更新实战篇和进阶篇）

最新版PDF下载

Index

💠 全书组织

🌈 愿景

📘 本书目录

👉 在线阅读（优先更新实战篇和进阶篇）

序言

主要符号表

绪论篇

理论篇

实战篇

进阶篇

附录

后记

参考文献

🔍 文件浏览

L0CV DemoDay

以用促学，先会后懂。理解深度学习的最佳方法是学以致用。

🔑 如何食用

方法一 Jupyter Notebook（推荐方式 ✨）

1. 本地运行

2. 远程运行

方法二 使用 /code

1. 运行环境 + L0CV 加载

2. 直接调用每个章节的代码测试

每一小节都是可以运行的 Jupyter 记事本

公式 + 图示 + 代码

❓ 常见问题

致谢

参考文献

许可协议

👥 社区互助

💖 支持本项目

贡献

Help us make these docs great!

Still need help?

引用

星标随时间变化

🌟 给这个仓库点个星吧 🌟

computer-vision-in-action 快速上手指南

环境准备

安装步骤

方案一：本地源码安装（推荐）

方案二：使用 Docker（最简便，免配置）

方案三：云端免安装运行

基本使用

1. 启动学习界面

2. 运行第一个示例

3. 在线阅读与文档同步

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

L0CV ^🔊 一种结合了代码、图示和HTML的在线学习媒介

计算机视觉实战演练：算法与应用 ^📌
Computer Vision in Action

方法二使用 `/code`