ssd.pytorch

5.2k 1.7k 中等 1 次阅读 2天前MIT图像开发框架

AI 解读由 AI 自动生成，仅供参考

ssd.pytorch 是经典目标检测算法 SSD（Single Shot MultiBox Detector）的 PyTorch 版本实现。它旨在解决图像中多类物体的快速定位与识别问题，能够在单次前向传播中同时完成物体分类与边界框回归，兼顾了检测速度与精度。

该项目复现了 2016 年提出的 SSD 论文核心逻辑，为习惯使用 PyTorch 框架的开发者提供了可靠的基准代码。相比于原始 Caffe 版本，ssd.pytorch 更易于在现代深度学习环境中进行调试、修改和二次开发。工具内置了对 PASCAL VOC 和 MS COCO 等主流数据集的下载脚本与加载器，并支持利用 Visdom 实时可视化训练过程中的损失变化，极大地简化了从环境配置到模型训练、评估的全流程。

ssd.pytorch 特别适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。对于希望深入理解单阶段检测器原理，或需要基于 SSD 架构开展新实验的用户来说，这是一个结构清晰、功能完备的开源起点。虽然项目主要面向具备一定编程基础的技术人员，但其详细的文档和模块化设计也降低了复现前沿算法的门槛。

使用场景

某智慧物流团队的算法工程师正致力于开发一套自动分拣系统，需要让机器人实时识别传送带上不同尺寸的包裹并定位其坐标。

没有 ssd.pytorch 时

框架迁移成本高昂：团队虽熟悉 PyTorch 生态，但 SSD 原始代码基于 Caffe 编写，强行复用需耗费数周进行复杂的框架重写与调试。
训练过程不透明：缺乏可视化工具，工程师只能盯着枯燥的终端日志猜测模型收敛情况，难以及时调整超参数。
数据预处理繁琐：面对 VOC 或 COCO 等标准数据集，需手动编写大量脚本处理下载、解压及格式转换，极易出错且占用开发时间。
复现基准困难：由于缺少开箱即用的预训练权重（如 VGG-16）和标准化评估脚本，难以快速验证算法是否达到论文所述的 77.2 mAP 性能基准。

使用 ssd.pytorch 后

原生 PyTorch 集成：直接利用 ssd.pytorch 提供的原生实现，无缝对接现有 PyTorch 工作流，将环境搭建与代码适配时间从数周缩短至几小时。
实时可视化监控：借助集成的 Visdom 功能，在浏览器中实时观察损失曲线变化，能够直观地判断训练状态并迅速优化模型。
一键数据集就绪：调用项目自带的 Bash 脚本，自动完成 VOC 和 COCO 数据集的下载与配置，配合兼容 torchvision API 的加载器，立即开始训练。
权威性能复现：直接加载官方提供的缩减版 VGG-16 预训练权重，运行评估脚本即可快速验证模型在测试集上的精度，确保项目起点可靠。

ssd.pytorch 通过提供标准化的 PyTorch 实现与自动化流程，消除了跨框架移植壁垒，让团队能专注于核心业务逻辑而非底层工程琐事。

运行环境要求

操作系统

未说明

GPU

训练强烈建议使用 NVIDIA GPU（演示支持 CPU 或 NVIDIA GPU），具体型号和显存大小未说明，CUDA 版本未说明

内存

未说明

依赖

notes该工具是 SSD 目标检测算法的 PyTorch 实现。训练前需手动下载 VGG-16 预训练权重文件。支持 VOC 和 COCO 数据集，并提供脚本自动下载。演示功能中，摄像头实时检测在 CPU 上运行时可能需要调整参数以优化帧率。

python3+

PyTorch

Visdom

OpenCV2+ (with python bindings)

Jupyter Notebook

imutils

快速开始

SSD：单次多框目标检测器，基于 PyTorch

这是 Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang 和 Alexander C. Berg 在 2016 年发表的论文中提出的 Single Shot MultiBox Detector 的 PyTorch 实现。官方原始的 Caffe 代码可以在这里找到。

安装

根据你的环境在 PyTorch 官网选择并运行相应的命令来安装 PyTorch。
克隆本仓库。
- 注意：我们目前仅支持 Python 3 及以上版本。
然后按照下面的说明下载数据集。
我们现在支持使用 Visdom 在训练过程中进行实时损失可视化！
- 要在浏览器中使用 Visdom：
```
# 首先安装 Python 服务器和客户端
pip install visdom
# 启动服务器（最好在 screen 或 tmux 中）
python -m visdom.server
```
- 然后（在训练期间）访问 http://localhost:8097/（训练细节请参见下方的“训练”部分）。
注意：对于训练，我们目前支持 VOC 和 COCO 数据集，并计划尽快添加对 ImageNet 的支持。

数据集

为了方便起见，我们提供了 bash 脚本来帮你处理数据集的下载和设置。我们还提供了简单的数据集加载器，它们继承自 torch.utils.data.Dataset，因此与 torchvision.datasets 的 API 完全兼容。

COCO

Microsoft COCO：上下文中的常见物体

下载 COCO 2014

# 指定数据集下载的目标目录，否则默认为 ~/data/
sh data/scripts/COCO2014.sh

VOC 数据集

PASCAL VOC：视觉对象类别

下载 VOC2007 trainval 和 test

# 指定数据集下载的目标目录，否则默认为 ~/data/
sh data/scripts/VOC2007.sh # <directory>

下载 VOC2012 trainval

# 指定数据集下载的目标目录，否则默认为 ~/data/
sh data/scripts/VOC2012.sh # <directory>

训练 SSD

首先下载 fc-reduced VGG-16 的 PyTorch 基础网络权重，地址为： https://s3.amazonaws.com/amdegroot-models/vgg16_reducedfc.pth
默认情况下，我们认为你已将该文件下载到 ssd.pytorch/weights 目录：

mkdir weights
cd weights
wget https://s3.amazonaws.com/amdegroot-models/vgg16_reducedfc.pth

要使用训练脚本训练 SSD，只需在 train.py 中列出的参数中指定标志或手动更改它们即可。

python train.py

注意：
- 对于训练，强烈建议使用 NVIDIA GPU 以提高速度。
- 关于 Visdom 的使用和安装说明，请参阅< a href='#installation'>安装部分。
- 你可以通过指定检查点路径从检查点继续训练（同样，请参阅 train.py 中的选项）

评估

要评估训练好的网络：

python eval.py

你可以通过标记或手动更改 eval.py 文件中列出的参数来指定它们。

性能

VOC2007 测试

mAP

原始	转换后的 weiliu89 权重	从零开始无数据增强	从零开始有数据增强
77.2 %	77.26 %	58.12%	77.43 %

FPS

GTX 1060: ~45.45 FPS

演示

使用预训练的 SSD 网络进行检测

下载预训练的网络

我们正努力提供在不同数据集上训练的最新 SSD 模型定义的 PyTorch state_dicts（权重张量字典）。
当前，我们提供以下 PyTorch 模型：
- 在 VOC0712 上训练的 SSD300（最新的 PyTorch 权重）
  - https://s3.amazonaws.com/amdegroot-models/ssd300_mAP_77.43_v2.pth
- 在 VOC0712 上训练的 SSD300（原始 Caffe 权重）
  - https://s3.amazonaws.com/amdegroot-models/ssd_300_VOC0712.pth
我们的目标是重现原始论文中的这张表

SSD 在多个数据集上的结果

尝试演示笔记本

确保你已安装 jupyter notebook。
安装 jupyter notebook 的两种方法：
1. 如果你使用 conda 安装了 PyTorch（推荐），那么你应该已经拥有它了。只需导航到克隆的 ssd.pytorch 仓库并运行： jupyter notebook
2. 如果使用 pip：

# 确保 pip 已升级
pip3 install --upgrade pip
# 安装 jupyter notebook
pip install jupyter
# 在 ssd.pytorch 内运行
jupyter notebook

现在导航到 http://localhost:8888（默认）的 demo/demo.ipynb，尽情体验吧！

尝试摄像头演示

可以在 CPU 上运行（可能需要调整 cv2.waitkey 以获得最佳帧率）或在 NVIDIA GPU 上运行
此演示目前需要 opencv2+ 和 Python 绑定以及内置摄像头
- 你可以在 demo/live.py 中更改默认摄像头
安装 imutils 包以利用 CPU 上的多线程功能：
- pip install imutils
运行 python -m demo.live 即可打开摄像头并开始检测！

TODO

我们整理了一份待办事项清单，希望在不久的将来完成：

接下来还有：
- 支持 MS COCO 数据集
- 支持 SSD512 的训练和测试
- 支持在自定义数据集上进行训练

作者

注：很遗憾，这仅仅是我们的一项业余爱好，而不是全职工作，因此我们会尽力保持内容的更新，但无法保证。尽管如此，感谢大家一直以来的帮助和反馈，我们非常感激。我们会尽快处理所有问题。

参考文献

魏 Liu 等人. “SSD：单次多框检测器.” ECCV2016.
原始实现（CAFFE）
衷心感谢 Alex Koltun 及其在 Webyclip 的团队，在完成数据增强部分时给予的帮助。
其他优秀的 SSD 移植项目列表，这些项目曾为我们提供了灵感（尤其是 Chainer 仓库）：
- Chainer, Keras, MXNet, TensorFlow

SSD.pytorch 快速上手指南

SSD (Single Shot MultiBox Detector) 是一个基于 PyTorch 实现的单阶段目标检测算法。本指南将帮助你快速搭建环境并运行模型。

1. 环境准备

在开始之前，请确保你的系统满足以下要求：

操作系统: Linux 或 macOS (Windows 支持需自行配置)
Python: 3.0 及以上版本
深度学习框架: PyTorch (建议安装最新稳定版)
硬件: 训练过程强烈推荐使用 NVIDIA GPU；推理可在 CPU 上进行（速度较慢）
可选依赖:
- visdom: 用于训练过程中的实时损失可视化
- opencv-python: 用于演示和视频流检测
- jupyter: 用于运行示例 Notebook

安装基础依赖命令：

# 安装 PyTorch (请访问 pytorch.org 获取适合你环境的命令，以下为示例)
pip install torch torchvision

# 安装可视化工具和图像处理库
pip install visdom opencv-python imutils jupyter

提示：国内用户建议使用清华源或阿里源加速 pip 安装： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

2. 安装步骤

2.1 克隆项目

首先将代码仓库克隆到本地：

git clone https://github.com/amdegroot/ssd.pytorch.git
cd ssd.pytorch

2.2 下载预训练骨干网络

训练前需要下载经过裁剪的 VGG-16 预训练权重作为骨干网络。执行以下命令自动下载至 weights 目录：

mkdir weights
cd weights
wget https://s3.amazonaws.com/amdegroot-models/vgg16_reducedfc.pth
cd ..

注意：如果 wget 下载速度慢，可手动在浏览器下载该文件并放入 ssd.pytorch/weights/ 目录下。

2.3 数据集准备 (可选)

如果你打算重新训练模型，需要下载数据集。项目提供了自动化脚本（默认下载到 ~/data/ 目录）：

COCO 2014:
```
sh data/scripts/COCO2014.sh
```

PASCAL VOC 2007 & 2012:

sh data/scripts/VOC2007.sh
sh data/scripts/VOC2012.sh

3. 基本使用

3.1 运行演示 (最快体验)

无需训练，直接下载预训练模型进行物体检测演示。

下载预训练模型 (以 VOC 数据集训练的 SSD300 为例)：

mkdir weights
cd weights
wget https://s3.amazonaws.com/amdegroot-models/ssd300_mAP_77.43_v2.pth
cd ..

启动 Jupyter Notebook 查看示例：
```
jupyter notebook
```
在浏览器中打开 demo/demo.ipynb，按照单元格顺序运行即可看到检测效果。
或者运行摄像头实时检测 (需连接摄像头)：
```
python -m demo.live
```

3.2 训练模型

使用默认参数开始训练（需先准备好数据集和 VGG 权重）：

python train.py

可视化监控：在另一个终端启动 Visdom 服务，然后在浏览器访问 http://localhost:8097/ 查看实时训练曲线。
```
python -m visdom.server
```

3.3 评估模型

对训练好的网络进行评估：

python eval.py

你可以通过修改 train.py 或 eval.py 中的参数，或在命令行中添加标志位来调整超参数和数据集路径。

常见问题

运行 demo/live.py 时出现 'ValueError: not enough values to unpack (expected 2, got 0)' 错误怎么办？

在 Python 2.7 环境下训练时遇到 'div_ only supports scalar multiplication' 或损失值为 NaN/Inf 如何解决？

训练过程中出现 'StopIteration' 错误导致中断怎么办？

自定义数据集训练时出现 'NaN values at Multibox encoding' 或定位损失为 NaN 的原因是什么？

更换骨干网络（如从 VGG16 换为 ResNet101）后测试速度显著变慢怎么办？

修复维度错误后仍然无法检测到视频中的物体怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架