retinanet-examples

899 265 中等 1 次阅读 1周前BSD-3-Clause开发框架图像

AI 解读由 AI 自动生成，仅供参考

retinanet-examples 是 NVIDIA 推出的高性能目标检测工具包，专注于提供快速且精准的单阶段物体识别方案。它有效解决了传统检测模型在速度与精度之间难以兼顾的痛点，特别是在处理实时视频流或大规模数据时，能够显著降低延迟并提升吞吐量。

这套工具非常适合计算机视觉开发者、算法研究人员以及需要部署高效检测系统的工程师使用。无论是进行模型训练、推理评估，还是将模型导出至生产环境，retinanet-examples 都能提供流畅的支持。

其核心优势在于实现了端到端的 GPU 全链路优化。它深度整合了 PyTorch 框架，并利用 NVIDIA Apex 支持混合精度与分布式训练，大幅缩短训练时间；通过 DALI 加速数据预处理，消除数据读取瓶颈；更关键的是，它原生支持 TensorRT 和 DeepStream，能将模型高效转化为高性能推理引擎，轻松应对实时视频分析场景。此外，该工具还独特地支持旋转边界框检测，使其在处理倾斜物体（如航拍图像中的车辆或文字）时表现更加出色。用户可根据实际需求，灵活选择从 MobileNetV2 到 ResNet152 等不同骨干网络，在准确率与推理速度之间找到最佳平衡点。

使用场景

某智慧港口运营团队正致力于升级集装箱码头监控系统，需实时识别并定位作业区域内不同角度的集装箱与吊装设备，以自动化调度流程。

没有 retinanet-examples 时

推理延迟高：传统检测模型在高清视频流上处理速度慢，单帧耗时超过 50ms，无法满足毫秒级实时调度需求，导致机械臂响应滞后。
倾斜目标漏检：港口集装箱常因堆放角度问题呈现倾斜状态，普通水平框检测工具无法精准标注，造成大量漏检或定位偏差。
资源利用率低：缺乏针对 NVIDIA GPU 的端到端优化，显存占用高且无法有效利用混合精度训练，导致训练周期长达数天，迭代效率极低。
部署复杂：从模型训练到边缘设备（如 Jetson 或 T4 服务器）部署需手动转换格式，流程繁琐且容易出错，难以快速上线。

使用 retinanet-examples 后

实时高性能推理：借助 TensorRT 和 DALI 加速，在 T4 显卡上实现 INT8 量化推理，延迟低至 18ms（约 56 FPS），确保视频流分析零卡顿。
支持旋转框检测：原生支持 [x, y, w, h, theta] 格式的旋转边界框，精准捕捉倾斜集装箱，显著提升了复杂堆叠场景下的识别准确率。
训练效率飞跃：利用 Apex 进行分布式混合精度训练，将 ResNet50 骨干网络的训练时间压缩至 7 小时以内，大幅加快模型迭代速度。
一站式部署流程：提供从 PyTorch 训练到 ONNX/TensorRT 导出的完整流水线，配合 DeepStream 轻松集成实时视频流，实现“训练即部署”。

retinanet-examples 通过全链路 GPU 优化与旋转检测能力，将港口视觉系统的实时性与准确度提升至工业级标准，真正实现了高效自动化作业。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
支持 DGX-1v, V100, T4, A100 等型号
需配合 TensorRT 7 使用
Jetson 设备需特定分支 (19.10) 以兼容 Jetpack 4.3

内存

未说明

依赖

notes强烈建议使用最新的 PyTorch NGC Docker 容器进行部署以获得最佳性能。该工具主要针对端到端 GPU 处理进行了优化，支持混合精度训练和分布式训练。若需在 Jetson 设备（如 AGX Xavier）上部署，请使用仓库的 `19.10` 分支而非主分支（主分支基于 TensorRT 7，适用于 Tesla GPU）。支持旋转边界框检测功能。

python未说明 (隐含于 PyTorch NGC 容器中)

PyTorch

NVIDIA Apex

NVIDIA DALI

NVIDIA TensorRT

NVIDIA DeepStream

ONNX

快速开始

NVIDIA 对象检测工具包 (ODTK)

快速且准确的单阶段对象检测，具备端到端 GPU 优化。

描述

ODTK 是一种单次通过的对象检测器，支持多种骨干网络和检测头。这使得用户可以在性能与精度之间进行权衡。

它针对端到端 GPU 处理进行了优化，使用了以下技术：

PyTorch 深度学习框架，并支持 ONNX
NVIDIA Apex，用于混合精度和分布式训练
NVIDIA DALI，用于优化的数据预处理
NVIDIA TensorRT，用于高性能推理
NVIDIA DeepStream，用于优化的实时视频流支持

旋转边界框检测

此仓库现已支持旋转边界框检测。有关如何使用 --rotated-bbox 命令的更多信息，请参阅旋转检测训练和旋转检测推理文档。

边界框标注由 [x, y, w, h, theta] 描述。

性能

检测流水线允许用户根据所需的延迟-精度权衡选择特定的骨干网络。

ODTK RetinaNet 模型在完成完整训练计划后，针对 COCO 2017（训练/验证集）的精度、推理延迟和 FPS（每秒帧数）。推理结果包括对批量大小为 1 的边界框后处理。推理在 --resize 800 下，使用 --with-dali 并基于 FP16 TensorRT 引擎进行测量。

骨干网络	mAP @[IoU=0.50:0.95]	在 DGX1v 上的训练时间	在 V100 上的 FP16 推理延迟	在 T4 上的 INT8 推理延迟	在 A100 上的 FP16 推理延迟	在 A100 上的 INT8 推理延迟
ResNet18FPN	0.318	5 小时	14 ms； 71 FPS	18 ms； 56 FPS	9 ms； 110 FPS	7 ms； 141 FPS
MobileNetV2FPN	0.333	—	14 ms； 74 FPS	18 ms； 56 FPS	9 ms； 114 FPS	7 ms； 138 FPS
ResNet34FPN	0.343	6 小时	16 ms； 64 FPS	20 ms； 50 FPS	10 ms； 103 FPS	7 ms； 142 FPS
ResNet50FPN	0.358	7 小时	18 ms； 56 FPS	22 ms； 45 FPS	11 ms； 93 FPS	8 ms； 129 FPS
ResNet101FPN	0.376	10 小时	22 ms； 46 FPS	27 ms； 37 FPS	13 ms； 78 FPS	9 ms； 117 FPS
ResNet152FPN	0.393	12 小时	26 ms； 38 FPS	33 ms； 31 FPS	15 ms； 66 FPS	10 ms； 103 FPS

安装

为获得最佳性能，请使用最新的 PyTorch NGC Docker 容器。克隆此仓库，构建并运行您自己的镜像：

git clone https://github.com/nvidia/retinanet-examples
docker build -t odtk:latest retinanet-examples/
docker run --gpus all --rm --ipc=host -it odtk:latest

使用方法

训练、推理、评估和模型导出均可通过 odtk 工具完成。有关更多详细信息，包括参数列表，请参阅训练和推理文档。

训练

使用预训练的骨干网络，在 COCO 2017 数据集上训练检测模型：

odtk train retinanet_rn50fpn.pth --backbone ResNet50FPN \
    --images /coco/images/train2017/ --annotations /coco/annotations/instances_train2017.json \
    --val-images /coco/images/val2017/ --val-annotations /coco/annotations/instances_val2017.json

微调

在您的数据集上微调预训练模型。在下面的例子中，我们使用 Pascal VOC 数据集，并采用 JSON 标注：

odtk train model_mydataset.pth --backbone ResNet50FPN \
    --fine-tune retinanet_rn50fpn.pth \
    --classes 20 --iters 10000 --val-iters 1000 --lr 0.0005 \
    --resize 512 --jitter 480 640 --images /voc/JPEGImages/ \
    --annotations /voc/pascal_train2012.json --val-annotations /voc/pascal_val2012.json

注意：输入图像的短边将被调整为 resize 大小，但长边不会超过 max-size。在训练过程中，图像会随机缩放到 jitter 范围内的新尺寸。

推理

在 COCO 2017 数据集上评估您的检测模型：

odtk infer retinanet_rn50fpn.pth --images /coco/images/val2017/ --annotations /coco/annotations/instances_val2017.json

在您的数据集上运行推理：

odtk infer retinanet_rn50fpn.pth --images /dataset/val --output detections.json

使用 TensorRT 进行优化推理

为了加快推理速度，可将检测模型导出为优化后的 FP16 TensorRT 引擎：

odtk export model.pth engine.plan

使用 TensorRT 后端在 COCO 2017 数据集上评估模型：

odtk infer engine.plan --images /coco/images/val2017/ --annotations /coco/annotations/instances_val2017.json

使用 TensorRT 进行 INT8 推理

若需更快速的推理，可进行 INT8 校准以创建优化后的 INT8 TensorRT 引擎：

odtk export model.pth engine.plan --int8 --calibration-images /coco/images/val2017/

这将生成一个 INT8CalibrationTable 文件，以后可用于为同一模型创建 INT8 TensorRT 引擎，而无需再次校准。

或者，使用缓存的校准表创建优化后的 INT8 TensorRT 引擎：

odtk export model.pth engine.plan --int8 --calibration-table /path/to/INT8CalibrationTable

数据集

RetinaNet 支持 COCO JSON 格式的标注。将您自己的数据集标注转换为 JSON 格式时，需要包含以下字段：

{
    "images": [{
        "id" : int,
        "file_name" : str
    }],
    "annotations": [{
        "id" : int,
        "image_id" : int, 
        "category_id" : int,
        "bbox" : [x, y, w, h]   # 全部为浮点数
        "area": float           # w * h。用于计算验证分数时必需
        "iscrowd": 0            # 用于计算验证分数时必需
    }],
    "categories": [{
        "id" : int
    ]}
}

如果使用 --rotated-bbox 标志进行旋转目标检测，则需要在标注中添加额外的浮点数 theta。若要获得验证分数，还需填写 segmentation 部分。

        "bbox" : [x, y, w, h, theta]    # 全部为浮点数，其中 theta 以弧度表示，从 x 轴逆时针方向测量。
        "segmentation" : [[x1, y1, x2, y2, x3, y3, x4, y4]]
                                        # 用于计算验证分数时必需。

免责声明

这是一个研究项目，并非 NVIDIA 的官方产品。

Jetpack 兼容性

本分支使用 TensorRT 7。如果您使用 PyTorch 训练和推理模型，或者在 Tesla GPU（例如 V100、T4）上创建 TensorRT 引擎，则应使用此分支。

如果您希望将模型部署到运行 Jetpack 4.3 版本的 Jetson 设备（例如 Jetson AGX Xavier），则应使用本仓库的 19.10 分支。

参考文献

密集目标检测中的焦点损失。林宗毅、普里亚·戈亚尔、罗斯·吉尔希克、何凯明、皮奥特·多拉尔。 ICCV，2017 年。
准确的大批量 SGD：1 小时内训练 ImageNet。普里亚·戈亚尔、皮奥特·多拉尔、罗斯·吉尔希克、彼得·诺德胡伊斯、卢卡什·韦索洛夫斯基、阿波·基罗拉、安德鲁·图洛克、贾扬青、何凯明。 2017 年 6 月。
用于目标检测的特征金字塔网络。林宗毅、皮奥特·多拉尔、罗斯·吉尔希克、何凯明、巴拉特·哈里哈兰、塞尔日·贝隆吉。 CVPR，2017 年。
用于图像识别的深度残差学习。何凯明、张祥宇、任少卿、孙健。 CVPR，2016 年。

RetinaNet Examples (NVIDIA ODTK) 快速上手指南

本指南基于 NVIDIA 目标检测工具包 (ODTK)，帮助开发者快速部署和使用高性能的 RetinaNet 模型进行单阶段物体检测。

环境准备

为了获得最佳性能，强烈建议使用 NVIDIA 提供的 PyTorch NGC Docker 容器。该容器已预装 PyTorch、ONNX、Apex、DALI 和 TensorRT 等必要依赖。

系统要求：
- Linux 操作系统
- NVIDIA GPU (支持 CUDA)
- 已安装 NVIDIA Docker (nvidia-docker2 或 Docker 支持 --gpus 参数)
前置依赖：
- Docker Engine
- NVIDIA Container Toolkit

注意：本项目为研究性质代码，非 NVIDIA 官方正式产品。若需部署至 Jetson 设备 (如 Jetson AGX Xavier) 且运行 Jetpack 4.3，请使用 19.10 分支；其他 Tesla GPU (V100, T4, A100) 训练及推理请使用主分支 (基于 TensorRT 7)。

安装步骤

通过克隆仓库并构建 Docker 镜像即可完成安装。国内用户若拉取 NGC 镜像较慢，可先配置 Docker 国内加速源。

克隆代码仓库：

git clone https://github.com/nvidia/retinanet-examples

构建 Docker 镜像：

docker build -t odtk:latest retinanet-examples/

启动容器：

docker run --gpus all --rm --ipc=host -it odtk:latest

基本使用

进入容器后，所有操作（训练、推理、评估、模型导出）均通过 odtk 命令行工具完成。数据标注需遵循 COCO JSON 格式。

1. 模型训练 (Training)

使用预训练的骨干网络在 COCO 2017 数据集上训练检测模型：

odtk train retinanet_rn50fpn.pth --backbone ResNet50FPN \
    --images /coco/images/train2017/ --annotations /coco/annotations/instances_train2017.json \
    --val-images /coco/images/val2017/ --val-annotations /coco/annotations/instances_val2017.json

2. 模型微调 (Fine Tuning)

在自定义数据集（如下方的 Pascal VOC 示例）上微调预训练模型：

odtk train model_mydataset.pth --backbone ResNet50FPN \
    --fine-tune retinanet_rn50fpn.pth \
    --classes 20 --iters 10000 --val-iters 1000 --lr 0.0005 \
    --resize 512 --jitter 480 640 --images /voc/JPEGImages/ \
    --annotations /voc/pascal_train2012.json --val-annotations /voc/pascal_val2012.json

3. 模型推理 (Inference)

对验证集或自定义图片目录进行推理：

# 评估 COCO 验证集
odtk infer retinanet_rn50fpn.pth --images /coco/images/val2017/ --annotations /coco/annotations/instances_val2017.json

# 推理自定义数据集并输出结果
odtk infer retinanet_rn50fpn.pth --images /dataset/val --output detections.json

4. 高性能推理 (TensorRT 加速)

将模型导出为优化的 TensorRT 引擎以大幅提升推理速度：

导出 FP16 引擎：

odtk export model.pth engine.plan

导出 INT8 引擎 (需校准)：

# 创建校准表并生成引擎
odtk export model.pth engine.plan --int8 --calibration-images /coco/images/val2017/

# 或使用已有的校准表生成引擎
odtk export model.pth engine.plan --int8 --calibration-table /path/to/INT8CalibrationTable

使用 TensorRT 引擎进行推理：

odtk infer engine.plan --images /coco/images/val2017/ --annotations /coco/annotations/instances_val2017.json

提示：如需支持旋转框检测，请在训练和推理命令中添加 --rotated-bbox 参数，并确保标注格式包含 [x, y, w, h, theta]。

版本历史

v0.2.52020/06/28

v0.2.32020/06/28

v0.2.02020/03/12

v0.1.12020/03/12

19.042019/05/31

常见问题

训练或验证时出现 "No detections"（无检测结果）错误怎么办？

将 ONNX 模型转换为 TensorRT engine (.plan) 时报错 "nbInputs > 0 && nbInputs < MAX_CONCAT_INPUTS" 或段错误如何解决？

如何解析 RetinaNet ONNX 模型的输出张量以获取置信度、边界框和类别？

检测非常小的物体（如植物上的蚜虫）效果不佳，应该调整参数还是更换算法？

如何在特定 Docker 容器中正确安装和运行 RetinaNet？

验证集和测试集的 Focal Loss 是如何计算的？如何修改损失函数？

在 Jetson Nano/Xavier 上进行推理时，如何获取边界框数据？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent