DeepStream-Yolo
DeepStream-Yolo 是一个专为 NVIDIA DeepStream SDK 设计的开源工具,旨在简化 YOLO 系列目标检测模型在视频分析场景中的部署流程。它通过提供预配置的模型转换方案和优化参数,帮助用户快速将 YOLO 模型(包括 YOLOv5 至 YOLOv13、YOLO-NAS、RT-DETR 等 30+ 变体)集成到 DeepStream 的实时视频处理管线中。
该工具主要解决了 YOLO 模型在 DeepStream 中部署时的兼容性与性能优化难题。传统流程需要手动处理 ONNX 格式转换、TensorRT 引擎生成及配置文件适配,而 DeepStream-Yolo 提供了标准化的转换脚本和 GPU 加速的后处理模块,显著降低了部署门槛。特别支持 INT8 量化校准、非正方形输入模型、动态批处理等特性,可提升边缘设备的推理效率。
适合具备基础深度学习和 NVIDIA 工具链使用经验的开发者、算法工程师及研究人员。尤其适用于需要在 Jetson 或数据中心 GPU 上构建实时视频分析系统(如智能安防、工业质检)的团队。其技术亮点包括对 Darknet 原生模型的自动转换支持、多版本 DeepStream SDK(5.1-8.0)兼容性,以及针对不同 YOLO 变体的定制化配置模板。用户需准备 Ubuntu 22.04/24.04 系统环境及 NVIDIA 显卡驱动,通过 Docker 或源码方式部署。
使用场景
某城市交通管理部门需要实时监控主干道十字路口的车辆和行人流量,通过AI识别违规行为(如闯红灯、逆行)并生成预警。系统需同时处理8路1080p视频流,对检测精度和实时性要求较高。
没有 DeepStream-Yolo 时
- 模型部署复杂:需手动将YOLOv7模型转换为ONNX格式,再通过TensorRT优化,过程中常因输入尺寸不匹配导致推理失败
- 性能瓶颈明显:单路视频流处理延迟达300ms,8路并发时GPU利用率仅65%,无法满足实时预警需求
- 多模型管理困难:同时部署车辆检测和行人识别两个模型时,需重复配置DeepStream管道,内存占用增加40%
- 精度与速度难平衡:关闭INT8量化可提升检测精度2.3%,但帧率从25fps降至12fps,无法满足实际需求
使用 DeepStream-Yolo 后
- 一键式模型集成:通过预置的YOLOv7配置文件,30分钟内完成从PyTorch模型到TensorRT引擎的全流程转换,支持非方形输入
- 吞吐量提升3倍:动态批处理技术使8路视频流并发处理延迟降至85ms,GPU利用率提升至92%
- 统一多任务处理:通过配置文件切换不同检测任务,单个DeepStream管道即可同时运行车辆/行人检测,内存占用降低35%
- INT8量化无损优化:采用PTQ校准后,在保持98.7%原始精度的同时,检测速度提升2.1倍(25fps→52fps)
核心价值:DeepStream-Yolo通过深度整合NVIDIA硬件生态,为复杂视频分析场景提供端到端的模型优化方案,使开发者能以最低成本实现高精度、低延迟的多模型并发推理。
运行环境要求
- Linux
需要 NVIDIA GPU,CUDA 版本根据 DeepStream 版本不同(11.4-12.8),显存需求未明确说明
未说明

快速开始
DeepStream-Yolo
NVIDIA DeepStream SDK 8.0 / 7.1 / 7.0 / 6.4 / 6.3 / 6.2 / 6.1.1 / 6.1 / 6.0.1 / 6.0 / 5.1 的 YOLO 模型配置(YOLO model configuration)
目前由于某些限制无法进行更新,感谢您的理解。
YOLO-Pose: https://github.com/marcoslucianops/DeepStream-Yolo-Pose
YOLO-Seg: https://github.com/marcoslucianops/DeepStream-Yolo-Seg
YOLO-Face: https://github.com/marcoslucianops/DeepStream-Yolo-Face
重要提示:请使用新的导出文件导出 ONNX 模型(Open Neural Network Exchange),使用更新后的文件重新生成 TensorRT 引擎(NVIDIA TensorRT 的优化模型),并根据您的模型使用新的 config_infer_primary 配置文件
本仓库的改进功能
- 支持 INT8 校准(PTQ,Post Training Quantization)
- 支持非正方形模型(non square models)
- 模型性能基准测试
- 使用 cfg 和 weights 转换并结合 GPU 后处理(GPU post-processing)支持 Darknet 模型(YOLOv4 等)
- 支持 YOLO-Master, YOLO26, RF-DETR, D-FINE, RT-DETR, CO-DETR (MMDetection), YOLO-NAS, PPYOLOE+, PPYOLOE, DAMO-YOLO, Gold-YOLO, RTMDet (MMYOLO), YOLOX, YOLOR, YOLOv13, YOLOv12, YOLO11, YOLOv10, YOLOv9, YOLOv8, YOLOv7, YOLOv6, YOLOv5u 和 YOLOv5 等模型,通过 ONNX 转换结合 GPU 后处理
- GPU 边界框解析器(GPU bbox parser)
- 自定义 ONNX 模型解析器
- 动态批处理大小(Dynamic batch-size)
- 对 Darknet 和 ONNX 导出模型的 INT8 校准(PTQ)
快速入门
- 要求
- 支持的模型
- 基准测试
- dGPU 安装
- 基础用法
- Docker 用法
- NMS 配置
- 注意事项
- INT8 校准
- YOLOv5 用法
- YOLOv5u 用法
- YOLOv6 用法
- YOLOv7 用法
- YOLOv8 用法
- YOLOv9 用法
- YOLOv10 用法
- YOLO11 用法
- YOLOv12 用法
- YOLOv13 用法
- YOLOR 用法
- YOLOX 用法
- RTMDet (MMYOLO) 用法
- Gold-YOLO 用法
- DAMO-YOLO 用法
- PP-YOLOE / PP-YOLOE+ 用法
- YOLO-NAS 用法
- CO-DETR (MMDetection) 用法
- RT-DETR PyTorch 用法
- RT-DETR Paddle 用法
- RT-DETR Ultralytics 用法
- D-FINE 用法
- RF-DETR 用法
- YOLO26 用法
- YOLO-Master 用法
- 使用自定义模型
- 多个 YOLO GIEs
要求
x86 平台上的 DeepStream 8.0
- Ubuntu 24.04
- CUDA 12.8 Update 1
- TensorRT 10.9 GA (10.9.0.34)
- NVIDIA 驱动 570.195.03(数据中心/Tesla 系列)/ 570.133.20(TITAN, GeForce RTX/GTX 系列和 RTX/Quadro 系列)
- NVIDIA DeepStream SDK 8.0
- GStreamer 1.24.2
- DeepStream-Yolo
x86 平台上的 DeepStream 7.1
- Ubuntu 22.04
- CUDA 12.6 Update 3
- TensorRT 10.4 GA (10.4.0.26)
- NVIDIA 驱动 535.183.06(数据中心/Tesla 系列)/ 560.35.03(TITAN, GeForce RTX/GTX 系列和 RTX/Quadro 系列)
- NVIDIA DeepStream SDK 7.1
- GStreamer 1.20.3
- DeepStream-Yolo
x86 平台上的 DeepStream 7.0
- Ubuntu 22.04
- CUDA 12.2 Update 2
- TensorRT 8.6 GA (8.6.1.6)
- NVIDIA 驱动 535(>= 535.161.08)
- NVIDIA DeepStream SDK 7.0
- GStreamer 1.20.3
- DeepStream-Yolo
x86 平台上的 DeepStream 6.4
- Ubuntu 22.04
- CUDA 12.2 Update 2
- TensorRT 8.6 GA (8.6.1.6)
- NVIDIA 驱动 535(>= 535.104.12)
- NVIDIA DeepStream SDK 6.4
- GStreamer 1.20.3
- DeepStream-Yolo
x86 平台上的 DeepStream 6.3
- Ubuntu 20.04
- CUDA 12.1 Update 1
- TensorRT 8.5 GA Update 2 (8.5.3.1)
- NVIDIA 驱动 525(>= 525.125.06)
- NVIDIA DeepStream SDK 6.3
- GStreamer 1.16.3
- DeepStream-Yolo
x86 平台上的 DeepStream 6.2
- Ubuntu 20.04
- CUDA(统一计算架构) 11.8
- TensorRT(张量推理引擎) 8.5 GA Update 1 (8.5.2.2)
- NVIDIA Driver(驱动程序) 525 (>= 525.85.12)
- NVIDIA DeepStream SDK 6.2
- GStreamer 1.16.3
- DeepStream-Yolo
DeepStream 6.1.1 on x86 platform(x86 平台)
- Ubuntu 20.04
- CUDA 11.7 Update 1
- TensorRT 8.4 GA (8.4.1.5)
- NVIDIA Driver 515.65.01
- NVIDIA DeepStream SDK 6.1.1
- GStreamer 1.16.2
- DeepStream-Yolo
DeepStream 6.1 on x86 platform
- Ubuntu 20.04
- CUDA 11.6 Update 1
- TensorRT 8.2 GA Update 4 (8.2.5.1)
- NVIDIA Driver 510.47.03
- NVIDIA DeepStream SDK 6.1
- GStreamer 1.16.2
- DeepStream-Yolo
DeepStream 6.0.1 / 6.0 on x86 platform
- Ubuntu 18.04
- CUDA 11.4 Update 1
- TensorRT 8.0 GA (8.0.1)
- NVIDIA Driver 470.63.01
- NVIDIA DeepStream SDK 6.0.1 / 6.0
- GStreamer 1.14.5
- DeepStream-Yolo
DeepStream 5.1 on x86 platform
- Ubuntu 18.04
- CUDA 11.1
- TensorRT 7.2.2
- NVIDIA Driver 460.32.03
- NVIDIA DeepStream SDK 5.1
- GStreamer 1.14.5
- DeepStream-Yolo
DeepStream 8.0 on Jetson platform(Jetson 平台)
DeepStream 7.1 on Jetson platform
DeepStream 7.0 on Jetson platform
DeepStream 6.4 on Jetson platform
DeepStream 6.3 on Jetson platform
- JetPack 5.1.3 / 5.1.2
- NVIDIA DeepStream SDK 6.3
- DeepStream-Yolo
DeepStream 6.2 on Jetson platform
- JetPack 5.1.3 / 5.1.2 / 5.1.1 / 5.1
- NVIDIA DeepStream SDK 6.2
- DeepStream-Yolo
DeepStream 6.1.1 on Jetson platform
DeepStream 6.1 on Jetson platform
DeepStream 6.0.1 / 6.0 on Jetson platform
DeepStream 5.1 on Jetson platform
支持的模型
- Darknet(一种流行的开源深度学习框架)
- MobileNet-YOLO
- YOLO-Fastest
- YOLOv5
- YOLOv5u
- YOLOv6
- YOLOv7
- YOLOv8
- YOLOv9
- YOLOv10
- YOLO11
- YOLOv12
- YOLOv13
- YOLOR
- YOLOX
- RTMDet (MMYOLO)
- Gold-YOLO
- DAMO-YOLO
- PP-YOLOE / PP-YOLOE+
- YOLO-NAS
- CO-DETR (MMDetection)
- RT-DETR
- D-FINE
- RF-DETR
- YOLO26
- YOLO-Master
基本用法
1. 下载仓库
git clone https://github.com/marcoslucianops/DeepStream-Yolo.git
cd DeepStream-Yolo
2. 从 Darknet 仓库下载 cfg 和 weights 文件到 DeepStream-Yolo 文件夹
3. 编译库
3.1. 根据你的 DeepStream 版本设置 CUDA_VER(CUDA版本)
export CUDA_VER=XY.Z
x86 平台
DeepStream 8.0 = 12.8 DeepStream 7.1 = 12.6 DeepStream 7.0 / 6.4 = 12.2 DeepStream 6.3 = 12.1 DeepStream 6.2 = 11.8 DeepStream 6.1.1 = 11.7 DeepStream 6.1 = 11.6 DeepStream 6.0.1 / 6.0 = 11.4 DeepStream 5.1 = 11.1Jetson 平台
DeepStream 8.0 = 13.0 DeepStream 7.1 = 12.6 DeepStream 7.0 / 6.4 = 12.2 DeepStream 6.3 / 6.2 / 6.1.1 / 6.1 = 11.4 DeepStream 6.0.1 / 6.0 / 5.1 = 10.2
3.2. 构建库
make -C nvdsinfer_custom_impl_Yolo clean && make -C nvdsinfer_custom_impl_Yolo
4. 根据你的模型编辑 config_infer_primary.txt 文件(YOLOv4 示例)
[property]
...
custom-network-config=yolov4.cfg
model-file=yolov4.weights
...
注意:对于 Darknet 模型,默认启用了动态批处理大小。若要使用静态批处理大小,请取消注释以下行:
...
force-implicit-batch-dim=1
...
5. 运行
deepstream-app -c deepstream_app_config.txt
注意:TensorRT 引擎文件可能需要非常长的时间生成(有时超过10分钟)。
注意:如果要使用 YOLOv2 或 YOLOv2-Tiny 模型,请在运行前修改 deepstream_app_config.txt 文件:
...
[primary-gie]
...
config-file=config_infer_primary_yoloV2.txt
...
Docker 使用
x86 平台
nvcr.io/nvidia/deepstream:8.0-gc-triton-devel nvcr.io/nvidia/deepstream:8.0-triton-multiarchJetson 平台
nvcr.io/nvidia/deepstream:8.0-triton-multiarch
注意:要编译 nvdsinfer_custom_impl_Yolo,需要在容器内安装 g++:
apt-get install build-essential
注意:在 DeepStream 8.0 中,docker 容器未打包某些多媒体操作所需的库(如音频解析、CPU 解码和编码)。这可能会影响处理包含音频轨道的视频流/文件(如 mp4)。请在 docker 镜像内运行以下脚本安装必要的附加包:
/opt/nvidia/deepstream/deepstream/user_additional_install.sh
NMS 配置
要修改 nms-iou-threshold、pre-cluster-threshold 和 topk 值,请编辑 config_infer 文件:
[class-attrs-all]
nms-iou-threshold=0.45
pre-cluster-threshold=0.25
topk=300
注意:请确保在 config_infer 文件中设置 cluster-mode=2。
注意事项
在运行 gstreamer 管道或示例应用时,用户可能会遇到错误:
GLib (gthread-posix.c): Unexpected error from C library during 'pthread_setspecific': Invalid argument. Aborting.。该问题由 Ubuntu 22.04 默认的 glib 2.0-2.72 版本中的 bug 引起。在 glib 2.76 中已修复该问题(https://github.com/GNOME/glib/tree/2.76.6)。升级 glib 到新版本:
pip3 install meson pip3 install ninja注意:建议使用 Python 虚拟环境。
git clone https://github.com/GNOME/glib.git cd glib git checkout 2.76.6 meson build --prefix=/usr ninja -C build/ cd build/ ninja install检查并确认新安装的 glib 版本:
pkg-config --modversion glib-2.0
使用 RTSP 流时,应用程序可能在到达 EOS 时卡住。这是由于 rtpjitterbuffer 组件的问题。要解决此问题,提供了一个脚本用于更新 gstrtpmanager 库:
/opt/nvidia/deepstream/deepstream/update_rtpmanager.sh
提取元数据
你可以通过 Python 和 C/C++ 从 DeepStream 提取元数据。对于 C/C++,可以编辑 deepstream-app 或 deepstream-test 代码。对于 Python,可以安装并编辑 deepstream_python_apps。
基本上,你需要操作 NvDsObjectMeta (Python / C/C++) 和 NvDsFrameMeta (Python / C/C++) 来获取边界框的标签、位置等信息。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。