yolo_ros
yolo_ros 是一款专为 ROS 2 机器人系统打造的视觉感知桥梁,它将 Ultralytics 旗下强大的 YOLOv8 至 YOLOv12 系列模型无缝集成到机器人开发环境中。在机器人应用中,如何让机器“看懂”周围世界并实时做出反应往往充满挑战,而 yolo_ros 正是为了解决这一痛点,让开发者无需重复造轮子,即可直接调用最先进的 AI 视觉能力。
这款工具不仅支持基础的物体检测与跟踪,还涵盖了实例分割、人体姿态估计以及定向边界框(OBB)等高级功能。更值得一提的是,它还能结合深度图像实现 3D 物体检测、3D 实例分割及 3D 姿态估计,为机器人提供丰富的空间感知信息。对于从事自动驾驶、服务机器人或工业自动化开发的工程师与研究人员而言,yolo_ros 能显著降低算法部署门槛,加速从原型验证到实际落地的过程。
技术层面,yolo_ros 完美兼容 Humble、Iron 及 Jazzy 等多个主流 ROS 2 发行版,并提供了便捷的 Docker 镜像支持,确保环境配置的一致性与稳定性。无论是希望快速构建智能导航系统的开发者,还是致力于探索复杂场景感知算法的研究人员,都能通过 yolo_ros 轻松获取高精度的实时视觉分析能力,让机器人真正具备敏锐的“眼睛”。
使用场景
某仓储物流团队正在开发一款基于 ROS 2 的自主移动机器人,需要在动态环境中实时识别货架、托盘及工作人员以规划安全路径。
没有 yolo_ros 时
- 集成繁琐:开发者需手动编写复杂的桥接代码,将摄像头图像从 ROS 2 话题转换给独立的 YOLO 推理脚本,再回传结果,通信延迟高且易出错。
- 功能单一:仅能实现基础的 2D 框检测,若要获取障碍物精确距离或进行人体姿态分析以防碰撞,需额外融合深度相机数据并自行开发 3D 算法。
- 维护困难:YOLO 模型升级(如从 v8 迁至 v11)需重构大量接口代码,且难以直接复用 Ultralytics 官方最新的跟踪与分割特性。
- 调试低效:缺乏标准化的 ROS 2 节点封装,无法直接使用 Rviz2 直观可视化检测结果,排查感知故障耗时费力。
使用 yolo_ros 后
- 即插即用:直接加载预配置的 ROS 2 节点,订阅图像话题即可输出标准的检测消息,无缝支持 Humble 至 Jazzy 多个发行版,开发周期缩短数天。
- 多维感知:一键开启 3D 目标检测与人姿估计模式,利用深度图自动解算障碍物空间坐标,显著提升机器人在人流密集区的避障安全性。
- 持续演进:平滑支持 YOLOv8 到 v12 全系列模型,无需修改业务逻辑即可享受官方最新的实例分割与旋转框(OBB)能力,适应不同货物形态。
- 可视可控:原生兼容 Rviz2 显示检测框与骨架点,结合 ROS 2 参数动态调整置信度阈值,现场调试效率大幅提升。
yolo_ros 通过标准化封装消除了算法与机器人系统间的隔阂,让开发者能专注于上层应用逻辑而非底层集成琐事。
运行环境要求
- Linux
- 可选但推荐(用于加速)
- 若使用 CUDA,需安装 NVIDIA Container Toolkit 并指定 --gpus all
- 默认设备参数为 'cuda:0',支持半精度推理 (FP16)
- 未明确具体显存大小要求,但生命周期节点测试显示激活状态下显存占用约 628MB (基于 yolov8m 模型)
未说明

快速开始
yolo_ros
针对 Ultralytics 提供的 YOLO 模型的 ROS 2 封装,用于执行目标检测与跟踪、实例分割、人体姿态估计以及定向边界框(OBB)任务。此外,还支持基于深度图像的目标检测、实例分割和人体姿态估计的 3D 版本。
目录
安装
cd ~/ros2_ws/src
git clone https://github.com/mgonzs13/yolo_ros.git
pip3 install -r yolo_ros/requirements.txt
cd ~/ros2_ws
rosdep install --from-paths src --ignore-src -r -y
colcon build
source ~/ros2_ws/install/setup.bash"
Docker
构建 yolo_ros 的 Docker 镜像。
docker build -t yolo_ros .
运行 Docker 容器。如果需要使用 CUDA,必须先安装 NVIDIA Container Toolkit,并在运行命令中添加 --gpus all。
docker run -it --rm --gpus all yolo_ros
模型
yolo_ros 支持以下模型:
使用
点击展开
YOLOv5
ros2 launch yolo_bringup yolov5.launch.py
YOLOv8
ros2 launch yolo_bringup yolov8.launch.py
YOLOv9
ros2 launch yolo_bringup yolov9.launch.py
YOLOv10
ros2 launch yolo_bringup yolov10.launch.py
YOLOv11
ros2 launch yolo_bringup yolov11.launch.py
YOLOv12
ros2 launch yolo_bringup yolov12.launch.py
YOLO-World
ros2 launch yolo_bringup yolo-world.launch.py
YOLOE
ros2 launch yolo_bringup yoloe.launch.py
Topics
- /yolo/detections: 使用 RGB 图像由 YOLO 检测到的物体。每个物体包含一个边界框和类别名称,也可能包括标记或关键点列表。
- /yolo/tracking: 基于 YOLO 结果检测并跟踪的物体。每个物体都会被分配一个跟踪 ID。
- /yolo/detections_3d: 检测到的 3D 物体。利用 YOLO 的结果裁剪深度图像,生成 3D 边界框和 3D 关键点。
- /yolo/debug_image: 显示检测和跟踪物体的调试图像。这些图像可以通过 rviz2 进行可视化。
Parameters
以下是来自 yolo.launch.py 的参数,用于启动所有模型。更多详细信息请参阅 Ultralytics 官网。
- model_type: Ultralytics 模型类型(默认:YOLO)
- model: YOLO 模型(默认:yolov8m.pt)
- tracker: 跟踪器文件(默认:bytetrack.yaml)
- device: GPU/CUDA(默认:cuda:0)
- fuse_model: 是否融合 YOLO 模型以优化推理性能(默认:False)
- yolo_encoding: 在使用 YOLO 之前对输入图像进行编码的格式(默认:bgr8)
- enable: 是否启用 YOLO(默认:True)
- threshold: 检测阈值(默认:0.5)
- iou: 非极大值抑制 (NMS) 的交并比 (IoU) 阈值(默认:0.7)
- imgsz_height: 推理时使用的图像高度(默认:480)
- imgsz_width: 推理时使用的图像宽度(默认:640)
- half: 是否启用半精度 (FP16) 推理,以在对精度影响最小的情况下加速模型推理(默认:False)
- max_det: 每张图像允许的最大检测数量(默认:300)
- augment: 是否启用测试时增强 (TTA),以提高检测鲁棒性,但会牺牲部分速度(默认:False)
- agnostic_nms: 是否启用类别无关的非极大值抑制 (NMS),将不同类别的重叠框合并(默认:False)
- retina_masks: 是否使用高分辨率分割掩码(如果模型中可用),以提升分割掩码的质量(默认:False)
- input_image_topic: RGB 图像的相机话题(默认:/camera/rgb/image_raw)
- image_reliability: 图像话题的可靠性:0=系统默认,1=可靠,2=尽力而为(默认:1)
- input_depth_topic: 清晰度图像的相机话题(默认:/camera/depth/image_raw)
- depth_image_reliability: 深度图像话题的可靠性:0=系统默认,1=可靠,2=尽力而为(默认:1)
- input_depth_info_topic: 深度信息的相机话题(默认:/camera/depth/camera_info)
- depth_info_reliability: 深度信息话题的可靠性:0=系统默认,1=可靠,2=尽力而为(默认:1)
- target_frame: 用于变换 3D 框架的坐标系(默认:base_link)
- depth_image_units_divisor: 将深度图像转换为米的除数。取决于所使用的相机(默认:1000)
- use_tracking: 检测后是否激活跟踪功能(默认:True)
- use_3d: 是否激活 3D 检测功能(默认:False)
- use_debug: 是否激活调试节点(默认:True)
生命周期节点
之前的更新为包中所有节点添加了生命周期节点支持。该实现尝试通过仅在活动状态加载模型并激活订阅者来减少未配置和非活动状态下的工作负载。
以下是在 30fps 视频流上使用默认 yolov8m.pt 模型的一些资源比较。
| 状态 | CPU 使用率 (i7 12th Gen) | VRAM 使用量 | 带宽使用量 |
|---|---|---|---|
| 活动 | 单核占用 40-50% | 628 MB | 最高 200 Mbps |
| 非活动 | 单核占用 ~5-7% | 338 MB | 0-20 Kbps |
演示
物体检测
这是 yolo_ros 的标准行为,包含物体跟踪功能。
ros2 launch yolo_bringup yolo.launch.py
实例分割
实例掩码是检测到的物体的边界,而不是掩码内部的所有像素。
ros2 launch yolo_bringup yolo.launch.py model:=yolov8m-seg.pt
人体姿态
检测到可见的人及其骨骼关键点。
ros2 launch yolo_bringup yolo.launch.py model:=yolov8m-pose.pt
3D 物体检测
3D 边界框是通过使用 2D 边界框从 RGB-D 相机的深度图像数据中筛选出来的。只有具有 3D 边界框的物体才会在 2D 图像中显示。
ros2 launch yolo_bringup yolo.launch.py use_3d:=True
3D 物体检测(使用实例分割掩码)
在此过程中,深度图像数据会根据实例掩码获取的最大和最小值进行筛选。只有具有 3D 边界框的物体才会在 2D 图像中显示。
ros2 launch yolo_bringup yolo.launch.py model:=yolov8m-seg.pt use_3d:=True
3D 人体姿态
每个关键点都会投影到深度图像中,并用紫色球体表示。只有具有 3D 边界框的物体才会在 2D 图像中显示。
ros2 launch yolo_bringup yolo.launch.py model:=yolov8m-pose.pt use_3d:=True
版本历史
4.5.12026/01/204.5.02026/01/194.4.12026/01/044.4.02025/12/224.3.12025/08/254.3.02025/08/254.2.02025/04/104.1.12025/03/174.1.02025/02/214.0.12024/11/154.0.02024/10/313.4.02024/10/023.3.32024/09/033.3.22024/08/293.3.12024/08/213.3.02024/08/023.2.02024/07/223.1.12024/06/203.1.02024/06/053.0.22024/04/30相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中





