redtail

1k 339 较难 2 次阅读 2周前BSD-3-Clause开发框架图像其他Agent

AI 解读由 AI 自动生成，仅供参考

Redtail 是 NVIDIA 开源的一套面向自主移动机器人的感知与人工智能组件，主要用于帮助无人机和地面车辆在复杂、非结构化环境中实现视觉导航，比如森林小径或人行道。它通过深度学习模型（如 TrailNet）分析摄像头图像，实时判断前进方向，让机器人无需依赖 GPS 或预设地图也能安全穿行。Redtail 还包含 Stereo DNN 模块，可利用双目摄像头估算深度信息，提升环境感知能力。这些模型专为 NVIDIA Jetson 嵌入式平台优化，支持 TensorRT 加速，并提供预训练模型和训练指南。虽然 Redtail 官方已停止更新，但社区仍有维护版本。该项目适合机器人领域的开发者和研究人员使用，尤其适合希望在边缘设备上部署轻量级视觉导航系统的用户。其技术亮点包括在 Jetson TX2 上实现实时推理、FP16 精度加速以及快速模型加载等，已在 IROS 和 CVPR 等顶级会议中展示过实际飞行与行驶演示。

使用场景

某高校机器人实验室正在开发一款用于森林巡检的自主四旋翼无人机，需在无GPS信号、植被遮挡严重的林间小径中实现稳定视觉导航。

没有 redtail 时

团队需从零搭建视觉导航系统，自行设计深度神经网络结构并收集大量林间图像数据进行训练，耗时数月。
缺乏针对嵌入式平台（如Jetson）优化的推理方案，在TX2上运行自研模型帧率不足5fps，无法满足实时避障需求。
深度估计依赖传统立体匹配算法，计算开销大且在低纹理区域（如树干、阴影）效果差，导致路径规划频繁出错。
系统集成复杂，需手动对接感知、控制与飞控模块，调试周期长，稳定性难以保障。
无法快速验证算法在真实野外环境中的泛化能力，多次试飞因导航失效而坠机。

使用 redtail 后

直接调用预训练的TrailNet模型，仅用少量本地数据微调即可适配林间场景，两周内完成部署。
利用redtail针对Jetson平台优化的TensorRT推理引擎，TrailNet在TX2上稳定运行于20fps，满足实时导航需求。
集成Stereo DNN模块，基于双目摄像头高效生成稠密深度图，在弱纹理区域仍保持良好精度，显著提升避障可靠性。
提供完整的ROS节点和硬件接口示例，感知与控制模块即插即用，大幅缩短系统集成时间。
借助官方公开的飞行日志与demo视频作为参考，快速复现千米级自主飞行，实测成功率提升至90%以上。

redtail将前沿视觉导航研究成果转化为可落地的嵌入式解决方案，让中小型团队也能高效构建能在复杂野外环境中自主运行的移动机器人。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA Jetson TX1/TX2 嵌入式平台，支持 CUDA
根据更新记录使用过 CUDA 9.0（JetPack 3.2）和 TensorRT 2.1/3.0/4.0
显存未明确说明

内存

未说明

依赖

notes项目主要面向 NVIDIA Jetson 嵌入式平台（TX1/TX2），需使用 JetPack SDK（如 3.1 或 3.2 版本）；支持 Stereo DNN 和 TrailNet 模型，部分功能依赖 ZED 立体相机；项目已于 2020 年停止官方维护，但有社区替代实现；训练或运行可能需要 Docker 容器环境

python未说明

CUDA 9.0

cuDNN 7.0

TensorRT 3.0/4.0

OpenCV 3.3

ROS (MAVROS v0.21+)

TensorFlow

nvidia-docker v2

快速开始

NVIDIA Redtail 项目

使用深度学习（deep learning）实现无人机和地面车辆的自主视觉导航组件。有关如何入门的更多信息，请参阅 wiki。

本项目包含深度神经网络（Deep Neural Networks, DNNs）、计算机视觉与控制代码、硬件说明及其他相关资源，使用户能够构建可在高度非结构化环境（如森林小径、人行道等）中自主导航的无人机或地面车辆。我们的 TrailNet DNN 视觉导航模型运行在 NVIDIA Jetson 嵌入式平台上。我们的 arXiv 论文详细描述了 TrailNet 及其他运行时模块。

项目中的深度神经网络（DNNs）可使用公开数据从零开始训练。本项目也提供了一些预训练的 DNN 模型。如果你想从头开始训练 TrailNet DNN，请按照此页面上的步骤操作。

本项目还包含 Stereo DNN 模型及其运行时组件，可在 NVIDIA 平台上通过立体相机（stereo camera）估算深度信息。

IROS 2018：我们在 IROS 2018 会议上展示了本项目的工作，作为 Vision-based Drones: What's Next? 研讨会的一部分。

CVPR 2018：我们在 CVPR 2018 会议上展示了本项目的工作，作为自动驾驶研讨会（Workshop on Autonomous Driving）的一部分。

参考资料与演示视频

新闻动态

2020-02-03：替代实现方案
redtail 项目已停止开发，但幸运的是社区成员接手并继续推进该项目。
我们感谢所有用户对 redtail 的关注、提问与反馈！

以下列出了一些替代实现方案：
- @mtbsteve: https://github.com/mtbsteve/redtail
2018-10-10：Stereo DNN ROS 节点及修复
- 新增 Stereo DNN ROS 节点和可视化节点
- 修复了 nvidia-docker v2 的问题
2018-09-19：Stereo DNN 更新
- 升级至 TensorRT 4.0
- 在 ResNet18 2D 模型中启用 FP16 支持，性能提升 2 倍（Jetson TX2 上达 20fps）
- 在 ResNet18 2D 模型中启用 TensorRT 序列化，将模型加载时间从数分钟缩短至不到一秒
- 改进日志记录和性能分析器支持
2018-06-04：CVPR 2018 研讨会；Stereo DNN 快速版
- 在 CVPR 2018 会议的自动驾驶研讨会（Workshop on Autonomous Driving）上展示我们的工作
- 新增基于 ResNet18 2D 模型的 Stereo DNN 快速版本，在 Jetson TX2 上运行速度达 10fps。详情请参阅 README，并查看更新后的 sample_app
GTC 2018：GTC18 上的 Stereo DNN 专题页面和录制的视频演讲
2018-03-22：redtail 2.0
- 新增 Stereo DNN 模型及推理库（TensorFlow/TensorRT）。详情请参阅 README
- 迁移至 JetPack 3.2。此更新为 Jetson 平台引入了最新组件，包括 CUDA 9.0、cuDNN 7.0、TensorRT 3.0、OpenCV 3.3 等。请注意，这是一个破坏性变更（breaking change）
- 新增 INT8 推理支持。这使得在具备 INT8 指令硬件加速的设备上可实现更快的推理。更多详情请参见我们的 wiki
2018-02-15：新增对 TBS Discovery 平台的支持
- 提供组装 TBS Discovery 无人机的分步说明
- 提供安装和使用 ZED 立体相机的说明
- 提供详细的校准、测试和飞行操作指南
2017-10-12：新增完整仿真 Docker 镜像，实验性支持 APM Rover，并支持 MAVROS v0.21+
- Redtail 仿真 Docker 镜像包含在 Docker 中运行完整 Redtail 仿真所需的所有组件。更多信息请参阅 wiki
- 实验性支持 APM Rover。更多信息请参阅 wiki
- 其他多项更新，包括支持 MAVROS v0.21+、更新 Jetson 安装脚本及若干 bug 修复
2017-09-07：NVIDIA Redtail 项目作为开源项目正式发布
Redtail 的 AI 模块可用于基于深度学习和 NVIDIA Jetson TX1/TX2 嵌入式系统构建自主无人机和移动机器人。
源代码、预训练模型以及详细的构建和测试说明已在 GitHub 上发布。
2017-07-26：代码和脚本迁移至 JetPack 3.1 和 TensorRT 2.1
TensorRT 2.1 在 DNN 推理性能方面有显著提升，并带来了新功能和 bug 修复。这是一个破坏性变更，需要使用 JetPack 3.1 重新刷写 Jetson 设备。

Redtail 快速上手指南

环境准备

Redtail 项目主要面向 NVIDIA Jetson 嵌入式平台（如 TX1/TX2），需满足以下条件：

硬件：NVIDIA Jetson TX1 或 TX2 开发板
系统：JetPack 3.2 或更高版本（包含 CUDA 9.0、cuDNN 7.0、TensorRT 3.0+、OpenCV 3.3+）
依赖：
- ROS（推荐 Kinetic 或 Melodic）
- MAVROS（v0.21+，用于无人机控制）
- Docker（可选，用于仿真测试）
- ZED 立体相机（如使用 Stereo DNN 功能）

💡 国内加速建议：
安装 JetPack 时可使用 NVIDIA 官方中国镜像（需注册开发者账号）或通过清华镜像站获取部分组件加速下载。

安装步骤

克隆仓库（含子模块）：

git clone --recursive https://github.com/NVIDIA-Jetson/redtail.git
cd redtail

安装 Jetson 端依赖（在 Jetson 设备上运行）：
```
./scripts/install_jetson.sh
```
（可选）构建仿真环境（在 x86 主机上）：
```
docker pull nvidia/redtail-sim:latest
```

下载预训练模型（位于 models/pretrained/ 目录）：

wget -P models/pretrained/ https://github.com/NVIDIA-Jetson/redtail/raw/master/models/pretrained/trailnet_model.h5

⚠️ 注意：项目已于 2020 年停止官方维护，社区维护版本可参考 @mtbsteve/redtail。

基本使用

示例：运行 TrailNet 视觉导航（地面车辆）

启动 ROS 核心：
```
roscore
```

在另一终端加载 TrailNet 模型并启动推理节点（假设使用 USB 摄像头）：

rosrun trailnet_ros trailnet_node _model_file:=models/pretrained/trailnet_model.h5 _camera_topic:=/camera/image_raw

发布控制指令（示例输出为转向角和速度）：
```
rostopic echo /trailnet/cmd_vel
```

示例：运行 Stereo DNN 深度估计（需 ZED 相机）

启动 ZED ROS 驱动：
```
roslaunch zed_wrapper zed.launch
```

启动 Stereo DNN 节点：

rosrun stereo_dnn stereo_dnn_node _model_type:=resnet18_2d _use_fp16:=true

查看深度图输出：

rosrun image_view image_view image:=/stereo_dnn/disparity

更多详细配置请参考项目 Wiki。

版本历史

v2.0.02018/03/22

v1.1.02017/10/12

v1.0.02017/09/07

常见问题

启动 RedTail 后轮式电机无响应，RC 输出通道始终为 1500，如何排查？

在手动构建 PX4 和 ROS 的 Docker 镜像时遇到“invalid mount path”错误，如何解决？

使用 pip v10 构建 RedTail Docker 镜像时报错，如何绕过？

运行 image_pub_node 时提示“Failed to parse camera calibration”，如何解决？

使用 nvidia-docker2 运行 RedTail 的 Docker 镜像时 Gazebo 无法启动，如何解决？

RedTail 是否支持 ArduPilot 固件（如 APM）？为什么刷入 ArduCopter 后 MAVROS 无法连接？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架