jetson-inference
jetson-inference 是专为 NVIDIA Jetson 嵌入式设备打造的深度学习部署指南与工具库,旨在帮助用户轻松将复杂的视觉算法落地到边缘端。它解决了在资源受限的硬件上高效运行实时 AI 视觉任务的难题,让开发者无需从零构建底层优化代码,即可快速实现图像分类、物体检测、语义分割、姿态估计及动作识别等功能。
这套工具非常适合嵌入式 AI 开发者、机器人工程师以及希望探索边缘计算的研究人员使用。无论是想通过命令行快速体验预训练模型,还是希望通过 Python 或 C++ 编写自定义程序,甚至是利用 PyTorch 进行迁移学习来训练专属模型,jetson-inference 都提供了详尽的教程和示例。
其核心亮点在于深度集成了 NVIDIA TensorRT 推理引擎,能够自动对神经网络进行优化,从而在 Jetson 的 GPU 上发挥极致的性能与能效比。此外,项目不仅支持从本地摄像头实时推流分析,还涵盖了 WebRTC 网页应用开发及 ROS/ROS2 机器人系统对接,甚至已扩展至生成式 AI 与大语言模型的应用场景。对于想要动手实践"Hello AI World"、将理论模型转化为实际智能应用的创作者而言,这是一个不可多得的入门与实践平台。
使用场景
某智慧农业团队需要在温室大棚的嵌入式设备上部署实时病虫害监测系统,以自动识别作物叶片上的病斑并触发警报。
没有 jetson-inference 时
- 部署门槛极高:开发者需手动配置复杂的 TensorRT 环境,编写大量 C++/CUDA 代码才能将 PyTorch 模型转换为边缘设备可运行的格式,耗时数周。
- 实时性难以保证:未经优化的深度学习模型在 Jetson 设备上推理延迟高,无法处理高清摄像头传入的连续视频流,导致漏检严重。
- 功能开发重复造轮子:每实现一个新的视觉任务(如从分类切换到目标检测),都需要重新编写底层数据预处理和后处理逻辑,缺乏统一接口。
- 硬件资源浪费:由于缺乏针对 NVIDIA GPU 的深度优化,设备算力利用率低,同时占用过多 CPU 资源影响系统其他进程。
使用 jetson-inference 后
- 一键部署加速:利用内置的
imageNet和detectNetprimitives,团队通过几行 Python 代码即可调用经 TensorRT 优化的预训练模型,将部署周期缩短至几天。 - 流畅实时推理:工具自动管理 GPU 内存与流水线,在 Jetson Orin 上实现了每秒 30+ 帧的病虫害检测,确保监控无死角。
- 模块化快速迭代:借助统一的 API 接口,开发人员轻松在同一套代码框架下切换图像分类、语义分割等功能,无需重写底层逻辑。
- 极致性能释放:基于 TensorRT 的后端自动融合算子并量化模型,显著降低延迟与功耗,让低功耗嵌入式设备也能跑通复杂算法。
jetson-inference 通过将复杂的深度学习部署流程标准化与自动化,让开发者能专注于业务逻辑而非底层优化,真正实现了"Hello AI World"般的便捷落地。
运行环境要求
- Linux
必需 NVIDIA GPU (NVIDIA Jetson 系列设备,如 Nano, Xavier, Orin),需支持 CUDA 和 TensorRT
未说明 (取决于具体 Jetson 开发板型号)

快速开始
部署深度学习
欢迎来到我们针对 NVIDIA Jetson 设备的推理与实时视觉 DNN 库 教程。该项目使用 TensorRT 在 GPU 上以 C++ 或 Python 运行优化后的网络,并利用 PyTorch 进行模型训练。
支持的 DNN 视觉原语包括用于图像分类的 imageNet、用于目标检测的 detectNet、用于语义分割的 segNet、用于姿态估计的 poseNet,以及用于动作识别的 actionNet。我们还提供了从实时摄像头流中进行处理、使用 WebRTC 构建 Web 应用,以及对 ROS/ROS2 的支持等示例。
请按照 Hello AI World 教程,在您的 Jetson 设备上运行推理和迁移学习,其中包括收集您自己的数据集、使用 PyTorch 训练自定义模型,并通过 TensorRT 部署这些模型。
目录
> JetPack 6 现已支持 Orin 设备 (developer.nvidia.com/jetpack)
> 欢迎访问 Jetson AI Lab 查看生成式 AI 和 LLM 教程!
> 请参阅 变更日志 以获取最新更新和新功能。
Hello AI World
Hello AI World 可以完全在您的 Jetson 设备上运行,包括使用 TensorRT 进行实时推理,以及利用 PyTorch 进行迁移学习。有关安装说明,请参阅 系统设置。建议先从 推理 部分开始,熟悉相关概念,然后再深入学习 训练 自己的模型。
系统设置
推理
训练
- 使用 PyTorch 进行迁移学习
- 分类/识别(ResNet-18)
- 目标检测(SSD-Mobilenet)
Web 应用框架
附录
Jetson AI Lab
Jetson AI Lab 提供了更多关于 LLM、视觉 Transformer (ViT) 和视觉语言模型 (VLM) 的教程,这些模型可在 Orin(有时也可在 Xavier 上)运行。以下是一些示例:
Live Llava 2.0 - VILA + 多模态 NanoDB 在 Jetson Orin 上(容器:
local_llm)
视频教程
以下是为 Jetson AI 认证 课程录制的 Hello AI World 屏幕录像:
| 描述 | 视频 |
|---|---|
| Hello AI World 设置 在 Jetson Nano 上下载并运行 Hello AI World 容器,测试摄像头画面,并了解如何通过 RTP 协议将其在网络中进行流式传输。 |
|
| 图像分类推理 使用 Jetson Nano 和深度学习编写自己的 Python 程序进行图像分类,然后在实时摄像头流上尝试进行实时分类。 |
|
| 训练图像分类模型 学习如何在 Jetson Nano 上使用 PyTorch 训练图像分类模型,并收集自己的分类数据集以创建自定义模型。 |
|
| 目标检测推理 使用 Jetson Nano 和深度学习编写自己的 Python 程序进行目标检测,然后在实时摄像头流上尝试进行实时检测。 |
|
| 训练目标检测模型 学习如何在 Jetson Nano 上使用 PyTorch 训练目标检测模型,并收集自己的检测数据集以创建自定义模型。 |
|
| 语义分割 在 Jetson Nano 上尝试全卷积语义分割网络,并在实时摄像头流上运行实时分割。 |
API 参考
以下是来自该仓库的 C++ 和 Python 库的参考文档链接:
jetson-inference
| C++ | Python | |
|---|---|---|
| 图像识别 | imageNet |
imageNet |
| 目标检测 | detectNet |
detectNet |
| 分割 | segNet |
segNet |
| 姿态估计 | poseNet |
poseNet |
| 行为识别 | actionNet |
actionNet |
| 背景去除 | backgroundNet |
actionNet |
| 单目深度 | depthNet |
depthNet |
jetson-utils
这些库可以通过链接到 libjetson-inference 和 libjetson-utils 来在外部项目中使用。
代码示例
Hello AI World 教程中的以下步骤涵盖了使用该库的入门级代码讲解:
此外,还有更多用于在图像和实时摄像头流上运行神经网络的 C++ 和 Python 示例,如下所示:
| C++ | Python | |
|---|---|---|
| 图像识别 | imagenet.cpp |
imagenet.py |
| 目标检测 | detectnet.cpp |
detectnet.py |
| 分割 | segnet.cpp |
segnet.py |
| 姿态估计 | posenet.cpp |
posenet.py |
| 行为识别 | actionnet.cpp |
actionnet.py |
| 背景去除 | backgroundnet.cpp |
backgroundnet.py |
| 单目深度 | depthnet.cpp |
depthnet.py |
注:有关如何与其他 Python 库(如 Numpy、PyTorch 等)一起使用内存,请参阅 数组接口 部分。
这些示例将在从源代码构建项目时自动编译,并且除了用户提供的自定义模型外,还可以运行下面列出的预训练模型。每个示例都可以通过添加 --help 参数来查看使用说明。
预训练模型
该项目附带多个预训练模型,可供直接使用,并会自动下载:
图像识别
| 网络 | CLI 参数 | NetworkType 枚举 |
|---|---|---|
| AlexNet | alexnet |
ALEXNET |
| GoogleNet | googlenet |
GOOGLENET |
| GoogleNet-12 | googlenet-12 |
GOOGLENET_12 |
| ResNet-18 | resnet-18 |
RESNET_18 |
| ResNet-50 | resnet-50 |
RESNET_50 |
| ResNet-101 | resnet-101 |
RESNET_101 |
| ResNet-152 | resnet-152 |
RESNET_152 |
| VGG-16 | vgg-16 |
VGG-16 |
| VGG-19 | vgg-19 |
VGG-19 |
| Inception-v4 | inception-v4 |
INCEPTION_V4 |
目标检测
| 模型 | CLI 参数 | NetworkType 枚举 | 物体类别 |
|---|---|---|---|
| SSD-Mobilenet-v1 | ssd-mobilenet-v1 |
SSD_MOBILENET_V1 |
91 个(COCO 类别) |
| SSD-Mobilenet-v2 | ssd-mobilenet-v2 |
SSD_MOBILENET_V2 |
91 个(COCO 类别) |
| SSD-Inception-v2 | ssd-inception-v2 |
SSD_INCEPTION_V2 |
91 个(COCO 类别) |
| TAO PeopleNet | peoplenet |
PEOPLENET |
人、包、脸 |
| TAO PeopleNet(剪枝版) | peoplenet-pruned |
PEOPLENET_PRUNED |
人、包、脸 |
| TAO DashCamNet | dashcamnet |
DASHCAMNET |
人、车、自行车、交通标志 |
| TAO TrafficCamNet | trafficcamnet |
TRAFFICCAMNET |
人、车、自行车、交通标志 |
| TAO FaceDetect | facedetect |
FACEDETECT |
脸 |
旧版检测模型
| 模型 | CLI 参数 | NetworkType 枚举 | 物体类别 |
|---|---|---|---|
| DetectNet-COCO-Dog | coco-dog |
COCO_DOG |
狗 |
| DetectNet-COCO-Bottle | coco-bottle |
COCO_BOTTLE |
瓶子 |
| DetectNet-COCO-Chair | coco-chair |
COCO_CHAIR |
椅子 |
| DetectNet-COCO-Airplane | coco-airplane |
COCO_AIRPLANE |
飞机 |
| ped-100 | pednet |
PEDNET |
行人 |
| multiped-500 | multiped |
PEDNET_MULTI |
行人、行李 |
| facenet-120 | facenet |
FACENET |
面部 |
语义分割
| 数据集 | 分辨率 | CLI 参数 | 精度 | Jetson Nano | Jetson Xavier |
|---|---|---|---|---|---|
| Cityscapes | 512x256 | fcn-resnet18-cityscapes-512x256 |
83.3% | 48 FPS | 480 FPS |
| Cityscapes | 1024x512 | fcn-resnet18-cityscapes-1024x512 |
87.3% | 12 FPS | 175 FPS |
| Cityscapes | 2048x1024 | fcn-resnet18-cityscapes-2048x1024 |
89.6% | 3 FPS | 47 FPS |
| DeepScene | 576x320 | fcn-resnet18-deepscene-576x320 |
96.4% | 26 FPS | 360 FPS |
| DeepScene | 864x480 | fcn-resnet18-deepscene-864x480 |
96.9% | 14 FPS | 190 FPS |
| Multi-Human | 512x320 | fcn-resnet18-mhp-512x320 |
86.5% | 34 FPS | 370 FPS |
| Multi-Human | 640x360 | fcn-resnet18-mhp-512x320 |
87.1% | 23 FPS | 325 FPS |
| Pascal VOC | 320x320 | fcn-resnet18-voc-320x320 |
85.9% | 45 FPS | 508 FPS |
| Pascal VOC | 512x320 | fcn-resnet18-voc-512x320 |
88.5% | 34 FPS | 375 FPS |
| SUN RGB-D | 512x400 | fcn-resnet18-sun-512x400 |
64.3% | 28 FPS | 340 FPS |
| SUN RGB-D | 640x512 | fcn-resnet18-sun-640x512 |
65.1% | 17 FPS | 224 FPS |
- 如果 CLI 参数中未指定分辨率,则加载最低分辨率的模型
- 精度表示模型在验证数据集上的像素分类准确率
- 性能是在 JetPack 4.2.1、
nvpmodel 0(MAX-N)设置下,以 GPU FP16 模式测量的
旧版分割模型
| 网络 | CLI 参数 | NetworkType 枚举 | 类别 |
|---|---|---|---|
| Cityscapes (2048x2048) | fcn-alexnet-cityscapes-hd |
FCN_ALEXNET_CITYSCAPES_HD |
21 |
| Cityscapes (1024x1024) | fcn-alexnet-cityscapes-sd |
FCN_ALEXNET_CITYSCAPES_SD |
21 |
| Pascal VOC (500x356) | fcn-alexnet-pascal-voc |
FCN_ALEXNET_PASCAL_VOC |
21 |
| Synthia (CVPR16) | fcn-alexnet-synthia-cvpr |
FCN_ALEXNET_SYNTHIA_CVPR |
14 |
| Synthia (Summer-HD) | fcn-alexnet-synthia-summer-hd |
FCN_ALEXNET_SYNTHIA_SUMMER_HD |
14 |
| Synthia (Summer-SD) | fcn-alexnet-synthia-summer-sd |
FCN_ALEXNET_SYNTHIA_SUMMER_SD |
14 |
| Aerial-FPV (1280x720) | fcn-alexnet-aerial-fpv-720p |
FCN_ALEXNET_AERIAL_FPV_720p |
2 |
姿态估计
| 模型 | CLI 参数 | NetworkType 枚举 | 关键点 |
|---|---|---|---|
| Pose-ResNet18-Body | resnet18-body |
RESNET18_BODY |
18 |
| Pose-ResNet18-Hand | resnet18-hand |
RESNET18_HAND |
21 |
| Pose-DenseNet121-Body | densenet121-body |
DENSENET121_BODY |
18 |
动作识别
| 模型 | CLI 参数 | 类别 |
|---|---|---|
| Action-ResNet18-Kinetics | resnet18 |
1040 |
| Action-ResNet34-Kinetics | resnet34 |
1040 |
推荐系统要求
- Jetson Nano 开发者套件,配备 JetPack 4.2 或更高版本(Ubuntu 18.04 aarch64)。
- Jetson Nano 2GB 开发者套件,配备 JetPack 4.4.1 或更高版本(Ubuntu 18.04 aarch64)。
- Jetson Orin Nano 开发者套件,配备 JetPack 5.0 或更高版本(Ubuntu 20.04 aarch64)。
- Jetson Xavier NX 开发者套件,配备 JetPack 4.4 或更高版本(Ubuntu 18.04 aarch64)。
- Jetson AGX Xavier 开发者套件,配备 JetPack 4.0 或更高版本(Ubuntu 18.04 aarch64)。
- Jetson AGX Orin 开发者套件,配备 JetPack 5.0 或更高版本(Ubuntu 20.04 aarch64)。
- Jetson TX2 开发者套件,配备 JetPack 3.0 或更高版本(Ubuntu 16.04 aarch64)。
- Jetson TX1 开发者套件,配备 JetPack 2.3 或更高版本(Ubuntu 16.04 aarch64)。
教程中的使用 PyTorch 进行迁移学习部分是从在 Jetson 上运行 PyTorch 来训练深度神经网络的角度出发的,然而相同的 PyTorch 代码也可以在配备 NVIDIA 独立显卡的 PC、服务器或云实例上使用,以实现更快的训练。
额外资源
在此部分列出了深度学习相关的链接和资源:
- ros_deep_learning - TensorRT 推理 ROS 节点
- NVIDIA AI IoT - NVIDIA Jetson GitHub 仓库
- Jetson eLinux Wiki - Jetson eLinux 维基百科
两天打造演示(DIGITS)
注意: 下文中的 DIGITS/Caffe 教程已弃用。建议您参考 Hello AI World 中的使用 PyTorch 进行迁移学习教程。
展开此部分以查看原始的 DIGITS 教程(已弃用)
DIGITS 教程包括在云端或 PC 上训练深度神经网络,以及在 Jetson 上使用 TensorRT 进行推理,整个过程大约需要两天或更长时间,具体取决于系统配置、数据集的下载以及 GPU 的训练速度。
© 2016-2019 NVIDIA | 目录
版本历史
model-mirror-1906182019/06/18常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器




