TensorRT

12.9k 2.3k 中等 1 次阅读今天Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

TensorRT 是 NVIDIA 推出的一款高性能深度学习推理 SDK，专为在 NVIDIA GPU 上加速 AI 模型部署而设计。它主要解决了深度学习模型从训练环境迁移到生产环境时面临的推理速度慢、资源消耗大等痛点，通过层融合、精度校准（如 INT8 量化）和内核自动调优等技术，显著提升推理吞吐量并降低延迟。

这款工具非常适合 AI 开发者、算法工程师以及需要优化模型性能的研究人员使用。无论是希望将复杂的神经网络高效部署到服务器还是边缘设备，TensorRT 都能提供强大的支持。其开源组件包含了插件源码、ONNX 解析器及丰富的示例应用，方便用户进行自定义扩展和二次开发。

技术亮点方面，TensorRT 不仅支持显式量化和强类型网络等先进特性以提升精度与效率，还持续演进其插件架构（如从 IPluginV2 升级至 IPluginV3），确保生态的兼容性与前瞻性。此外，它提供了便捷的 Python 安装包，让开发者能快速上手体验。对于追求极致推理性能的企业用户，TensorRT 更是构建高效 AI 服务不可或缺的核心引擎。

使用场景

一家自动驾驶初创公司的算法团队正致力于将训练好的高精度目标检测模型部署到搭载 NVIDIA Orin 芯片的量产车辆上，以满足实时路况分析需求。

没有 TensorRT 时

推理延迟过高：直接使用 PyTorch 或 TensorFlow 原生框架进行推理，单帧图像处理耗时超过 80 毫秒，无法满足自动驾驶系统要求的 30 FPS 实时响应标准。
显存占用巨大：未优化的模型在车载 GPU 上运行时显存占用极高，导致无法在同一块芯片上并行运行路径规划或语音交互等其他关键任务。
算力浪费严重：通用计算图包含大量冗余算子和低精度不必要的浮点运算，未能充分利用 NVIDIA GPU 特有的 Tensor Core 加速能力。
部署成本高昂：为了弥补软件效率的不足，团队被迫考虑升级更昂贵的硬件方案或增加车辆端的计算单元数量，大幅推高了 BOM 成本。

使用 TensorRT 后

极致低延迟：TensorRT 通过层融合、内核自动调优及显存优化，将单帧推理时间压缩至 15 毫秒以内，轻松实现 60+ FPS 的流畅检测效果。
资源利用率提升：借助 INT8 量化技术，模型体积缩小 4 倍且显存占用大幅降低，使得单一 SoC 即可承载多模态感知任务，释放了宝贵的硬件资源。
硬件性能满血释放：TensorRT 针对特定 GPU 架构生成高度优化的推理引擎，完美调用 Tensor Core 进行混合精度计算，吞吐量相比原生框架提升 3-5 倍。
落地成本显著下降：凭借软件层面的极致优化，团队成功在现有硬件配置下达成性能指标，避免了额外的硬件迭代投入，加速了车型量产进程。

TensorRT 通过将深度学习模型转化为针对特定硬件深度定制的高效推理引擎，彻底打通了从算法训练到边缘端实时落地的“最后一公里”。

运行环境要求

操作系统

Linux
Windows

GPU

必需 NVIDIA GPU
支持 CUDA 12.9 或 13.2
具体型号未说明，但需兼容对应 CUDA 版本
针对 Jetson (aarch64) 和 DriveOS 平台有特定构建配置

内存

未说明

依赖

notes1. 编译源码前需先下载并安装对应 CUDA 版本的 TensorRT GA (通用发布版) 二进制包 (v10.16.0.72)。 2. 强烈建议使用提供的 Docker 脚本在 Linux 上构建环境，需安装 NVIDIA Container Toolkit 以在容器内使用 GPU。 3. 支持跨平台编译，包括为 Jetson (aarch64) 和 DriveOS 设备进行交叉编译。 4. Windows 原生构建需使用 MSBuild。 5. ONNX-TensorRT、cub 和 protobuf 会在构建时自动下载，无需手动安装。

python3.10 - 3.13.x (Python 3.9 及更早版本的支持将在 TensorRT 10.16 起移除)

CUDA >= 12.9 或 13.2

cuDNN 8.9 (可选)

CMake >= 3.31

GNU Make >= 4.1

pip >= 19.0

git

pkg-config

wget

NCCL >= 2.19 (仅多设备构建时需要)

Docker >= 19.03 (容器化构建推荐)

快速开始

:mega::mega: 公告 :mega::mega:

TensorRT 11.0 将于 2026 年第二季度正式发布，带来强大的新功能，旨在加速您的 AI 推理工作流。随着这一重大版本更新，TensorRT 的 API 将得到简化，并移除部分遗留功能。

我们建议您尽早迁移以下功能：

弱类型网络及相关 API 将被移除，取而代之的是强类型网络。
隐式量化及相关 API 将被移除，取而代之的是显式量化。
IPluginV2 及相关 API 将被移除，取而代之的是 IPluginV3。
TREX 工具将被移除，取而代之的是 Nsight Deep Learning Designer。
从 TensorRT 10.16 开始，将不再支持 Python 3.9 及更早版本的 Python 绑定。RHEL/Rocky Linux 8 和 RHEL/Rocky Linux 9 的 RPM 包现依赖于 Python 3.12。

TensorRT 开源软件

本仓库包含 NVIDIA TensorRT 的开源软件（OSS）组件。它包含了 TensorRT 插件和 ONNX 解析器的源代码，以及演示 TensorRT 平台使用方法和功能的示例应用。这些开源软件组件是 TensorRT 正式发布版（GA）的一部分，附带了一些扩展和错误修复。

如需为 TensorRT-OSS 贡献代码，请参阅我们的贡献指南和编码规范。
关于 TensorRT-OSS 版本中新增内容及更新的摘要，请参考变更日志。
如有业务咨询，请联系 researchinquiries@nvidia.com。
如有媒体或其他咨询，请联系 Hector Marinez，邮箱：hmarinez@nvidia.com。

需要企业级支持吗？NVIDIA 全球技术支持可为 TensorRT 提供服务，配合 NVIDIA AI Enterprise 软件套件使用。访问 NVIDIA LaunchPad 即可免费体验一系列基于 NVIDIA 基础设施、使用 TensorRT 的实践实验室。

加入 TensorRT 和 Triton 社区，及时了解最新产品更新、漏洞修复、内容、最佳实践等信息。

预编译 TensorRT Python 包

我们提供了易于安装的 TensorRT Python 包。
安装命令如下：

pip install tensorrt

您可以跳过“构建”部分，直接使用 Python 版本的 TensorRT。

构建

前置条件

要构建 TensorRT-OSS 组件，您首先需要安装以下软件包。

TensorRT GA 构建

TensorRT v10.16.0.72
- 可通过下方提供的直接下载链接获取

系统软件包

CUDA
- 推荐版本：
- cuda-13.2.0
- cuda-12.9.0
CUDNN（可选）
- cuDNN 8.9
GNU make ≥ v4.1
cmake ≥ v3.31
python ≥ v3.10, ≤ v3.13.x
pip ≥ v19.0
必要的实用工具
- git、pkg-config、wget

可选软件包

NCCL ≥ v2.19, < v3.0 — 仅在启用多设备支持（-DTRT_BUILD_ENABLE_MULTIDEVICE=ON）并构建 sampleDistCollective 示例时需要。
容器化构建
- Docker ≥ 19.03
- NVIDIA Container Toolkit
PyPI 包（用于演示应用/测试）
- onnx
- onnxruntime
- tensorflow-gpu ≥ 2.5.1
- Pillow ≥ 9.0.1
- pycuda < 2021.1
- numpy
- pytest
代码格式化工具（适用于贡献者）
- Clang-format
- Git-clang-format
注意：onnx-tensorrt、cub 和 protobuf 等库会随 TensorRT OSS 一同下载，无需单独安装。

下载 TensorRT 构建

下载 TensorRT 开源项目

git clone -b main https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive

（可选——如果不使用 TensorRT 容器）指定 TensorRT GA 版本的构建路径

如果使用 TensorRT 开源项目的构建容器，TensorRT 库已预安装在 /usr/lib/x86_64-linux-gnu 目录下，您可以跳过此步骤。

否则，请从 NVIDIA 开发者专区下载并解压 TensorRT GA 版本的构建包，下载链接如下：
示例：Ubuntu 22.04（x86_64），CUDA 13.2
```
cd ~/Downloads
tar -xvzf TensorRT-10.16.0.72.Linux.x86_64-gnu.cuda-13.2.tar.gz
export TRT_LIBPATH=`pwd`/TensorRT-10.16.0.72/lib
```
示例：Windows（x86_64），CUDA 12.9
```
Expand-Archive -Path TensorRT-10.16.0.72.Windows.win10.cuda-12.9.zip
$env:TRT_LIBPATH="$pwd\TensorRT-10.16.0.72\lib"
```

设置构建环境

对于 Linux 平台，我们建议按照以下说明生成一个用于构建 TensorRT 开源项目的 Docker 容器。对于原生构建，请先安装先决条件中的“系统软件包”。

生成 TensorRT 开源项目的构建容器。

示例：Ubuntu 24.04（x86_64），CUDA 13.2（默认）

./docker/build.sh --file docker/ubuntu-24.04.Dockerfile --tag tensorrt-ubuntu24.04-cuda13.2

示例：Rockylinux8（x86_64），CUDA 13.2

./docker/build.sh --file docker/rockylinux8.Dockerfile --tag tensorrt-rockylinux8-cuda13.2

示例：Ubuntu 24.04 交叉编译用于 Jetson（aarch64），CUDA 13.2（JetPack SDK）

./docker/build.sh --file docker/ubuntu-cross-aarch64.Dockerfile --tag tensorrt-jetpack-cuda13.2

示例：Ubuntu 24.04（aarch64），CUDA 13.2

./docker/build.sh --file docker/ubuntu-24.04-aarch64.Dockerfile --tag tensorrt-aarch64-ubuntu24.04-cuda13.2

启动 TensorRT 开源项目的构建容器。

示例：Ubuntu 24.04 构建容器
```
./docker/launch.sh --tag tensorrt-ubuntu24.04-cuda13.2 --gpus all
```
注意：
1. 请使用第 1 步中生成的构建容器对应的 --tag。
2. 要在构建容器内访问 GPU（运行 TensorRT 应用程序），需要安装 NVIDIA Container Toolkit。
3. Ubuntu 构建容器的 sudo 密码为 'nvidia'。
4. 使用 --jupyter <端口> 指定端口号以启动 Jupyter Notebook。
5. 需要对此文件夹具有写入权限，因为该文件夹将以 uid:gid 为 1000:1000 的方式挂载到 Docker 容器中。

构建 TensorRT-OSS

生成 Makefile 并构建

示例：使用默认 CUDA 13.2 的 Linux (x86-64) 构建

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)

示例：使用默认 CUDA 13.2 的 Linux (aarch64) 构建

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64-native.toolchain
make -j$(nproc)

示例：在 Jetson Thor (aarch64) 上使用 CUDA 13.2 进行原生构建

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DTRT_PLATFORM_ID=aarch64
CC=/usr/bin/gcc make -j$(nproc)

注意：对于原生 aarch64 构建的 Protobuf，必须通过 CC= 显式指定 C 编译器。

示例：在 Ubuntu 24.04 上针对 Jetson Thor (aarch64) 使用 CUDA 13.2（JetPack）进行交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_cross.toolchain
make -j$(nproc)

示例：在 Ubuntu 24.04 上针对 DriveOS (aarch64) 使用 CUDA 13.2 进行交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain
make -j$(nproc)

示例：在 Windows (x86) 上使用 CUDA 13.2 进行原生构建

cd $TRT_OSSPATH
New-Item -ItemType Directory -Path build
cd build
cmake .. -DTRT_LIB_DIR="$env:TRT_LIBPATH" -DTRT_OUT_DIR="$pwd\\out"
msbuild TensorRT.sln /property:Configuration=Release -m:$env:NUMBER_OF_PROCESSORS

注意：CMake 默认使用的 CUDA 版本是 13.2。若需覆盖此设置，例如改为 12.9，可在 cmake 命令后追加 -DCUDA_VERSION=12.9。

必需的 CMake 构建参数包括：
- TRT_LIB_DIR：包含库文件的 TensorRT 安装目录路径。
- TRT_OUT_DIR：用于存放生成的构建产物的输出目录。
可选的 CMake 构建参数包括：
- CMAKE_BUILD_TYPE：指定生成的二进制文件是发布版还是调试版（包含调试符号）。可选值为 [Release] 或 Debug。
- CUDA_VERSION：目标 CUDA 版本，例如 [12.9.9]。
- CUDNN_VERSION：目标 cuDNN 版本，例如 [8.9]。
- PROTOBUF_VERSION：使用的 Protobuf 版本，例如 [3.20.1]。注意：更改此参数不会使 CMake 使用系统已安装的 Protobuf 版本，而是会配置 CMake 下载并尝试构建该版本。
- CMAKE_TOOLCHAIN_FILE：用于交叉编译的工具链文件路径。
- BUILD_PARSERS：指定是否构建解析器，例如 [ON] 或 OFF。若设置为 OFF，CMake 将尝试查找预编译的解析器库版本以用于编译示例。优先从 ${TRT_LIB_DIR} 中查找，其次在系统中查找。如果构建类型为 Debug，则会优先使用调试版本的库，而非发布版本。
- BUILD_PLUGINS：指定是否构建插件，例如 [ON] 或 OFF。若设置为 OFF，CMake 将尝试查找预编译的插件库版本以用于编译示例。优先从 ${TRT_LIB_DIR} 中查找，其次在系统中查找。如果构建类型为 Debug，则会优先使用调试版本的库，而非发布版本。
- BUILD_SAMPLES：指定是否构建示例，例如 [ON] 或 OFF。
- BUILD_SAFE_SAMPLES：指定是否构建安全示例，例如 [ON] 或 OFF。
- TRT_SAFETY_INFERENCE_ONLY：指定是否仅构建安全推理组件，例如 [ON] 或 OFF。若设置为 ON，则除 BUILD_SAFE_SAMPLES 外，其他所有组件将被关闭。
- GPU_ARCHS：目标 GPU（SM）架构。默认情况下，我们会为所有主要 SM 生成 CUDA 代码。此处可以指定具体的 SM 版本，以缩短编译时间和减小二进制文件大小。NVIDIA GPU 的计算能力表可在这里查阅。示例：- NVIDIA A100：-DGPU_ARCHS="80"；- RTX 50 系列：-DGPU_ARCHS="120"；- 多个 SM：-DGPU_ARCHS="80 120"。
- TRT_PLATFORM_ID：裸机构建（不同于容器化的交叉编译）。当前支持的选项为 x86_64（默认）。
- TRT_BUILD_ENABLE_MULTIDEVICE：启用多设备示例（sampleDistCollective）。使用 -DTRT_BUILD_ENABLE_MULTIDEVICE=ON 来构建它；需要 NCCL ≥ v2.19，< v3.0。

构建 TensorRT DriveOS 示例

生成 Makefile 并编译

示例：为 DOS7 Linux（aarch64）交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain
make -j$(nproc)

示例：为 DOS6.5 Linux（aarch64）交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain -DCUDA_VERSION=11.4 -DGPU_ARCHS=87
make -j$(nproc)

示例：为 DOS6.5 和 DOS7 Linux（aarch64）进行原生构建

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64-native.toolchain -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF
make -j$(nproc)

示例：为 DOS6.5 QNX（aarch64）交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
export CUDA_VERSION=11.4
export CUDA=cuda-$CUDA_VERSION
export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
export QNX_BASE=/drive/toolchains/qnx_toolchain  # 设置为您的 QNX 工具链安装路径
export QNX_HOST=$QNX_BASE/host/linux/x86_64/
export QNX_TARGET=$QNX_BASE/target/qnx7/
export PATH=$PATH:$QNX_HOST/usr/bin
cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=87
make -j$(nproc)

注意：请将 QNX_BASE 设置为您 QNX 工具链的安装路径。如果您的 CUDA 版本与示例不同，请设置 CUDA_VERSION（对于在多个地方使用该变量的示例）或在 cmake 命令中添加 -DCUDA_VERSION=<版本>。

示例：为 DOS6.5 QNX Safety（aarch64）交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
export CUDA_VERSION=11.4
export QNX_BASE=/drive/toolchains/qnx_toolchain  # 设置为您的 QNX 工具链安装路径
export QNX_HOST=$QNX_BASE/host/linux/x86_64/
export QNX_TARGET=$QNX_BASE/target/qnx7/
export PATH=$PATH:$QNX_HOST/usr/bin
export CUDA=cuda-$CUDA_VERSION
export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
cmake .. -DBUILD_SAMPLES=OFF -DBUILD_SAFE_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_SAFETY_INFERENCE_ONLY=ON -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx_safe.toolchain -DCUDA_VERSION=$CUDA_VERSION -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DGPU_ARCHS=87
make -j$(nproc)

注意：请将 QNX_BASE 设置为您 QNX 工具链的安装路径。如果您的 CUDA 版本与示例不同，请设置 CUDA_VERSION（对于在多个地方使用该变量的示例）或在 cmake 命令中添加 -DCUDA_VERSION=<版本>。

示例：为 DOS7 QNX（aarch64）交叉编译

cd $TRT_OSSPATH
mkdir -p build && cd build
export CUDA_VERSION=13.2
export CUDA=cuda-$CUDA_VERSION
export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION
export QNX_BASE=/drive/toolchains/qnx_toolchain  # 设置为您的 QNX 工具链安装路径
export QNX_HOST=$QNX_BASE/host/linux/x86_64/
export QNX_TARGET=$QNX_BASE/target/qnx/
export PATH=$PATH:$QNX_HOST/usr/bin
cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=110
make -j$(nproc)

注意：请将 QNX_BASE 设置为您 QNX 工具链的安装路径。如果您的 CUDA 版本与示例不同，请设置 CUDA_VERSION（对于在多个地方使用该变量的示例）或在 cmake 命令中添加 -DCUDA_VERSION=<版本>。

参考资料

TensorRT 资源

已知问题

请参阅 TensorRT 发行说明

TensorRT 快速上手指南

TensorRT 是 NVIDIA 推出的高性能深度学习推理优化器和运行时引擎。本指南基于 TensorRT 开源软件（OSS）组件，帮助开发者快速完成环境搭建与基础使用。

1. 环境准备

在开始构建或安装前，请确保您的系统满足以下要求。

系统要求

操作系统: Linux (Ubuntu 22.04/24.04, Rocky Linux 8/9) 或 Windows 10/11 (x86_64)
架构: x86_64 或 aarch64 (Jetson/Thor)
Python 版本: >= 3.10, <= 3.13.x (注意：Python 3.9 及更低版本的支持将在未来移除)

前置依赖

您需要安装以下核心软件包：

CUDA Toolkit: 推荐版本 cuda-13.2.0 或 cuda-12.9.0
cuDNN (可选): 版本 8.9
构建工具:
- GNU make >= v4.1
- cmake >= v3.31
- git, pkg-config, wget
TensorRT GA 包: 需预先下载对应版本的 TensorRT 二进制包（用于链接库文件），版本需匹配（如 v10.16.0.72）。

提示: 如果使用 Docker 容器化构建，只需宿主机安装 NVIDIA Container Toolkit 和 Docker >= 19.03 即可，无需在宿主机安装上述所有依赖。

2. 安装步骤

您可以选择直接安装 Python 包（推荐用于快速体验）或从源码构建（推荐用于开发插件或定制功能）。

方案 A：直接安装 Python 包（最简单）

如果您仅需在 Python 中使用 TensorRT 进行推理，可直接通过 pip 安装预编译包：

pip install tensorrt

安装完成后即可跳过源码构建步骤，直接使用。

方案 B：从源码构建 (Linux 示例)

如需开发自定义插件或使用最新 OSS 特性，请按以下步骤构建：

第一步：获取源码

git clone -b main https://github.com/nvidia/TensorRT TensorRT
cd TensorRT
git submodule update --init --recursive

国内加速建议: 如果克隆速度慢，可配置 Git 代理或使用国内镜像源（如 Gitee 镜像，若有）。

第二步：准备 TensorRT 二进制库

下载并解压对应 CUDA 版本的 TensorRT GA 包（以 Ubuntu + CUDA 13.2 为例）：

# 假设已下载 tar.gz 包到 ~/Downloads
cd ~/Downloads
tar -xvzf TensorRT-10.16.0.72.Linux.x86_64-gnu.cuda-13.2.tar.gz
export TRT_LIBPATH=`pwd`/TensorRT-10.16.0.72/lib

第三步：创建构建容器（推荐）

使用官方提供的脚本生成 Docker 构建环境：

./docker/build.sh --file docker/ubuntu-24.04.Dockerfile --tag tensorrt-ubuntu24.04-cuda13.2

启动容器：

./docker/launch.sh --tag tensorrt-ubuntu24.04-cuda13.2 --gpus all

容器内默认用户密码为 nvidia。

第四步：编译构建

在容器内执行编译命令：

cd $TRT_OSSPATH
mkdir -p build && cd build
cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out
make -j$(nproc)

编译产物将输出至 build/out 目录。

3. 基本使用

以下是一个最简单的 Python 使用示例，演示如何加载引擎并进行推理。

简单推理示例

假设您已经拥有一个序列化好的 TensorRT 引擎文件 (model.plan)。

import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np

# 1. 初始化日志记录器
logger = trt.Logger(trt.Logger.WARNING)

# 2. 反序列化引擎
with open("model.plan", "rb") as f, trt.Runtime(logger) as runtime:
    engine = runtime.deserialize_cuda_engine(f.read())

# 3. 创建执行上下文
context = engine.create_execution_context()

# 4. 分配输入输出内存 (简化示例，实际需根据 binding 索引处理)
input_shape = (1, 3, 224, 224)
h_input = np.random.randn(*input_shape).astype(np.float32)
h_output = np.empty(engine.get_binding_shape(1), dtype=np.float32)

d_input = cuda.mem_alloc(h_input.nbytes)
d_output = cuda.mem_alloc(h_output.nbytes)

stream = cuda.Stream()
cuda.memcpy_htod_async(d_input, h_input, stream)

# 5. 执行推理
context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)
cuda.memcpy_dtoh_async(h_output, d_output, stream)
stream.synchronize()

print("Inference result shape:", h_output.shape)

关键迁移提示 (针对新版本)

如果您是从旧版本迁移，请注意 TensorRT 11.0 (预计 2026 Q2) 的重大变更：

强类型网络 (Strongly Typed Networks) 将取代弱类型网络 API。
显式量化 (Explicit Quantization) 将取代隐式量化 API。
IPluginV3 将取代 IPluginV2 接口。
建议使用 Nsight Deep Learning Designer 替代旧的 TREX 工具。

版本历史

v10.0.02024/04/03

v10.162026/03/25

v10.152026/02/03

v10.142025/11/08

v10.13.32025/09/09

v10.13.22025/08/19

v10.13.02025/07/24

v10.12.02025/06/18

v10.112025/05/21

v10.10.02025/05/09

v10.9.02025/03/11

v10.8.02025/02/01

v10.7.02024/12/05

v10.6.02024/11/05

v10.5.02024/10/10

v10.4.02024/09/12

v10.3.02024/08/08

v10.2.02024/07/15

v10.1.02024/06/18

v10.0.12024/04/30

常见问题

如何在将 PyTorch 模型转换为 ONNX 再转为 TensorRT 后添加 NMS（非极大值抑制）？

加载 ONNX 模型时遇到 'Resize scales must be an initializer' 错误如何解决？

将 Mask RCNN 模型从 h5 转换为 UFF 格式时遇到 'Unsupported operation _AddV2' 错误怎么办？

在使用 tf2onnx 和 TensorRT 时遇到 'Could Not Parse Model' 错误或版本不匹配问题如何处理？

如何创建一个 TensorRT 引擎以服务于多个输入源（如多路摄像头）而不混淆输出？

为什么 SDXL 模型的 INT8 量化版本推理速度比 FP16 版本慢很多？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

使用场景

没有 TensorRT 时

使用 TensorRT 后

运行环境要求

快速开始

:mega::mega: 公告 :mega::mega:

TensorRT 开源软件

预编译 TensorRT Python 包

构建

前置条件

下载 TensorRT 构建

下载 TensorRT 开源项目

（可选——如果不使用 TensorRT 容器）指定 TensorRT GA 版本的构建路径

设置构建环境

生成 TensorRT 开源项目的构建容器。

启动 TensorRT 开源项目的构建容器。

构建 TensorRT-OSS

构建 TensorRT DriveOS 示例

参考资料

TensorRT 资源

已知问题

TensorRT 快速上手指南

1. 环境准备

系统要求

前置依赖

2. 安装步骤

方案 A：直接安装 Python 包（最简单）

方案 B：从源码构建 (Linux 示例)

第一步：获取源码

第二步：准备 TensorRT 二进制库

第三步：创建构建容器（推荐）

第四步：编译构建

3. 基本使用

简单推理示例

关键迁移提示 (针对新版本)

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch