TensorRT
TensorRT 是 NVIDIA 推出的一款高性能深度学习推理 SDK,专为在 NVIDIA GPU 上加速 AI 模型部署而设计。它主要解决了深度学习模型从训练环境迁移到生产环境时面临的推理速度慢、资源消耗大等痛点,通过层融合、精度校准(如 INT8 量化)和内核自动调优等技术,显著提升推理吞吐量并降低延迟。
这款工具非常适合 AI 开发者、算法工程师以及需要优化模型性能的研究人员使用。无论是希望将复杂的神经网络高效部署到服务器还是边缘设备,TensorRT 都能提供强大的支持。其开源组件包含了插件源码、ONNX 解析器及丰富的示例应用,方便用户进行自定义扩展和二次开发。
技术亮点方面,TensorRT 不仅支持显式量化和强类型网络等先进特性以提升精度与效率,还持续演进其插件架构(如从 IPluginV2 升级至 IPluginV3),确保生态的兼容性与前瞻性。此外,它提供了便捷的 Python 安装包,让开发者能快速上手体验。对于追求极致推理性能的企业用户,TensorRT 更是构建高效 AI 服务不可或缺的核心引擎。
使用场景
一家自动驾驶初创公司的算法团队正致力于将训练好的高精度目标检测模型部署到搭载 NVIDIA Orin 芯片的量产车辆上,以满足实时路况分析需求。
没有 TensorRT 时
- 推理延迟过高:直接使用 PyTorch 或 TensorFlow 原生框架进行推理,单帧图像处理耗时超过 80 毫秒,无法满足自动驾驶系统要求的 30 FPS 实时响应标准。
- 显存占用巨大:未优化的模型在车载 GPU 上运行时显存占用极高,导致无法在同一块芯片上并行运行路径规划或语音交互等其他关键任务。
- 算力浪费严重:通用计算图包含大量冗余算子和低精度不必要的浮点运算,未能充分利用 NVIDIA GPU 特有的 Tensor Core 加速能力。
- 部署成本高昂:为了弥补软件效率的不足,团队被迫考虑升级更昂贵的硬件方案或增加车辆端的计算单元数量,大幅推高了 BOM 成本。
使用 TensorRT 后
- 极致低延迟:TensorRT 通过层融合、内核自动调优及显存优化,将单帧推理时间压缩至 15 毫秒以内,轻松实现 60+ FPS 的流畅检测效果。
- 资源利用率提升:借助 INT8 量化技术,模型体积缩小 4 倍且显存占用大幅降低,使得单一 SoC 即可承载多模态感知任务,释放了宝贵的硬件资源。
- 硬件性能满血释放:TensorRT 针对特定 GPU 架构生成高度优化的推理引擎,完美调用 Tensor Core 进行混合精度计算,吞吐量相比原生框架提升 3-5 倍。
- 落地成本显著下降:凭借软件层面的极致优化,团队成功在现有硬件配置下达成性能指标,避免了额外的硬件迭代投入,加速了车型量产进程。
TensorRT 通过将深度学习模型转化为针对特定硬件深度定制的高效推理引擎,彻底打通了从算法训练到边缘端实时落地的“最后一公里”。
运行环境要求
- Linux
- Windows
- 必需 NVIDIA GPU
- 支持 CUDA 12.9 或 13.2
- 具体型号未说明,但需兼容对应 CUDA 版本
- 针对 Jetson (aarch64) 和 DriveOS 平台有特定构建配置
未说明

快速开始
:mega::mega: 公告 :mega::mega:
TensorRT 11.0 将于 2026 年第二季度正式发布,带来强大的新功能,旨在加速您的 AI 推理工作流。随着这一重大版本更新,TensorRT 的 API 将得到简化,并移除部分遗留功能。
我们建议您尽早迁移以下功能:
- 弱类型网络及相关 API 将被移除,取而代之的是 强类型网络。
- 隐式量化及相关 API 将被移除,取而代之的是 显式量化。
- IPluginV2 及相关 API 将被移除,取而代之的是 IPluginV3。
- TREX 工具将被移除,取而代之的是 Nsight Deep Learning Designer。
- 从 TensorRT 10.16 开始,将不再支持 Python 3.9 及更早版本的 Python 绑定。RHEL/Rocky Linux 8 和 RHEL/Rocky Linux 9 的 RPM 包现依赖于 Python 3.12。
TensorRT 开源软件
本仓库包含 NVIDIA TensorRT 的开源软件(OSS)组件。它包含了 TensorRT 插件和 ONNX 解析器的源代码,以及演示 TensorRT 平台使用方法和功能的示例应用。这些开源软件组件是 TensorRT 正式发布版(GA)的一部分,附带了一些扩展和错误修复。
- 如需为 TensorRT-OSS 贡献代码,请参阅我们的 贡献指南 和 编码规范。
- 关于 TensorRT-OSS 版本中新增内容及更新的摘要,请参考 变更日志。
- 如有业务咨询,请联系 researchinquiries@nvidia.com。
- 如有媒体或其他咨询,请联系 Hector Marinez,邮箱:hmarinez@nvidia.com。
需要企业级支持吗?NVIDIA 全球技术支持可为 TensorRT 提供服务,配合 NVIDIA AI Enterprise 软件套件 使用。访问 NVIDIA LaunchPad 即可免费体验一系列基于 NVIDIA 基础设施、使用 TensorRT 的实践实验室。
加入 TensorRT 和 Triton 社区 ,及时了解最新产品更新、漏洞修复、内容、最佳实践等信息。
预编译 TensorRT Python 包
我们提供了易于安装的 TensorRT Python 包。
安装命令如下:
pip install tensorrt
您可以跳过“构建”部分,直接使用 Python 版本的 TensorRT。
构建
前置条件
要构建 TensorRT-OSS 组件,您首先需要安装以下软件包。
TensorRT GA 构建
- TensorRT v10.16.0.72
- 可通过下方提供的直接下载链接获取
系统软件包
- CUDA
- 推荐版本:
- cuda-13.2.0
- cuda-12.9.0
- CUDNN(可选)
- cuDNN 8.9
- GNU make ≥ v4.1
- cmake ≥ v3.31
- python ≥ v3.10, ≤ v3.13.x
- pip ≥ v19.0
- 必要的实用工具
可选软件包
NCCL ≥ v2.19, < v3.0 — 仅在启用多设备支持(
-DTRT_BUILD_ENABLE_MULTIDEVICE=ON)并构建sampleDistCollective示例时需要。容器化构建
- Docker ≥ 19.03
- NVIDIA Container Toolkit
PyPI 包(用于演示应用/测试)
- onnx
- onnxruntime
- tensorflow-gpu ≥ 2.5.1
- Pillow ≥ 9.0.1
- pycuda < 2021.1
- numpy
- pytest
代码格式化工具(适用于贡献者)
注意:onnx-tensorrt、cub 和 protobuf 等库会随 TensorRT OSS 一同下载,无需单独安装。
下载 TensorRT 构建
下载 TensorRT 开源项目
git clone -b main https://github.com/nvidia/TensorRT TensorRT cd TensorRT git submodule update --init --recursive(可选——如果不使用 TensorRT 容器)指定 TensorRT GA 版本的构建路径
如果使用 TensorRT 开源项目的构建容器,TensorRT 库已预安装在
/usr/lib/x86_64-linux-gnu目录下,您可以跳过此步骤。否则,请从 NVIDIA 开发者专区 下载并解压 TensorRT GA 版本的构建包,下载链接如下:
- 适用于 CUDA 13.2、Linux x86_64 的 TensorRT 10.16.0.72
- 适用于 CUDA 12.9、Linux x86_64 的 TensorRT 10.16.0.72
- 适用于 CUDA 13.2、Windows x86_64 的 TensorRT 10.16.0.72
- 适用于 CUDA 12.9、Windows x86_64 的 TensorRT 10.16.0.72
示例:Ubuntu 22.04(x86_64),CUDA 13.2
cd ~/Downloads tar -xvzf TensorRT-10.16.0.72.Linux.x86_64-gnu.cuda-13.2.tar.gz export TRT_LIBPATH=`pwd`/TensorRT-10.16.0.72/lib示例:Windows(x86_64),CUDA 12.9
Expand-Archive -Path TensorRT-10.16.0.72.Windows.win10.cuda-12.9.zip $env:TRT_LIBPATH="$pwd\TensorRT-10.16.0.72\lib"
设置构建环境
对于 Linux 平台,我们建议按照以下说明生成一个用于构建 TensorRT 开源项目的 Docker 容器。对于原生构建,请先安装先决条件中的“系统软件包”。
生成 TensorRT 开源项目的构建容器。
示例:Ubuntu 24.04(x86_64),CUDA 13.2(默认)
./docker/build.sh --file docker/ubuntu-24.04.Dockerfile --tag tensorrt-ubuntu24.04-cuda13.2示例:Rockylinux8(x86_64),CUDA 13.2
./docker/build.sh --file docker/rockylinux8.Dockerfile --tag tensorrt-rockylinux8-cuda13.2示例:Ubuntu 24.04 交叉编译用于 Jetson(aarch64),CUDA 13.2(JetPack SDK)
./docker/build.sh --file docker/ubuntu-cross-aarch64.Dockerfile --tag tensorrt-jetpack-cuda13.2示例:Ubuntu 24.04(aarch64),CUDA 13.2
./docker/build.sh --file docker/ubuntu-24.04-aarch64.Dockerfile --tag tensorrt-aarch64-ubuntu24.04-cuda13.2启动 TensorRT 开源项目的构建容器。
示例:Ubuntu 24.04 构建容器
./docker/launch.sh --tag tensorrt-ubuntu24.04-cuda13.2 --gpus all注意:
1. 请使用第 1 步中生成的构建容器对应的--tag。
2. 要在构建容器内访问 GPU(运行 TensorRT 应用程序),需要安装 NVIDIA Container Toolkit。
3. Ubuntu 构建容器的sudo密码为 'nvidia'。
4. 使用--jupyter <端口>指定端口号以启动 Jupyter Notebook。
5. 需要对此文件夹具有写入权限,因为该文件夹将以 uid:gid 为 1000:1000 的方式挂载到 Docker 容器中。
构建 TensorRT-OSS
生成 Makefile 并构建
示例:使用默认 CUDA 13.2 的 Linux (x86-64) 构建
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out make -j$(nproc)示例:使用默认 CUDA 13.2 的 Linux (aarch64) 构建
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64-native.toolchain make -j$(nproc)示例:在 Jetson Thor (aarch64) 上使用 CUDA 13.2 进行原生构建
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DTRT_PLATFORM_ID=aarch64 CC=/usr/bin/gcc make -j$(nproc)注意:对于原生 aarch64 构建的 Protobuf,必须通过
CC=显式指定 C 编译器。示例:在 Ubuntu 24.04 上针对 Jetson Thor (aarch64) 使用 CUDA 13.2(JetPack)进行交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_cross.toolchain make -j$(nproc)示例:在 Ubuntu 24.04 上针对 DriveOS (aarch64) 使用 CUDA 13.2 进行交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain make -j$(nproc)示例:在 Windows (x86) 上使用 CUDA 13.2 进行原生构建
cd $TRT_OSSPATH New-Item -ItemType Directory -Path build cd build cmake .. -DTRT_LIB_DIR="$env:TRT_LIBPATH" -DTRT_OUT_DIR="$pwd\\out" msbuild TensorRT.sln /property:Configuration=Release -m:$env:NUMBER_OF_PROCESSORS注意:CMake 默认使用的 CUDA 版本是 13.2。若需覆盖此设置,例如改为 12.9,可在 cmake 命令后追加
-DCUDA_VERSION=12.9。必需的 CMake 构建参数包括:
TRT_LIB_DIR:包含库文件的 TensorRT 安装目录路径。TRT_OUT_DIR:用于存放生成的构建产物的输出目录。
可选的 CMake 构建参数包括:
CMAKE_BUILD_TYPE:指定生成的二进制文件是发布版还是调试版(包含调试符号)。可选值为 [Release] 或Debug。CUDA_VERSION:目标 CUDA 版本,例如 [12.9.9]。CUDNN_VERSION:目标 cuDNN 版本,例如 [8.9]。PROTOBUF_VERSION:使用的 Protobuf 版本,例如 [3.20.1]。注意:更改此参数不会使 CMake 使用系统已安装的 Protobuf 版本,而是会配置 CMake 下载并尝试构建该版本。CMAKE_TOOLCHAIN_FILE:用于交叉编译的工具链文件路径。BUILD_PARSERS:指定是否构建解析器,例如 [ON] 或OFF。若设置为 OFF,CMake 将尝试查找预编译的解析器库版本以用于编译示例。优先从${TRT_LIB_DIR}中查找,其次在系统中查找。如果构建类型为 Debug,则会优先使用调试版本的库,而非发布版本。BUILD_PLUGINS:指定是否构建插件,例如 [ON] 或OFF。若设置为 OFF,CMake 将尝试查找预编译的插件库版本以用于编译示例。优先从${TRT_LIB_DIR}中查找,其次在系统中查找。如果构建类型为 Debug,则会优先使用调试版本的库,而非发布版本。BUILD_SAMPLES:指定是否构建示例,例如 [ON] 或OFF。BUILD_SAFE_SAMPLES:指定是否构建安全示例,例如 [ON] 或OFF。TRT_SAFETY_INFERENCE_ONLY:指定是否仅构建安全推理组件,例如 [ON] 或OFF。若设置为 ON,则除BUILD_SAFE_SAMPLES外,其他所有组件将被关闭。GPU_ARCHS:目标 GPU(SM)架构。默认情况下,我们会为所有主要 SM 生成 CUDA 代码。此处可以指定具体的 SM 版本,以缩短编译时间和减小二进制文件大小。NVIDIA GPU 的计算能力表可在 这里 查阅。示例:- NVIDIA A100:-DGPU_ARCHS="80";- RTX 50 系列:-DGPU_ARCHS="120";- 多个 SM:-DGPU_ARCHS="80 120"。TRT_PLATFORM_ID:裸机构建(不同于容器化的交叉编译)。当前支持的选项为x86_64(默认)。TRT_BUILD_ENABLE_MULTIDEVICE:启用多设备示例(sampleDistCollective)。使用-DTRT_BUILD_ENABLE_MULTIDEVICE=ON来构建它;需要 NCCL ≥ v2.19,< v3.0。
构建 TensorRT DriveOS 示例
生成 Makefile 并编译
示例:为 DOS7 Linux(aarch64)交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain make -j$(nproc)示例:为 DOS6.5 Linux(aarch64)交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64_dos_cross.toolchain -DCUDA_VERSION=11.4 -DGPU_ARCHS=87 make -j$(nproc)示例:为 DOS6.5 和 DOS7 Linux(aarch64)进行原生构建
cd $TRT_OSSPATH mkdir -p build && cd build cmake .. -DTRT_LIB_DIR=$TRT_LIBPATH -DTRT_OUT_DIR=`pwd`/out -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_aarch64-native.toolchain -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF make -j$(nproc)示例:为 DOS6.5 QNX(aarch64)交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build export CUDA_VERSION=11.4 export CUDA=cuda-$CUDA_VERSION export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION export QNX_BASE=/drive/toolchains/qnx_toolchain # 设置为您的 QNX 工具链安装路径 export QNX_HOST=$QNX_BASE/host/linux/x86_64/ export QNX_TARGET=$QNX_BASE/target/qnx7/ export PATH=$PATH:$QNX_HOST/usr/bin cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=87 make -j$(nproc)注意:请将
QNX_BASE设置为您 QNX 工具链的安装路径。 如果您的 CUDA 版本与示例不同,请设置CUDA_VERSION(对于在多个地方使用该变量的示例)或在 cmake 命令中添加-DCUDA_VERSION=<版本>。示例:为 DOS6.5 QNX Safety(aarch64)交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build export CUDA_VERSION=11.4 export QNX_BASE=/drive/toolchains/qnx_toolchain # 设置为您的 QNX 工具链安装路径 export QNX_HOST=$QNX_BASE/host/linux/x86_64/ export QNX_TARGET=$QNX_BASE/target/qnx7/ export PATH=$PATH:$QNX_HOST/usr/bin export CUDA=cuda-$CUDA_VERSION export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION cmake .. -DBUILD_SAMPLES=OFF -DBUILD_SAFE_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DTRT_SAFETY_INFERENCE_ONLY=ON -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx_safe.toolchain -DCUDA_VERSION=$CUDA_VERSION -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DGPU_ARCHS=87 make -j$(nproc)注意:请将
QNX_BASE设置为您 QNX 工具链的安装路径。 如果您的 CUDA 版本与示例不同,请设置CUDA_VERSION(对于在多个地方使用该变量的示例)或在 cmake 命令中添加-DCUDA_VERSION=<版本>。示例:为 DOS7 QNX(aarch64)交叉编译
cd $TRT_OSSPATH mkdir -p build && cd build export CUDA_VERSION=13.2 export CUDA=cuda-$CUDA_VERSION export CUDA_ROOT=/usr/local/cuda-safe-$CUDA_VERSION export QNX_BASE=/drive/toolchains/qnx_toolchain # 设置为您的 QNX 工具链安装路径 export QNX_HOST=$QNX_BASE/host/linux/x86_64/ export QNX_TARGET=$QNX_BASE/target/qnx/ export PATH=$PATH:$QNX_HOST/usr/bin cmake .. -DBUILD_SAMPLES=ON -DBUILD_PLUGINS=OFF -DBUILD_PARSERS=OFF -DBUILD_SAFE_SAMPLES=OFF -DCMAKE_CUDA_COMPILER=$CUDA_ROOT/bin/nvcc -DTRT_OUT_DIR=`pwd`/bin_dynamic_cross -DTRT_LIB_DIR=$TRT_LIBPATH -DCMAKE_TOOLCHAIN_FILE=$TRT_OSSPATH/cmake/toolchains/cmake_qnx.toolchain -DCUDA_VERSION=$CUDA_VERSION -DGPU_ARCHS=110 make -j$(nproc)注意:请将
QNX_BASE设置为您 QNX 工具链的安装路径。 如果您的 CUDA 版本与示例不同,请设置CUDA_VERSION(对于在多个地方使用该变量的示例)或在 cmake 命令中添加-DCUDA_VERSION=<版本>。
参考资料
TensorRT 资源
- TensorRT 开发者主页
- TensorRT 快速入门指南
- TensorRT 开发者指南
- TensorRT 示例支持指南
- TensorRT ONNX 工具
- TensorRT 讨论论坛
- TensorRT 发行说明
已知问题
- 请参阅 TensorRT 发行说明
版本历史
v10.0.02024/04/03v10.162026/03/25v10.152026/02/03v10.142025/11/08v10.13.32025/09/09v10.13.22025/08/19v10.13.02025/07/24v10.12.02025/06/18v10.112025/05/21v10.10.02025/05/09v10.9.02025/03/11v10.8.02025/02/01v10.7.02024/12/05v10.6.02024/11/05v10.5.02024/10/10v10.4.02024/09/12v10.3.02024/08/08v10.2.02024/07/15v10.1.02024/06/18v10.0.12024/04/30常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备