server
Triton Inference Server 是一款由 NVIDIA 推出的开源推理服务软件,旨在为云端、数据中心及边缘设备提供高效优化的 AI 模型部署方案。它主要解决了企业在生产环境中面临的模型框架繁杂、硬件适配困难以及高并发请求下性能瓶颈等痛点。无论是研究人员还是工程开发者,都能利用它将来自 TensorFlow、PyTorch、ONNX、TensorRT 等多种主流框架训练的模型,统一部署在 NVIDIA GPU、x86/ARM CPU 或 AWS Inferentia 等不同硬件上。
该工具的核心优势在于其强大的灵活性与高性能调度能力。它支持动态批处理和序列批处理,能显著提升实时推理和流媒体处理的吞吐量;同时具备并发模型执行功能,允许多个模型共享资源并行工作。此外,Triton 提供了开放的后端 API,允许用户通过 Python 轻松编写自定义后端或集成复杂的业务逻辑脚本(BLS),从而构建灵活的模型流水线。作为 NVIDIA AI Enterprise 平台的重要组成部分,Triton Inference Server 非常适合需要将 AI 模型从实验阶段推向大规模生产应用的开发团队和数据科学家使用,帮助其 streamlined 地构建稳定、高效的推理服务系统。
使用场景
某大型电商平台的推荐团队需要在高并发大促期间,实时运行由 PyTorch 和 TensorRT 混合构建的复杂商品排序模型。
没有 Triton Inference Server 时
- 框架割裂严重:团队需为不同框架(PyTorch、TensorRT)分别编写独立的推理服务代码,导致维护多套后端逻辑,开发效率极低。
- 资源利用率低下:缺乏动态批处理机制,服务器在面对零散请求时无法自动合并计算,导致 GPU 算力大量闲置,吞吐量难以提升。
- 延迟波动剧烈:在流量洪峰到来时,由于缺少序列批处理和并发执行优化,单个请求的响应时间忽高忽低,严重影响用户购物体验。
- 部署流程繁琐:每次更新模型或调整预处理逻辑,都需要重新打包容器并重启服务,无法实现热加载和敏捷迭代。
使用 Triton Inference Server 后
- 统一推理入口:通过单一接口即可调度 PyTorch、TensorRT 等多种框架模型,利用其丰富的后端支持消除了异构框架带来的集成壁垒。
- 算力极致释放:启用动态批处理功能后,系统自动将毫秒级到达的零散请求合并计算,显著提升了 GPU 利用率和服务吞吐量。
- 性能稳定可控:借助并发模型执行与序列批处理技术,即使在高负载下也能保证低且稳定的推理延迟,确保大促期间服务不卡顿。
- 运维灵活高效:支持模型热加载与版本管理,配合 Python 后端自定义业务逻辑,团队可在不中断服务的情况下快速上线新算法策略。
Triton Inference Server 通过标准化的推理服务和智能调度机制,将原本碎片化、低效的模型部署转变为高性能、易维护的生产级流水线。
运行环境要求
- Linux
- Windows
- 可选(支持 NVIDIA GPU、AWS Inferentia 或仅 CPU 模式)
- 若使用 NVIDIA GPU,需兼容 CUDA 的显卡(具体型号和显存取决于加载的模型),支持 TensorRT 等后端
未说明(取决于模型大小和并发请求量)

快速开始
[!警告] 您当前位于
main分支,该分支跟踪下一版本的开发进展。当前发布的稳定版本为 2.67.0,对应 NVIDIA GPU Cloud (NGC) 上的 26.03 容器版本。
Triton 推理服务器
Triton 推理服务器是一款开源的推理服务软件,旨在简化 AI 推理流程。它使团队能够部署来自多种深度学习和机器学习框架的 AI 模型,包括 TensorRT、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL 等。Triton 推理服务器支持跨云、数据中心、边缘和嵌入式设备的推理工作负载,可在 NVIDIA GPU、x86 和 ARM CPU,或 AWS Inferentia 上运行。Triton 推理服务器针对多种查询类型提供了优化性能,包括实时推理、批处理推理、模型集成以及音频/视频流式推理。Triton 推理服务器是 NVIDIA AI Enterprise 的一部分,该软件平台可加速数据科学流水线,并简化生产级 AI 的开发与部署。
主要特性包括:
- 支持多种深度学习框架
- 支持多种机器学习框架
- 并发模型执行
- 动态批处理
- 序列批处理 和针对有状态模型的 隐式状态管理
- 提供 Backend API,允许添加自定义后端及预/后处理操作
- 支持用 Python 编写自定义后端,即 基于 Python 的后端
- 使用 模型集成 或 业务逻辑脚本 (BLS) 构建模型流水线
- 基于社区开发的 KServe 协议 的 HTTP/REST 和 GRPC 推理协议
- C API 和 Java API 允许 Triton 直接集成到您的应用程序中,适用于边缘及其他进程内应用场景
- 指标,用于监控 GPU 利用率、服务器吞吐量、服务器延迟等
初次使用 Triton 推理服务器? 请参考 这些教程,开始您的 Triton 学习之旅!
加入 Triton 和 TensorRT 社区 ,及时了解最新产品更新、漏洞修复、内容、最佳实践等信息。如需企业级支持,请联系 NVIDIA 全球技术支持,Triton 推理服务器可与 NVIDIA AI Enterprise 软件套件 配合使用。
三步轻松部署模型
# 第一步:创建示例模型仓库
git clone -b r26.03 https://github.com/triton-inference-server/server.git
cd server/docs/examples
./fetch_models.sh
# 第二步:从 NGC Triton 容器启动 Triton
docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models nvcr.io/nvidia/tritonserver:26.03-py3 tritonserver --model-repository=/models --model-control-mode explicit --load-model densenet_onnx
# 第三步:发送推理请求
# 在另一个终端窗口中,从 NGC Triton SDK 容器启动 image_client 示例
docker run -it --rm --net=host nvcr.io/nvidia/tritonserver:26.03-py3-sdk /workspace/install/bin/image_client -m densenet_onnx -c 3 -s INCEPTION /workspace/images/mug.jpg
# 推理结果应如下所示:
图像 '/workspace/images/mug.jpg':
15.346230 (504) = 咖啡杯
13.224326 (968) = 杯子
10.422965 (505) = 咖啡壶
有关此示例的更多信息,请参阅 快速入门 指南。快速入门指南还包含如何在仅 CPU 系统上启动 Triton 的示例 ([docs/getting_started/quickstart.md#run-on-cpu-only-system])。如果您是 Triton 新手并想知道从哪里开始,请观看 入门视频。
示例与教程
请访问 NVIDIA LaunchPad, 免费获取一系列动手实验,这些实验使用在 NVIDIA 基础设施上托管的 Triton 推理服务器。
针对 ResNet、BERT 和 DLRM 等流行模型的具体端到端示例,可在 GitHub 上的 NVIDIA 深度学习示例 页面中找到。此外, NVIDIA 开发者专区 还包含更多文档、演示文稿和示例。
文档
构建与部署
构建和使用 Triton 推理服务器的推荐方式是通过 Docker 镜像。
- 使用 Docker 容器安装 Triton 推理服务器(推荐)[docs/customization_guide/build.md#building-with-docker]
- 不使用 Docker 容器安装 Triton 推理服务器 [docs/customization_guide/build.md#building-without-docker]
- 构建自定义的 Triton 推理服务器 Docker 容器 [docs/customization_guide/compose.md]
- 从源代码构建 Triton 推理服务器 [docs/customization_guide/build.md#building-on-unsupported-platforms]
- 为 Windows 10 构建 Triton 推理服务器 [docs/customization_guide/build.md#building-for-windows-10]
- 在 GCP、AWS 和 NVIDIA FleetCommand 上使用 Kubernetes 和 Helm 部署 Triton 推理服务器的示例
- 安全部署注意事项 [docs/customization_guide/deploy.md]
使用 Triton
为 Triton 推理服务器准备模型
使用 Triton 提供模型服务的第一步,是将一个或多个模型放入 模型存储库。 根据模型类型以及您希望为该模型启用的 Triton 功能,可能需要为模型创建 模型配置。
- 如果您的模型需要,可向 Triton 添加自定义操作 [docs/user_guide/custom_operations.md]
- 使用 模型集成 和 业务逻辑脚本 (BLS) 启用模型流水线
- 通过设置 调度与批处理 参数以及 模型实例 来优化您的模型
- 使用 模型分析工具 通过性能剖析帮助优化您的模型配置
- 学习如何通过加载和卸载模型来 明确管理可用的模型
配置并使用 Triton 推理服务器
- 阅读 快速入门指南,了解如何在 GPU 和 CPU 上运行 Triton 推理服务器
- Triton 支持多种执行引擎,称为 后端,包括 TensorRT、 PyTorch、 ONNX、 OpenVINO、 Python 等。
- 并非所有上述后端都支持 Triton 支持的所有平台。请查看 后端-平台支持矩阵, 以了解哪些后端在您的目标平台上受支持。
- 学习如何使用 性能分析器 和 模型分析器 来 优化性能
- 学习如何在 Triton 中 管理模型的加载和卸载
- 直接使用 基于 HTTP/REST JSON 或 gRPC 协议 向 Triton 发送请求
客户端支持与示例
Triton 客户端 应用程序会向 Triton 发送推理和其他请求。Python 和 C++ 客户端库 提供了简化此通信的 API。
- 查看 C++、 Python 和 Java 的客户端示例
- 配置 HTTP 和 gRPC 客户端选项
- 将输入数据(例如一张 JPEG 图片)直接作为 HTTP 请求的主体发送给 Triton,而无需任何额外的元数据 [https://github.com/triton-inference-server/server/blob/main/docs/protocol/extension_binary_data.md#raw-binary-request]
扩展 Triton
Triton 推理服务器的架构 专为模块化和灵活性而设计。
- 根据您的用例定制 Triton 推理服务器容器 [docs/customization_guide/compose.md]
- 创建自定义后端 [https://github.com/triton-inference-server/backend], 可以使用 [C/C++](参见 Triton 后端 API) 或 Python 实现。
- 创建 解耦后端和模型,这些后端和模型可以对一个请求返回多个响应,或者不返回任何响应。
- 使用 Triton 存储库代理 添加在模型加载和卸载时运行的功能,例如身份验证、解密或转换。
- 在 Jetson 和 JetPack 上部署 Triton
- 在 AWS Inferentia 上使用 Triton [https://github.com/triton-inference-server/python_backend/tree/main/inferentia]
其他文档
贡献
我们非常欢迎对 Triton 推理服务器的贡献。请先阅读 贡献指南。如果您有后端、客户端、示例代码或其他类似贡献,且这些内容并不涉及修改 Triton 的核心功能,则应将您的 Pull Request 提交到 contrib 仓库。
报告问题与提问
我们非常感谢您对该项目的任何反馈、问题或 bug 报告。在 GitHub 上提交 问题 时,请遵循 Stack Overflow 文档 中概述的流程。请确保您提供的示例:
- 尽量精简——使用尽可能少的代码,但仍能复现相同的问题。
- 完整——提供复现问题所需的所有部分。尝试去除外部依赖,看看是否仍能展示该问题。我们花在复现问题上的时间越少,就能有更多时间来修复它。
- 可验证——在提交代码之前,请先测试以确认其确实能够复现问题。同时,请移除所有与您的请求或问题无关的内容。
对于问题,请使用提供的 bug 报告和功能请求模板。
对于疑问,我们建议您在我们的社区 GitHub Discussions 中发帖。
更多信息
如需更多信息,请参阅 NVIDIA 开发者 Triton 页面。
版本历史
v2.58.02025/05/31v2.57.02025/05/12v2.56.02025/04/07v2.55.02025/02/26v2.54.02025/01/29v2.53.02024/12/23v2.52.02024/11/26v2.51.02024/10/29v2.50.02024/09/27v2.49.02024/08/27v2.67.02026/03/27v2.66.02026/03/02v2.65.02026/02/03v2.64.02025/12/24v2.63.02025/11/26v2.62.02025/10/31v2.61.02025/10/07v2.60.02025/08/26v2.59.12025/07/29v2.59.02025/06/26常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器