tensorzero
TensorZero 是一款开源的 LLMOps(大语言模型运维)平台,旨在为开发者提供一站式的大模型应用管理与优化方案。它巧妙地将网关、可观测性、评估、优化和实验五大核心功能整合在一起,帮助用户轻松应对大模型落地过程中的复杂挑战。
在实际开发中,团队常面临接入多家模型供应商接口繁琐、难以追踪模型表现、缺乏系统化评估手段以及优化流程割裂等痛点。TensorZero 通过统一的 API 网关屏蔽了不同厂商的差异,支持以低于 1 毫秒的极低延迟处理高并发请求;同时,它能将推理数据与用户反馈自动存入数据库,让效果监控和后续优化有据可依。此外,平台内置的 A/B 测试、智能路由及自动重试机制,让模型迭代更加稳健高效。
这款工具特别适合需要构建生产级大模型应用的开发者、算法工程师及技术团队。无论是初创公司还是大型企业,都能利用它快速搭建从原型到生产的完整链路。其独特的技术亮点在于基于 Rust 语言打造的高性能架构,确保了卓越的吞吐量与稳定性,并且完美兼容 OpenAI SDK 和 OpenTelemetry 等主流生态。更值得一提的是,其新推出的"Autopilot"功能宛如一位自动化 AI 工程师,能主动分析数据并自动执行提示词优化与模型调优,显著降低人工运维成本。
使用场景
某电商初创团队正在开发一款智能客服助手,需要同时调用多家大模型厂商的 API 来处理用户咨询,并持续优化回答质量。
没有 tensorzero 时
- 集成繁琐:每接入一家新的大模型供应商(如从 OpenAI 切换到 Anthropic),开发人员都需要重写适配代码,维护多套不同的 SDK。
- 黑盒运行:无法统一查看不同模型的推理日志和用户反馈,当回答出错时,难以定位是提示词问题还是模型本身的问题。
- 优化盲目:缺乏系统的评估机制,调整提示词或更换模型后,只能凭感觉判断效果,无法通过数据量化对比。
- 上线风险高:想要尝试新模型策略时,不敢直接全量发布,因为缺少内置的 A/B 测试和自动降级机制,担心影响用户体验。
使用 tensorzero 后
- 统一接入:通过 tensorzero 的统一网关接口,团队只需一次集成即可灵活切换或并行调用任意主流大模型,无需修改业务代码。
- 全景可观测:所有推理请求和用户反馈自动存入数据库并在 UI 可视化,开发人员能迅速追溯坏案,精准分析失败原因。
- 数据驱动迭代:利用内置的评估功能,团队可以基于启发式规则或 LLM 裁判自动打分,清晰量化每次提示词优化带来的性能提升。
- 安全实验:借助原生支持的 A/B 测试和路由策略,团队放心地将流量按比例分配给新模型,一旦指标下滑自动回滚,确保服务稳定。
tensorzero 将分散的 LLMOps 环节整合为闭环工作流,让团队能以最低成本实现大模型应用的快速迭代与高质量交付。
运行环境要求
- Linux
- macOS
- Windows
- 非必需(作为网关代理外部 LLM 时不需要 GPU
- 若自托管模型需视具体模型而定)
未说明(取决于并发量和是否自托管模型)

快速开始

TensorZero
TensorZero 是一个开源的 LLMOps 平台,它统一了以下功能:
- 网关: 通过统一的 API 访问所有 LLM 提供商,专为高性能设计(p99 延迟 <1ms)
- 可观测性: 将推理结果和反馈存储到您的数据库中,可通过编程接口或 UI 查看
- 评估: 使用启发式方法、LLM 评判员等对单个推理或端到端工作流进行基准测试
- 优化: 收集指标和人工反馈,以优化提示词、模型和推理策略
- 实验: 内置 A/B 测试、路由、回退机制、重试等功能,让您更自信地部署
您可以根据需求选择所需功能,逐步采用,并与其他工具结合使用。 它与 OpenAI SDK、OpenTelemetry 以及 各大主流 LLM 提供商 都能良好兼容。
TensorZero 目前已被从前沿 AI 创业公司到财富 10 强的企业广泛使用,支撑着全球约 1% 的 LLM API 开支。
官网
·
文档
·
Twitter
·
Slack
·
Discord
快速入门(5 分钟)
·
部署指南
·
API 参考
·
配置参考
演示
功能
[!NOTE]
🆕 TensorZero 自动驾驶
TensorZero 自动驾驶是一个由 TensorZero 提供支持的 自动化 AI 工程师,它可以分析 LLM 的可观测性数据,设置评估任务,优化提示词和模型,并运行 A/B 测试。
它能够 显著提升 LLM 代理在各种任务中的性能:
![]()
🌐 LLM 网关
只需集成一次 TensorZero,即可访问所有主流 LLM 提供商。
- 调用任意 LLM(无论是 API 还是自托管模型)都可通过单一的统一 API 实现
- 支持 工具使用、结构化输出(JSON)、批量推理、嵌入生成、多模态输入(图像、文件)、缓存机制 等功能
- 创建提示模板和模式,以确保您的应用程序与 LLM 之间的接口标准化
- 凭借 🦀 Rust 语言的强大性能,满足极高的吞吐量和低延迟需求:在 10k+ QPS 下,p99 延迟开销 <1ms
- 确保高可用性,通过路由、重试、回退、负载均衡、细粒度超时设置等功能实现
- 跟踪使用情况和成本,并 实施自定义速率限制,支持按标签等细粒度范围进行控制
- 为 TensorZero 设置身份验证,允许客户端在不共享提供商 API 密钥的情况下访问模型
支持的模型提供商
Anthropic, AWS Bedrock, AWS SageMaker, Azure, DeepSeek, Fireworks, GCP Vertex AI Anthropic, GCP Vertex AI Gemini, Google AI Studio (Gemini API), Groq, Hyperbolic, Mistral, OpenAI, OpenRouter, SGLang, TGI, Together AI, vLLM,以及 xAI (Grok)。
如果您需要其他服务?TensorZero 同时也支持 任何 OpenAI 兼容的 API(例如 Ollama)。
使用示例
您可以将 TensorZero 与任何 OpenAI SDK(Python、Node.js、Go 等)或其他 OpenAI 兼容的客户端一起使用。
- 部署 TensorZero 网关(只需一个 Docker 容器)。
- 在您的 OpenAI 兼容客户端中更新
base_url和model。 - 执行推理:
from openai import OpenAI
# 将客户端指向 TensorZero 网关
client = OpenAI(base_url="http://localhost:3000/openai/v1", api_key="not-used")
response = client.chat.completions.create(
# 调用任何模型提供商(或 TensorZero 函数)
model="tensorzero::model_name::anthropic::claude-sonnet-4-6",
messages=[
{
"role": "user",
"content": "分享一个关于 TensorZero 的有趣事实。",
}
],
)
更多信息请参阅 快速入门。
🔍 LLM 可观测性
可以放大以调试单个 API 调用,也可以缩小以监控跨模型和提示随时间变化的指标——所有这些都可以通过开源的 TensorZero UI 实现。
- 将推理结果及**反馈(指标、人工编辑等)** 存储到您自己的数据库中
- 使用 TensorZero UI 或编程方式深入分析单个推理结果或高层次的聚合模式
- 构建数据集 用于优化、评估及其他工作流
- 使用新的提示、模型、推理策略等重放历史推理记录
- 导出 OpenTelemetry 跟踪数据 (OTLP) 和 导出 Prometheus 指标 到您喜爱的应用程序可观测性工具中
- 即将推出:AI 辅助调试与根因分析;AI 辅助数据标注
📈 LLM 优化
将生产环境中的指标和人工反馈发送出去,以便轻松优化您的提示、模型和推理策略——无论是通过 UI 还是编程方式。
- 使用 监督微调、RLHF 等技术优化您的模型
- 使用自动化提示工程算法(如 GEPA)优化您的提示
- 使用 动态上下文学习、最佳/混合 N 抽样等方法优化您的 推理策略
- 为您的 LLM 启用反馈循环:让生产数据驱动的数据与学习飞轮不断迭代,从而打造更智能、更快、更低成本的模型
- 即将推出:合成数据生成
📊 LLM 评估
使用启发式方法和 LLM 评委提供的评估功能,比较提示、模型和推理策略。
- 使用启发式方法或 LLM 评委支持的 推理评估 对 单个推理进行评估(类似于 LLM 的单元测试)
- 使用完全灵活的 工作流评估 对 端到端工作流进行评估(类似于 LLM 的集成测试)
- 像优化其他 TensorZero 函数一样优化 LLM 评委,使其与人类偏好保持一致
- 即将推出:更多内置评估器;无头评估
| 评估 » UI | 评估 » CLI |
![]() |
|
🧪 LLM 实验
借助内置的 A/B 测试、路由、回退机制、重试等功能,自信地部署应用。
- 运行自适应 A/B 测试,以确保部署成功,并找到最适合您用例的提示和模型。
- 在复杂的工作流中强制执行原则性的实验,包括对多轮 LLM 系统、顺序测试等的支持。
更多!
使用一套专为原型设计而优化、但从一开始就旨在支持最复杂的 LLM 应用和部署的开源技术栈进行开发。
- 无论构建简单应用还是大规模部署,均可采用适合 GitOps 的编排方式
- 扩展 TensorZero,提供内置逃生通道、以编程优先的方式使用、直接访问数据库等功能
- 可与其他第三方工具集成:专业的可观测性和评估工具、模型提供商、代理编排框架等
- 通过 Playground UI 交互式地试验提示,快速迭代
常见问题解答
TensorZero 与其他 LLM 框架有何不同?
- TensorZero 让您能够基于生产指标和人类反馈来优化复杂的 LLM 应用。
- TensorZero 支持工业级 LLM 应用的需求:低延迟、高吞吐量、类型安全、自托管、GitOps、可定制性等。
- TensorZero 统一了整个 LLMOps 堆栈,从而产生叠加效应。例如,LLM 评估可以与 AI 审判官一起用于模型的微调。
我能否将 TensorZero 与 ___ 一起使用?
可以。 支持所有主流编程语言。 它能很好地与 OpenAI SDK、OpenTelemetry 以及 所有主要的 LLM 提供商 配合使用。
TensorZero 是否已准备好投入生产?
是的。 TensorZero 目前已被从前沿 AI 创业公司到财富 10 强的企业所采用,并支撑着当今全球 LLM API 支出的约 1%。
这里有一个案例研究:利用 LLM 自动化大型银行的代码变更日志
TensorZero 的费用是多少?
TensorZero(LLMOps 平台)是 100% 自托管且开源的。
TensorZero Autopilot(自动化 AI 工程师)则是由 TensorZero 提供支持的补充性付费产品。
谁在构建 TensorZero?
我们的技术团队包括一位前 Rust 编译器维护者、拥有数千次引用的机器学习研究人员(来自斯坦福、卡内基梅隆、牛津、哥伦比亚大学)以及一家十亿美元估值初创公司的首席产品官。我们得到了与领先开源项目(如 ClickHouse、CockroachDB)和 AI 实验室(如 OpenAI、Anthropic)相同的投资者的支持。请参阅我们的 $730 万美元种子轮融资公告 和 VentureBeat 的报道。我们正在 纽约招聘。
我该如何开始使用?
您可以逐步采用 TensorZero。我们的 快速入门 只需 5 分钟,就能将一个普通的 OpenAI 封装转换为具备可观测性和微调功能的生产就绪型 LLM 应用程序。
开始使用
立即开始构建。 快速入门 展示了使用 TensorZero 设置 LLM 应用是多么简单。
有问题吗?
在工作中使用 TensorZero 吗?
请发送邮件至 hello@tensorzero.com,以便为您和您的团队设置一个免费的 Slack 或 Teams 频道。
示例
我们正在开发一系列 完整的可运行示例,以展示 TensorZero 的数据与学习飞轮机制。
此示例展示了如何使用 TensorZero 优化数据提取流水线。 我们演示了诸如微调和动态上下文学习(DICL)等技术。 最终,经过优化的 GPT-4o Mini 模型在该任务上的表现超越了 GPT-4o——而且成本和延迟仅为后者的几分之一——仅需少量训练数据。
本示例展示了如何使用 TensorZero 构建一个多跳检索代理。 该代理会迭代地搜索维基百科以收集信息,并决定何时已掌握足够的上下文来回答复杂问题。
本示例对 GPT-4o Mini 进行微调,以生成符合特定品味的俳句。 您将看到 TensorZero 的“盒装数据飞轮”发挥作用:更好的变体带来更好的数据,而更好的数据又带来更优的变体。 您会通过多次微调 LLM 看到进展。
本示例展示了如何对多模态模型(VLMs),如 GPT-4o,进行微调,以提升其在视觉-语言任务中的表现。 具体而言,我们将构建一个系统来分类文档图像(计算机科学论文的截图)。
本示例展示了 Best-of-N 抽样如何通过从多个生成选项中选择最有希望的走法,显著增强 LLM 的国际象棋水平。
博客文章
我们在 TensorZero 博客 上撰写关于 LLM 工程的文章。 以下是我们的一些精选文章:
版本历史
2026.4.02026/04/022026.3.42026/03/262026.3.32026/03/182026.3.22026/03/132026.3.12026/03/052026.3.02026/03/042026.2.22026/02/262026.2.12026/02/162026.2.02026/02/052026.1.82026/01/302026.1.72026/01/302026.1.62026/01/302026.1.52026/01/242026.1.22026/01/152026.1.12026/01/142026.1.02026/01/102025.12.62025/12/262025.12.52025/12/232025.12.32025/12/172025.12.22025/12/12常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
