plano
Plano 是一款专为智能体(Agentic)应用打造的 AI 原生代理服务器与数据平面。它旨在解决开发者在将智能体演示转化为生产级应用时面临的难题:无需在每个项目中重复编写繁琐的中间件代码,如复杂的路由逻辑、安全过滤、监控追踪以及不同大模型之间的适配工作。
通过将这些通用基础设施剥离并集中管理,Plano 让开发者能专注于核心业务逻辑的实现。其核心亮点包括:低延迟的智能体编排能力,支持动态添加新智能体而无需修改应用代码;灵活的大模型路由机制,可根据模型名称、语义别名或自动策略进行流量分发;零代码埋点的信号捕获与全链路可观测性;以及基于过滤链的安全护栏,轻松实现防越狱和内容审核。
Plano 基于高性能的 Envoy _proxy_构建,由核心贡献者打造,确保在现代负载下具备工业级的稳定性与扩展性。它语言无关,可无缝集成到现有的任何 AI 框架或架构中。无论是希望快速构建原型的独立开发者,还是追求高可用、高安全性的企业工程团队,Plano 都能帮助你们更高效、更安全地将智能体应用交付至生产环境。
使用场景
某初创团队正在开发一款多智能体旅行规划应用,需要协调航班查询、酒店推荐和行程优化三个独立 Agent 协同工作。
没有 plano 时
- 硬编码路由逻辑:开发者必须在业务代码中手动编写复杂的路由规则,每次新增或修改 Agent 都需要重构核心代码,导致迭代缓慢且容易出错。
- 安全过滤分散:每个 Agent 需单独实现防注入和内容审核逻辑,标准不统一,极易出现安全漏洞让恶意提示词绕过防御。
- 可观测性缺失:缺乏统一的追踪机制,当用户投诉行程规划错误时,团队难以定位是哪个模型响应慢或哪个 Agent 决策失误,排查全靠猜。
- 模型切换成本高:若想将某个任务的底层模型从 Claude 切换到 GPT-4,需深入各个微服务修改 API 调用代码,维护成本极高。
使用 plano 后
- 声明式编排:通过配置文件即可定义 Agent 间的流转逻辑,新增“当地美食推荐”Agent 时无需触碰业务代码,plano 自动处理低延迟调度。
- 统一安全网关:利用内置的过滤器链(Filter Chains)集中部署防越狱和内容审核策略,所有流量经过 plano 时自动清洗,确保全局安全合规。
- 全链路信号捕捉:plano 自动捕获详细的智能体信号和 OTEL 追踪数据,团队可直接在仪表盘看到每一步的耗时与决策依据,快速定位性能瓶颈。
- 智能模型路由:只需配置语义别名(如"fast-model"),plano 即可根据预设策略自动将请求分发给最优模型,实现底层模型的无缝热切换。
plano 将繁琐的基础设施剥离为统一的数据平面,让团队能专注于旅行规划的核心业务逻辑,显著提升了多智能体应用的交付速度与运行稳定性。
运行环境要求
- 未说明
- 非必需
- Plano 作为代理服务器运行,默认使用托管的轻量级路由模型(如 4B 参数模型)
- 若需在本地生产环境运行这些模型,则需自行配置相应的 GPU 资源,但 README 未指定具体型号或显存要求
未说明

快速开始
面向代理型应用的原生AI代理服务器与数据平面。
Plano帮你摆脱繁琐的基础架构工作,解耦脆弱的框架抽象,将那些本不该在每个代码库中重复实现的功能集中管理——例如代理路由与编排、用于持续改进的丰富代理信号与追踪、用于安全与内容审核的护栏过滤器,以及支持模型敏捷性的智能LLM路由API。你可以使用任何语言或AI框架,更快地将代理应用部署到生产环境。
快速入门指南 • 使用Plano构建代理型应用 • 文档 • 联系我们
如果你觉得Plano很有用,请给这个仓库点个星⭐️——新版本和更新都会在这里首发。
概述
构建代理型演示项目很容易。但要以安全、可靠且可重复的方式将代理型应用顺利上线却并不简单。在快速完成一个原型之后,你往往会发现自己不得不开发“隐藏的中间件”来支撑生产环境:用于将请求路由到正确代理的逻辑、用于安全与内容审核的护栏钩子、用于持续学习的评估与可观ility集成,以及分散在不同框架和应用代码中的模型与提供商特有处理逻辑。
Plano通过将核心交付相关功能整合到统一的进程外数据平面中,有效解决了这一问题。
- 🚦 编排: 代理之间的低延迟编排;无需修改应用代码即可添加新代理。
- 🔗 模型敏捷性: 可按[模型名称、别名(语义化名称)]路由,或根据偏好自动路由](#use-plano-as-a-llm-router)。
- 🕵 Agentic Signals™: 无需编写代码即可捕获信号,同时为每个代理生成OTEL追踪与指标。
- 🛡️ 内容审核与记忆钩子: 通过过滤链一致地构建防越狱机制、添加内容审核策略并管理记忆。
Plano将这些基础架构工作从你的框架中剥离出来,让你能够专注于最重要的事情:代理型应用的核心业务逻辑。Plano背后有行业领先的LLM研究,其核心贡献者基于Envoy构建了关键基础设施,可大规模支持现代工作负载。
高层网络序列图:

立即前往我们的文档,了解如何利用Plano提升代理型应用的速度、安全性及可观ility。
[!重要提示] Plano及其Arch系列LLM(如Plano-Orchestrator-4B、Arch-Router等)在美国中部地区免费托管,旨在为你提供出色的首次开发体验。若需扩展规模并在生产环境中运行,你可以选择在本地运行这些LLM,或通过Discord联系我们获取API密钥。
使用Plano构建代理型应用
Plano将编排、模型管理和可观ility作为模块化的构建块——让你只需配置所需的部分(用于代理编排和护栏的边缘代理,或从你的服务中进行LLM路由,或者两者结合),从而无缝融入现有架构。下面是一个使用Plano构建的简单多代理旅行助手示例,展示了这三项核心能力。
📁 完整可运行代码: 请参阅
demos/agent_orchestration/travel_agents/,其中包含可在本地运行的天气和航班代理完整代码。
1. 在YAML中定义你的代理
# config.yaml
version: v0.3.0
# 你需要声明的内容:代理URL和自然语言描述
# 你无需编写的部分:意图分类器、路由逻辑、模型回退、提供商适配器或追踪埋点
agents:
- id: weather_agent
url: http://localhost:10510
- id: flight_agent
url: http://localhost:10520
model_providers:
- model: openai/gpt-4o
access_key: $OPENAI_API_KEY
default: true
- model: anthropic/claude-3-5-sonnet
access_key: $ANTHROPIC_API_KEY
listeners:
- type: agent
name: travel_assistant
port: 8001
router: plano_orchestrator_v1 # 由我们的4B参数路由模型驱动。你可以更换为其他模型
agents:
- id: weather_agent
description: |
提供全球任意城市的实时天气和预报信息。
处理诸如“巴黎现在天气如何?”、“东京会下雨吗?”等问题。
- id: flight_agent
description: |
搜索机场之间的航班信息,包括实时状态和时刻表。
处理诸如“从纽约飞往洛杉矶的航班有哪些?”、“给我看看飞往西雅图的航班”之类的请求。
tracing:
random_sampling: 100 # 自动捕获追踪数据以便评估
2. 编写简单的代理代码
你的代理只是实现了OpenAI兼容聊天补全接口的HTTP服务器。你可以使用任何语言或框架:
# weather_agent.py
from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
from openai import AsyncOpenAI
app = FastAPI()
# 指向Plano的LLM网关——它会为你处理模型路由
llm = AsyncOpenAI(base_url="http://localhost:12001/v1", api_key="EMPTY")
@app.post("/v1/chat/completions")
async def chat(request: Request):
body = await request.json()
messages = body.get("messages", [])
days = 7
# 你的代理逻辑:获取数据、调用API、执行工具
# 完整实现请参阅demos/agent_orchestration/travel_agents/
weather_data = await get_weather_data(request, messages, days)
# 将响应流式返回至Plano
async def generate():
stream = await llm.chat.completions.create(
model="openai/gpt-4o",
messages=[{"role": "system", "content": f"天气:{weather_data}"}, *messages],
stream=True
)
async for chunk in stream:
yield f"data: {chunk.model_dump_json()}\n\n"
return StreamingResponse(generate(), media_type="text/event-stream")
3. 启动Plano并查询你的代理
先决条件: 请按照先决条件指南安装Plano并设置好环境。
# 启动Plano
planoai up config.yaml
...
# 查询 - Plano 在一次对话中智能地将用户路由到两位客服
curl http://localhost:8001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o",
"messages": [
{"role": "user", "content": "我下周想从纽约飞往巴黎旅行。那里的天气怎么样?你能帮我找一些航班吗?"}
]
}'
# → Plano 将请求路由至 weather_agent 获取巴黎的天气信息 ✓
# → 随后路由至 flight_agent 查询纽约 → 巴黎的航班信息 ✓
# → 返回包含天气信息和航班选项的完整旅行计划
4. 免费获得可观测性和模型敏捷性
每个请求都通过 OpenTelemetry 进行端到端追踪——无需任何额外的埋点代码。

您无需构建的内容
| 基础设施相关事项 | 不使用 Plano | 使用 Plano |
|---|---|---|
| 代理编排 | 编写意图分类器 + 路由逻辑 | 在 YAML 中声明代理描述 |
| 模型管理 | 处理各提供商 API 的特殊性 | 统一的 LLM API 并附带状态管理 |
| 丰富追踪 | 为每个服务手动埋点 OTEL | 自动化的端到端追踪与日志 |
| 学习信号 | 构建管道以捕获/导出追踪数据 | 无需代码即可获取代理行为信号 |
| 添加代理 | 更新路由代码、测试并重新部署 | 直接添加到配置文件,重启即可 |
为何高效: Plano 使用专门构建的轻量级 LLM(例如我们自己的 40 亿参数调度器)来完成路由任务,而非依赖重量级框架或 GPT-4——这样既能提供生产级别的路由能力,又大幅降低了成本和延迟。
联系我们
如需联系我们,请加入我们的 Discord 服务器。我们会在那里积极回复并提供支持。
开始使用
准备好试用 Plano 了吗?请查看我们的完整文档:
- 快速入门指南 —— 几分钟内即可上手
- LLM 路由 —— 可按模型名称、别名或智能偏好进行路由
- 代理编排 —— 构建多代理工作流
- 过滤链 —— 添加安全约束、内容审核及记忆钩子
- 提示目标 —— 将提示转化为确定性的 API 调用
- 可观测性 —— 追踪数据、指标和日志
贡献
我们非常欢迎对 路线图 的反馈,并诚挚邀请您为 Plano 贡献力量!无论是修复 bug、新增功能、改进文档,还是制作教程,您的帮助都将不胜感激。更多详情请参阅我们的 贡献指南。
如果您觉得 Plano 很有用,请给本仓库点个 star ⭐️ —— 我们的最新发布和更新都会首先在这里公布。
版本历史
0.4.182026/04/090.4.172026/04/030.4.17-rc12026/04/030.4.162026/04/010.4.152026/03/310.4.142026/03/200.4.132026/03/200.4.122026/03/150.4.112026/03/050.4.92026/02/270.4.82026/02/180.4.72026/02/170.4.62026/02/110.4.42026/01/290.4.32026/01/180.4.22026/01/070.4.12025/12/280.4.02025/12/240.3.222025/12/110.3.212025/12/04常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器