kaito
KAITO 是一款专为 Kubernetes 集群设计的 AI 工具链操作员,旨在自动化大语言模型(LLM)的推理、微调及检索增强生成(RAG)引擎的部署流程。它主要解决了在分布式环境中配置大模型时面临的复杂性难题,用户无需手动调整流水线并行、数据并行等繁琐参数,也无需额外配置存储资源。
KAITO 特别适合需要在云原生架构下高效管理 AI 工作负载的开发者和运维工程师。其核心亮点在于极简的 API 设计与智能的资源调度:用户只需指定 GPU 实例类型和模型 ID,KAITO 即可自动估算显存需求并计算所需节点数量。通过集成节点自动供应器(NAP),它能精准调配 GPU 资源以实现最优的分布式推理。此外,KAITO 创新性地利用 GPU 节点内置的本地 NVMe 作为模型存储,省去了外部存储依赖,并全面支持所有 vLLM 兼容的 HuggingFace 模型。结合 KEDA 实现的自动扩缩容能力,KAITO 让大模型在 Kubernetes 上的运行变得更加轻松、高效且成本可控。
使用场景
某电商公司的算法团队需要在 Kubernetes 集群中快速部署并弹性伸缩一个基于 Llama 3 的智能客服模型,以应对大促期间的流量洪峰。
没有 kaito 时
- 资源估算困难:工程师需手动计算模型显存占用,反复尝试才能确定所需的 GPU 数量和型号,常因配置不当导致 OOM(内存溢出)或资源浪费。
- 部署流程繁琐:编写复杂的 YAML 文件来配置 vLLM 的张量并行(TP)、流水线并行(PP)等参数,稍有错误即导致推理服务启动失败。
- 扩缩容滞后:面对突发流量,缺乏基于推理指标(如请求队列长度)的自动扩缩容机制,人工介入调整副本数往往来不及响应,造成用户请求超时。
- 存储成本高:需要预先配置昂贵的共享存储(如云盘)来存放模型权重,增加了基础设施成本和管理复杂度。
使用 kaito 后
- 智能资源调度:只需指定模型 ID 和 GPU 类型,kaito 自动估算显存并计算最佳节点数,一键完成分布式推理环境的构建。
- 配置极简自动化:屏蔽了底层复杂的并行策略参数,kaito 根据硬件拓扑自动优化 vLLM 配置,大幅降低部署门槛和出错率。
- 精准弹性伸缩:结合 InferenceSet 与 KEDA,kaito 能实时监控 vLLM 指标并自动增减副本,轻松扛住大促流量峰值,闲时自动释放资源。
- 本地存储优化:直接利用 GPU 节点的本地 NVMe 缓存模型,无需额外挂载共享存储,既提升了加载速度又节省了成本。
kaito 将原本需要数天调优的 LLM 部署工作缩短至分钟级,让团队能专注于业务逻辑而非基础设施运维。
运行环境要求
- Linux
- 必需
- 支持 NVIDIA GPU,具体型号和显存大小由控制器根据模型元数据和实例类型自动估算
- 利用节点内置本地 NVMe 作为模型存储,无需额外存储
未说明(由控制器根据模型自动计算并触发节点自动配置)

快速开始
Kubernetes AI 工具链运营商(KAITO)
| 现在 KAITO 中可以运行所有 vLLM 支持的模型。 |
| 最新版本:2026年4月15日。KAITO v0.10.0。 |
| 首次发布:2023年11月15日。KAITO v0.1.0。 |
KAITO 是一套运营商工具集,可在 Kubernetes 集群中自动化部署 LLM 模型推理、微调以及 RAG(检索增强生成)引擎。 与其他推理模型部署方法相比,KAITO 具有以下关键优势:
- 简化 CRD API,移除详细的部署参数。控制器为关键推理引擎调度参数提供优化的预设配置,例如流水线并行度 (PP)、数据并行度 (DP)、张量并行度 (TP)、最大模型长度等。
- 使用节点自动供应器 (NAP) 根据准确的模型内存估算来供应 GPU 资源,使控制器能够选择分布式推理的最佳节点数量。
- 利用 GPU 节点内置的本地 NVMe 作为模型存储——推理无需额外存储。
- 支持任何 vLLM 支持的 HuggingFace 模型。
架构
KAITO 遵循经典的 Kubernetes 自定义资源定义 (CRD)/控制器设计模式来进行工作负载编排,并与 Gateway API Inference Extension 集成以支持基于 LLM 的路由。
- Workspace:作为管理 LLM 推理/微调工作负载的基本构建块的 CRD。该 API 提供了一种大大简化的体验,用于在 Kubernetes 中部署 LLM 模型——用户只需提供 GPU 实例类型和 HuggingFace 模型 ID,控制器将:
- 根据 GPU 实例类型和模型元数据估算 GPU 内存需求,并计算所需的 GPU 数量;
- 通过集成 Karpenter API(NodePool)触发 GPU 节点自动供应;
- 根据 GPU 硬件拓扑优化调度,为单节点/多节点推理配置推理引擎参数。
目前仅支持 vLLM 引擎。支持 LoRA 适配器。默认启用 KVCache 卸载。
- InferenceSet:专为管理同一模型的 Workspace 实例副本数量而设计的 CRD。主要用于根据推理请求负载对 Workspace 进行自动扩展。它会响应由 KEDA 自动伸缩器决定的扩容/缩容操作,该自动伸缩器使用由 KEDA 插件收集的 vLLM 指标。
- InferencePool:KAITO 通过为每个 InferenceSet 创建相应的 InferencePool 对象和 EPP(端点选择器,可实现 KVCache 感知路由),集成 Gateway API Inference Extension。它可以与任何支持推理扩展的外部网关协同工作。
注意:在此仓库中,开源的 gpu-provisioner 被用于端到端测试,并在各种文档中被提及。KAITO 可以与任何其他支持 Karpenter-core API 的节点供应器一起使用。
KAITO 还支持 RAGEngine 运营商。它简化了管理检索增强生成 (RAG) 服务的流程。
- RAGEngine:定义 RAG 服务组件的 CRD,包括 LLM 端点(可选)、嵌入服务和向量数据库。控制器将创建所有必需的组件。
- 向量数据库:支持内置的 FAISS 内存向量数据库(默认),也可指定 Qdrant/Milvus 持久化数据库。
- Embedding:支持本地和远程嵌入服务,用于将文档嵌入到向量数据库中。
- RAGService:利用 LlamaIndex 编排的核心服务。它支持常用的 API,例如
/index用于索引文档,/v1/chat/completion用于拦截 LLM 调用并自动附加检索到的上下文,以及/retrieve用于与 MCP 服务器集成。/retrieveAPI 使用倒数排名融合 (RRF) 混合搜索算法,结合 BM25 稀疏检索和向量密集检索的结果。
有关服务 API 的详细信息,请参阅此 文档。
入门指南
- 安装:请参阅此处的指南,了解如何使用 Helm 安装核心组件(Workspace、InferenceSet),以及此处的指南,了解如何使用 Terraform 进行安装。
- 快速入门:请参阅此处的快速入门指南,了解如何使用 KAITO 运行您的第一个模型!
- 自动伸缩:请参阅此文档,了解如何配置 KAITO 和 KEDA 以启用推理工作负载的自动伸缩功能。
- 使用 HuggingFace 运行自定义模型:如果您计划使用 HuggingFace 运行任何自定义模型,请参阅此文档。请注意:KAITO 仅支持托管在 HuggingFace 上的自定义模型。
- CPU 模型:请参阅此文档,了解如何使用 aikit 运行 CPU 模型。
- RAGEngine:请参阅此处的安装指南和使用文档。
贡献
本项目欢迎贡献与建议。为确保我们能够合法使用您的贡献,所有贡献者需签署贡献者许可协议(CLA),声明您有权且确实授予我们使用您贡献的权利。有关详情,请访问 CNCF 的 CLA。
当您提交拉取请求时,CLA 机器人将自动判断您是否需要提供 CLA,并相应地标记您的 PR(例如添加状态检查或评论)。您只需按照机器人提供的指示操作即可。对于使用我们 CLA 的所有仓库,您只需完成一次此流程。
本项目已采用 CNCF 的 CLA,请通过 https://easycla.lfx.linuxfoundation.org 在线签署 CLA。如遇问题,您可通过 Linux Foundation 支持网站向 Linux Foundation ID 团队提交工单。
参与方式!
- 访问 CNCF Slack 中的 #KAITO 频道,讨论正在进行的功能开发及提案。
- 我们每周二下午 4:00 PST 为社区贡献者举办线上会议。欢迎加入:会议链接。
- 请参考我们的KAITO 社区会议记录文档,获取每周会议的详细内容!
许可证
行为准则
KAITO 已采纳 云原生计算基金会行为准则。更多信息请参阅 KAITO 行为准则。
联系方式
- 如有任何问题,请发送邮件至“KAITO 开发团队”kaito-dev@microsoft.com。
版本历史
v0.10.02026/04/15v0.9.32026/03/19v0.9.22026/03/16v0.9.12026/03/10v0.9.02026/02/27v0.8.12026/01/24v0.8.02025/12/20v0.8.0-rc.02025/12/08v0.7.22025/11/01v0.7.12025/10/09v0.7.02025/09/24v0.6.22025/09/11v0.6.12025/09/03v0.6.02025/08/08v0.5.12025/07/21v0.5.02025/07/03v0.4.62025/05/14v0.4.52025/04/18v0.4.42025/01/31v0.4.32025/01/30常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
