kubeai

GitHub
1.2k 127 较难 1 次阅读 2天前Apache-2.0图像插件Agent开发框架语言模型音频
AI 解读 由 AI 自动生成,仅供参考

KubeAI 是一款专为 Kubernetes 设计的 AI 推理运算符,旨在让大语言模型(LLM)、视觉语言模型、向量嵌入及语音转文字等机器学习模型的生产部署变得简单高效。它主要解决了在大规模集群中运行有状态模型(如 vLLM)时的性能瓶颈问题:传统 Kubernetes 服务的随机负载均衡策略往往忽略模型的 KV 缓存状态,导致响应延迟高、吞吐量低。

通过内置感知前缀的智能负载均衡策略,KubeAI 能优化缓存利用率,显著提升系统整体性能。此外,它还支持从零自动扩缩容、动态管理 LoRA 适配器、自动化模型下载与挂载,并原生兼容 OpenAI API 接口,无需修改现有客户端代码即可无缝接入。值得一提的是,KubeAI 不依赖 Istio、Knative 等复杂外部组件,真正实现了“开箱即用”。

这款工具特别适合需要在 Kubernetes 环境中稳定、高效部署 AI 模型的开发者、MLOps 工程师及技术团队。无论是构建智能客服、检索增强生成(RAG)系统,还是处理音频转录任务,KubeAI 都能提供灵活且高性能的基础设施支持,帮助用户专注于业务逻辑而非底层运维细节。

使用场景

某电商团队正在构建基于大语言模型的智能客服系统,需在 Kubernetes 集群中部署多个 LLM 副本以应对早晚高峰的巨大流量波动。

没有 kubeai 时

  • 推理性能低下:Kubernetes 默认的随机负载均衡无视 vLLM 的 KV 缓存状态,导致首字延迟(TTFT)高且吞吐量不稳定。
  • 运维极其繁琐:需手动编写脚本下载模型、配置存储卷,并独立部署 Istio 或 Knative 来实现从零扩容,维护成本高。
  • 资源利用率差:无法动态加载 LoRA 适配器,为不同业务线微调模型时需启动大量独立实例,造成 GPU 资源严重浪费。
  • 客户端改造困难:后端架构复杂导致 API 不统一,前端需花费大量时间适配不同的推理服务接口。

使用 kubeai 后

  • 推理性能飞跃:kubeai 内置的前缀感知负载均衡策略优化了 KV 缓存命中率,显著降低延迟并提升高并发下的吞吐量。
  • 部署开箱即用:通过 Model CRD 一键定义模型,kubeai 自动处理模型下载、挂载及从零扩容,无需依赖任何外部网格组件。
  • 资源灵活调度:支持动态编排 LoRA 适配器,同一基础模型实例可服务多个微调任务,大幅降低 GPU 占用成本。
  • 无缝兼容生态:提供原生 OpenAI 兼容接口,现有代码无需修改即可直接对接,平滑迁移至生产环境。

kubeai 通过智能化的缓存感知调度与极简的运维自动化,让大规模 LLM 生产部署真正实现了高性能与低成本的平衡。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 非必需
  • 支持 CPU、GPU (NVIDIA) 或 TPU
  • 具体型号和显存取决于所选模型及配置(README 提到项目提供针对常见 GPU 类型预配置的模型目录)
内存

未说明(本地快速启动示例中建议 Podman 机器至少分配 6GB 内存)

依赖
notes该工具是运行在 Kubernetes 上的算子(Operator),而非直接的 Python 库。核心依赖是现有的 Kubernetes 集群(可通过 kind 或 minikube 在本地创建)。它不依赖 Istio 或 Knative。支持通过 Helm 一键部署。可根据需求选择纯 CPU 运行或调用 GPU/TPU 资源。内置了针对 vLLM 的前缀感知负载均衡策略以优化性能。
python未说明
Kubernetes Cluster
Helm
kubectl
vLLM (可选后端)
Ollama (可选后端)
FasterWhisper (可选后端)
Infinity (可选后端)
kubeai hero image

快速开始

KubeAI:AI 推理运算符

在 Kubernetes 上部署和扩展机器学习模型。

专为大型语言模型、嵌入、重排序以及语音转文本设计。

亮点

它用来做什么?

🚀 LLM 推理 - 运行 vLLM 和 Ollama 服务器
🎙️ 语音处理 - 使用 FasterWhisper 转录音频
🔢 向量嵌入 - 使用 Infinity 生成嵌入
📚 重排序 - 使用交叉编码器模型重新排列搜索结果

你能得到什么?

⚡️ 智能扩展 - 根据需求从零扩展到所需规模
📊 优化路由 - 大幅提升大规模性能(参见论文
💾 模型缓存 - 自动下载并挂载(EFS 等)
🧩 动态适配器 - 协调跨副本的 LoRA 适配器
📨 事件流 - 与 Kafka、PubSub 等集成

我们致力于提供“开箱即用”的体验:

🔗 OpenAI 兼容 - 可与 OpenAI 客户端库配合使用
🛠️ 零依赖 - 不需要 Istio、Knative 等
🖥 硬件灵活 - 支持 CPU、GPU 或 TPU

社区评价:

可复用、高度抽象的 LLM 运行解决方案 - Mike Ensor, Google

为什么选择 KubeAI?

更好的大规模性能

当运行多个 vLLM 副本时,Kubernetes 标准服务背后 kube-proxy 内置的随机负载均衡策略表现不佳(TTFT 和吞吐量)。这是因为 vLLM 并非无状态,其性能受 KV 缓存状态的显著影响。

KubeAI 代理包含一种前缀感知的负载均衡策略,可优化 KV 缓存利用率,从而大幅提高系统整体性能。

更多详情请参阅 完整论文

简单易用

KubeAI 不依赖其他系统,如 Istio 和 Knative(用于从零扩展),也不依赖 Prometheus 指标适配器(用于自动缩放)。这使得 KubeAI 几乎可以在任何 Kubernetes 集群中开箱即用。日常运维也大大简化——无需担心不同项目之间的版本和配置不匹配问题。

该项目附带一个常用模型目录,已针对常见 GPU 类型预配置。这意味着您可以减少调整 vLLM 特定参数的时间。随着项目的扩展,我们计划构建一个全面的模型优化流水线,以确保您充分利用硬件资源。

OpenAI API 兼容性

无需更改您的客户端库,KubeAI 支持以下端点:

/v1/chat/completions
/v1/completions
/v1/embeddings
/v1/rerank
/v1/models
/v1/audio/transcriptions

架构

KubeAI 由两个主要子组件组成:

1. 模型代理: KubeAI 代理提供与 OpenAI 兼容的 API。在此 API 后面,代理实施了一种前缀感知的负载均衡策略,以优化后端服务引擎(即 vLLM)的 KV 缓存利用率。代理还实现了请求排队(在系统从零副本扩展时)和请求重试(以无缝处理不良后端)。

2. 模型运算符: KubeAI 模型运算符直接管理后端服务器 Pod。它通过 KubeAI Model CRD 自动执行常见操作,例如下载模型、挂载卷以及加载动态 LoRA 适配器。

这两个组件位于同一部署中,但也可以独立部署

采用者

已知采用者列表:

名称 描述 链接
Telescope Telescope 使用 KubeAI 进行多区域大规模批量 LLM 推理。 trytelescope.ai
Google Cloud 分布式边缘 KubeAI 被纳入边缘推理的参考架构。 LinkedIn, GitLab
Lambda 您可以在 Lambda AI 开发者云上试用 KubeAI。请参阅 Lambda 的教程视频 Lambda
Vultr KubeAI 可以通过应用市场部署在 Vultr 托管 Kubernetes 上。 Vultr
Arcee Arcee 使用 KubeAI 进行多区域、多租户 SLM 推理。 Arcee
Seeweb Seeweb 利用 KubeAI 处理直接和面向客户的 GPU 推理工作负载。KubeAI 可以部署在任何 GPU 服务器和 SKS 上。 Seeweb

如果您正在使用 KubeAI 并希望被列入采用者名单,请提交 PR。

本地快速入门

使用 kindminikube 创建本地集群。

提示:如果您使用 Podman 运行 kind... 请确保您的 Podman 虚拟机可以使用高达 6GB 的内存(默认上限为 2GB):
# 您可能需要停止并删除现有虚拟机:
podman machine stop
podman machine rm

# 初始化并启动一台新虚拟机:
podman machine init --memory 6144 --disk-size 120
podman machine start
kind create cluster # 或者:minikube start

添加 KubeAI 的 Helm 仓库。

helm repo add kubeai https://www.kubeai.org
helm repo update

安装 KubeAI,并等待所有组件就绪(可能需要一分钟)。

helm install kubeai kubeai/kubeai --wait --timeout 10m

安装一些预定义的模型。

cat <<EOF > kubeai-models.yaml
catalog:
  deepseek-r1-1.5b-cpu:
    enabled: true
    features: [TextGeneration]
    url: 'ollama://deepseek-r1:1.5b'
    engine: OLlama
    minReplicas: 1
    resourceProfile: 'cpu:1'
  qwen2-500m-cpu:
    enabled: true
  nomic-embed-text-cpu:
    enabled: true
EOF

helm install kubeai-models kubeai/models \
    -f ./kubeai-models.yaml

在继续下一步之前,请在一个独立的终端中开启对 Pod 的监听,以观察 KubeAI 如何部署模型。

kubectl get pods --watch

与 Deepseek R1 1.5b 交互

由于我们为 Deepseek 模型设置了 minReplicas: 1,你应该会看到一个模型 Pod 已经启动并运行。

启动本地端口转发,连接到内置的聊天界面。

kubectl port-forward svc/open-webui 8000:80

现在打开浏览器访问 localhost:8000,选择 Deepseek 模型开始聊天。

将 Qwen2 从零扩展到多副本

如果你回到浏览器并与 Qwen2 开始对话,会发现它一开始响应较慢。这是因为我们为该模型设置了 minReplicas: 0,KubeAI 需要启动一个新的 Pod(可以通过 kubectl get models -oyaml qwen2-500m-cpu 来验证)。

加入社区

kubeai.org 上阅读相关概念、指南和 API 文档。

🌟 别忘了在 GitHub 上给项目点个赞,并关注仓库以获取最新动态!

KubeAI 星级历史图表

如果你有感兴趣的特性建议或遇到问题,欢迎随时联系我们。

你也可以通过以下方式联系本项目的维护者:

或者直接在 LinkedIn 上联系他们:

维护者:

版本历史

v0.23.22026/03/31
helm-chart-kubeai-0.23.22026/03/31
v0.23.12025/12/03
helm-chart-models-0.23.12025/12/03
helm-chart-kubeai-0.23.12025/12/03
helm-chart-models-0.23.02025/11/24
helm-chart-kubeai-0.23.02025/11/24
v0.23.02025/11/24
v0.22.12025/10/15
helm-chart-kubeai-0.22.12025/10/15
v0.22.02025/10/09
helm-chart-kubeai-0.22.02025/10/09
helm-chart-models-0.21.02025/05/25
helm-chart-kubeai-0.21.02025/05/25
v0.21.02025/05/25
helm-chart-models-0.20.02025/04/24
helm-chart-kubeai-0.20.02025/04/24
v0.20.02025/04/23
v0.19.02025/03/26
helm-chart-models-0.19.02025/03/26

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架