[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kubeai-project--kubeai":3,"tool-kubeai-project--kubeai":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":117,"env_os":118,"env_gpu":119,"env_ram":120,"env_deps":121,"category_tags":132,"github_topics":133,"view_count":23,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":147,"updated_at":148,"faqs":149,"releases":180},2350,"kubeai-project\u002Fkubeai","kubeai","AI Inference Operator for Kubernetes. The easiest way to serve ML models in production. Supports VLMs, LLMs, embeddings, and speech-to-text.","KubeAI 是一款专为 Kubernetes 设计的 AI 推理运算符，旨在让大语言模型（LLM）、视觉语言模型、向量嵌入及语音转文字等机器学习模型的生产部署变得简单高效。它主要解决了在大规模集群中运行有状态模型（如 vLLM）时的性能瓶颈问题：传统 Kubernetes 服务的随机负载均衡策略往往忽略模型的 KV 缓存状态，导致响应延迟高、吞吐量低。\n\n通过内置感知前缀的智能负载均衡策略，KubeAI 能优化缓存利用率，显著提升系统整体性能。此外，它还支持从零自动扩缩容、动态管理 LoRA 适配器、自动化模型下载与挂载，并原生兼容 OpenAI API 接口，无需修改现有客户端代码即可无缝接入。值得一提的是，KubeAI 不依赖 Istio、Knative 等复杂外部组件，真正实现了“开箱即用”。\n\n这款工具特别适合需要在 Kubernetes 环境中稳定、高效部署 AI 模型的开发者、MLOps 工程师及技术团队。无论是构建智能客服、检索增强生成（RAG）系统，还是处理音频转录任务，KubeAI 都能提供灵活且高性能的基础设施支持，帮助用户专注于业务逻辑而非底层运维细节。","# KubeAI: AI Inferencing Operator\n\n\u003Cp align=\"left\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fgo-mod\u002Fgo-version\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002Fkubeai-project\u002Fkubeai\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fkubeai-project\u002Fkubeai\u002Fmain\" \u002F>\n\u003C\u002Fp>\n\nDeploy and scale machine learning models on Kubernetes. \n\nBuilt for LLMs, embeddings, reranking and speech-to-text.\n\n## Highlights\n\nWhat is it for?\n\n🚀 **LLM Inferencing** - Operate vLLM and Ollama servers  \n🎙️ **Speech Processing** - Transcribe audio with FasterWhisper  \n🔢 **Vector Embeddings** - Generate embeddings with Infinity  \n📚 **Reranking** - Reorder search results with cross-encoder models  \n\nWhat do you get?\n\n⚡️ **Intelligent Scaling** - Scale from zero to meet demand  \n📊 **Optimized Routing** - Dramatically improves performance at scale ([see paper](.\u002Fblog\u002Fposts\u002Fllm-load-balancing-at-scale-chwbl.md))  \n💾 **Model Caching** - Automates downloading & mounting (EFS, etc.)  \n🧩 **Dynamic Adapters** - Orchestrates LoRA adapters across replicas  \n📨 **Event Streaming** - Integrates with Kafka, PubSub, and more  \n\nWe strive for an \"it justs works\" experience:\n\n🔗 **OpenAI Compatible** - Works with OpenAI client libraries  \n🛠️ **Zero Dependencies** - Does not require Istio, Knative, etc.  \n🖥 **Hardware Flexible** - Runs on CPU, GPU, or TPU  \n\nQuotes from the community:\n\n> reusable, well abstracted solution to run LLMs - [Mike Ensor](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fmikeensor_gcp-solutions-public-retail-edge-available-cluster-traits-activity-7237515920259104769-vBs9?utm_source=share&utm_medium=member_desktop), Google\n\n## Why KubeAI?\n\n### Better performance at scale\n\nWhen running multiple replicas of vLLM, the random load balancing strategy built into kube-proxy that backs standard Kubernetes Services performs poorly (TTFT & throughput). This is because vLLM isn't stateless, its performance is heavily influenced by the state of its KV cache.\n\nThe KubeAI proxy includes a prefix-aware load balancing strategy that optimizes KV cache utilization - resulting in dramatic improvements to overall system performance.\n\n\u003Cimg src=\".\u002Fgraphs\u002Fttft-benchmark.png\" width=\"80%\"\u002F>\n\nSee the [full paper](.\u002Fblog\u002Fposts\u002Fllm-load-balancing-at-scale-chwbl.md) for more details.\n\n### Simplicity and ease of use\n\nKubeAI does not depend on other systems like Istio & Knative (for scale-from-zero), or the Prometheus metrics adapter (for autoscaling). This allows KubeAI to work out of the box in almost any Kubernetes cluster. Day-two operations is greatly simplified as well - don't worry about inter-project version and configuration mismatches.\n\nThe project ships with a catalog of popular models, pre-configured for common GPU types. This means you can spend less time tweaking vLLM-specific flags. As we expand, we plan to build out an extensive model optimization pipeline that will ensure you get the most out of your hardware.\n\n### OpenAI API Compatibility\n\nNo need to change your client libraries, KubeAI supports the following endpoints:\n\n```bash\n\u002Fv1\u002Fchat\u002Fcompletions\n\u002Fv1\u002Fcompletions\n\u002Fv1\u002Fembeddings\n\u002Fv1\u002Frerank\n\u002Fv1\u002Fmodels\n\u002Fv1\u002Faudio\u002Ftranscriptions\n```\n\n## Architecture\n\nKubeAI consists of two primary sub-components:\n\n**1. The model proxy:** the KubeAI proxy provides an OpenAI-compatible API. Behind this API, the proxy implements a prefix-aware load balancing strategy that optimizes for KV the cache utilization of the backend serving engines (i.e. vLLM). The proxy also implements request queueing (while the system scales from zero replicas) and request retries (to seamlessly handle bad backends).\n\n**2. The model operator:** the KubeAI model operator manages backend server Pods directly. It automates common operations such as downloading models, mounting volumes, and loading dynamic LoRA adapters via the KubeAI Model CRD.\n\nBoth of these components are co-located in the same deployment, but [could be deployed independently](https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F430).\n\n\u003Cimg src=\".\u002Fdiagrams\u002Farch.excalidraw.png\">\u003C\u002Fimg>\n\n## Adopters\n\nList of known adopters:\n\n| Name | Description | Link |\n| ---- | ----------- | ---- |\n| Telescope | Telescope uses KubeAI for multi-region large scale batch LLM inference. | [trytelescope.ai](https:\u002F\u002Ftrytelescope.ai) |\n| Google Cloud Distributed Edge | KubeAI is included as a reference architecture for inferencing at the edge. | [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fmikeensor_gcp-solutions-public-retail-edge-available-cluster-traits-activity-7237515920259104769-vBs9?utm_source=share&utm_medium=member_desktop), [GitLab](https:\u002F\u002Fgitlab.com\u002Fgcp-solutions-public\u002Fretail-edge\u002Favailable-cluster-traits\u002Fkubeai-cluster-trait) |\n| Lambda | You can try KubeAI on the Lambda AI Developer Cloud. See Lambda's [tutorial](https:\u002F\u002Fdocs.lambdalabs.com\u002Feducation\u002Flarge-language-models\u002Fkubeai-hermes-3\u002F) and [video](https:\u002F\u002Fyoutu.be\u002FHEtPO2Wuiac). | [Lambda](https:\u002F\u002Flambdalabs.com\u002F) |\n| Vultr | KubeAI can be deployed on Vultr Managed Kubernetes using the application marketplace. | [Vultr](https:\u002F\u002Fwww.vultr.com) |\n| Arcee | Arcee uses KubeAI for multi-region, multi-tenant SLM inference. | [Arcee](https:\u002F\u002Fwww.arcee.ai\u002F) |\n| Seeweb | Seeweb leverages KubeAI for direct and client-facing GPU inference workloads. KubeAI can be deployed on any GPU server and SKS | [Seeweb](https:\u002F\u002Fwww.seeweb.it\u002Fen) |\n\nIf you are using KubeAI and would like to be listed as an adopter, please make a PR.\n\n## Local Quickstart\n\n\n\u003Cvideo controls src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F711d1279-6af9-4c6c-a052-e59e7730b757\" width=\"800\">\u003C\u002Fvideo>\n\nCreate a local cluster using [kind](https:\u002F\u002Fkind.sigs.k8s.io\u002F) or [minikube](https:\u002F\u002Fminikube.sigs.k8s.io\u002Fdocs\u002F).\n\n\u003Cdetails>\n\u003Csummary>TIP: If you are using Podman for kind...\u003C\u002Fsummary>\nMake sure your Podman machine can use up to 6G of memory (by default it is capped at 2G):\n\n```bash\n# You might need to stop and remove the existing machine:\npodman machine stop\npodman machine rm\n\n# Init and start a new machine:\npodman machine init --memory 6144 --disk-size 120\npodman machine start\n```\n\u003C\u002Fdetails>\n\n\n```bash\nkind create cluster # OR: minikube start\n```\n\nAdd the KubeAI [Helm](https:\u002F\u002Fhelm.sh\u002Fdocs\u002Fintro\u002Finstall\u002F) repository.\n\n```bash\nhelm repo add kubeai https:\u002F\u002Fwww.kubeai.org\nhelm repo update\n```\n\nInstall KubeAI and wait for all components to be ready (may take a minute).\n\n```bash\nhelm install kubeai kubeai\u002Fkubeai --wait --timeout 10m\n```\n\nInstall some predefined models.\n\n```bash\ncat \u003C\u003CEOF > kubeai-models.yaml\ncatalog:\n  deepseek-r1-1.5b-cpu:\n    enabled: true\n    features: [TextGeneration]\n    url: 'ollama:\u002F\u002Fdeepseek-r1:1.5b'\n    engine: OLlama\n    minReplicas: 1\n    resourceProfile: 'cpu:1'\n  qwen2-500m-cpu:\n    enabled: true\n  nomic-embed-text-cpu:\n    enabled: true\nEOF\n\nhelm install kubeai-models kubeai\u002Fmodels \\\n    -f .\u002Fkubeai-models.yaml\n```\n\nBefore progressing to the next steps, start a watch on Pods in a standalone terminal to see how KubeAI deploys models. \n\n```bash\nkubectl get pods --watch\n```\n\n#### Interact with Deepseek R1 1.5b\n\nBecause we set `minReplicas: 1` for the Deepseek model you should see a model Pod already coming up.\n\nStart a local port-forward to the bundled chat UI.\n\n```bash\nkubectl port-forward svc\u002Fopen-webui 8000:80\n```\n\nNow open your browser to [localhost:8000](http:\u002F\u002Flocalhost:8000) and select the Deepseek model to start chatting with.\n\n#### Scale up Qwen2 from Zero\n\nIf you go back to the browser and start a chat with Qwen2, you will notice that it will take a while to respond at first. This is because we set `minReplicas: 0` for this model and KubeAI needs to spin up a new Pod (you can verify with `kubectl get models -oyaml qwen2-500m-cpu`).\n\n## Get Plugged-In\n\nRead about concepts, guides, and API documentation on [kubeai.org](https:\u002F\u002Fwww.kubeai.org).\n\n🌟 Don't forget to drop us a star on GitHub and follow the repo to stay up to date!\n\n[![KubeAI Star history Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkubeai-project_kubeai_readme_012995234e70.png)](https:\u002F\u002Fstar-history.com\u002F#kubeai-project\u002Fkubeai&Date)\n\nLet us know about features you are interested in seeing or reach out with questions.\n\nYou can also reach the maintainers of this project at:\n* [Slack channel](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fkubeai-project\u002Fshared_invite\u002Fzt-3qctram3n-9t1JRU_8PNro7HvBZzoqvg)\n* [Discord channel (archived)](https:\u002F\u002Fdiscord.gg\u002FJeXhcmjZVm)\n\nOr just reach out on LinkedIn if you want to connect:\n\n* [Nick Stogner](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fnstogner\u002F)\n* [Sam Stoelinga](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fsamstoelinga\u002F)\n\nMaintainers:\n\n* [ffais](https:\u002F\u002Fgithub.com\u002Fffais\u002F) \n* [m4oc](https:\u002F\u002Fgithub.com\u002Fm4oc\u002F)\n* [Davide Rutigliano](https:\u002F\u002Fgithub.com\u002FDavideRutigliano\u002F)\n","# KubeAI：AI 推理运算符\n\n\u003Cp align=\"left\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fgo-mod\u002Fgo-version\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fkubeai-project\u002Fkubeai\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002Fkubeai-project\u002Fkubeai\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fkubeai-project\u002Fkubeai\u002Fmain\" \u002F>\n\u003C\u002Fp>\n\n在 Kubernetes 上部署和扩展机器学习模型。\n\n专为大型语言模型、嵌入、重排序以及语音转文本设计。\n\n## 亮点\n\n它用来做什么？\n\n🚀 **LLM 推理** - 运行 vLLM 和 Ollama 服务器  \n🎙️ **语音处理** - 使用 FasterWhisper 转录音频  \n🔢 **向量嵌入** - 使用 Infinity 生成嵌入  \n📚 **重排序** - 使用交叉编码器模型重新排列搜索结果  \n\n你能得到什么？\n\n⚡️ **智能扩展** - 根据需求从零扩展到所需规模  \n📊 **优化路由** - 大幅提升大规模性能（[参见论文](.\u002Fblog\u002Fposts\u002Fllm-load-balancing-at-scale-chwbl.md)）  \n💾 **模型缓存** - 自动下载并挂载（EFS 等）  \n🧩 **动态适配器** - 协调跨副本的 LoRA 适配器  \n📨 **事件流** - 与 Kafka、PubSub 等集成  \n\n我们致力于提供“开箱即用”的体验：\n\n🔗 **OpenAI 兼容** - 可与 OpenAI 客户端库配合使用  \n🛠️ **零依赖** - 不需要 Istio、Knative 等  \n🖥 **硬件灵活** - 支持 CPU、GPU 或 TPU  \n\n社区评价：\n\n> 可复用、高度抽象的 LLM 运行解决方案 - [Mike Ensor](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fmikeensor_gcp-solutions-public-retail-edge-available-cluster-traits-activity-7237515920259104769-vBs9?utm_source=share&utm_medium=member_desktop), Google\n\n## 为什么选择 KubeAI？\n\n### 更好的大规模性能\n\n当运行多个 vLLM 副本时，Kubernetes 标准服务背后 kube-proxy 内置的随机负载均衡策略表现不佳（TTFT 和吞吐量）。这是因为 vLLM 并非无状态，其性能受 KV 缓存状态的显著影响。\n\nKubeAI 代理包含一种前缀感知的负载均衡策略，可优化 KV 缓存利用率，从而大幅提高系统整体性能。\n\n\u003Cimg src=\".\u002Fgraphs\u002Fttft-benchmark.png\" width=\"80%\"\u002F>\n\n更多详情请参阅 [完整论文](.\u002Fblog\u002Fposts\u002Fllm-load-balancing-at-scale-chwbl.md)。\n\n### 简单易用\n\nKubeAI 不依赖其他系统，如 Istio 和 Knative（用于从零扩展），也不依赖 Prometheus 指标适配器（用于自动缩放）。这使得 KubeAI 几乎可以在任何 Kubernetes 集群中开箱即用。日常运维也大大简化——无需担心不同项目之间的版本和配置不匹配问题。\n\n该项目附带一个常用模型目录，已针对常见 GPU 类型预配置。这意味着您可以减少调整 vLLM 特定参数的时间。随着项目的扩展，我们计划构建一个全面的模型优化流水线，以确保您充分利用硬件资源。\n\n### OpenAI API 兼容性\n\n无需更改您的客户端库，KubeAI 支持以下端点：\n\n```bash\n\u002Fv1\u002Fchat\u002Fcompletions\n\u002Fv1\u002Fcompletions\n\u002Fv1\u002Fembeddings\n\u002Fv1\u002Frerank\n\u002Fv1\u002Fmodels\n\u002Fv1\u002Faudio\u002Ftranscriptions\n```\n\n## 架构\n\nKubeAI 由两个主要子组件组成：\n\n**1. 模型代理：** KubeAI 代理提供与 OpenAI 兼容的 API。在此 API 后面，代理实施了一种前缀感知的负载均衡策略，以优化后端服务引擎（即 vLLM）的 KV 缓存利用率。代理还实现了请求排队（在系统从零副本扩展时）和请求重试（以无缝处理不良后端）。\n\n**2. 模型运算符：** KubeAI 模型运算符直接管理后端服务器 Pod。它通过 KubeAI Model CRD 自动执行常见操作，例如下载模型、挂载卷以及加载动态 LoRA 适配器。\n\n这两个组件位于同一部署中，但也可以[独立部署](https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F430)。\n\n\u003Cimg src=\".\u002Fdiagrams\u002Farch.excalidraw.png\">\u003C\u002Fimg>\n\n## 采用者\n\n已知采用者列表：\n\n| 名称 | 描述 | 链接 |\n| ---- | ----------- | ---- |\n| Telescope | Telescope 使用 KubeAI 进行多区域大规模批量 LLM 推理。 | [trytelescope.ai](https:\u002F\u002Ftrytelescope.ai) |\n| Google Cloud 分布式边缘 | KubeAI 被纳入边缘推理的参考架构。 | [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fmikeensor_gcp-solutions-public-retail-edge-available-cluster-traits-activity-7237515920259104769-vBs9?utm_source=share&utm_medium=member_desktop), [GitLab](https:\u002F\u002Fgitlab.com\u002Fgcp-solutions-public\u002Fretail-edge\u002Favailable-cluster-traits\u002Fkubeai-cluster-trait) |\n| Lambda | 您可以在 Lambda AI 开发者云上试用 KubeAI。请参阅 Lambda 的[教程](https:\u002F\u002Fdocs.lambdalabs.com\u002Feducation\u002Flarge-language-models\u002Fkubeai-hermes-3\u002F)和[视频](https:\u002F\u002Fyoutu.be\u002FHEtPO2Wuiac)。 | [Lambda](https:\u002F\u002Flambdalabs.com\u002F) |\n| Vultr | KubeAI 可以通过应用市场部署在 Vultr 托管 Kubernetes 上。 | [Vultr](https:\u002F\u002Fwww.vultr.com) |\n| Arcee | Arcee 使用 KubeAI 进行多区域、多租户 SLM 推理。 | [Arcee](https:\u002F\u002Fwww.arcee.ai\u002F) |\n| Seeweb | Seeweb 利用 KubeAI 处理直接和面向客户的 GPU 推理工作负载。KubeAI 可以部署在任何 GPU 服务器和 SKS 上。 | [Seeweb](https:\u002F\u002Fwww.seeweb.it\u002Fen) |\n\n如果您正在使用 KubeAI 并希望被列入采用者名单，请提交 PR。\n\n## 本地快速入门\n\n\n\u003Cvideo controls src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F711d1279-6af9-4c6c-a052-e59e7730b757\" width=\"800\">\u003C\u002Fvideo>\n\n使用 [kind](https:\u002F\u002Fkind.sigs.k8s.io\u002F) 或 [minikube](https:\u002F\u002Fminikube.sigs.k8s.io\u002Fdocs\u002F) 创建本地集群。\n\n\u003Cdetails>\n\u003Csummary>提示：如果您使用 Podman 运行 kind...\u003C\u002Fsummary>\n请确保您的 Podman 虚拟机可以使用高达 6GB 的内存（默认上限为 2GB）：\n\n```bash\n# 您可能需要停止并删除现有虚拟机：\npodman machine stop\npodman machine rm\n\n# 初始化并启动一台新虚拟机：\npodman machine init --memory 6144 --disk-size 120\npodman machine start\n```\n\u003C\u002Fdetails>\n\n\n```bash\nkind create cluster # 或者：minikube start\n```\n\n添加 KubeAI 的 [Helm](https:\u002F\u002Fhelm.sh\u002Fdocs\u002Fintro\u002Finstall\u002F) 仓库。\n\n```bash\nhelm repo add kubeai https:\u002F\u002Fwww.kubeai.org\nhelm repo update\n```\n\n安装 KubeAI，并等待所有组件就绪（可能需要一分钟）。\n\n```bash\nhelm install kubeai kubeai\u002Fkubeai --wait --timeout 10m\n```\n\n安装一些预定义的模型。\n\n```bash\ncat \u003C\u003CEOF > kubeai-models.yaml\ncatalog:\n  deepseek-r1-1.5b-cpu:\n    enabled: true\n    features: [TextGeneration]\n    url: 'ollama:\u002F\u002Fdeepseek-r1:1.5b'\n    engine: OLlama\n    minReplicas: 1\n    resourceProfile: 'cpu:1'\n  qwen2-500m-cpu:\n    enabled: true\n  nomic-embed-text-cpu:\n    enabled: true\nEOF\n\nhelm install kubeai-models kubeai\u002Fmodels \\\n    -f .\u002Fkubeai-models.yaml\n```\n\n在继续下一步之前，请在一个独立的终端中开启对 Pod 的监听，以观察 KubeAI 如何部署模型。\n\n```bash\nkubectl get pods --watch\n```\n\n#### 与 Deepseek R1 1.5b 交互\n\n由于我们为 Deepseek 模型设置了 `minReplicas: 1`，你应该会看到一个模型 Pod 已经启动并运行。\n\n启动本地端口转发，连接到内置的聊天界面。\n\n```bash\nkubectl port-forward svc\u002Fopen-webui 8000:80\n```\n\n现在打开浏览器访问 [localhost:8000](http:\u002F\u002Flocalhost:8000)，选择 Deepseek 模型开始聊天。\n\n#### 将 Qwen2 从零扩展到多副本\n\n如果你回到浏览器并与 Qwen2 开始对话，会发现它一开始响应较慢。这是因为我们为该模型设置了 `minReplicas: 0`，KubeAI 需要启动一个新的 Pod（可以通过 `kubectl get models -oyaml qwen2-500m-cpu` 来验证）。\n\n## 加入社区\n\n在 [kubeai.org](https:\u002F\u002Fwww.kubeai.org) 上阅读相关概念、指南和 API 文档。\n\n🌟 别忘了在 GitHub 上给项目点个赞，并关注仓库以获取最新动态！\n\n[![KubeAI 星级历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkubeai-project_kubeai_readme_012995234e70.png)](https:\u002F\u002Fstar-history.com\u002F#kubeai-project\u002Fkubeai&Date)\n\n如果你有感兴趣的特性建议或遇到问题，欢迎随时联系我们。\n\n你也可以通过以下方式联系本项目的维护者：\n\n* [Slack 频道](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fkubeai-project\u002Fshared_invite\u002Fzt-3qctram3n-9t1JRU_8PNro7HvBZzoqvg)\n* [Discord 频道（已归档）](https:\u002F\u002Fdiscord.gg\u002FJeXhcmjZVm)\n\n或者直接在 LinkedIn 上联系他们：\n\n* [Nick Stogner](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fnstogner\u002F)\n* [Sam Stoelinga](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fsamstoelinga\u002F)\n\n维护者：\n\n* [ffais](https:\u002F\u002Fgithub.com\u002Fffais\u002F) \n* [m4oc](https:\u002F\u002Fgithub.com\u002Fm4oc\u002F)\n* [Davide Rutigliano](https:\u002F\u002Fgithub.com\u002FDavideRutigliano\u002F)","# KubeAI 快速上手指南\n\nKubeAI 是一个专为 Kubernetes 设计的 AI 推理运算符（Operator），支持大语言模型（LLM）、语音处理、向量嵌入和重排序任务。它具备智能扩缩容、前缀感知负载均衡和 OpenAI API 兼容等特性，无需依赖 Istio 或 Knative 即可运行。\n\n## 环境准备\n\n在开始之前，请确保您的环境满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows (配合 WSL2)\n*   **Kubernetes 集群**: 本地开发推荐使用 [kind](https:\u002F\u002Fkind.sigs.k8s.io\u002F) 或 [minikube](https:\u002F\u002Fminikube.sigs.k8s.io\u002Fdocs\u002F)。\n    *   *注意*: 若使用 Podman 运行 kind，建议将机器内存限制提升至至少 6GB（默认通常为 2G）：\n        ```bash\n        podman machine stop\n        podman machine rm\n        podman machine init --memory 6144 --disk-size 120\n        podman machine start\n        ```\n*   **命令行工具**:\n    *   `kubectl`: 用于管理 Kubernetes 资源。\n    *   `helm`: 用于安装 KubeAI (需 v3+ 版本)。\n*   **硬件资源**: 支持 CPU、GPU 或 TPU。本地测试建议使用至少 4 核 CPU 和 8GB 内存的节点。\n\n## 安装步骤\n\n### 1. 创建本地集群\n使用 `kind` 或 `minikube` 启动一个本地 Kubernetes 集群：\n\n```bash\nkind create cluster\n# 或者\n# minikube start\n```\n\n### 2. 添加 Helm 仓库\n添加 KubeAI 的官方 Helm 仓库并更新索引：\n\n```bash\nhelm repo add kubeai https:\u002F\u002Fwww.kubeai.org\nhelm repo update\n```\n\n### 3. 安装 KubeAI\n执行安装命令并等待所有组件就绪（首次安装可能需要几分钟下载镜像）：\n\n```bash\nhelm install kubeai kubeai\u002Fkubeai --wait --timeout 10m\n```\n\n### 4. 部署示例模型\n创建一个名为 `kubeai-models.yaml` 的配置文件，定义要部署的模型（此处以 CPU 运行的 DeepSeek R1 和 Qwen2 为例）：\n\n```yaml\ncatalog:\n  deepseek-r1-1.5b-cpu:\n    enabled: true\n    features: [TextGeneration]\n    url: 'ollama:\u002F\u002Fdeepseek-r1:1.5b'\n    engine: OLlama\n    minReplicas: 1\n    resourceProfile: 'cpu:1'\n  qwen2-500m-cpu:\n    enabled: true\n  nomic-embed-text-cpu:\n    enabled: true\n```\n\n使用 Helm 应用该配置：\n\n```bash\nhelm install kubeai-models kubeai\u002Fmodels \\\n    -f .\u002Fkubeai-models.yaml\n```\n\n> **提示**: 您可以新开一个终端窗口运行 `kubectl get pods --watch` 来观察 Pod 的启动过程。\n\n## 基本使用\n\n### 方式一：通过 Web UI 交互\n对于设置了 `minReplicas: 1` 的模型（如本例中的 DeepSeek R1），Pod 启动后即可直接访问内置的聊天界面。\n\n1.  **端口转发**：将服务映射到本地端口。\n    ```bash\n    kubectl port-forward svc\u002Fopen-webui 8000:80\n    ```\n2.  **访问界面**：打开浏览器访问 [http:\u002F\u002Flocalhost:8000](http:\u002F\u002Flocalhost:8000)。\n3.  **开始对话**：在界面中选择 `deepseek-r1-1.5b-cpu` 模型即可开始聊天。\n\n### 方式二：体验从零扩缩容 (Scale from Zero)\n对于未设置最小副本数的模型（如本例中的 `qwen2-500m-cpu`，默认为 0），KubeAI 会在收到请求时自动拉起实例。\n\n1.  在 Web UI 中选择 `qwen2-500m-cpu` 模型发送第一条消息。\n2.  **观察现象**：首次响应会有短暂延迟，因为系统正在动态创建 Pod。\n3.  **验证状态**：您可以在终端查看模型资源状态确认扩缩容行为：\n    ```bash\n    kubectl get models -oyaml qwen2-500m-cpu\n    ```\n\n### 方式三：通过 API 调用\nKubeAI 完全兼容 OpenAI API 格式，您可以直接使用现有的 OpenAI 客户端库连接 `http:\u002F\u002Flocalhost:8000\u002Fv1` (需先进行端口转发或配置 Ingress)。\n\n支持的端点包括：\n*   `\u002Fv1\u002Fchat\u002Fcompletions`\n*   `\u002Fv1\u002Fembeddings`\n*   `\u002Fv1\u002Faudio\u002Ftranscriptions`\n*   `\u002Fv1\u002Frerank`\n\n---\n*更多详细概念、高级指南及 API 文档，请访问 [kubeai.org](https:\u002F\u002Fwww.kubeai.org)。*","某电商团队正在构建基于大语言模型的智能客服系统，需在 Kubernetes 集群中部署多个 LLM 副本以应对早晚高峰的巨大流量波动。\n\n### 没有 kubeai 时\n- **推理性能低下**：Kubernetes 默认的随机负载均衡无视 vLLM 的 KV 缓存状态，导致首字延迟（TTFT）高且吞吐量不稳定。\n- **运维极其繁琐**：需手动编写脚本下载模型、配置存储卷，并独立部署 Istio 或 Knative 来实现从零扩容，维护成本高。\n- **资源利用率差**：无法动态加载 LoRA 适配器，为不同业务线微调模型时需启动大量独立实例，造成 GPU 资源严重浪费。\n- **客户端改造困难**：后端架构复杂导致 API 不统一，前端需花费大量时间适配不同的推理服务接口。\n\n### 使用 kubeai 后\n- **推理性能飞跃**：kubeai 内置的前缀感知负载均衡策略优化了 KV 缓存命中率，显著降低延迟并提升高并发下的吞吐量。\n- **部署开箱即用**：通过 Model CRD 一键定义模型，kubeai 自动处理模型下载、挂载及从零扩容，无需依赖任何外部网格组件。\n- **资源灵活调度**：支持动态编排 LoRA 适配器，同一基础模型实例可服务多个微调任务，大幅降低 GPU 占用成本。\n- **无缝兼容生态**：提供原生 OpenAI 兼容接口，现有代码无需修改即可直接对接，平滑迁移至生产环境。\n\nkubeai 通过智能化的缓存感知调度与极简的运维自动化，让大规模 LLM 生产部署真正实现了高性能与低成本的平衡。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkubeai-project_kubeai_dec0d8d1.png","kubeai-project","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkubeai-project_0009434f.png",null,"https:\u002F\u002Fgithub.com\u002Fkubeai-project",[80,84,88,92,96,100,104,106,109],{"name":81,"color":82,"percentage":83},"Go","#00ADD8",55.7,{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",29.1,{"name":89,"color":90,"percentage":91},"Python","#3572A5",9.1,{"name":93,"color":94,"percentage":95},"Shell","#89e051",3.2,{"name":97,"color":98,"percentage":99},"Makefile","#427819",1.5,{"name":101,"color":102,"percentage":103},"Dockerfile","#384d54",0.5,{"name":105,"color":82,"percentage":103},"Go Template",{"name":107,"color":108,"percentage":103},"JavaScript","#f1e05a",{"name":110,"color":111,"percentage":112},"Jinja","#a52a22",0,1173,127,"2026-04-03T06:12:19","Apache-2.0",4,"Linux, macOS, Windows","非必需。支持 CPU、GPU (NVIDIA) 或 TPU。具体型号和显存取决于所选模型及配置（README 提到项目提供针对常见 GPU 类型预配置的模型目录）。","未说明（本地快速启动示例中建议 Podman 机器至少分配 6GB 内存）",{"notes":122,"python":123,"dependencies":124},"该工具是运行在 Kubernetes 上的算子（Operator），而非直接的 Python 库。核心依赖是现有的 Kubernetes 集群（可通过 kind 或 minikube 在本地创建）。它不依赖 Istio 或 Knative。支持通过 Helm 一键部署。可根据需求选择纯 CPU 运行或调用 GPU\u002FTPU 资源。内置了针对 vLLM 的前缀感知负载均衡策略以优化性能。","未说明",[125,126,127,128,129,130,131],"Kubernetes Cluster","Helm","kubectl","vLLM (可选后端)","Ollama (可选后端)","FasterWhisper (可选后端)","Infinity (可选后端)",[14,53,15,13,26,55],[134,135,136,137,138,139,140,141,142,143,144,145,146],"k8s","llm","openai-api","autoscaler","ollama","vllm","ollama-operator","vllm-operator","ai","kubernetes","whisper","inference-operator","faster-whisper","2026-03-27T02:49:30.150509","2026-04-06T07:16:09.331484",[150,155,160,165,170,175],{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},10798,"如何在 KubeAI 中获取 vLLM 指标并配置 Prometheus 和 Grafana 进行监控？","官方已发布新的指南，详细说明如何设置可观测性。请访问：https:\u002F\u002Fwww.kubeai.org\u002Fhow-to\u002Fobservability-with-prometheus-stack\u002F。\n\n注意：如果在配置 PrometheusOperator 时遇到问题，可能需要参考 CloudNativePG charts 的相关修复（GitHub issue #279），以确保指标能持续正常采集。","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F391",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},10799,"KubeAI 是否支持重排序（Reranker）模型？","是的，该功能已在后续版本中实现（参考 PR #565）。\n\n需要注意的是，根据 vLLM 文档，重排序接口（如 \u002Frerank, \u002Fv1\u002Frerank, \u002Fv2\u002Frerank）兼容 Jina AI 和 Cohere 的重排序 API 接口，但这并不完全等同于标准的 OpenAI API 格式。","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F301",{"id":161,"question_zh":162,"answer_zh":163,"source_url":164},10800,"在 OpenShift 上运行时遇到 'mkdir \u002Froot\u002F.ollama: permission denied' 错误怎么办？","这通常是因为使用了基于 AlmaLinux (RHEL) 的自定义 Ollama 镜像，其 `\u002Froot` 目录对非 root 用户是只读的（权限为 `dr-xr-x---`），而默认的 Ubuntu 镜像权限更宽松。\n\n解决方案：\n1. 建议切换回默认的基于 Ubuntu 的镜像，通常可以正常工作。\n2. 如果必须使用特定镜像，请检查 OpenShift 的 SCC (Security Context Constraints) 配置，确保服务账户有权限写入相应目录。\n3. 维护者指出在本地 OpenShift (CRC) 环境中默认镜像无此问题，若生产环境受限，需检查是否有额外的安全限制策略。","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F397",{"id":166,"question_zh":167,"answer_zh":168,"source_url":169},10801,"如何通过 PVC 挂载存储在后端（如 OSS）的模型文件？","目前 vLLM 引擎已支持将模型存储在 PVC 上。\n\n配置步骤：\n1. 确保 Helm Chart 版本更新至 v0.10.0 或更高版本。\n2. 配置 StorageClass 以关联对象存储（如阿里云 OSS）。\n3. 为模型 Pod 关联 PVC，并在 Pod 内通过挂载目录（如 `\u002Fdata\u002Fmodels`）访问模型文件。\n\n此外，官方文档也提供了关于认证模型仓库（包括阿里云对象存储服务）的详细指南：https:\u002F\u002Fwww.kubeai.org\u002Fhow-to\u002Fauthenticate-to-model-repos\u002F#alibaba-object-storage-service","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F303",{"id":171,"question_zh":172,"answer_zh":173,"source_url":174},10802,"为什么在流式输出并请求 usage 统计时，返回的数据与 OpenAI API 规范不一致？","这是一个已知行为，源于底层 vLLM 版本的实现差异。\n\n根据 OpenAI 规范，当设置 `include_usage = true` 时，只有在最后一个数据块（[DONE] 之前）才应包含 usage 统计，其他块的 usage 应为 null。但当前某些 vLLM 版本会在每个块中都返回递增的 token 统计。\n\n解决方案：\n1. 维护者表示将跟进并更新到最新的 vLLM 版本以修复此兼容性问题。\n2. 临时方案：客户端需适应当前行为，不能单纯依赖 usage 字段是否为 null 来区分内容块和统计块。","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F283",{"id":176,"question_zh":177,"answer_zh":178,"source_url":179},10803,"Service 名称是否必须与 Deployment 名称一致？","在旧版本代码中，确实存在硬编码逻辑要求 Service 名称必须匹配 Deployment 名称（通过 `kubernetes.io\u002Fservice-name` 标签判断）。\n\n目前的改进方向包括：\n1. 利用 Pod Watcher 直接从 Pod 资源获取 IP 地址，从而消除对 Service 定义的强依赖。\n2. 让系统直接在 K8s Service 层级工作，而不是依赖 Deployment 上的注解。\n\n建议查看最新版本的代码或文档，确认该限制是否已在后续更新中移除。","https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fissues\u002F59",[181,186,191,196,201,205,209,213,218,223,227,232,236,240,244,249,253,257,262,267],{"id":182,"version":183,"summary_zh":184,"released_at":185},71409,"v0.23.2","## What's Changed\r\n* fix: flaky s3-model test by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F633\r\n* fix: check if github release already exists. by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F631\r\n* Fix: Support external Ollama URLs without Pod reconciliation by @mfahsold in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F620\r\n* Expose PVC size as parameter by @DavideRutigliano in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F641\r\n* Add slack channel to README by @DavideRutigliano in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F643\r\n* Fix Slack channel link in README by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F651\r\n* Update maintainers list in README.md by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F649\r\n* Revert \"Fix: Support external Ollama URLs without Pod reconciliation\" by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F648\r\n* fix: trucante models name inside tests by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F652\r\n* Fix command injection vulnerabilities and improve startup probe by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F656\r\n* Bump chart and app version to 0.23.2 by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F658\r\n* Fix broken links to vllm docs by @DavideRutigliano in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F654\r\n* Inject model labels into pods by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F657\r\n\r\n## New Contributors\r\n* @mfahsold made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F620\r\n* @DavideRutigliano made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F641\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fcompare\u002Fv0.23.1...v0.23.2","2026-03-31T11:52:32",{"id":187,"version":188,"summary_zh":189,"released_at":190},71410,"helm-chart-kubeai-0.23.2","Private Open AI Platform for Kubernetes.","2026-03-31T11:54:18",{"id":192,"version":193,"summary_zh":194,"released_at":195},71411,"v0.23.1","## What's Changed\r\n* Bump the actions-all group with 2 updates by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F614\r\n* Add support for OpenAI Responses API endpoint  by @ErwinsExpertise in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F616\r\n* fix: replace old and deprecated huggingface-cli with the new hf command & tests by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F619\r\n* Bump helm\u002Fchart-testing-action from 2.7.0 to 2.8.0 in the actions-all group by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F618\r\n* Bump golang.org\u002Fx\u002Fcrypto from 0.40.0 to 0.45.0 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F622\r\n* Bump actions\u002Fcheckout from 5 to 6 in the actions-all group by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F623\r\n* Bump k8s.io\u002Fapimachinery from 0.34.1 to 0.34.2 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F624\r\n* bump: kubeai and model helm charts by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F621\r\n* bump: update vllm-openai images to version 0.11.2 by @bbrala in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F626\r\n* Model helm should expose all crd fields by @bbrala in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F627\r\n* Update Chart.yaml - 0.23.1 by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F630\r\n* Update Chart.yaml by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F629\r\n\r\n## New Contributors\r\n* @ErwinsExpertise made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F616\r\n* @bbrala made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F626\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fcompare\u002Fv0.22.1...v0.23.1","2025-12-03T11:44:42",{"id":197,"version":198,"summary_zh":199,"released_at":200},71412,"helm-chart-models-0.23.1","A Helm chart for Kubernetes","2025-12-03T11:50:47",{"id":202,"version":203,"summary_zh":189,"released_at":204},71413,"helm-chart-kubeai-0.23.1","2025-12-03T11:52:11",{"id":206,"version":207,"summary_zh":199,"released_at":208},71414,"helm-chart-models-0.23.0","2025-11-24T11:26:59",{"id":210,"version":211,"summary_zh":189,"released_at":212},71415,"helm-chart-kubeai-0.23.0","2025-11-24T11:26:57",{"id":214,"version":215,"summary_zh":216,"released_at":217},71416,"v0.23.0","## What's Changed\n* Bump the actions-all group with 2 updates by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F614\n* Add support for OpenAI Responses API endpoint  by @ErwinsExpertise in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F616\n* fix: replace old and deprecated huggingface-cli with the new hf command & tests by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F619\n* Bump helm\u002Fchart-testing-action from 2.7.0 to 2.8.0 in the actions-all group by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F618\n\n## New Contributors\n* @ErwinsExpertise made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F616\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fcompare\u002Fv0.22.1...v0.23.0","2025-11-24T09:56:41",{"id":219,"version":220,"summary_zh":221,"released_at":222},71417,"v0.22.1","## What's Changed\n* Update Chart.yaml by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F600\n* Update README.md by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F603\n* Add Github ARM runner & fix flaky tests by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F605\n* fix: vllm adapter loading function by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F607\n* fix: vllm rerank endpoint and upgrade the documentation by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F609\n* Release kubeai 0.22.1 chart by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F610\n\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fcompare\u002Fv0.22.0...v0.22.1","2025-10-15T14:33:23",{"id":224,"version":225,"summary_zh":189,"released_at":226},71418,"helm-chart-kubeai-0.22.1","2025-10-15T14:37:22",{"id":228,"version":229,"summary_zh":230,"released_at":231},71419,"v0.22.0","## What's Changed\n* update helm chart versions by @samos123 in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F532\n* README: request for new maintainers by @samos123 in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F541\n* Support multiple Kubeai installation in different namespace by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F518\n* fix(ollama): only pull manifest image if not present by @buroa in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F543\n* feat: add \u002Frerank endpoint integration by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F565\n* fix: remove default runAsUser value from chart values by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F558\n* fix: add security context to loader int-container and cache jobs by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F583\n* Update values.yaml - vllm by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F569\n* Fix wrong org name in github workflows by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F584\n* Bump golang from 1.24.1 to 1.25.1 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F579\n* Bump the actions-all group across 1 directory with 4 updates by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F578\n* comment docker login to avoid workflow to fail by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F585\n* Update build-push-kubeai.yml by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F587\n* Bump golang.org\u002Fx\u002Foauth2 from 0.24.0 to 0.27.0 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F556\n* Bump alpine from 3.20 to 3.22 in \u002Fcomponents\u002Fmodel-loader by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F549\n* Fix pipelines and e2e test by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F588\n* Update README by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F590\n* upgrade go deps by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F591\n* Bump actions\u002Fdownload-artifact from 4 to 5 in the actions-all group by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F593\n* Update star history by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F595\n* Update repository references to kubeai-project by @m4oc in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F594\n* upgrade controller tools version and generate updated manifests by @ffais in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F596\n* Bump go.opentelemetry.io\u002Fotel\u002Fsdk\u002Fmetric from 1.37.0 to 1.38.0 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F599\n* Bump gopkg.in\u002Fevanphx\u002Fjson-patch.v4 from 4.12.0 to 4.13.0 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F598\n\n## New Contributors\n* @buroa made their first contribution in https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fpull\u002F543\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkubeai-project\u002Fkubeai\u002Fcompare\u002Fv0.21.0...v0.22.0","2025-10-09T07:51:51",{"id":233,"version":234,"summary_zh":189,"released_at":235},71420,"helm-chart-kubeai-0.22.0","2025-10-09T09:04:30",{"id":237,"version":238,"summary_zh":199,"released_at":239},71421,"helm-chart-models-0.21.0","2025-05-25T06:49:07",{"id":241,"version":242,"summary_zh":189,"released_at":243},71422,"helm-chart-kubeai-0.21.0","2025-05-25T06:49:06",{"id":245,"version":246,"summary_zh":247,"released_at":248},71423,"v0.21.0","## What's Changed\n* bump helm chart versions by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F510\n* feat: update openwebui to 6.4.0 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F515\n* Add priorityClassName to the model spec and pass to generated pods by @liebman in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F506\n* update chwbl load balancing to remove +1 to load by @mskouba in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F528\n* l4 family is ada-lovelace by @m4oc in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F530\n\n## New Contributors\n* @mskouba made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F528\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fcompare\u002Fv0.20.0...v0.21.0","2025-05-25T05:32:39",{"id":250,"version":251,"summary_zh":199,"released_at":252},71424,"helm-chart-models-0.20.0","2025-04-24T18:26:21",{"id":254,"version":255,"summary_zh":189,"released_at":256},71425,"helm-chart-kubeai-0.20.0","2025-04-24T18:26:20",{"id":258,"version":259,"summary_zh":260,"released_at":261},71426,"v0.20.0","## What's Changed\n* bump helm chart versions by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F477\n* update vLLM GH200 image to 0.8.2 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F480\n* fix: use correct accessKeyID values in if statement by @ffais in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F478\n* Load models and LoRA Adapters from S3 Compatible Storage Server by @ffais in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F482\n* fix: adds support for custom metrics apiVersion in kubeai helm chart by @grumpydude in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F487\n* Bump github.com\u002Fgolang-jwt\u002Fjwt\u002Fv5 from 5.2.1 to 5.2.2 by @dependabot in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F467\n* fix flaky s3 test by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F492\n* fix flaky s3 test take 2 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F493\n* add deepseek 70b on gh200 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F494\n* feat: Allow Ollama insecure pull using ?insecure=true in url by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F491\n* feat: Llama 4 support and vLLM 0.8.3 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F495\n* support use of JSONPatch for model server pods by @alam0rt in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F497\n* allow s3 model urls without cache profile by @liebman in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F504\n* Support envFrom in model spec by @ffais in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F489\n\n## New Contributors\n* @grumpydude made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F487\n* @alam0rt made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F497\n* @liebman made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F504\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fcompare\u002Fv0.19.0...v0.20.0","2025-04-23T19:46:04",{"id":263,"version":264,"summary_zh":265,"released_at":266},71427,"v0.19.0","## What's Changed\r\n* E2e test updates by @nstogner in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F461\r\n* Strongly typed OpenAI payloads by @nstogner in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F449\r\n* update vLLM image for GPU to 0.8.1 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F463\r\n* Add model mistral 3.1 small on 1x H100 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F466\r\n* fix: Include minReplicas even when value is 0 by @27Bslash6 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F470\r\n* Add AKS installation guide by @robert-cronin in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F471\r\n* fix(helm): fix wrong name for key 'accessKeyID' in aws secret by @ffais in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F472\r\n* fix: support accessing models from private S3 buckets by @ffais in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F473\r\n* update vllm to 0.8.2 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F475\r\n* add gemma 3 12b and 24b ollama on l4 by @samos123 in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F476\r\n\r\n## New Contributors\r\n* @27Bslash6 made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F470\r\n* @robert-cronin made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F471\r\n* @ffais made their first contribution in https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fpull\u002F472\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsubstratusai\u002Fkubeai\u002Fcompare\u002Fv0.18.0...v0.19.0","2025-03-26T06:02:13",{"id":268,"version":269,"summary_zh":199,"released_at":270},71428,"helm-chart-models-0.19.0","2025-03-26T06:45:29"]