[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-vllm-project--production-stack":3,"tool-vllm-project--production-stack":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161692,"2026-04-20T11:33:57",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":110,"forks":111,"last_commit_at":112,"license":113,"difficulty_score":114,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":126,"github_topics":76,"view_count":24,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":127,"updated_at":128,"faqs":129,"releases":130},10181,"vllm-project\u002Fproduction-stack","production-stack","vLLM’s reference system for K8S-native cluster-wide deployment with community-driven performance optimization","production-stack 是 vLLM 官方推出的参考系统，旨在帮助用户在 Kubernetes 环境中轻松构建生产级的大模型推理集群。它主要解决了从单节点测试扩展到分布式部署时的复杂难题，让用户无需修改任何应用代码，即可实现平滑扩容。\n\n通过内置的智能请求路由机制，production-stack 能根据会话 ID 将请求精准分发，最大化复用 KV 缓存，显著提升推理效率；结合 LMCache 技术，它还支持将缓存卸载到外部存储，进一步突破显存限制。此外，系统集成了 Prometheus 和 Grafana 监控看板，让集群运行状态一目了然。\n\n这套工具特别适合需要在大模型落地场景中追求高性能与高稳定性的开发者、运维工程师及研究人员。无论是希望在 AWS、GCP 等云平台快速搭建服务，还是在本地构建最小化验证环境，production-stack 都提供了详尽的教程与 Helm 图表支持。其架构设计开放且模块化，未来还将持续演进自动扩缩容、预填充分离等高级特性，是构建可扩展 AI 基础设施的理想起点。","# vLLM Production Stack: reference stack for production vLLM deployment\n\n| [**Blog**](https:\u002F\u002Flmcache.github.io) | [**Docs**](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fproduction-stack) | [**Production-Stack Slack Channel**](https:\u002F\u002Fcommunityinviter.com\u002Fapps\u002Fvllm-dev\u002Fjoin-vllm-developers-slack) | [**LMCache Slack**](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Flmcacheworkspace\u002Fshared_invite\u002Fzt-2viziwhue-5Amprc9k5hcIdXT7XevTaQ) | [**Interest Form**](https:\u002F\u002Fforms.gle\u002FmQfQDUXbKfp2St1z7) |\n\n## Latest News\n\n- 📄 [Official documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fproduction-stack) released for production-stack!\n- ✨ [Cloud Deployment Tutorials](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials) for Lambda Labs, AWS EKS, Google GCP are out!\n- 🛤️ 2026 roadmap is released! [Join the discussion now](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fissues\u002F855)!\n- 🔥 vLLM Production Stack is released! Check out our [release blogs](https:\u002F\u002Fblog.lmcache.ai\u002F2025-01-21-stack-release) posted on January 22, 2025.\n\n## Community Events\n\nWe host **bi-weekly** community meetings at the following timeslot:\n\n- Every other Tuesdays at 5:30 PM PT – [Add to Calendar](https:\u002F\u002Fdrive.google.com\u002Fuc?export=download&id=1D4SqQiqzdSx_xsEwS0QTd592zd3Xourh)\n\nAll are welcome to join!\n\n## Introduction\n\n**vLLM Production Stack** project provides a reference implementation on how to build an inference stack on top of vLLM, which allows you to:\n\n- 🚀 Scale from a single vLLM instance to a distributed vLLM deployment without changing any application code\n- 💻 Monitor the metrics through a web dashboard\n- 😄 Enjoy the performance benefits brought by request routing and KV cache offloading\n\n## Step-By-Step Tutorials\n\n0. How To [*Install Kubernetes (kubectl, helm, minikube, etc)*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F00-install-kubernetes-env.md)?\n1. How to [*Deploy Production Stack on Major Cloud Platforms (AWS, GCP, Lambda Labs, Azure)*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002Fcloud_deployments)?\n2. How To [*Set up a Minimal vLLM Production Stack*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F01-minimal-helm-installation.md)?\n3. How To [*Customize vLLM Configs (optional)*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F02-basic-vllm-config.md)?\n4. How to [*Load Your LLM Weights*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F03-load-model-from-pv.md)?\n5. How to [*Launch Different LLMs in vLLM Production Stack*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F04-launch-multiple-model.md)?\n6. How to [*Enable KV Cache Offloading with LMCache*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F05-offload-kv-cache.md)?\n\n## Architecture\n\nThe stack is set up using [Helm](https:\u002F\u002Fhelm.sh\u002Fdocs\u002F), and contains the following key parts:\n\n- **Serving engine**: The vLLM engines that run different LLMs.\n- **Request router**: Directs requests to appropriate backends based on routing keys or session IDs to maximize KV cache reuse.\n- **Observability stack**: monitors the metrics of the backends through [Prometheus](https:\u002F\u002Fgithub.com\u002Fprometheus\u002Fprometheus) + [Grafana](https:\u002F\u002Fgrafana.com\u002F)\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_production-stack_readme_66317a379797.png\" alt=\"Architecture of the stack\" width=\"80%\"\u002F>\n\u003C\u002Fp>\n\n## Roadmap\n\nWe are actively working on this project and will release the following features soon. Please stay tuned!\n\n- **Autoscaling** based on vLLM-specific metrics\n- Support for **disaggregated prefill**\n- **Router improvements** (e.g., more performant router using non-python languages, KV-cache-aware routing algorithm, better fault tolerance, etc)\n\n## Deploying the stack via Helm\n\n### Prerequisites\n\n- A running Kubernetes (K8s) environment with GPUs\n  - Run `cd utils && bash install-minikube-cluster.sh`\n  - Or follow our [tutorial](tutorials\u002F00-install-kubernetes-env.md)\n\n### Deployment\n\nvLLM Production Stack can be deployed via helm charts. Clone the repo to local and execute the following commands for a minimal deployment:\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack.git\ncd production-stack\u002F\nhelm repo add vllm https:\u002F\u002Fvllm-project.github.io\u002Fproduction-stack\nhelm install vllm vllm\u002Fvllm-stack -f tutorials\u002Fassets\u002Fvalues-01-minimal-example.yaml\n```\n\nThe deployed stack provides the same [**OpenAI API interface**](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fopenai_compatible_server.html?ref=blog.mozilla.ai#openai-compatible-server) as vLLM, and can be accessed through kubernetes service.\n\nTo validate the installation and send a query to the stack, refer to [this tutorial](tutorials\u002F01-minimal-helm-installation.md).\n\nFor more information about customizing the helm chart, please refer to [values.yaml](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Fhelm\u002Fvalues.yaml) and our other [tutorials](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Ftree\u002Fmain\u002Ftutorials).\n\n### Uninstall\n\n```bash\nhelm uninstall vllm\n```\n\n## Grafana Dashboard\n\n### Features\n\nThe Grafana dashboard provides the following insights:\n\n1. **Available vLLM Instances**: Displays the number of healthy instances.\n2. **Request Latency Distribution**: Visualizes end-to-end request latency.\n3. **Time-to-First-Token (TTFT) Distribution**: Monitors response times for token generation.\n4. **Number of Running Requests**: Tracks the number of active requests per instance.\n5. **Number of Pending Requests**: Tracks requests waiting to be processed.\n6. **GPU KV Usage Percent**: Monitors GPU KV cache usage.\n7. **GPU KV Cache Hit Rate**: Displays the hit rate for the GPU KV cache.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_production-stack_readme_84bd98cb7324.png\" alt=\"Grafana dashboard to monitor the deployment\" width=\"80%\"\u002F>\n\u003C\u002Fp>\n\n### Configuration\n\nSee the details in [`helm\u002FREADME.md`](.\u002Fhelm\u002FREADME.md#Observability)\n\n## Router\n\nThe router ensures efficient request distribution among backends. It supports:\n\n- Routing to endpoints that run different models\n- Exporting observability metrics for each serving engine instance, including QPS, time-to-first-token (TTFT), number of pending\u002Frunning\u002Ffinished requests, and uptime\n- Automatic service discovery and fault tolerance via the Kubernetes API\n- Model aliases\n- Multiple routing algorithms:\n  - Round-robin routing\n  - Session-ID based routing\n  - Prefix-aware routing (WIP)\n\nPlease refer to the [router documentation](.\u002Fsrc\u002Fvllm_router\u002FREADME.md) for more details.\n\n## Contributing\n\nWe welcome and value any contributions and collaborations. Please check out [CONTRIBUTING.md](CONTRIBUTING.md) for how to get involved.\n\n## License\n\nThis project is licensed under Apache License 2.0. See the `LICENSE` file for details.\n\n## Sponsors\n\nWe are grateful to our sponsors who support our development and benchmarking efforts:\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgmicloud.ai\">\n    \u003Cimg src=\"https:\u002F\u002Fcdn.prod.website-files.com\u002F6683d8c52e4e62685a8d90cf\u002F67a0a0064683945b0cf77f25_GMI%20Cloud%20Logo_Black.svg\" alt=\"GMI Cloud Logo\" width=\"200\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\nFor any issues or questions, feel free to open an issue or contact us ([@ruizhang0101](https:\u002F\u002Fgithub.com\u002Fruizhang0101), [@ApostaC](https:\u002F\u002Fgithub.com\u002FApostaC), [@YuhanLiu11](https:\u002F\u002Fgithub.com\u002FYuhanLiu11), [@Shaoting-Feng](https:\u002F\u002Fgithub.com\u002FShaoting-Feng)).\n","# vLLM 生产环境栈：用于生产部署 vLLM 的参考架构\n\n| [**博客**](https:\u002F\u002Flmcache.github.io) | [**文档**](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fproduction-stack) | [**生产环境栈 Slack 频道**](https:\u002F\u002Fcommunityinviter.com\u002Fapps\u002Fvllm-dev\u002Fjoin-vllm-developers-slack) | [**LMCache Slack**](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Flmcacheworkspace\u002Fshared_invite\u002Fzt-2viziwhue-5Amprc9k5hcIdXT7XevTaQ) | [**兴趣表单**](https:\u002F\u002Fforms.gle\u002FmQfQDUXbKfp2St1z7) |\n\n## 最新消息\n\n- 📄 生产环境栈的[官方文档](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fproduction-stack)已发布！\n- ✨ 针对 Lambda Labs、AWS EKS 和 Google GCP 的[云部署教程](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials)现已上线！\n- 🛤️ 2026 年路线图已发布！[立即参与讨论](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fissues\u002F855)！\n- 🔥 vLLM 生产环境栈正式发布！请查看我们于 2025 年 1 月 22 日发布的[发布博客](https:\u002F\u002Fblog.lmcache.ai\u002F2025-01-21-stack-release)。\n\n## 社区活动\n\n我们每两周举行一次社区会议，具体时间如下：\n\n- 每隔一周的周二下午 5:30（太平洋时间）– [添加到日历](https:\u002F\u002Fdrive.google.com\u002Fuc?export=download&id=1D4SqQiqzdSx_xsEwS0QTd592zd3Xourh)\n\n欢迎所有人参加！\n\n## 简介\n\n**vLLM 生产环境栈**项目提供了一个基于 vLLM 构建推理栈的参考实现，它使您能够：\n\n- 🚀 在不更改任何应用程序代码的情况下，从单个 vLLM 实例扩展到分布式 vLLM 部署\n- 💻 通过 Web 仪表板监控各项指标\n- 😄 享受请求路由和 KV 缓存卸载带来的性能优势\n\n## 分步教程\n\n0. 如何 [*安装 Kubernetes（kubectl、helm、minikube 等）*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F00-install-kubernetes-env.md)？\n1. 如何 [*在主流云平台（AWS、GCP、Lambda Labs、Azure）上部署生产环境栈*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002Fcloud_deployments)？\n2. 如何 [*搭建一个最小化的 vLLM 生产环境栈*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F01-minimal-helm-installation.md)？\n3. 如何 [*自定义 vLLM 配置（可选）*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F02-basic-vllm-config.md)？\n4. 如何 [*加载您的 LLM 权重*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F03-load-model-from-pv.md)？\n5. 如何 [*在 vLLM 生产环境栈中运行不同的 LLM*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F04-launch-multiple-model.md)？\n6. 如何 [*使用 LMCache 启用 KV 缓存卸载*](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F05-offload-kv-cache.md)？\n\n## 架构\n\n该栈使用 [Helm](https:\u002F\u002Fhelm.sh\u002Fdocs\u002F) 进行部署，包含以下关键组件：\n\n- **服务引擎**：运行不同 LLM 的 vLLM 引擎。\n- **请求路由器**：根据路由键或会话 ID 将请求定向到合适的后端，以最大化 KV 缓存的复用。\n- **可观测性栈**：通过 [Prometheus](https:\u002F\u002Fgithub.com\u002Fprometheus\u002Fprometheus) + [Grafana](https:\u002F\u002Fgrafana.com\u002F) 监控后端的各项指标。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_production-stack_readme_66317a379797.png\" alt=\"架构图\" width=\"80%\"\u002F>\n\u003C\u002Fp>\n\n## 路线图\n\n我们正在积极开发此项目，并将很快推出以下功能。敬请期待！\n\n- 基于 vLLM 特定指标的**自动伸缩**\n- 对**解耦预填充**的支持\n- **路由器改进**（例如，使用非 Python 语言实现更高效的路由器、KV 缓存感知路由算法、更好的容错能力等）\n\n## 通过 Helm 部署栈\n\n### 先决条件\n\n- 一个运行中的带有 GPU 的 Kubernetes (K8s) 环境\n  - 运行 `cd utils && bash install-minikube-cluster.sh`\n  - 或者按照我们的[教程](tutorials\u002F00-install-kubernetes-env.md)操作\n\n### 部署\n\nvLLM 生产环境栈可以通过 Helm Chart 部署。克隆仓库到本地并执行以下命令以进行最小化部署：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack.git\ncd production-stack\u002F\nhelm repo add vllm https:\u002F\u002Fvllm-project.github.io\u002Fproduction-stack\nhelm install vllm vllm\u002Fvllm-stack -f tutorials\u002Fassets\u002Fvalues-01-minimal-example.yaml\n```\n\n部署后的栈提供了与 vLLM 相同的[OpenAI API 接口](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fopenai_compatible_server.html?ref=blog.mozilla.ai#openai-compatible-server)，可通过 Kubernetes Service 访问。\n\n要验证安装并向栈发送查询，请参阅[此教程](tutorials\u002F01-minimal-helm-installation.md)。\n\n有关自定义 Helm Chart 的更多信息，请参阅 [values.yaml](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Fhelm\u002Fvalues.yaml) 以及我们的其他[教程](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Ftree\u002Fmain\u002Ftutorials)。\n\n### 卸载\n\n```bash\nhelm uninstall vllm\n```\n\n## Grafana 仪表板\n\n### 功能\n\nGrafana 仪表板提供以下洞察：\n\n1. **可用 vLLM 实例数**：显示健康实例的数量。\n2. **请求延迟分布**：可视化端到端请求延迟。\n3. **首次 token 时间 (TTFT) 分布**：监控生成 token 的响应时间。\n4. **正在处理的请求数**：跟踪每个实例上的活跃请求数。\n5. **待处理请求数**：跟踪等待处理的请求数。\n6. **GPU KV 使用率**：监控 GPU KV 缓存的使用情况。\n7. **GPU KV 缓存命中率**：显示 GPU KV 缓存的命中率。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_production-stack_readme_84bd98cb7324.png\" alt=\"用于监控部署的 Grafana 仪表板\" width=\"80%\"\u002F>\n\u003C\u002Fp>\n\n### 配置\n\n详情请参阅 [`helm\u002FREADME.md`](.\u002Fhelm\u002FREADME.md#Observability)。\n\n## 路由器\n\n路由器确保请求在后端之间高效分配。它支持：\n\n- 路由到运行不同模型的端点\n- 导出每个服务引擎实例的可观测性指标，包括 QPS、首次 token 时间 (TTFT)、待处理\u002F正在处理\u002F已完成请求数以及运行时间\n- 通过 Kubernetes API 实现自动服务发现和容错\n- 模型别名\n- 多种路由算法：\n  - 轮询路由\n  - 基于会话 ID 的路由\n  - 前缀感知路由（开发中）\n\n更多详细信息请参阅 [路由器文档](.\u002Fsrc\u002Fvllm_router\u002FREADME.md)。\n\n## 贡献\n\n我们欢迎并重视任何贡献和合作。请查看 [CONTRIBUTING.md](CONTRIBUTING.md) 了解如何参与。\n\n## 许可证\n\n本项目采用 Apache License 2.0 许可证。详细信息请参阅 `LICENSE` 文件。\n\n## 赞助商\n\n我们感谢支持我们开发和基准测试工作的赞助商：\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgmicloud.ai\">\n    \u003Cimg src=\"https:\u002F\u002Fcdn.prod.website-files.com\u002F6683d8c52e4e62685a8d90cf\u002F67a0a0064683945b0cf77f25_GMI%20Cloud%20Logo_Black.svg\" alt=\"GMI Cloud Logo\" width=\"200\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\n如遇任何问题或疑问，请随时提交 issue 或联系我们（[@ruizhang0101](https:\u002F\u002Fgithub.com\u002Fruizhang0101)、[@ApostaC](https:\u002F\u002Fgithub.com\u002FApostaC)、[@YuhanLiu11](https:\u002F\u002Fgithub.com\u002FYuhanLiu11)、[@Shaoting-Feng](https:\u002F\u002Fgithub.com\u002FShaoting-Feng)）。","# vLLM Production Stack 快速上手指南\n\nvLLM Production Stack 是一个基于 Kubernetes 和 Helm 的参考实现，旨在帮助用户快速构建生产级的 vLLM 推理集群。它支持从单节点平滑扩展到分布式部署，内置请求路由、KV Cache 卸载（通过 LMCache）以及完整的监控仪表盘（Prometheus + Grafana）。\n\n## 环境准备\n\n在开始之前，请确保满足以下前置条件：\n\n*   **操作系统**：Linux (推荐 Ubuntu 20.04\u002F22.04) 或 macOS。\n*   **Kubernetes 集群**：需要一个正在运行且包含 GPU 资源的 K8s 环境。\n    *   *本地测试*：可使用 `minikube` 快速搭建（需安装 Docker 和 NVIDIA Container Toolkit）。\n    *   *云环境*：支持 AWS EKS, Google GCP, Lambda Labs, Azure AKS 等。\n*   **核心工具**：\n    *   `kubectl`：Kubernetes 命令行工具。\n    *   `helm` (v3+)：包管理工具。\n    *   `git`：代码版本控制。\n\n> **提示**：如果你尚未安装 Kubernetes 环境，可运行项目提供的脚本自动安装 minikube 集群：\n> ```bash\n> cd utils && bash install-minikube-cluster.sh\n> ```\n> 或参考官方教程：[安装 Kubernetes 环境](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fblob\u002Fmain\u002Ftutorials\u002F00-install-kubernetes-env.md)\n\n## 安装步骤\n\n以下步骤将演示如何通过 Helm 图表部署一个最小化的 vLLM Production Stack。\n\n### 1. 克隆项目仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack.git\ncd production-stack\u002F\n```\n\n### 2. 添加 Helm 仓库\n将 vLLM Production Stack 的 Helm 仓库添加到本地列表：\n```bash\nhelm repo add vllm https:\u002F\u002Fvllm-project.github.io\u002Fproduction-stack\nhelm repo update\n```\n\n### 3. 执行部署\n使用项目提供的最小化示例配置文件进行安装：\n```bash\nhelm install vllm vllm\u002Fvllm-stack -f tutorials\u002Fassets\u002Fvalues-01-minimal-example.yaml\n```\n\n> **注意**：国内用户若遇到 Helm 仓库拉取缓慢，可尝试配置国内镜像源或使用代理加速。\n\n### 4. 验证安装\n等待 Pod 状态变为 `Running`：\n```bash\nkubectl get pods\n```\n确认服务已暴露：\n```bash\nkubectl get svc\n```\n\n## 基本使用\n\n部署完成后，Stack 会提供与 vLLM 原生兼容的 **OpenAI API 接口**。你可以通过 Kubernetes Service 访问该接口。\n\n### 发送测试请求\n\n假设你的服务名为 `vllm-vllm-stack`（具体名称可通过 `kubectl get svc` 查看），你可以使用 `curl` 或任何 OpenAI 兼容的客户端进行测试。\n\n以下是一个简单的 `curl` 测试示例（请在集群内部或通过端口转发访问）：\n\n```bash\n# 端口转发到本地 (可选，方便本地调试)\nkubectl port-forward svc\u002Fvllm-vllm-stack 8000:80\n\n# 在新终端中发送请求\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"model\": \"your-model-name\",\n    \"messages\": [\n      {\"role\": \"user\", \"content\": \"Hello, how are you?\"}\n    ]\n  }'\n```\n\n*请将 `your-model-name` 替换为你实际加载的模型名称。*\n\n### 查看监控仪表盘\n\nProduction Stack 内置了 Grafana 监控面板，可实时查看：\n*   可用 vLLM 实例数量\n*   请求延迟分布 (Latency)\n*   首字生成时间 (TTFT)\n*   GPU KV Cache 命中率及使用率\n\n通过端口转发访问 Grafana：\n```bash\nkubectl port-forward svc\u002Fgrafana 3000:80\n```\n然后在浏览器打开 `http:\u002F\u002Flocalhost:3000` 即可查看可视化数据。\n\n---\n*更多高级用法（如自定义配置、加载本地模型权重、启用 KV Cache 卸载、多模型部署等），请参考项目目录下的 `tutorials` 文件夹。*","某初创公司正在将其基于 vLLM 的对话机器人从单卡测试环境迁移至多节点 Kubernetes 集群，以支撑日益增长的用户并发请求。\n\n### 没有 production-stack 时\n- **扩容极其痛苦**：从单实例扩展到分布式集群需要重写大量应用代码来处理负载均衡和会话保持，开发周期长达数周。\n- **资源浪费严重**：缺乏智能路由机制，用户的连续请求常被分发到不同节点，导致 KV Cache 无法复用，推理延迟高且显存利用率低。\n- **监控盲区**：缺少统一的观测面板，无法实时查看各后端引擎的性能指标，故障排查只能靠登录服务器查日志，效率极低。\n- **部署复杂**：在 AWS 或 GCP 等云平台上手动配置 K8s 组件繁琐易错，缺乏标准化的参考架构，运维团队负担沉重。\n\n### 使用 production-stack 后\n- **无缝弹性伸缩**：无需修改任何业务代码，仅需通过 Helm  charts 即可将单节点平滑升级为集群级部署，上线时间缩短至小时级。\n- **性能显著提升**：内置的智能请求路由器自动识别会话 ID，将请求精准导向持有对应 KV Cache 的节点，大幅降低首字延迟并提升吞吐量。\n- **全景可观测性**：一键集成 Prometheus 与 Grafana，通过 Web 仪表盘实时监控集群健康度与推理指标，异常问题立即可见。\n- **标准化云部署**：提供针对主流云厂商（AWS、GCP 等）的成熟教程与模板，让团队能专注于模型优化而非基础设施搭建。\n\nproduction-stack 通过提供云原生的参考架构，让企业能以最低成本实现 vLLM 从实验原型到生产级高可用集群的跨越。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvllm-project_production-stack_84bd98cb.png","vllm-project","vLLM","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fvllm-project_88aef4ba.png","",null,"https:\u002F\u002Fgithub.com\u002Fvllm-project",[79,83,87,91,95,99,102,106],{"name":80,"color":81,"percentage":82},"Python","#3572A5",43.4,{"name":84,"color":85,"percentage":86},"Shell","#89e051",18.8,{"name":88,"color":89,"percentage":90},"Go","#00ADD8",18.6,{"name":92,"color":93,"percentage":94},"HCL","#844FBA",13.7,{"name":96,"color":97,"percentage":98},"Smarty","#f0c040",2.4,{"name":100,"color":89,"percentage":101},"Go Template",1.6,{"name":103,"color":104,"percentage":105},"Makefile","#427819",1.1,{"name":107,"color":108,"percentage":109},"Dockerfile","#384d54",0.4,2283,391,"2026-04-20T07:14:12","Apache-2.0",5,"Linux","必需 NVIDIA GPU（运行环境需为带 GPU 的 Kubernetes 集群），具体型号和显存大小取决于所部署的 LLM 模型，未明确指定最低要求。","未说明（取决于 Kubernetes 节点配置及模型大小）",{"notes":119,"python":120,"dependencies":121},"该工具是一个基于 Helm 的参考实现，用于在 Kubernetes 上部署生产级 vLLM 推理栈。核心前置条件是必须拥有一个正在运行且配备 GPU 的 Kubernetes 环境（支持通过脚本安装 Minikube 或在 AWS、GCP、Lambda Labs 等云平台部署）。它提供与 vLLM 兼容的 OpenAI API 接口，并内置请求路由器和 Grafana 监控面板。不支持直接在本地操作系统运行，必须容器化部署在 K8s 集群中。","未说明",[122,73,123,124,125],"Kubernetes (kubectl, helm, minikube)","Prometheus","Grafana","LMCache (可选，用于 KV Cache 卸载)",[36,14],"2026-03-27T02:49:30.150509","2026-04-20T20:35:08.506239",[],[131,136,141,146,151,156,161,166,171,176,181,186,191,196,201,206,211,216,221,226],{"id":132,"version":133,"summary_zh":134,"released_at":135},360627,"vllm-stack-0.0.9","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* [Bugfix] Fix indentation issue in Helm Chart PVC by @BaeYeongbin in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F148\r\n* [Tutorial] Deployment on Google GKE by @EaminC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F146\r\n* Feat: Router observability (Current QPS, router-side queueing delay, etc) Part 1 by @sitloboi2012 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F119\r\n* [release] Add github sha tag for router image by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F153\r\n* [Fix] Minor Fixs for Tutorial and Bumped version to 0.0.9 by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F154\r\n\r\n## New Contributors\r\n* @BaeYeongbin made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F148\r\n* @EaminC made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F146\r\n* @sitloboi2012 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F119\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.8...vllm-stack-0.0.9","2025-02-19T18:07:47",{"id":137,"version":138,"summary_zh":139,"released_at":140},360628,"vllm-stack-0.0.8","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* Fix the problem of 1k prompts. by @ggaaooppeenngg in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F127\r\n* [Router] Fix unspecified versions in requirements.txt by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F143\r\n* [CI\u002FBuild] Fix static router in github actions by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F137\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.7...vllm-stack-0.0.8","2025-02-18T05:54:22",{"id":142,"version":143,"summary_zh":144,"released_at":145},360629,"vllm-stack-0.0.7","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* [Tutorial] Added EKS tutorial for production stack by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F142\r\n* [Deploy WIP] Modified the EKS tutorial by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F144\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.6...vllm-stack-0.0.7","2025-02-17T21:56:08",{"id":147,"version":148,"summary_zh":149,"released_at":150},360614,"vllm-stack-0.1.10","vLLM 的堆栈部署\n\n## 变更内容\n* 添加 servingEngineSpec 环境变量，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F799 中完成\n* [修复] 处理去耦合预填充请求中缺失的 max_tokens 参数，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F797 中完成\n* [路由器]：添加图像和音频 API 的路由，由 @nmiguel 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F820 中完成\n* [路由器][修复]：修复 images\u002Fedits 端点名称，由 @nmiguel 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F822 中完成\n* 更新 README.md 中的联系信息，由 @ruizhang0101 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F821 中完成\n* 修复 OCI OKE 部署脚本（entry_point.sh）——经端到端测试验证，由 @fede-kamel 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F811 中完成\n* 在 values.yaml 中将资源列为有效选项，由 @eladmotola 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F806 中完成\n* [文档] 更新 README，说明 servingEngineSpec 的全局环境变量，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F814 中完成\n* 功能（helm）：为部署和服务添加标准 Kubernetes 标签，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F810 中完成\n* [BugFix][功能]：修复 serviceEngineSpec 探针字段，并改进 Helm 模板中的探针管理，由 @emanuelecassese 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F809 中完成\n* [Bugfix] 增加路由器默认内存大小，由 @ruizhang0101 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F804 中完成\n* [功能] 添加按模型划分的令牌和错误 Prometheus 指标（#699 的一部分），由 @ardecode 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F813 中完成\n* [CI\u002FCD] 添加稳定版路由器镜像，由 @ruizhang0101 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F823 中完成\n* [功能] 为 vllmRunTimes 添加容忍度配置，由 @mahmoudk1000 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F825 中完成\n* [功能] Operator：为资源添加 GPUType，以替换 vllmruntime 中的 \"nvidia.com\u002Fgpu\"，由 @dotmobo 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F829 中完成\n* [Bugfix] 更新 aiohttp 和 python-multipart，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F831 中完成\n* 修复：使 --log-level CLI 参数真正控制路由器的日志级别，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F832 中完成\n* 修复：在 route_general_transcriptions 中从响应头中排除 content-length 字段，由 @fidoriel 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F733 中完成\n* [功能] 重新排序 vllmRunTimes 的 hfTokenSecret，由 @mahmoudk1000 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F826 中完成\n* 功能（路由器）：添加对 Anthropic 消息端点的初步支持，由 @nejch 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F775 中完成\n* [功能] 为日志调试添加令牌脱敏功能，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F824 中完成\n* 重构：在整个代码库中用 init_logger() 替换 logging.getLogger()，由…完成","2026-02-27T23:44:41",{"id":152,"version":153,"summary_zh":154,"released_at":155},360615,"vllm-stack-0.1.9","vLLM 的堆栈部署\n\n## 变更内容\n* [新功能] 为路由器和缓存服务器部署添加 imagePullSecrets 支持，由 @HanFa 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F762 中实现\n* [新功能] 添加生产就绪的 vLLM Nebius MK8s Terraform 教程，由 @brokedba 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F748 中实现\n* [新功能] 允许直接声明 modelSpec 资源，由 @danhubern 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F729 中实现\n* [路由器] 引入 \u002Fv1\u002Fresponses 端点，由 @sebastiaanvduijn 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F691 中实现\n* [修复][路由器] 修复使用多个副本时路由器启动竞争条件的问题，由 @bcdonadio 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F768 中实现\n* [文档] 修正转录 API 教程中的参数错误，由 @davidgao7 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F685 中实现\n* [修复] 由于 aiohttp 的默认限制，当前对模型的并发请求被限制为 100 个，由 @dermodmaster 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F767 中实现\n* 将 nixlPeerHost 更新为 pd-llama-decode-engine-service，由 @Xunzhuo 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F771 中实现\n* [新功能] 生产堆栈路由器：添加支持 W3C 上下文传播的 OpenTelemetry 跟踪功能，由 @HanFa 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F772 中实现\n* [新功能]：添加对 chatTemplates 的支持，由 @mahmoudk1000 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F779 中实现\n* [构建][路由器] 将 vllm 更新至 v0.13.0，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F770 中实现\n* [新功能] 为 vllmRunTimes 添加 nodeSelectorTerms，由 @mahmoudk1000 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F778 中实现\n* 更新社区会议的日历链接，由 @ruizhang0101 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F783 中实现\n* 更新语义路由器部署文档，改为使用 Helm，由 @szedan-rh 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F786 中实现\n* 修复批处理程序初始化中的错误导入路径，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F784 中实现\n* [构建][路由器] 更新 aiohttp，由 @shernshiou 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F793 中实现\n* 更新 README 中的 Slack 频道链接，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F798 中实现\n* [文档] 从 README 中移除官方邮箱链接，由 @ruizhang0101 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F805 中实现\n* 功能(oci)：添加 Oracle Cloud Infrastructure (OKE) 部署支持，由 @fede-kamel 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F794 中实现\n* [新功能] 添加 KEDA 支持，由 @eladmotola 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F781 中实现\n* [CI\u002F构建] 在发布过程中为 Docker 镜像添加稳定版本标签，由 @ardecode 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F801 中实现\n* 修复分数负载中的拼写错误，并添加回归测试，由 @keyuchen21 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F769 中实现\n*","2026-01-30T00:15:31",{"id":157,"version":158,"summary_zh":159,"released_at":160},360616,"vllm-stack-0.1.8","vLLM 的堆栈部署\n\n## 变更内容\n* [新功能] 添加 GKE 示例，支持 lmcache CPU、内存 + 本地磁盘卸载，由 @dannawang0221 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F678 中实现。\n* [新功能] 使用 lmcache 0.3.5 进行 kvaware 路由，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F673 中实现。\n* [新功能] 向 ray-cluster.yaml（Helm Chart）添加拉取策略选项，由 @moriabs88 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F686 中实现。\n* [新功能] 添加对 KEDA 缩减至零的支持，由 @Romero027 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F679 中实现。\n* [修复] 对可观测性教程进行小幅修复，由 @Romero027 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F695 中完成。\n* [新功能][路由器] 添加视觉模型类型，由 @max-wittig 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F603 中实现。\n* 为无命令行参数的 vLLM 容器添加休眠模式支持，由 @dumb0002 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F696 中实现。\n* [修复] 提高 CRD 的存活探针失败阈值，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F688 中完成。\n* [修复] 为静态发现机制添加 close 方法，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F692 中实现。\n* [修复][路由器] 遍历 model_names，由 @max-wittig 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F694 中完成。\n* [杂项] 升级 OTEL Collector 版本并使用简化镜像，由 @JaredTan95 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F698 中完成。\n* [vllm-路由器] 回退到远程分词器作为第二条路径，由 @panpan0000 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F702 中实现。\n* [修复][路由器] 在转录过程中不按模型标签进行过滤，由 @max-wittig 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F712 中完成。\n* [CI] 将端到端测试机器迁移到自托管环境，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F716 中完成。\n* [新功能] 添加生产就绪的 vLLM EKS Terraform 堆栈教程，由 @brokedba 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F704 中实现。\n* [修复] 在加载 LoRA 适配器后为 Pod 添加注解，以触发修改事件，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F703 中完成。\n* [新功能] [路由器] [杂项] [文档] 提高亲和性和探针的可配置性，由 @Garrukh 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F715 中实现。\n* [修复] 修复 PD 客户端初始化问题，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F717 中完成。\n* [修复\u002F新功能] 在 service-vllm 中支持 extraPorts，由 @NargiT 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F725 中实现。\n* 更新 gateway-inference-extension.rst，由 @linsun 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F728 中完成。\n* 功能（Helm）：将 emptyDir 用作 pvcStorage，由 @Jimmy-Newtron 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproducti","2025-11-19T21:31:54",{"id":162,"version":163,"summary_zh":164,"released_at":165},360617,"vllm-stack-0.1.7","vLLM 的堆栈部署\n\n## 变更内容\n* [新功能] 添加了指定优先级类的选项，由 @Fabhiahn 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F557 中实现\n* [CI\u002F构建] 将 CI 运行器更改为 L4，由 @Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F595 中完成\n* [修复] 修复动态配置问题，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F598 中完成\n* [重构] 重新设计 RST 文档，由 @kobe0938 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F592 中完成\n* [杂项] 恢复 uv.lock 文件，由 @kobe0938 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F604 中完成\n* [CI\u002F构建] 在路由器端到端测试中指定 transformers 版本，由 @Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F607 中完成\n* [新功能] 允许通过服务名称进行服务发现，由 @learner0810 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F586 中实现\n* 新功能：为路由器添加 HPA，由 @BrianPark314 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F568 中实现\n* [杂项] 添加 Helm 配置值表格，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F599 中完成\n* [新功能] 使用 Sidecar 为 Helm 部署下载 LoRA 模型，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F618 中实现\n* [路由器] 提升轮询路由器的性能，由 @zhouwfang 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F584 中完成\n* [新功能] 使用 Sidecar 为 Operator 部署下载 LoRA 模型，由 @zerofishnoodles 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F622 中实现\n* [特性] 添加检查 Pod 终止状态并更新 Pod 就绪逻辑的方法，由 @KevinCheung2259 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F602 中实现\n* [新功能] 为 vLLM 路由器添加 Sentry 持续性能剖析支持，由 @ikaadil 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F624 中实现\n* [新功能][Helm] 为 Gateway API 支持添加 HTTPRoute 模板，由 @Hexoplon 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F610 中实现\n* [新功能] 初始化容器“extraVolumeMount”，由 @cm-enfuse 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F600 中实现\n* [修复][路由器] 简化测试负载，由 @max-wittig 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F613 中完成\n* [新功能] 添加对 HAMi 资源变量的支持，由 @andresd95 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F579 中实现\n* 功能\u002FKV 缓存感知路由，由 @BrianPark314 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F550 中实现\n* [路由器] 将 vllm_router 中的 httpx 替换为 aiohttp，以提升高并发性能，由 @ikaadil 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F589 中完成\n* 功能\u002F前缀感知路由，由 @BrianPark314 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F546 中实现\n* [新功能][路由器] 增加对 YAML 配置文件的额外支持，由 @antoineauger 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F621 中实现\n* [CI] 为路由器添加压力测试，由 @kobe0938 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F633 中完成\n* [杂项]","2025-09-03T22:10:50",{"id":167,"version":168,"summary_zh":169,"released_at":170},360618,"vllm-stack-0.1.6","vLLM 的堆栈部署\n\n## 变更内容\n\n- [CI]：更改 nightly Docker 镜像的入口点 (#514)（由 @sammshen 提供）\n- 添加对 sleep 和 wake_up 端点的支持 (#498)（由 @dumb0002 提供）\n- [Bugfix] 为 lmcache 服务器添加健康检查 (#520)（由 @zerofishnoodles 提供）\n- [文档、功能] 基本的 KEDA 支持及教程 (#487)（由 @Romero027 提供）\n- [杂项] 删除不必要的文件 (#521)（由 @zerofishnoodles 提供）\n- 更改 KEDA 名称 (#529)（由 @zerofishnoodles 提供）\n- [CI\u002FCD] 添加轮询路由器端到端测试 (#525)（由 @zerofishnoodles 提供）\n- [文档] 添加 CRD 部署文档 (#530)（由 @kobe0938 提供）\n- [文档] Kubernetes in Docker (kind) 教程 (#534)（由 @lucas-tucker 提供）\n- 功能：将 ruff 引入项目 1 - 测试 (#527)（由 @BrianPark314 提供）\n- [CI\u002FCD] 为 prefixaware 添加静态端到端测试 (#532)（由 @zerofishnoodles 提供）\n- 修复 (request)：确保扩展 full_response (#536)（由 @max-wittig 提供）\n- [CI\u002FCD] 添加前缀感知路由测试 (#523)（由 @zerofishnoodles 提供）\n- [Bugfix][Helm] 防止容器出现重复的 securitycontext 条目 (#544)（由 @Hexoplon 提供）\n- 功能\u002Fgateway-inference-extension (#537)（由 @BrianPark314 提供）\n- 为已验证的发布者添加 Artifact Hub 元数据 (#540)（由 @kobe0938 提供）\n- [CI\u002FCD] 添加多路由逻辑测试 (#547)（由 @zerofishnoodles 提供）\n- [文档] 为解耦预填充添加安全上下文 (#555)（由 @YuhanLiu11 提供）\n- [CI\u002FCD] 为信息添加 checkov 安全检查（由 @zerofishnoodles 提供）\n- 修复 (reconciler)：当镜像或副本数发生变化时触发更新 (#554)（由 @googs1025 提供）\n- [功能] 针对 MS Azure 的 Terraform 快速入门教程 (#552)（由 @falconlee236 提供）\n- [路由器] 暴露 \u002Ftokenize 和 \u002Fdetokenize 端点 (#541)（由 @Exchioz 提供）\n- 功能\u002Fruff-router (#553)（由 @BrianPark314 提供）\n- [文档] 添加 Gateway Inference Extension 支持教程 (#570)（由 @YuhanLiu11 提供）\n- 修复：trie 插入中的竞态条件（由 @zhouwfang 提供）\n- [特性] 将默认 vLLM 版本从 v0 升级到 v1 (#580)（由 @YuhanLiu11 提供）\n- 功能 (helm)：使 imagePullPolicy 可配置，并修复 LoadBalancer 的路由器服务注解 (#573)（由 @lonelygo 提供）\n- 性能优化：最小化锁竞争 (#581)（由 @zhouwfang 提供）\n- [BugFix] 修复 LoRA 控制器的 reconcile 逻辑 (#565)（由 @zerofishnoodles 提供）\n- [FEAT] 添加 LoRA Helm 部署 (#563)（由 @zerofishnoodles 提供）","2025-07-22T04:55:26",{"id":172,"version":173,"summary_zh":174,"released_at":175},360619,"vllm-stack-0.1.5","vLLM 的堆栈部署","2025-06-17T04:23:46",{"id":177,"version":178,"summary_zh":179,"released_at":180},360620,"vllm-stack-0.1.4","vLLM 的堆栈部署\n\n## 变更内容\n- 增加将请求路由到特定引擎实例的支持 (#438) @dumb0002\n- [性能] 提升解耦式预填充路由器的性能 (#440) @YuhanLiu11\n- [修复] 仅监控默认命名空间的服务 (#447) @nicole-lihui\n- 更新安装脚本中的 kubectl 命令，以全局查找 kuberay-operator Pod (#460) @googs1025\n- [文档] 添加关于解耦式预填充的文档 (#477) @YuhanLiu11\n- 优化端口转换 (#466) @learner0810\n- [杂项] 使 KV 感知路由与最新版 LMCache 兼容 (#475) @YuhanLiu11\n- 修复 (operator): 根据部署副本数修复 CR 状态 (#443) @googs1025\n- [杂项] 更新 request_id 处理逻辑，使其与 vLLM 保持一致 (#473) @KevinCheung2259\n- [CI\u002F构建] 在运行前添加环境清理 (#486) @Shaoting-Feng\n- [BugFix] 修复静态发现中的 v1\u002Fmodels (#492) @zerofishnoodles\n- Bugfix\u002F482 Helm rayspec 修复 (#483) @insukim1994\n\n","2025-06-05T21:10:53",{"id":182,"version":183,"summary_zh":184,"released_at":185},360621,"vllm-stack-0.1.3","vLLM 的堆栈部署\n\n## 已进行的更改\n- [新功能] 添加 extraVolumes 和 extraVolumeMounts 选项 @BrianPark314 (#396)\n- [修复] 修复(services): 使 post_request 回调不再依赖 semantic_cache @ant-ms (#399)\n- [新功能] 支持手动调度引擎 Pod @dumb0002 (#400)\n- [修复] 添加缺失的参数类型设置 @googs1025 (#401)\n- [新功能] 添加 sentry SDK 和 CLI 参数 @pwuersch (#395)\n- [文档] 增加关于卸载旧版 Minikube 安装的文档 @insukim1994 (#405)\n- [新功能] KV 缓存感知路由 @YuhanLiu11 (#403)\n- [新功能] 在 ConfigMap 调和失败时添加事件 @googs1025 (#402)\n- [杂项] 更新 v1 版本的 Helm Chart @YuhanLiu11 (#412)\n- [修复] 修复(parser): 修复动态配置无法正常工作的问题 @max-wittig (#413)\n- [新功能] 添加模型别名 @max-wittig (#397)\n- [杂项] 使用 JSON Schema 2020-12 版本的模式 @sh1ng (#423)\n- [新功能] 为生产堆栈添加初始 CRD 支持 @royyhuang (#415)\n- [新功能] 基于哈希 Trie 实现前缀感知路由 @KuntaiDu (#432)\n- [新功能] 集成简单的 Gateway 推理扩展 @YuhanLiu11 (#436)\n- [新功能] 基于 vLLM v1 添加对解耦预填充的支持 @YuhanLiu11 (#435)\n- [重构] 将服务列表替换为单个服务对象 @googs1025 (#409)\n- [新功能][路由器] 添加 static-model-types 参数 @max-wittig (#430)\n- [CI\u002FCD] 为 CRD 添加 CI\u002FCD 测试 @YuhanLiu11 (#452)\n- 在 CI 中切换上下文 @Shaoting-Feng (#451)\n- [杂项] 添加单元测试覆盖率 @max-wittig (#449)\n- [新功能] 基本流水线并行化 @insukim1994 (#422)\n- [新功能] 为静态路由器添加端点健康检查 @max-wittig (#428)\n- [新功能][LoRA] 添加 LoRA 运算符，并修改 vLLM 路由器以支持 @zerofishnoodles (#446)","2025-05-30T06:39:13",{"id":187,"version":188,"summary_zh":189,"released_at":190},360622,"vllm-stack-0.1.2","vLLM 的堆栈部署\n\n## 变更内容\n* [功能] 添加支持开启或关闭引擎部署，由 @dumb0002 完成 #311\n* [功能] 为路由器和缓存服务器添加 nodeSelectorTerms，由 @kinoute 完成 #314\n* [修复] 更新日志处理器以正确处理 stdout\u002Fstderr，由 @corona10 完成 #320\n* [CI] 始终上传 Helm 功能性检查的日志，由 @pwuersch 完成 #321\n* [CI\u002F构建] 移除 CI\u002FCD 中的 sudo 要求，由 @Shaoting-Feng 完成 #325\n* [功能] 当指定多个模型时创建多个服务，由 @lucas-tucker 完成 #326\n* [CI] 添加覆盖率跟踪，由 @zhuohangu 完成 #330\n* [CLI\u002F文档] 更新使用 GPU 配额的 GKE 部署说明，由 @EaminC 完成 #334\n* [修复] 修复线程创建以正确传递参数，由 @corona10 完成 #336\n* [功能] OpenTelemetry 支持示例，由 @lucas-tucker 完成 #346\n* [功能] 为 MCP 客户端集成添加工具调用支持，由 @YuhanLiu11 完成 #352\n* [基准测试] 添加 API 密钥选项，由 @Kimdongui 完成 #354\n* [修复] 修复初始化容器的 PVC 卷挂载问题，由 @zerofishnoodles 完成 #359\n* [功能] 启用延迟监控并添加平均延迟计算逻辑，由 @insukim1994 完成 #362\n* [功能] 添加在 AMD GPU 上部署生产堆栈的教程文档，由 @insukim1994 完成 #364\n* [修复] 废弃负载最低路由逻辑，由 @insukim1994 完成 #366\n* [修复] 在部署选择器中添加模型名称，由 @TamKej 完成 #367\n* [功能] Helm：添加 routerSpec.serviceType 值，由 @marquiz 完成 #368\n* [功能] 支持使用增强的 vLLM 配置进行多模型部署，由 @haitwang-cloud 完成 #371\n* [修复] 修复引擎 svc 标签相关问题，由 @dumb0002 完成 #376\n* [修复] 正确声明 protocols.py 中的日志记录器，由 @corona10 完成 #381\n* [功能] 添加在生产堆栈中使用 vLLM v1 的教程，由 @YuhanLiu11 完成 #390","2025-04-29T19:56:42",{"id":192,"version":193,"summary_zh":194,"released_at":195},360623,"vllm-stack-0.1.1","vLLM 的堆栈部署\n\n## 变更内容\n* [CI\u002F构建][路由器] 使语义缓存可选，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F218 中实现\n* [基准测试] 在教程中添加路由器配置，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F223 中实现\n* 重构：采用标准的 FastAPI 项目结构，以优化主…，由 BrianPark314 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F217 中实现\n* 添加 LoRA 支持提案，由 wangchen615 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F216 中提出\n* [功能] 向 `modelSpec` 添加 `initContainer`，由 AbelHristodor 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F221 中实现\n* [路由器] 修复聊天完成 URL 中的语义缓存检查，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F224 中修复\n* [文档] 更改教程 08 中的 Naive Kubernetes 示例中的仓库地址，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F225 中完成\n* [文档] 更新社区会议日历邀请，由 YuhanLiu11 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F231 中完成\n* [文档] 修复 `values-07` 教程文件中 `startupProbe` 的缩进问题，由 AbelHristodor 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F226 中修复\n* [文档] 初步文档结构，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F234 中创建\n* [文档] 更新 01 教程中的端点，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F236 中完成\n* [文档] 添加示例页面和 README，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F241 中实现\n* [文档] 修复 AIBrix 中模型名称和输出长度的拼写错误，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F242 中完成\n* [文档] 为基准测试问答添加文档页面，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F243 中实现\n* [文档] 添加关于 gcp.rst 的文档，由 EaminC 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F249 中完成\n* [功能] 添加 vllm-api-key，由 JustinDuy 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F194 中实现\n* [CI\u002F构建] 为功能测试添加并发支持，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F219 中完成\n* [文档] 更新教程和用户手册文档，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F257 中完成\n* [文档] 为路由器 CRD 配置及开发添加文档，并进行了一些小调整，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F259 中完成\n* [功能] 为 Google GKE 提供 Terraform 快速入门教程，由 falconlee236 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F250 中实现\n* [功能] 向 `modelSpec` 添加 `requestGPUType`，由 Hexoplon 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F253 中实现\n* [文档][CI\u002F构建] 小幅修复，由 Shaoting-Feng 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F258 中完成\n* [文档] 开发 API 文档及错误修复，由 Siddhant-Ray 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F266 中完成\n* [功能] 显式添加资源限制值，由 Hexoplon 在 https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002F 中实现","2025-03-19T18:39:09",{"id":197,"version":198,"summary_zh":199,"released_at":200},360624,"vllm-stack-0.1.0","The stack deployment of vLLM\r\n\r\n# What's Changed\r\n\r\n- [Feat] add imagePullSecrets option to helm chart #179 by @kalantar \r\n- [Benchmark] Adding multi-round QA benchmark script #180 @YuhanLiu11 \r\n- [Feat]: add support for embeddings, rerank and score endpoints #181 @bufferoverflow \r\n- [CI\u002FBuild]: bump python to 3.12 to be inline with vllm #182 @bufferoverflow \r\n- Manually Enable LoRA Adapters using existing Router and vLLM deployment #206 @wangchen615 \r\n- [Feat] dynamic configuration support for router #207 @ApostaC \r\n- [Feat] create kubernetes operator to manage dynamic config file #208 @rootfs \r\n- [Document, Feat] basic HPA support and tutorials #209 @ApostaC \r\n- [Feat] enable experimental semantic cache in router #210 @rootfs \r\n\r\n# New Contributors\r\n\r\n- @bufferoverflow made his first contribution in #181 \r\n- @kalantar made his first contribution in #179 \r\n- @rootfs made his first contribution in #208 \r\n\r\n","2025-03-03T17:31:59",{"id":202,"version":203,"summary_zh":204,"released_at":205},360625,"vllm-stack-0.0.11","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* [Doc] Fixing CONTRIBUTING.md path issue in PR template by @YuhanLiu11 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F158\r\n* [Misc] Implement Singleton Design Pattern for EngineStat Scraper, RequestStat Monitor, and Router by @sitloboi2012 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F131\r\n* Fixed some tutorial problems by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F160\r\n* [router] setuptools_scm to support version argument by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F155\r\n* Added disclaimer for tutorial by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F161\r\n* [Misc] Remove hardcoded eks cluster name by @coloryourlife in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F162\r\n* [Doc] Adding community meeting info by @YuhanLiu11 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F169\r\n* [Doc] Updating community meeting info by @YuhanLiu11 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F171\r\n* [Bugfix] Fix docker build problem in github workflow by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F164\r\n* [Feat, Misc] Disable PVC creation when `pvcStorage` is not provided by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F176\r\n\r\n## New Contributors\r\n* @coloryourlife made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F162\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.10...vllm-stack-0.0.11","2025-02-25T17:48:22",{"id":207,"version":208,"summary_zh":209,"released_at":210},360626,"vllm-stack-0.0.10","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* [Feature] Enabled vLLM v1 in Production Stack by @YuhanLiu11 in #157  ","2025-02-19T21:34:53",{"id":212,"version":213,"summary_zh":214,"released_at":215},360630,"vllm-stack-0.0.6","The stack deployment of vLLM\r\n\r\n## What's Changed\r\n* [CI\u002FBuild] Remove useless steps by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F124\r\n* [Doc] Fix grafana graph by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F128\r\n* Bugfix: configurable deployment options by @BrianPark314 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F121\r\n* [Router] Support Batch API part 2 by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F109\r\n* [Doc] minor tutorial doc fix by @vMaroon in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F138\r\n* [Doc] fixed chart-name related misalignments in tutorial docs by @vMaroon in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F139\r\n* [Doc] Add code of conduct by @Siddhant-Ray in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F130\r\n* [Doc] Running vLLM with tensor parallelism by @YuhanLiu11 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F140\r\n* Added StorageClass in PVC template by @Hanchenli in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F141\r\n\r\n## New Contributors\r\n* @vMaroon made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F138\r\n* @Siddhant-Ray made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F130\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.5...vllm-stack-0.0.6","2025-02-17T19:45:58",{"id":217,"version":218,"summary_zh":219,"released_at":220},360631,"vllm-stack-0.0.5","## What's Changed\r\n* [Bugfix] value file based accessMode by @BrianPark314 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F108\r\n* [Doc] Correct router path in the README by @ggaaooppeenngg in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F113\r\n* [Router] Add 'v1' prefix in the OpenAI API by @ggaaooppeenngg in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F117\r\n* [Doc] Adding contributing guidelines by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F120\r\n* [Feat] Enable static service discovery on router through Helm by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F111\r\n* feat: adjustable deployment strategy by @BrianPark314 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F118\r\n\r\n## New Contributors\r\n* @ggaaooppeenngg made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F113\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.4...vllm-stack-0.0.5","2025-02-13T03:45:59",{"id":222,"version":223,"summary_zh":224,"released_at":225},360632,"vllm-stack-0.0.4","## What's Changed\r\n* [Doc] Update README.md by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F73\r\n* feat: OpenAI batch API part 1 by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F52\r\n* [Add] fix for router files api and example to post query to the api by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F76\r\n* feat: Add basic issue templates by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F79\r\n* chore: Add test cases for file storage by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F82\r\n* feat: Wrap router to a singleton by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F83\r\n* adding step-by-step tutorial links in readme by @junchenj in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F84\r\n* [Doc] Fix README section by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F85\r\n* chore: Refine README, adjust image size by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F88\r\n* [Doc] Add PR template by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F93\r\n* feat(router): generate req id with uuid. by @Electronic-Waste in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F89\r\n* Feat: Add support for disabling router by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F96\r\n* Update yaml file for the tutorials by @junchenj in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F98\r\n* [CI\u002FBuild] : add GitHub Actions workflows for router (#74) by @Sozhan308 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F94\r\n* [CI\u002FBuild] Add helm update to helm func test pipeline by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F99\r\n* [CI\u002FBuild] Avoid using helm repo by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F100\r\n* Enable multi-GPU inference in vLLM with tensor parallelism by @YuhanLiu11 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F105\r\n\r\n## New Contributors\r\n* @junchenj made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F84\r\n* @Electronic-Waste made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F89\r\n* @Sozhan308 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F94\r\n* @YuhanLiu11 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F105\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.3...vllm-stack-0.0.4","2025-02-11T05:09:27",{"id":227,"version":228,"summary_zh":229,"released_at":230},360633,"vllm-stack-0.0.3","## What's Changed\r\n* chore: Unit test in github action by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F24\r\n* feat: Update README to use new vLLM chart hosting URL by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F25\r\n* Update 01-minimal-helm-installation.md by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F27\r\n* [Doc] Fix Readme for 01 example by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F32\r\n* fix: Fix docs about router by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F33\r\n* Documentation fixes by @dmatch01 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F29\r\n* Add `pre-commit` based linting and formatting by @hmellor in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F35\r\n* [CI\u002FCD] Functionality test for helm chart by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F30\r\n* feat: add configurable resource values to router deployment by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F38\r\n* Fix helm chart issue by @dxu104 in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F42\r\n* [fix] triggers for functionality test by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F46\r\n* chore: Use choices in CLI by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F48\r\n* feat: Make log stats interval as a hidden CLI argument by @gaocegege in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F49\r\n* Polish the 'Setting Up a Kubernetes Environment with GPUs' tutorial by @waltforme in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F51\r\n* [CI\u002FBuild] Upgrade function test by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F53\r\n* [Doc] Add roadmap to README.md by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F57\r\n* Enable Dockerfile, Helm and shellcheck `pre-commit` hooks by @hmellor in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F55\r\n* Explain how `pre-commit-manual` job works by @hmellor in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F58\r\n* feat: Add ingress configuration to routerSpec by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F54\r\n* [Add] customization support for runtimeClass by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F63\r\n* fix: Update Helm values example to use new hf_token value by @0xThresh in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F65\r\n* [Doc] Add news to README.md by @Shaoting-Feng in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F70\r\n* [helm] Bumping the version of helm chart to trigger the auto release by @ApostaC in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F72\r\n\r\n## New Contributors\r\n* @dmatch01 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F29\r\n* @hmellor made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F35\r\n* @dxu104 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F42\r\n* @waltforme made their first contribution in https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fpull\u002F51\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fproduction-stack\u002Fcompare\u002Fvllm-stack-0.0.2...vllm-stack-0.0.3","2025-02-06T21:52:15"]