[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-llm-d--llm-d":3,"tool-llm-d--llm-d":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":64,"owner_name":64,"owner_avatar_url":72,"owner_bio":73,"owner_company":74,"owner_location":74,"owner_email":74,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":99,"forks":100,"last_commit_at":101,"license":102,"difficulty_score":103,"env_os":104,"env_gpu":105,"env_ram":106,"env_deps":107,"category_tags":119,"github_topics":74,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":152},9419,"llm-d\u002Fllm-d","llm-d","Achieve state of the art inference performance with modern accelerators on Kubernetes","llm-d 是一个专为 Kubernetes 环境打造的高性能分布式大模型推理服务栈，旨在帮助企业在生产环境中轻松实现业界领先的推理性能。它并非直接替代 vLLM 或 SGLang 等底层模型服务器，而是作为高效的编排层，解决大规模真实流量下的高并发、低延迟及资源调度难题。\n\n该工具特别适合需要在生产环境部署开源大模型的开发者、运维工程师及 AI 架构师。针对多租户场景下的负载不均、长提示词处理慢以及超大模型部署困难等痛点，llm-d 提供了多项核心技术亮点：包括基于前缀缓存感知的智能路由调度，能显著降低延迟并提升吞吐量；支持预填充与解码分离的架构，优化首字生成时间；具备针对混合专家模型（MoE）的宽专家并行能力；以及利用 CPU 和存储进行分层 KV 缓存卸载，大幅提高缓存命中率。此外，它还支持基于服务等级目标（SLO）的自动扩缩容。通过提供经过验证的最佳实践指南和 Helm 图表，llm-d 让团队能够专注于业务创新，无需在复杂的底层调优上耗费过多精力。","\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\">\n    \u003Cimg alt=\"llm-d Logo\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fllm-d_llm-d_readme_a74d3cf71623.png\" width=37%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch2 align=\"center\">\nAchieve SOTA Inference Performance On Any Accelerator\n\u003C\u002Fh2>\n\n [![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocumentation-8A2BE2?logo=readthedocs&logoColor=white&color=1BC070)](https:\u002F\u002Fwww.llm-d.ai)\n [![Release Status](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVersion-0.5-yellow)](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Freleases)\n [![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg)](.\u002FLICENSE)\n [![Join Slack](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJoin_Slack-blue?logo=slack)](https:\u002F\u002Fllm-d.ai\u002Fslack)\n\nllm-d is a high-performance distributed inference serving stack optimized for production deployments on Kubernetes. We help you achieve the fastest \"time to state-of-the-art (SOTA) performance\" for key OSS large language models across most hardware accelerators and infrastructure providers with well-tested guides and real-world benchmarks.\n\n## What does llm-d offer to production inference?\n\nModel servers like [vLLM](https:\u002F\u002Fdocs.vllm.ai) and [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang) handle efficiently running large language models on accelerators. llm-d provides state of the art orchestration above model servers to serve high-scale real world traffic efficiently and reliably:\n\n1. [Intelligent Inference Scheduling](.\u002Fguides\u002Finference-scheduling\u002FREADME.md) - Deploy [vLLM](https:\u002F\u002Fdocs.vllm.ai) behind a Gateway API-based load balancer enhanced with an [inference scheduler](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler) to decrease serving latency and increase throughput with [prefix-cache aware routing](.\u002Fguides\u002Fprecise-prefix-cache-aware\u002FREADME.md), utilization-based load balancing, fairness and prioritization for multi-tenant serving, and [predicted latency balancing (experimental)](.\u002Fguides\u002Fpredicted-latency-based-scheduling).\n2. [Disaggregated Serving (prefill\u002Fdecode disaggregation)](.\u002Fguides\u002Fpd-disaggregation\u002FREADME.md) - Reduce time to first token (TTFT) and get more predictable time per output token (TPOT) by splitting inference into prefill servers handling prompts and decode servers handling responses, primarily on large models such as gpt-oss-120b and when processing very long prompts.\n3. [Wide Expert-Parallelism](.\u002Fguides\u002Fwide-ep-lws\u002FREADME.md) - Deploy very large Mixture-of-Experts (MoE) models like [DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fissues\u002F16037) for much higher throughput for RL and latency-insensitive workloads, using [Data Parallelism and Expert Parallelism](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fdata_parallel_deployment.html) over fast accelerator networks.\n4. [Tiered KV Prefix Caching with CPU and Storage Offload](.\u002Fguides\u002Ftiered-prefix-cache\u002FREADME.md) - Improve prefix cache hit rate by offloading KV-cache entries to CPU memory, local SSD, and remote high-performance filesystem storage.\n5. [Workload Autoscaling](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.md) - Autoscale multi-model workloads on heterogeneous shared hardware with SLO-aware cost optimization using the [Workload Variant Autoscaler](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.wva.md) or autoscale workloads on homogeneous hardware where each model scales independently using [HPA with IGW metrics](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.hpa-igw.md).\n\nThese [guides](.\u002Fguides\u002FREADME.md) provide tested and benchmarked recipes and Helm charts to start serving quickly with best practices common to production deployments. They are extensible and customizable for particulars of your models and use cases, using standard open source components like Kubernetes, Kubernetes Gateway API, NIXL, and vLLM. Our intent is to eliminate the heavy lifting common in tuning and deploying generative AI inference on modern accelerators.\n\n## Get Started Now\n\nWe recommend new users start with a deployment of [intelligent inference scheduling](.\u002Fguides\u002Finference-scheduling\u002FREADME.md).\n\n> [!NOTE]\n> We are currently revamping our documentation. You can also preview [our new quickstarts](.\u002Fdocs\u002Fwip-docs-new\u002Fgetting-started\u002Fquickstart.md), which will be formally released soon.\n\n### Latest News 🔥\n\n- [2026-02] The [v0.5](https:\u002F\u002Fllm-d.ai\u002Fblog\u002Fllm-d-v0.5-sustaining-performance-at-scale) introduces reproducible benchmark workflows, hierarchical KV offloading, cache-aware LoRA routing, active-active HA, UCCL-based transport resilience, and scale-to-zero autoscaling; validated ~3.1k tok\u002Fs per B200 decode GPU (wide-EP) and up to 50k output tok\u002Fs on a 16×16 B200 prefill\u002Fdecode topology with order-of-magnitude TTFT reduction vs round-robin baseline.\n- [2025-12] The [v0.4](https:\u002F\u002Fllm-d.ai\u002Fblog\u002Fllm-d-v0.4-achieve-sota-inference-across-accelerators) release demonstrates 40% reduction in per output token latency for DeepSeek V3.1 on H200 GPUs, Intel XPU and Google TPU disaggregation support for lower time to first token, a new well-lit path for prefix cache offload to vLLM-native CPU memory tiering, and a preview of the workload variant autoscaler improving model-as-a-service efficiency.\n\n\n\u003C!-- Previous News  -->\n\u003C!-- - [2025-08] Read more about the [intelligent inference scheduler](https:\u002F\u002Fllm-d.ai\u002Fblog\u002Fintelligent-inference-scheduling-with-llm-d), including a deep dive on how different balancing techniques are composed to improve throughput without overloading replicas. -->\n\n## 🧱 Architecture\n\nllm-d accelerates distributed inference by integrating industry-standard open technologies: vLLM as default model server and engine, [Kubernetes Inference Gateway](https:\u002F\u002Fgateway-api-inference-extension.sigs.k8s.io\u002F) as control plane API and load balancing orchestrator, and Kubernetes as infrastructure orchestrator and workload control plane.\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\">\n    \u003Cimg alt=\"llm-d Arch\" src=\".\u002Fdocs\u002Fassets\u002Fimages\u002Fllm-d-arch.svg\" width=95%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n### llm-d adds:\n\n- [**Model Server Optimizations in vLLM:**](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) The llm-d team contributes and maintains high performance distributed serving optimizations in upstream vLLM, including disaggregated serving, KV connector interfaces, support for frontier OSS mixture of experts models, and production-ready observability and resiliency. \n\n- [**Inference Scheduler:**](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler) llm-d uses compatible Gateway implementations and their extensible balancing policies to make customizable “smart” load-balancing decisions specifically for LLMs without reimplementing a full-featured load balancer. Leveraging operational telemetry, the Inference Scheduler implements the filtering and scoring algorithms to make decisions with P\u002FD-awareness, KV-cache-awareness, SLA-awareness, and load-awareness. Advanced users can implement their own scorers to further customize the algorithm while benefiting from IGW features like flow control and latency-aware balancing. The control plane for the load balancer is the Kubernetes API but can also be run standalone.\n\n- [**Disaggregated Serving Sidecar:**](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler\u002Ftree\u002Fmain\u002Fcmd\u002Fpd-sidecar) llm-d orchestrates prefill and decode phases onto independent instances - the scheduler decides which instances should receive a given request, and the transaction is coordinated via a sidecar alongside decode instances. The sidecar instructs vLLM to provide point to point KV cache transfer over fast interconnects (IB\u002FRoCE RDMA, TPU ICI, and DCN) via NIXL.\n\n- [**vLLM Native CPU Offloading**](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fexamples\u002Fbasic\u002Foffline_inference\u002F#cpu-offload) and [**llm-d filesystem backend**:](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-kv-cache\u002Ftree\u002Fmain\u002Fkv_connectors\u002Fllmd_fs_backend) llm-d uses vLLM's KVConnector abstraction to configure a pluggable KV cache hierarchy, including offloading KVs to host, remote storage, and systems like LMCache, Mooncake, and KVBM. \n\n- [**Variant Autoscaling over Hardware, Workload, and Traffic**](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fig-wva): A traffic- and hardware-aware autoscaler that (a) measures the capacity of each model server instance, (b) derive a load function that takes into account different request shapes and QoS, and (c) assesses recent traffic mix (QPS, QoS, and shapes) to calculate the optimal mix of instances to handle prefill, decode, and latency-tolerant requests, enabling use of HPA for SLO-level efficiency.\n\nFor more details of architecture see the [project proposal](.\u002Fdocs\u002Fproposals\u002Fllm-d.md).\n\n### What is in scope for llm-d\n\nllm-d currently targets improving the production serving experience around:\n\n- Online serving and online batch of Generative models running in PyTorch or JAX\n  - Large language models (LLMs) with 1 billion or more parameters\n  - Using most or all of the capacity of one or more hardware accelerators\n  - Running in throughput, latency, or multiple-objective configurations\n- On recent generation datacenter-class accelerators - NVIDIA A100+, AMD MI250, Google TPU v5e or newer, and Intel GPU Max seriers or newer\n- On Kubernetes 1.29+, integrated via code into [Ray](https:\u002F\u002Fdocs.ray.io), or as a standalone service\n\nSee the [accelerator docs](.\u002Fdocs\u002Faccelerators\u002FREADME.md) for points of contact for more details about the accelerators, networks, and configurations tested and our [roadmap](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F146) for what is coming next.\n\n## 🔍 Observability\n\n- [Monitoring & Metrics](.\u002Fdocs\u002Fmonitoring\u002FREADME.md) - Prometheus, Grafana dashboards, and PromQL queries\n- [Distributed Tracing](.\u002Fdocs\u002Fmonitoring\u002Ftracing\u002FREADME.md) - OpenTelemetry tracing across vLLM, routing proxy, and EPP\n\n## 📦 Releases\n\nOur [guides](.\u002Fguides\u002FREADME.md) are living docs and kept current. For details about the Helm charts and component releases, visit our [GitHub Releases page](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Freleases) to review release notes.\n\nCheck out our [roadmap for upcoming releases](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues?q=is%3Aissue%20state%3Aopen%20%22%5BRoadmap%5D%22).\n\n## Contribute\n\n- See [our project overview](PROJECT.md) for more details on our development process and governance.\n- Review [our contributing guidelines](CONTRIBUTING.md) for detailed information on how to contribute to the project.\n- Join one of our [Special Interest Groups (SIGs)](SIGS.md) to contribute to specific areas of the project and collaborate with domain experts.\n- We use Slack to discuss development across organizations. Please join: [Slack](https:\u002F\u002Fllm-d.ai\u002Fslack)\n- We host a bi-weekly standup for contributors every other Wednesday at 12:30 PM ET, as well as meetings for various SIGs. You can find them in the [shared llm-d calendar](https:\u002F\u002Fred.ht\u002Fllm-d-public-calendar)\n- We use Google Groups to share architecture diagrams and other content. Please join: [Google Group](https:\u002F\u002Fgroups.google.com\u002Fg\u002Fllm-d-contributors)\n\n## License\n\nThis project is licensed under Apache License 2.0. See the [LICENSE file](LICENSE) for details.\n","\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\">\n    \u003Cimg alt=\"llm-d Logo\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fllm-d_llm-d_readme_a74d3cf71623.png\" width=37%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch2 align=\"center\">\n在任何加速器上实现最先进推理性能\n\u003C\u002Fh2>\n\n [![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocumentation-8A2BE2?logo=readthedocs&logoColor=white&color=1BC070)](https:\u002F\u002Fwww.llm-d.ai)\n [![发布状态](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVersion-0.5-yellow)](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Freleases)\n [![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg)](.\u002FLICENSE)\n [![加入Slack](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FJoin_Slack-blue?logo=slack)](https:\u002F\u002Fllm-d.ai\u002Fslack)\n\nllm-d是一个高性能的分布式推理服务栈，专为在Kubernetes上进行生产部署而优化。我们通过经过充分测试的指南和真实场景基准测试，帮助您在大多数硬件加速器和基础设施提供商上，针对关键的开源大型语言模型，以最快的速度达到“最先进的（SOTA）推理性能”。\n\n## llm-d为生产推理提供了什么？\n\n像[vLLM](https:\u002F\u002Fdocs.vllm.ai)和[SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)这样的模型服务器能够高效地在加速器上运行大型语言模型。llm-d则在这些模型服务器之上提供了最先进的编排能力，以高效且可靠地服务于大规模的真实流量：\n\n1. [智能推理调度](.\u002Fguides\u002Finference-scheduling\u002FREADME.md) - 将[vLLM](https:\u002F\u002Fdocs.vllm.ai)部署在基于Gateway API的负载均衡器之后，并结合[推理调度器](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler)，通过[前缀缓存感知路由](.\u002Fguides\u002Fprecise-prefix-cache-aware\u002FREADME.md)、基于利用率的负载均衡、多租户服务中的公平性和优先级设置，以及[预测延迟均衡（实验性）](.\u002Fguides\u002Fpredicted-latency-based-scheduling)，来降低服务延迟并提高吞吐量。\n2. [解耦式服务（预填充\u002F解码分离）](.\u002Fguides\u002Fpd-disaggregation\u002FREADME.md) - 通过将推理过程拆分为处理提示的预填充服务器和处理响应的解码服务器，从而减少首个 token 的生成时间（TTFT），并使每个输出 token 的时间更加可预测，尤其适用于gpt-oss-120b等大型模型以及处理超长提示时。\n3. [宽泛的专家并行](.\u002Fguides\u002Fwide-ep-lws\u002FREADME.md) - 部署如[DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fissues\u002F16037)这样的超大规模专家混合模型，以在RL和对延迟不敏感的工作负载中获得更高的吞吐量，利用快速加速器网络上的[数据并行与专家并行](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fdata_parallel_deployment.html)。\n4. [分层KV前缀缓存，配合CPU和存储卸载](.\u002Fguides\u002Ftiered-prefix-cache\u002FREADME.md) - 通过将KV缓存条目卸载到CPU内存、本地SSD以及远程高性能文件系统存储，来提高前缀缓存命中率。\n5. [工作负载自动伸缩](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.md) - 在异构共享硬件上，使用[工作负载变体自动伸缩器](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.wva.md)，以SLO为导向进行成本优化；或在同构硬件上，使用[HPA结合IGW指标](.\u002Fguides\u002Fworkload-autoscaling\u002FREADME.hpa-igw.md)，让每个模型独立伸缩。\n\n这些[指南](.\u002Fguides\u002FREADME.md)提供了经过测试和基准验证的配方及Helm图表，帮助您按照生产部署中的最佳实践快速启动服务。它们可以扩展和定制，以适应您特定的模型和用例需求，同时使用Kubernetes、Kubernetes Gateway API、NIXL和vLLM等标准开源组件。我们的目标是消除在现代加速器上调优和部署生成式AI推理时常见的繁重工作。\n\n## 立即开始\n\n我们建议新用户从[智能推理调度](.\u002Fguides\u002Finference-scheduling\u002FREADME.md)的部署开始。\n\n> [!NOTE]\n> 我们目前正在重构文档。您也可以预览[我们的新快速入门指南](.\u002Fdocs\u002Fwip-docs-new\u002Fgetting-started\u002Fquickstart.md)，它们将很快正式发布。\n\n### 最新消息 🔥\n\n- [2026-02] v0.5版本引入了可重复的基准测试流程、层次化KV卸载、缓存感知LoRA路由、主-主高可用性、基于UCCL的传输韧性，以及规模至零的自动伸缩；经验证，在B200解码GPU上每秒可处理约3,100个token（宽泛EP），而在16×16 B200预填充\u002F解码拓扑上，输出token可达50,000个\u002F秒，相比轮询基线，TTFT降低了数量级。\n- [2025-12] v0.4版本展示了在H200 GPU上，DeepSeek V3.1的每个输出token延迟降低了40%，支持Intel XPU和Google TPU的解耦式部署以缩短首个token的生成时间，为前缀缓存卸载到vLLM原生CPU内存层级开辟了新的清晰路径，并预览了工作负载变体自动伸缩器，以提升模型即服务的效率。\n\n\n\u003C!-- 之前的新闻 -->\n\u003C!-- - [2025-08] 阅读更多关于[智能推理调度器](https:\u002F\u002Fllm-d.ai\u002Fblog\u002Fintelligent-inference-scheduling-with-llm-d)的信息，包括深入探讨如何组合不同的负载均衡技术，以在不使副本过载的情况下提高吞吐量。 -->\n\n## 🧱 架构\n\nllm-d通过整合行业标准的开放技术来加速分布式推理：默认使用vLLM作为模型服务器和引擎，[Kubernetes推理网关](https:\u002F\u002Fgateway-api-inference-extension.sigs.k8s.io\u002F)作为控制平面API和负载均衡编排器，而Kubernetes则作为基础设施编排者和工作负载控制平面。\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\">\n    \u003Cimg alt=\"llm-d Arch\" src=\".\u002Fdocs\u002Fassets\u002Fimages\u002Fllm-d-arch.svg\" width=95%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n### llm-d 补充说明：\n\n- [**vLLM 中的模型推理服务优化：**](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) llm-d 团队为上游 vLLM 贡献并维护高性能的分布式推理服务优化功能，包括分离式推理架构、KV 连接器接口、对前沿开源专家混合模型的支持，以及生产就绪的可观测性和系统韧性能力。\n\n- [**推理调度器：**](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler) llm-d 使用兼容的网关实现及其可扩展的负载均衡策略，针对 LLM 场景做出可定制的“智能”负载均衡决策，而无需重新实现一个功能完备的负载均衡器。借助运行时遥测数据，推理调度器实现了过滤与打分算法，能够基于 P\u002FD 感知、KV 缓存感知、SLA 感知和负载感知等因素作出决策。高级用户可以自定义评分器以进一步调整算法，同时享受 IGW 提供的流量控制和延迟感知均衡等特性。该负载均衡器的控制平面基于 Kubernetes API，但也支持独立运行。\n\n- [**分离式推理 Sidecar：**](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler\u002Ftree\u002Fmain\u002Fcmd\u002Fpd-sidecar) llm-d 将预填充和解码阶段分别调度到独立的实例上——由调度器决定哪些实例接收特定请求，事务则通过与解码实例并置的 Sidecar 协调完成。Sidecar 会指示 vLLM 通过 NIXL，在高速互联网络（IB\u002FRoCE RDMA、TPU ICI 和 DCN）上实现点对点 KV 缓存传输。\n\n- [**vLLM 原生 CPU offloading**](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fexamples\u002Fbasic\u002Foffline_inference\u002F#cpu-offload) 和 [**llm-d 文件系统后端：**](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-kv-cache\u002Ftree\u002Fmain\u002Fkv_connectors\u002Fllmd_fs_backend) llm-d 利用 vLLM 的 KVConnector 抽象层，配置可插拔的 KV 缓存层级结构，包括将 KV 数据卸载至主机内存、远程存储，以及 LMCache、Mooncake 和 KVBM 等系统。\n\n- [**面向硬件、工作负载和流量的变体自动伸缩：**](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fig-wva) 这是一种具备流量与硬件感知能力的自动伸缩器，其功能包括：(a) 测量每个模型服务实例的容量；(b) 构建考虑不同请求形态与 QoS 的负载函数；(c) 分析近期的流量组合（QPS、QoS 和请求形态），从而计算出处理预填充、解码及延迟容忍型请求的最佳实例组合，进而支持使用 HPA 实现 SLO 级别的资源效率。\n\n更多架构细节请参阅[项目提案](.\u002Fdocs\u002Fproposals\u002Fllm-d.md)。\n\n### llm-d 的范围\n\nllm-d 目前致力于提升以下方面的生产级推理服务体验：\n\n- 在 PyTorch 或 JAX 中运行的生成式模型的在线推理及在线批处理\n  - 参数规模达 10 亿以上的大型语言模型 (LLMs)\n  - 充分利用一台或多台硬件加速器的全部算力\n  - 支持吞吐量优先、延迟优先或多目标优化等多种配置\n- 面向最新一代数据中心级加速器——NVIDIA A100+、AMD MI250、Google TPU v5e 及更高版本，以及 Intel GPU Max 系列及以上型号\n- 基于 Kubernetes 1.29+，可通过代码集成至 [Ray](https:\u002F\u002Fdocs.ray.io)，或作为独立服务部署\n\n有关已测试的加速器、网络和配置的详细信息，请参阅[加速器文档](.\u002Fdocs\u002Faccelerators\u002FREADME.md)；关于后续计划，请查看我们的[路线图](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F146)。\n\n## 🔍 可观测性\n\n- [监控与指标](.\u002Fdocs\u002Fmonitoring\u002FREADME.md) —— Prometheus、Grafana 仪表盘及 PromQL 查询\n- [分布式追踪](.\u002Fdocs\u002Fmonitoring\u002Ftracing\u002FREADME.md) —— OpenTelemetry 跨 vLLM、路由代理和 EPP 的追踪\n\n## 📦 发布内容\n\n我们的[指南](.\u002Fguides\u002FREADME.md)是持续更新的活文档。有关 Helm Chart 和组件发布的详细信息，请访问我们的[GitHub 发布页面](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Freleases)，查阅各版本的发布说明。\n\n请查看我们即将发布的[路线图](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues?q=is%3Aissue%20state%3Aopen%20%22%5BRoadmap%5D%22)。\n\n## 贡献方式\n\n- 更多关于开发流程和治理的信息，请参阅[项目概述](PROJECT.md)。\n- 关于如何参与项目贡献的详细说明，请阅读[贡献指南](CONTRIBUTING.md)。\n- 欢迎加入我们的[特别兴趣小组 (SIGs)](SIGS.md)，在特定领域贡献力量，并与相关领域的专家协作。\n- 我们使用 Slack 进行跨组织的开发讨论。欢迎加入：[Slack](https:\u002F\u002Fllm-d.ai\u002Fslack)。\n- 我们每两周三中午 12:30 ET 举行一次面向贡献者的站会，并定期召开各 SIG 的会议。具体时间安排请参考[llm-d 公共日历](https:\u002F\u002Fred.ht\u002Fllm-d-public-calendar)。\n- 我们使用 Google Groups 分享架构图及其他内容。欢迎加入：[Google Group](https:\u002F\u002Fgroups.google.com\u002Fg\u002Fllm-d-contributors)。\n\n## 许可证\n\n本项目采用 Apache License 2.0 许可证。详细信息请参阅[LICENSE 文件](LICENSE)。","# llm-d 快速上手指南\n\nllm-d 是一个专为 Kubernetes 生产环境设计的高性能分布式推理服务栈。它基于 vLLM 模型服务器和 Kubernetes Gateway API，通过智能调度、预填充\u002F解码分离（PD Disaggregation）及分层 KV 缓存等技术，帮助开发者在各类加速器上实现业界领先（SOTA）的推理性能。\n\n## 环境准备\n\n在部署 llm-d 之前，请确保满足以下系统和硬件要求：\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+ 或兼容发行版)\n- **Kubernetes**: 版本 1.29 或更高\n- **包管理工具**: Helm 3.0+\n- **网络插件**: 支持 Kubernetes Gateway API 的 Ingress Controller\n\n### 硬件加速器支持\nllm-d 针对数据中心级加速器进行了优化，支持以下硬件：\n- **NVIDIA**: A100, H100, B200 及更新型号\n- **AMD**: MI250 及更新型号\n- **Google**: TPU v5e 及更新型号\n- **Intel**: GPU Max 系列及更新型号\n\n> **注意**：若使用多节点分布式推理（如宽专家并行 Wide-EP 或 PD 分离），需确保节点间具备高速互联网络（如 InfiniBand, RoCE RDMA, TPU ICI 等）。\n\n### 前置依赖\n- 已配置 `kubectl` 并连接到目标集群\n- 已安装容器运行时（containerd 或 Docker）\n- 确保集群已启用 Gateway API CRDs\n\n## 安装步骤\n\n推荐使用官方提供的 Helm Chart 进行快速部署。以下是部署“智能推理调度”（Intelligent Inference Scheduling）核心功能的步骤。\n\n### 1. 添加 Helm 仓库\n\n```bash\nhelm repo add llm-d https:\u002F\u002Fllm-d.github.io\u002Fhelm-charts\nhelm repo update\n```\n\n> **提示**：如果访问 GitHub 或官方源较慢，请检查是否有企业内部镜像源或配置 HTTP 代理。目前官方暂未提供特定的中国镜像源，建议通过配置本地 Helm 仓库缓存加速。\n\n### 2. 创建命名空间\n\n```bash\nkubectl create namespace llm-d-system\n```\n\n### 3. 安装 llm-d 核心组件\n\n执行以下命令部署包含 vLLM 模型服务器和推理调度器（Inference Scheduler）的基础环境：\n\n```bash\nhelm install llm-d llm-d\u002Fllm-d \\\n  --namespace llm-d-system \\\n  --set model.name=\"meta-llama\u002FLlama-3-8B-Instruct\" \\\n  --set replicaCount=2 \\\n  --set scheduler.enabled=true\n```\n\n**参数说明：**\n- `model.name`: 指定要部署的开源大模型名称（HuggingFace ID）。\n- `replicaCount`: 模型服务副本数量，用于负载分担。\n- `scheduler.enabled=true`: 启用智能推理调度器，支持前缀缓存感知路由和基于利用率的负载均衡。\n\n### 4. 验证部署状态\n\n等待所有 Pod 运行就绪：\n\n```bash\nkubectl get pods -n llm-d-system\n```\n\n确保 `llm-d-vllm-*` 和 `llm-d-scheduler-*` 相关的 Pod 状态均为 `Running`。\n\n## 基本使用\n\n部署完成后，llm-d 会通过 Kubernetes Gateway API 暴露一个统一的推理入口。\n\n### 1. 获取服务地址\n\n查询 Gateway 的外部 IP 地址：\n\n```bash\nkubectl get gateway -n llm-d-system\n```\n\n假设输出的 `ADDRESS` 为 `192.168.1.100`。\n\n### 2. 发送推理请求\n\n使用 `curl` 向网关发送标准的 OpenAI 兼容格式请求。调度器将自动根据当前负载和前缀缓存情况，将请求路由至最优的 vLLM 实例。\n\n```bash\ncurl http:\u002F\u002F192.168.1.100\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"model\": \"meta-llama\u002FLlama-3-8B-Instruct\",\n    \"messages\": [\n      {\"role\": \"user\", \"content\": \"请简要介绍 llm-d 的核心优势。\"}\n    ],\n    \"max_tokens\": 256\n  }'\n```\n\n### 3. 进阶场景（可选）\n\n如需启用更高级的生产特性，可通过修改 Helm `values.yaml` 文件重新部署：\n\n- **预填充\u002F解码分离 (PD Disaggregation)**: 适用于长上下文场景，降低首字延迟 (TTFT)。\n- **分层 KV 缓存**: 配置 `tiered-cache` 将 KV 缓存卸载至 CPU 内存或远程存储，提高缓存命中率。\n- **工作负载自动伸缩**: 集成 `Workload Variant Autoscaler`，根据流量混合类型自动调整预填充和解码节点的比例。\n\n详细配置请参考官方 [Guides](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Ftree\u002Fmain\u002Fguides) 文档。","某大型金融科技公司的 AI 团队正在 Kubernetes 集群上部署 DeepSeek-R1 等大语言模型，为全行提供实时的智能客服与风控分析服务，需应对早晚高峰的巨大流量波动。\n\n### 没有 llm-d 时\n- **响应延迟高且不稳定**：面对长文本提示词（Prompt），首字生成时间（TTFT）过长，用户经常感到卡顿，且无法通过分离预填充和解码阶段来优化。\n- **资源利用率低**：在多租户场景下，简单的轮询负载均衡导致部分 GPU 闲置而另一些过载，缺乏基于前缀缓存感知的智能路由，重复计算严重。\n- **扩缩容滞后**：传统的 HPA 仅基于 CPU\u002F内存指标，无法感知推理负载的实际延迟（SLO），导致流量突增时扩容不及时，流量下降时又造成资源浪费。\n- **大模型部署困难**：尝试部署超大规模 MoE 模型时，缺乏现成的专家并行（Expert Parallelism）方案，手动调优网络通信耗时数周仍难以达到生产级吞吐量。\n\n### 使用 llm-d 后\n- **极致低延迟体验**：利用 llm-d 的预填充\u002F解码分离架构，显著降低了长文本的首字延迟，并使输出令牌时间（TPOT）更加可预测，用户体验流畅。\n- **智能调度提效**：通过内置的智能推理调度器，实现基于前缀缓存命中率和实时利用率的精准路由，大幅减少重复计算，集群整体吞吐量提升显著。\n- **SLO 感知弹性伸缩**：借助工作负载自动伸缩功能，系统能根据推理延迟指标实时调整副本数，既保障了高峰期的服务稳定性，又在低谷期节省了算力成本。\n- **大模型一键落地**：利用 llm-d 提供的宽专家并行指南和 Helm Chart，团队在几天内便成功上线了 DeepSeek-R1 等超大模型，无需深入底层网络调优。\n\nllm-d 将复杂的分布式推理编排标准化，让企业能在任何加速硬件上以最低成本快速获得业界领先的模型服务性能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fllm-d_llm-d_235a0651.png","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fllm-d_20a9d061.png","llm-d enables high performance distributed inference in production on Kubernetes",null,"_llm_d_","https:\u002F\u002Fllm-d.ai","https:\u002F\u002Fgithub.com\u002Fllm-d",[79,83,87,91,95],{"name":80,"color":81,"percentage":82},"Shell","#89e051",57.9,{"name":84,"color":85,"percentage":86},"Go Template","#00ADD8",15.7,{"name":88,"color":89,"percentage":90},"Python","#3572A5",13.8,{"name":92,"color":93,"percentage":94},"Makefile","#427819",11.1,{"name":96,"color":97,"percentage":98},"Dockerfile","#384d54",1.5,3016,419,"2026-04-18T19:10:46","Apache-2.0",5,"Linux","必需。支持数据中心级加速器：NVIDIA A100 及更新型号 (如 H200, B200), AMD MI250 及更新型号，Google TPU v5e 及更新型号，Intel GPU Max 系列及更新型号。需通过高速互联网络 (如 IB\u002FRoCE RDMA, TPU ICI) 连接以支持分布式推理。","未说明 (取决于模型大小及是否启用 CPU\u002F存储卸载功能)",{"notes":108,"python":109,"dependencies":110},"该工具主要是一个运行在 Kubernetes 上的分布式推理编排栈，而非单机脚本。核心组件包括作为模型服务器的 vLLM、基于 Gateway API 的智能推理调度器、以及用于预填充\u002F解码分离的 Sidecar。支持将 KV 缓存卸载到 CPU 内存、本地 SSD 或远程文件系统。推荐使用 Helm Charts 进行部署。架构设计旨在优化大规模生产环境下的延迟和吞吐量。","未说明",[111,112,113,114,115,116,117,118],"Kubernetes 1.29+","vLLM","Kubernetes Gateway API (Inference Gateway)","NIXL","Prometheus","Grafana","OpenTelemetry","Helm",[35,14],"2026-03-27T02:49:30.150509","2026-04-19T09:27:05.125807",[123,128,133,138,143,148],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},42271,"如何加入项目的 Slack 社区？网站上的链接无法直接邀请加入。","项目目前不使用 Slack 内置的邀请器，而是使用外部的 inviter.co 链接。如果您已经加入过该 Slack 工作区，直接点击链接可能无效。请确保使用正确的邀请链接（通常已在页脚或联系页面更新），如果是新成员，可能需要通过特定的外部邀请入口加入。","https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F58",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},42272,"为什么 llm-d 镜像在 GCP 的 B200 (Blackwell) GPU 上无法启动并报错 'no kernel image is available'？","这是因为从 vLLM wheels 索引安装的预编译 wheel 包尚未针对 Blackwell 架构 (sm_100) 进行编译。解决方法是等待 vLLM 重新发布支持 CUDA 12.9 和 Blackwell 架构的 wheel 包，或者自行从源代码构建 vLLM 以生成适配当前 GPU 架构的内核文件。","https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F333",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},42273,"在 llm-d v0.2.2 版本中启用工具调用（Tool Calling）时，提示找不到 chat template 文件（如 llama3.1_json 或 mistral_parallel），如何解决？","在较新的镜像版本中，示例模板文件的路径或包含方式可能发生了变化，导致直接引用 `examples\u002F...` 路径失败。建议检查容器内部实际的文件路径，或者将所需的 `.jinja` 模板文件挂载到容器中，并在启动参数中指定正确的绝对路径。如果问题持续，可能需要确认该版本是否默认移除了这些示例文件，需手动提供模板。","https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F368",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},42274,"llm-d 项目的近期开发路线图（Roadmap）主要关注哪些方向？","主要关注三个方向：1. 大规模解耦服务（Disaggregated Serving），包括高性能 vLLM 实现、多节点部署图表及负载平衡；2. 推进预填充\u002F解码（P\u002FD）解耦架构，优化实例间握手并移除 sidecar；3. 推进 KV 缓存优化，包括本地 CPU\u002F磁盘卸载、远程 KV 缓存集成（如 LMCache, NIXL）。此外还包括推理调度器的插件配置 API 优化及部署体验改进。","https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F26",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},42275,"Body Based Routing (BBR) 组件现在的状态是什么？代码迁移到了哪里？","BBR 组件已演变为一个更通用的可插拔框架，现在称为 `llm-d-inference-payload-processor`。它能够处理请求和响应的负载（包括头部和主体）。相关代码已从旧名称迁移至新仓库：https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-payload-processor。","https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fissues\u002F1154",{"id":149,"question_zh":150,"answer_zh":151,"source_url":142},42276,"如何参与 llm-d 项目的贡献或获取最新的开发同步信息？","欢迎贡献代码！请先加入项目的 Slack 频道并参加每周的同步会议（weekly syncs），在那里会讨论开发进展和具体任务。路线图会根据社区反馈进行调整。",[153,158,163,168,173,178,183],{"id":154,"version":155,"summary_zh":156,"released_at":157},334379,"v0.6.0","## LLM-D 组件概览\n\n| 组件 | 版本 | 旧版本 | 类型 |\n|-----------|---------|------------------|------|\n| llm-d\u002Fllm-d-inference-scheduler | `v0.7.1` | `v0.6.0` | 镜像 |\n| llm-d\u002Fllm-d-uds-tokenizer | `v0.7.1` | `v0.6.0` | 镜像 |\n| llm-d\u002Fllm-d-kv-cache | `v0.7.1` | `v0.6.0` | 库 |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.7.1` | `v0.6.0` | 镜像 |\n| llm-d\u002Fllm-d-inference-sim | `v0.8.2` | `v0.7.1` | 镜像 |\n| llm-d\u002Fllm-d-cuda | `v0.6.0` | `v0.5.1` | 镜像 |\n| llm-d\u002Fllm-d-cuda (debug) | `v0.6.0` | `v0.5.1` | 镜像 |\n| llm-d\u002Fllm-d-aws (EFA) | `v0.6.0` | `v0.5.1` | 镜像 |\n| llm-d\u002Fllm-d-xpu | `v0.6.0` | `v0.5.1` | 镜像（暂时不可用） |\n| llm-d\u002Fllm-d-hpu | `v0.6.0` | `v0.5.1` | 镜像（暂时不可用） |\n| llm-d\u002Fllm-d-cpu | `v0.6.0` | `v0.5.1` | 镜像 |\n| llm-d\u002Fllm-d-rocm | `v0.6.0` | `v0.5.1` | 镜像 |\n| llm-d\u002Fllm-d-kv-cache\u002Fllmd_fs_backend_connector | `v0.17.1` | `v0.15.1` | 安装在 `llm-d` 中的 Wheel 包 |\n| llm-d\u002Fllm-d-workload-variant-autoscaler | `v0.6.0` | `v0.5.1` | Helm Chart + 镜像 |\n| llm-d-incubation\u002Fllm-d-infra | `v1.4.0` | `v1.3.6` | Helm Chart |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.4.9` | `v0.4.7` | Helm Chart |\n| vllm-project\u002Fvllm | `v0.17.1` | `v0.15.1` | 安装在 `llm-d` 中的 Wheel 包 |\n| kubernetes-sigs\u002Fgateway-api-inference-extension | `v1.4.0` | `v1.3.1` | Helm Chart |\n\n---\n\n## 基础设施变更\n\n| 组件 | 版本 | 旧版本 |\n|-----------|---------|------------------|\n| Gateway API | `v1.5.1` | `v1.4.0` |\n| Istio | `1.29.1` | `1.28.1` |\n| agentgateway（原 KGateway）| `v2.2.1` | `v2.1.1` |\n\n---\n\n## 变更内容\n* 在推理调度流程中添加 SGLang 选项，由 @andreyod 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F527 中实现。\n* 添加构建 HPU 的步骤，由 @diegocastanibm 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F917 中完成。\n* 🌱 移除各仓库中的 gh-aw 拼写错误及链接\u002F上游工作流，由 @clubanderson 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F920 中完成。\n* 文档：对推理调度安装指南进行小幅修复，由 @roytman 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F924 中完成。\n* 修复指向 vLLM 原生 CPU Offloading 文档的链接，由 @petecheslock 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F928 中完成。\n* 文档：移除 llm-d 周围不必要的反引号，由 @terrytangyuan 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F933 中完成。\n* 部分启用 GKE 的 CI\u002FCD 流程，由 @maugustosilva 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F934 中实现。\n* 将 HPU 添加到 ci-release 流程中，由 @diegocastanibm 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F918 中完成。\n* 仅报告 404 错误链接，而不报告临时问题或爬虫拦截，由 @petecheslock 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F846 中完成。\n* HPU：更新镜像，由 @poussa 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F936 中完成。\n* 修复文档和代码注释中的拼写错误，由 @BaskDuan 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F973 中完成。\n* 修复 HPU 失败问题，并在 CI 中启用 HPU PR 检查，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F965 中完成。\n* 杂项：更新 xpu 镜像的构建输入，由 @VincyZhang 完成。","2026-04-03T16:48:54",{"id":159,"version":160,"summary_zh":161,"released_at":162},334380,"v0.5.1","## LLM-D 组件概览\n\n| 组件 | 版本 | 旧版本 | 类型 |\n|-----------|---------|------------------|------|\n| llm-d\u002Fllm-d-inference-scheduler | `v0.6.0` | `v0.5.0` | 镜像 |\n| llm-d\u002Fllm-d-kv-cache | `v0.6.0` | `v0.5.0` | 库 |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.4.7` | `v0.4.5` | Helm Chart |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.6.0` | `v0.5.0` | 镜像 |\n| llm-d\u002Fllm-d-inference-sim | `v0.7.1` | `v0.7.1` | 镜像 |\n| llm-d\u002Fllm-d-cuda | `v0.5.1` | `v0.5.0` | 镜像 |\n| llm-d\u002Fllm-d-cuda (debug) | `v0.5.1` | 无 | 镜像（新） |\n| llm-d\u002Fllm-d-aws (EFA) | `v0.5.1` | v0.5.0 中已弃用 | 镜像（重新启用） |\n| llm-d\u002Fllm-d-xpu | `v0.5.1` | `v0.5.0` | 镜像 |\n| llm-d\u002Fllm-d-cpu | `v0.5.1` | `v0.5.0` | 镜像 |\n| llm-d\u002Fllm-d-rocm | `v0.5.1` | 无 | 镜像（新） |\n| llm-d\u002Fllm-d-hpu | `v0.5.1` | 无 | 镜像（新） |\n| vllm-project\u002Fvllm | `v0.15.1` | `v0.14.1` | Wheel 包，安装于 `llm-d` |\n| llm-d-incubation\u002Fllm-d-infra | `v1.3.6` | `v1.3.6` | Helm Chart |\n| kubernetes-sigs\u002Fgateway-api-inference-extension | `v1.3.1` | `v1.3.0` | Helm Chart（待上游发布） |\n| llm-d\u002Fllm-d-workload-variant-autoscaler | `v0.5.1` | `v0.5.0` | Helm Chart + 镜像 |\n\n---\n\n## 基础设施变更\n\n| 组件 | 版本 | 旧版本 |\n|-----------|---------|------------------|\n| Gateway API | `v1.3.1` | `v1.3.0` |\n| Istio | `1.28.1` | `1.28.1` |\n| KGateway | `v2.1.1` | `v2.1.1` |\n\n---\n\n## 变更内容\n* 修复 XPU 示例错误，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F696 中完成\n* 简化存储卸载指南至单一文档，由 @liu-cong 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F683 中完成\n* 新特性：移除独立模式，由 @capri-xiyue 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F688 中完成\n* 更新 Lustre 指南的权限设置，由 @Sneha-at 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F710 中完成\n* 修复：为模型发现添加重试机制，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F704 中完成\n* [BUGFIX] 添加注释缓存以避免错误，由 @diegocastanibm 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F719 中完成\n* 修复代码风格问题，由 @diegocastanibm 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F721 中完成\n* OpenShift 4.20 上的 llm-d 安装文档，由 @fgharo 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F538 中完成\n* 启用 AMD 推理调度的优化路径，由 @vcave 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F642 中完成\n* [构建修复] 移除兼容性链接目录，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F727 中完成\n* 仅废弃队列扫描参数，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F730 中完成\n* 添加 Gaudi 推理调度的 CI 工作流测试，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F486 中完成\n* 修复 Helmfile 中的 GKE 监控配置，由 @zetxqx 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F697 中完成\n* 为 llm-d P\u002FD 分离架构添加 Intel HPU 支持，由 @ZhengHongming888 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F372 中完成\n* 添加 XPU 的 CI 测试，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F380 中完成\n* 新特性：添加功能请求问题模板，由 @thillai-c 在 https:\u002F\u002Fgithub.c","2026-03-05T17:20:40",{"id":164,"version":165,"summary_zh":166,"released_at":167},334381,"v0.4.0","# 📦 llm-d v0.4.0 发行说明\n\n本次 `llm-d` 仓库的发布将涵盖整个项目的发行内容，包括指南、组件等所有方面。\n\n**发布日期:** 2025年11月26日\n\n---\n\n## 🧩 组件概览\n\n| 组件 | 版本 | 上一版本 | 类型 |\n|-----------|---------|------------------| ---- |\n| llmd\u002Fllm-d-inference-scheduler | `v0.4.0-rc.1` | `v0.3.1` | 镜像 |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.3.8` | `v0.2.10` | Helm Chart |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.4.0-rc.1` | `v0.3.1` | 镜像 |\n| llm-d\u002Fllm-d-cuda | `v0.4.0` | `v0.3.1` | 镜像 |\n| llm-d\u002Fllm-d-aws | `v0.4.0` | `v0.3.1` | 镜像 |\n| llm-d\u002Fllm-d-xpu | `v0.4.0` | `v0.3.1` | 镜像 |\n| llm-d\u002Fllm-d-cpu | `v0.4.0` | `v0.3.1` | 镜像（新） |\n| llm-d-incubation\u002Fllm-d-infra | `v1.3.4` | `v1.3.3` | Helm Chart |\n| kubernetes-sig\u002Fgateway-api-inference-extension | `v1.2.0-rc.1` | `v1.0.1` | Helm Chart |\n| llm-d\u002Fllm-d-workload-variant-autoscaler | `v0.0.8` | 无（新） | Helm Chart + 镜像 |\n\n---\n\n## 🔹 lmd\u002Fllm-d-inference-scheduler\n\n- **描述**: 该调度器为 llm-d 推理框架中的推理请求做出优化的路由决策。\n- **差异**: [v0.3.1 → v0.4.0-rc.1](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler\u002Fcompare\u002Fv0.3.1...v0.4.0-rc.1)\n\n---\n\n## 🔹 llm-d-incubation\u002Fllm-d-modelservice\n\n- **描述**: `modelservice` 是一个 Helm 图表，通过声明式管理用于服务基础模型的 Kubernetes 资源，从而简化 llm-d 上的 LLM 部署。它通过模块化预设以及与 llm-d 生态系统组件（包括 vLLM、Gateway API 推理扩展、LeaderWorkerSet）的无缝集成，实现可重复、可扩展且可调优的模型部署。\n- **差异**: [v0.2.10 → v0.3.8](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fllm-d-modelservice\u002Fcompare\u002Fllm-d-modelservice-v0.2.10...llm-d-modelservice-v0.3.8)\n\n---\n\n## 🔹 llm-d\u002Fllm-d-routing-sidecar\n\n- **描述**: 一个反向代理，将传入的请求重定向到 HTTP 请求头 x-prefiller-host-port 中指定的预填充工作节点。\n- **差异**: [v0.3.1 → v0.4.0-rc.1](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-routing-sidecar\u002Fcompare\u002Fv0.3.1...v0.4.0-rc.1)\n\n---\n\n## 🔹 llm-d\u002Fllm-d\n\n- **描述**: 基于 `vllm-project\u002Fvllm` 的中间镜像，用于推理任务，支持 PD 分离、KV 缓存感知等功能。\n- **差异**: [v0.3.1 → v0.4.0](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fcompare\u002Fv0.3.1...v0.4.0)\n- **镜像变体**: 该组件有多种镜像变体：\n    - XPU: `ghcr.io\u002Fllm-d\u002Fllm-d-xpu:v0.4.0`\n    - AWS: `ghcr.io\u002Fllm-d\u002Fllm-d-aws:v0.4.0`\n    - CUDA: `ghcr.io\u002Fllm-d\u002Fllm-d-cuda:v0.4.0`\n    - CPU: `ghcr.io\u002Fllm-d\u002Fllm-d-cpu:v0.4.0`\n\n---\n\n## 🔹 llm-d-incubation\u002Fllm-d-infra\n\n- **描述**: 用于部署 llm-d 网关及其相关基础设施资产的 Helm 图表。\n- **差异**: [v1.3.3 → v1.3.4](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fllm-d-infra\u002Fcompare\u002Fv1.3.3...v1.3.4)\n\n---\n\n## 🔹 kubernetes-sig\u002Fgateway-api-i","2025-11-26T20:19:36",{"id":169,"version":170,"summary_zh":171,"released_at":172},334382,"v0.5.0","# 📦 llm-d v0.5.0 发行说明  \n\n本次 `llm-d` 仓库的发布将涵盖整个项目、指南及各组件的更新。\n\n**发布日期:** 2026-02-03\n\n---\n\n## 核心目标\n\n- 可复现的基准测试\n- KV 缓存的扩展性\n- 自动扩缩容改进\n- 更丰富的指标与追踪体系\n\n## 🏗️ 基础设施变更 - 破坏性变更\n\n| 组件         | 版本       | 旧版本        |\n|--------------|------------|---------------|\n| Gateway API  | `v1.4.0`   | `v1.3.0`      |\n| Istio        | `1.28.1`   | `1.28-alpha.89f30b26ba71bf5e538083a4720d0bc2d8c06401` |\n| KGateway     | `v2.1.1`   | `v2.0.3`      |\n| GKE Gateways | 无 - 与 GKE 绑定 | 无 - 与 GKE 绑定 |\n\n**注意:** 我们升级到以下版本是为了使用新的 v1 推理池 API。这意味着集群管理员应在继续操作前先缩减工作负载，并升级这些基础设施级别的组件。您仍然可以使用旧的 `inference.networking.x-k8s.io\u002Fv1alpha2` API，但相关指南需要进行修改才能正常运行——请自行承担风险。\n\n## 🧩 LLM-D 组件概览\n\n| 组件                     | 版本       | 旧版本        | 类型    |\n|--------------------------|------------|---------------| --------|\n| llm-d\u002Fllm-d-inference-scheduler | `v0.5.0`   | `v0.4.0-rc1`  | 镜像    |\n| llm-d\u002Fllm-d-kv-cache     | `v0.5.0`   | `v0.4.0`      | 库      |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.4.5`   | `v0.3.8`      | Helm Chart |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.5.0`   | `v0.4.0-rc1`  | 镜像    |\n| llm-d\u002Fllm-d-inference-sim | `v0.7.1`   | `v0.6.1`      | 镜像    |\n| llm-d\u002Fllm-d-cuda         | `v0.5.0`   | `v0.4.0`      | 镜像    |\n| llm-d\u002Fllm-d-aws          | 已弃用     | `v0.4.0`      | 镜像    |\n| llm-d\u002Fllm-d-xpu          | `v0.5.0`   | `v0.4.0`      | 镜像    |\n| llm-d\u002Fllm-d-cpu          | `v0.5.0`   | `v0.4.0`      | 镜像（新） |\n| vllm-project\u002Fvllm        | `v0.14.1`  | `v0.11.2` + 其他精选提交（基于分支构建） | 安装于 `llm-d` 的 Wheel 包 |\n| llm-d-incubation\u002Fllm-d-infra | `v1.3.6`   | `v1.3.4`      | Helm Chart |\n| kubernetes-sig\u002Fgateway-api-inference-extension | `v1.3.0`   | `v1.2.0-rc1`  | Helm Chart |\n| llm-d\u002Fllm-d-workload-variant-autoscaler | `v0.5.0`   | `v0.0.8`      | Helm Chart + 镜像 |\n\n### 弃用与变更\n\n**临时弃用**: EFA\n\n在发布前两天，我们发现 EFA 与常规路径之间存在一个 bug。问题在于基础镜像中安装的 libiverbs \u002F rdma core 版本与 EFA 打包的版本不一致。同时存在这两个版本会导致任何基于 RDMA 的应用在初始化 nvshmem 时出现错误。作为临时措施，我们已禁用 EFA，同时正在寻找一种合适的方式，明确由谁来维护核心 RDMA 用户空间软件包。\n\n**WVA 升级**:\n\n我们的 [Workload-Variant-Autoscaler](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fworkload-variant-autoscaler) 已从实验性组件正式晋升为 llm-d 的核心组件！恭喜 SIG 团队！\n\n### 迁移\n\n`llm-d\u002Fllm-d-routing-sidecar` 镜像现已迁移到 `llm-d\u002Fllm-d-inference-scheduler` 仓库下，其原有位置已被归档。\n\n### 🧩 CUDA","2026-02-04T06:09:53",{"id":174,"version":175,"summary_zh":176,"released_at":177},334383,"v0.3.1","# 发布概述\n\n本次发布主要围绕 v0.3.0 版本中未能完成的目标展开。以下是一些关键内容：\n\n- ARM 支持\n- 将镜像构建流程重构为脚本\n- 将 GKE 镜像统一到我们的核心 CUDA 镜像中\n- 添加对 AKS 云提供商的支持\n\n欢迎所有新贡献者加入，也感谢团队的辛勤工作。\n\n## 组件版本更新：\n\n- 推理 SIM（[`v0.5.1` --> `v0.6.1`](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-sim\u002Fcompare\u002Fv0.5.1...v0.6.1)）\n- llm-d 镜像（`v0.3.0` --> `v0.3.1`，差异已汇总在下方的变更日志中）\n\n## 变更内容\n* [修复] 更改文件名以避免引用旧插件，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F353 中完成\n* 弃用 XPU 指南中的所有 InferenceModel，由 @yankay 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F358 中完成\n* 更新 vLLM 发布版本 v0.11.0 标签，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F365 中完成\n* 更新 SIGS.md 负责人信息，由 @petecheslock 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F363 中完成\n* 在进程启动前清空 \u002Fdev\u002Fshm 以防止崩溃循环，由 @smarterclayton 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F364 中完成\n* 添加硬件和平台支持问题模板，由 @Ayobami-00 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F359 中完成\n* 修正推理指南中的一个小错别字，由 @effi-ofer 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F377 中完成\n* 文档：将 AKS 介绍为一个成熟的基础设施提供商，由 @chewong 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F335 中完成\n* 修正每秒测量输出 token 数量，由 @smarterclayton 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F350 中完成\n* 将 Dockerfile 重构为一组 Bash 脚本，由 @wseaton 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F324 中完成\n* 添加宽 EP GKE 测试，由 @rlakhtakia 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F367 中完成\n* Intel PD 工作流及 v0.3 版本的滞后更新，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F310 中完成\n* 在 XPU 上使用 vLLM 镜像，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F357 中完成\n* 修复 Markdown 链接检查器失败的问题，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F385 中完成\n* 功能：为 vLLM 容器添加更新的就绪探针，由 @rajinator 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F330 中完成\n* 修复监控中的查询和负载脚本，由 @Hritik003 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F383 中完成\n* ARM CUDA 支持（来自干净分支），由 @wseaton 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F382 中完成\n* 修复 Markdown 链接检查中的死链接错误，由 @yuanwu2017 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F404 中完成\n* 更新 Bug 报告模板，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F413 中完成\n* 修复发布镜像的标签问题，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F379 中完成\n* 为 CKS 更新监控安装，由 @Gregory-Pereira 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F375 中完成\n* 修补 nvshmem 以避免未初始化值传递给 RoCE，由 @smarterclayton 在 https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d\u002Fpull\u002F407 中完成\n* [文档] 修复 WideEP 指南中 InferencePool 版本号被截断的问题，由 @tlrmchlsmth 完成","2025-11-06T15:28:20",{"id":179,"version":180,"summary_zh":181,"released_at":182},334384,"v0.3.0","# 📦 llm-d v0.3.0 发行说明\n\n本次 `llm-d` 仓库的发布将涵盖整个项目的版本更新，包括指南、组件等所有内容。\n\n**发布日期:** 2025年10月10日\n\n---\n\n## 核心目标\n\n本次发布有几个关键目标：\n- 增强对专用硬件后端（TPU、XPU）的支持\n- 扩展云服务商支持（DOKS）\n- 构建指标与可观测性体系\n- 进行大规模优化（EPLB、DBO、异步调度等）\n\n## 🧩 组件概览\n\n| 组件 | 版本 | 上一版本 | 类型 |\n|-----------|---------|------------------| ---- |\n| llm-d\u002Fllm-d-inference-scheduler | `v0.3.2` | `v0.2.1` | 镜像 |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.2.10` | `v0.2.0` | Helm Chart |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.3.0` | `v0.2.0` | 镜像 |\n| vllm-project\u002Fvllm | `v0.11.0` | `v0.10.0` | 基于预编译 wheel 的可编辑安装包 |\n| llm-d\u002Fllm-d-cuda | `v0.3.0` | `v0.2.0` | 镜像 |\n| llm-d\u002Fllm-d-gke | `v0.3.0` | NA（新） | 镜像 |\n| llm-d\u002Fllm-d-aws | `v0.3.0` | NA（新） | 镜像 |\n| llm-d\u002Fllm-d-xpu | `v0.3.0` | NA（新） | 镜像 |\n| llm-d\u002Fllm-d-inference-sim | `v0.5.1` | `v0.3.0` | 镜像 |\n| llm-d-incubation\u002Fllm-d-infra | `v1.3.3` | `v1.1.1` | Helm Chart |\n| kubernetes-sig\u002Fgateway-api-inference-extension | `v1.0.1` | `v0.5.1` | Helm Chart |\n| llm-d\u002Fllm-d-kv-cache-manager | `v0.3.2` | `v0.2.0` | Go 包（在 `inference-scheduler` 中使用） |\n| llm-d\u002Fllm-d-benchmark | `v0.3.0` | `v0.2.0` | 工具与镜像 |\n\n注意：未来我们计划引入兼容性矩阵。然而，由于目前项目仍处于起步阶段，我们无法保证这些组件能够与旧版本完全兼容。\n\n---\n\n## 🔹 llm-d\u002Fllm-d-inference-scheduler\n\n- **描述**: 该调度器为 llm-d 推理框架中的推理请求做出优化的路由决策。\n- **差异**: [v0.2.1 → v0.3.2](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler\u002Fcompare\u002Fv0.2.1...v0.3.2)\n\n---\n\n## 🔹 llm-d-incubation\u002Fllm-d-modelservice\n\n- **描述**: `modelservice` 是一个 Helm 图表，通过声明式管理用于服务基础模型的 Kubernetes 资源，从而简化 llm-d 上的 LLM 部署。它通过模块化预设以及与 llm-d 生态系统组件（包括 vLLM、Gateway API 推理扩展、LeaderWorkerSet）的无缝集成，实现可复现、可扩展且可调优的模型部署。\n- **差异**: [v0.2.0 → v0.2.10](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fllm-d-modelservice\u002Fcompare\u002Fllm-d-modelservice-v0.2.0...llm-d-modelservice-v0.2.10)\n\n---\n\n## 🔹 llm-d\u002Fllm-d-routing-sidecar\n\n- **描述**: 一个反向代理，将传入的请求重定向到 HTTP 请求头中指定的 x-prefiller-host-port 对应的预填充工作节点。\n- **差异**: [v0.2.0 → v0.3.0](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-routing-sidecar\u002Fcompare\u002Fv0.2.0...v0.3.0)\n\n---\n\n## 🔹 vllm-project\u002Fvllm（上游）\n\n- **描述**: `vLLM` 是一个快速且易于使用的库，用于 LLM 的推理和推理服务。该项目是推","2025-10-10T21:50:45",{"id":184,"version":185,"summary_zh":186,"released_at":187},334385,"v0.2.0","# 📦 llm-d v0.2.0 发行说明\n\n有关安装和使用新版本的信息，请参阅我们的[快速入门指南](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fllm-d-infra\u002Ftree\u002Fmain\u002Fquickstart)。\n\n**发布日期:** 2025年7月28日\n\n---\n\n## 核心目标\n\n本次发布有几个关键目标：\n- 根据社区反馈，从单体式安装迁移到可组合式安装\n- 支持“每个节点一个 rank”的大规模专家并行场景\n- 与上游 gateway-api-inference-extension Helm 图表保持一致\n\n## 🧩 组件概览\n\n| 组件 | 版本 | 旧版本 | 类型 |\n|-----------|---------|------------------| ---- |\n| llmd\u002Fllm-d-inference-scheduler | `v0.2.1` | `0.0.4` | 镜像 |\n| llm-d\u002Fllm-d-model-service | NA（已弃用） | `0.0.10` | 镜像 |\n| llm-d-incubation\u002Fllm-d-modelservice | `v0.2.0` | NA（新增） | Helm Chart |\n| llm-d\u002Fllm-d-routing-sidecar | `v0.2.0` | `0.0.6` | 镜像 |\n| llm-d\u002Fllm-d-deployer | NA（已弃用） | `1.0.22` | Helm Chart |\n| vllm-project\u002Fvllm | `v0.10.0` | NA（基于分支构建） | 以 Wheel 形式安装在 `llm-d` 中 |\n| llm-d\u002Fllm-d | `v0.2.0` | `0.0.8` | 镜像 |\n| llm-d\u002Fllm-d-inference-sim | `v0.3.0` | `0.0.4` | 镜像 |\n| llm-d-incubation\u002Fllm-d-infra | `v1.1.1` | NA（新增） | Helm Chart |\n| kubernetes-sig\u002Fgateway-api-inference-extension | `v0.5.1` | NA（新增 - 外部组件） | 镜像 |\n| llm-d\u002Fllm-d-kv-cache-manager | `v0.2.0` | `v0.1.0` | Go 包（在 `inference-scheduler` 中使用） |\n| llm-d\u002Fllm-d-benchmark | `v0.2.0` | `v0.0.8` | 工具及镜像 |\n\n注意：未来我们计划支持兼容性矩阵。然而，由于目前仍处于起步阶段，我们无法保证这些组件能够与旧版本兼容。\n\n---\n\n## 🔹 llm-d\u002Fllm-d-inference-scheduler\n\n- **描述**: 推理调度器为 vLLM 模型服务器的推理请求做出优化的路由决策。该组件依赖于上游 gateway-api-inference-extension 调度框架，并包含 vLLM 特有的功能。\n- **差异**: [0.0.4 → v0.2.1](https:\u002F\u002Fgithub.com\u002Fllm-d\u002Fllm-d-inference-scheduler\u002Fcompare\u002F0.0.4...v0.2.1)\n- **上游变更日志** - 由于我们升级了 GIE 的上游版本，许多更改并未体现在差异中。以下内容摘自其发布说明：\n\n---\n\n## 🔹 llm-d\u002Fllm-d-model-service（已弃用）\n\n- **描述**: `ModelService` 是一个 Kubernetes Operator（CRD + 控制器），用于为特定模型创建 vLLM Pod 和路由资源。\n- **状态**: 该仓库现已被标记为 `llm-d` 的废弃组件，并已归档。\n- **替代方案**: [`lm-d-incubation\u002Fllm-d-modelservice`](https:\u002F\u002Fgithub.com\u002Fllm-d-incubation\u002Fllm-d-modelservice)\n\n---\n\n## 🔹 llm-d-incubation\u002Fllm-d-modelservice（新增）\n\n- **描述**: `modelservice` 是一个 Helm Chart，通过声明式管理用于服务基础模型的 Kubernetes 资源，从而简化 llm-d 上的 LLM 部署。它通过模块化预设和清晰的集成，实现可复现、可扩展且可调优的模型部署。","2025-07-29T14:52:21"]