llm-d

GitHub
3k 419 困难 1 次阅读 今天Apache-2.0语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

llm-d 是一个专为 Kubernetes 环境打造的高性能分布式大模型推理服务栈,旨在帮助企业在生产环境中轻松实现业界领先的推理性能。它并非直接替代 vLLM 或 SGLang 等底层模型服务器,而是作为高效的编排层,解决大规模真实流量下的高并发、低延迟及资源调度难题。

该工具特别适合需要在生产环境部署开源大模型的开发者、运维工程师及 AI 架构师。针对多租户场景下的负载不均、长提示词处理慢以及超大模型部署困难等痛点,llm-d 提供了多项核心技术亮点:包括基于前缀缓存感知的智能路由调度,能显著降低延迟并提升吞吐量;支持预填充与解码分离的架构,优化首字生成时间;具备针对混合专家模型(MoE)的宽专家并行能力;以及利用 CPU 和存储进行分层 KV 缓存卸载,大幅提高缓存命中率。此外,它还支持基于服务等级目标(SLO)的自动扩缩容。通过提供经过验证的最佳实践指南和 Helm 图表,llm-d 让团队能够专注于业务创新,无需在复杂的底层调优上耗费过多精力。

使用场景

某大型金融科技公司的 AI 团队正在 Kubernetes 集群上部署 DeepSeek-R1 等大语言模型,为全行提供实时的智能客服与风控分析服务,需应对早晚高峰的巨大流量波动。

没有 llm-d 时

  • 响应延迟高且不稳定:面对长文本提示词(Prompt),首字生成时间(TTFT)过长,用户经常感到卡顿,且无法通过分离预填充和解码阶段来优化。
  • 资源利用率低:在多租户场景下,简单的轮询负载均衡导致部分 GPU 闲置而另一些过载,缺乏基于前缀缓存感知的智能路由,重复计算严重。
  • 扩缩容滞后:传统的 HPA 仅基于 CPU/内存指标,无法感知推理负载的实际延迟(SLO),导致流量突增时扩容不及时,流量下降时又造成资源浪费。
  • 大模型部署困难:尝试部署超大规模 MoE 模型时,缺乏现成的专家并行(Expert Parallelism)方案,手动调优网络通信耗时数周仍难以达到生产级吞吐量。

使用 llm-d 后

  • 极致低延迟体验:利用 llm-d 的预填充/解码分离架构,显著降低了长文本的首字延迟,并使输出令牌时间(TPOT)更加可预测,用户体验流畅。
  • 智能调度提效:通过内置的智能推理调度器,实现基于前缀缓存命中率和实时利用率的精准路由,大幅减少重复计算,集群整体吞吐量提升显著。
  • SLO 感知弹性伸缩:借助工作负载自动伸缩功能,系统能根据推理延迟指标实时调整副本数,既保障了高峰期的服务稳定性,又在低谷期节省了算力成本。
  • 大模型一键落地:利用 llm-d 提供的宽专家并行指南和 Helm Chart,团队在几天内便成功上线了 DeepSeek-R1 等超大模型,无需深入底层网络调优。

llm-d 将复杂的分布式推理编排标准化,让企业能在任何加速硬件上以最低成本快速获得业界领先的模型服务性能。

运行环境要求

操作系统
  • Linux
GPU
  • 必需
  • 支持数据中心级加速器:NVIDIA A100 及更新型号 (如 H200, B200), AMD MI250 及更新型号,Google TPU v5e 及更新型号,Intel GPU Max 系列及更新型号
  • 需通过高速互联网络 (如 IB/RoCE RDMA, TPU ICI) 连接以支持分布式推理
内存

未说明 (取决于模型大小及是否启用 CPU/存储卸载功能)

依赖
notes该工具主要是一个运行在 Kubernetes 上的分布式推理编排栈,而非单机脚本。核心组件包括作为模型服务器的 vLLM、基于 Gateway API 的智能推理调度器、以及用于预填充/解码分离的 Sidecar。支持将 KV 缓存卸载到 CPU 内存、本地 SSD 或远程文件系统。推荐使用 Helm Charts 进行部署。架构设计旨在优化大规模生产环境下的延迟和吞吐量。
python未说明
Kubernetes 1.29+
vLLM
Kubernetes Gateway API (Inference Gateway)
NIXL
Prometheus
Grafana
OpenTelemetry
Helm
llm-d hero image

快速开始

llm-d Logo

在任何加速器上实现最先进推理性能

文档 发布状态 许可证 加入Slack

llm-d是一个高性能的分布式推理服务栈,专为在Kubernetes上进行生产部署而优化。我们通过经过充分测试的指南和真实场景基准测试,帮助您在大多数硬件加速器和基础设施提供商上,针对关键的开源大型语言模型,以最快的速度达到“最先进的(SOTA)推理性能”。

llm-d为生产推理提供了什么?

vLLMSGLang这样的模型服务器能够高效地在加速器上运行大型语言模型。llm-d则在这些模型服务器之上提供了最先进的编排能力,以高效且可靠地服务于大规模的真实流量:

  1. 智能推理调度 - 将vLLM部署在基于Gateway API的负载均衡器之后,并结合推理调度器,通过前缀缓存感知路由、基于利用率的负载均衡、多租户服务中的公平性和优先级设置,以及预测延迟均衡(实验性),来降低服务延迟并提高吞吐量。
  2. 解耦式服务(预填充/解码分离) - 通过将推理过程拆分为处理提示的预填充服务器和处理响应的解码服务器,从而减少首个 token 的生成时间(TTFT),并使每个输出 token 的时间更加可预测,尤其适用于gpt-oss-120b等大型模型以及处理超长提示时。
  3. 宽泛的专家并行 - 部署如DeepSeek-R1这样的超大规模专家混合模型,以在RL和对延迟不敏感的工作负载中获得更高的吞吐量,利用快速加速器网络上的数据并行与专家并行
  4. 分层KV前缀缓存,配合CPU和存储卸载 - 通过将KV缓存条目卸载到CPU内存、本地SSD以及远程高性能文件系统存储,来提高前缀缓存命中率。
  5. 工作负载自动伸缩 - 在异构共享硬件上,使用工作负载变体自动伸缩器,以SLO为导向进行成本优化;或在同构硬件上,使用HPA结合IGW指标,让每个模型独立伸缩。

这些指南提供了经过测试和基准验证的配方及Helm图表,帮助您按照生产部署中的最佳实践快速启动服务。它们可以扩展和定制,以适应您特定的模型和用例需求,同时使用Kubernetes、Kubernetes Gateway API、NIXL和vLLM等标准开源组件。我们的目标是消除在现代加速器上调优和部署生成式AI推理时常见的繁重工作。

立即开始

我们建议新用户从智能推理调度的部署开始。

[!NOTE] 我们目前正在重构文档。您也可以预览我们的新快速入门指南,它们将很快正式发布。

最新消息 🔥

  • [2026-02] v0.5版本引入了可重复的基准测试流程、层次化KV卸载、缓存感知LoRA路由、主-主高可用性、基于UCCL的传输韧性,以及规模至零的自动伸缩;经验证,在B200解码GPU上每秒可处理约3,100个token(宽泛EP),而在16×16 B200预填充/解码拓扑上,输出token可达50,000个/秒,相比轮询基线,TTFT降低了数量级。
  • [2025-12] v0.4版本展示了在H200 GPU上,DeepSeek V3.1的每个输出token延迟降低了40%,支持Intel XPU和Google TPU的解耦式部署以缩短首个token的生成时间,为前缀缓存卸载到vLLM原生CPU内存层级开辟了新的清晰路径,并预览了工作负载变体自动伸缩器,以提升模型即服务的效率。

🧱 架构

llm-d通过整合行业标准的开放技术来加速分布式推理:默认使用vLLM作为模型服务器和引擎,Kubernetes推理网关作为控制平面API和负载均衡编排器,而Kubernetes则作为基础设施编排者和工作负载控制平面。

llm-d Arch

llm-d 补充说明:

  • vLLM 中的模型推理服务优化: llm-d 团队为上游 vLLM 贡献并维护高性能的分布式推理服务优化功能,包括分离式推理架构、KV 连接器接口、对前沿开源专家混合模型的支持,以及生产就绪的可观测性和系统韧性能力。

  • 推理调度器: llm-d 使用兼容的网关实现及其可扩展的负载均衡策略,针对 LLM 场景做出可定制的“智能”负载均衡决策,而无需重新实现一个功能完备的负载均衡器。借助运行时遥测数据,推理调度器实现了过滤与打分算法,能够基于 P/D 感知、KV 缓存感知、SLA 感知和负载感知等因素作出决策。高级用户可以自定义评分器以进一步调整算法,同时享受 IGW 提供的流量控制和延迟感知均衡等特性。该负载均衡器的控制平面基于 Kubernetes API,但也支持独立运行。

  • 分离式推理 Sidecar: llm-d 将预填充和解码阶段分别调度到独立的实例上——由调度器决定哪些实例接收特定请求,事务则通过与解码实例并置的 Sidecar 协调完成。Sidecar 会指示 vLLM 通过 NIXL,在高速互联网络(IB/RoCE RDMA、TPU ICI 和 DCN)上实现点对点 KV 缓存传输。

  • vLLM 原生 CPU offloadingllm-d 文件系统后端: llm-d 利用 vLLM 的 KVConnector 抽象层,配置可插拔的 KV 缓存层级结构,包括将 KV 数据卸载至主机内存、远程存储,以及 LMCache、Mooncake 和 KVBM 等系统。

  • 面向硬件、工作负载和流量的变体自动伸缩: 这是一种具备流量与硬件感知能力的自动伸缩器,其功能包括:(a) 测量每个模型服务实例的容量;(b) 构建考虑不同请求形态与 QoS 的负载函数;(c) 分析近期的流量组合(QPS、QoS 和请求形态),从而计算出处理预填充、解码及延迟容忍型请求的最佳实例组合,进而支持使用 HPA 实现 SLO 级别的资源效率。

更多架构细节请参阅项目提案

llm-d 的范围

llm-d 目前致力于提升以下方面的生产级推理服务体验:

  • 在 PyTorch 或 JAX 中运行的生成式模型的在线推理及在线批处理
    • 参数规模达 10 亿以上的大型语言模型 (LLMs)
    • 充分利用一台或多台硬件加速器的全部算力
    • 支持吞吐量优先、延迟优先或多目标优化等多种配置
  • 面向最新一代数据中心级加速器——NVIDIA A100+、AMD MI250、Google TPU v5e 及更高版本,以及 Intel GPU Max 系列及以上型号
  • 基于 Kubernetes 1.29+,可通过代码集成至 Ray,或作为独立服务部署

有关已测试的加速器、网络和配置的详细信息,请参阅加速器文档;关于后续计划,请查看我们的路线图

🔍 可观测性

  • 监控与指标 —— Prometheus、Grafana 仪表盘及 PromQL 查询
  • 分布式追踪 —— OpenTelemetry 跨 vLLM、路由代理和 EPP 的追踪

📦 发布内容

我们的指南是持续更新的活文档。有关 Helm Chart 和组件发布的详细信息,请访问我们的GitHub 发布页面,查阅各版本的发布说明。

请查看我们即将发布的路线图

贡献方式

  • 更多关于开发流程和治理的信息,请参阅项目概述
  • 关于如何参与项目贡献的详细说明,请阅读贡献指南
  • 欢迎加入我们的特别兴趣小组 (SIGs),在特定领域贡献力量,并与相关领域的专家协作。
  • 我们使用 Slack 进行跨组织的开发讨论。欢迎加入:Slack
  • 我们每两周三中午 12:30 ET 举行一次面向贡献者的站会,并定期召开各 SIG 的会议。具体时间安排请参考llm-d 公共日历
  • 我们使用 Google Groups 分享架构图及其他内容。欢迎加入:Google Group

许可证

本项目采用 Apache License 2.0 许可证。详细信息请参阅LICENSE 文件

版本历史

v0.6.02026/04/03
v0.5.12026/03/05
v0.4.02025/11/26
v0.5.02026/02/04
v0.3.12025/11/06
v0.3.02025/10/10
v0.2.02025/07/29

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架