FastDeploy
FastDeploy 是百度飞桨团队推出的一款高性能大模型推理与部署工具包,专为大型语言模型(LLM)和视觉语言模型(VLM)打造。它致力于解决大模型在生产环境中落地难、推理速度慢、资源利用率低等核心痛点,提供开箱即用的工业级部署方案。
无论是希望快速验证模型的算法研究人员,还是需要构建高并发服务的后端开发者,FastDeploy 都能提供极大便利。它不仅兼容 OpenAI API 标准接口和 vLLM 生态,支持单命令快速启动服务,还具备强大的硬件适应能力,除 NVIDIA GPU 外,还深度优化了昆仑芯、海光、燧原等多种国产算力芯片。
在技术特性上,FastDeploy 拥有独特的负载均衡式 PD 分解架构,能动态切换实例角色以优化资源吞吐;内置统一的 KV 缓存传输机制,智能选择高速链路;同时支持 W4A8、FP8 等多种全量化格式,以及推测解码、多令牌预测等先进加速技术。通过这些能力,FastDeploy 帮助用户在保障服务稳定性的前提下,显著降低部署门槛并提升推理效率。
使用场景
某电商巨头技术团队正致力于将自研的 200 亿参数多模态导购大模型(基于 ERNIE-VL 架构)部署到混合算力集群,以支撑“双 11"期间的高并发图文咨询业务。
没有 FastDeploy 时
- 硬件适配困难:团队仅能使用昂贵的 NVIDIA GPU,无法利用现有的昆仑芯 XPU 和海光 DCU 资源,导致算力成本居高不下且扩容受限。
- 推理延迟过高:面对海量用户并发,原生框架缺乏高效的 KV Cache 管理和推测解码技术,首字生成延迟超过 800ms,严重影响用户体验。
- 部署流程繁琐:不同模型需要编写独立的推理脚本和接口封装,从模型训练完成到上线服务往往需要数天时间进行联调。
- 量化支持缺失:缺乏对 W4A8 等低精度量化格式的原生支持,显存占用过大,单卡只能运行极小批次的请求,资源利用率极低。
使用 FastDeploy 后
- 异构算力统一:FastDeploy 直接打通了 NVIDIA、昆仑芯及海光等多种硬件,团队成功将 60% 的流量调度至国产芯片,大幅降低硬件采购成本。
- 性能极致优化:借助负载均衡式 PD 分解与 MTP 投机解码技术,首字延迟降至 150ms 以内,吞吐量提升 3 倍,轻松应对流量洪峰。
- 开箱即用部署:通过兼容 OpenAI API 的单命令启动方式,新模型从验证到上线缩短至小时级,且无需修改现有业务代码。
- 灵活量化压缩:利用内置的 W4A8 量化方案,模型显存占用减少 50%,单卡并发处理能力翻倍,显著提升了集群整体能效比。
FastDeploy 通过屏蔽底层硬件差异并提供工业级加速引擎,帮助企业在保障极致推理性能的同时,实现了低成本、高效率的大模型规模化落地。
运行环境要求
- Linux
- 必需
- 支持多种硬件:NVIDIA GPU、昆仑芯 XPU、海光 DCU、天数智芯 GPU、燧原 GCU、沐曦 GPU、英特尔 Gaudi
- 具体显存大小取决于所选模型及量化格式(支持 W8A16, W4A8, FP8 等),CUDA 版本需参考各硬件详细安装文档
未说明

快速开始
English | 简体中文
FastDeploy 飞桨大模型高效部署套件
最新活动
[2026-03] FastDeploy v2.5 全新发布! 新增Qwen3-VL与Qwen3-VL MoE模型部署支持,新增W4AFP8量化方法,增强强化学习训练支持能力,包含170+项Bug修复与性能优化,升级全部内容参阅 v2.5 ReleaseNote。
[2026-01] FastDeploy v2.4: 新增 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署,增强MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能,升级全部内容参阅 v2.4 ReleaseNote。
[2025-11] FastDeploy v2.3: 新增ERNIE-4.5-VL-28B-A3B-Thinking与PaddleOCR-VL-0.9B两大重磅模型在多硬件平台上的部署支持,进一步优化全方位推理性能,以及带来更多部署功能和易用性的提升,升级全部内容参阅v2.3 ReleaseNote。
[2025-09] FastDeploy v2.2: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持!
[2025-08] FastDeploy v2.1:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。
关于
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:
- 🚀 负载均衡式PD分解:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率
- 🔄 统一KV缓存传输:轻量级高性能传输库,支持智能NVLink/RDMA选择
- 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
- 🧮 全量化格式支持:W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
- ⏩ 高级加速技术:推测解码、多令牌预测(MTP)及分块预填充
- 🖥️ 多硬件支持:NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等
要求
- 操作系统: Linux
- Python: 3.10 ~ 3.12
安装
FastDeploy 支持在英伟达(NVIDIA)GPU、昆仑芯(Kunlunxin)XPU、天数(Iluvatar)GPU、燧原(Enflame)GCU、海光(Hygon)DCU 以及其他硬件上进行推理部署。详细安装说明如下:
入门指南
通过我们的文档了解如何使用 FastDeploy:
支持模型列表
通过我们的文档了解如何下载模型,如何支持torch格式等:
进阶用法
致谢
FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。
版本历史
v2.5.02026/04/09v2.4.02026/01/23v2.3.02025/11/11v2.2.12025/10/11v2.2.02025/09/08v2.1.12025/09/02v2.1.02025/08/15release/2.0.02025/06/30release/0.7.02022/11/16release/0.6.02022/11/08release/0.5.02022/10/31release/0.4.02022/10/23release/0.3.02022/10/15release/0.2.12022/09/17release/0.2.02022/08/18release/0.1.02022/06/27常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

