[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-PaddlePaddle--FastDeploy":3,"tool-PaddlePaddle--FastDeploy":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":110,"forks":111,"last_commit_at":112,"license":113,"difficulty_score":10,"env_os":114,"env_gpu":115,"env_ram":116,"env_deps":117,"category_tags":122,"github_topics":123,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":133,"updated_at":134,"faqs":135,"releases":166},9372,"PaddlePaddle\u002FFastDeploy","FastDeploy","High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle","FastDeploy 是百度飞桨团队推出的一款高性能大模型推理与部署工具包，专为大型语言模型（LLM）和视觉语言模型（VLM）打造。它致力于解决大模型在生产环境中落地难、推理速度慢、资源利用率低等核心痛点，提供开箱即用的工业级部署方案。\n\n无论是希望快速验证模型的算法研究人员，还是需要构建高并发服务的后端开发者，FastDeploy 都能提供极大便利。它不仅兼容 OpenAI API 标准接口和 vLLM 生态，支持单命令快速启动服务，还具备强大的硬件适应能力，除 NVIDIA GPU 外，还深度优化了昆仑芯、海光、燧原等多种国产算力芯片。\n\n在技术特性上，FastDeploy 拥有独特的负载均衡式 PD 分解架构，能动态切换实例角色以优化资源吞吐；内置统一的 KV 缓存传输机制，智能选择高速链路；同时支持 W4A8、FP8 等多种全量化格式，以及推测解码、多令牌预测等先进加速技术。通过这些能力，FastDeploy 帮助用户在保障服务稳定性的前提下，显著降低部署门槛并提升推理效率。","[English](README_EN.md) | 简体中文\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_FastDeploy_readme_2cf5cdb7b3a9.png\" width=\"500\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fos-linux-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fgraphs\u002Fcontributors\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002FPaddlePaddle\u002FFastDeploy?color=9ea\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcommits\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcommit-activity\u002Fm\u002FPaddlePaddle\u002FFastDeploy?color=3af\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPaddlePaddle\u002FFastDeploy?color=9cc\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPaddlePaddle\u002FFastDeploy?color=ccf\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n     \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F4046\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_FastDeploy_readme_bbada6ddd5d3.png\" alt=\"PaddlePaddle%2FFastDeploy | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\u003C\u002Fbr>\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fget_started\u002Finstallation\u002Fnvidia_gpu\u002F\">\u003Cb> 安装指导 \u003C\u002Fb>\u003C\u002Fa>\n    |\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fget_started\u002Fquick_start\">\u003Cb> 快速入门 \u003C\u002Fb>\u003C\u002Fa>\n    |\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fsupported_models\u002F\">\u003Cb> 支持模型列表 \u003C\u002Fb>\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n--------------------------------------------------------------------------------\n# FastDeploy 飞桨大模型高效部署套件\n\n## 最新活动\n\n**[2026-03] FastDeploy v2.5 全新发布!** 新增Qwen3-VL与Qwen3-VL MoE模型部署支持，新增W4AFP8量化方法，增强强化学习训练支持能力，包含170+项Bug修复与性能优化，升级全部内容参阅 [v2.5 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.5.0)。\n\n**[2026-01] FastDeploy v2.4**: 新增 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署，增强MTP 投机解码能力，全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能，升级全部内容参阅 [v2.4 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.4.0)。\n\n**[2025-11] FastDeploy v2.3**: 新增[ERNIE-4.5-VL-28B-A3B-Thinking](docs\u002Fzh\u002Fget_started\u002Fernie-4.5-vl-thinking.md)与[PaddleOCR-VL-0.9B](docs\u002Fzh\u002Fbest_practices\u002FPaddleOCR-VL-0.9B.md)两大重磅模型在多硬件平台上的部署支持，进一步优化全方位推理性能，以及带来更多部署功能和易用性的提升，升级全部内容参阅[v2.3 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.3.0)。\n\n**[2025-09] FastDeploy v2.2**: HuggingFace生态模型兼容，性能进一步优化，更新增对[baidu\u002FERNIE-21B-A3B-Thinking](https:\u002F\u002Fhuggingface.co\u002Fbaidu\u002FERNIE-4.5-21B-A3B-Thinking)支持!\n\n**[2025-08] FastDeploy v2.1**:全新的KV Cache调度策略，更多模型支持PD分离和CUDA Graph，昆仑、海光等更多硬件支持增强，全方面优化服务和推理引擎的性能。\n\n## 关于\n\n**FastDeploy** 是基于飞桨（PaddlePaddle）的大语言模型（LLM）与视觉语言模型（VLM）推理部署工具包，提供**开箱即用的生产级部署方案**，核心技术特性包括：\n\n- 🚀 **负载均衡式PD分解**：工业级解决方案，支持上下文缓存与动态实例角色切换，在保障SLO达标和吞吐量的同时优化资源利用率\n- 🔄 **统一KV缓存传输**：轻量级高性能传输库，支持智能NVLink\u002FRDMA选择\n- 🤝 **OpenAI API服务与vLLM兼容**：单命令部署，兼容[vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002F)接口\n- 🧮 **全量化格式支持**：W8A16、W8A8、W4A16、W4A8、W2A16、FP8等\n- ⏩ **高级加速技术**：推测解码、多令牌预测（MTP）及分块预填充\n- 🖥️ **多硬件支持**：NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等\n\n## 要求\n\n- 操作系统: Linux\n- Python: 3.10 ~ 3.12\n\n## 安装\n\nFastDeploy 支持在**英伟达（NVIDIA）GPU**、**昆仑芯（Kunlunxin）XPU**、**天数（Iluvatar）GPU**、**燧原（Enflame）GCU**、**海光（Hygon）DCU** 以及其他硬件上进行推理部署。详细安装说明如下：\n\n- [英伟达 GPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fnvidia_gpu.md)\n- [昆仑芯 XPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fkunlunxin_xpu.md)\n- [天数 CoreX](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Filuvatar_gpu.md)\n- [燧原 S60](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002FEnflame_gcu.md)\n- [海光 DCU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fhygon_dcu.md)\n- [沐曦 GPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fmetax_gpu.md)\n- [英特尔 Gaudi](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fintel_gaudi.md)\n\n## 入门指南\n\n通过我们的文档了解如何使用 FastDeploy：\n- [10分钟快速部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fquick_start.md)\n- [ERNIE-4.5 部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fernie-4.5.md)\n- [ERNIE-4.5-VL 部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fernie-4.5-vl.md)\n- [离线推理](.\u002Fdocs\u002Fzh\u002Foffline_inference.md)\n- [在线服务](.\u002Fdocs\u002Fzh\u002Fonline_serving\u002FREADME.md)\n- [最佳实践](.\u002Fdocs\u002Fzh\u002Fbest_practices\u002FREADME.md)\n\n## 支持模型列表\n\n通过我们的文档了解如何下载模型，如何支持torch格式等：\n- [模型支持列表](.\u002Fdocs\u002Fzh\u002Fsupported_models.md)\n\n## 进阶用法\n\n- [量化](.\u002Fdocs\u002Fzh\u002Fquantization\u002FREADME.md)\n- [分离式部署](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fdisaggregated.md)\n- [投机解码](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fspeculative_decoding.md)\n- [前缀缓存](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fprefix_caching.md)\n- [分块预填充](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fchunked_prefill.md)\n- [负载均衡调度Router](.\u002Fdocs\u002Fzh\u002Fonline_serving\u002Frouter.md)\n- [全局Cache池化](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fglobal_cache_pooling.md)\n\n## 致谢\n\nFastDeploy 依据 [Apache-2.0 开源许可证](.\u002FLICENSE). 进行授权。在开发过程中，我们参考并借鉴了 [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 的部分代码，以保持接口兼容性，在此表示衷心感谢。\n","[English](README_EN.md) | 简体中文\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_FastDeploy_readme_2cf5cdb7b3a9.png\" width=\"500\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fos-linux-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fgraphs\u002Fcontributors\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002FPaddlePaddle\u002FFastDeploy?color=9ea\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcommits\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcommit-activity\u002Fm\u002FPaddlePaddle\u002FFastDeploy?color=3af\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPaddlePaddle\u002FFastDeploy?color=9cc\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPaddlePaddle\u002FFastDeploy?color=ccf\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n     \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F4046\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_FastDeploy_readme_bbada6ddd5d3.png\" alt=\"PaddlePaddle%2FFastDeploy | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\u003C\u002Fbr>\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fget_started\u002Finstallation\u002Fnvidia_gpu\u002F\">\u003Cb> 安装指导 \u003C\u002Fb>\u003C\u002Fa>\n    |\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fget_started\u002Fquick_start\">\u003Cb> 快速入门 \u003C\u002Fb>\u003C\u002Fa>\n    |\n    \u003Ca href=\"https:\u002F\u002Fpaddlepaddle.github.io\u002FFastDeploy\u002Fzh\u002Fsupported_models\u002F\">\u003Cb> 支持模型列表 \u003C\u002Fb>\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n--------------------------------------------------------------------------------\n# FastDeploy 飞桨大模型高效部署套件\n\n## 最新活动\n\n**[2026-03] FastDeploy v2.5 全新发布!** 新增Qwen3-VL与Qwen3-VL MoE模型部署支持，新增W4AFP8量化方法，增强强化学习训练支持能力，包含170+项Bug修复与性能优化，升级全部内容参阅 [v2.5 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.5.0)。\n\n**[2026-01] FastDeploy v2.4**: 新增 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署，增强MTP 投机解码能力，全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能，升级全部内容参阅 [v2.4 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.4.0)。\n\n**[2025-11] FastDeploy v2.3**: 新增[ERNIE-4.5-VL-28B-A3B-Thinking](docs\u002Fzh\u002Fget_started\u002Fernie-4.5-vl-thinking.md)与[PaddleOCR-VL-0.9B](docs\u002Fzh\u002Fbest_practices\u002FPaddleOCR-VL-0.9B.md)两大重磅模型在多硬件平台上的部署支持，进一步优化全方位推理性能，以及带来更多部署功能和易用性的提升，升级全部内容参阅[v2.3 ReleaseNote](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Fv2.3.0)。\n\n**[2025-09] FastDeploy v2.2**: HuggingFace生态模型兼容，性能进一步优化，更新增对[baidu\u002FERNIE-21B-A3B-Thinking](https:\u002F\u002Fhuggingface.co\u002Fbaidu\u002FERNIE-4.5-21B-A3B-Thinking)支持!\n\n**[2025-08] FastDeploy v2.1**:全新的KV Cache调度策略，更多模型支持PD分离和CUDA Graph，昆仑、海光等更多硬件支持增强，全方面优化服务和推理引擎的性能。\n\n## 关于\n\n**FastDeploy** 是基于飞桨（PaddlePaddle）的大语言模型（LLM）与视觉语言模型（VLM）推理部署工具包，提供**开箱即用的生产级部署方案**，核心技术特性包括：\n\n- 🚀 **负载均衡式PD分解**：工业级解决方案，支持上下文缓存与动态实例角色切换，在保障SLO达标和吞吐量的同时优化资源利用率\n- 🔄 **统一KV缓存传输**：轻量级高性能传输库，支持智能NVLink\u002FRDMA选择\n- 🤝 **OpenAI API服务与vLLM兼容**：单命令部署，兼容[vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002F)接口\n- 🧮 **全量化格式支持**：W8A16、W8A8、W4A16、W4A8、W2A16、FP8等\n- ⏩ **高级加速技术**：推测解码、多令牌预测（MTP）及分块预填充\n- 🖥️ **多硬件支持**：NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等\n\n## 要求\n\n- 操作系统: Linux\n- Python: 3.10 ~ 3.12\n\n## 安装\n\nFastDeploy 支持在**英伟达（NVIDIA）GPU**、**昆仑芯（Kunlunxin）XPU**、**天数（Iluvatar）GPU**、**燧原（Enflame）GCU**、**海光（Hygon）DCU** 以及其他硬件上进行推理部署。详细安装说明如下：\n\n- [英伟达 GPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fnvidia_gpu.md)\n- [昆仑芯 XPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fkunlunxin_xpu.md)\n- [天数 CoreX](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Filuvatar_gpu.md)\n- [燧原 S60](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002FEnflame_gcu.md)\n- [海光 DCU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fhygon_dcu.md)\n- [沐曦 GPU](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fmetax_gpu.md)\n- [英特尔 Gaudi](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fintel_gaudi.md)\n\n## 入门指南\n\n通过我们的文档了解如何使用 FastDeploy：\n- [10分钟快速部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fquick_start.md)\n- [ERNIE-4.5 部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fernie-4.5.md)\n- [ERNIE-4.5-VL 部署](.\u002Fdocs\u002Fzh\u002Fget_started\u002Fernie-4.5-vl.md)\n- [离线推理](.\u002Fdocs\u002Fzh\u002Foffline_inference.md)\n- [在线服务](.\u002Fdocs\u002Fzh\u002Fonline_serving\u002FREADME.md)\n- [最佳实践](.\u002Fdocs\u002Fzh\u002Fbest_practices\u002FREADME.md)\n\n## 支持模型列表\n\n通过我们的文档了解如何下载模型，如何支持torch格式等：\n- [模型支持列表](.\u002Fdocs\u002Fzh\u002Fsupported_models.md)\n\n## 进阶用法\n\n- [量化](.\u002Fdocs\u002Fzh\u002Fquantization\u002FREADME.md)\n- [分离式部署](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fdisaggregated.md)\n- [投机解码](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fspeculative_decoding.md)\n- [前缀缓存](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fprefix_caching.md)\n- [分块预填充](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fchunked_prefill.md)\n- [负载均衡调度Router](.\u002Fdocs\u002Fzh\u002Fonline_serving\u002Frouter.md)\n- [全局Cache池化](.\u002Fdocs\u002Fzh\u002Ffeatures\u002Fglobal_cache_pooling.md)\n\n## 致谢\n\nFastDeploy 依据 [Apache-2.0 开源许可证](.\u002FLICENSE). 进行授权。在开发过程中，我们参考并借鉴了 [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 的部分代码，以保持接口兼容性，在此表示衷心感谢。","# FastDeploy 快速上手指南\n\nFastDeploy 是基于飞桨（PaddlePaddle）的大语言模型（LLM）与视觉语言模型（VLM）高效推理部署工具包，提供开箱即用的生产级解决方案，支持多硬件平台及多种量化格式。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下基本要求：\n\n*   **操作系统**: Linux\n*   **Python 版本**: 3.10 ~ 3.12\n*   **硬件支持**: \n    *   NVIDIA GPU (主流支持)\n    *   国产芯片：昆仑芯 XPU、海光 DCU、天数智芯 GPU、燧原 GCU、沐曦 GPU、英特尔 Gaudi 等。\n*   **前置依赖**: 请根据您使用的硬件类型，预先安装对应的驱动程序（如 NVIDIA CUDA Driver\u002FCUDA Toolkit 或对应国产卡驱动）。\n\n> **注意**：不同硬件的具体驱动版本要求及详细安装前置条件，请参考官方文档中对应硬件的安装指导章节。\n\n## 2. 安装步骤\n\nFastDeploy 针对不同硬件提供了独立的安装文档。以下是基于最通用的 **NVIDIA GPU** 环境的安装指引。\n\n### 方式一：使用 pip 安装（推荐）\n\n确保已激活 Python 虚拟环境，执行以下命令：\n\n```bash\npip install fastdeploy-gpu\n```\n\n> **国内加速建议**：若下载速度较慢，推荐使用国内镜像源：\n> ```bash\n> pip install fastdeploy-gpu -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 方式二：其他硬件安装\n\n如果您使用的是国产芯片或其他特定硬件，请访问对应的安装文档获取专属命令：\n*   [昆仑芯 XPU 安装指南](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fkunlunxin_xpu.md)\n*   [海光 DCU 安装指南](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fhygon_dcu.md)\n*   [天数 CoreX 安装指南](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Filuvatar_gpu.md)\n*   [更多硬件支持](.\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002F)\n\n## 3. 基本使用\n\nFastDeploy 兼容 OpenAI API 标准，支持单命令启动服务，也可通过 Python SDK 进行离线推理。\n\n### 场景一：一键启动在线服务 (OpenAI 兼容)\n\n假设您已下载好模型（例如 `Qwen\u002FQwen2.5-7B-Instruct`），可以使用以下命令直接启动推理服务：\n\n```bash\nfastdeploy --model_name_or_path Qwen\u002FQwen2.5-7B-Instruct \\\n           --port 8000 \\\n           --tensor_parallel_size 1\n```\n\n启动成功后，您可以使用 `curl` 或任何兼容 OpenAI 的客户端调用服务：\n\n```bash\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"model\": \"Qwen\u002FQwen2.5-7B-Instruct\",\n    \"messages\": [{\"role\": \"user\", \"content\": \"你好，请介绍一下 FastDeploy\"}],\n    \"max_tokens\": 512\n  }'\n```\n\n### 场景二：Python 离线推理\n\n您也可以直接在 Python 代码中加载模型进行推理：\n\n```python\nfrom fastdeploy import LLM, SamplingParams\n\n# 初始化模型\nllm = LLM(model=\"Qwen\u002FQwen2.5-7B-Instruct\")\n\n# 设置采样参数\nsampling_params = SamplingParams(temperature=0.7, max_tokens=512)\n\n# 执行推理\nprompts = [\"中国的首都是哪里？\"]\noutputs = llm.generate(prompts, sampling_params)\n\n# 打印结果\nfor output in outputs:\n    print(f\"Prompt: {output.prompt!r}, Generated text: {output.outputs[0].text!r}\")\n```\n\n### 进阶特性提示\n\n*   **量化加速**：支持 W4A16、W8A8、FP8 等多种量化格式，启动时添加 `--quantization` 参数即可。\n*   **PD 分离部署**：针对高并发场景，支持 Prefill 和 Decode 阶段分离部署以提升吞吐量。\n*   **投机解码**：支持小模型辅助大模型进行投机采样，显著降低首字延迟。\n\n更多高级用法（如多机部署、自定义 Router 策略等），请参阅 [官方最佳实践文档](.\u002Fdocs\u002Fzh\u002Fbest_practices\u002FREADME.md)。","某电商巨头技术团队正致力于将自研的 200 亿参数多模态导购大模型（基于 ERNIE-VL 架构）部署到混合算力集群，以支撑“双 11\"期间的高并发图文咨询业务。\n\n### 没有 FastDeploy 时\n- **硬件适配困难**：团队仅能使用昂贵的 NVIDIA GPU，无法利用现有的昆仑芯 XPU 和海光 DCU 资源，导致算力成本居高不下且扩容受限。\n- **推理延迟过高**：面对海量用户并发，原生框架缺乏高效的 KV Cache 管理和推测解码技术，首字生成延迟超过 800ms，严重影响用户体验。\n- **部署流程繁琐**：不同模型需要编写独立的推理脚本和接口封装，从模型训练完成到上线服务往往需要数天时间进行联调。\n- **量化支持缺失**：缺乏对 W4A8 等低精度量化格式的原生支持，显存占用过大，单卡只能运行极小批次的请求，资源利用率极低。\n\n### 使用 FastDeploy 后\n- **异构算力统一**：FastDeploy 直接打通了 NVIDIA、昆仑芯及海光等多种硬件，团队成功将 60% 的流量调度至国产芯片，大幅降低硬件采购成本。\n- **性能极致优化**：借助负载均衡式 PD 分解与 MTP 投机解码技术，首字延迟降至 150ms 以内，吞吐量提升 3 倍，轻松应对流量洪峰。\n- **开箱即用部署**：通过兼容 OpenAI API 的单命令启动方式，新模型从验证到上线缩短至小时级，且无需修改现有业务代码。\n- **灵活量化压缩**：利用内置的 W4A8 量化方案，模型显存占用减少 50%，单卡并发处理能力翻倍，显著提升了集群整体能效比。\n\nFastDeploy 通过屏蔽底层硬件差异并提供工业级加速引擎，帮助企业在保障极致推理性能的同时，实现了低成本、高效率的大模型规模化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_FastDeploy_2cf5cdb7.png","PaddlePaddle","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FPaddlePaddle_0457ef24.jpg","",null,"http:\u002F\u002Fpaddlepaddle.org","https:\u002F\u002Fgithub.com\u002FPaddlePaddle",[79,83,87,91,95,99,103,106],{"name":80,"color":81,"percentage":82},"Python","#3572A5",60.4,{"name":84,"color":85,"percentage":86},"C++","#f34b7d",19.6,{"name":88,"color":89,"percentage":90},"Cuda","#3A4E3A",18.1,{"name":92,"color":93,"percentage":94},"Go","#00ADD8",1,{"name":96,"color":97,"percentage":98},"Shell","#89e051",0.7,{"name":100,"color":101,"percentage":102},"C","#555555",0.1,{"name":104,"color":105,"percentage":102},"CMake","#DA3434",{"name":107,"color":108,"percentage":109},"Makefile","#427819",0,3675,739,"2026-04-18T11:41:27","Apache-2.0","Linux","必需。支持多种硬件：NVIDIA GPU、昆仑芯 XPU、海光 DCU、天数智芯 GPU、燧原 GCU、沐曦 GPU、英特尔 Gaudi。具体显存大小取决于所选模型及量化格式（支持 W8A16, W4A8, FP8 等），CUDA 版本需参考各硬件详细安装文档。","未说明",{"notes":118,"python":119,"dependencies":120},"该工具是基于飞桨（PaddlePaddle）的大语言模型与视觉语言模型推理部署套件。支持负载均衡式 PD 分解、统一 KV 缓存传输、推测解码及多令牌预测（MTP）等高级特性。不同硬件平台（如英伟达、昆仑芯、海光等）有独立的详细安装指南，需查阅对应文档配置驱动及环境。","3.10 ~ 3.12",[72,121],"vLLM (接口兼容)",[14,35],[124,125,126,127,128,129,130,131,132],"serving","ernie","llm","inference","llm-serving","openai","vllm","ernie-45","ernie-45-vl","2026-03-27T02:49:30.150509","2026-04-19T09:16:01.014893",[136,141,146,151,156,161],{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},42032,"在 Jetson TX2 NX 上使用 GPU 推理 PPOCRv3 时提示找不到模块或自动回退到 CPU，如何解决？","该问题通常是因为 Python 优先加载了路径中的旧版本或非 GPU 版本的 fastdeploy。解决方法是设置 PYTHONPATH 环境变量指向编译安装后的 fastdeploy 目录，确保优先使用编译生成的版本。执行命令：export PYTHONPATH=\u002Fpath\u002Fto\u002Fyour\u002Fcompiled\u002Ffastdeploy:$PYTHONPATH。设置后，pip 安装的版本将不再生效，系统会使用指定路径下的支持 GPU 的版本。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F1554",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},42033,"在 RK3588 上编译 FastDeploy 成功后，运行代码提示 'AttributeError: module 'fastdeploy' has no attribute 'RuntimeOption'' 怎么办？","这通常是因为使用了错误的分支或旧版本代码。请按照以下步骤重新编译：\n1. 重新克隆项目：git clone https:\u002F\u002Fgithub.com\u002FZheng-Bicheng\u002FFastDeploy.git（或主仓库 develop 分支）。\n2. 切换到特定分支（如 ppyoloe）：git checkout ppyoloe。\n3. 重新进行编译安装：python setup.py build\u002Finstall。\n后续该功能已合入 develop 分支，直接克隆主仓库的 develop 分支即可正常使用。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F1282",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},42034,"FastDeploy 目前支持哪些模型和硬件平台？如何申请新增支持？","FastDeploy 持续更新对 CV、NLP、Speech 等模型及云边端硬件（如 Android ARM CPU, RKNN2 等）的支持。若希望支持新的 AI 模型或硬件，请提供以下信息联系维护者：\n1. 硬件型号（如晶晨 A311D）\n2. 操作系统（如 Linux）\n3. 网络名称（如 PP-PicoDet）\n4. 模型链接\n5. 详细描述（应用场景及困难）\n6. 联系方式。维护者会根据需求排期开发。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F6",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},42035,"量化训练工具是否支持 Windows 系统？量化后的模型支持 OpenVINO 推理吗？","1. 自动压缩模型工具中的超参数优化功能（post-quant-hpo）仅支持 Linux 系统，Windows 下会报错不支持。\n2. 关于 OpenVINO：目前 OpenVINO 正在逐步支持 PaddleSlim 量化格式的模型，但尚未完全成熟。如果遇到算子不支持的问题，建议等待 OpenVINO 官方更新支持，暂时不需要手动修改网络结构。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F1556",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},42036,"在 Jetson Nano 上编译 FastDeploy 时，关于 Paddle Inference 预编译库和 PADDLEINFERENCE_DIRECTORY 环境变量应该如何配置？","在 Jetson 平台上编译时，需要下载对应 Jetpack 版本的 C++ 预编译包（paddle_inference_install_dir）。配置步骤如下：\n1. 导出环境变量：export PADDLEINFERENCE_DIRECTORY=\u002Fpath\u002Fto\u002Fpaddle_inference_install_dir。\n2. 开启后端支持：export ENABLE_PADDLE_BACKEND=ON。\n3. 开启视觉任务支持：export ENABLE_VISION=ON。\n4. 指定 Jetson 编译标志：export BUILD_ON_JETSON=ON。\n注意：如果指定了 C++ 包目录，通常不需要再单独安装 Python 预编译库，编译脚本会自动链接指定的 C++ 库。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F1291",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},42037,"使用 Picodet 训练的模型在安卓端部署时报错，可能是什么原因？","安卓端报错通常与模型配置文件或输入数据有关。建议检查以下几点：\n1. 确认使用的配置文件（.yml）是否与训练时一致，特别是针对移动端优化的配置（如 configs\u002Fpicodet\u002Fpicodet_s_416_coco_lcnet.yml）。\n2. 验证测试图片是否能正常输出检测结果，排除图片格式或路径问题。\n3. 如果是自定义数据集训练，确保标签文件和类别映射正确。\n若问题依旧，建议提供具体的报错日志和测试图片以便进一步排查。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fissues\u002F662",[167,172,177,182,187,192,197,202,207,212,217,222,227,232,237,242],{"id":168,"version":169,"summary_zh":170,"released_at":171},334102,"v2.5.0","# FastDeploy 2.5 版本发布说明\n\n\n## 新增功能\n### 新模型支持\n* 新增Qwen3-VL模型部署支持 #5763\n* 新增Qwen3-VL MoE模型部署支持 #5913\n* 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962\n* 新增GLM模型TP+DP+EP支持 #6317\n\n### 新量化方法支持\n* 新增W4AFP8量化方法支持(v1_loader和v0_loader，支持TP>1) #5757\n* 新增NVFP4 MoE在SM100上的支持 #6003\n* 新增FusedMoE在Blackwell上的支持 #5325\n* 新增统一量化算子 #5991\n* 新增FP8量化环境变量FD_USE_PHI_FP8_QUANT支持 #6320\n* 新增Weight Only量化方法对QKVGate_proj的支持 #6669\n\n### PD分离相关功能\n* 新增多模态模型P\u002FD分离支持 #5323\n* 新增PD分离部署配置简化和端口管理重构 #5415\n* 新增PD分离支持动态C8 IPC #5750\n* 新增PD分离RDMA动态C8支持 #5788\n\n### CUDA Graph相关功能\n* 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 #5962\n* 新增reorder ids以分离prefill和decode请求的支持 #5779\n* 新增full_cuda_graph控制子图切分 #6027\n* 新增max_capture_shape_prefill和cudagraph_capture_sizes_prefill配置 #6148\n* 支持CUDAGraph用于P\u002FPD混合Batch，采用SOT子图切分模式 #6196\n* Cuda graph模式下跳过ATTN padding部分计算 #5985\n\n### RL训练相关功能\n* 新增Rollout Routing Replay支持 #5405\n* 新增V1 update\u002Fclear API for RL支持 #6974\n* 新增Thinking Pattern框架优化 #4302\n* 新增限制thinking内容长度的CUDA算子统一，支持回复长度限制与注入序列 #6511\n* R3支持RDMA Store #5467\n* 支持通过load_weights函数加载权重 #5549\n* 新增pause、update_weights、resume异步RL接口 #6052\n* 支持GLM MTP RL Model #6223 #6267\n* R3支持全层路由Fused Put #6099\n* 支持SM100 FP8量化 #6602\n* 支持moe_topk_select Paddle原生算子及FP8 MoE量化 #6935\n\n### KV Cache相关功能\n* 新增KV Cache存储支持 #5571\n* 新增attention_store KV Cache后端支持 #5823\n* 新增file_store KV Cache后端支持 #6188\n* 新增通过attention store上报token index支持 #6285\n* 新增RDMACommunicator发送key和value scale支持 #5737\n* 新增get_output_kv_signal阻塞读取模式和send_first_token支持 #5836\n\n### 新API\u002F接口支持\n* 新增stop_token_ids支持 #5399\n* 新增logprobs\u002Fprompt_logprobs token解码开关 #5463\n* 新增请求级投机解码指标监控支持 #5518\n* 新增健康检查功能 #5534\n* 新增请求级延迟细粒度追踪(Tracing Part1) #5458\n* 新增Entropy计算支持 #5692 #5730\n* 新增输出缓存默认启用 #5987\n* 新增tag phase token enforce生成支持 #6034\n* 新增SWA基于appendattn的支持 #6594\n* plugin模型支持mm_processor_kwargs #6491\n* 新增多模态模型dummy run支持 #6045\n* 新增Norm before Rope支持 #6332\n* 新增使用phi permute\u002Funpermute并移除swiglu #6808\n\n### Engine与架构优化\n* 新增基于ZMQ通信的EngineService跨进程async_llm重构 #4868\n* 新增Golang Router用于请求调度和负载均衡 #5882 #5966\n* 新增ZMQ-based FMQ实现和benchmark工具 #5418\n* 新增Pool模型prefill batch推理支持 #5436\n* 新增Paddle启动版本检查机制 #5769\n* 新增可配置worker健康检查超时(FD_WORKER_ALIVE_TIMEOUT) #5865\n* 新增FD统计信息上报 #5646\n* 新增统一请求完成日志格式并增强统计信息 #6405\n* 新增控制台打印统计指标 #6339 #6413\n* 新增断开连接后停止在线服务中对应请求推理的支持 #5320\n\n### Loader相关功能\n* 新增V1 Loader加载静态C8 scale JSON支持 #5909\n* 新增V1 Loader按自然key顺序加载safetensors权重 #6006\n* 新增TP+EP 下v1_loader支持 #5465\n* 新增Loader dummy load weight支持 #6169\n* 新增Loader wint2后端支持 #6139\n* 新增Loader处理GPU内存碎片支持 #6790\n\n### 模型层优化\n* 新增所有模型VocabParallelEmbedding的forward_meta支持 #5524\n* 对expert_dispatch算子支持更多参数配置 #5748\n* 新增FA3对GLM-RoPE的支持 #5586\n* 新增EPLB冗余专家支持 #5918\n* 新增normalization层参数重命名 #6133\n* 新增tracelogger stacklevel支持 #5766\n* 支持qkv和gate linear融合 #6552\n\n## 性能优化\n### 算子性能优化\n* 优化gather_logprob算子性能 #5817\n* 优化Qwen3 QK RMSNorm算子，通过融合Triton Kernel加速 #5880\n* 优化mask_quant和swiglu算子性能 #6222\n* W4AFp8量化场景下gemm算子采用自适应N参数优化 #5853\n* 支持FA2\u002FFA3\u002FFA4算子配合attn_mask","2026-04-09T06:26:05",{"id":173,"version":174,"summary_zh":175,"released_at":176},334103,"v2.4.0","## 核心推理能力与模型支持增强\n\n* 支持文本 `prompt_logprob` 及全量 `logprob` 能力 #4769\n* 支持离线推理中基于 ZMQ 的 `logprobs \u002F prompt_logprobs`，并引入 `max_logprobs` 参数 #4897\n* 支持在线推理中基于 ZMQ 的 `logprobs \u002F prompt_logprobs`，并优化通信方式 #5089\n* 新增 `logprobs \u002F prompt_logprobs` 的 `token_id` 解码控制开关 #5463\n* 受限解码新增 `llguidance` 后端 #5124\n* CUDAGraph 支持投机解码 Draft Model 加速(默认关闭)\n* [Speculative Decoding] 解耦 `draft_tokens` 后处理流程 #5205\n* 支持 Pooling 模型 Runner\n* 支持 Reward 模型\n* Pooling 模型通用 `embedding` 接口 #4344\n* Pooling 模型定制 `reward` 接口 #4518\n* 新增开源模型 **Ernie-4.5-VL-28B-A3B-Thinking** 的 `reasoning_parser`，兼容 `- \u002F _` 命名规则 #4571 #4668\n* 支持通过 `chat_template_kwargs.options.thinking_mode` 控制思考开关\n* 支持多模模型传入 `prompt_token_ids` 请求，并通过 `messages` 输入多模数据，实现 tokens-in \u002F tokens-out 能力\n\n\n## 并行架构、调度与 MoE 能力演进\n\n* GLM \u002F Qwen 模型消除 EP 空跑时的通信开销 #5254\n* 支持 MoE 分 chunk 执行 #4575\n* 支持 EPLB（Expert Load Balancing）#4782\n* 支持 EPLB 重排与冗余专家策略 #5142 #5143 #5178 #5239 #5918\n* 支持路由重放机制 \n* PD 分离支持 Deepseek V3 模型 EP 并行部署 #5251\n* PD 分离支持 Qwen3-MoE 模型 EP 并行部署 #4691\n* PD 分离支持 Prefill 与 Decode 使用不同 TP Size #5296\n* 新增 Python 版本 Router，支持集中式与分离式部署调度 #4709\n* 支持多步 MTP + CUDAGraph + PD 分离\n* 支持 MTP 无损验证\n* 支持 MTP 分 chunk #5343\n\n\n## 多模态、缓存与量化能力增强\n\n* 支持多模单 batch、纯文本多 batch 混合 Prefill 调度 #4611\n* 支持多模 Prefix Cache #4803\n* 动态量化支持 Prefix Cache #5125\n* 修复并支持多模 Prefix Cache 与 CUDAGraph 同时开启 #4679\n* 支持 W4AFP8 动态量化 #5282\n* 支持静态 C8 scale 单独加载 #4624\n* 完善 Machete 对不同量化 group size 的支持 #4911\n* 支持 Flash Mask Attention Backend 接入 #5104 #5134 #5387\n* v1 Loader 加载性能优化 #4532\n* 支持预编译包功能 #4729\n\n\n## 多硬件平台支持扩展\n\n### P800\n\n* 支持多模 Prefix Cache #5356\n* 支持 PD 分离 #5179\n* 支持思考模型思考强度限制 #4761\n* 支持 TP + EP 并行 #4688 #4836\n\n### Intel HPU\n\n* 新增 Prefix Caching 支持 #4971\n* 新增 Chunked Prefill 支持 #5289\n\n### Iluvatar GPU\n\n* 支持 ERNIE-4.5-21B-A3B 与 ERNIE-4.5-VL-28B-A3B-Thinking #4774 #4995\n* 修复多项 CI 问题 #4972 #5012 #5100\n\n### MetaX\n\n* 支持 ERNIE-4.5-VL-28B #4820\n* 新增 Cutlass MoE #4602 #4685 #5128\n* 支持 default_v1 loader #4956 #5001\n* 优化 Flash MLA 性能 #4915\n* 新增 Triton MoE 的 default_v1 loader 与 quant_config #5030\n* 支持 ENABLE_V1_KVCACHE_SCHEDULER #5163\n\n## 性能优化、可观测性与稳定性修复\n\n### 性能与通信优化\n\n* AppendAttn 算子支持 CUDA-PDL #5072\n* DeepGemm H2D 消除 #5262\n* 优化集中式 EP 通信逻辑 #5145\n* 移除 CUDA Graph 下 Append Attention 的 DtoH 同步开销\n* 支持两阶段低时延通信 #4162\n* 支持 TP + EP 混合并行 #4615 #5315 #5353\n* 默认编译 RDMA，降低多模 CUDAGraph 开销\n\n### 可观测性与安全\n\n* 支持基于请求级别的细粒度链路追踪 #5458\n* 添加 trace_id \u002F span_id 自动注入与开关 #4692 #5765\n* 新增 `--api-key` 权限校验参数 #4806\n\n### 稳定性与 Bug 修复\n\n* 修复 logprob \u002F prompt_logprob 计算、序列化及通信相关问题 #4681 #4884 #5237 #5335\n* 修复 EP、PD 分离、MTP、Prefix Cache、量化、多模态等多类推理场景下的稳定性问题\n* 修复多硬件（XPU \u002F MetaX \u002F Luvatar \u002F P800）算子与参数校验问题\n\n\n## What's Changed\n* [BugFix] fix total_block_num init error in worker_process by @RichardWooSJTU in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4553\n* [BugFix] Fix graph opt test case by @gongshaotian in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4634\n* [Feature] add mm token usage by @ApplEOFDiscord i","2026-01-23T02:20:55",{"id":178,"version":179,"summary_zh":180,"released_at":181},334104,"v2.3.0","## 新增功能\n- 新增GLM 4.5文本类模型部署支持 #3928\n- 新增GPT-OSS-BF16文本类模型部署支持 #4240\n- 新增**ERNIE-4.5-VL-28B-A3B-Thinking多模态思考模型**部署支持，详见[文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fget_started\u002Fernie-4.5-vl-thinking.md)\n- 新增PaddleOCR-VL多模态模型部署支持 #4936\n- 多模态模型和思考模型增加受限解码StructredOutput支持 #2749\n- 多模态模型增加Prefix Caching与Encoder Caching支持 #4134\n- 新增Wfp8Afp8在线量化推理支持 #4051 #4238\n- 新增静态Cfp8量化推理支持 #4568\n- LogProb功能\n    - 支持EP并行下开启logprob #4151\n    - 支持MTP场景下开启logprob #4464 #4467\n    - 新增```logprobs_mode```参数指定返回结果的类型 #4567\n- HuggingFace Safetensors模型升级为默认能力\n    - Qwen2.5-VL系列支持 #3921\n    - ERNIE-4.5-VL系列模型支持 #4042\n    - 新增EP并行与Cache量化场景下支持 #3801\n    - 新增动态量化缓存机制，二次加载可使用缓存进行加载 #3857\n- Nvidia GPU下CUDA Graphs功能的完善\n    - CUDA Graphs默认在Decode阶段开启 #3594\n    - 使用统一内存池，降低显存开销 #4230\n    - 支持投机解码 #3769 #4545 #4617 #4669\n    - 支持TP、DP、EP混合并行 #4456 #4589\n    - 支持 PD 分离式部署 #4530\n    - 支持权重清理与动态加载下的重捕获 #3781 #3594\n    - 支持CustomAllReduce下开启CUDA Graphs重捕获 #4305\n    - 增加ERNIE-4.5-VL-MOE模型的支持 #3226\n- 新增终端命令行CLI工具集\n    - chat：执行对话生成任务 #4037\n    - complete：执行文本补全任务 #4037\n    - serve：启动与OpenAI协议兼容的推理服务 #4226\n    - bench：对推理服务进行性能（延迟、吞吐）或精度评测\n        - bench serve \\ bench latency 精度评测工具 #4160 #4239\n        - bench throughtput \\ bench eval 性能评测工具 #4239\n    - collect-env：收集并打印系统、GPU、依赖等运行环境信息 #4044 #4558 #4159\n    - run-batch：批量执行推理任务，支持文件\u002FURL输入输出 # 4237\n    - tokenizer：执行文本与 token 的编码、解码及词表导出 #4278\n- 新增```engine-worker-queue-port```与```cache-queue-port```的匿名端口支持 #4597\n- 新增```LogitsProcessors````后处理参数支持 #4515\n- 新增ERNIE-45-VL-Thinking模型的ReasoningParser与ToolParser #4571\n- ```usage```字段返回新增多模态输入与输出Token、思考Token的统计 #4648 #4520\n- 新增```n```参数支持单请求返回多个生成结果 #4273\n- 离线推理chat接口新增```tool```参数支持工具调用 #4415\n- 多模态数据预处理增加对url数据的下载增加重试 #3838\n    \n## 性能优化\n\n- 优化per_token_quant_fp8算子性能，提升50% #4238\n- MTP支持Chunked Prefill与V1 KVCache调度 #3659 #4366\n- V1 KVCache调度增加对上下文缓存的支持，并作为默认配置 #3807 #3814\n- 优化MLA kernel性能，支持auto chunk + graph下的高性能MLA kernel #3886\n- 优化Qwen-VL中ViT模块的CPU同步耗时 #4442\n- Machete GEMM支持WINT4\u002FWINT8以及group scale，并作为默认dense GEMM后端，优化模型性能与精度 #4451 #4295 #4121 #3999 #3905\n- 优化append attention前处理算子性能 #4443 #4369 #4367\n- 思考长度裁剪功能自定义算子化，实现更鲁棒更规范 #4279 #4736\n- INTEL HPU优化多卡场景下sampling #4445\n- 新增MergedReplicatedLinear方法，支持DeepSeek，qkv_a_proj融合 #3673\n- 优化DeepEP buffer显存；支持EP场景下DeepEP buffer的creat\u002Fdelete功能 #4039\n- 优化集中式EP场景下DeepEP clear buffer带来的降速 #4039\n- spec decode适配qk norm #3637\n- 优化MLA Kernel性能，支持auto chunk + CUDA Graphs #3886\n- 解决KV Cache容量分配偏小问题 #4355\n- Engine与Worker跨进程通信支持零拷贝方式传输多模态张量数据 #4531\n- APIServer支持gunicore+uvicorn优化前处理耗时 #4496 #4364\n    \n## 多硬件\n\n- 昆仑芯P800\n    - 新增ERNIE-4.5-VL系列模型的支持 #4030\n    - 新增PaddleOCR-VL 0.9B模型的支持 #4529\n    - BlockAttention算子支持neos版本rope #4723\n    - 新增W4A8精度支持 #4068\n    - 适配V1 KVCache调度 #4573\n- 沐曦C550\n    - 优化Attention、MoE、RotaryEmbedding算子实现 #3688\n    - 新增DeepSeek-R1、DeepSeek-V3.1-BF16部署支持 #4498\n- 天数CoreX\n    - 新增ERNIE-4.5-VL-28B-A3B部署支持 #4313\n    - ERNIE-4.5-300B-A47B推理性能优化 #3651","2025-11-11T03:27:35",{"id":183,"version":184,"summary_zh":185,"released_at":186},334105,"v2.2.1","## 新增功能\n\n- 新增在线权重更新支持开启Prefix Caching\n- 新增GLM 4.5 Air模型部署支持\n\n## 变更内容\n* [docs] 更新release\u002F2.2版本的最佳实践文档，由@zoooo0820在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3970中完成\n* [Docs] 发布2.2.0版本，由@ming1753在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3991中完成\n* [docs] 更新README文件，由@yangjianfengo1在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3996中完成\n* [Optimize] 优化Model API相关的错误信息，由@AuferGachet在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3972中完成\n* [Cherry-Pick] 从参数中获取org_vocab_size，由@zeroRains在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3984中完成\n* 【FIX】将sparse attn的名称由moba改为plas，由@yangjianfengo1在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4006中完成\n* 修复融合MOE层中下投影权重的形状问题，由@yuanlehome在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4041中完成\n* [Fix] 修复多API服务器的日志目录问题，由@ltd0924在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3966中完成\n* 修复多个实例之间指标文件冲突的问题……，由@zhuangzhuang12在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4010中完成\n* [Feature] 在release22版本中支持与yiyan适配器的混合部署，由@rainyfly在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3974中完成\n* [CI] 在release\u002F2.2分支中更新paddlepaddle==3.2.0，由@EmmonsCurse在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3997中完成\n* [setup optimize] 支持Git子模块（#4033），由@YuanRisheng在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4080中完成\n* [CP] Glm45 air 2.2版本，由@ckl117在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4073中完成\n* [feat] 支持在调用`\u002Fclear_load_weight`时清除前缀缓存，由@liyonghua0910在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4091中完成\n* [BugFix] 修复tp\u002Fep组的gid问题，由@gzy19990617在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4038中完成\n* 支持限制思考长度，由@K11OntheBoat在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4070中完成\n* 为ENABLE_V1_KVCACHE_SCHEDULER添加断言，由@Jiang-Jia-Jun在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4146中完成\n* [fix] 修复ep组的all-reduce问题，由@liyonghua0910在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4140中完成\n* [Cherry-pick] 修复使用v1加载器加载MTP的问题，由@zoooo0820在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4153中完成\n* [CP2.2] 马切特支持分组缩放、wint8和v1加载器，由@Sunny-bot1在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4166中完成\n* [Feature] 支持RDMA IB传输，由@ltd0924在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4123中完成\n* [BugFix] 修复2.2版本GLM的all-reduce tp组问题，由@ckl117在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4188中完成\n* [Executor] 调整RL训练中的信号发送顺序（#3773）（#4066），由@gongshaotian在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4178中完成\n* [fix] 将available_gpu_block_num初始化为max_gpu_block_num，由@liyonghua0910在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F4193中完成\n* [fix] 修改后续推送参数及Modi","2025-10-11T07:01:10",{"id":188,"version":189,"summary_zh":190,"released_at":191},334106,"v2.2.0","## 新增功能\n- 采样策略中的bad_words支持传入token ids\n- 新增Qwen2.5-VL系列模型支持(视频请求不支持enable-chunked-prefill)\n- API-Server completions接口prompt 字段支持传入token id列表，同时支持批量推理\n- 新增function call解析功能，支持通过```tool-call-parse```解析function call结果\n- 支持服务启动或请求中自定义chat_template\n- 支持模型chat_template.jinja文件的加载\n- 请求报错结果增加异常堆栈信息，完善异常log记录\n- 新增混合MTP、Ngram的投机解码方法\n- 支持用于投机解码的Tree Attention功能\n- 模型加载功能增强，实现了使用迭代器加载模型权重，加载速度和内存占用进一步优化\n- API-Server完善日志格式，增加时间信息\n- 新增插件机制，允许用户在不修改FastDeploy核心代码的前提下扩展自定义功能 \n- 支持Marlin kernel文件在编译阶段按照模版配置自动生成\n- 支持加载 HuggingFace原生Safetensors格式的文心、Qwen系列模型\n- 完善DP+TP+EP混合并行推理\n\n## 性能优化\n- 新增W4Afp8 MoE Group GEMM算子\n- CUDA Graph增加对超32K长文的支持\n- 优化moe_topk_select算子性能，提升MoE模型性能\n- 新增Machete WINT4 GEMM算子，优化WINT4 GEMM性能，通过FD_USE_MACHETE=1开启\n- Chunked prefill 默认开启\n- V1 KVCache调度策略与上下文缓存默认开启\n- MTP支持更多草稿token推理，提升多步接受率 \n- 新增可插拔轻量化稀疏注意力加速长文推理\n- 针对Decode支持自适应双阶段的All-to-All通信，提升通信速度\n- 支持DeepSeek系列模型MLA Bankend encoder阶段启用Flash-Attrntion-V3\n- 支持DeepSeek系列模型q_a_proj & kv_a_proj_with_mqa  linear横向融合\n- API-Server新增zmq dealer 模式通信管理模块，支持连接复用进一步扩展服务可支持的最大并发数\n\n## Bug修复\n- completion接口echo回显支持\n- 修复 V1调度下上下文缓存的管理 bug\n- 修复 Qwen 模型固定 top_p=0 两次输出不一致的问题\n- 修复 uvicorn 多worker启动、运行中随机挂掉问题\n- 修复 API-Server completions接口中多个 prompt 的 logprobs 聚合方式\n- 修复 MTP 的采样问题\n- 修复PD 分离cache 传输信号错误\n- 修复异常抛出流量控制信号释放问题\n- 修复```max_tokens```为0 异常抛出失败问题\n- 修复EP + DP 混合模式下离线推理退出hang问题 \n\n## 文档\n- 更新了最佳实践文档中一些技术的用法和冲突关系\n- 新增多机张量并行部署文档\n- 新增数据并行部署文档\n\n## 其它\n- CI新增对自定义算子的Approve拦截\n- Config整理及规范化\n\n\n## What's Changed\n* Describe PR diff coverage using JSON file by @XieYunshen in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3114\n* [CI] add xpu ci case by @plusNew001 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3111\n* disable test_cuda_graph.py by @XieYunshen in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3124\n* [CE] Add base test class for web server testing by @DDDivano in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3120\n* [OPs] MoE Preprocess OPs Support 160 Experts by @ckl117 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3121\n* [Docs] Optimal Deployment by @ming1753 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F2768\n* fix stop seq unittest by @zoooo0820 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3126\n* [XPU]Fix out-of-memory issue during single-XPU deployment by @iosmers in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3133\n* [Code Simplification] Refactor Post-processing in VL Model Forward Method by @DrRyanHuang in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F2937\n* add case by @DDDivano in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3150\n* fix ci by @XieYunshen in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3141\n* Fa3 支持集中式  by @yangjianfengo1 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3112\n* Add CI cases by @ZhangYulongg in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3155\n* [XPU]Updata XPU dockerfiles by @plusNew001 in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3144\n* [Feature] remove dependency ","2025-09-08T16:17:00",{"id":193,"version":194,"summary_zh":195,"released_at":196},334107,"v2.1.1","## 文档\n- 新增多机张量并行部署文档\n- 文心系列模型最佳实践文档更新到最新用法\n- 更新CUDA Graph使用说明\n\n## 新增功能\n- 返回结果新增```completion_tokens```与```prompt_tokens```，支持返回原始输入与模型原始输出文本\n- completion接口支持```echo```参数\n\n## Bug修复\n- 修复V1 KVCache调度下LogProb无法返回问题\n- 修复```chat_template_kwargs```参数无法生效问题\n- 修复混合架构部署下的EP并行问题\n- 修复completion接口返回结果中输出Token计数错误问题\n- 修复logprobs返回结果聚合问题\n\n## 变更内容\n* [文档] 添加多节点部署文档，由@ltd0924在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3416中完成\n* [文档] cherry-pick更新文档，由@zoooo0820在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3422中完成\n* [文档] 更新安装说明文档，由@yongqiangma在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3435中完成\n* [文档] 发布2.1版本，由@ming1753在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3441中完成\n* [文档] 更新graph opt后端文档，由@gongshaotian在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3443中完成\n* [功能] 在scheduler v1中支持logprob，用于release\u002F2.1版本，由@rainyfly在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3446中完成\n* [Bug修复] 修复dynamic_weight_manager中的配置错误，由@gzy19990617在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3432中完成\n* [功能] 将chat_template_kwargs传递给数据处理模块，由@luukunn在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3469中完成\n* [CI] 修复release\u002F2.1分支中的run_ci错误，由@EmmonsCurse在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3499中完成\n* [Bug修复] 修复ep real_bsz问题，由@lizexu123在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3396中完成\n* [功能] 增加prompt_tokens和completion_tokens，由@memoryCoderC在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3505中完成\n* [修复] 当设置disable_chat_template同时传递prompt_token_ids时会导致响应错误，由@liyonghua0910在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3511中完成\n* [执行器] 修复因d…导致的CUDA graph执行失败问题，由@gongshaotian在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3512中完成\n* [功能] 添加工具解析器，由@luukunn在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3518中完成\n* [BUGFIX] 修复ep混合架构bug，由@ltd0924在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3513中完成\n* [Bug修复] API服务器相关问题，由@ltd0924在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3530中完成\n* [功能] 支持限制文本模型的思考长度，由@K11OntheBoat在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3527中完成\n* [Bug修复] 暂时关闭XPU的get think_end_id功能，由@K11OntheBoat在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3563中完成\n* [功能] 支持与yiyan适配器的混合部署，由@rainyfly在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3533中完成\n* [cherry-pick] 在worker_process中于kv_cache初始化前启动expert_service，由@zeroRains在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3558中完成\n* 【Bug修复】completion接口支持echo回显功能，由@AuferGachet在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F3477中完成\n* [修复] 修复completion流式API中output_tokens未计入用量的问题，由@liyonghua0910在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeplo","2025-09-02T09:40:39",{"id":198,"version":199,"summary_zh":200,"released_at":201},334108,"v2.1.0","**FastDeploy v2.1.0 通过升级 KVCache 调度机制、增强高并发场景能力以及丰富采样策略，进一步提升用户体验和服务稳定性；通过 CUDA Graph 以及 MTP 等多项优化提升推理性能；此外，还新增支持多款国产硬件上文心开源模型的推理能力。**\n\n# 使用体验优化\n* **KVCache 调度机制升级**：采用输入与输出的 KVCache 统一管理方式，解决此前由于 `kv_cache_ratio` 参数配置不当导致的 OOM 问题；解决多模态模型由于输出 KVCache 不足，生成提前结束的问题。部署时通过配置环境变量 `export ENABLE_V1_KVCACHE_SCHEDULER=1` 启用（下个版本会默认开启），即可 **不再依赖** `kv_cache_ratio` 的设置，推荐使用。\n* **高并发场景功能增强**：增加 `max_concurrency`\u002F`max_waiting_time` 控制并发，对于超时请求进行拒绝优化用户体验，保障服务稳定性。\n* **多样的采样方式支持**：新增 `min_p`、`top_k_top_p` 采样方式支持，使用方式参考 [采样说明](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Ffeatures\u002Fsampling.md)；同时增加基于 Repetition 策略和基于 stop 词列表早停能力，详见 [早停说明](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Ffeatures\u002Fearly_stop.md)。\n* **服务化部署能力提升**：增加 `return_token_ids`\u002F`include_stop_str_in_output`\u002F`logprobs` 等参数支持返回更完整的推理信息。\n* **默认参数下性能提升**：增强因 `max_num_seqs` 默认值与实际并发不一致时性能下降问题，避免手动修改 `max_num_seqs`。\n\n# 推理性能优化\n* **CUDA Graph 覆盖更多场景**：覆盖多卡推理，支持与上下文缓存、Chunked Prefill 同时使用，在 ERNIE 4.5 系列、Qwen3 系列模型上 **性能提升 17%~91%**，详细使用可以参考 [最佳实践文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fbest_practices\u002FREADME.md)。\n* **MTP 投机解码性能提升**：优化算子性能，减少 CPU 搭配开销，提升整体性能；同时，相比 v2.0.0 版本新增 ERNIE-4.5-21B-A3B 模型支持 MTP 投机解码。\n* **算子性能优化**：优化 W4A8、KVCache INT4、WINT2 Group GEMM 等计算 Kernel，提升性能；如 ERNIE-4.5-300B-A47B **WINT2 模型性能提升 25.5%**。\n* **PD 分离完成更多模型验证**：P 节点完善 FlashAttention 后端，提升长文推理性能，并基于 ERNIE-4.5-21B-A3B 等轻量模型完成验证。\n\n# 国产硬件部署能力升级\n* 新增支持昆仑芯 P800 上 ERNIE-4.5-21B-A3B 模型部署，更多说明参考 [昆仑芯 P800 部署文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fusage\u002Fkunlunxin_xpu_deployment.md)。\n* 新增支持海光 K100-AI 上 ERNIE4.5 文本系列模型部署，更多说明参考 [海光 K100-AI 部署文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Fhygon_dcu.md)。\n* 新增支持燧原 S60 上 ERNIE4.5 文本系列模型的部署，更多说明参考 [燧原 S60 部署文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002FEnflame_gcu.md)。\n* 新增支持天数天垓150 上 ERNIE-4.5-300B-A47B 和 ERNIE-4.5-21B-A3B 模型部署，并优化推理性能，更多说明参考 [天数部署文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation\u002Filuvatar_gpu.md)。\n\n|ERNIE4.5 模型国产硬件推理适配情况（✅ 已支持   🚧 适配中    ⛔暂无计划）|||||||\n|-|-|-|-|-|-|-|\n|模型|昆仑芯 P800|昇腾910B|海光 K100-AI|天数天垓150|沐曦曦云 C550|燧原 S60\u002FL600|\n|ERNIE4.5-VL-424B-A47B|🚧|🚧|⛔|⛔|⛔|⛔|\n|ERNIE4.5-300B-A47B|✅|🚧|✅|✅|🚧|✅|\n|ERNIE4.5-VL-28B-A3B|🚧|🚧|⛔|🚧|⛔|⛔|\n|ERNIE4.5-21B-A3B|✅|🚧|✅|✅|✅|✅|\n|ERNIE4.5-0.3B|✅|🚧|✅|✅|✅|✅|\n\n# *相关文档和说明*\n* 升级对飞桨框架的依赖 **，FastDeploy v2.1.0 版本依赖 PaddlePaddle v3.1.1 版本**，PaddlePaddle 安装方式请参考 [飞桨官网安装说明](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick?docurl=\u002Fdocumentation\u002Fdocs\u002Fzh\u002Fdevelop\u002Finstall\u002Fpip\u002Flinux-pip.html)。\n* FastDeploy v2.1.0 的服务部署请求不再推荐使用 metadata 字段（Deprecated，v2.1.0 版本可使用，未来会移除），更新为使用 extra_body，详见 [参数支持说明](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fzh\u002Fonline_serving\u002FREADME.md#fastdeploy-%E5%A2%9E%E5%8A%A0%E9%A2%9D%E5%A4%96%E5%8F%82%E6%95%B0)。\n* [FastDeploy 多硬件安装和编译说明](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fdocs\u002Fzh\u002Fget_started\u002Finstallation)。\n* [FastDeploy 部署参数](https:\u002F\u002Fgithub.com\u002FPaddlePa","2025-08-15T10:26:28",{"id":203,"version":204,"summary_zh":205,"released_at":206},334109,"release\u002F2.0.0","# FastDeploy 2.0：基于飞桨的 LLM 和 VLM 推理与部署工具包\n\n## 新闻\n🔥 FastDeploy v2.0 正式发布：支持 ERNIE 4.5 的推理与部署。此外，我们开源了一套工业级的 PD 解耦架构，配备上下文缓存和动态角色切换功能，以实现资源的有效利用，从而进一步提升 MoE 模型的推理性能。\n\n## 关于\nFastDeploy 是一款基于飞桨的大语言模型和视觉语言模型推理与部署工具包。它提供开箱即用的生产级部署解决方案，并集成了多项核心加速技术：\n* 🚀 负载均衡的 PD 解耦架构：工业级方案，具备上下文缓存和实例角色动态切换功能，能够在保障 SLO 合规性和吞吐量的同时优化资源利用率。\n* 🔄 统一 KV 缓存传输：轻量级高性能传输库，可智能选择 NVLink 或 RDMA 通道。\n* 🤝 兼容 OpenAI API 服务器和 vLLM：一键部署，兼容 [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 接口。\n* 🧮 全面的量化格式支持：W8A16、W8A8、W4A16、W4A8、W2A16、FP8 等。\n* ⏩ 先进的加速技术：推测解码、多令牌预测（MTP）和分块预填充。\n* 🖥️ 多硬件支持：NVIDIA GPU、昆仑芯 XPU、海光 DCU、昇腾 NPU、Iluvatar GPU、燧原 GCU、MetaX GPU 等。\n\n## 支持的模型\n\n| 模型 | 数据类型 | PD 解耦 | 分块预填充 | 前缀缓存 | MTP | CUDA 图 | 最大上下文长度 |\n|:--- | :------- | :---------- | :-------- | :-------- | :----- | :----- | :----- |\n|ERNIE-4.5-300B-A47B | BF16\u002FWINT4\u002FWINT8\u002FW4A8C8\u002FWINT2\u002FFP8 | ✅| ✅ | ✅|✅(WINT4)| 开发中 |128K |\n|ERNIE-4.5-300B-A47B-Base| BF16\u002FWINT4\u002FWINT8 | ✅| ✅ | ✅|✅(WINT4)| 开发中 | 128K |\n|ERNIE-4.5-VL-424B-A47B | BF16\u002FWINT4\u002FWINT8 | 开发中 | ✅ | 开发中 | ❌ | 开发中 |128K |\n|ERNIE-4.5-VL-28B-A3B | BF16\u002FWINT4\u002FWINT8 | ❌ | ✅ | 开发中 | ❌ | 开发中 |128K |\n|ERNIE-4.5-21B-A3B | BF16\u002FWINT4\u002FWINT8\u002FFP8  |  ❌ |  ✅ |  ✅ | 开发中 | ✅|128K |\n|ERNIE-4.5-21B-A3B-Base | BF16\u002FWINT4\u002FWINT8\u002FFP8  |  ❌ |  ✅ |  ✅ | 开发中 | ✅|128K |\n|ERNIE-4.5-0.3B | BF16\u002FWINT8\u002FFP8  |  ❌ |  ✅ |  ✅ | ❌ | ✅|  128K |","2025-06-30T00:21:35",{"id":208,"version":209,"summary_zh":210,"released_at":211},334110,"release\u002F0.7.0","# 0.7.0 版本更新说明\n\n- 新增Paddle Lite TIM-VX集成，支持RK1芯片上的部署 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Fbuild_and_install\u002Frk1126.md)\n- 人脸检测模型`SCRFD`模型新增RKNPU2的部署支持 [部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ffacedet\u002Fscrfd\u002Frknpu2)\n- 新增`Stable Diffusion`模型部署示例 [部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fmultimodal\u002Fstable_diffusion)\n- `PaddleClas`\u002F`PaddleDetection`\u002F`YOLOv5`部署代码升级，支持`predict`及`batch_predict`\n- 支持大于2G以上的Paddle模型转ONNX部署\n- 新增`PaddleClas`模型服务化部署案例 [部署案例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fclassification\u002Fpaddleclas\u002Fserving)\n- 针对`FDTensor`增加`Pad function`操作符，支持在batch预测时，对输入进行Padding\n- 针对`FDTensor`增加Python API `to_dlpack`接口，支持`FDTensor`在不同框架间的无拷贝传输\n\n# 0.7.0 版本更新说明\n- 集成Paddle Lite TIM-VX，以支持如Rockchip RV1126等硬件。[详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Fbuild_and_install\u002Frk1126.md)\n- 支持在Rockchip RK3588、RK3568及其他硬件上部署人脸检测模型[SCRFD](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ffacedet\u002Fscrfd\u002Frknpu2)。\n- 支持[Stable Diffusion](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fmultimodal\u002Fstable_diffusion)模型的部署。\n- 升级PaddleClas、PaddleDetection、YOLOv5的部署代码，使其支持`predict`和`batch_predict`功能；\n- 支持将超过2GB的Paddle模型转换为ONNX格式进行部署。\n- 支持[PaddleClas](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fclassification\u002Fpaddleclas\u002Fserving)模型的服务化部署。\n- 为FDTensor新增Pad function算子，以支持批量预测时对输入数据进行填充。\n- 为FDTensor新增Python API to_dlpack接口，支持FDTensor在不同深度学习框架之间的零拷贝传输。\n\n\n## 新贡献者\n* @GodIsBoom 在 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F529 中做出了首次贡献\n* @yingshengBD 在 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F557 中做出了首次贡献\n* @triple-Mu 在 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F563 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.6.0...release\u002F0.7.0","2022-11-16T02:31:02",{"id":213,"version":214,"summary_zh":215,"released_at":216},334111,"release\u002F0.6.0","# 0.6.0 版本更新说明\n\n## 模型\n- 新增FSANet头部姿态识别模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fheadpose)\n- 新增PFLD人脸对齐模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ffacealign)\n- PP-Tracking模型增加轨迹可视化 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ftracking\u002Fpptracking)\n- 新增ERNIE文本分类模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Ftext\u002Fernie-3.0)\n\n## 服务化部署\n- FastDeploy Runtime新增Clone接口支持，降低Paddle Inference\u002FTensorRT\u002FOpenVINO后端在多实例下内存\u002F显存的使用\n\n## 端侧部署\n- 新增RKNPU2（3588）部署支持 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Ffaq\u002Frknpu2\u002Frknpu2.md)\n\n## 性能优化\n- 优化YOLO系列、PaddleClas、PaddleDetection前后处理内存创建逻辑\n- 融合视觉预处理操作，优化PaddleClas、PaddleDetection预处理性能\n- 集成TensorRT BatchedNMSDynamic_TRT插件，提升TensorRT端到端部署性能\n\n## 其它\n- 修复若干文档问题\n- 增加FastDeploy Runtime C++使用示例 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fdocs\u002Fcn\u002Fquick_start\u002Fruntime)\n\n# 0.6.0 版本更新说明\n\n## 模型\n- 支持FSANet头部姿态识别模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fheadpose)\n- 支持PFLD人脸对齐模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ffacealign)\n- PP-Tracking模型新增轨迹可视化功能 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ftracking\u002Fpptracking)\n- 支持ERNIE文本分类模型 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Ftext\u002Fernie-3.0)\n\n## 服务化部署\n- FastDeploy Runtime新增Clone接口支持，用于服务化部署，可降低Paddle Inference、TensorRT、OpenVINO后端在多实例场景下的内存和显存占用。\n\n## 端侧部署\n- 新增RKNPU2（3588）部署支持 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Ffaq\u002Frknpu2\u002Frknpu2.md)。\n\n## 性能优化\n- 优化YOLO系列、PaddleClas、PaddleDetection的前后处理内存分配逻辑。\n- 融合视觉预处理操作，提升PaddleClas和PaddleDetection的预处理效率，并进一步优化端到端性能。\n- 集成TensorRT的BatchedNMSDynamic_TRT插件，显著提升TensorRT端到端部署的性能。\n\n## 其它\n- 修复了多个文档中的问题\n- 增加了FastDeploy Runtime的C++使用示例 [详情](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fdocs\u002Fcn\u002Fquick_start\u002Fruntime)\n\n# 新贡献者\n* @rainyfly 在 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F453 中完成了首次贡献\n* @WinterGeng 在 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F487 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.4.0...release\u002F0.6.0","2022-11-08T12:32:32",{"id":218,"version":219,"summary_zh":220,"released_at":221},334112,"release\u002F0.5.0","## What's Changed\r\n\r\n### 后端\r\n- 新增通过Paddle Inference TensorRT推理支持\r\n- 新增通过Paddle Inference在IPU硬件上的推理支持\r\n- 解决原生TensorRT无法支持输入输出INT64数据问题\r\n- ONNX Runtime、Paddle Inference、TensorRT后端添加多流支持\r\n\r\n### 模型\r\n- 新增跟踪模型PP-Tracking [示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Ftracking\u002Fpptracking)\r\n- 新增RobustVideoMatting视频模型 [示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fmatting\u002Frvm)\r\n- 新增FastDeploy模型集成开发流程文档 [文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Ffaq\u002Fdevelop_a_new_model.md)\r\n\r\n### 其它\r\n- 修复非固定Shape情况下PP-Matting的预测问题\r\n- 修复语义分割模型Python可视化函数问题\r\n- 修复部分模型使用文档\r\n\r\n## New Contributors\r\n* @czr-gc made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F437\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.4.0...release\u002F0.5.0","2022-10-31T12:45:04",{"id":223,"version":224,"summary_zh":225,"released_at":226},334113,"release\u002F0.4.0","0.4.0版本新增Android移动端部署支持！\r\n\r\n## What's Changed\r\n\r\n## 移动端部署  \r\n- 增加FastDeploy Android C++预测库，支持arm64-v8a和armeabi-v7a架构，详见 [预编译库下载](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Fbuild_and_install\u002Fdownload_prebuilt_libraries.md)\r\n- 增加目标检测模型PicoDet的Android部署，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fdetection\u002Fpaddledetection\u002Fandroid)\r\n- 增加图像分类PaddleClas系列模型的Android部署，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fclassification\u002Fpaddleclas\u002Fandroid)\r\n\r\n### 模型\r\n- 优化YOLOv5\u002F6\u002F7 GPU部署端到端性能，通过YOLOv5::UseCudaPreprocessing()启用GPU前处理后，T4 GPU(TensorRT)上性能提升30%~50%，详见PR说明 https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F370\r\n- 增加7个Web端js部署案例，详见[js部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fapplication\u002Fjs)\r\n- 增加TinyPose以及PicoDet+TinyPose串联Pipeline部署支持，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fkeypointdetection)\r\n- 增加Torch Vision ResNet系列模型的部署支持，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fclassification\u002Fresnet)\r\n- PPOCRSystemv2 & PPOCRSystemv3重命名为PPOCRv2 & PPOCRv3\r\n- 优化PaddleSeg & PaddleOCR中部分模型警告信息\r\n\r\n## 服务化部署\r\n- 增加语义模型TTS服务化部署，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Faudio\u002Fpp-tts\u002Fserving)\r\n- 增加ERNIE 3.0服务化部署，详见[示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Ftext\u002Fernie-3.0\u002Fserving)\r\n- 修复服务化CPU部署镜像中的core问题\r\n\r\n## 推理后端\r\n- GPU部署增加`EnablePinedMemory`接口，支持Paddle Inference和TensorRT推理时，使用Pinned Memory，提升数据从GPU拷贝至CPU的传输生能，详见PR https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F403\r\n\r\n## 文档(仍在完善中)\r\n- 新上线Python API文档，详见 [Python API文档](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Ffastdeploy-api-doc\u002Fpython\u002Fhtml)\r\n- 新上线C++ API文档，详见[C++ API文档](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Ffastdeploy-api-doc\u002Fcpp\u002Fhtml)\r\n\r\n\r\n## New Contributors\r\n* @HexToString made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F384\r\n* @wang-xinyu made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F370\r\n* @LDOUBLEV made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F392\r\n* @chenqianhe made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F415\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.3.0...release\u002F0.4.0","2022-10-23T06:24:49",{"id":228,"version":229,"summary_zh":230,"released_at":231},334114,"release\u002F0.3.0","## What's Changed\r\n\r\n### 模型\r\n- 新增PaddleSeg的PP-ModNet和PP-HumanMatting部署支持 [部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fmatting)\r\n- 新增YOLOv5-Classification模型部署支持 [部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fclassification\u002Fyolov5cls)\r\n\r\n### 量化加速\r\n- 基于PaddleSlim提供一键量化工具，支持CPU\u002FGPU上部署性能的倍速提升 [详细内容](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Ftools\u002Fquantization)\r\n- 支持YOLO系列和PaddleClas图像分类系列模型一键量化加速 [详细内容](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Fquantize.md)\r\n\r\n### 编译\r\n- 支持用户环境指定自定义路径下的OpenCV、OpenVINO、ONNX Runtime编译依赖\r\n- Mac x86上增加OpenVINO后端的编译支持\r\n- 增加arm上Paddle-Lite的后端支持\r\n- 支持Jetson上编译安装 [参考文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fdocs\u002Fcn\u002Fbuild_and_install\u002Fjetson.md)\r\n\r\n\r\n### 服务化部署\r\n- 发布FastDeploy-Triton服务化CPU\u002FGPU部署镜像，支持Paddle\u002FONNX模型的多后端的高性能服务化部署 [详细内容](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fserving)\r\n- 新增YOLOv5服务化部署示例 [详细内容](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fdetection\u002Fyolov5\u002Fserving)\r\n\r\n### 代码优化\r\n- 解决模型Predict时修改传入图像的问题\r\n- 增加TensorRT后端`max_workspace_size`设置接口\r\n- 优化PaddleSeg部署模型在动态Shape下的提示信息\r\n- 修复Windows上加载TensorRT序列化文件失败的问题\r\n- 增加`fastdeploy_init.sh`和`fastdeploy_init.bat`帮助开发者快速导入FastDeploy依赖库\r\n\r\n## New Contributors\r\n* @onecatcn made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F264\r\n* @Zheng-Bicheng made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F290\r\n* @TrellixVulnTeam made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F315\r\n* @yeliang2258 made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F257\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.2.1...release\u002F0.3.1","2022-10-15T14:02:21",{"id":233,"version":234,"summary_zh":235,"released_at":236},334115,"release\u002F0.2.1","## What's Changed\r\n\r\n## 模型\r\n- 新增PaddleDetection MaskRCNN\u002FPPYOLOE+\u002FPPOCRv2\u002FPPOCRv3\u002FPPMatting等视觉模型端到端部署支持，详情参阅[FastDeploy\u002Fexamples\u002Fvision](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision)\r\n- 新增UIE文本NLP模型端到端部署支持，详情参阅[FastDeploy\u002Fexamples\u002Ftext](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Ftext)\r\n\r\n## 推理后端\r\n- 新增OpenVINO推理后端，得益于OpenVINO团队的支持，大部分Paddle模型均已支持使用OpenVINO在CPU上加速推理\r\n- TensorRT优化使用体验，无需再手动调用`SetTrtInputShape`设置输入范围，改为默认在推理过程中动态设置\r\n参阅文档[如何切换推理后端](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fblob\u002Fdevelop\u002Fexamples\u002Fvision\u002Fhow_to_change_backend.md)了解更多详情\r\n\r\n## 使用体验\r\n- 新增部分使用文档，包含编译、SDK使用等\r\n- 优化Windows上编译，使用中的部分易用性问题\r\n\r\n## New Contributors\r\n* @heliqi made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F190\r\n* @ChaoII made their first contribution in https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fpull\u002F211\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Fcompare\u002Frelease\u002F0.2.0...release\u002F0.2.1","2022-09-17T14:49:12",{"id":238,"version":239,"summary_zh":240,"released_at":241},334116,"release\u002F0.2.0","## 多推理后端支持\r\n- 集成Paddle Inference、ONNX Runtime、TensorRT后端，并支持根据模型自动选择最佳推理后端。\r\n- 支持源码编译，更灵活地选择后端，可参考 [FastDeploy编译文档](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fdocs\u002Fcompile)\r\n\r\n## 更多视觉模型支持\r\n- 新增[YOLO全系列（YOLOv7\u002F6\u002F5等）](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision\u002Fdetection)模型在CPU\u002FGPU以及TensorRT的部署支持\r\n- 新增人像抠图，人脸检测，人脸识别等模型支持，更多详细信息可参考 [FastDeploy视觉模型部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision)\r\n\r\n## 文档优化\r\n- 新增44个模型的Python\u002FC++API文档及部署示例，更多内容参考 [FastDeploy部署示例](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Ftree\u002Fdevelop\u002Fexamples\u002Fvision)","2022-08-18T13:49:08",{"id":243,"version":244,"summary_zh":245,"released_at":246},334117,"release\u002F0.1.0","[⚡️FastDeploy v0.1.0](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FFastDeploy\u002Freleases\u002Ftag\u002Frelease%2F0.1.0)测试版发布！🎉\r\n💎 发布40个重点模型在8种重点软硬件环境的支持的SDK\r\n😊 支持网页端、pip包两种下载使用方式","2022-06-27T11:59:02"]