[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jd-opensource--xllm":3,"tool-jd-opensource--xllm":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":112,"forks":113,"last_commit_at":114,"license":115,"difficulty_score":116,"env_os":117,"env_gpu":118,"env_ram":119,"env_deps":120,"category_tags":128,"github_topics":129,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":137,"updated_at":138,"faqs":139,"releases":168},2708,"jd-opensource\u002Fxllm","xllm","A high-performance inference engine for LLMs, optimized for diverse AI accelerators.","xLLM 是一款专为大语言模型（LLM）打造的高性能推理引擎，特别针对国产 AI 加速芯片进行了深度优化。它旨在解决企业在部署大模型时面临的成本高、效率低以及硬件适配难等痛点，帮助开发者在国产算力平台上实现企业级的高效落地。\n\n这款工具非常适合需要在大模型应用中进行后端部署的开发者、算法工程师以及关注降本增效的企业技术团队。无论是运行 DeepSeek、Qwen 系列还是最新的 GLM 模型，xLLM 都能提供流畅的支持。\n\n其核心技术亮点在于采用了“服务与引擎解耦”的先进架构。在服务层，它支持在线与离线请求的弹性调度及动态负载平衡；在引擎层，则融合了多流并行计算、图融合优化、推测性推理以及基于 Mooncake 的全局 KV 缓存管理等创新技术。这些特性不仅大幅提升了推理速度，还有效降低了资源消耗。目前，xLLM 已在京东零售核心业务中经过大规模实战验证，是构建高性能、低成本 AI 应用的可靠选择。","\u003C!-- Copyright 2022 JD Co.\n\nLicensed under the Apache License, Version 2.0 (the \"License\");\nyou may not use this project except in compliance with the License.\nYou may obtain a copy of the License at\n\n    http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\nUnless required by applicable law or agreed to in writing, software\ndistributed under the License is distributed on an \"AS IS\" BASIS,\nWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\nSee the License for the specific language governing permissions and\nlimitations under the License. -->\n\n[English](.\u002FREADME.md) | [中文](.\u002FREADME_zh.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_d82bb6ae63d0.png\" alt=\"xLLM\" style=\"width:50%; height:auto;\">\n    \n[![Document](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocument-black?logo=html5&labelColor=grey&color=red)](https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest\u002F) [![Docker](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocker-black?logo=docker&labelColor=grey&color=%231E90FF)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fxllm\u002Fxllm-ai) [![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-brightgreen?labelColor=grey)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0) [![report](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTechnical%20Report-red?logo=arxiv&logoColor=%23B31B1B&labelColor=%23F0EBEB&color=%23D42626)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686) [![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Fjd-opensource\u002Fxllm) \n    \n\u003C\u002Fdiv>\n\n---------------------\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest\u002F\">\u003Cb>Documentation\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686\">\u003Cb>Technical Report\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp>\n\n\n### 📢 News\n\n- 2026-02-12: 🎉 We day-0 support high-performance inference for the [GLM-5](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-5) model, please refer to the [Deployment Document](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-5\u002Fblob\u002Fmain\u002Fexample\u002Fascend.md) for deployment.\n- 2025-12-21: 🎉 We day-0 support high-performance inference for the [GLM-4.7](https:\u002F\u002Fgithub.com\u002Fzai-org) model.\n- 2025-12-08: 🎉 We day-0 support high-performance inference for the [GLM-4.6V](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-V) model.\n- 2025-12-05: 🎉 We now support high-performance inference for the [GLM-4.5\u002FGLM-4.6](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-4.5\u002Fblob\u002Fmain\u002FREADME_zh.md) series models.\n- 2025-12-05: 🎉 We now support high-performance inference for the [VLM-R1](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FVLM-R1) model.\n- 2025-12-05: 🎉 We build hybrid KV cache management based on [Mooncake](https:\u002F\u002Fgithub.com\u002Fkvcache-ai\u002FMooncake), supporting global KV cache management with intelligent offloading and prefetching.\n- 2025-10-16: 🎉 We recently have released our [xLLM Technical Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686) on arXiv, providing comprehensive technical blueprints and implementation insights.\n\n## Project Overview\n\n**xLLM** is an **efficient LLM inference framework**, specifically optimized for **Chinese AI accelerators**, enabling enterprise-grade deployment with enhanced efficiency and reduced cost. The framework adopts a **service-engine decoupled** inference architecture, achieving breakthrough efficiency through several  technologies: at the service layer, including elastic scheduling of online\u002Foffline requests, dynamic PD disaggregation, a hybrid EPD mechanism for multimodal and high-availability fault tolerance; and at the engine layer, combined with technologies such as multi-stream parallel computing, graph fusion optimization, speculative inference, dynamic load balancing and global KV cache management. The overall architecture is shown below:\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_e311f899a8d7.png\" alt=\"xllm_arch\" style=\"width:90%; height:auto;\">\n\u003C\u002Fdiv>\n\n**xLLM** already supports efficient deployment of mainstream large models (such as *DeepSeek-V3.1*, *Qwen2\u002F3*, etc.) on Chinese AI accelerators, empowering enterprises to implement high-performance, low-cost AI large model applications. xLLM has been fully deployed in JD.com’s real core retail businesses, covering a variety of scenarios including intelligent customer service, risk control, supply chain optimization, ad recommendation, and more.\n\n\n## Core Features\n\n**xLLM** delivers robust intelligent computing capabilities. By leveraging hardware system optimization and algorithm-driven decision control, it jointly accelerates the inference process, enabling high-throughput, low-latency distributed inference services.\n\n**Full Graph Pipeline Execution Orchestration**\n- Asynchronous decoupled scheduling at the requests scheduling layer, to reduce computational bubbles.\n- Asynchronous parallelism of computation and communication at the model graph layer, overlapping computation and communication.\n- Pipelining of heterogeneous computing units at the operator kernel layer, overlapping computation and memory access.\n\n**Graph Optimization for Dynamic Shapes**\n- Dynamic shape adaptation based on parameterization and multi-graph caching methods to enhance the flexibility of static graph.\n- Controlled tensor memory pool to ensure address security and reusability.\n- Integration and adaptation of performance-critical custom operators (e.g., *PageAttention*, *AllReduce*).\n\n**Efficient Memory Optimization**\n- Mapping management between discrete physical memory and continuous virtual memory.\n- On-demand memory allocation to reduce memory fragmentation.\n- Intelligent scheduling of memory pages to increase memory reusability.\n- Adaptation of corresponding operators for domestic accelerators.\n\n**Global KV Cache Management**\n- Intelligent offloading and prefetching of KV in hierarchical caches.\n- KV cache-centric distributed storage architecture.\n- Intelligent KV routing among computing nodes.\n\n**Algorithm-driven Acceleration**\n- Speculative decoding optimization to improve efficiency through multi-core parallelism.\n- Dynamic load balancing of MoE experts to achieve efficient adjustment of expert distribution.\n\n---\n## Hardware Support\n\n| Hardware | Example | Remark          |\n| -------- | ------- | --------------- |\n| NPU      | A2, A3  | HDK Driver 25.2.0 + |\n| MLU      |         |                 |\n| ILU      | BI150   |                 |\n| MUSA     | S5000   |                 |\n\nBesides, please check the supported models on different hardwares at [Supported Models List](docs\u002Fen\u002Fsupported_models.md).\n\n---\n\n## Quick Start\n\nPlease refer to [Quick Start](docs\u002Fen\u002Fgetting_started\u002Fquick_start.md) for more details.\n\n--- \n\n## Contributing\nThere are several ways you can contribute to xLLM:\n\n1. Reporting Issues (Bugs & Errors)\n2. Suggesting Enhancements\n3. Improving Documentation\n    + Fork the repository\n    + Add your view in document\n    + Send your pull request\n4. Writing Code\n    + Fork the repository\n    + Create a new branch\n    + Add your feature or improvement\n    + Send your pull request\n\nWe appreciate all kinds of contributions! 🎉🎉🎉\nIf you have problems about development, please check our document: **[Document](https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest)**\n\n---\n\n## Community & Support\nIf you encounter any issues along the way, you are welcomed to submit reproducible steps and log snippets in the project's Issues area, or contact the xLLM Core team directly via your internal Slack. In addition, we have established official WeChat groups. You can access the following QR code to join. Welcome to contact us!\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_b9ffe29e56d5.png\" alt=\"qrcode3\" width=\"50%\" \u002F>\n\u003C\u002Fdiv>\n\n## Acknowledgment\n\nThis project was made possible thanks to the following open-source projects:  \n- [ScaleLLM](https:\u002F\u002Fgithub.com\u002Fvectorch-ai\u002FScaleLLM) - xLLM draws inspiration from ScaleLLM's graph construction method and references its runtime execution. \n- [Mooncake](https:\u002F\u002Fgithub.com\u002Fkvcache-ai\u002FMooncake) - Build xLLM hybrid KV cache management based on Mooncake.\n- [brpc](https:\u002F\u002Fgithub.com\u002Fapache\u002Fbrpc) - Build high-performance http service based on brpc.\n- [tokenizers-cpp](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Ftokenizers-cpp) - Build C++ tokenizer based on tokenizers-cpp.\n- [safetensors](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fsafetensors) - xLLM relies on the C binding safetensors capability.\n- [Partial JSON Parser](https:\u002F\u002Fgithub.com\u002Fpromplate\u002Fpartial-json-parser) - Implement xLLM's C++ JSON parser with insights from Python and Go implementations.\n- [concurrentqueue](https:\u002F\u002Fgithub.com\u002Fcameron314\u002Fconcurrentqueue) - A fast multi-producer, multi-consumer lock-free concurrent queue for C++11.\n\n\nThanks to the following collaborating university laboratories:\n\n- [THU-MIG](https:\u002F\u002Fise.thss.tsinghua.edu.cn\u002Fmig\u002Fprojects.html) (School of Software, BNRist, Tsinghua University)\n- USTC-Cloudlab (Cloud Computing Lab, University of Science and Technology of China)\n- [Beihang-HiPO](https:\u002F\u002Fgithub.com\u002Fbuaa-hipo) (Beihang HiPO research group)\n- PKU-DS-LAB (Data Structure Laboratory, Peking University)\n- PKU-NetSys-LAB (NetSys Lab, Peking University)\n- [TJU-TANKLab](https:\u002F\u002Fflashserve.org\u002F) (TANK Lab, Tianjin University)\n\nThanks to all the following [developers](https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fgraphs\u002Fcontributors) who have contributed to xLLM.\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_f0f57bbd186a.png\" \u002F>\n\u003C\u002Fa>\n\n---\n\n## License\n[Apache License](LICENSE)\n\n#### xLLM is provided by JD.com \n#### Thanks for your Contributions!\n\n## Citation\n\nIf you think this repository is helpful to you, welcome to cite us:\n```\n@article{liu2025xllm,\n  title={xLLM Technical Report},\n  author={Liu, Tongxuan and Peng, Tao and Yang, Peijun and Zhao, Xiaoyang and Lu, Xiusheng and Huang, Weizhe and Liu, Zirui and Chen, Xiaoyu and Liang, Zhiwei and Xiong, Jun and others},\n  journal={arXiv preprint arXiv:2510.14686},\n  year={2025}\n}\n```\n","\u003C!-- 版权归京东公司所有，2022年。\n\n根据Apache许可证第2.0版（“许可证”）授权；\n除非符合许可证的规定，否则不得使用本项目。\n您可以在以下网址获得许可证副本：\n\n    http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\n除非适用法律要求或书面同意，否则软件\n按照“AS IS”的基础分发，不提供任何明示或暗示的\n保证或条件。有关权限和限制的具体语言，请参阅许可证。 -->\n\n[English](.\u002FREADME.md) | [中文](.\u002FREADME_zh.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_d82bb6ae63d0.png\" alt=\"xLLM\" style=\"width:50%; height:auto;\">\n    \n[![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocument-black?logo=html5&labelColor=grey&color=red)](https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest\u002F) [![Docker](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocker-black?logo=docker&labelColor=grey&color=%231E90FF)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fxllm\u002Fxllm-ai) [![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-brightgreen?labelColor=grey)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0) [![报告](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTechnical%20Report-red?logo=arxiv&logoColor=%23B31B1B&labelColor=%23F0EBEB&color=%23D42626)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686) [![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Fjd-opensource\u002Fxllm) \n    \n\u003C\u002Fdiv>\n\n---------------------\n\n\u003Cp align=\"center\">\n| \u003Ca href=\"https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest\u002F\">\u003Cb>文档\u003C\u002Fb>\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686\">\u003Cb>技术报告\u003C\u002Fb>\u003C\u002Fa> |\n\u003C\u002Fp>\n\n\n### 📢 新闻\n\n- 2026-02-12: 🎉 我们在发布当天即支持对[GLM-5](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-5)模型进行高性能推理，请参考其[部署文档](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-5\u002Fblob\u002Fmain\u002Fexample\u002Fascend.md)了解部署方法。\n- 2025-12-21: 🎉 我们在发布当天即支持对[GLM-4.7](https:\u002F\u002Fgithub.com\u002Fzai-org)模型进行高性能推理。\n- 2025-12-08: 🎉 我们在发布当天即支持对[GLM-4.6V](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-V)模型进行高性能推理。\n- 2025-12-05: 🎉 我们现在支持对[GLM-4.5\u002FGLM-4.6](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-4.5\u002Fblob\u002Fmain\u002FREADME_zh.md)系列模型进行高性能推理。\n- 2025-12-05: 🎉 我们现在支持对[VLM-R1](https:\u002F\u002Fgithub.com\u002Fom-ai-lab\u002FVLM-R1)模型进行高性能推理。\n- 2025-12-05: 🎉 我们基于[Mooncake](https:\u002F\u002Fgithub.com\u002Fkvcache-ai\u002FMooncake)构建了混合KV缓存管理机制，支持全局KV缓存管理，并具备智能卸载与预取功能。\n- 2025-10-16: 🎉 我们最近在arXiv上发布了[xLLM技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14686)，提供了全面的技术蓝图和实现洞察。\n\n## 项目概述\n\n**xLLM**是一个**高效的LLM推理框架**，专为**中国AI加速器**优化，能够以更高的效率和更低的成本实现企业级部署。该框架采用**服务-引擎解耦**的推理架构，通过多项技术创新实现了突破性的效率提升：在服务层，包括在线\u002F离线请求的弹性调度、动态PD分离以及用于多模态和高可用性容错的混合EPD机制；在引擎层，则结合了多流并行计算、图融合优化、推测式推理、动态负载均衡和全局KV缓存管理等技术。整体架构如下所示：\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_e311f899a8d7.png\" alt=\"xllm_arch\" style=\"width:90%; height:auto;\">\n\u003C\u002Fdiv>\n\n**xLLM**已经支持主流大模型（如*DeepSeek-V3.1*、*Qwen2\u002F3*等）在中国AI加速器上的高效部署，助力企业实现高性能、低成本的AI大模型应用。xLLM目前已在京东的核心零售业务中全面部署，覆盖智能客服、风险控制、供应链优化、广告推荐等多种场景。\n\n\n## 核心特性\n\n**xLLM**提供强大的智能计算能力。通过硬件系统优化和算法驱动的决策控制，协同加速推理过程，从而实现高吞吐量、低延迟的分布式推理服务。\n\n**全图流水线执行编排**\n- 在请求调度层采用异步解耦调度，减少计算空泡。\n- 在模型图层实现计算与通信的异步并行，重叠计算与通信。\n- 在算子内核层对异构计算单元进行流水线化，重叠计算与内存访问。\n\n**动态形状的图优化**\n- 基于参数化和多图缓存方法实现动态形状适配，提升静态图的灵活性。\n- 控制张量内存池，确保地址安全性和可重用性。\n- 集成并适配性能关键的自定义算子（如*PageAttention*、*AllReduce*）。\n\n**高效内存优化**\n- 管理离散物理内存与连续虚拟内存之间的映射关系。\n- 按需分配内存，减少内存碎片。\n- 智能调度内存页，提高内存的可重用性。\n- 为国产加速器适配相应的算子。\n\n**全局KV缓存管理**\n- 在层次化缓存中实现KV的智能卸载与预取。\n- 以KV缓存为中心的分布式存储架构。\n- 在计算节点之间智能路由KV数据。\n\n**算法驱动的加速**\n- 推测式解码优化，通过多核并行提高效率。\n- 动态调整MoE专家负载均衡，实现专家分布的高效调控。\n\n---\n## 硬件支持\n\n| 硬件 | 示例 | 备注          |\n| -------- | ------- | --------------- |\n| NPU      | A2, A3  | HDK Driver 25.2.0 + |\n| MLU      |         |                 |\n| ILU      | BI150   |                 |\n| MUSA     | S5000   |                 |\n\n此外，请在[支持的模型列表](docs\u002Fen\u002Fsupported_models.md)中查看不同硬件上支持的模型。\n\n---\n\n## 快速入门\n\n更多详情请参阅[快速入门](docs\u002Fen\u002Fgetting_started\u002Fquick_start.md)。\n\n---\n\n## 贡献\n您可以通过以下几种方式为xLLM做出贡献：\n\n1. 报告问题（Bug & 错误）\n2. 提出改进建议\n3. 改进文档\n    + 分支仓库\n    + 在文档中添加您的观点\n    + 发送拉取请求\n4. 编写代码\n    + 分支仓库\n    + 创建新分支\n    + 添加您的功能或改进\n    + 发送拉取请求\n\n我们非常感谢各种形式的贡献！🎉🎉🎉\n如果您在开发过程中遇到问题，请查阅我们的文档：**[文档](https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest)**\n\n---\n\n## 社区与支持\n如果您在使用过程中遇到任何问题，欢迎在项目的 Issues 区域提交可复现的步骤和日志片段，或者通过您内部的 Slack 直接联系 xLLM 核心团队。此外，我们还建立了官方微信群，您可以通过扫描下方二维码加入。欢迎随时联系我们！\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_b9ffe29e56d5.png\" alt=\"qrcode3\" width=\"50%\" \u002F>\n\u003C\u002Fdiv>\n\n## 致谢\n\n本项目得以实现，离不开以下开源项目的贡献：\n- [ScaleLLM](https:\u002F\u002Fgithub.com\u002Fvectorch-ai\u002FScaleLLM) - xLLM 的图结构构建方法受到 ScaleLLM 的启发，并参考了其运行时执行机制。\n- [Mooncake](https:\u002F\u002Fgithub.com\u002Fkvcache-ai\u002FMooncake) - 基于 Mooncake 构建了 xLLM 的混合 KV 缓存管理方案。\n- [brpc](https:\u002F\u002Fgithub.com\u002Fapache\u002Fbrpc) - 使用 brpc 搭建高性能 HTTP 服务。\n- [tokenizers-cpp](https:\u002F\u002Fgithub.com\u002Fmlc-ai\u002Ftokenizers-cpp) - 基于 tokenizers-cpp 实现 C++ 分词器。\n- [safetensors](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fsafetensors) - xLLM 依赖 safetensors 的 C 语言绑定能力。\n- [Partial JSON Parser](https:\u002F\u002Fgithub.com\u002Fpromplate\u002Fpartial-json-parser) - 结合 Python 和 Go 的实现思路，完成了 xLLM 的 C++ JSON 解析器。\n- [concurrentqueue](https:\u002F\u002Fgithub.com\u002Fcameron314\u002Fconcurrentqueue) - 提供了一个适用于 C++11 的高效多生产者、多消费者无锁并发队列。\n\n\n同时，我们也感谢以下高校实验室的合作：\n- [THU-MIG](https:\u002F\u002Fise.thss.tsinghua.edu.cn\u002Fmig\u002Fprojects.html)（清华大学软件学院 BNRist 研究组）\n- USTC-Cloudlab（中国科学技术大学云计算实验室）\n- [Beihang-HiPO](https:\u002F\u002Fgithub.com\u002Fbuaa-hipo)（北京航空航天大学 HiPO 研究组）\n- PKU-DS-LAB（北京大学数据结构实验室）\n- PKU-NetSys-LAB（北京大学 NetSys 实验室）\n- [TJU-TANKLab](https:\u002F\u002Fflashserve.org\u002F)（天津大学 TANK 实验室）\n\n最后，特别感谢所有为 xLLM 做出贡献的 [开发者](https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fgraphs\u002Fcontributors)。\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_readme_f0f57bbd186a.png\" \u002F>\n\u003C\u002Fa>\n\n---\n\n## 许可证\n[Apache License](LICENSE)\n\n#### xLLM 由京东集团提供\n#### 感谢您的贡献！\n\n## 引用\n如果您认为本仓库对您有所帮助，请引用我们：\n```\n@article{liu2025xllm,\n  title={xLLM 技术报告},\n  author={刘通轩、彭涛、杨沛君、赵晓阳、陆秀生、黄伟哲、刘子睿、陈晓宇、梁志伟、熊俊等},\n  journal={arXiv 预印本 arXiv:2510.14686},\n  year={2025}\n}\n```","# xLLM 快速上手指南\n\nxLLM 是京东开源的高效大语言模型（LLM）推理框架，专为**国产 AI 加速器**优化，支持服务与引擎解耦架构，适用于企业级高吞吐、低延迟部署场景。\n\n---\n\n## 一、环境准备\n\n### 系统要求\n- 操作系统：Linux (推荐 Ubuntu 20.04\u002F22.04)\n- 编译器：GCC 9.0+ 或兼容版本\n- CMake：3.18+\n- Python：3.8+\n\n### 硬件支持\nxLLM 主要针对以下国产加速卡进行优化：\n| 硬件类型 | 型号示例 | 驱动要求 |\n| :--- | :--- | :--- |\n| **NPU** (华为昇腾) | A2, A3 | HDK Driver 25.2.0+ |\n| **MLU** (寒武纪) | - | - |\n| **ILU** (天数智芯) | BI150 | - |\n| **MUSA** (摩尔线程) | S5000 | - |\n\n> **注意**：请确保已安装对应硬件的官方驱动程序及开发工具包（如 CANN、CNToolkit 等）。\n\n### 前置依赖\n建议先更新包管理器并安装基础构建工具：\n```bash\nsudo apt-get update\nsudo apt-get install -y git cmake build-essential python3-pip\n```\n\n---\n\n## 二、安装步骤\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm.git\ncd xllm\n```\n\n### 2. 创建虚拟环境（推荐）\n```bash\npython3 -m venv venv\nsource venv\u002Fbin\u002Factivate\n```\n\n### 3. 安装 Python 依赖\n国内用户推荐使用清华或阿里镜像源加速安装：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 4. 编译安装\n根据您使用的硬件后端，配置相应的编译选项。以华为昇腾（NPU）为例：\n\n```bash\nmkdir build && cd build\ncmake .. -DUSE_ASCEND=ON \\\n         -DCMAKE_BUILD_TYPE=Release \\\n         -DASCEND_HOME_PATH=\u002Fusr\u002Flocal\u002FAscend\u002Fascend-toolkit\u002Flatest\nmake -j$(nproc)\n```\n\n> **提示**：若使用其他硬件（如 MLU、MUSA），请将 `-DUSE_ASCEND=ON` 替换为对应的 `-DUSE_MLU=ON` 或 `-DUSE_MUSA=ON`，并指定正确的 SDK 路径。\n\n### 5. Docker 快速部署（可选）\n如果希望避免环境配置问题，可直接使用官方 Docker 镜像：\n```bash\ndocker pull xllm\u002Fxllm-ai:latest\ndocker run --gpus all -it xllm\u002Fxllm-ai:latest \u002Fbin\u002Fbash\n```\n*(注：运行容器时需根据具体硬件添加相应的设备挂载参数，如 `--device \u002Fdev\u002Fdavinci_manager`)*\n\n---\n\n## 三、基本使用\n\n以下示例展示如何启动一个基于 DeepSeek-V3.1 模型的推理服务（假设模型权重已下载至 `\u002Fmodels\u002Fdeepseek-v3.1`）。\n\n### 1. 启动推理服务\n在 `build` 目录下运行服务引擎：\n\n```bash\n.\u002Fxllm_server \\\n    --model_path \u002Fmodels\u002Fdeepseek-v3.1 \\\n    --host 0.0.0.0 \\\n    --port 8080 \\\n    --tensor_parallel_size 1 \\\n    --max_batch_size 32\n```\n\n*参数说明：*\n- `--tensor_parallel_size`: 张量并行数，多卡部署时请调整为卡数。\n- `--max_batch_size`: 最大并发批处理大小。\n\n### 2. 发送推理请求\n使用 `curl` 或 Python 脚本调用服务。\n\n**使用 curl 测试：**\n```bash\ncurl -X POST http:\u002F\u002Flocalhost:8080\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"model\": \"deepseek-v3.1\",\n    \"messages\": [{\"role\": \"user\", \"content\": \"你好，请介绍一下 xLLM。\"}],\n    \"max_tokens\": 512\n  }'\n```\n\n**使用 Python 调用示例：**\n```python\nimport requests\n\nurl = \"http:\u002F\u002Flocalhost:8080\u002Fv1\u002Fchat\u002Fcompletions\"\npayload = {\n    \"model\": \"deepseek-v3.1\",\n    \"messages\": [{\"role\": \"user\", \"content\": \"你好，请介绍一下 xLLM。\"}],\n    \"max_tokens\": 512\n}\n\nresponse = requests.post(url, json=payload)\nprint(response.json())\n```\n\n---\n\n更多详细配置、支持的模型列表及高级功能（如 KV Cache 管理、动态形状优化），请参阅 [官方文档](https:\u002F\u002Fxllm.readthedocs.io\u002Fzh-cn\u002Flatest\u002F)。","某大型电商企业在“双 11\"大促期间，需在其自研的国产 AI 加速集群上实时部署千亿参数大模型，以支撑智能客服与商品推荐的高并发请求。\n\n### 没有 xllm 时\n- **硬件适配难**：国产加速卡缺乏高效推理引擎，模型移植需手动重写算子，开发周期长达数周且极易出错。\n- **响应延迟高**：面对突发流量，传统架构无法动态拆分预填充与解码阶段，导致首字生成延迟超过 2 秒，用户体验卡顿。\n- **资源浪费严重**：显存管理粗放，长上下文场景下频繁发生显存溢出（OOM），被迫降低并发量，造成算力闲置。\n- **容灾能力弱**：多模态任务中若单一节点故障，缺乏智能熔断机制，往往导致整个服务链路中断。\n\n### 使用 xllm 后\n- **开箱即用**：xllm 提供针对国产芯片的深度优化，支持 GLM-4.5\u002F4.6 等主流模型“零日”部署，将上线时间从数周缩短至小时级。\n- **极速响应**：借助动态 PD 分离技术与推测性推理，高负载下首字延迟降至 200 毫秒以内，对话流畅度显著提升。\n- **显存智控**：基于 Mooncake 的混合 KV Cache 管理机制，实现全局显存的智能卸载与预取，在同等硬件下并发吞吐量提升 3 倍。\n- **高可用保障**：混合 EPD 机制自动识别并隔离故障节点，确保多模态交互在部分硬件异常时仍能持续稳定服务。\n\nxllm 通过软硬协同的深度优化，让企业在国产算力底座上实现了低成本、高性能的大模型规模化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjd-opensource_xllm_d82bb6ae.png","jd-opensource","JD.com","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjd-opensource_34bf72bf.png","JD Open Source",null,"org.ospo1@jd.com","https:\u002F\u002Fwww.jdcloud.com","https:\u002F\u002Fgithub.com\u002Fjd-opensource",[84,88,92,96,100,104,108],{"name":85,"color":86,"percentage":87},"C++","#f34b7d",91,{"name":89,"color":90,"percentage":91},"Cuda","#3A4E3A",4.7,{"name":93,"color":94,"percentage":95},"Python","#3572A5",2.2,{"name":97,"color":98,"percentage":99},"CMake","#DA3434",1.3,{"name":101,"color":102,"percentage":103},"C","#555555",0.4,{"name":105,"color":106,"percentage":107},"Rust","#dea584",0.2,{"name":109,"color":110,"percentage":111},"Shell","#89e051",0.1,1165,166,"2026-04-03T08:14:01","NOASSERTION",4,"Linux","必需国产 AI 加速器（非 NVIDIA GPU）。支持型号包括：NPU (A2, A3，需 HDK Driver 25.2.0+)、MLU、ILU (BI150)、MUSA (S5000)。未提及 CUDA 版本要求。","未说明",{"notes":121,"python":119,"dependencies":122},"该工具专为国产 AI 加速器优化，不支持标准 NVIDIA GPU\u002FCUDA 环境。核心架构采用服务与引擎解耦设计，支持动态形状图优化和全局 KV 缓存管理。具体支持的模型列表需参考官方文档。安装前请确保已安装对应硬件的驱动程序（如 NPU 需 HDK Driver 25.2.0+）。",[123,124,125,126,127],"brpc","tokenizers-cpp","safetensors","concurrentqueue","Mooncake (用于混合 KV 缓存管理)",[26,13],[130,131,132,133,134,135,136],"deepseek","inference","inference-engine","llm-inference","qwen","large-language-models","glm","2026-03-27T02:49:30.150509","2026-04-06T05:17:39.044366",[140,145,150,154,159,164],{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},12548,"使用 GLM-4.7 模型进行 Function Calling 时服务发生栈溢出崩溃（SIGSEGV），原因是什么？","该问题是由于 `glm47_detector.cpp` 中使用的正则表达式模式 `[\\s\\S]*?` 在 libstdc++ 的 `std::regex` 实现中引发了灾难性回溯。当输入文本较长时，递归深度超过线程栈空间限制导致栈溢出。根本原因是正则引擎的 DFS 递归算法缺陷。此问题已在相关提交中修复，建议更新代码以避免使用导致回溯的正则模式或升级至修复版本。","https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fissues\u002F751",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},12549,"在 PD 分离部署模式下，更新 xllm-service 后调用 Tool Call 报错 'Unknown argument ensure_ascii for function tojson' 并导致服务崩溃，如何解决？","该错误是因为未同步更新 `xllm_service` 中的第三方子模块（third_party）。解决方法是先在项目根目录运行 `git submodule update` 命令更新子模块，然后重新编译项目即可解决该模板渲染错误。","https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fissues\u002F973",{"id":151,"question_zh":152,"answer_zh":153,"source_url":144},12550,"如何获取和使用 Ascend NPU 环境下的 GLM 模型部署镜像及启动命令？","可以使用镜像 `quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-dev-hc-rc2-arm`。具体的部署模型启动命令和详细步骤请参考官方文档：https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-4.5\u002Fblob\u002Fmain\u002Fexample\u002FAscend_NPU\u002FREADME_zh.md。注意：目前 MTP 功能存在已知问题，建议暂时不要启用。",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},12551,"CUDA 推理时开启 `enable_prefix_cache=true` 导致服务 Core Dump 报错 'chunked prefill is not supported'，如何处理？","该错误表明当前配置下不支持 Chunked Prefill 与 Prefix Cache 同时启用。报错信息明确指出 `attn_metadata.is_chunked_prefill` 检查失败。解决方案是避免在启用 `enable_prefix_cache` 时使用不支持的预填充模式，或者等待官方在 PR #1018 合并后的新版本修复此兼容性问题。","https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fissues\u002F950",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},12552,"发布版（release）Docker 镜像中是否还需要编译代码？可执行文件路径在哪里？","Release 版本的镜像环境通常已配置好，无需拉取仓库重新编译。如果在容器中找不到命令，可执行文件通常位于 `\u002Fusr\u002Flocal\u002Fbin\u002Fxllm`。如果启动后无响应，请检查设备挂载参数（如 `--device=\u002Fdev\u002Fdavinci*`）是否正确映射了宿主机的 NPU 设备，以及权限设置是否允许访问。","https:\u002F\u002Fgithub.com\u002Fjd-opensource\u002Fxllm\u002Fissues\u002F689",{"id":165,"question_zh":166,"answer_zh":167,"source_url":158},12553,"修改 `tokenizer_config.json` 以跳过模型的思考过程（think process）是否可行？","用户反馈可以通过修改 `tokenizer_config.json` 来直接输出推荐内容而跳过思考过程。维护者指出，如果在非 Beam Search 模式下输出正常，则该修改可能是有效的。但需注意，随意修改配置文件可能导致输出乱码，建议先验证原始配置，并确保修改符合模型预期的 Token 逻辑。相关问题已在 PR #1018 中解决并合并到主分支。",[169,174,179,184,189,194],{"id":170,"version":171,"summary_zh":172,"released_at":173},62879,"v0.8.0","## 亮点\n\n### 模型支持\n\n#### NPU\n- 支持 DeepSeek-v3.2 模型。\n- 支持 GLM4.7 模型。\n- 支持 GLM4.6V 模型。\n- 支持 GME-Qwen2-VL 模型。\n- 支持 FluxControl 模型。\n#### CUDA\n- 支持 Qwen2\u002F3 密集模型。\n#### MLU\n- 支持 DeepSeek-v3.2 模型。\n- 支持 Qwen2_5_vl\u002FQwen3_vl\u002FQwen3_vl_moe 模型。\n#### ILU\n- 支持 Qwen3-0.6B 模型。\n\n### 功能特性\n- 为 Qwen3 MoE 实现分块预填充和前缀缓存。\n- 支持 GLM-4.6V 模型。\n- 添加 ATB 和 ACLNN 融合算子的封装。\n- 优化从 KV 缓存存储中的预取操作。\n- 在 NPU 设备上支持 Qwen2-VL 和 GME-Qwen2-VL 模型。\n- 修复启用调度重叠时出现的卡顿问题。\n- 增加 GLM-4.7 检测器的实现，并更新工具调用解析器。\n- 针对解聚 PD 适配层次化块管理器。\n- 支持 NPU 上的 deepseek-v3.2-Exp 模型。\n- 支持 Qwen3\u002FQwen3_MoE 的 acl_graph。\n- 支持 DeepSeek-v3\u002Fr1 模型的前缀缓存。\n- 支持 MTP 的解聚 PD。\n- 增加月饼 KV 缓存传输功能。\n- 将 GLM-4.7 支持添加到推理检测器注册表中。\n- 支持 ND 到 NZ 的连续内存拷贝。\n- 支持基于 RPC 的 PD 解聚链接\u002F断开功能。\n- 支持 DeepSeek V3.2 中的 IntraLayerAddNorm、aclgraph 等功能。\n- 为 CUDA 设备添加激活、归一化和 RoPE 算子。\n- 支持 Qwen3 和 DeepSeek 在 CUDA 设备上的融合归一化。\n- 为 MLU 设备构建 DeepSeek V2 解码层及相关模型文件。\n- 支持 MLU 设备上的 Qwen2_5_vl\u002FQwen3_vl\u002FQwen3_vl_moe 模型。\n- 在 MLU 设备上添加 MoE all2all 核心及深度 EP 层。\n- 支持 MLU 设备上的 DeepSeek MTP。\n- 支持 MLU 设备上的图执行器。\n- 支持 MLU 设备上的 DP+EP MoE 及 all2all 计算。\n- 支持 MLU 设备上融合 MoE 中的并行共享专家。\n- 支持 ILUVATAR 设备上的 Qwen3 0.6B 模型。\n- 添加推荐框架的 rec proto、服务及工具类。\n- 支持 LLM 推理的 C API。\n- 为生成式推荐添加约束解码功能。\n- 为推荐框架添加推荐调度主控和引擎。\n- 为推荐框架添加 rec_type 和 onerec 批量输入构建器。\n- 为推荐框架添加 onerec 工作线程实现。\n- 在推荐框架中增加 Qwen3\u002FLlmRec 的支持。\n\n### Bug 修复\n- 修复后端为 VLM 时，流式聊天完成请求导致的核心转储问题。\n- 修复多轮工具调用对话中内容重复的问题。\n- 修复因客户端断开连接而引发的核心转储问题。\n- 修复补全接口中的内存泄漏问题。\n- 修复启用 MTP 时验证输入位置错误的问题。\n- 修复由于 H2D 块复制导致的 ChunkedPrefill 中 kv_cache_num 不匹配问题。\n- 修复分配 KV 缓存传输时缺少索引形状的问题。\n- 修复 NPU 设备上 MiMo-VL 权重加载崩溃问题。\n- 修复启用调度重叠时指标不准确的问题。\n- 修复 D2H 复制过程中释放内存时可能出现的越界及块泄漏问题。\n- 修复 HierarchyBlockManagerPool::allocate 中的分配失败问题。\n- 修复启用前缀缓存时 DeepSeek 准确性下降的问题。\n- 修复因无效输入导致 DeepSeek 执行失败的问题。\n- 修复 DeepSeek 无法正常运行的问题。","2026-02-02T02:40:42",{"id":175,"version":176,"summary_zh":177,"released_at":178},62880,"v0.7.2","# 发布 xllm 0.7.2\n\n## 亮点\n\n### 功能\n\n- 增强 Qwen3-MoE，支持超过 4 的 TP 设置。\n- 为 Qwen3 MoE 实现分块预填充和前缀缓存。\n- 支持 DeepSeek-V3\u002FR1 模型的前缀缓存。\n\n### 修复\n\n- 修复因客户端断开连接而引发的核心转储问题。\n- 修复从 Qwen3-VL 的 config.json 中错误读取模型参数的问题。\n- 将 fast tokenizer 的 bos 和 eos 标记配置功能进行设置。\n- 修复内存泄漏问题。\n- 修复启用调度重叠时出现的卡顿问题。\n\n## 发布镜像\n\n### x86 镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.7.2-release-hb-rc2-x86`\n\n### ARM a2 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.7.2-release-hb-rc2-arm`\n\n### ARM a3 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.7.2-release-hc-rc2-arm`","2025-12-25T08:47:55",{"id":180,"version":181,"summary_zh":182,"released_at":183},62881,"v0.7.1","## 亮点\n\n### 模型支持\n\n- 支持 GLM-4.5-Air。\n- 支持 Qwen3-VL-Moe。\n\n### 功能\n\n- 在启用分块预填充和 MTP 时，支持调度重叠。\n- 运行 VLM 模型时启用多进程模式。\n- 为 GLM-4.5 支持 AclGraph。\n\n### Bug修复\n\n- 修复 qwen embedding 0.6B 的核心转储问题。\n- 解决多轮工具调用对话中内容重复的问题。\n- 为 MTP 支持采样器参数。\n- 使 MTP 和调度重叠功能能够同时工作。\n- 修复因 tool_call 和 think 切换功能中断而导致的 google.protobuf.Struct 解析失败问题。\n- 修复由于未正确设置 model_type 导致的 Qwen2 模型精度问题。\n- 修复启用 MTP 时 GLM 4.5 的核心转储问题。\n- VLM 后端暂时使用堆分配。\n- 修复 VLM 流式聊天补全请求中的核心转储问题。","2025-11-20T14:01:46",{"id":185,"version":186,"summary_zh":187,"released_at":188},62882,"v0.7.0","## 亮点\n\n### 模型支持\n\n- 支持 GLM-4.5。\n- 支持 Qwen3-Embedding。\n- 支持 Qwen3-VL。\n- 支持 FluxFill。\n\n### 功能\n\n- 支持 MLU 后端，目前支持 Qwen3 系列模型。\n- 支持动态分离式 PD 架构，可根据策略在 P 和 D 阶段之间动态切换。\n- 支持多流并行重叠优化。\n- 支持生成类模型的束搜索能力。\n- 支持虚拟内存连续 KV 缓存能力。\n- 支持 ACL 图执行器。\n- 支持在分离式 PD 场景下统一的在线与离线混部调度。\n- 支持 PrefillOnly 调度器。\n- 支持 v1\u002Frerank 模型服务接口。\n- 支持在单机环境下通过共享内存而非 RPC 进行设备间通信。\n- 支持函数调用。\n- 支持聊天界面中的推理输出。\n- 支持 MoE 模型路由组件中的 top-k+add 融合。\n- 支持 LLM、VLM 和 Embedding 模型的离线推理。\n- 优化了部分运行时性能。\n\n### Bug修复\n\n- 处理流式输出时跳过已取消的请求。\n- 解决 Qwen3 量化推理过程中的段错误。\n- 修复 Prometheus 监控指标格式对齐问题。\n- 加载模型权重时清除过期张量以节省内存。\n- 修复注意力掩码，以支持长序列请求。\n- 修复启用调度器重叠功能时引发的 bug。","2025-11-20T13:03:07",{"id":190,"version":191,"summary_zh":192,"released_at":193},62883,"v0.6.1","## 亮点\n\n### Bug修复\n\n- 处理流式输出时跳过已取消的请求。\n- 解决 qwen3 量化推理过程中的段错误。\n- 修复 Prometheus 监控指标格式对齐问题。\n- 加载模型权重时清除过期张量以节省内存。\n\n## 发布镜像\n\n### x86 架构镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.1-release-hb-rc2-x86`\n\n### ARM a2 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.1-release-hb-rc2-arm`\n\n### ARM a3 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.1-release-hc-rc2-arm`\n","2025-10-31T02:41:29",{"id":195,"version":196,"summary_zh":197,"released_at":198},62884,"v0.6.0","## 亮点\n\n### 模型支持\n\n- 支持 DeepSeek-V3\u002FR1。\n- 支持 DeepSeek-R1-Distill-Qwen。\n- 支持 Kimi-k2。\n- 支持 Llama2\u002F3。\n- 支持 Qwen2\u002F2.5\u002FQwQ。\n- 支持 Qwen3\u002FQwen3-MoE。\n- 支持 MiniCPM-V。\n- 支持 MiMo-VL。\n- 支持 Qwen2.5-VL。\n\n### 功能特性\n\n- 支持 KV 缓存存储。\n- 支持专家并行负载均衡。\n- 支持多优先级的离线\u002F在线调度器。\n- 支持延迟感知调度器。\n- 支持服务端提前停止。\n- 优化了 ppmatmul 内核。\n- 支持 VLM 的图片 URL 输入。\n- 支持解耦的预填充和解码流程。\n- 支持大规模 EP 并行。\n- 支持基于哈希的 PrefixCache 匹配。\n- 支持 DeepSeek 的多 Token 预测。\n- 支持异步调度，使调度与计算流水线能够并行执行。\n- 支持 EP、DP、TP 模型并行。\n- 支持多进程和多节点部署。\n\n### 文档\n\n- 新增入门文档。\n- 新增功能文档。\n\n## 发布镜像\n\n### x86 镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.0-release-hb-rc2-py3.11-oe24.03-lts-x86`\n\n### ARM a2 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.0-release-hb-rc2-py3.11-oe24.03-lts-arm`\n\n### ARM a3 设备镜像\n`quay.io\u002Fjd_xllm\u002Fxllm-ai:xllm-0.6.0-release-hc-rc2-py3.11-oe24.03-lts-arm`\n","2025-09-15T14:31:57"]