[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-alibaba--rtp-llm":3,"tool-alibaba--rtp-llm":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":115,"env_os":116,"env_gpu":117,"env_ram":118,"env_deps":119,"category_tags":126,"github_topics":127,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":135,"updated_at":136,"faqs":137,"releases":173},5899,"alibaba\u002Frtp-llm","rtp-llm","RTP-LLM: Alibaba's high-performance LLM inference engine for diverse applications.","rtp-llm 是阿里巴巴基础模型推理团队打造的高性能大语言模型（LLM）推理引擎，旨在为多样化的应用场景提供极速、稳定的模型服务。它已在淘宝、天猫、菜鸟等阿里内部核心业务中大规模落地，有效解决了大模型在实际生产中面临的推理延迟高、显存占用大以及并发处理能力不足等痛点。\n\n这款工具特别适合需要构建高并发 LLM 服务的后端开发者、追求极致性能的算法工程师以及希望将开源模型快速私有化部署的研究人员。rtp-llm 不仅无缝兼容 HuggingFace 生态，支持多种权重格式与多模态输入，更内置了多项前沿加速技术：包括基于 PagedAttention 和 FlashAttention 的高效算子、自动化的 INT8\u002FINT4 量化方案、针对多轮对话的前缀缓存优化，以及先进的投机解码（Speculative Decoding）功能。此外，它还支持单实例部署多个 LoRA 适配器，并具备跨机多卡的张量并行能力，让开发者能够灵活应对从单卡实验到集群生产的全方位需求，轻松实现大模型推理的性能飞跃。","\u003Cdiv align=\"center\" id=\"rtpllmtop\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_46e9815c380b.png\" alt=\"logo\" width=\"400\" margin=\"10px\">\u003C\u002Fimg>\n\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Falibaba\u002Frtp-llm.svg)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Ftree\u002Fmain\u002FLICENSE)\n[![issue resolution](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed-raw\u002Falibaba\u002Frtp-llm)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues)\n[![open issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-raw\u002Falibaba\u002Frtp-llm)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues)\n\u003C\u002Fdiv>\n\n--------------------------------------------------------------------------------\n\n| [**Documentation**](https:\u002F\u002Frtp-llm.ai\u002F)\n| [**Contact Us**](#contact-us) |\n\n## News\n- [2025\u002F09] 🔥 RTP-LLM 0.2.0 release with enhanced performance and new features\n- [2025\u002F01] 🚀 RTP-LLM now supports Prefill\u002FDecode separation with detailed technical report\n- [2025\u002F01] 🌟 Qwen series model and bert embedding model now supported on Yitian ARM CPU\n- [2024\u002F06] 🔄 Major refactor: Scheduling and batching framework rewritten in C++, complete GPU memory management, and new Device backend\n- [2024\u002F06] 🏗️ Multi-hardware support in development: AMD ROCm, Intel CPU and ARM CPU support coming soon\n\n\u003Cdetails>\n\u003Csummary>More\u003C\u002Fsummary>\n\n- [大模型推理新突破：分布式推理技术探索与实践](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FZs61CDerMwI7JKbFyD001Q)\n- [为异构推理做好准备：次世代 RTP-LLM 推理引擎设计分享](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FbsB2QImcOZKHpmHMHd0P9w)\n- [LLM推理加速：decode阶段的Attention在GPU上的优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F715348837)\n- [LLM推理加速：decode阶段的Attention在GPU上的优化（二）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719068931)\n\n\u003C\u002Fdetails>\n\n## About\nRTP-LLM is a Large Language Model (LLM) inference acceleration engine developed by Alibaba's Foundation Model Inference Team. It is widely used within Alibaba Group, supporting LLM service across multiple business units including Taobao, Tmall, Idlefish, Cainiao, Amap, Ele.me, AE, and Lazada.\n\nRTP-LLM is a sub-project of the [havenask](https:\u002F\u002Fgithub.com\u002Falibaba\u002Fhavenask) project.\n\n## Key Features\n\n### 🏢 Production Proven\nTrusted and deployed across numerous LLM scenarios:\n* Taobao Wenwen\n* Alibaba's international AI platform, [Aidge](https:\u002F\u002Faidc-ai.com\u002F)\n* [OpenSearch LLM Smart Q&A Edition](https:\u002F\u002Fwww.aliyun.com\u002Factivity\u002Fbigdata\u002Fopensearch\u002Fllmsearch)\n* [Large Language Model based Long-tail Query Rewriting in Taobao Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03758)\n\n### ⚡ High Performance\n* Utilizes high-performance CUDA kernels, including PagedAttention, FlashAttention, FlashDecoding, etc.\n* Implements WeightOnly INT8 Quantization with automatic quantization at load time\n* Support WeightOnly INT4 Quantization with [GPTQ](https:\u002F\u002Fgithub.com\u002FAutoGPTQ\u002FAutoGPTQ) and [AWQ](https:\u002F\u002Fgithub.com\u002Fcasper-hansen\u002FAutoAWQ)\n* Adaptive KVCache Quantization\n* Detailed optimization of dynamic batching overhead at the framework level\n* Specially optimized for the V100 GPU\n\n### 🔧 Flexibility and Ease of Use\n* Seamless integration with the HuggingFace models, supporting multiple weight formats such as SafeTensors, Pytorch, and Megatron\n* Deploys multiple LoRA services with a single model instance\n* Handles multimodal inputs (combining images and text)\n* Enables multi-machine\u002Fmulti-GPU tensor parallelism\n* Supports P-tuning models\n\n### 🚀 Advanced Acceleration Techniques\n* Loads pruned irregular models\n* Contextual Prefix Cache for multi-turn dialogues\n* System Prompt Cache\n* Speculative Decoding\n\n## Getting Started\n- [Install RTP-LLM](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fstart\u002Finstall.html)\n- [Quick Start](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fsend_request.html)\n- [Backend Tutorial](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Findex.html)\n- [Contribution Guide](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002FContributing.html)\n\n## Benchmark and Performance\nLearn more about RTP-LLM's performance in our benchmark reports:\n- [Performance Benchmark Tool](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbenchmark\u002Fbenchmark.html)\n\n## Acknowledgments\nOur project is mainly based on [FasterTransformer](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FFasterTransformer), and on this basis, we have integrated some kernel implementations from [TensorRT-LLM](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM). We also draw inspiration from [vllm](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm), [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers), [llava](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA), and [qwen-vl](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL). We thank these projects for their inspiration and help.\n\n## Citation\nIf you find RTP-LLM useful in your research or project, please consider citing:\n\n```bibtex\n@Misc{rtp-llm,\n  author       = {Alibaba},\n  title        = {RTP-LLM: A High-Performance LLM Inference Engine},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm}},\n  year         = {2025},\n}\n```\n\n## Contact Us\n\n### DingTalk Group\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_29442847a360.png\" width=\"200px\">\n\n### WeChat Group\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_ebd30fe9d4e7.png\" width=\"200px\">","\u003Cdiv align=\"center\" id=\"rtpllmtop\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_46e9815c380b.png\" alt=\"logo\" width=\"400\" margin=\"10px\">\u003C\u002Fimg>\n\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Falibaba\u002Frtp-llm.svg)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Ftree\u002Fmain\u002FLICENSE)\n[![issue resolution](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed-raw\u002Falibaba\u002Frtp-llm)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues)\n[![open issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-raw\u002Falibaba\u002Frtp-llm)](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues)\n\u003C\u002Fdiv>\n\n--------------------------------------------------------------------------------\n\n| [**文档**](https:\u002F\u002Frtp-llm.ai\u002F)\n| [**联系我们**](#contact-us) |\n\n## 新闻\n- [2025\u002F09] 🔥 RTP-LLM 0.2.0 发布，性能提升并新增多项功能\n- [2025\u002F01] 🚀 RTP-LLM 现已支持 Prefill\u002FDecode 分离，并附详细技术报告\n- [2025\u002F01] 🌟 通义系列模型及 BERT 嵌入模型现已支持倚天 ARM CPU\n- [2024\u002F06] 🔄 重大重构：调度与批处理框架用 C++ 重写，实现完整的 GPU 内存管理，并引入新的 Device 后端\n- [2024\u002F06] 🏗️ 多硬件支持开发中：AMD ROCm、Intel CPU 和 ARM CPU 支持即将推出\n\n\u003Cdetails>\n\u003Csummary>更多\u003C\u002Fsummary>\n\n- [大模型推理新突破：分布式推理技术探索与实践](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FZs61CDerMwI7JKbFyD001Q)\n- [为异构推理做好准备：次世代 RTP-LLM 推理引擎设计分享](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FbsB2QImcOZKHpmHMHd0P9w)\n- [LLM推理加速：decode阶段的Attention在GPU上的优化](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F715348837)\n- [LLM推理加速：decode阶段的Attention在GPU上的优化（二）](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F719068931)\n\n\u003C\u002Fdetails>\n\n## 关于\nRTP-LLM 是由阿里巴巴基础模型推理团队开发的大语言模型（LLM）推理加速引擎。它在阿里巴巴集团内部得到广泛应用，支持包括淘宝、天猫、闲鱼、菜鸟、高德地图、饿了么、速卖通和来赞达等多个业务部门的 LLM 服务。\n\nRTP-LLM 是 [havenask](https:\u002F\u002Fgithub.com\u002Falibaba\u002Fhavenask) 项目的一个子项目。\n\n## 核心特性\n\n### 🏢 经生产验证\n已在众多 LLM 场景中获得信任并部署：\n* 淘宝问问\n* 阿里巴巴国际 AI 平台 [Aidge](https:\u002F\u002Faidc-ai.com\u002F)\n* [OpenSearch LLM 智能问答版](https:\u002F\u002Fwww.aliyun.com\u002Factivity\u002Fbigdata\u002Fopensearch\u002Fllmsearch)\n* [基于大语言模型的淘宝搜索长尾查询改写](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03758)\n\n### ⚡ 高性能\n* 采用高性能 CUDA 核心，包括 PagedAttention、FlashAttention、FlashDecoding 等\n* 实现 WeightOnly INT8 量化，并在加载时自动完成量化\n* 支持 WeightOnly INT4 量化，兼容 [GPTQ](https:\u002F\u002Fgithub.com\u002FAutoGPTQ\u002FAutoGPTQ) 和 [AWQ](https:\u002F\u002Fgithub.com\u002Fcasper-hansen\u002FAutoAWQ)\n* 自适应 KVCache 量化\n* 在框架层面详细优化动态批处理开销\n* 专为 V100 GPU 优化\n\n### 🔧 灵活性与易用性\n* 无缝集成 HuggingFace 模型，支持 SafeTensors、Pytorch 和 Megatron 等多种权重格式\n* 可在一个模型实例上部署多个 LoRA 服务\n* 处理多模态输入（图像与文本结合）\n* 支持多机\u002F多 GPU 张量并行\n* 支持 P-tuning 模型\n\n### 🚀 先进的加速技术\n* 加载剪枝后的不规则模型\n* 针对多轮对话的上下文前缀缓存\n* 系统提示缓存\n* 推测解码\n\n## 开始使用\n- [安装 RTP-LLM](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fstart\u002Finstall.html)\n- [快速入门](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fsend_request.html)\n- [后端教程](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Findex.html)\n- [贡献指南](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002FContributing.html)\n\n## 基准测试与性能\n了解更多关于 RTP-LLM 性能的信息，请参阅我们的基准测试报告：\n- [性能基准测试工具](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbenchmark\u002Fbenchmark.html)\n\n## 致谢\n我们的项目主要基于 [FasterTransformer](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FFasterTransformer)，并在其基础上集成了来自 [TensorRT-LLM](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM) 的部分核心实现。此外，我们还从 [vllm](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)、[transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[llava](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) 和 [qwen-vl](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL) 中汲取灵感。感谢这些项目给予的启发与帮助。\n\n## 引用\n如果您在研究或项目中发现 RTP-LLM 很有帮助，请考虑引用以下内容：\n\n```bibtex\n@Misc{rtp-llm,\n  author       = {Alibaba},\n  title        = {RTP-LLM: 一款高性能的 LLM 推理引擎},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm}},\n  year         = {2025},\n}\n```\n\n## 联系我们\n\n### 钉钉群\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_29442847a360.png\" width=\"200px\">\n\n### 微信群\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_readme_ebd30fe9d4e7.png\" width=\"200px\">","# RTP-LLM 快速上手指南\n\nRTP-LLM 是阿里巴巴基础模型推理团队研发的高性能大语言模型（LLM）推理加速引擎，已在淘宝、天猫、闲鱼等多个业务场景大规模落地。它支持多种量化技术、动态批处理及多卡\u002F多机并行，旨在提供生产级的高吞吐与低延迟推理服务。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04 或更高版本)\n*   **硬件要求**:\n    *   NVIDIA GPU (特别针对 V100 及以上型号优化)\n    *   显存建议：根据模型大小而定，支持 INT4\u002FINT8 量化以降低显存需求\n    *   *注：最新开发版已开始支持 AMD ROCm、Intel CPU 及 ARM CPU (如倚天)*\n*   **软件依赖**:\n    *   CUDA Toolkit (版本需与显卡驱动匹配，建议 11.8 或 12.x)\n    *   CMake (3.20+)\n    *   GCC\u002FG++ (7.5+)\n    *   Python (3.8 - 3.10)\n    *   Git\n\n## 安装步骤\n\nRTP-LLM 需要从源码编译以发挥最佳性能。以下是基于官方文档的标准安装流程：\n\n1.  **克隆项目代码**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm.git\n    cd rtp-llm\n    git submodule update --init --recursive\n    ```\n\n2.  **构建项目**\n    创建构建目录并执行 CMake 配置。默认情况下会构建 GPU 后端。\n    ```bash\n    mkdir build && cd build\n    cmake .. -DUSE_CUDA=ON -DCMAKE_BUILD_TYPE=Release\n    make -j$(nproc)\n    ```\n    *提示：若国内网络下载子模块缓慢，可尝试配置 Git 代理或使用国内镜像源克隆。*\n\n3.  **安装 Python 依赖**\n    进入项目根目录安装必要的 Python 包：\n    ```bash\n    pip install -r requirements.txt\n    # 可选：使用国内镜像加速安装\n    # pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n4.  **设置环境变量**\n    将编译生成的库路径添加到环境变量中：\n    ```bash\n    export LD_LIBRARY_PATH=$PWD\u002Fbuild\u002Flib:$LD_LIBRARY_PATH\n    export PYTHONPATH=$PWD\u002Fpython:$PYTHONPATH\n    ```\n\n## 基本使用\n\n安装完成后，您可以通过 Python 接口快速加载模型并进行推理。以下是一个最简单的单轮对话示例：\n\n```python\nfrom rtp_llm import Pipeline\n\n# 初始化推理管道\n# model_path: 替换为您的模型权重路径 (支持 HuggingFace 格式，如 SafeTensors, Pytorch)\n# device: 指定设备，如 \"cuda:0\"\npipeline = Pipeline(model_path=\"\u002Fpath\u002Fto\u002Fyour\u002Fmodel\", device=\"cuda:0\")\n\n# 构造输入提示\nprompt = \"你好，请介绍一下 RTP-LLM。\"\n\n# 执行推理\n# max_new_tokens: 生成最大长度\n# temperature: 采样温度\nresponse = pipeline.generate(\n    prompt=prompt,\n    max_new_tokens=512,\n    temperature=0.7\n)\n\nprint(response)\n```\n\n**进阶特性提示：**\n*   **多轮对话**：利用 `Contextual Prefix Cache` 可显著提升多轮对话效率。\n*   **量化加速**：加载时自动支持 WeightOnly INT8 量化，也可通过 GPTQ\u002FAWQ 格式加载 INT4 模型。\n*   **并发服务**：框架内置动态批处理（Dynamic Batching），可直接用于高并发服务部署。\n\n更多详细参数配置、后端教程及性能基准测试，请访问 [RTP-LLM 官方文档](https:\u002F\u002Frtp-llm.ai\u002F)。","某大型电商平台的智能客服团队正在部署基于 Qwen 大模型的实时问答系统，需应对大促期间每秒数千次的并发咨询请求。\n\n### 没有 rtp-llm 时\n- 推理延迟居高不下，用户平均等待响应时间超过 800 毫秒，导致对话体验卡顿，客户流失率上升。\n- 显存占用过大，单张显卡仅能运行一个模型实例，无法通过多租户方式支持不同业务线的定制化 LoRA 微调模型。\n- 长上下文多轮对话中，重复计算历史 Token 造成算力浪费，GPU 利用率在高峰期仍不足 40%。\n- 动态批处理效率低下，面对长短不一的用户提问，系统难以有效合并请求，吞吐量遭遇瓶颈。\n\n### 使用 rtp-llm 后\n- 借助 FlashDecoding 和针对 V100\u002FGPU 的深度优化内核，首字生成延迟降低至 200 毫秒以内，对话流畅度显著提升。\n- 利用单实例多 LoRA 服务特性，在同一模型权重上同时加载数十个业务专属适配器，显存成本降低 70%。\n- 启用 Contextual Prefix Cache 和 System Prompt Cache 技术，自动缓存多轮对话前缀，消除冗余计算，大幅提升长对话处理效率。\n- 框架级动态批处理机制智能合并异构请求，结合 PagedAttention 管理显存，使整体吞吐量提升 3 倍以上。\n\nrtp-llm 通过生产级验证的高性能推理架构，将电商客服系统的响应速度与资源效率推向了新高度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_rtp-llm_46e9815c.png","alibaba","Alibaba","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Falibaba_f65f7221.png","Alibaba Open Source",null,"https:\u002F\u002Fopensource.alibaba.com\u002F","https:\u002F\u002Fgithub.com\u002Falibaba",[80,84,88,92,95,99,103,107],{"name":81,"color":82,"percentage":83},"Cuda","#3A4E3A",53.9,{"name":85,"color":86,"percentage":87},"Python","#3572A5",23,{"name":89,"color":90,"percentage":91},"C++","#f34b7d",18.1,{"name":93,"color":94,"percentage":32},"Java","#b07219",{"name":96,"color":97,"percentage":98},"Starlark","#76d275",1.6,{"name":100,"color":101,"percentage":102},"C","#555555",1.1,{"name":104,"color":105,"percentage":106},"Shell","#89e051",0.3,{"name":108,"color":109,"percentage":110},"Dockerfile","#384d54",0.1,1080,166,"2026-04-09T05:19:43","Apache-2.0",4,"Linux","必需 NVIDIA GPU（特别优化 V100），支持 PagedAttention\u002FFlashAttention 等 CUDA 内核；正在开发 AMD ROCm、Intel CPU 和 ARM CPU（倚天）支持","未说明",{"notes":120,"python":118,"dependencies":121},"该项目核心调度框架已用 C++ 重写，具备完整的 GPU 内存管理功能。支持 WeightOnly INT8\u002FINT4 量化、自适应 KVCache 量化及多机多卡张量并行。虽然主要基于 NVIDIA GPU，但新闻显示 Qwen 系列模型已支持在倚天 ARM CPU 上运行，且 AMD ROCm 和 Intel CPU 支持即将推出。建议参考官方文档获取具体的安装步骤和版本依赖。",[122,123,124,125],"CUDA kernels (PagedAttention, FlashAttention, FlashDecoding)","HuggingFace Transformers","SafeTensors\u002FPytorch\u002FMegatron weight formats","GPTQ\u002FAWQ (for INT4 quantization)",[13,14,35],[128,129,130,131,132,133,134],"gpt","inference","llama","llm","llm-serving","llmops","model-serving","2026-03-27T02:49:30.150509","2026-04-09T21:34:17.628482",[138,143,148,153,158,163,168],{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},26780,"在 V100 GPU 上 batchsize=1 时性能较差，吞吐低于 vLLM，如何解决？","该问题已在版本 0.1.13 中修复。用户在 V100 上遇到 batchsize=1 时 token 生成吞吐仅为 vLLM 的 70%~89%，维护者确认这是已知严重性能问题，并在新版本中进行了优化。请升级至 0.1.13 或更高版本以获得正常性能。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F40",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},26781,"使用 Bazel 构建时出现 'rules_python_external failed: (Timed out)' 错误怎么办？","这是因为自动拉取 PyTorch 依赖超时导致的。解决方案是手动安装 PyTorch，然后注释掉项目中的 requirements 相关文件。具体步骤：1. 参考 open_source\u002Fdeps\u002Frequirements_torch_gpu.txt 手动安装对应版本的 PyTorch；2. 在 BUILD 或 deps 配置文件中注释掉自动安装 PyTorch 的部分（如 pip_gpu_cuda12_torch）。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F42",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},26782,"编译 v0.2.0 版本时报错 'cannot convert \u003Cbrace-enclosed initializer list> to const AllGatherParams&' 如何解决？","该编译错误与 C++ 标准库头文件缺失有关。解决方法是在报错对应的源文件中添加 #include \u003Cmutex> 头文件。此外，建议使用官方 CUDA 12 镜像并将 Bazel 版本调整为 5.2.0 以确保环境兼容性。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F70",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},26783,"多卡推理时 TP>=4 报错 'NCCL WARN Cuda failure out of memory'，但 TP=2 正常，原因是什么？","原因是当 Tensor Parallelism (TP) 数量增加时，集合通信所需的显存也随之增加，而默认预留的运行时显存（1000MB）不足。解决方法是设置环境变量 RESERVER_RUNTIME_MEM_MB 为更大的值（例如 10000），命令示例：export RESERVER_RUNTIME_MEM_MB=10000。这会增加预留的空闲显存以供 NCCL 通信使用。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F51",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},26784,"输入长文本 Prompt（如 4000+ tokens）时输出结果为空 {}，是否支持长上下文？","该问题通常与模型对长序列的支持配置有关。虽然部分模型（如 Qwen）在 config.json 中需要配置 rope_scaling 才能支持长文本，但在 RTP-LLM 中需确保使用了正确的模型权重加载方式及启用了相应的长度扩展机制。如果使用的是 Qwen 等模型，请检查是否需要在模型配置中动态调整 RoPE scaling 因子，或确认当前版本是否已内置 logn-scaling 支持。建议尝试更新到最新版本或参考官方文档关于长文本推理的配置说明。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F15",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},26785,"如何在多模态模型（如 Vary）中自定义 ViT 权重加载逻辑以支持数组形式的权重？","可以通过修改 BaseVitWeights 类中的 _get_vit_params 方法来实现。具体做法是根据 key 加入不同的前缀，并将 _ckpt_prefix 设置为空字符串，从而适配数组形式的 ViT 权重结构。这允许用户在不破坏原有架构的前提下扩展对多模态模型的支持。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F67",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},26786,"运行 Qwen-7B-Chat 时出现 Segmentation fault (core dumped) 错误，可能是什么原因？","该崩溃可能与 Python 版本不兼容或环境配置有关。RTP-LLM 目前主要提供 Python 3.10 的预编译包，若服务器默认 Python 为 3.9，需使用 conda 创建独立的 Python 3.10 环境。此外，建议使用官方提供的 Docker 环境进行测试，以排除系统库冲突问题。若问题依旧，可提供 gdb 堆栈信息以便进一步定位。","https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm\u002Fissues\u002F17",[174,179,184,189,194,199,204,209,214,219,224,229,234,239,244],{"id":175,"version":176,"summary_zh":177,"released_at":178},172008,"v0.2.0","## 概述\r\nRTP-LLM 首次发布版本：0.2.0（2025年9月）\r\n## 功能特性\r\n### 框架高级特性\r\n* [PD 分离](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fpd_disaggregation.html) && [PD 入口转置](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fpd_entrance_transpose.html)\r\n* [注意力支持更多后端](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fattention_backend.html)：XQA、FlashInfer\r\n* [推测解码](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fspeculative_decoding.html)\r\n* [EPLB](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Freporter.html#eplb)\r\n* [微批处理与重叠](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Freporter.html#microbatch-overlapping)\r\n* [MTP](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Freporter.html#mtp)\r\n* [DeepEP](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Freporter.html#deepep-network)\r\n* [负载均衡](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fflexlb.html)\r\n* [3FS](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002F3fs.html)\r\n* [FP8 KV缓存](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002FKvCache.html)\r\n* [重用KV缓存](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Freuse_kv_cache.html)\r\n* [量化](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Fquantization.html)\r\n* [多LoRA](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Flora.html)\r\n* [注意力与FFN分离](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002Faf_disaggregation.html)\r\n* [前端\u002F后端分离](https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Fbackend\u002FFrontend.html)\r\n\r\n\r\n### 新模型\r\n| **模型家族（变体）** | **HuggingFace 示例标识符**  | **描述** | **支持的显卡类型** |\r\n|-----------------------------|-------------------------------------|-----------------|------------------|\r\n| **DeepSeek** (v1, v2, v3\u002FR1)| `deepseek-ai\u002FDeepSeek-R1`  | 一系列经过强化学习训练的先进推理优化模型（包括一个6710亿参数的MoE）；\u003Cbr>在复杂推理、数学和代码任务上表现顶尖。\u003Cbr>【RTP-LLM 提供 Deepseek v3\u002FR1 模型专用优化】(https:\u002F\u002Frtp-llm.ai\u002Fbuild\u002Fen\u002Freferences\u002Fdeepseek\u002Freporter.html)| NV ✅\u003Cbr> AMD ✅|\r\n| **Kimi** (Kimi-K2) | `moonshotai\u002FKimi-K2-Instruct`  | Moonshot 的万亿参数 MoE LLM，擅长代理智能任务| NV ✅\u003Cbr> AMD ✅|\r\n| **Qwen** (v1, v1.5, v2, v2.5, v3, QWQ, Qwen3-Coder)| `Qwen\u002FQwen3-235B-A22B`  | 一系列先进的推理优化模型，\u003Cbr>在逻辑推理、数学、科学、编码以及通常需要人类专业知识的学术基准测试中性能显著提升——在开源思维类模型中达到最先进水平。\u003Cbr>通用能力也有明显增强，例如指令遵循、工具使用、文本生成以及与人类偏好的对齐。\u003Cbr>长上下文理解能力提升至256K。| NV ✅\u003Cbr> AMD ✅|\r\n| **QwenVL** (VL2, VL2.5, VL3)| `Qwen\u002FQwen2-VL-2B`  | 基于 Qwen2.5\u002FQwen3 的先进视觉-语言模型系列| NV ✅\u003Cbr> AMD ❌|\r\n| **Llama**         | `meta-llama\u002FLlama-4-Scout-17B-16E","2025-10-31T07:54:08",{"id":180,"version":181,"summary_zh":182,"released_at":183},172009,"v0.1.13","### 功能\n\n- 支持 gte-Qwen1.5-7B-instruct\n- 支持 Qwen1.5-MoE\n\n### 修复\n\n- 修复 V100 性能问题\n- 修复 MULTI_TASK_PROMPT 和 MULTI_TASK_PROMPT_STR 环境变量\n- 修复 starcode-7b 加载失败的问题\n- 修复 llava 渲染器的分隔符问题\n- 修复 split_k_factor 问题","2024-04-30T06:38:04",{"id":185,"version":186,"summary_zh":187,"released_at":188},172010,"v0.1.12","特性：\n- 支持新模型 llama3、code-qwen2、cohere\n错误修复：\n- bloom 权重加载错误\n- temperature 不生效","2024-04-21T11:08:10",{"id":190,"version":191,"summary_zh":192,"released_at":193},172011,"v0.1.11","## 修复\r\n - int4 张量并行问题\n","2024-04-12T09:50:39",{"id":195,"version":196,"summary_zh":197,"released_at":198},172012,"v0.1.10","## 功能新增\n* 支持 SP 的 TP 分布式训练\n* 在 Hugging Face 的 `config.json` 中支持 `tie_word_embeddings` 选项\n* 将 Transformers 版本更新至 4.39.3\n\n## 代码重构\n* 添加权重加载日志：LoRA 应用成功\u002F缺失权重\n\n## 问题修复\n* LoRA 现在支持其中一个 Q\u002FK\u002FV 权重缺失的情况\n\n## 文档更新\n* 添加量化相关文档","2024-04-07T15:05:11",{"id":200,"version":201,"summary_zh":202,"released_at":203},172013,"v0.1.9","## 功能\n* 支持 AWQ\n* 使用 FMHA 时移动注意力掩码\n* 支持稀疏和罗伯特嵌入，支持计算相似度\n\n## 重构\n* 使用 asyncio.Future 避免资源独占\n* 将 asyncio.Lock 移至 asyncmodel 模块\n\n## 修复\n* 临时修复 filelock 版本问题\n* MoE 模型尺寸问题\n* 为图片下载添加请求头\n* 更新 whl 版本\n* Cutlass 接口\n\n## 文档\n* 更新流水线使用说明","2024-04-01T03:42:51",{"id":205,"version":206,"summary_zh":207,"released_at":208},172014,"v0.1.8","## 功能\n* 支持 Qwen2 GPTQ\n* 更新多任务提示词生成\n* 推测解码支持张量并行\n* 支持 RoBERTa\n\n## 重构\n* 重构多模态模型处理流程\n\n## 修复\n* 修复 KV 缓存 Int8 Bug：在重用块场景下添加反量化方法\n* 修复流式输出停止词问题\n* 修复 LoRA","2024-03-25T13:32:59",{"id":210,"version":211,"summary_zh":212,"released_at":213},172015,"v0.1.7","## 功能特性\n* 在通义GPTQ中支持INT4（实验性）\n* 支持V100 FMHA\n* 支持BERT\n* 使用TensorRT优化ViT引擎\n\n## 重构\n* 重构调度策略，在新流中分配KV缓存\n* 重构MoE\n\n## 文档\n* 更新支持的模型","2024-03-19T02:53:08",{"id":215,"version":216,"summary_zh":217,"released_at":218},172016,"v0.1.6","## 特性\n* 支持 StarCoder2\n* 支持 Gemma\n\n## 修复\n* 修复 LoRA 合并问题\n* 修复 `num_return_sequences` 为 1 时的问题\n* 修复查询取消后未释放资源的问题\n* 修复 TP 块数量不同步的问题\n* 修复部分模型旋转位置编码维度为 64 的问题","2024-03-09T07:06:30",{"id":220,"version":221,"summary_zh":222,"released_at":223},172017,"v0.1.5","# 功能\n- 重构大量服务器代码\n# 修复\n- 修复推理服务器并发限制无法降低的问题\n- 在客户端断开连接时正确取消请求\n- 修复使用独立路径的PTuning问题","2024-03-01T09:25:51",{"id":225,"version":226,"summary_zh":227,"released_at":228},172018,"v0.1.4","## features\r\n - support qwen 2\r\n - support qwen 1b8 vl\r\n - add throughput test\r\n## fixes\r\n - chatglm3 not output correctly\r\n - potential error when pydantic>=2.6.0\r\n - concurrency controller not working correctly","2024-02-26T06:15:47",{"id":230,"version":231,"summary_zh":232,"released_at":233},172019,"v0.1.3","## docs\r\n* add benchmark document\r\n* refine docs\r\n\r\n## refactor\r\n* refactor executor and query etc.\r\n* refactor common lora merge func\r\n* refactor query manager to scheduler\r\n* refactor multimodal weight load\r\n\r\n## bugfix\r\n* fix open ai renderer and function call\r\n\r\n## feature\r\n* support sm70, sm75 group gemm.\r\n* support llama multi_query_attention lora.\r\n* support mixtral static lora \r\n* support generate fallback","2024-02-04T07:22:11",{"id":235,"version":236,"summary_zh":237,"released_at":238},172020,"v0.1.2","- docs - update docs\r\n- fix - fix mmha bug \r\n- fix - fix cpu performance\r\n- fix - fix llama tokenizer\r\n- fix - fix openai stream response exception\r\n- fix - fix llava special tokens\r\n- fix - fix bf 16 int8 kv cache\r\n- fix - fix open ai user passed stop words\r\n- feat - merge cpp branch\r\n- feat - support mixtral, internlm2, baichuan2\r\n- feat - add benchmark serving\r\n- feat - add fast chat renderer\r\n- feat - open api implement debug info\r\n- feat - fine-grained fmha control env\r\n- feat - default enable ASYNC_MODE\r\n- feat - support GUARANTE_GENERATE","2024-01-25T01:37:54",{"id":240,"version":241,"summary_zh":242,"released_at":243},172021,"v0.1.1","* refine docs, fix some bugs in docs\r\n* enable lm_head\u002F emb tensor parallel by default\r\n* fix: beam search under async tp\r\n* fix: openai image_url format\r\n* fix: openai chatglm3 template\r\n* fix some bugs in data type = bf16\r\n","2024-01-17T12:35:08",{"id":245,"version":246,"summary_zh":247,"released_at":248},172022,"v0.1.0","The first official release of rtp-llm!\r\n\r\nSee our [README](https:\u002F\u002Fgithub.com\u002Falibaba\u002Frtp-llm) for details.","2024-01-09T03:52:00"]