lmdeploy

GitHub
7.8k 685 中等 1 次阅读 今天Apache-2.0开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

LMDeploy 是一套专为大语言模型(LLM)打造的高效工具箱,核心功能涵盖模型压缩、部署与服务化。它主要解决了大模型在实际应用中面临的显存占用高、推理速度慢以及部署流程复杂等痛点,让庞大的模型能在有限的硬件资源上流畅运行。

无论是希望快速搭建本地对话服务的开发者,还是致力于模型性能优化的研究人员,亦或是需要集成多模态能力的工程师,都能从 LMDeploy 中获益。其独特技术亮点在于自研的 TurboMind 推理引擎,支持 4-bit 权重量化、FP8 混合专家模型(MoE)优化以及 CUDA 图加速,显著提升了推理吞吐量。此外,它不仅全面适配 NVIDIA GPU,还率先支持华为昇腾(Ascend)平台,并能无缝集成 DeepSeek、Qwen、Llama 等主流前沿模型及多模态视觉语言模型。通过简洁的接口,LMDeploy 帮助用户轻松实现从模型量化到高性能服务发布的全流程,是构建高效 AI 应用的得力助手。

使用场景

某初创团队希望在单张消费级显卡上部署 70B 参数的 Llama3.1 模型,以构建低成本的智能客服系统。

没有 lmdeploy 时

  • 显存爆满无法启动:70B 模型全精度加载需要超过 140GB 显存,远超单卡上限,导致服务根本无法运行。
  • 推理延迟过高:即使强行使用多卡并行或 CPU 卸载,首字生成延迟也高达数秒,用户等待体验极差。
  • 吞吐量瓶颈明显:在高并发场景下,请求排队严重,每秒处理令牌数(TPS)极低,无法满足实时对话需求。
  • 部署流程繁琐:需要手动配置复杂的量化脚本和推理后端,调试环境依赖耗费大量开发时间。

使用 lmdeploy 后

  • 单卡轻松运行大模型:利用 lmdeploy 的 4bit 权重量化技术,将 70B 模型压缩至约 40GB 以内,成功在单张高端消费级显卡上启动。
  • 延迟降低至毫秒级:借助 TurboMind 推理引擎和 CUDA Graph 优化,首字延迟从数秒缩短至几百毫秒,对话流畅自然。
  • 并发性能显著提升:通过高效的显存管理和批处理策略,高并发下的吞吐量提升数倍,稳定支撑多人同时在线。
  • 一行命令完成部署:提供标准化的命令行工具和 API 服务接口,无需编写底层代码即可快速搭建生产级服务。

lmdeploy 通过极致的量化压缩与推理加速,让大模型在有限硬件资源下实现了低成本、高性能的落地应用。

运行环境要求

操作系统
  • Linux
  • Windows
GPU
  • NVIDIA GPU 必需 (TurboMind 引擎)
  • 支持从 V100 到 RTX 50 系列
  • 显存需求取决于模型大小 (例如 4-bit 量化可降低需求)
  • CUDA 12+ (v0.3.0+ 默认,不再支持 CUDA 11)
  • 另支持华为 Ascend (PyTorch 引擎)
内存

未说明 (取决于模型大小及是否使用量化)

依赖
notes1. 推荐使用 conda 创建环境安装。2. v0.10.2 起不再支持 CUDA 11 系列,默认编译基于 CUDA 12。3. 若使用 GeForce RTX 50 系列显卡,需安装特定的预构建包。4. 提供 TurboMind (C++/CUDA, 高性能) 和 PyTorch (纯 Python, 易开发) 两种推理引擎。5. 支持 4-bit 权重量化及 KV Cache 量化以节省显存并提升速度。6. PyPI 存储配额已满 (>=0.12.2 版本),新版本的预构建 wheel 暂时无法上传,需从 GitHub Releases 下载或源码安装。
python3.10 - 3.13
lmdeploy
torch
transformers
lmdeploy hero image

快速开始


最新消息 🎉

2026
  • [2026/04] LMDeploy 在 PyPI 上的项目已达到存储配额,因此暂时无法上传新版本的预构建 wheel。您可以从 GitHub Releases 页面下载软件包,或直接从源码安装。待 PyPI 的 wheel 上传恢复后,我们将更新此通知。受影响的版本:>=0.12.2
  • [2026/02] 支持 Qwen3.5
  • [2026/02] 支持 vllm-project/llm-compressor 的 4bit 对称/非对称量化。详细指南请参阅 这里
2025
  • [2025/09] TurboMind 自 V100 起支持 NVIDIA GPU 上的 MXFP4,对于 OpenAI GPT-OSS 模型,性能是 vLLM 在 H800 上的 1.5 倍!
  • [2025/06] 针对 FP8 MoE 模型进行全面推理优化
  • [2025/06] 现可通过与 DLSlimeMooncake 集成,支持 DeepSeek PD 分离式部署。非常感谢这两个团队!
  • [2025/04] 通过集成 deepseek-ai 技术(FlashMLA、DeepGemm、DeepEP、MicroBatch 和 eplb),提升 DeepSeek 推理性能
  • [2025/01] 支持 DeepSeek V3 和 R1
2024
  • [2024/11] 使用 PyTorch 引擎支持 Mono-InternVL
  • [2024/10] PyTorchEngine 在 ascend 平台上支持图模式,使推理速度翻倍
  • [2024/09] LMDeploy PyTorchEngine 新增对 华为 Ascend 的支持。支持的模型请见 这里
  • [2024/09] LMDeploy PyTorchEngine 通过引入 CUDA 图,在 Llama3-8B 推理上实现了 1.3 倍的加速
  • [2024/08] LMDeploy 已集成到 modelscope/swift,作为 VLM 推理的默认加速器
  • [2024/07] 支持 Llama3.1 8B、70B 及其工具调用功能
  • [2024/07] 支持 InternVL2 全系列模型、InternLM-XComposer2.5 以及 InternLM2.5 的 函数调用功能
  • [2024/06] PyTorch 引擎支持 DeepSeek-V2 和多种 VLM,如 CogVLM2、Mini-InternVL、LlaVA-Next
  • [2024/05] 在使用多 GPU 部署 VLM 时平衡视觉模型
  • [2024/05] 支持 VLM 的 4-bit 权重量化及推理,例如 InternVL v1.5、LLaVa、InternLMXComposer2
  • [2024/04] 支持 Llama3 及更多 VLM,如 InternVL v1.1、v1.2、MiniGemini、InternLMXComposer2。
  • [2024/04] TurboMind 新增所有支持设备的在线 int8/int4 KV 缓存量化与推理。详细指南请参阅 这里
  • [2024/04] TurboMind 最新升级提升了 GQA 性能,使 internlm2-20b 模型的推理速度达到 16+ RPS,比 vLLM 快约 1.8 倍。
  • [2024/04] 支持 Qwen1.5-MOE 和 dbrx。
  • [2024/03] 支持 DeepSeek-VL 的离线推理流程及服务部署。
  • [2024/03] 支持 VLM 的离线推理流程及服务部署。
  • [2024/02] 支持 Qwen 1.5、Gemma、Mistral、Mixtral、Deepseek-MOE 等模型。
  • [2024/01] OpenAOELMDeploy Serving Service 实现无缝集成。
  • [2024/01] 支持多模型、多机器、多卡的推理服务。使用说明请参阅 这里
  • [2024/01] 支持完全用 Python 开发的 PyTorch 推理引擎,有助于降低开发者门槛,并实现对新功能和技术的快速实验。
2023
  • [2023/12] Turbomind 支持多模态输入。
  • [2023/11] Turbomind 支持直接加载 hf 模型。详情请点击 这里
  • [2023/11] TurboMind 进行了重大升级,包括:分页注意力、无序列长度限制的更快注意力内核、KV8 内核速度提升 2 倍、Split-K 解码(闪速解码)以及针对 sm_75 的 W4A16 推理。
  • [2023/09] TurboMind 支持 Qwen-14B
  • [2023/09] TurboMind 支持 InternLM-20B
  • [2023/09] TurboMind 支持 Code Llama 的所有功能:代码补全、代码填充、聊天/指令模式以及 Python 专业模式。部署指南请参阅 这里
  • [2023/09] TurboMind 支持 Baichuan2-7B
  • [2023/08] TurboMind 支持 flash-attention2。
  • [2023/08] TurboMind 支持 Qwen-7B、动态 NTK-RoPE 缩放和动态 logN 缩放
  • [2023/08] TurboMind 支持 Windows (tp=1)
  • [2023/08] TurboMind 支持 4-bit 推理,速度比 FP16 快 2.4 倍,是目前最快的开源实现。详细信息请参阅 这篇 指南
  • [2023/08] LMDeploy 已在 HuggingFace Hub 上线,提供开箱即用的 4-bit 模型。
  • [2023/08] LMDeploy 支持使用 AWQ 算法进行 4-bit 量化。
  • [2023/07] TurboMind 支持带有 GQA 的 Llama-2 70B。
  • [2023/07] TurboMind 支持 Llama-2 7B/13B。
  • [2023/07] TurboMind 支持 InternLM 的张量并行推理。

简介

LMDeploy 是一个用于压缩、部署和推理服务大语言模型的工具包,由 MMRazorMMDeploy 团队共同开发。它具备以下核心特性:

  • 高效推理:通过引入持久化批处理(即连续批处理)、分块 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 核函数等关键技术,LMDeploy 的请求吞吐率最高可达 vLLM 的 1.8 倍。

  • 高效量化:LMDeploy 支持权重量化和键值对(k/v)量化,其中 4 位精度的推理性能是 FP16 的 2.4 倍。量化质量已通过 OpenCompass 评测得到验证。

  • 便捷的分布式部署:借助请求分发服务,LMDeploy 能够轻松高效地在多台机器、多张 GPU 上部署多模型服务。

  • 出色的兼容性:LMDeploy 支持同时使用 KV 缓存量化AWQ自动前缀缓存

性能

v0 1 0-benchmark

支持的模型

大语言模型 多模态模型
  • Llama (7B - 65B)
  • Llama2 (7B - 70B)
  • Llama3 (8B, 70B)
  • Llama3.1 (8B, 70B)
  • Llama3.2 (1B, 3B)
  • InternLM (7B - 20B)
  • InternLM2 (7B - 20B)
  • InternLM3 (8B)
  • InternLM2.5 (7B)
  • Qwen (1.8B - 72B)
  • Qwen1.5 (0.5B - 110B)
  • Qwen1.5 - MoE (0.5B - 72B)
  • Qwen2 (0.5B - 72B)
  • Qwen2-MoE (57BA14B)
  • Qwen2.5 (0.5B - 32B)
  • Qwen3, Qwen3-MoE
  • Qwen3-Next(80B)
  • Baichuan (7B)
  • Baichuan2 (7B-13B)
  • Code Llama (7B - 34B)
  • ChatGLM2 (6B)
  • GLM-4 (9B)
  • GLM-4-0414 (9B, 32B)
  • CodeGeeX4 (9B)
  • YI (6B-34B)
  • Mistral (7B)
  • DeepSeek-MoE (16B)
  • DeepSeek-V2 (16B, 236B)
  • DeepSeek-V2.5 (236B)
  • DeepSeek-V3 (685B)
  • DeepSeek-V3.2 (685B)
  • Mixtral (8x7B, 8x22B)
  • Gemma (2B - 7B)
  • StarCoder2 (3B - 15B)
  • Phi-3-mini (3.8B)
  • Phi-3.5-mini (3.8B)
  • Phi-3.5-MoE (16x3.8B)
  • Phi-4-mini (3.8B)
  • MiniCPM3 (4B)
  • SDAR (1.7B-30B)
  • gpt-oss (20B, 120B)
  • GLM-4.7-Flash (30B)
  • GLM-5 (754B)
  • LLaVA(1.5,1.6) (7B-34B)
  • InternLM-XComposer2 (7B, 4khd-7B)
  • InternLM-XComposer2.5 (7B)
  • Qwen-VL (7B)
  • Qwen2-VL (2B, 7B, 72B)
  • Qwen2.5-VL (3B, 7B, 72B)
  • Qwen3-VL (2B - 235B)
  • Qwen3.5 (0.8B - 397B)
  • DeepSeek-VL (7B)
  • DeepSeek-VL2 (3B, 16B, 27B)
  • InternVL-Chat (v1.1-v1.5)
  • InternVL2 (1B-76B)
  • InternVL2.5(MPO) (1B-78B)
  • InternVL3 (1B-78B)
  • InternVL3.5 (1B-241BA28B)
  • Intern-S1 (241B)
  • Intern-S1-mini (8.3B)
  • Intern-S1-Pro (1TB)
  • Mono-InternVL (2B)
  • ChemVLM (8B-26B)
  • CogVLM-Chat (17B)
  • CogVLM2-Chat (19B)
  • MiniCPM-Llama3-V-2_5
  • MiniCPM-V-2_6
  • Phi-3-vision (4.2B)
  • Phi-3.5-vision (4.2B)
  • GLM-4V (9B)
  • GLM-4.1V-Thinking (9B)
  • Llama3.2-vision (11B, 90B)
  • Molmo (7B-D,72B)
  • Gemma3 (1B - 27B)
  • Llama4 (Scout, Maverick)

LMDeploy 开发了两种推理引擎——TurboMindPyTorch,它们各有侧重。前者致力于实现极致的推理性能优化,而后者则完全基于 Python 实现,旨在降低开发者的使用门槛。

两者在支持的模型类型和推理数据类型上有所不同。请参考 这张表格,了解每种引擎的具体能力,并根据实际需求选择合适的引擎。

快速入门 Open In Colab

安装

建议在 Conda 环境中使用 pip 安装 lmdeploy(Python 3.10 - 3.13):

conda create -n lmdeploy python=3.12 -y
conda activate lmdeploy
pip install lmdeploy

自 v0.3.0 起,默认预编译包是在 CUDA 12 上编译的。从 v0.10.2 开始,LMDeploy 不再支持 CUDA 11 系列。

如果您使用的是 GeForce RTX 50 系列显卡,请按照以下步骤安装使用 CUDA 12.8 编译的预编译包:

export LMDEPLOY_VERSION=0.12.3
export PYTHON_VERSION=312
pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION}/lmdeploy-${LMDEPLOY_VERSION}+cu128-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu128

离线批量推理

import lmdeploy
with lmdeploy.pipeline("internlm/internlm3-8b-instruct") as pipe:
    response = pipe(["你好,请自我介绍一下", "上海是"])
    print(response)

[!NOTE] 默认情况下,LMDeploy 会从 HuggingFace 下载模型。如果您希望使用 ModelScope 上的模型,请先通过 pip install modelscope 安装 ModelScope,并设置环境变量:

export LMDEPLOY_USE_MODELSCOPE=True

如果您希望使用 openMind Hub 上的模型,请先通过 pip install openmind_hub 安装 openMind Hub,并设置环境变量:

export LMDEPLOY_USE_OPENMIND_HUB=True

有关推理管道的更多信息,请参阅 此处

教程

请查看 getting_started 部分,了解 LMDeploy 的基本用法。

有关详细的用户指南和高级指南,请参阅我们的 教程

第三方项目

  • 使用 LMDeploy 在 NVIDIA Jetson 平台上离线部署 LLM:LMDeploy-Jetson

  • 使用 LMDeploy 和 BentoML 部署 LLM 的示例项目:BentoLMDeploy

贡献

我们非常感谢对 LMDeploy 的所有贡献。请参阅 CONTRIBUTING.md 以获取贡献指南。

致谢

引用

@misc{2023lmdeploy,
    title={LMDeploy:用于压缩、部署和提供 LLM 服务的工具包},
    author={LMDeploy 贡献者},
    howpublished = {\url{https://github.com/InternLM/lmdeploy}},
    year={2023}
}
@article{zhang2025efficient,
  title={使用 TurboMind 进行高效的混合精度大型语言模型推理},
  author={Zhang, Li; Jiang, Youhe; He, Guoliang; Chen, Xin; Lv, Han; Yao, Qian; Fu, Fangcheng; Chen, Kai},
  journal={arXiv 预印本 arXiv:2508.15601},
  year={2025}
}

许可证

本项目采用 Apache 2.0 许可证 发布。

版本历史

v0.12.32026/04/08
v0.12.22026/03/18
v0.12.12026/02/13
v0.12.02026/02/04
v0.11.12025/12/24
v0.11.02025/12/04
v0.10.22025/10/28
v0.10.12025/09/26
v0.10.02025/09/09
v0.9.2.post12025/08/19
v0.9.22025/07/26
v0.9.12025/07/04
v0.9.02025/06/19
v0.8.02025/05/04
v0.7.32025/04/14
v0.7.2.post12025/03/21
v0.7.22025/03/19
v0.7.12025/02/27
v0.7.0.post32025/02/10
v0.7.0.post22025/01/27

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

158.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架