AngelSlim

GitHub
559 75 中等 1 次阅读 2天前NOASSERTION开发框架音频语言模型图像
AI 解读 由 AI 自动生成,仅供参考

AngelSlim 是一款专为大模型压缩打造的高效工具包,旨在让庞大的 AI 模型变得更轻量、更易部署。它解决了大模型在资源受限设备上运行困难、推理速度慢以及存储成本高等痛点,通过统一的框架集成了多种主流压缩算法,让用户能轻松实现模型“瘦身”而不损失核心能力。

无论是希望将大语言模型部署到手机或边缘设备的开发者,还是致力于探索新型压缩算法的研究人员,AngelSlim 都能提供强大的支持。其独特亮点在于不仅支持常见的 INT4、FP8 等量化技术,还原创了 Sherry(1.25 bit 超低位宽量化)、DAQ(保持知识的小参数更新量化)以及 SpecExit(推理早退机制)等前沿算法。此外,它还全面支持 Eagle3 投机解码训练框架,覆盖从文本、多模态到音频的各类模型,并兼容 Qwen3、DeepSeek、Hunyuan 等主流开源模型系列。凭借完善的文档和活跃的社区支持,AngelSlim 正成为连接高效算法与实际应用的重要桥梁。

使用场景

某初创团队试图将 72B 参数的多模态大模型部署到资源受限的边缘服务器上,以提供实时的工业质检服务。

没有 AngelSlim 时

  • 显存爆满无法运行:原始模型体积巨大,远超边缘设备显存上限,导致服务根本无法启动。
  • 算法适配成本极高:团队需手动为不同层编写量化代码,面对 FP8、INT4 等多种算法,调试周期长达数周。
  • 推理延迟不可接受:即使勉强通过裁剪运行,单次推理耗时超过 2 秒,完全无法满足生产线实时检测需求。
  • 精度损失难以控制:缺乏专业的后训练量化(PTQ)策略,模型压缩后识别准确率大幅下降,误报率飙升。

使用 AngelSlim 后

  • 端侧顺利部署:利用 AngelSlim 的 Sherry 1.25 bit 或 INT4 量化算法,模型体积压缩至原来的 1/4,成功载入边缘设备。
  • 一站式高效压缩:借助其高度集成的框架,一键调用针对 Qwen2.5-VL 等模型的预设配置,半天内即可完成压缩流程。
  • 推理速度显著提升:结合 Eagle3 投机解码技术,推理吞吐量提升数倍,单张图片检测延迟降低至 200 毫秒以内。
  • 知识保留完好:通过 DAQ 等先进算法,在参数量剧烈缩减的同时,有效保留了模型核心知识,准确率几乎无损。

AngelSlim 让超大模型在低算力设备上实现了“跑得动、跑得快、跑得准”的落地闭环。

运行环境要求

操作系统
  • 未说明
GPU

需要 NVIDIA GPU(文中提及单卡可运行 Qwen3-235B 等大模型量化,暗示对显存及算力有较高要求,具体型号及 CUDA 版本未明确列出)

内存

未说明

依赖
notes该工具专注于大模型压缩(量化、投机解码等),支持 LLM、VLM、扩散模型及语音模型。特色包括支持在单张 GPU 上对超大规模模型(如 Qwen3-235B、DeepSeek-R1)进行量化处理。集成了多种自研算法(如 DAQ, Sherry, TEQUILA, SpecExit, Eagle3)。具体环境依赖需参考官方文档或配置文件,README 中未提供详细的版本列表。
python未说明
torch
transformers
vLLM (部分功能支持)
AngelSlim hero image

快速开始

中文 | English

AngelSlim

一款更易用、更全面、更高效的大型模型压缩工具集。

✒️ 技术报告   |    📖 文档   |   🤗 Hugging Face   |   🤖 ModelScope

💬 微信 |   🫨 Discord

📣最新动态

  • [26/03/25] 我们发布了DAQ,这是一种在训练后微调过程中保持知识的同时,参数更新量相对较小的量化算法。[论文] | [文档]
  • [26/02/09] 我们发布了HY-1.8B-2Bit,这是一款2比特的端侧大语言模型,[Hugging Face]
  • [26/01/13] 我们发布了v0.3版本。我们支持Eagle3用于全规模LLM/VLM/音频模型的训练与部署,详情请参见指导文档。同时,我们还发布了Sherry,一种硬件友好的1.25比特量化算法[论文] | [代码]🔥🔥🔥
  • [25/11/05] 我们发布了v0.2版本。新增对GLM-4.6Qwen3-VLQwen3-Omni等模型的量化支持,开源了Eagle3推测解码训练框架,并更新了扩散模型量化工具。
  • [25/09/30] 我们发布了SpecExit,一种推理早停算法:[论文] | [文档] | [vLLM代码]
  • [25/09/26] 我们发布了TEQUILA,一种三值量化算法[论文] | [代码]
  • [25/09/24] 我们现在支持对Qwen3系列模型进行NVFP4的PTQ量化。同时,我们也开源了Qwen3-32B-NVFP4Qwen3-235B-A22B-NVFP4权重。
往期新闻
  • [25/09/01] 我们现在支持对Hunyuan-MT-7B翻译模型进行FP8量化。并启用了Eagle3的Torch推理和基准测试评估功能。此外,我们还实现了对FLUX的量化与缓存支持,以及对Seed-OSS的量化支持。
  • [25/08/06] 我们现在支持对Hunyuan 0.5B/1.8B/4B/7B以及多模态模型Qwen2.5VL 3B/7B/32B/72B进行量化,包括FP8/INT4等算法;同时也支持对DeepSeek-R1/V3Kimi-K2进行量化,涵盖FP8-Static和W4A8-FP8等算法。我们还开源了Hunyuan 1.8B/4B/7B系列Eagle3模型权重。
  • [25/07/04] 我们现在支持对Hunyuan/Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen等模型进行量化,包括INT8/FP8/INT4等算法。我们还开源了Qwen3系列Eagle3模型权重。

🌟核心特性

  • 高度集成:该工具集将主流压缩算法整合进统一框架,为开发者提供一键式访问,使用极为便捷。
  • 持续创新:除了集成业界广泛使用的算法外,我们还在不断研究更优的压缩算法,未来将逐步开源。
  • 性能驱动:我们在模型压缩工作流及算法部署中持续优化端到端性能,例如实现单GPU上对Qwen3-235B和DeepSeek-R1等模型的量化。

💼技术概览

场景 模型 压缩策略
量化 推测解码 其他技术
大型语言模型(LLMs)
  • 稀疏注意力
    • 开发中
视觉语言模型(VLMs)
  • 标记剪枝
    • 开发中
扩散模型 -
语音模型(TTS/ASR)
  • 标记剪枝
    • 开发中

🛎️使用方法

1. 安装 AngelSlim

我们建议使用 pip 安装最新稳定版的 AngelSlim

pip install angelslim

或者,您也可以克隆仓库,并以可编辑模式从源码安装:

cd AngelSlim && python setup.py install

更多详细的安装说明及平台特定指导,请参阅安装文档

2. 快速入门

2.1 推测解码

安装 AngelSlim 后,您可以使用以下脚本快速开始 Eagle3 训练:

# 启动 vLLM 服务器
bash scripts/speculative/run_vllm_server.sh
# 生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh
# 对 Eagle3 模型进行在线训练
bash scripts/speculative/train_eagle3_online.sh

Eagle3 的训练与部署指南:LLM | VLM | 音频(ASR) | 音频(TTS)

2.2 LLM/VLM/音频模型量化

安装 AngelSlim 后,您可以通过以下一条命令脚本对 Qwen3-1.7B 模型进行静态 FP8 量化:

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

此示例通过在从 HuggingFace 加载的模型上执行 PTQ 校准,生成量化的模型权重。

代码方式启动

要对 Qwen3-1.7B 进行动态 FP8 量化:

from angelslim.engine import Engine

slim_engine = Engine()
# 准备模型
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B",)
# 初始化压缩器
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
# 压缩模型
slim_engine.run()
# 保存压缩后的模型
slim_engine.save("./output")

更多详情请参阅快速入门文档

2.3 扩散模型量化

使用 scripts/diffusion/run_diffusion.py 进行量化和推理:

# 在线量化与推理
python scripts/diffusion/run_diffusion.py \
    --model-name-or-path black-forest-labs/FLUX.1-schnell \
    --quant-type fp8-per-tensor \
    --prompt "一只猫拿着写着‘hello world’的牌子" \
    --height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0

更多量化推理方法,请参阅扩散模型量化文档

2.4 Token 压缩(VLM)

AngelSlim 提供了一个通用的元数据驱动框架,用于视觉 token 的剪枝和合并。您可以通过烟雾测试快速验证一种压缩策略(例如 VisionZip):

python tools/test_universal_pruning.py \
    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
    --config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml"

有关实施新策略的更多详细信息,请参阅Token Compressor 文档

3. 部署与测试

3.1 离线推理

要使用通过 transformers 加载的量化模型进行离线推理测试。

运行脚本详情
python scripts/deploy/offline.py $MODEL_PATH "你好,我叫"

其中 $MODEL_PATH 是量化模型输出的路径。

3.2 API 服务部署

指定量化模型路径 MODEL_PATH 后,您可以使用 vLLMSGLang 推理框架部署一个兼容 OpenAI 的 API 服务。

运行脚本详情
  • vLLM

    使用以下脚本启动一个 vLLM 服务器,推荐版本为 vllm>=0.8.5.post1。对于 MOE INT8 量化模型,需要 vllm>=0.9.0。

    bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096
    

    其中 -d 表示可见设备,-t 表示张量并行规模,-p 表示流水线并行规模,-g 表示 GPU 内存利用率。

  • SGLang

    使用以下脚本启动一个 SGLang 服务器,推荐版本为 sglang>=0.4.6.post1

    bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8
    

3.3 服务调用

通过 OpenAI 的 API 格式发起请求。

运行脚本详情
bash scripts/deploy/openai.sh -m $MODEL_PATH -p "你好,我叫" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt "你是一个乐于助人的助手。"

其中 -p 是输入提示。

3.4 性能评估

使用 lm-evaluation-harness,推荐版本为 lm-eval>=0.4.8,评估量化模型性能。

运行脚本详情
bash scripts/deploy/lm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b "auto" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH

其中 RESULT_PATH 是保存测试结果的目录,-b 表示批量大小,--tasks 指定评估任务,-n 表示少样本示例的数量。

更多详细信息,请参阅部署文档

📈 基准测试

1. 推测解码

我们使用 vLLM 对 AngelSlim 训练的 Eagle3 模型进行了评估,涵盖代码生成、数学推理、指令遵循、文本生成以及多模态理解等任务。在 num_speculative_tokens = 24 的设置下,我们训练的模型在推理加速和上下文长度方面的表现如下,接受长度为 1.8–3.5,最大加速比为 1.4–1.9×。

AngelSlim

1.1 Qwen3 系列模型

在 vLLM(v0.11.2)上,使用 Eagle3 推理解码技术对 Qwen3 系列模型在 MT-benchHumanEvalGSM8KAlpaca 上的基准测试结果,采用单 GPU 配置(tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024)。

模型 方法 GSM8K Alpaca HumanEval MT-bench 平均
吞吐量(tokens/s)接受长度 吞吐量(tokens/s)接受长度 吞吐量(tokens/s)接受长度 吞吐量(tokens/s)接受长度 吞吐量(tokens/s)接受长度
Qwen3-1.7B Vanilla 376.421 378.861 378.381 390.531 381.051
Eagle3 616.92.13 653.292.19 680.12.2 621.442.17 642.932.17
Qwen3-4B Vanilla 229.051 235.291 234.661 234.041 233.261
Eagle3 389.352.07 395.972.1 377.842.08 384.62.07 386.942.08
Qwen3-8B Vanilla 149.631 149.931 153.851 153.811 151.811
Eagle3 257.322 266.692.02 244.891.97 258.21.97 257.521.99
Qwen3-14B Vanilla 92.971 92.661 92.941 94.461 93.261
Eagle3 153.721.87 140.461.78 144.681.76 142.451.74 145.331.79
Qwen3-32B Vanilla 43.491 43.381 43.191 43.31 43.321
Eagle3 80.432.01 72.491.9 71.571.86 74.11.86 74.11.91
Qwen3-30B-A3B Vanilla 311.841 320.431 325.771 325.421 320.871
Eagle3 453.972.1 432.452.04 428.812.02 437.062.01 438.072.04

1.2 视觉语言模型

1.2.1 Qwen3-VL 系列模型

在 vLLM(v0.12.0)上,使用 Eagle3 推理解码技术对 Qwen3-VL 系列模型在语言和多模态任务上的基准测试结果,采用单 GPU 配置(tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024)。

模型 方法 GSM8K Alpaca HumanEval MT-bench MATH-500 MMMU MMStar 平均
吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度 吞吐量(tokens/s) 接受长度
Qwen3-VL-2B-Instruct Vanilla 348.55 1 350.9 1 346.07 1 346.31 1 82.96 1 83.27 1 81.63 1 234.24 1
Eagle3 511.52 2.11 560.55 2.26 826.01 3.39 555.22 2.29 163.09 2.57 154.18 2.55 139.73 2.31 415.76 2.5
Qwen3-VL-4B-Instruct Vanilla 212.87 1 213.24 1 211.69 1 212.1 1 67.96 1 65.88 1 67.75 1 150.21 1
Eagle3 415.29 2.57 372.89 2.26 459.37 2.82 382.33 2.34 141.87 2.72 104.44 2.05 107.07 2.1 107.07 2.1 283.32 2.41
Qwen3-VL-30B-A3B-Instruct Vanilla 179.94 1 184.6 1 168.68 1 180.57 1 31.08 1 31.51 1 30.93 1 115.33 1
Eagle3 281.93 2.82 241.42 2.13 223.05 2.57 240.47 2.19 75.31 2.79 48.47 1.78 52.57 1.94 166.17 2.32
1.2.2 HunyuanOCR 模型

在 vLLM(v0.13.0)上使用 Eagle3 推测解码对 HunyuanOCR 进行基准测试的结果,数据集为 OmniDocBench,采用单 GPU(tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024)。

模型 方法 OmniDocBench
吞吐量(tokens/s) 接受长度
Hunyuan-OCR Vanilla 70.12 1
Eagle3 108.1 2.08

1.3 音频模型

1.3.1 Qwen2-Audio 模型

在 vLLM(v0.12.0)上使用 Eagle3 推测解码对 Qwen2-Audio 进行基准测试的结果,数据集为 LibriSpeech,采用单 GPU(tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024)。

模型 方法 LibriSpeech
吞吐量(tokens/s) 接受长度
Qwen2-Audio Vanilla 78.76 1
Eagle3 146.66 3.51
1.3.2 Fun-CosyVoice3 模型

在单 GPU(tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024)条件下,使用 Eagle3 推测解码对 Fun-CosyVoice3 进行基准测试的结果,数据集为 LibriTTS

模型 方法 LibriTTS
吞吐量(tokens/s) 接受长度
Fun-CosyVoice3 Vanilla - 1
Eagle3 - 1.96

适配于 Transformers 后端推理,仅显示接受长度。vLLM 加速约 1.6 倍,基于基础 LLM 加速估算得出。

2. 量化

以下展示了部分选定模型的性能测试结果。如需完整基准测试,请参阅 Benchmark 文档

2.1 Hunyuan 系列模型

Hunyuan-Instruct 模型分别采用 FP8INT4-AWQINT4-GPTQ 量化算法,在包括 OlympiadBenchAIME 2024DROP 在内的数据集上的基准测试结果:

模型量化方式OlympiadBenchAIME 2024DROPGPQA-Diamond
Hunyuan-A13B-Instruct BF1682.787.3091.171.2
FP8-Static83.086.791.1-
Int4-GPTQ82.786.791.1-
Int4-AWQ82.685.691.0-
Hunyuan-7B-Instruct BF16 76.581.185.960.1
FP8-Static76.680.986.060.1
Int4-GPTQ76.281.085.760.0
Int4-AWQ76.480.985.960.1
Hunyuan-4B-Instruct BF16 73.178.378.261.1
FP8-Static73.176.678.360.2
Int4-GPTQ72.9-78.158.1
Int4-AWQ72.8-78.2-
Hunyuan-1.8B-Instruct BF16 63.456.776.747.2
FP8-Static62.555.275.147.7
Int4-GPTQ60.9-73.044.4
Int4-AWQ61.7-71.743.6
Hunyuan-0.5B-Instruct BF16 29.617.252.823.3
FP8-Static29.617.251.622.5
Int4-GPTQ26.8-50.923.3
Int4-AWQ26.3-48.923.3

2.2 通义千问3系列模型

通义千问3系列模型在CEVALMMLUGSM8KHUMANEVAL等数据集上,采用FP8-StaticFP8-DynamicINT4-GPTQINT4-AWQ量化算法的评测结果如下:

模型量化方式CEVALMMLUGSM8KHUMANEVAL
Qwen3-0.6BBF1645.8447.2142.9919.51
FP8-Static45.9946.8738.0618.90
FP8-Dynamic45.9946.9338.2920.73
INT8-Dynamic45.1746.9541.1721.34
Qwen3-8BBF1679.2774.7887.7963.41
FP8-Static78.2374.7986.9662.20
FP8-Dynamic78.4574.7587.6462.80
INT8-Dynamic78.0174.8486.9667.07
INT4-GPTQ77.1973.2686.4362.20
INT4-AWQ76.1573.5986.9663.41
Qwen3-14BBF1683.0678.9088.4055.49
FP8-Static82.6278.5789.4657.32
FP8-Dynamic82.2478.9288.3252.44
INT8-Dynamic81.8778.1386.2856.10
INT4-GPTQ81.0578.0287.3457.93
INT4-AWQ82.0277.6884.2361.59
Qwen3-32BBF1686.5582.0074.5337.80
FP8-Static86.9281.7870.2039.63
FP8-Dynamic86.5581.8970.4338.41
INT4-GPTQ86.1881.01-43.29
INT4-AWQ86.1881.54-36.59
Qwen3-30B-A3BBF1683.6679.3689.9931.71
FP8-Static83.9579.4789.0131.10
FP8-Dynamic84.1079.4089.1632.93
INT8-Dynamic83.3679.4889.1634.15
Qwen3-235B-A22BBF1689.6086.2885.2927.44
FP8-Static89.6786.1986.9627.44
FP8-Dynamic89.6786.1885.2228.05
INT8-Dynamic88.9386.2086.2023.78

2.3 深势系列模型

深势R1-0528系列模型在GPQA DiamondAIME 2024SimpleQALiveCodeBench等数据集上,采用FP8-Block-WiseW4A8-FP8量化算法的评测结果如下:

模型量化方式GPQA DiamondAIME 2024SimpleQALiveCodeBench
DeepSeek-R1-0528FP8-Block-Wise78.2888.6727.877.1
W4A8-FP877.3788.6726.8378.86
  • 上述结果基于使用TRT-LLM部署的5次测试运行的平均值
  • 评估过程中使用的超参数如下:
{
 "top_k": 20,
 "top_p": 0.6,
 "temperature": 0.7,
 "output_seq_len": 32768,
 "max_input_seq_len": 16384
}

2.4 通义千问-VL系列模型

Qwen3-VL评测

通义千问3VL系列模型在MMMU_VALDocVQA_VALChartQA_TEST等数据集上,采用BF16FP8-StaticFP8-Dynamic量化算法的评测结果如下:

模型量化MMMU_VALDocVQA_VALChartQA_TEST
Qwen3-VL-32B-InstructBF1660.1196.0894.64
FP8-Static61.2296.0094.64
FP8-Dynamic60.7896.1994.72
Qwen3-VL-30B-A3B-InstructBF1650.4495.2895.36
FP8-Dynamic50.6795.2595.20
Qwen2.5VL 基准测试

Qwen2.5VL 系列模型在 BF16FP8-StaticFP8-DynamicINT4-GPTQINT4-AWQ 量化算法下,于 MMMU_VALDocVQA_VALChartQA_TEST 数据集上的基准测试结果如下:

模型量化MMMU_VALMMLDocVQA_VALUChartQA_TEST
Qwen2.5VL-3BBF1647.1178.5780.32
FP8-Static47.3379.3479.68
FP8-Dynamic45.9946.9338.29
INT4-GPTQ46.5677.2078.96
INT4-AWQ45.78-79.60
Qwen2.5VL-7BBF1645.4489.7184.64
FP8-Static47.0089.8385.92
FP8-Dynamic47.2289.8088.64
INT4-GPTQ46.6790.45-
INT4-AWQ45.6789.28-
Qwen2.5VL-32BBF1657.0090.03-
FP8-Static57.0089.88-
FP8-Dynamic56.4489.88-
INT4-GPTQ55.2289.80-
INT4-AWQ55.2290.30-
Qwen2.5VL-72BBF1658.7894.3985.60
FP8-Static57.8994.4185.84
FP8-Dynamic58.6794.3885.60
INT4-GPTQ57.5694.4686.48
INT4-AWQ58.7894.1987.28

2.5 Qwen-Omni 系列模型

Qwen3-Omni 文本到文本基准测试

Qwen3-Omni 系列模型在 BF16、FP8-Static 和 FP8-Dynamic 下,于 aime25、gpqa_diamond 和 mmlu_redux 上的基准测试结果如下:

模型量化aime25gpqa_diamondmmlu_redux
Qwen3-Omni-30B-A3B-InstructBF1673.3256.7788.09
FP8-Static71.3356.5787.91
FP8-Dynamic73.3355.1588.07
  • 上述评估结果是通过 vLLM 框架部署并取 5 次运行的平均值获得的(vLLM 仅支持思考器组件)。
  • 评估过程中使用的超参数如下:
{
 "top_p": 0.95,
 "temperature": 0.6,
 "do_sample": true,
 "max-model-len 65536": 65536
}

2.6 其他模型

其他模型如 GLM-4.6、Qwen2.5 和 Seed-OSS 已经使用 FP8-StaticFP8-DynamicINT4-GPTQINT4-AWQ 等量化策略,在 CEVALMMLUGSM8K 等基准测试上进行了评估。

基准测试实验详情
模型量化CEVALMMLUGSM8K
Qwen2.5-1.5B-InstructBF1667.0160.0554.28
FP8-Static66.2760.23-
FP8-Dynamic66.7960.0851.71
Qwen2.5-7B-InstructBF1681.2074.5579.98
FP8-Static81.1374.0379.30
FP8-Dynamic80.3174.0779.00
INT4-GPTQ79.0573.0574.75
INT4-AWQ79.3573.2279.38
Qwen2.5-32B-InstructBF1687.3083.2181.73
FP8-Static87.5983.0881.58
FP8-Dynamic87.3083.0481.58
INT4-GPTQ86.7082.4582.03
INT4-AWQ87.0082.64-
DeepSeek-R1-Distill-Qwen-7BBF1653.4953.8075.74
FP8-Static53.5754.1776.19
FP8-Dynamic52.9754.1374.15
INT4-GPTQ51.8652.4475.89
INT4-AWQ53.4953.70-
DeepSeek-R1-Distill-Qwen-14BBF1677.7174.2885.67
FP8-Static77.5674.6686.73
FP8-Dynamic76.8274.6387.11
INT4-GPTQ74.2972.3784.61
INT4-AWQ74.8173.0086.05
DeepSeek-R1-Distill-Qwen-32BBF1684.1880.8987.41
FP8-Static83.4380.9087.57
FP8-Dynamic83.7381.1086.43
INT4-GPTQ84.1079.8086.73
INT4-AWQ82.8480.1587.19

3. Token压缩(VLM)

我们在多个多模态基准测试上,针对Qwen2.5-VL-3B-Instruct模型评估了多种视觉Token压缩策略。您可以通过以下命令复现这些结果:

python tools/run_pruning_eval.py \
    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
    --configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \
    --tasks "textvqa" \
    --output_dir "./results/visionzip_test"
详细基准测试结果(Qwen2.5-VL-3B-Instruct)
方法 AI2D ChartQA DocVQA MMBCN MMB MME MMStar OCRBench POPE SQA VQAText 平均
基线 79.11 83.56 92.48 73.28 77.32 1517 56.05 80.10 87.41 80.81 78.79 100.0%
保留25%的Token(75%压缩率)
FastV72.7070.0475.9863.4066.92143747.3936.6086.4279.3368.1286.02%
VisionZip74.1971.3270.1167.3571.22145249.3742.5085.5181.3668.1287.34%
HiPrune73.8372.7672.1067.2772.34144948.9341.3085.8680.9169.2787.67%
VisionSelector75.1973.7290.2468.8172.59152149.9761.8085.3680.3776.8693.62%
DivPrune73.0662.9678.4667.1071.82145948.3851.4086.8180.2268.9188.15%
DART71.0865.2079.7265.3871.05142848.7841.8080.9780.9168.2586.17%
VisPruner74.2968.2072.5267.3570.88145849.7444.8086.5981.4669.6287.87%
SCOPE75.8474.0082.4068.8172.94147150.3556.0086.6280.9674.0491.98%
IDPruner75.9475.8490.0069.4273.80150549.4964.9086.2680.4253.3173.00%
保留10%的Token(90%压缩率)
FastV65.8729.7236.8948.3751.98125737.2813.9079.5077.0557.7565.30%
VisionZip67.6551.6037.8859.6263.06133842.8221.4081.1480.4751.5672.75%
HiPrune67.7553.2041.1559.4563.14132641.0820.3080.9080.9653.3173.00%
VisionSelector70.5065.9279.9459.9764.69137442.8645.2082.6680.6171.5784.42%
DivPrune67.7143.1258.0361.2565.12138940.4327.9082.2479.1856.8775.50%
DART67.4947.5660.2357.9963.83129942.1823.4074.2078.6358.0274.09%
VisPruner67.7547.9248.6559.2863.32130541.5122.5078.7479.7754.9573.19%
SCOPE69.7556.2455.0164.2667.18139044.3530.8083.3480.4762.5879.37%
IDPruner71.7963.3279.3863.5768.21143844.0545.5084.5180.5770.0285.71%

📝 许可证

本项目的代码以AngelSlim许可证开源。

🔗 引用

@article{angelslim2026,
  title={AngelSlim: 一个更易用、全面且高效的大型模型压缩工具包},
  author={Hunyuan AI Infra团队},
  journal={arXiv预印本 arXiv:2602.21233},
  year={2026}
}

💬 技术讨论

  • AngelSlim由腾讯Hunyuan AI Infra团队开发,新功能会不断迭代更新。如果您有任何问题或建议,请在Github Issues中提交,或加入我们的微信讨论群

  • ⭐ 请给本仓库标星,以便关注我们的最新进展。如果您有兴趣加入我们实习或全职工作,请将简历发送至:lucayu@tencent.com

版本历史

v0.3.02026/01/13
v0.2.02025/11/05
v0.1.02025/08/06

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

141.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|今天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent