AI 解读由 AI 自动生成，仅供参考

AngelSlim 是一款专为大模型压缩打造的高效工具包，旨在让庞大的 AI 模型变得更轻量、更易部署。它解决了大模型在资源受限设备上运行困难、推理速度慢以及存储成本高等痛点，通过统一的框架集成了多种主流压缩算法，让用户能轻松实现模型“瘦身”而不损失核心能力。

无论是希望将大语言模型部署到手机或边缘设备的开发者，还是致力于探索新型压缩算法的研究人员，AngelSlim 都能提供强大的支持。其独特亮点在于不仅支持常见的 INT4、FP8 等量化技术，还原创了 Sherry（1.25 bit 超低位宽量化）、DAQ（保持知识的小参数更新量化）以及 SpecExit（推理早退机制）等前沿算法。此外，它还全面支持 Eagle3 投机解码训练框架，覆盖从文本、多模态到音频的各类模型，并兼容 Qwen3、DeepSeek、Hunyuan 等主流开源模型系列。凭借完善的文档和活跃的社区支持，AngelSlim 正成为连接高效算法与实际应用的重要桥梁。

使用场景

某初创团队试图将 72B 参数的多模态大模型部署到资源受限的边缘服务器上，以提供实时的工业质检服务。

没有 AngelSlim 时

显存爆满无法运行：原始模型体积巨大，远超边缘设备显存上限，导致服务根本无法启动。
算法适配成本极高：团队需手动为不同层编写量化代码，面对 FP8、INT4 等多种算法，调试周期长达数周。
推理延迟不可接受：即使勉强通过裁剪运行，单次推理耗时超过 2 秒，完全无法满足生产线实时检测需求。
精度损失难以控制：缺乏专业的后训练量化（PTQ）策略，模型压缩后识别准确率大幅下降，误报率飙升。

使用 AngelSlim 后

端侧顺利部署：利用 AngelSlim 的 Sherry 1.25 bit 或 INT4 量化算法，模型体积压缩至原来的 1/4，成功载入边缘设备。
一站式高效压缩：借助其高度集成的框架，一键调用针对 Qwen2.5-VL 等模型的预设配置，半天内即可完成压缩流程。
推理速度显著提升：结合 Eagle3 投机解码技术，推理吞吐量提升数倍，单张图片检测延迟降低至 200 毫秒以内。
知识保留完好：通过 DAQ 等先进算法，在参数量剧烈缩减的同时，有效保留了模型核心知识，准确率几乎无损。

AngelSlim 让超大模型在低算力设备上实现了“跑得动、跑得快、跑得准”的落地闭环。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（文中提及单卡可运行 Qwen3-235B 等大模型量化，暗示对显存及算力有较高要求，具体型号及 CUDA 版本未明确列出）

内存

未说明

依赖

notes该工具专注于大模型压缩（量化、投机解码等），支持 LLM、VLM、扩散模型及语音模型。特色包括支持在单张 GPU 上对超大规模模型（如 Qwen3-235B、DeepSeek-R1）进行量化处理。集成了多种自研算法（如 DAQ, Sherry, TEQUILA, SpecExit, Eagle3）。具体环境依赖需参考官方文档或配置文件，README 中未提供详细的版本列表。

python未说明

torch

transformers

vLLM (部分功能支持)

快速开始

中文 | English

AngelSlim

一款更易用、更全面、更高效的大型模型压缩工具集。

✒️ 技术报告 | 📖 文档 | 🤗 Hugging Face | 🤖 ModelScope

💬 微信 | 🫨 Discord

📣最新动态

[26/03/25] 我们发布了DAQ，这是一种在训练后微调过程中保持知识的同时，参数更新量相对较小的量化算法。[论文] | [文档]
[26/02/09] 我们发布了HY-1.8B-2Bit，这是一款2比特的端侧大语言模型，[Hugging Face]。
[26/01/13] 我们发布了v0.3版本。我们支持Eagle3用于全规模LLM/VLM/音频模型的训练与部署，详情请参见指导文档。同时，我们还发布了Sherry，一种硬件友好的1.25比特量化算法[论文] | [代码]🔥🔥🔥
[25/11/05] 我们发布了v0.2版本。新增对GLM-4.6、Qwen3-VL和Qwen3-Omni等模型的量化支持，开源了Eagle3推测解码训练框架，并更新了扩散模型量化工具。
[25/09/30] 我们发布了SpecExit，一种推理早停算法：[论文] | [文档] | [vLLM代码]
[25/09/26] 我们发布了TEQUILA，一种三值量化算法[论文] | [代码]
[25/09/24] 我们现在支持对Qwen3系列模型进行NVFP4的PTQ量化。同时，我们也开源了Qwen3-32B-NVFP4和Qwen3-235B-A22B-NVFP4权重。

往期新闻

[25/09/01] 我们现在支持对Hunyuan-MT-7B翻译模型进行FP8量化。并启用了Eagle3的Torch推理和基准测试评估功能。此外，我们还实现了对FLUX的量化与缓存支持，以及对Seed-OSS的量化支持。
[25/08/06] 我们现在支持对Hunyuan 0.5B/1.8B/4B/7B以及多模态模型Qwen2.5VL 3B/7B/32B/72B进行量化，包括FP8/INT4等算法；同时也支持对DeepSeek-R1/V3和Kimi-K2进行量化，涵盖FP8-Static和W4A8-FP8等算法。我们还开源了Hunyuan 1.8B/4B/7B系列Eagle3模型权重。
[25/07/04] 我们现在支持对Hunyuan/Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen等模型进行量化，包括INT8/FP8/INT4等算法。我们还开源了Qwen3系列Eagle3模型权重。

🌟核心特性

高度集成：该工具集将主流压缩算法整合进统一框架，为开发者提供一键式访问，使用极为便捷。
持续创新：除了集成业界广泛使用的算法外，我们还在不断研究更优的压缩算法，未来将逐步开源。
性能驱动：我们在模型压缩工作流及算法部署中持续优化端到端性能，例如实现单GPU上对Qwen3-235B和DeepSeek-R1等模型的量化。

💼技术概览

场景	模型	压缩策略
场景	模型	量化	推测解码	其他技术
大型语言模型（LLMs）	Hunyuan-Dense Hunyuan-MoE Qwen3 DeepSeek-V3/R1 GLM-4.6 Qwen2.5	FP8-静态/动态 INT8-动态 INT4-GPTQ/AWQ/GPTAQ NVFP4 LeptoQuant Tequila \| Eagle3 SpecExit	稀疏注意力开发中
视觉语言模型（VLMs）	Hunyuan-VL HunyuanOCR Qwen3-VL Qwen2.5-VL	FP8-静态/动态 INT8-动态 INT4-GPTQ/AWQ/GPTAQ	Eagle3	标记剪枝开发中
扩散模型	Hunyuan-Image Hunyuan-Video Hunyuan-3D Qwen-Image FLUX Wan SDXL	FP8-动态 FP8-仅权重	-	缓存 DeepCache TeaCache TaylorCache 稀疏注意力开发中
语音模型（TTS/ASR）	Qwen3-Omni Qwen2-Audio Fun-CosyVoice3	FP8-静态/动态 INT8-动态	Eagle3	标记剪枝开发中

🛎️使用方法

1. 安装 AngelSlim

我们建议使用 pip 安装最新稳定版的 AngelSlim：

pip install angelslim

或者，您也可以克隆仓库，并以可编辑模式从源码安装：

cd AngelSlim && python setup.py install

更多详细的安装说明及平台特定指导，请参阅安装文档。

2. 快速入门

2.1 推测解码

安装 AngelSlim 后，您可以使用以下脚本快速开始 Eagle3 训练：

# 启动 vLLM 服务器
bash scripts/speculative/run_vllm_server.sh
# 生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh
# 对 Eagle3 模型进行在线训练
bash scripts/speculative/train_eagle3_online.sh

Eagle3 的训练与部署指南：LLM | VLM | 音频（ASR） | 音频（TTS）。

2.2 LLM/VLM/音频模型量化

安装 AngelSlim 后，您可以通过以下一条命令脚本对 Qwen3-1.7B 模型进行静态 FP8 量化：

python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml

此示例通过在从 HuggingFace 加载的模型上执行 PTQ 校准，生成量化的模型权重。

代码方式启动

要对 Qwen3-1.7B 进行动态 FP8 量化：

from angelslim.engine import Engine

slim_engine = Engine()
# 准备模型
slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B",)
# 初始化压缩器
slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic")
# 压缩模型
slim_engine.run()
# 保存压缩后的模型
slim_engine.save("./output")

更多详情请参阅快速入门文档。

2.3 扩散模型量化

使用 scripts/diffusion/run_diffusion.py 进行量化和推理：

# 在线量化与推理
python scripts/diffusion/run_diffusion.py \
    --model-name-or-path black-forest-labs/FLUX.1-schnell \
    --quant-type fp8-per-tensor \
    --prompt "一只猫拿着写着‘hello world’的牌子" \
    --height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0

更多量化推理方法，请参阅扩散模型量化文档。

2.4 Token 压缩（VLM）

AngelSlim 提供了一个通用的元数据驱动框架，用于视觉 token 的剪枝和合并。您可以通过烟雾测试快速验证一种压缩策略（例如 VisionZip）：

python tools/test_universal_pruning.py \
    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
    --config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml"

有关实施新策略的更多详细信息，请参阅Token Compressor 文档。

3. 部署与测试

3.1 离线推理

要使用通过 transformers 加载的量化模型进行离线推理测试。

运行脚本详情

python scripts/deploy/offline.py $MODEL_PATH "你好，我叫"

其中 $MODEL_PATH 是量化模型输出的路径。

3.2 API 服务部署

指定量化模型路径 MODEL_PATH 后，您可以使用 vLLM 和 SGLang 推理框架部署一个兼容 OpenAI 的 API 服务。

运行脚本详情

vLLM

使用以下脚本启动一个 vLLM 服务器，推荐版本为 vllm>=0.8.5.post1。对于 MOE INT8 量化模型，需要 vllm>=0.9.0。
```
bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096
```
其中 -d 表示可见设备，-t 表示张量并行规模，-p 表示流水线并行规模，-g 表示 GPU 内存利用率。

SGLang

使用以下脚本启动一个 SGLang 服务器，推荐版本为 sglang>=0.4.6.post1。

bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8

3.3 服务调用

通过 OpenAI 的 API 格式发起请求。

运行脚本详情

bash scripts/deploy/openai.sh -m $MODEL_PATH -p "你好，我叫" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt "你是一个乐于助人的助手。"

其中 -p 是输入提示。

3.4 性能评估

使用 lm-evaluation-harness，推荐版本为 lm-eval>=0.4.8，评估量化模型性能。

运行脚本详情

bash scripts/deploy/lm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b "auto" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH

其中 RESULT_PATH 是保存测试结果的目录，-b 表示批量大小，--tasks 指定评估任务，-n 表示少样本示例的数量。

更多详细信息，请参阅部署文档。

📈 基准测试

1. 推测解码

我们使用 vLLM 对 AngelSlim 训练的 Eagle3 模型进行了评估，涵盖代码生成、数学推理、指令遵循、文本生成以及多模态理解等任务。在 num_speculative_tokens = 2 或 4 的设置下，我们训练的模型在推理加速和上下文长度方面的表现如下，接受长度为 1.8–3.5，最大加速比为 1.4–1.9×。

AngelSlim

1.1 Qwen3 系列模型

在 vLLM（v0.11.2）上，使用 Eagle3 推理解码技术对 Qwen3 系列模型在 MT-bench、HumanEval、GSM8K 和 Alpaca 上的基准测试结果，采用单 GPU 配置（tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024）。

模型	方法	GSM8K		Alpaca		HumanEval		MT-bench		平均
		吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度
Qwen3-1.7B	Vanilla	376.42	1	378.86	1	378.38	1	390.53	1	381.05	1
Qwen3-1.7B	Eagle3	616.9	2.13	653.29	2.19	680.1	2.2	621.44	2.17	642.93	2.17
Qwen3-4B	Vanilla	229.05	1	235.29	1	234.66	1	234.04	1	233.26	1
Qwen3-4B	Eagle3	389.35	2.07	395.97	2.1	377.84	2.08	384.6	2.07	386.94	2.08
Qwen3-8B	Vanilla	149.63	1	149.93	1	153.85	1	153.81	1	151.81	1
Qwen3-8B	Eagle3	257.32	2	266.69	2.02	244.89	1.97	258.2	1.97	257.52	1.99
Qwen3-14B	Vanilla	92.97	1	92.66	1	92.94	1	94.46	1	93.26	1
Qwen3-14B	Eagle3	153.72	1.87	140.46	1.78	144.68	1.76	142.45	1.74	145.33	1.79
Qwen3-32B	Vanilla	43.49	1	43.38	1	43.19	1	43.3	1	43.32	1
Qwen3-32B	Eagle3	80.43	2.01	72.49	1.9	71.57	1.86	74.1	1.86	74.1	1.91
Qwen3-30B-A3B	Vanilla	311.84	1	320.43	1	325.77	1	325.42	1	320.87	1
Qwen3-30B-A3B	Eagle3	453.97	2.1	432.45	2.04	428.81	2.02	437.06	2.01	438.07	2.04

1.2 视觉语言模型

1.2.1 Qwen3-VL 系列模型

在 vLLM（v0.12.0）上，使用 Eagle3 推理解码技术对 Qwen3-VL 系列模型在语言和多模态任务上的基准测试结果，采用单 GPU 配置（tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024）。

模型	方法	GSM8K		Alpaca		HumanEval		MT-bench		MATH-500		MMMU		MMStar		平均
		吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度	吞吐量（tokens/s）	接受长度
Qwen3-VL-2B-Instruct	Vanilla	348.55	1	350.9	1	346.07	1	346.31	1	82.96	1	83.27	1	81.63	1	234.24	1
Qwen3-VL-2B-Instruct	Eagle3	511.52	2.11	560.55	2.26	826.01	3.39	555.22	2.29	163.09	2.57	154.18	2.55	139.73	2.31	415.76	2.5
Qwen3-VL-4B-Instruct	Vanilla	212.87	1	213.24	1	211.69	1	212.1	1	67.96	1	65.88	1	67.75	1	150.21	1
Qwen3-VL-4B-Instruct	Eagle3	415.29	2.57	372.89	2.26	459.37	2.82	382.33	2.34	141.87	2.72	104.44	2.05	107.07	2.1	107.07	2.1	283.32	2.41
Qwen3-VL-30B-A3B-Instruct	Vanilla	179.94	1	184.6	1	168.68	1	180.57	1	31.08	1	31.51	1	30.93	1	115.33	1
Qwen3-VL-30B-A3B-Instruct	Eagle3	281.93	2.82	241.42	2.13	223.05	2.57	240.47	2.19	75.31	2.79	48.47	1.78	52.57	1.94	166.17	2.32

1.2.2 HunyuanOCR 模型

在 vLLM（v0.13.0）上使用 Eagle3 推测解码对 HunyuanOCR 进行基准测试的结果，数据集为 OmniDocBench，采用单 GPU（tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024）。

模型	方法	OmniDocBench
		吞吐量（tokens/s）	接受长度
Hunyuan-OCR	Vanilla	70.12	1
Hunyuan-OCR	Eagle3	108.1	2.08

1.3 音频模型

1.3.1 Qwen2-Audio 模型

在 vLLM（v0.12.0）上使用 Eagle3 推测解码对 Qwen2-Audio 进行基准测试的结果，数据集为 LibriSpeech，采用单 GPU（tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024）。

模型	方法	LibriSpeech
		吞吐量（tokens/s）	接受长度
Qwen2-Audio	Vanilla	78.76	1
Qwen2-Audio	Eagle3	146.66	3.51

1.3.2 Fun-CosyVoice3 模型

在单 GPU（tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024）条件下，使用 Eagle3 推测解码对 Fun-CosyVoice3 进行基准测试的结果，数据集为 LibriTTS。

模型	方法	LibriTTS
		吞吐量（tokens/s）	接受长度
Fun-CosyVoice3	Vanilla	-	1
Fun-CosyVoice3	Eagle3	-	1.96

适配于 Transformers 后端推理，仅显示接受长度。vLLM 加速约 1.6 倍，基于基础 LLM 加速估算得出。

2. 量化

以下展示了部分选定模型的性能测试结果。如需完整基准测试，请参阅 Benchmark 文档

2.1 Hunyuan 系列模型

Hunyuan-Instruct 模型分别采用 FP8、INT4-AWQ 和 INT4-GPTQ 量化算法，在包括 OlympiadBench、AIME 2024 和 DROP 在内的数据集上的基准测试结果：

模型	量化方式	OlympiadBench	AIME 2024	DROP	GPQA-Diamond
Hunyuan-A13B-Instruct	BF16	82.7	87.30	91.1	71.2
	FP8-Static	83.0	86.7	91.1	-
	Int4-GPTQ	82.7	86.7	91.1	-
	Int4-AWQ	82.6	85.6	91.0	-
Hunyuan-7B-Instruct	BF16	76.5	81.1	85.9	60.1
	FP8-Static	76.6	80.9	86.0	60.1
	Int4-GPTQ	76.2	81.0	85.7	60.0
	Int4-AWQ	76.4	80.9	85.9	60.1
Hunyuan-4B-Instruct	BF16	73.1	78.3	78.2	61.1
	FP8-Static	73.1	76.6	78.3	60.2
	Int4-GPTQ	72.9	-	78.1	58.1
	Int4-AWQ	72.8	-	78.2	-
Hunyuan-1.8B-Instruct	BF16	63.4	56.7	76.7	47.2
	FP8-Static	62.5	55.2	75.1	47.7
	Int4-GPTQ	60.9	-	73.0	44.4
	Int4-AWQ	61.7	-	71.7	43.6
Hunyuan-0.5B-Instruct	BF16	29.6	17.2	52.8	23.3
	FP8-Static	29.6	17.2	51.6	22.5
	Int4-GPTQ	26.8	-	50.9	23.3
	Int4-AWQ	26.3	-	48.9	23.3

2.2 通义千问3系列模型

通义千问3系列模型在CEVAL、MMLU、GSM8K和HUMANEVAL等数据集上，采用FP8-Static、FP8-Dynamic、INT4-GPTQ和INT4-AWQ量化算法的评测结果如下：

模型	量化方式	CEVAL	MMLU	GSM8K	HUMANEVAL
Qwen3-0.6B	BF16	45.84	47.21	42.99	19.51
	FP8-Static	45.99	46.87	38.06	18.90
	FP8-Dynamic	45.99	46.93	38.29	20.73
	INT8-Dynamic	45.17	46.95	41.17	21.34
Qwen3-8B	BF16	79.27	74.78	87.79	63.41
	FP8-Static	78.23	74.79	86.96	62.20
	FP8-Dynamic	78.45	74.75	87.64	62.80
	INT8-Dynamic	78.01	74.84	86.96	67.07
	INT4-GPTQ	77.19	73.26	86.43	62.20
	INT4-AWQ	76.15	73.59	86.96	63.41
Qwen3-14B	BF16	83.06	78.90	88.40	55.49
	FP8-Static	82.62	78.57	89.46	57.32
	FP8-Dynamic	82.24	78.92	88.32	52.44
	INT8-Dynamic	81.87	78.13	86.28	56.10
	INT4-GPTQ	81.05	78.02	87.34	57.93
	INT4-AWQ	82.02	77.68	84.23	61.59
Qwen3-32B	BF16	86.55	82.00	74.53	37.80
	FP8-Static	86.92	81.78	70.20	39.63
	FP8-Dynamic	86.55	81.89	70.43	38.41
	INT4-GPTQ	86.18	81.01	-	43.29
	INT4-AWQ	86.18	81.54	-	36.59
Qwen3-30B-A3B	BF16	83.66	79.36	89.99	31.71
	FP8-Static	83.95	79.47	89.01	31.10
	FP8-Dynamic	84.10	79.40	89.16	32.93
	INT8-Dynamic	83.36	79.48	89.16	34.15
Qwen3-235B-A22B	BF16	89.60	86.28	85.29	27.44
	FP8-Static	89.67	86.19	86.96	27.44
	FP8-Dynamic	89.67	86.18	85.22	28.05
	INT8-Dynamic	88.93	86.20	86.20	23.78

2.3 深势系列模型

深势R1-0528系列模型在GPQA Diamond、AIME 2024、SimpleQA和LiveCodeBench等数据集上，采用FP8-Block-Wise和W4A8-FP8量化算法的评测结果如下：

模型	量化方式	GPQA Diamond	AIME 2024	SimpleQA	LiveCodeBench
DeepSeek-R1-0528	FP8-Block-Wise	78.28	88.67	27.8	77.1
	W4A8-FP8	77.37	88.67	26.83	78.86

注

上述结果基于使用TRT-LLM部署的5次测试运行的平均值

评估过程中使用的超参数如下：
{
 "top_k": 20,
 "top_p": 0.6,
 "temperature": 0.7,
 "output_seq_len": 32768,
 "max_input_seq_len": 16384
}

2.4 通义千问-VL系列模型

Qwen3-VL评测

通义千问3VL系列模型在MMMU_VAL、DocVQA_VAL和ChartQA_TEST等数据集上，采用BF16、FP8-Static和FP8-Dynamic量化算法的评测结果如下：

模型	量化	MMMU_VAL	DocVQA_VAL	ChartQA_TEST
Qwen3-VL-32B-Instruct	BF16	60.11	96.08	94.64
	FP8-Static	61.22	96.00	94.64
	FP8-Dynamic	60.78	96.19	94.72
Qwen3-VL-30B-A3B-Instruct	BF16	50.44	95.28	95.36
Qwen3-VL-30B-A3B-Instruct	FP8-Dynamic	50.67	95.25	95.20

Qwen2.5VL 基准测试

Qwen2.5VL 系列模型在 BF16、FP8-Static、FP8-Dynamic、INT4-GPTQ、INT4-AWQ 量化算法下，于 MMMU_VAL、DocVQA_VAL 和 ChartQA_TEST 数据集上的基准测试结果如下：

模型	量化	MMMU_VAL	MMLDocVQA_VALU	ChartQA_TEST
Qwen2.5VL-3B	BF16	47.11	78.57	80.32
	FP8-Static	47.33	79.34	79.68
	FP8-Dynamic	45.99	46.93	38.29
	INT4-GPTQ	46.56	77.20	78.96
	INT4-AWQ	45.78	-	79.60
Qwen2.5VL-7B	BF16	45.44	89.71	84.64
	FP8-Static	47.00	89.83	85.92
	FP8-Dynamic	47.22	89.80	88.64
	INT4-GPTQ	46.67	90.45	-
	INT4-AWQ	45.67	89.28	-
Qwen2.5VL-32B	BF16	57.00	90.03	-
	FP8-Static	57.00	89.88	-
	FP8-Dynamic	56.44	89.88	-
	INT4-GPTQ	55.22	89.80	-
	INT4-AWQ	55.22	90.30	-
Qwen2.5VL-72B	BF16	58.78	94.39	85.60
	FP8-Static	57.89	94.41	85.84
	FP8-Dynamic	58.67	94.38	85.60
	INT4-GPTQ	57.56	94.46	86.48
	INT4-AWQ	58.78	94.19	87.28

2.5 Qwen-Omni 系列模型

Qwen3-Omni 文本到文本基准测试

Qwen3-Omni 系列模型在 BF16、FP8-Static 和 FP8-Dynamic 下，于 aime25、gpqa_diamond 和 mmlu_redux 上的基准测试结果如下：

模型	量化	aime25	gpqa_diamond	mmlu_redux
Qwen3-Omni-30B-A3B-Instruct	BF16	73.32	56.77	88.09
	FP8-Static	71.33	56.57	87.91
	FP8-Dynamic	73.33	55.15	88.07

注

上述评估结果是通过 vLLM 框架部署并取 5 次运行的平均值获得的（vLLM 仅支持思考器组件）。

评估过程中使用的超参数如下：
{
 "top_p": 0.95,
 "temperature": 0.6,
 "do_sample": true,
 "max-model-len 65536": 65536
}

2.6 其他模型

其他模型如 GLM-4.6、Qwen2.5 和 Seed-OSS 已经使用 FP8-Static、FP8-Dynamic、INT4-GPTQ 和 INT4-AWQ 等量化策略，在 CEVAL、MMLU 和 GSM8K 等基准测试上进行了评估。

基准测试实验详情

模型	量化	CEVAL	MMLU	GSM8K
Qwen2.5-1.5B-Instruct	BF16	67.01	60.05	54.28
	FP8-Static	66.27	60.23	-
	FP8-Dynamic	66.79	60.08	51.71
Qwen2.5-7B-Instruct	BF16	81.20	74.55	79.98
	FP8-Static	81.13	74.03	79.30
	FP8-Dynamic	80.31	74.07	79.00
	INT4-GPTQ	79.05	73.05	74.75
	INT4-AWQ	79.35	73.22	79.38
Qwen2.5-32B-Instruct	BF16	87.30	83.21	81.73
	FP8-Static	87.59	83.08	81.58
	FP8-Dynamic	87.30	83.04	81.58
	INT4-GPTQ	86.70	82.45	82.03
	INT4-AWQ	87.00	82.64	-
DeepSeek-R1-Distill-Qwen-7B	BF16	53.49	53.80	75.74
	FP8-Static	53.57	54.17	76.19
	FP8-Dynamic	52.97	54.13	74.15
	INT4-GPTQ	51.86	52.44	75.89
	INT4-AWQ	53.49	53.70	-
DeepSeek-R1-Distill-Qwen-14B	BF16	77.71	74.28	85.67
	FP8-Static	77.56	74.66	86.73
	FP8-Dynamic	76.82	74.63	87.11
	INT4-GPTQ	74.29	72.37	84.61
	INT4-AWQ	74.81	73.00	86.05
DeepSeek-R1-Distill-Qwen-32B	BF16	84.18	80.89	87.41
	FP8-Static	83.43	80.90	87.57
	FP8-Dynamic	83.73	81.10	86.43
	INT4-GPTQ	84.10	79.80	86.73
	INT4-AWQ	82.84	80.15	87.19

3. Token压缩（VLM）

我们在多个多模态基准测试上，针对Qwen2.5-VL-3B-Instruct模型评估了多种视觉Token压缩策略。您可以通过以下命令复现这些结果：

python tools/run_pruning_eval.py \
    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
    --configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \
    --tasks "textvqa" \
    --output_dir "./results/visionzip_test"

详细基准测试结果（Qwen2.5-VL-3B-Instruct）

方法	AI2D	ChartQA	DocVQA	MMB^CN	MMB	MME	MMStar	OCRBench	POPE	SQA	VQA^Text	平均
基线	79.11	83.56	92.48	73.28	77.32	1517	56.05	80.10	87.41	80.81	78.79	100.0%
保留25%的Token（75%压缩率）
FastV	72.70	70.04	75.98	63.40	66.92	1437	47.39	36.60	86.42	79.33	68.12	86.02%
VisionZip	74.19	71.32	70.11	67.35	71.22	1452	49.37	42.50	85.51	81.36	68.12	87.34%
HiPrune	73.83	72.76	72.10	67.27	72.34	1449	48.93	41.30	85.86	80.91	69.27	87.67%
VisionSelector	75.19	73.72	90.24	68.81	72.59	1521	49.97	61.80	85.36	80.37	76.86	93.62%
DivPrune	73.06	62.96	78.46	67.10	71.82	1459	48.38	51.40	86.81	80.22	68.91	88.15%
DART	71.08	65.20	79.72	65.38	71.05	1428	48.78	41.80	80.97	80.91	68.25	86.17%
VisPruner	74.29	68.20	72.52	67.35	70.88	1458	49.74	44.80	86.59	81.46	69.62	87.87%
SCOPE	75.84	74.00	82.40	68.81	72.94	1471	50.35	56.00	86.62	80.96	74.04	91.98%
IDPruner	75.94	75.84	90.00	69.42	73.80	1505	49.49	64.90	86.26	80.42	53.31	73.00%
保留10%的Token（90%压缩率）
FastV	65.87	29.72	36.89	48.37	51.98	1257	37.28	13.90	79.50	77.05	57.75	65.30%
VisionZip	67.65	51.60	37.88	59.62	63.06	1338	42.82	21.40	81.14	80.47	51.56	72.75%
HiPrune	67.75	53.20	41.15	59.45	63.14	1326	41.08	20.30	80.90	80.96	53.31	73.00%
VisionSelector	70.50	65.92	79.94	59.97	64.69	1374	42.86	45.20	82.66	80.61	71.57	84.42%
DivPrune	67.71	43.12	58.03	61.25	65.12	1389	40.43	27.90	82.24	79.18	56.87	75.50%
DART	67.49	47.56	60.23	57.99	63.83	1299	42.18	23.40	74.20	78.63	58.02	74.09%
VisPruner	67.75	47.92	48.65	59.28	63.32	1305	41.51	22.50	78.74	79.77	54.95	73.19%
SCOPE	69.75	56.24	55.01	64.26	67.18	1390	44.35	30.80	83.34	80.47	62.58	79.37%
IDPruner	71.79	63.32	79.38	63.57	68.21	1438	44.05	45.50	84.51	80.57	70.02	85.71%

📝 许可证

本项目的代码以AngelSlim许可证开源。

🔗 引用

@article{angelslim2026,
  title={AngelSlim: 一个更易用、全面且高效的大型模型压缩工具包},
  author={Hunyuan AI Infra团队},
  journal={arXiv预印本 arXiv:2602.21233},
  year={2026}
}

💬 技术讨论

AngelSlim由腾讯Hunyuan AI Infra团队开发，新功能会不断迭代更新。如果您有任何问题或建议，请在Github Issues中提交，或加入我们的微信讨论群。
⭐ 请给本仓库标星，以便关注我们的最新进展。如果您有兴趣加入我们实习或全职工作，请将简历发送至：lucayu@tencent.com。

AngelSlim 快速上手指南

AngelSlim 是一个易用、全面且高效的大模型压缩工具包，支持量化（Quantization）、投机采样（Speculative Decoding）等多种压缩策略，覆盖 LLM、VLM、扩散模型及语音模型。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
Python 版本: 3.8 - 3.11
GPU: NVIDIA GPU (建议显存 >= 16GB，具体取决于模型大小)
CUDA: 11.8 或 12.x
PyTorch: 2.0+ (需与 CUDA 版本匹配)

前置依赖检查： 请确保已安装基础的 PyTorch 环境。若未安装，可使用以下命令（以 CUDA 12.1 为例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

2. 安装步骤

推荐通过 pip 直接安装最新稳定版。国内用户建议使用镜像源加速下载。

方式一：通过 PyPI 安装（推荐）

# 使用清华镜像源加速安装
pip install angelslim -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：从源码安装（获取最新特性）

如果您需要使用最新的算法（如 Sherry, TEQUILA, Eagle3 等），建议从 GitHub 克隆源码安装：

# 克隆仓库
git clone https://github.com/Tencent/AngelSlim.git
cd AngelSlim

# 安装依赖及工具包
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

提示：部分高级量化算法（如 NVFP4）或特定模型支持可能需要额外安装对应的内核库，请参考官方文档中的 requirements 文件。

3. 基本使用

AngelSlim 提供了统一的命令行接口和 Python API。以下以最常用的 PTQ（训练后量化） 为例，展示如何将一个 HuggingFace 模型量化为 INT4 格式。

场景：对 Qwen3 模型进行 INT4-GPTQ 量化

方法 A：使用命令行工具 (CLI)

这是最快捷的方式，适合快速验证和批量处理。

angelslim quantize \
    --model_path Qwen/Qwen3-7B \
    --output_dir ./qwen3-7b-int4 \
    --algorithm gptq \
    --w_bits 4 \
    --group_size 128 \
    --calib_dataset "c4" \
    --calib_samples 128 \
    --device_map auto

参数说明：

--model_path: 原始模型路径（本地路径或 HuggingFace/ModelScope ID）。
--algorithm: 量化算法，支持 gptq, awq, fp8_static, fp8_dynamic 等。
--w_bits: 权重量化位数（如 4, 8）。
--calib_dataset: 校准数据集名称。

方法 B：使用 Python API

适合需要集成到自定义训练或推理流程中的开发者。

from angelslim.quant import Quantizer
from transformers import AutoModelForCausalLM, AutoTokenizer

# 1. 加载模型和分词器
model_name = "Qwen/Qwen3-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", trust_remote_code=True)

# 2. 配置量化参数
config = {
    "algorithm": "gptq",
    "w_bits": 4,
    "group_size": 128,
    "calib_dataset": "c4",
    "calib_samples": 128
}

# 3. 执行量化
quantizer = Quantizer(model, tokenizer, config)
quantized_model = quantizer.run()

# 4. 保存量化后的模型
quantized_model.save_quantized("./qwen3-7b-int4")
tokenizer.save_pretrained("./qwen3-7b-int4")

print("量化完成，模型已保存至 ./qwen3-7b-int4")

进阶：使用 Eagle3 进行投机采样加速

AngelSlim 还支持 Eagle3 框架以加速推理。训练 Eagle3 草稿模型示例：

angelslim eagle3 train \
    --base_model Qwen/Qwen3-7B \
    --draft_model_output_dir ./eagle3-draft \
    --dataset "alpaca" \
    --batch_size 4 \
    --learning_rate 1e-4

更多高级功能（如扩散模型量化、Sherry 1.25bit 量化等）请参阅官方文档。

版本历史

v0.3.02026/01/13

v0.2.02025/11/05

v0.1.02025/08/06

常见问题

量化 Qwen 235B 大模型为 fp8 时遇到 OOM（显存溢出）或报错怎么办？

使用 Eagle3 speculative decoding（投机采样）后，推理速度为什么反而变慢了？

训练 Eagle3 VLM 离线模型时，设置 per_device_train_batch_size > 1 报张量尺寸不匹配错误（RuntimeError: size of tensor a must match size of tensor b）如何解决？

AngelSlim 的 W4A8 量化模型是否支持 TRT-LLM 部署？

训练一个 Eagle3 多模态模型大概需要多少资源和时间？

如何在 SGLang 中启动 AngelSlim 的量化模型（如 DeepSeek-R1 w4a8_fp8）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent