[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Tencent--AngelSlim":3,"tool-Tencent--AngelSlim":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":91,"env_deps":93,"category_tags":99,"github_topics":101,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":146},4435,"Tencent\u002FAngelSlim","AngelSlim","Model compression toolkit engineered for enhanced usability, comprehensiveness, and efficiency.","AngelSlim 是一款专为大模型压缩打造的高效工具包，旨在让庞大的 AI 模型变得更轻量、更易部署。它解决了大模型在资源受限设备上运行困难、推理速度慢以及存储成本高等痛点，通过统一的框架集成了多种主流压缩算法，让用户能轻松实现模型“瘦身”而不损失核心能力。\n\n无论是希望将大语言模型部署到手机或边缘设备的开发者，还是致力于探索新型压缩算法的研究人员，AngelSlim 都能提供强大的支持。其独特亮点在于不仅支持常见的 INT4、FP8 等量化技术，还原创了 Sherry（1.25 bit 超低位宽量化）、DAQ（保持知识的小参数更新量化）以及 SpecExit（推理早退机制）等前沿算法。此外，它还全面支持 Eagle3 投机解码训练框架，覆盖从文本、多模态到音频的各类模型，并兼容 Qwen3、DeepSeek、Hunyuan 等主流开源模型系列。凭借完善的文档和活跃的社区支持，AngelSlim 正成为连接高效算法与实际应用的重要桥梁。","English | [简体中文](README_cn.md)\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\".\u002Fdocs\u002Fsource\u002Fassets\u002Flogos\u002Fangelslim_logo_light.png\">\n    \u003Cimg alt=\"AngelSlim\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_a0279576bc93.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\nA more accessible, comprehensive, and efficient toolkit for large model compression.\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n          ✒️ \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.21233\">TechnicalReport\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 📖 \u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002F\">Documentation\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002FAngelSlim\">ModelScope\u003C\u002Fa>\n\u003Cbr>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n          💬 \u003Ca href=\".\u002Fdocs\u002Fsource\u002Fassets\u002Fangel_slim_wechat.png\">WeChat\u003C\u002Fa> | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FdHVNeuNdFt\">Discord\u003C\u002Fa>\n\u003Cbr>\n\u003C\u002Fp>\n\n## 📣Latest News\n- [26\u002F03\u002F25] We have released **DAQ**, the quantization algorithm that preserves the knowledge acquired while the update of parameters is relatively small during post-training training.[[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.22324) | [[Docs]](docs\u002Fsource\u002Ffeatures\u002Fquantization\u002Fdaq.md)\n- [26\u002F02\u002F09] We have released HY-1.8B-2Bit, 2bit on-device large language model,[[Huggingface]](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FHY-1.8B-2Bit).\n- [26\u002F01\u002F13] We have released v0.3. We support the training and deployment of Eagle3 for all-scale LLMs\u002FVLMs\u002FAudio models, as detailed in the [guidance documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html). And We released **Sherry**, the hardware-efficient 1.25 bit quantization algorithm [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07892) | [[Code]](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fsherry\u002FSherry)🔥🔥🔥\n- [25\u002F11\u002F05] We have released v0.2. Quantization support for new models, such as `GLM-4.6`, `Qwen3-VL` and `Qwen3-Omni`, open-sources the Eagle3 speculative decoding training framework, and updates the Diffusion model quantization tools.\n- [25\u002F09\u002F30] We have released **SpecExit**, the reasoning early-exit algorithm: [[Paper]](http:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24248) | [[Docs]](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Fspec_exit.html) | [[vLLM Code]](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fpull\u002F27192)\n- [25\u002F09\u002F26] We have released **TEQUILA**, the ternary quantization algorithm [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.23809) | [[Code]](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Ftequila\u002FTernaryQuant)\n- [25\u002F09\u002F24] We now support the PTQ quantization of NVFP4 for the Qwen3 series models. We also opensource [Qwen3-32B-NVFP4](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-32B_nvfp4) and [Qwen3-235B-A22B-NVFP4](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-235B-A22B_nvfp4) weights.\n\n\u003Cdetails>\n\u003Csummary>Previous News\u003C\u002Fsummary>\n\n- [25\u002F09\u002F01] We now support ​FP8 quantization​ of the [Hunyuan-MT-7B](https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuan-MT-7B-fp8) translation model. And enabled ​Torch inference and Benchmark evaluation​ for Eagle3. And implemented support for ​quantization and Cache​ for [FLUX](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fflux). And support ​quantization​ for the [Seed-OSS](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fseed_oss).\n- [25\u002F08\u002F06] We now support quantization for `Hunyuan 0.5B\u002F1.8B\u002F4B\u002F7B` and multimodal model `Qwen2.5VL 3B\u002F7B\u002F32B\u002F72B`, including `FP8\u002FINT4` algorithms, and quantization for `DeepSeek-R1\u002FV3` and `Kimi-K2`, including `FP8-Static` and `W4A8-FP8` algorithms. We also opensource `Hunyuan 1.8B\u002F4B\u002F7B` series Eagle3 model weight.\n- [25\u002F07\u002F04] We now support quantization for `Hunyuan\u002FQwen2.5\u002FQwen3\u002FDeepSeek-R1-Distill-Qwen` and other models, including `INT8\u002FFP8\u002FINT4` algorithms. We also opensource `Qwen3` series Eagle3 model weight.\n\n\u003C\u002Fdetails>\n\n## 🌟Key Features\n\n- **Highly Integrated**: This toolkit integrates mainstream compression algorithms into a unified framework, offering developers one-click access with exceptional ease of use.\n- **Continuous Innovation**: Beyond integrating widely-used industry algorithms, we are continuously researching better compression algorithms, which will be gradually open-sourced in the future.\n- **Performance-Driven**: We continuously optimize end-to-end performance in model compression workflows and algorithm deployment, such as enabling quantization of models like Qwen3-235B and DeepSeek-R1 on a single GPU.\n\n## 💼Technical Overview\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: middle;\">Scenario\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: middle;\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center; vertical-align: middle;\">Compression Strategy\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">Quantization\u003C\u002Fth>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">Speculative Decoding\u003C\u002Fth>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">Other Techniques\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Large Language Models (LLMs)\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan-dense-model\">Hunyuan-Dense\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan-a13b\">Hunyuan-MoE\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAngelSlim\u002Fqwen3-quant-68652e26da31740739d154f8\">Qwen3\u003C\u002Fa>\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FDeepSeek-R1-0528_w4a8_fp8\">DeepSeek-V3\u002FR1\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FGlm4_6-fp8_static\">GLM-4.6\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAngelSlim\u002Fqwen2-25-quant-68652d6cbdf5c0d4b1c4499a\">Qwen2.5\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">FP8-Static\u002FDynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">INT8-Dynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">INT4-GPTQ\u002FAWQ\u002FGPTAQ\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fd55b06aeffc53e31f485044c5026e754f4e27b74\u002Fconfigs\u002Fqwen3\u002Fnvfp4\">NVFP4\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fquantization\u002Ffp8_lepto.html\">LeptoQuant\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Ftequila\u002FTernaryQuant\">Tequila\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fsherry\u002FSherry\">Sherry\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Fspec_exit.html\">SpecExit\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>Sparse Attention\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>Under Development\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Vision Language Models (VLMs)\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"\">Hunyuan-VL\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanOCR\">HunyuanOCR\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl\">Qwen3-VL\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl\">Qwen2.5-VL\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3_vl\">FP8-Static\u002FDynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_5_vl\">INT8-Dynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_5_vl\">INT4-GPTQ\u002FAWQ\u002FGPTAQ\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>Token Pruning\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>Under Development\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Diffusion Models\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuanimage\">Hunyuan-Image\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">Hunyuan-Video\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan3d\">Hunyuan-3D\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen-image\">Qwen-Image\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fblack-forest-labs\u002Fflux1\">FLUX\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FWan-AI\u002Fwan21\">Wan\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-diffusion-xl-base-1.0\">SDXL\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html\">FP8-Dynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html\">FP8-Weight-Only\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>Cache\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">DeepCache\u003C\u002Fa>\u003C\u002Fli>\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">TeaCache\u003C\u002Fa>\u003C\u002Fli>\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">TaylorCache\u003C\u002Fa>\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n          \u003Cli>\n            \u003Cstrong>Sparse Attention\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>Under Development\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Speech Models​ (TTS\u002FASR)\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni\">Qwen3-Omni\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen2-audio\">Qwen2-Audio\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFunAudioLLM\u002FFun-CosyVoice3-0.5B-2512\">Fun-CosyVoice3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fblob\u002Fmain\u002Fdocs\u002Fsource\u002Fmodels\u002Fqwen3_omni\u002Fqwen3_omni_quant.md\">FP8-Static\u002FDynamic\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_audio\">INT8-Dynamic\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>Token Pruning\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>Under Development\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 🛎️How to Use\n\n### 1. Install AngelSlim\n\nWe recommend using `pip` to install the latest stable version of `AngelSlim`:\n\n```shell\npip install angelslim\n```\n\nAlternatively, you can clone the repository and install from source in editable mode:\n\n```shell\ncd AngelSlim && python setup.py install\n```\n\nFor more detailed installation instructions and platform-specific guidance, please refer to the [Installation Documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fgetting_started\u002Finstallation.html).\n\n\n\n### 2. Quick Start\n\n#### 2.1 Speculative Decoding\n\nAfter installing AngelSlim, you can quickly start Eagle3 training with the following scripts:\n\n```shell\n# Start the vLLM server\nbash scripts\u002Fspeculative\u002Frun_vllm_server.sh\n# Generate training data\nbash scripts\u002Fspeculative\u002Fgenerate_data_for_target_model.sh\n# Perform online training for the Eagle3 model\nbash scripts\u002Fspeculative\u002Ftrain_eagle3_online.sh\n```\n\nTraining and Deployment Guide for Eagle3: [LLM](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Feagle.html) | [VLM](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Fvlm_eagle.html) | [Audio(ASR)](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Faudio_asr_eagle.html) | [Audio(TTS)](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Faudio_tts_eagle.html).\n\n#### 2.2 LLM\u002FVLM\u002FAudio Model Quantization\n\nAfter installing `AngelSlim`, you can launch static FP8 quantization for the Qwen3-1.7B model with the following one-command script:\n\n```shell\npython3 tools\u002Frun.py -c configs\u002Fqwen3\u002Ffp8_static\u002Fqwen3-1_7b_fp8_static.yaml\n```\n\nThis example produces quantized model weights by performing PTQ calibration on a model loaded from HuggingFace.\n\n\u003Cdetails>\n\u003Csummary>Code-based Start\u003C\u002Fsummary>\n\n  To perform dynamic `FP8` quantization on `Qwen3-1.7B`:\n\n  ```python\n  from angelslim.engine import Engine\n\n  slim_engine = Engine()\n  # Prepare model\n  slim_engine.prepare_model(model_name=\"Qwen\", model_path=\"Qwen\u002FQwen3-1.7B\",)\n  # Initialize compressor\n  slim_engine.prepare_compressor(\"PTQ\", default_method=\"fp8_dynamic\")\n  # Compress model\n  slim_engine.run()\n  # Save compressed model\n  slim_engine.save(\".\u002Foutput\")\n  ```\n\n\u003C\u002Fdetails>\n\nFor more details, please refer to the [Quick Start Documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fgetting_started\u002Fquickstrat.html).\n\n#### 2.3 Diffusion Model Quantization\n\n  Use the `scripts\u002Fdiffusion\u002Frun_diffusion.py` for quantization and inference:\n\n  ```shell\n  # Online quantization and inference\n  python scripts\u002Fdiffusion\u002Frun_diffusion.py \\\n    --model-name-or-path black-forest-labs\u002FFLUX.1-schnell \\\n    --quant-type fp8-per-tensor \\\n    --prompt \"A cat holding a sign that says hello world\" \\\n    --height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0\n  ```\n  For more quantization inference methods, please refer to [the Diffusion Model Quantization Documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html).\n\n#### 2.4 Token Compression (VLM)\n\nAngelSlim provides a universal metadata-driven framework for vision token pruning and merging. You can quickly verify a compression strategy (e.g., **VisionZip**) with a smoke test:\n\n```shell\npython tools\u002Ftest_universal_pruning.py \\\n    --model_path \"Qwen\u002FQwen2.5-VL-3B-Instruct\" \\\n    --config \"configs\u002Fqwen2_5_vl\u002Fpruning\u002Fvisionzip_r0.9.yaml\"\n```\n\nFor more details on implementing new strategies, please refer to the [Token Compressor Documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Ftoken_compressor\u002Findex.html).\n\n### 3. Deployment and Testing\n\n#### 3.1 Offline Inference\n\nTo test offline inference with a quantized model loaded via `transformers`.\n\n\u003Cdetails>\n\u003Csummary>Run script details\u003C\u002Fsummary>\n\n```shell\npython scripts\u002Fdeploy\u002Foffline.py $MODEL_PATH \"Hello, my name is\"\n```\n\nWhere `MODEL_PATH` is the path to the quantized model output.\n\n\u003C\u002Fdetails>\n\n#### 3.2 API Service Deployment\n\nAfter specifying the quantized model path `MODEL_PATH`, you can deploy an OpenAI-compatible API service using **vLLM** and **SGLang** inference frameworks.\n\n\u003Cdetails>\n\u003Csummary>Run script details\u003C\u002Fsummary>\n\n- **vLLM**\n\n  Use the following script to launch a [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) server, recommended version `vllm>=0.8.5.post1`. For MOE INT8 quantized models, vllm>=0.9.0 is required.\n\n  ```shell\n  bash scripts\u002Fdeploy\u002Frun_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096\n  ```\n  Where `-d` is the visible devices, `-t` is tensor parallel size, `-p` is pipeline parallel size, and `-g` is the GPU memory utilization.\n\n- **SGLang**\n\n  Use the following script to launch a [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang) server, recommended version `sglang>=0.4.6.post1`.\n\n  ```shell\n  bash scripts\u002Fdeploy\u002Frun_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8\n  ```\n\n\u003C\u002Fdetails>\n\n#### 3.3 Service Invocation\n\nInvoke requests via [OpenAI's API format](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fapi-reference\u002Fintroduction).\n\n\u003Cdetails>\n\u003Csummary>Run script details\u003C\u002Fsummary>\n\n```shell\nbash scripts\u002Fdeploy\u002Fopenai.sh -m $MODEL_PATH -p \"Hello, my name is\" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt \"You are a helpful assistant.\"\n```\nwhere `-p` is the input prompt.\n\n\u003C\u002Fdetails>\n\n#### 3.4 Performance Evaluation\n\nEvaluate the performance of quantized model using [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness), recommended version`lm-eval>=0.4.8`.\n\n\u003Cdetails>\n\u003Csummary>Run script details\u003C\u002Fsummary>\n\n```shell\nbash scripts\u002Fdeploy\u002Flm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b \"auto\" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH\n```\nwhere `RESULT_PATH` is the directory for saving test results, `-b` is batch size, `--tasks` specifies the evaluation tasks, and `-n` is the number of few-shot examples.\n\n\u003C\u002Fdetails>\n\nFor more detaileds, please refer to the [Deployment Documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fdeployment\u002Fdeploy.html).\n\n\n## 📈 Benchmark\n\n### 1. Speculative Decoding\n\nWe evaluated the Eagle3 model trained by AngelSlim on tasks including code generation, mathematical reasoning, instruction following, text generation, and multimodal understanding using vLLM. The inference acceleration and context length performance of our trained model under the settings of num_speculative_tokens = 2 or 4 are presented as follows, with an accept length of 1.8–3.5 and a maximum speedup of 1.4–1.9×.\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_e6923e2f830d.png\">\n    \u003Cimg alt=\"AngelSlim\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_e6923e2f830d.png\" width=100%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\n#### 1.1 Qwen3 Series Models\n\nBenchmark results for Qwen3 series models using Eagle3 speculative decoding on vLLM (v0.11.2) across **MT-bench**, **HumanEval**, **GSM8K** and **Alpaca**, using a single GPU (**tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024**).\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Model\u003C\u002Fth>\n      \u003Cth>Method\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">GSM8K\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">Alpaca\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">HumanEval\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">MT-bench\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">Mean\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>\u003C\u002Fth>\u003Cth>\u003C\u002Fth>\n      \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\u003Cth>accept length\u003C\u002Fth>\n      \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\u003Cth>accept length\u003C\u002Fth>\n      \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\u003Cth>accept length\u003C\u002Fth>\n      \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\u003Cth>accept length\u003C\u002Fth>\n      \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\u003Cth>accept length\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n\n  \u003Ctbody>\n    \u003C!-- Qwen3-1.7B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-1.7B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>376.42\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>378.86\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>378.38\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>390.53\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>381.05\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-1.7B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>616.9\u003C\u002Ftd>\u003Ctd>2.13\u003C\u002Ftd>\n      \u003Ctd>653.29\u003C\u002Ftd>\u003Ctd>2.19\u003C\u002Ftd>\n      \u003Ctd>680.1\u003C\u002Ftd>\u003Ctd>2.2\u003C\u002Ftd>\n      \u003Ctd>621.44\u003C\u002Ftd>\u003Ctd>2.17\u003C\u002Ftd>\n      \u003Ctd>642.93\u003C\u002Ftd>\u003Ctd>2.17\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-4B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-4B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>229.05\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>235.29\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>234.66\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>234.04\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>233.26\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-4B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>389.35\u003C\u002Ftd>\u003Ctd>2.07\u003C\u002Ftd>\n      \u003Ctd>395.97\u003C\u002Ftd>\u003Ctd>2.1\u003C\u002Ftd>\n      \u003Ctd>377.84\u003C\u002Ftd>\u003Ctd>2.08\u003C\u002Ftd>\n      \u003Ctd>384.6\u003C\u002Ftd>\u003Ctd>2.07\u003C\u002Ftd>\n      \u003Ctd>386.94\u003C\u002Ftd>\u003Ctd>2.08\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-8B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-8B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>149.63\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>149.93\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>153.85\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>153.81\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>151.81\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-8B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>257.32\u003C\u002Ftd>\u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>266.69\u003C\u002Ftd>\u003Ctd>2.02\u003C\u002Ftd>\n      \u003Ctd>244.89\u003C\u002Ftd>\u003Ctd>1.97\u003C\u002Ftd>\n      \u003Ctd>258.2\u003C\u002Ftd>\u003Ctd>1.97\u003C\u002Ftd>\n      \u003Ctd>257.52\u003C\u002Ftd>\u003Ctd>1.99\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-14B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-14B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>92.97\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>92.66\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>92.94\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>94.46\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>93.26\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-14B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>153.72\u003C\u002Ftd>\u003Ctd>1.87\u003C\u002Ftd>\n      \u003Ctd>140.46\u003C\u002Ftd>\u003Ctd>1.78\u003C\u002Ftd>\n      \u003Ctd>144.68\u003C\u002Ftd>\u003Ctd>1.76\u003C\u002Ftd>\n      \u003Ctd>142.45\u003C\u002Ftd>\u003Ctd>1.74\u003C\u002Ftd>\n      \u003Ctd>145.33\u003C\u002Ftd>\u003Ctd>1.79\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-32B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-32B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>43.49\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.38\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.19\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.3\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.32\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-32B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>80.43\u003C\u002Ftd>\u003Ctd>2.01\u003C\u002Ftd>\n      \u003Ctd>72.49\u003C\u002Ftd>\u003Ctd>1.9\u003C\u002Ftd>\n      \u003Ctd>71.57\u003C\u002Ftd>\u003Ctd>1.86\u003C\u002Ftd>\n      \u003Ctd>74.1\u003C\u002Ftd>\u003Ctd>1.86\u003C\u002Ftd>\n      \u003Ctd>74.1\u003C\u002Ftd>\u003Ctd>1.91\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-30B-A3B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-30B-A3B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>311.84\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>320.43\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>325.77\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>325.42\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>320.87\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-a3B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>453.97\u003C\u002Ftd>\u003Ctd>2.1\u003C\u002Ftd>\n      \u003Ctd>432.45\u003C\u002Ftd>\u003Ctd>2.04\u003C\u002Ftd>\n      \u003Ctd>428.81\u003C\u002Ftd>\u003Ctd>2.02\u003C\u002Ftd>\n      \u003Ctd>437.06\u003C\u002Ftd>\u003Ctd>2.01\u003C\u002Ftd>\n      \u003Ctd>438.07\u003C\u002Ftd>\u003Ctd>2.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 1.2 VLM Models\n\n##### 1.2.1 Qwen3-VL Series Models\n\nBenchmark results for Qwen3-VL series models using Eagle3 speculative decoding on vLLM (v0.12.0) across language and multimodal tasks, using a single GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**).\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Method\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">GSM8K\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">Alpaca\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">HumanEval\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MT-bench\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MATH-500\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MMMU\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MMStar\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">Mean\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-2B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>348.55\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>350.9\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>346.07\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>346.31\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>82.96\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>83.27\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>81.63\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>234.24\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-2B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>511.52\u003C\u002Ftd>\n    \u003Ctd>2.11\u003C\u002Ftd>\n    \u003Ctd>560.55\u003C\u002Ftd>\n    \u003Ctd>2.26\u003C\u002Ftd>\n    \u003Ctd>826.01\u003C\u002Ftd>\n    \u003Ctd>3.39\u003C\u002Ftd>\n    \u003Ctd>555.22\u003C\u002Ftd>\n    \u003Ctd>2.29\u003C\u002Ftd>\n    \u003Ctd>163.09\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>154.18\u003C\u002Ftd>\n    \u003Ctd>2.55\u003C\u002Ftd>\n    \u003Ctd>139.73\u003C\u002Ftd>\n    \u003Ctd>2.31\u003C\u002Ftd>\n    \u003Ctd>415.76\u003C\u002Ftd>\n    \u003Ctd>2.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-4B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>212.87\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>213.24\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>211.69\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>212.1\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>67.96\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>65.88\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>67.75\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>150.21\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-4B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>415.29\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>372.89\u003C\u002Ftd>\n    \u003Ctd>2.26\u003C\u002Ftd>\n    \u003Ctd>459.37\u003C\u002Ftd>\n    \u003Ctd>2.82\u003C\u002Ftd>\n    \u003Ctd>382.33\u003C\u002Ftd>\n    \u003Ctd>2.34\u003C\u002Ftd>\n    \u003Ctd>141.87\u003C\u002Ftd>\n    \u003Ctd>2.72\u003C\u002Ftd>\n    \u003Ctd>104.44\u003C\u002Ftd>\n    \u003Ctd>2.05\u003C\u002Ftd>\n    \u003Ctd>107.07\u003C\u002Ftd>\n    \u003Ctd>2.1\u003C\u002Ftd>\n    \u003Ctd>283.32\u003C\u002Ftd>\n    \u003Ctd>2.41\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-30B-A3B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>179.94\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>184.6\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>168.68\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>180.57\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>31.08\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>31.51\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>30.93\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>115.33\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-30B-A3B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>281.93\u003C\u002Ftd>\n    \u003Ctd>2.82\u003C\u002Ftd>\n    \u003Ctd>241.42\u003C\u002Ftd>\n    \u003Ctd>2.13\u003C\u002Ftd>\n    \u003Ctd>223.05\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>240.47\u003C\u002Ftd>\n    \u003Ctd>2.19\u003C\u002Ftd>\n    \u003Ctd>75.31\u003C\u002Ftd>\n    \u003Ctd>2.79\u003C\u002Ftd>\n    \u003Ctd>48.47\u003C\u002Ftd>\n    \u003Ctd>1.78\u003C\u002Ftd>\n    \u003Ctd>52.57\u003C\u002Ftd>\n    \u003Ctd>1.94\u003C\u002Ftd>\n    \u003Ctd>166.17\u003C\u002Ftd>\n    \u003Ctd>2.32\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n##### 1.2.2 HunyuanOCR Model\n\nBenchmark results for HunyuanOCR using Eagle3 speculative decoding on vLLM (v0.13.0) across **[OmniDocBench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopendatalab\u002FOmniDocBench)** dataset, using a single GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**).\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Method\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">OmniDocBench\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Hunyuan-OCR\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>70.12\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FHunyuanOCR_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>108.1\u003C\u002Ftd>\n    \u003Ctd>2.08\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 1.3 Audio Models\n\n##### 1.3.1 Qwen2-Audio Model\n\nBenchmark results for Qwen2-Audio using Eagle3 speculative decoding on vLLM (v0.12.0) across **[LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12)** dataset, using a single GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**).\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Method\u003C\u002Fth>\n   \u003Cth colspan=\"2\" style=\"text-align:center;\">LibriSpeech\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>78.76\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen2-Audio-7B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>146.66\u003C\u002Ftd>\n    \u003Ctd>3.51\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### 1.3.2 Fun-CosyVoice3 Model\n\nBenchmark results for Fun-CosyVoice3 using Eagle3 speculative decoding across **[LibriTTS](https:\u002F\u002Fwww.openslr.org\u002F60\u002F)** dataset, using a single GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**).\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Method\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">LibriTTS\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>throughput (tokens\u002Fs)\u003C\u002Fth>\n    \u003Cth>accept length\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Fun-CosyVoice3\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>-\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FFun-CosyVoice3-0.5B-2512_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>-\u003C\u002Ftd>\n    \u003Ctd>1.96\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> Adapted for Transformers backend inference, only displays accept length. vLLM speedup ~1.6×, estimated from baseline LLM speedup.\n\n### 2. Quantization\n\nThe performance test results for selected models are shown below. For the complete benchmark, refer to the [Benchmark documentation](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fperformance\u002Fquantization\u002Fbenchmarks.html)\n\n#### 2.1 Hunyuan Series Models\n\nBenchmark results for the `Hunyuan-Instruct` model with `FP8`, `INT4-AWQ` and `INT4-GPTQ` quantization algorithms on datasets including`OlympiadBench`, `AIME 2024` and `DROP`:\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>OlympiadBench\u003C\u002Fth>\u003Cth>AIME 2024\u003C\u002Fth>\u003Cth>DROP\u003C\u002Fth>\u003Cth>GPQA-Diamond\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-A13B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>82.7\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>71.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.0\u003C\u002Ftd>\u003Ctd>86.7\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>82.7\u003C\u002Ftd>\u003Ctd>86.7\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>82.6\u003C\u002Ftd>\u003Ctd>85.6\u003C\u002Ftd>\u003Ctd>91.0\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-7B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>76.5\u003C\u002Ftd>\u003Ctd>81.1\u003C\u002Ftd>\u003Ctd>85.9\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>76.6\u003C\u002Ftd>\u003Ctd>80.9\u003C\u002Ftd>\u003Ctd>86.0\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>76.2\u003C\u002Ftd>\u003Ctd>81.0\u003C\u002Ftd>\u003Ctd>85.7\u003C\u002Ftd>\u003Ctd>60.0\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>76.4\u003C\u002Ftd>\u003Ctd>80.9\u003C\u002Ftd>\u003Ctd>85.9\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-4B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>73.1\u003C\u002Ftd>\u003Ctd>78.3\u003C\u002Ftd>\u003Ctd>78.2\u003C\u002Ftd>\u003Ctd>61.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>73.1\u003C\u002Ftd>\u003Ctd>76.6\u003C\u002Ftd>\u003Ctd>78.3\u003C\u002Ftd>\u003Ctd>60.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>72.9\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>78.1\u003C\u002Ftd>\u003Ctd>58.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>72.8\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>78.2\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-1.8B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>63.4\u003C\u002Ftd>\u003Ctd>56.7\u003C\u002Ftd>\u003Ctd>76.7\u003C\u002Ftd>\u003Ctd>47.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>62.5\u003C\u002Ftd>\u003Ctd>55.2\u003C\u002Ftd>\u003Ctd>75.1\u003C\u002Ftd>\u003Ctd>47.7\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>60.9\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>73.0\u003C\u002Ftd>\u003Ctd>44.4\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>61.7\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>71.7\u003C\u002Ftd>\u003Ctd>43.6\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-0.5B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>29.6\u003C\u002Ftd>\u003Ctd>17.2\u003C\u002Ftd>\u003Ctd>52.8\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>29.6\u003C\u002Ftd>\u003Ctd>17.2\u003C\u002Ftd>\u003Ctd>51.6\u003C\u002Ftd>\u003Ctd>22.5\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>26.8\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>50.9\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>26.3\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>48.9\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 2.2 Qwen3 Series Models\n\nBenchmark results for Qwen3 series models with `FP8-Static`, `FP8-Dynamic`, `INT4-GPTQ`, and `INT4-AWQ` quantization algorithms on datasets including `CEVAL`, `MMLU`, `GSM8K`, and `HUMANEVAL`:\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>CEVAL\u003C\u002Fth>\u003Cth>MMLU\u003C\u002Fth>\u003Cth>GSM8K\u003C\u002Fth>\u003Cth>HUMANEVAL\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-0.6B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>45.84\u003C\u002Ftd>\u003Ctd>47.21\u003C\u002Ftd>\u003Ctd>42.99\u003C\u002Ftd>\u003Ctd>19.51\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.87\u003C\u002Ftd>\u003Ctd>38.06\u003C\u002Ftd>\u003Ctd>18.90\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.93\u003C\u002Ftd>\u003Ctd>38.29\u003C\u002Ftd>\u003Ctd>20.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>45.17\u003C\u002Ftd>\u003Ctd>46.95\u003C\u002Ftd>\u003Ctd>41.17\u003C\u002Ftd>\u003Ctd>21.34\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"6\">Qwen3-8B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>79.27\u003C\u002Ftd>\u003Ctd>74.78\u003C\u002Ftd>\u003Ctd>87.79\u003C\u002Ftd>\u003Ctd>63.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>78.23\u003C\u002Ftd>\u003Ctd>74.79\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>62.20\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>78.45\u003C\u002Ftd>\u003Ctd>74.75\u003C\u002Ftd>\u003Ctd>87.64\u003C\u002Ftd>\u003Ctd>62.80\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>78.01\u003C\u002Ftd>\u003Ctd>74.84\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>67.07\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>77.19\u003C\u002Ftd>\u003Ctd>73.26\u003C\u002Ftd>\u003Ctd>86.43\u003C\u002Ftd>\u003Ctd>62.20\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>76.15\u003C\u002Ftd>\u003Ctd>73.59\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>63.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"6\">Qwen3-14B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>83.06\u003C\u002Ftd>\u003Ctd>78.90\u003C\u002Ftd>\u003Ctd>88.40\u003C\u002Ftd>\u003Ctd>55.49\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>82.62\u003C\u002Ftd>\u003Ctd>78.57\u003C\u002Ftd>\u003Ctd>89.46\u003C\u002Ftd>\u003Ctd>57.32\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>82.24\u003C\u002Ftd>\u003Ctd>78.92\u003C\u002Ftd>\u003Ctd>88.32\u003C\u002Ftd>\u003Ctd>52.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>81.87\u003C\u002Ftd>\u003Ctd>78.13\u003C\u002Ftd>\u003Ctd>86.28\u003C\u002Ftd>\u003Ctd>56.10\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>81.05\u003C\u002Ftd>\u003Ctd>78.02\u003C\u002Ftd>\u003Ctd>87.34\u003C\u002Ftd>\u003Ctd>57.93\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>82.02\u003C\u002Ftd>\u003Ctd>77.68\u003C\u002Ftd>\u003Ctd>84.23\u003C\u002Ftd>\u003Ctd>61.59\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen3-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>86.55\u003C\u002Ftd>\u003Ctd>82.00\u003C\u002Ftd>\u003Ctd>74.53\u003C\u002Ftd>\u003Ctd>37.80\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>86.92\u003C\u002Ftd>\u003Ctd>81.78\u003C\u002Ftd>\u003Ctd>70.20\u003C\u002Ftd>\u003Ctd>39.63\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>86.55\u003C\u002Ftd>\u003Ctd>81.89\u003C\u002Ftd>\u003Ctd>70.43\u003C\u002Ftd>\u003Ctd>38.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>81.01\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>43.29\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>81.54\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>36.59\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-30B-A3B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>83.66\u003C\u002Ftd>\u003Ctd>79.36\u003C\u002Ftd>\u003Ctd>89.99\u003C\u002Ftd>\u003Ctd>31.71\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.95\u003C\u002Ftd>\u003Ctd>79.47\u003C\u002Ftd>\u003Ctd>89.01\u003C\u002Ftd>\u003Ctd>31.10\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>84.10\u003C\u002Ftd>\u003Ctd>79.40\u003C\u002Ftd>\u003Ctd>89.16\u003C\u002Ftd>\u003Ctd>32.93\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>83.36\u003C\u002Ftd>\u003Ctd>79.48\u003C\u002Ftd>\u003Ctd>89.16\u003C\u002Ftd>\u003Ctd>34.15\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-235B-A22B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>89.60\u003C\u002Ftd>\u003Ctd>86.28\u003C\u002Ftd>\u003Ctd>85.29\u003C\u002Ftd>\u003Ctd>27.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>89.67\u003C\u002Ftd>\u003Ctd>86.19\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>27.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>89.67\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>85.22\u003C\u002Ftd>\u003Ctd>28.05\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>88.93\u003C\u002Ftd>\u003Ctd>86.20\u003C\u002Ftd>\u003Ctd>86.20\u003C\u002Ftd>\u003Ctd>23.78\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 2.3 DeepSeek Series Models\n\nBenchmark results for DeepSeek-R1-0528 series models with `FP8-Block-Wise` and `W4A8-FP8` quantization algorithms on datasets including `GPQA Diamond`、`AIME 2024`、`SimpleQA` and `LiveCodeBench`：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>GPQA Diamond\u003C\u002Fth>\u003Cth>AIME 2024\u003C\u002Fth>\u003Cth>SimpleQA\u003C\u002Fth>\u003Cth>LiveCodeBench\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"6\">DeepSeek-R1-0528\u003C\u002Ftd>\u003Ctd>FP8-Block-Wise\u003C\u002Ftd>\u003Ctd>78.28\u003C\u002Ftd>\u003Ctd>88.67\u003C\u002Ftd>\u003Ctd>27.8\u003C\u002Ftd>\u003Ctd>77.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>W4A8-FP8\u003C\u002Ftd>\u003Ctd>77.37\u003C\u002Ftd>\u003Ctd>88.67\u003C\u002Ftd>\u003Ctd>26.83\u003C\u002Ftd>\u003Ctd>78.86\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>Note\u003C\u002Fsummary>\n\n> - The above results are based on the average of 5 test runs deployed with TRT-LLM\n> - The hyperparameters used during evaluation are as follows:\n> ```json\n>{\n>  \"top_k\": 20,\n>  \"top_p\": 0.6,\n>  \"temperature\": 0.7,\n>  \"output_seq_len\": 32768,\n>  \"max_input_seq_len\": 16384\n>}\n>```\n\n\u003C\u002Fdetails>\n\n#### 2.4 Qwen-VL Series Models\n\n**Qwen3-VL Benchmark**\n\nBenchmark results for Qwen3VL series models with `BF16`、`FP8-Static` and `FP8-Dynamic` quantization algorithms on datasets including `MMMU_VAL`、`DocVQA_VAL` and `ChartQA_TEST`：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>MMMU_VAL\u003C\u002Fth>\u003Cth>DocVQA_VAL\u003C\u002Fth>\u003Cth>ChartQA_TEST\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen3-VL-32B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>60.11\u003C\u002Ftd>\u003Ctd>96.08\u003C\u002Ftd>\u003Ctd>94.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>61.22\u003C\u002Ftd>\u003Ctd>96.00\u003C\u002Ftd>\u003Ctd>94.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>60.78\u003C\u002Ftd>\u003Ctd>96.19\u003C\u002Ftd>\u003Ctd>94.72\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"2\">Qwen3-VL-30B-A3B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>50.44\u003C\u002Ftd>\u003Ctd>95.28\u003C\u002Ftd>\u003Ctd>95.36\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>50.67\u003C\u002Ftd>\u003Ctd>95.25\u003C\u002Ftd>\u003Ctd>95.20\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Qwen2.5VL Benchmark\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nBenchmark results for Qwen2.5VL series models with `BF16`、`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ` quantization algorithms on datasets including `MMMU_VAL`、`DocVQA_VAL` and `ChartQA_TEST`：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>MMMU_VAL\u003C\u002Fth>\u003Cth>MMLDocVQA_VALU\u003C\u002Fth>\u003Cth>ChartQA_TEST\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-3B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>47.11\u003C\u002Ftd>\u003Ctd>78.57\u003C\u002Ftd>\u003Ctd>80.32\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>47.33\u003C\u002Ftd>\u003Ctd>79.34\u003C\u002Ftd>\u003Ctd>79.68\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.93\u003C\u002Ftd>\u003Ctd>38.29\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>46.56\u003C\u002Ftd>\u003Ctd>77.20\u003C\u002Ftd>\u003Ctd>78.96\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>45.78\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>79.60\u003C\u002Ftd>\u003C\u002Ftr>\n   \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-7B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>45.44\u003C\u002Ftd>\u003Ctd>89.71\u003C\u002Ftd>\u003Ctd>84.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>47.00\u003C\u002Ftd>\u003Ctd>89.83\u003C\u002Ftd>\u003Ctd>85.92\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>47.22\u003C\u002Ftd>\u003Ctd>89.80\u003C\u002Ftd>\u003Ctd>88.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>46.67\u003C\u002Ftd>\u003Ctd>90.45\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>45.67\u003C\u002Ftd>\u003Ctd>89.28\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>57.00\u003C\u002Ftd>\u003Ctd>90.03\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>57.00\u003C\u002Ftd>\u003Ctd>89.88\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>56.44\u003C\u002Ftd>\u003Ctd>89.88\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>55.22\u003C\u002Ftd>\u003Ctd>89.80 \u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>55.22\u003C\u002Ftd>\u003Ctd>90.30\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-72B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>58.78\u003C\u002Ftd>\u003Ctd>94.39\u003C\u002Ftd>\u003Ctd>85.60\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>57.89\u003C\u002Ftd>\u003Ctd>94.41\u003C\u002Ftd>\u003Ctd>85.84\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>58.67\u003C\u002Ftd>\u003Ctd>94.38\u003C\u002Ftd>\u003Ctd>85.60\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>57.56\u003C\u002Ftd>\u003Ctd>94.46\u003C\u002Ftd>\u003Ctd>86.48\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>58.78\u003C\u002Ftd>\u003Ctd>94.19\u003C\u002Ftd>\u003Ctd>87.28\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n#### 2.5 Qwen-Omni Series Models\n\n**Qwen3-Omni Text to Text Benchmark**\n\nBenchmark results for Qwen3-Omni series models in BF16, FP8-Static, and FP8-Dynamic on aime25, gpqa_diamond, and mmlu_redux are as follows:\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>aime25\u003C\u002Fth>\u003Cth>gpqa_diamond\u003C\u002Fth>\u003Cth>mmlu_redux\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>73.32\u003C\u002Ftd>\u003Ctd>56.77\u003C\u002Ftd>\u003Ctd>88.09\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>71.33\u003C\u002Ftd>\u003Ctd>56.57\u003C\u002Ftd>\u003Ctd>87.91\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>73.33\u003C\u002Ftd>\u003Ctd>55.15\u003C\u002Ftd>\u003Ctd>88.07\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>Note\u003C\u002Fsummary>\n\n> - The above evaluation results were obtained by deploying with the vLLM framework and averaging over 5 runs (vLLM only supports the thinker component).\n> - The hyperparameters used during evaluation are as follows:\n> ```json\n>{\n>  \"top_p\": 0.95,\n>  \"temperature\": 0.6,\n>  \"do_sample\": true,\n>  \"max-model-len 65536\": 65536\n>}\n>```\n\n\u003C\u002Fdetails>\n\n#### 2.6 Other Models\n\nOther models such as GLM-4.6, Qwen2.5, and Seed-OSS have been evaluated on benchmarks like `CEVAL`, `MMLU`, and `GSM8K` using quantization strategies including `FP8-Static`, `FP8-Dynamic`, `INT4-GPTQ`, and `INT4-AWQ`.\n\n\u003Cdetails>\n\u003Csummary>Benchmark Experiment Details\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>Model\u003C\u002Fth>\u003Cth>Quantization\u003C\u002Fth>\u003Cth>CEVAL\u003C\u002Fth>\u003Cth>MMLU\u003C\u002Fth>\u003Cth>GSM8K\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen2.5-1.5B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>67.01\u003C\u002Ftd>\u003Ctd>60.05\u003C\u002Ftd>\u003Ctd>54.28\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>66.27\u003C\u002Ftd>\u003Ctd>60.23\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>66.79\u003C\u002Ftd>\u003Ctd>60.08\u003C\u002Ftd>\u003Ctd>51.71\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5-7B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>81.20\u003C\u002Ftd>\u003Ctd>74.55\u003C\u002Ftd>\u003Ctd>79.98\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>81.13\u003C\u002Ftd>\u003Ctd>74.03\u003C\u002Ftd>\u003Ctd>79.30\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>80.31\u003C\u002Ftd>\u003Ctd>74.07\u003C\u002Ftd>\u003Ctd>79.00\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>79.05\u003C\u002Ftd>\u003Ctd>73.05\u003C\u002Ftd>\u003Ctd>74.75\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>79.35\u003C\u002Ftd>\u003Ctd>73.22\u003C\u002Ftd>\u003Ctd>79.38\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5-32B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>83.21\u003C\u002Ftd>\u003Ctd>81.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>87.59\u003C\u002Ftd>\u003Ctd>83.08\u003C\u002Ftd>\u003Ctd>81.58\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>83.04\u003C\u002Ftd>\u003Ctd>81.58\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>86.70\u003C\u002Ftd>\u003Ctd>82.45\u003C\u002Ftd>\u003Ctd>82.03\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>87.00\u003C\u002Ftd>\u003Ctd>82.64\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-7B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>53.49\u003C\u002Ftd>\u003Ctd>53.80\u003C\u002Ftd>\u003Ctd>75.74\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>53.57\u003C\u002Ftd>\u003Ctd>54.17\u003C\u002Ftd>\u003Ctd>76.19\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>52.97\u003C\u002Ftd>\u003Ctd>54.13\u003C\u002Ftd>\u003Ctd>74.15\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>51.86\u003C\u002Ftd>\u003Ctd>52.44\u003C\u002Ftd>\u003Ctd>75.89\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>53.49\u003C\u002Ftd>\u003Ctd>53.70\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-14B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>77.71\u003C\u002Ftd>\u003Ctd>74.28\u003C\u002Ftd>\u003Ctd>85.67\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>77.56\u003C\u002Ftd>\u003Ctd>74.66\u003C\u002Ftd>\u003Ctd>86.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>76.82\u003C\u002Ftd>\u003Ctd>74.63\u003C\u002Ftd>\u003Ctd>87.11\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>74.29\u003C\u002Ftd>\u003Ctd>72.37\u003C\u002Ftd>\u003Ctd>84.61\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>74.81\u003C\u002Ftd>\u003Ctd>73.00\u003C\u002Ftd>\u003Ctd>86.05\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>84.18\u003C\u002Ftd>\u003Ctd>80.89\u003C\u002Ftd>\u003Ctd>87.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.43\u003C\u002Ftd>\u003Ctd>80.90\u003C\u002Ftd>\u003Ctd>87.57\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>83.73\u003C\u002Ftd>\u003Ctd>81.10\u003C\u002Ftd>\u003Ctd>86.43\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>84.10\u003C\u002Ftd>\u003Ctd>79.80\u003C\u002Ftd>\u003Ctd>86.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>82.84\u003C\u002Ftd>\u003Ctd>80.15\u003C\u002Ftd>\u003Ctd>87.19\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n### 3. Token Compression (VLM)\n\nWe evaluated various vision token compression strategies on the **Qwen2.5-VL-3B-Instruct** model across multiple multimodal benchmarks. You can replicate these results using the following command:\n\n```shell\npython tools\u002Frun_pruning_eval.py \\\n    --model_path \"Qwen\u002FQwen2.5-VL-3B-Instruct\" \\\n    --configs \"configs\u002Fqwen2_5_vl\u002Fpruning\u002Fvisionzip_r0.9.yaml\" \\\n    --tasks \"textvqa\" \\\n    --output_dir \".\u002Fresults\u002Fvisionzip_test\"\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Detailed Benchmark Results (Qwen2.5-VL-3B-Instruct)\u003C\u002Fb>\u003C\u002Fsummary>\n\n\u003Ctable style=\"text-align:center; vertical-align:middle;\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Method\u003C\u002Fth>\n      \u003Cth>AI2D\u003C\u002Fth>\n      \u003Cth>ChartQA\u003C\u002Fth>\n      \u003Cth>DocVQA\u003C\u002Fth>\n      \u003Cth>MMB\u003Csup>CN\u003C\u002Fsup>\u003C\u002Fth>\n      \u003Cth>MMB\u003C\u002Fth>\n      \u003Cth>MME\u003C\u002Fth>\n      \u003Cth>MMStar\u003C\u002Fth>\n      \u003Cth>OCRBench\u003C\u002Fth>\n      \u003Cth>POPE\u003C\u002Fth>\n      \u003Cth>SQA\u003C\u002Fth>\n      \u003Cth>VQA\u003Csup>Text\u003C\u002Fsup>\u003C\u002Fth>\n      \u003Cth>Avg\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>\u003Cb>Baseline\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>79.11\u003C\u002Ftd>\n      \u003Ctd>83.56\u003C\u002Ftd>\n      \u003Ctd>92.48\u003C\u002Ftd>\n      \u003Ctd>73.28\u003C\u002Ftd>\n      \u003Ctd>77.32\u003C\u002Ftd>\n      \u003Ctd>1517\u003C\u002Ftd>\n      \u003Ctd>56.05\u003C\u002Ftd>\n      \u003Ctd>80.10\u003C\u002Ftd>\n      \u003Ctd>87.41\u003C\u002Ftd>\n      \u003Ctd>80.81\u003C\u002Ftd>\n      \u003Ctd>78.79\u003C\u002Ftd>\n      \u003Ctd>100.0%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #808080;\">\n      \u003Cth colspan=\"13\">Retain 25% Tokens (75% Compression Ratio)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FastV\u003C\u002Ftd>\u003Ctd>72.70\u003C\u002Ftd>\u003Ctd>70.04\u003C\u002Ftd>\u003Ctd>75.98\u003C\u002Ftd>\u003Ctd>63.40\u003C\u002Ftd>\u003Ctd>66.92\u003C\u002Ftd>\u003Ctd>1437\u003C\u002Ftd>\u003Ctd>47.39\u003C\u002Ftd>\u003Ctd>36.60\u003C\u002Ftd>\u003Ctd>86.42\u003C\u002Ftd>\u003Ctd>79.33\u003C\u002Ftd>\u003Ctd>73.51\u003C\u002Ftd>\u003Ctd>86.02%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionZip\u003C\u002Ftd>\u003Ctd>74.19\u003C\u002Ftd>\u003Ctd>71.32\u003C\u002Ftd>\u003Ctd>70.11\u003C\u002Ftd>\u003Ctd>67.35\u003C\u002Ftd>\u003Ctd>71.22\u003C\u002Ftd>\u003Ctd>1452\u003C\u002Ftd>\u003Ctd>49.37\u003C\u002Ftd>\u003Ctd>42.50\u003C\u002Ftd>\u003Ctd>85.51\u003C\u002Ftd>\u003Ctd>\u003Cu>81.36\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>68.12\u003C\u002Ftd>\u003Ctd>87.34%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>HiPrune\u003C\u002Ftd>\u003Ctd>73.83\u003C\u002Ftd>\u003Ctd>72.76\u003C\u002Ftd>\u003Ctd>72.10\u003C\u002Ftd>\u003Ctd>67.27\u003C\u002Ftd>\u003Ctd>72.34\u003C\u002Ftd>\u003Ctd>1449\u003C\u002Ftd>\u003Ctd>48.93\u003C\u002Ftd>\u003Ctd>41.30\u003C\u002Ftd>\u003Ctd>85.86\u003C\u002Ftd>\u003Ctd>80.91\u003C\u002Ftd>\u003Ctd>69.27\u003C\u002Ftd>\u003Ctd>87.67%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionSelector\u003C\u002Ftd>\u003Ctd>75.19\u003C\u002Ftd>\u003Ctd>73.72\u003C\u002Ftd>\u003Ctd>\u003Cb>90.24\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>68.81\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>72.59\u003C\u002Ftd>\u003Ctd>\u003Cb>1521\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>49.97\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>61.80\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>85.36\u003C\u002Ftd>\u003Ctd>80.37\u003C\u002Ftd>\u003Ctd>\u003Cu>76.86\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>93.62%\u003C\u002Fu>\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DivPrune\u003C\u002Ftd>\u003Ctd>73.06\u003C\u002Ftd>\u003Ctd>62.96\u003C\u002Ftd>\u003Ctd>78.46\u003C\u002Ftd>\u003Ctd>67.10\u003C\u002Ftd>\u003Ctd>71.82\u003C\u002Ftd>\u003Ctd>1459\u003C\u002Ftd>\u003Ctd>48.38\u003C\u002Ftd>\u003Ctd>51.40\u003C\u002Ftd>\u003Ctd>\u003Cb>86.81\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>80.22\u003C\u002Ftd>\u003Ctd>68.91\u003C\u002Ftd>\u003Ctd>88.15%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DART\u003C\u002Ftd>\u003Ctd>71.08\u003C\u002Ftd>\u003Ctd>65.20\u003C\u002Ftd>\u003Ctd>79.72\u003C\u002Ftd>\u003Ctd>65.38\u003C\u002Ftd>\u003Ctd>71.05\u003C\u002Ftd>\u003Ctd>1428\u003C\u002Ftd>\u003Ctd>48.78\u003C\u002Ftd>\u003Ctd>41.80\u003C\u002Ftd>\u003Ctd>80.97\u003C\u002Ftd>\u003Ctd>80.91\u003C\u002Ftd>\u003Ctd>68.25\u003C\u002Ftd>\u003Ctd>86.17%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisPruner\u003C\u002Ftd>\u003Ctd>74.29\u003C\u002Ftd>\u003Ctd>68.20\u003C\u002Ftd>\u003Ctd>72.52\u003C\u002Ftd>\u003Ctd>67.35\u003C\u002Ftd>\u003Ctd>70.88\u003C\u002Ftd>\u003Ctd>1458\u003C\u002Ftd>\u003Ctd>49.74\u003C\u002Ftd>\u003Ctd>44.80\u003C\u002Ftd>\u003Ctd>86.59\u003C\u002Ftd>\u003Ctd>\u003Cb>81.46\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>69.62\u003C\u002Ftd>\u003Ctd>87.87%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>SCOPE\u003C\u002Ftd>\u003Ctd>\u003Cu>75.84\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>74.00\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>82.40\u003C\u002Ftd>\u003Ctd>\u003Cu>68.81\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>72.94\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>1471\u003C\u002Ftd>\u003Ctd>\u003Cb>50.35\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>56.00\u003C\u002Ftd>\u003Ctd>\u003Cu>86.62\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>80.96\u003C\u002Ftd>\u003Ctd>74.04\u003C\u002Ftd>\u003Ctd>91.98%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>\u003Cb>IDPruner\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>75.94\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>75.84\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>90.00\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>69.42\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>73.80\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>1505\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>49.49\u003C\u002Ftd>\u003Ctd>\u003Cb>64.90\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>86.26\u003C\u002Ftd>\u003Ctd>80.42\u003C\u002Ftd>\u003Ctd>\u003Cb>76.90\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>94.42%\u003C\u002Fb>\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #808080;\">\n      \u003Cth colspan=\"13\">Retain 10% Tokens (90% Compression Ratio)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FastV\u003C\u002Ftd>\u003Ctd>65.87\u003C\u002Ftd>\u003Ctd>29.72\u003C\u002Ftd>\u003Ctd>36.89\u003C\u002Ftd>\u003Ctd>48.37\u003C\u002Ftd>\u003Ctd>51.98\u003C\u002Ftd>\u003Ctd>1257\u003C\u002Ftd>\u003Ctd>37.28\u003C\u002Ftd>\u003Ctd>13.90\u003C\u002Ftd>\u003Ctd>79.50\u003C\u002Ftd>\u003Ctd>77.05\u003C\u002Ftd>\u003Ctd>57.75\u003C\u002Ftd>\u003Ctd>65.30%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionZip\u003C\u002Ftd>\u003Ctd>67.65\u003C\u002Ftd>\u003Ctd>51.60\u003C\u002Ftd>\u003Ctd>37.88\u003C\u002Ftd>\u003Ctd>59.62\u003C\u002Ftd>\u003Ctd>63.06\u003C\u002Ftd>\u003Ctd>1338\u003C\u002Ftd>\u003Ctd>42.82\u003C\u002Ftd>\u003Ctd>21.40\u003C\u002Ftd>\u003Ctd>81.14\u003C\u002Ftd>\u003Ctd>80.47\u003C\u002Ftd>\u003Ctd>51.56\u003C\u002Ftd>\u003Ctd>72.75%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>HiPrune\u003C\u002Ftd>\u003Ctd>67.75\u003C\u002Ftd>\u003Ctd>53.20\u003C\u002Ftd>\u003Ctd>41.15\u003C\u002Ftd>\u003Ctd>59.45\u003C\u002Ftd>\u003Ctd>63.14\u003C\u002Ftd>\u003Ctd>1326\u003C\u002Ftd>\u003Ctd>41.08\u003C\u002Ftd>\u003Ctd>20.30\u003C\u002Ftd>\u003Ctd>80.90\u003C\u002Ftd>\u003Ctd>\u003Cb>80.96\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>53.31\u003C\u002Ftd>\u003Ctd>73.00%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionSelector\u003C\u002Ftd>\u003Ctd>\u003Cu>70.50\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>65.92\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>79.94\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>59.97\u003C\u002Ftd>\u003Ctd>64.69\u003C\u002Ftd>\u003Ctd>1374\u003C\u002Ftd>\u003Ctd>42.86\u003C\u002Ftd>\u003Ctd>\u003Cu>45.20\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>82.66\u003C\u002Ftd>\u003Ctd>\u003Cu>80.61\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>71.57\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>84.42%\u003C\u002Fu>\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DivPrune\u003C\u002Ftd>\u003Ctd>67.71\u003C\u002Ftd>\u003Ctd>43.12\u003C\u002Ftd>\u003Ctd>58.03\u003C\u002Ftd>\u003Ctd>61.25\u003C\u002Ftd>\u003Ctd>65.12\u003C\u002Ftd>\u003Ctd>1389\u003C\u002Ftd>\u003Ctd>40.43\u003C\u002Ftd>\u003Ctd>27.90\u003C\u002Ftd>\u003Ctd>82.24\u003C\u002Ftd>\u003Ctd>79.18\u003C\u002Ftd>\u003Ctd>56.87\u003C\u002Ftd>\u003Ctd>75.50%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DART\u003C\u002Ftd>\u003Ctd>67.49\u003C\u002Ftd>\u003Ctd>47.56\u003C\u002Ftd>\u003Ctd>60.23\u003C\u002Ftd>\u003Ctd>57.99\u003C\u002Ftd>\u003Ctd>63.83\u003C\u002Ftd>\u003Ctd>1299\u003C\u002Ftd>\u003Ctd>42.18\u003C\u002Ftd>\u003Ctd>23.40\u003C\u002Ftd>\u003Ctd>74.20\u003C\u002Ftd>\u003Ctd>78.63\u003C\u002Ftd>\u003Ctd>58.02\u003C\u002Ftd>\u003Ctd>74.09%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisPruner\u003C\u002Ftd>\u003Ctd>67.75\u003C\u002Ftd>\u003Ctd>47.92\u003C\u002Ftd>\u003Ctd>48.65\u003C\u002Ftd>\u003Ctd>59.28\u003C\u002Ftd>\u003Ctd>63.32\u003C\u002Ftd>\u003Ctd>1305\u003C\u002Ftd>\u003Ctd>41.51\u003C\u002Ftd>\u003Ctd>22.50\u003C\u002Ftd>\u003Ctd>78.74\u003C\u002Ftd>\u003Ctd>79.77\u003C\u002Ftd>\u003Ctd>54.95\u003C\u002Ftd>\u003Ctd>73.19%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>SCOPE\u003C\u002Ftd>\u003Ctd>69.75\u003C\u002Ftd>\u003Ctd>56.24\u003C\u002Ftd>\u003Ctd>55.01\u003C\u002Ftd>\u003Ctd>\u003Cb>64.26\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>67.18\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>1390\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>44.35\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>30.80\u003C\u002Ftd>\u003Ctd>\u003Cu>83.34\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>80.47\u003C\u002Ftd>\u003Ctd>62.58\u003C\u002Ftd>\u003Ctd>79.37%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>\u003Cb>IDPruner\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>71.79\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>63.32\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>79.38\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>63.57\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>68.21\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>1438\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>44.05\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>45.50\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>84.51\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>80.57\u003C\u002Ftd>\u003Ctd>\u003Cu>70.02\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>85.71%\u003C\u002Fb>\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n## 📝 License\n\nThe code for this project is open-sourced under the [License for AngelSlim](LICENSE).\n\n## 🔗 Citation\n\n```\n@article{angelslim2026,\n  title={AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression},\n  author={Hunyuan AI Infra Team},\n  journal={arXiv preprint arXiv:2602.21233},\n  year={2026}\n}\n```\n\n## 💬 Technical Discussion\n\n* AngelSlim is developed by the Tencent Hunyuan AI Infra team, with new features being iteratively updated. If you have any questions or suggestions, please submit them on [GitHub Issues](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues) or join our [WeChat discussion group](.\u002Fdocs\u002Fsource\u002Fassets\u002Fangel_slim_wechat.png).\n\n* ⭐ Star this repo to follow our latest progress. And if you are interested in joining us for an internship or full-time position, send your resume to: lucayu@tencent.com.\n","中文 | [English](README_en.md)\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\".\u002Fdocs\u002Fsource\u002Fassets\u002Flogos\u002Fangelslim_logo_light.png\">\n    \u003Cimg alt=\"AngelSlim\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_a0279576bc93.png\" width=55%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\n一款更易用、更全面、更高效的大型模型压缩工具集。\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n          ✒️ \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.21233\">技术报告\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 📖 \u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002F\">文档\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Forganization\u002FAngelSlim\">ModelScope\u003C\u002Fa>\n\u003Cbr>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n          💬 \u003Ca href=\".\u002Fdocs\u002Fsource\u002Fassets\u002Fangel_slim_wechat.png\">微信\u003C\u002Fa> | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FdHVNeuNdFt\">Discord\u003C\u002Fa>\n\u003Cbr>\n\u003C\u002Fp>\n\n## 📣最新动态\n- [26\u002F03\u002F25] 我们发布了**DAQ**，这是一种在训练后微调过程中保持知识的同时，参数更新量相对较小的量化算法。[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.22324) | [[文档]](docs\u002Fsource\u002Ffeatures\u002Fquantization\u002Fdaq.md)\n- [26\u002F02\u002F09] 我们发布了HY-1.8B-2Bit，这是一款2比特的端侧大语言模型，[[Hugging Face]](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FHY-1.8B-2Bit)。\n- [26\u002F01\u002F13] 我们发布了v0.3版本。我们支持Eagle3用于全规模LLM\u002FVLM\u002F音频模型的训练与部署，详情请参见[指导文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html)。同时，我们还发布了**Sherry**，一种硬件友好的1.25比特量化算法[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07892) | [[代码]](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fsherry\u002FSherry)🔥🔥🔥\n- [25\u002F11\u002F05] 我们发布了v0.2版本。新增对`GLM-4.6`、`Qwen3-VL`和`Qwen3-Omni`等模型的量化支持，开源了Eagle3推测解码训练框架，并更新了扩散模型量化工具。\n- [25\u002F09\u002F30] 我们发布了**SpecExit**，一种推理早停算法：[[论文]](http:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24248) | [[文档]](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Fspec_exit.html) | [[vLLM代码]](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Fpull\u002F27192)\n- [25\u002F09\u002F26] 我们发布了**TEQUILA**，一种三值量化算法[[论文]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.23809) | [[代码]](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Ftequila\u002FTernaryQuant)\n- [25\u002F09\u002F24] 我们现在支持对Qwen3系列模型进行NVFP4的PTQ量化。同时，我们也开源了[Qwen3-32B-NVFP4](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-32B_nvfp4)和[Qwen3-235B-A22B-NVFP4](https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-235B-A22B_nvfp4)权重。\n\n\u003Cdetails>\n\u003Csummary>往期新闻\u003C\u002Fsummary>\n\n- [25\u002F09\u002F01] 我们现在支持对[Hunyuan-MT-7B](https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuan-MT-7B-fp8)翻译模型进行FP8量化。并启用了Eagle3的Torch推理和基准测试评估功能。此外，我们还实现了对[FLUX](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fflux)的量化与缓存支持，以及对[Seed-OSS](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fseed_oss)的量化支持。\n- [25\u002F08\u002F06] 我们现在支持对`Hunyuan 0.5B\u002F1.8B\u002F4B\u002F7B`以及多模态模型`Qwen2.5VL 3B\u002F7B\u002F32B\u002F72B`进行量化，包括FP8\u002FINT4等算法；同时也支持对`DeepSeek-R1\u002FV3`和`Kimi-K2`进行量化，涵盖FP8-Static和W4A8-FP8等算法。我们还开源了`Hunyuan 1.8B\u002F4B\u002F7B`系列Eagle3模型权重。\n- [25\u002F07\u002F04] 我们现在支持对`Hunyuan\u002FQwen2.5\u002FQwen3\u002FDeepSeek-R1-Distill-Qwen`等模型进行量化，包括INT8\u002FFP8\u002FINT4等算法。我们还开源了`Qwen3`系列Eagle3模型权重。\n\n\u003C\u002Fdetails>\n\n## 🌟核心特性\n\n- **高度集成**：该工具集将主流压缩算法整合进统一框架，为开发者提供一键式访问，使用极为便捷。\n- **持续创新**：除了集成业界广泛使用的算法外，我们还在不断研究更优的压缩算法，未来将逐步开源。\n- **性能驱动**：我们在模型压缩工作流及算法部署中持续优化端到端性能，例如实现单GPU上对Qwen3-235B和DeepSeek-R1等模型的量化。\n\n## 💼技术概览\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: middle;\">场景\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: middle;\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center; vertical-align: middle;\">压缩策略\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">量化\u003C\u002Fth>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">推测解码\u003C\u002Fth>\n      \u003Cth style=\"text-align: center; vertical-align: middle;\">其他技术\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>大型语言模型（LLMs）\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan-dense-model\">Hunyuan-Dense\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan-a13b\">Hunyuan-MoE\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAngelSlim\u002Fqwen3-quant-68652e26da31740739d154f8\">Qwen3\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FDeepSeek-R1-0528_w4a8_fp8\">DeepSeek-V3\u002FR1\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FGlm4_6-fp8_static\">GLM-4.6\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAngelSlim\u002Fqwen2-25-quant-68652d6cbdf5c0d4b1c4499a\">Qwen2.5\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">FP8-静态\u002F动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">INT8-动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3\">INT4-GPTQ\u002FAWQ\u002FGPTAQ\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fd55b06aeffc53e31f485044c5026e754f4e27b74\u002Fconfigs\u002Fqwen3\u002Fnvfp4\">NVFP4\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fquantization\u002Ffp8_lepto.html\">LeptoQuant\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Ftequila\u002FTernaryQuant\">Tequila\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fsherry\u002FSherry\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Fspec_exit.html\">SpecExit\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>稀疏注意力\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>开发中\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>视觉语言模型（VLMs）\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"\">Hunyuan-VL\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanOCR\">HunyuanOCR\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl\">Qwen3-VL\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl\">Qwen2.5-VL\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen3_vl\">FP8-静态\u002F动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_5_vl\">INT8-动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_5_vl\">INT4-GPTQ\u002FAWQ\u002FGPTAQ\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>标记剪枝\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>开发中\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>扩散模型\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuanimage\">Hunyuan-Image\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\">Hunyuan-Video\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftencent\u002Fhunyuan3d\">Hunyuan-3D\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen-image\">Qwen-Image\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fblack-forest-labs\u002Fflux1\">FLUX\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FWan-AI\u002Fwan21\">Wan\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-diffusion-xl-base-1.0\">SDXL\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html\">FP8-动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html\">FP8-仅权重\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>缓存\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">DeepCache\u003C\u002Fa>\u003C\u002Fli>\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">TeaCache\u003C\u002Fa>\u003C\u002Fli>\n              \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fcache.html\">TaylorCache\u003C\u002Fa>\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n          \u003Cli>\n            \u003Cstrong>稀疏注意力\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>开发中\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>语音模型（TTS\u002FASR）\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni\">Qwen3-Omni\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen2-audio\">Qwen2-Audio\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FFunAudioLLM\u002FFun-CosyVoice3-0.5B-2512\">Fun-CosyVoice3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fblob\u002Fmain\u002Fdocs\u002Fsource\u002Fmodels\u002Fqwen3_omni\u002Fqwen3_omni_quant.md\">FP8-静态\u002F动态\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Ftree\u002Fmain\u002Fconfigs\u002Fqwen2_audio\">INT8-动态\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\u003Ca href=\"https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Findex.html\">Eagle3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul style=\"padding-left: 0; list-style-position: inside;\">\n          \u003Cli>\n            \u003Cstrong>标记剪枝\u003C\u002Fstrong>\n            \u003Cul style=\"padding-left: 1.5rem\">\n              \u003Cli>开发中\u003C\u002Fli>\n            \u003C\u002Ful>\n          \u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 🛎️使用方法\n\n### 1. 安装 AngelSlim\n\n我们建议使用 `pip` 安装最新稳定版的 `AngelSlim`：\n\n```shell\npip install angelslim\n```\n\n或者，您也可以克隆仓库，并以可编辑模式从源码安装：\n\n```shell\ncd AngelSlim && python setup.py install\n```\n\n更多详细的安装说明及平台特定指导，请参阅[安装文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fgetting_started\u002Finstallation.html)。\n\n\n\n### 2. 快速入门\n\n#### 2.1 推测解码\n\n安装 AngelSlim 后，您可以使用以下脚本快速开始 Eagle3 训练：\n\n```shell\n# 启动 vLLM 服务器\nbash scripts\u002Fspeculative\u002Frun_vllm_server.sh\n# 生成训练数据\nbash scripts\u002Fspeculative\u002Fgenerate_data_for_target_model.sh\n# 对 Eagle3 模型进行在线训练\nbash scripts\u002Fspeculative\u002Ftrain_eagle3_online.sh\n```\n\nEagle3 的训练与部署指南：[LLM](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Feagle.html) | [VLM](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Fvlm_eagle.html) | [音频（ASR）](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Faudio_asr_eagle.html) | [音频（TTS）](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fspeculative_decoding\u002Feagle\u002Faudio_tts_eagle.html)。\n\n#### 2.2 LLM\u002FVLM\u002F音频模型量化\n\n安装 `AngelSlim` 后，您可以通过以下一条命令脚本对 Qwen3-1.7B 模型进行静态 FP8 量化：\n\n```shell\npython3 tools\u002Frun.py -c configs\u002Fqwen3\u002Ffp8_static\u002Fqwen3-1_7b_fp8_static.yaml\n```\n\n此示例通过在从 HuggingFace 加载的模型上执行 PTQ 校准，生成量化的模型权重。\n\n\u003Cdetails>\n\u003Csummary>代码方式启动\u003C\u002Fsummary>\n\n要对 `Qwen3-1.7B` 进行动态 `FP8` 量化：\n\n```python\nfrom angelslim.engine import Engine\n\nslim_engine = Engine()\n# 准备模型\nslim_engine.prepare_model(model_name=\"Qwen\", model_path=\"Qwen\u002FQwen3-1.7B\",)\n# 初始化压缩器\nslim_engine.prepare_compressor(\"PTQ\", default_method=\"fp8_dynamic\")\n# 压缩模型\nslim_engine.run()\n# 保存压缩后的模型\nslim_engine.save(\".\u002Foutput\")\n```\n\n\u003C\u002Fdetails>\n\n更多详情请参阅[快速入门文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fgetting_started\u002Fquickstrat.html)。\n\n#### 2.3 扩散模型量化\n\n使用 `scripts\u002Fdiffusion\u002Frun_diffusion.py` 进行量化和推理：\n\n```shell\n# 在线量化与推理\npython scripts\u002Fdiffusion\u002Frun_diffusion.py \\\n    --model-name-or-path black-forest-labs\u002FFLUX.1-schnell \\\n    --quant-type fp8-per-tensor \\\n    --prompt \"一只猫拿着写着‘hello world’的牌子\" \\\n    --height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0\n```\n\n更多量化推理方法，请参阅[扩散模型量化文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Fdiffusion\u002Fquantization.html)。\n\n#### 2.4 Token 压缩（VLM）\n\nAngelSlim 提供了一个通用的元数据驱动框架，用于视觉 token 的剪枝和合并。您可以通过烟雾测试快速验证一种压缩策略（例如 **VisionZip**）：\n\n```shell\npython tools\u002Ftest_universal_pruning.py \\\n    --model_path \"Qwen\u002FQwen2.5-VL-3B-Instruct\" \\\n    --config \"configs\u002Fqwen2_5_vl\u002Fpruning\u002Fvisionzip_r0.9.yaml\"\n```\n\n有关实施新策略的更多详细信息，请参阅[Token Compressor 文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Ffeatures\u002Ftoken_compressor\u002Findex.html)。\n\n### 3. 部署与测试\n\n#### 3.1 离线推理\n\n要使用通过 `transformers` 加载的量化模型进行离线推理测试。\n\n\u003Cdetails>\n\u003Csummary>运行脚本详情\u003C\u002Fsummary>\n\n```shell\npython scripts\u002Fdeploy\u002Foffline.py $MODEL_PATH \"你好，我叫\"\n```\n\n其中 `$MODEL_PATH` 是量化模型输出的路径。\n\u003C\u002Fdetails>\n\n#### 3.2 API 服务部署\n\n指定量化模型路径 `MODEL_PATH` 后，您可以使用 **vLLM** 和 **SGLang** 推理框架部署一个兼容 OpenAI 的 API 服务。\n\n\u003Cdetails>\n\u003Csummary>运行脚本详情\u003C\u002Fsummary>\n\n- **vLLM**\n\n  使用以下脚本启动一个 [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 服务器，推荐版本为 `vllm>=0.8.5.post1`。对于 MOE INT8 量化模型，需要 vllm>=0.9.0。\n\n  ```shell\n  bash scripts\u002Fdeploy\u002Frun_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096\n  ```\n  其中 `-d` 表示可见设备，`-t` 表示张量并行规模，`-p` 表示流水线并行规模，`-g` 表示 GPU 内存利用率。\n\n- **SGLang**\n\n  使用以下脚本启动一个 [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang) 服务器，推荐版本为 `sglang>=0.4.6.post1`。\n\n  ```shell\n  bash scripts\u002Fdeploy\u002Frun_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8\n  ```\n\n\u003C\u002Fdetails>\n\n#### 3.3 服务调用\n\n通过 [OpenAI 的 API 格式](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fapi-reference\u002Fintroduction)发起请求。\n\n\u003Cdetails>\n\u003Csummary>运行脚本详情\u003C\u002Fsummary>\n\n```shell\nbash scripts\u002Fdeploy\u002Fopenai.sh -m $MODEL_PATH -p \"你好，我叫\" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt \"你是一个乐于助人的助手。\"\n```\n其中 `-p` 是输入提示。\n\u003C\u002Fdetails>\n\n#### 3.4 性能评估\n\n使用 [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness)，推荐版本为 `lm-eval>=0.4.8`，评估量化模型性能。\n\n\u003Cdetails>\n\u003Csummary>运行脚本详情\u003C\u002Fsummary>\n\n```shell\nbash scripts\u002Fdeploy\u002Flm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b \"auto\" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH\n```\n其中 `RESULT_PATH` 是保存测试结果的目录，`-b` 表示批量大小，`--tasks` 指定评估任务，`-n` 表示少样本示例的数量。\n\u003C\u002Fdetails>\n\n更多详细信息，请参阅[部署文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fdeployment\u002Fdeploy.html)。\n\n\n## 📈 基准测试\n\n### 1. 推测解码\n\n我们使用 vLLM 对 AngelSlim 训练的 Eagle3 模型进行了评估，涵盖代码生成、数学推理、指令遵循、文本生成以及多模态理解等任务。在 `num_speculative_tokens = 2` 或 `4` 的设置下，我们训练的模型在推理加速和上下文长度方面的表现如下，接受长度为 1.8–3.5，最大加速比为 1.4–1.9×。\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_e6923e2f830d.png\">\n    \u003Cimg alt=\"AngelSlim\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_readme_e6923e2f830d.png\" width=100%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\n#### 1.1 Qwen3 系列模型\n\n在 vLLM（v0.11.2）上，使用 Eagle3 推理解码技术对 Qwen3 系列模型在 **MT-bench**、**HumanEval**、**GSM8K** 和 **Alpaca** 上的基准测试结果，采用单 GPU 配置（**tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024**）。\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>模型\u003C\u002Fth>\n      \u003Cth>方法\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">GSM8K\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">Alpaca\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">HumanEval\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">MT-bench\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align:center;\">平均\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>\u003C\u002Fth>\u003Cth>\u003C\u002Fth>\n      \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\u003Cth>接受长度\u003C\u002Fth>\n      \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\u003Cth>接受长度\u003C\u002Fth>\n      \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\u003Cth>接受长度\u003C\u002Fth>\n      \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\u003Cth>接受长度\u003C\u002Fth>\n      \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\u003Cth>接受长度\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n\n  \u003Ctbody>\n    \u003C!-- Qwen3-1.7B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-1.7B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>376.42\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>378.86\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>378.38\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>390.53\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>381.05\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-1.7B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>616.9\u003C\u002Ftd>\u003Ctd>2.13\u003C\u002Ftd>\n      \u003Ctd>653.29\u003C\u002Ftd>\u003Ctd>2.19\u003C\u002Ftd>\n      \u003Ctd>680.1\u003C\u002Ftd>\u003Ctd>2.2\u003C\u002Ftd>\n      \u003Ctd>621.44\u003C\u002Ftd>\u003Ctd>2.17\u003C\u002Ftd>\n      \u003Ctd>642.93\u003C\u002Ftd>\u003Ctd>2.17\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-4B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-4B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>229.05\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>235.29\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>234.66\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>234.04\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>233.26\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-4B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>389.35\u003C\u002Ftd>\u003Ctd>2.07\u003C\u002Ftd>\n      \u003Ctd>395.97\u003C\u002Ftd>\u003Ctd>2.1\u003C\u002Ftd>\n      \u003Ctd>377.84\u003C\u002Ftd>\u003Ctd>2.08\u003C\u002Ftd>\n      \u003Ctd>384.6\u003C\u002Ftd>\u003Ctd>2.07\u003C\u002Ftd>\n      \u003Ctd>386.94\u003C\u002Ftd>\u003Ctd>2.08\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-8B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-8B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>149.63\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>149.93\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>153.85\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>153.81\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>151.81\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-8B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>257.32\u003C\u002Ftd>\u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>266.69\u003C\u002Ftd>\u003Ctd>2.02\u003C\u002Ftd>\n      \u003Ctd>244.89\u003C\u002Ftd>\u003Ctd>1.97\u003C\u002Ftd>\n      \u003Ctd>258.2\u003C\u002Ftd>\u003Ctd>1.97\u003C\u002Ftd>\n      \u003Ctd>257.52\u003C\u002Ftd>\u003Ctd>1.99\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-14B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-14B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>92.97\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>92.66\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>92.94\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>94.46\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>93.26\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-14B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>153.72\u003C\u002Ftd>\u003Ctd>1.87\u003C\u002Ftd>\n      \u003Ctd>140.46\u003C\u002Ftd>\u003Ctd>1.78\u003C\u002Ftd>\n      \u003Ctd>144.68\u003C\u002Ftd>\u003Ctd>1.76\u003C\u002Ftd>\n      \u003Ctd>142.45\u003C\u002Ftd>\u003Ctd>1.74\u003C\u002Ftd>\n      \u003Ctd>145.33\u003C\u002Ftd>\u003Ctd>1.79\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-32B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-32B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>43.49\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.38\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.19\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.3\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>43.32\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-32B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>80.43\u003C\u002Ftd>\u003Ctd>2.01\u003C\u002Ftd>\n      \u003Ctd>72.49\u003C\u002Ftd>\u003Ctd>1.9\u003C\u002Ftd>\n      \u003Ctd>71.57\u003C\u002Ftd>\u003Ctd>1.86\u003C\u002Ftd>\n      \u003Ctd>74.1\u003C\u002Ftd>\u003Ctd>1.86\u003C\u002Ftd>\n      \u003Ctd>74.1\u003C\u002Ftd>\u003Ctd>1.91\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- Qwen3-30B-A3B -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">Qwen3-30B-A3B\u003C\u002Ftd>\n      \u003Ctd>Vanilla\u003C\u002Ftd>\n      \u003Ctd>311.84\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>320.43\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>325.77\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>325.42\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>320.87\u003C\u002Ftd>\u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-a3B_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>453.97\u003C\u002Ftd>\u003Ctd>2.1\u003C\u002Ftd>\n      \u003Ctd>432.45\u003C\u002Ftd>\u003Ctd>2.04\u003C\u002Ftd>\n      \u003Ctd>428.81\u003C\u002Ftd>\u003Ctd>2.02\u003C\u002Ftd>\n      \u003Ctd>437.06\u003C\u002Ftd>\u003Ctd>2.01\u003C\u002Ftd>\n      \u003Ctd>438.07\u003C\u002Ftd>\u003Ctd>2.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 1.2 视觉语言模型\n\n##### 1.2.1 Qwen3-VL 系列模型\n\n在 vLLM（v0.12.0）上，使用 Eagle3 推理解码技术对 Qwen3-VL 系列模型在语言和多模态任务上的基准测试结果，采用单 GPU 配置（**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**）。\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>方法 \u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">GSM8K\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">Alpaca\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">HumanEval\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MT-bench\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MATH-500\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MMMU\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">MMStar\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">平均\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-2B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>348.55\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>350.9\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>346.07\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>346.31\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>82.96\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>83.27\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>81.63\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>234.24\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-2B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>511.52\u003C\u002Ftd>\n    \u003Ctd>2.11\u003C\u002Ftd>\n    \u003Ctd>560.55\u003C\u002Ftd>\n    \u003Ctd>2.26\u003C\u002Ftd>\n    \u003Ctd>826.01\u003C\u002Ftd>\n    \u003Ctd>3.39\u003C\u002Ftd>\n    \u003Ctd>555.22\u003C\u002Ftd>\n    \u003Ctd>2.29\u003C\u002Ftd>\n    \u003Ctd>163.09\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>154.18\u003C\u002Ftd>\n    \u003Ctd>2.55\u003C\u002Ftd>\n    \u003Ctd>139.73\u003C\u002Ftd>\n    \u003Ctd>2.31\u003C\u002Ftd>\n    \u003Ctd>415.76\u003C\u002Ftd>\n    \u003Ctd>2.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-4B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>212.87\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>213.24\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>211.69\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>212.1\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>67.96\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>65.88\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>67.75\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>150.21\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-4B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>415.29\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>372.89\u003C\u002Ftd>\n    \u003Ctd>2.26\u003C\u002Ftd>\n    \u003Ctd>459.37\u003C\u002Ftd>\n    \u003Ctd>2.82\u003C\u002Ftd>\n    \u003Ctd>382.33\u003C\u002Ftd>\n    \u003Ctd>2.34\u003C\u002Ftd>\n    \u003Ctd>141.87\u003C\u002Ftd>\n    \u003Ctd>2.72\u003C\u002Ftd>\n    \u003Ctd>104.44\u003C\u002Ftd>\n    \u003Ctd>2.05\u003C\u002Ftd>\n    \u003Ctd>107.07\u003C\u002Ftd>\n    \u003Ctd>2.1\u003C\u002Ftd>\n    \u003Ctd>107.07\u003C\u002Ftd>\n    \u003Ctd>2.1\u003C\u002Ftd>\n    \u003Ctd>283.32\u003C\u002Ftd>\n    \u003Ctd>2.41\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen3-VL-30B-A3B-Instruct\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>179.94\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>184.6\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>168.68\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>180.57\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>31.08\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>31.51\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>30.93\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n    \u003Ctd>115.33\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen3-VL-30B-A3B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>281.93\u003C\u002Ftd>\n    \u003Ctd>2.82\u003C\u002Ftd>\n    \u003Ctd>241.42\u003C\u002Ftd>\n    \u003Ctd>2.13\u003C\u002Ftd>\n    \u003Ctd>223.05\u003C\u002Ftd>\n    \u003Ctd>2.57\u003C\u002Ftd>\n    \u003Ctd>240.47\u003C\u002Ftd>\n    \u003Ctd>2.19\u003C\u002Ftd>\n    \u003Ctd>75.31\u003C\u002Ftd>\n    \u003Ctd>2.79\u003C\u002Ftd>\n    \u003Ctd>48.47\u003C\u002Ftd>\n    \u003Ctd>1.78\u003C\u002Ftd>\n    \u003Ctd>52.57\u003C\u002Ftd>\n    \u003Ctd>1.94\u003C\u002Ftd>\n    \u003Ctd>166.17\u003C\u002Ftd>\n    \u003Ctd>2.32\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n##### 1.2.2 HunyuanOCR 模型\n\n在 vLLM（v0.13.0）上使用 Eagle3 推测解码对 HunyuanOCR 进行基准测试的结果，数据集为 **[OmniDocBench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopendatalab\u002FOmniDocBench)**，采用单 GPU（**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**）。\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>方法\u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">OmniDocBench\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Hunyuan-OCR\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>70.12\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FHunyuanOCR_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>108.1\u003C\u002Ftd>\n    \u003Ctd>2.08\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 1.3 音频模型\n\n##### 1.3.1 Qwen2-Audio 模型\n\n在 vLLM（v0.12.0）上使用 Eagle3 推测解码对 Qwen2-Audio 进行基准测试的结果，数据集为 **[LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12)**，采用单 GPU（**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**）。\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>方法\u003C\u002Fth>\n   \u003Cth colspan=\"2\" style=\"text-align:center;\">LibriSpeech\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>78.76\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FQwen2-Audio-7B-Instruct_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>146.66\u003C\u002Ftd>\n    \u003Ctd>3.51\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### 1.3.2 Fun-CosyVoice3 模型\n\n在单 GPU（**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**）条件下，使用 Eagle3 推测解码对 Fun-CosyVoice3 进行基准测试的结果，数据集为 **[LibriTTS](https:\u002F\u002Fwww.openslr.org\u002F60\u002F)**。\n\n\u003Ctable>\u003Cthead>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>方法 \u003C\u002Fth>\n    \u003Cth colspan=\"2\" style=\"text-align:center;\">LibriTTS\u003C\u002Fth>\n  \u003Ctr>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Ctd>\u003C\u002Ftd>\n    \u003Cth>吞吐量（tokens\u002Fs）\u003C\u002Fth>\n    \u003Cth>接受长度\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd rowspan=\"2\">Fun-CosyVoice3\u003C\u002Ftd>\n    \u003Ctd>Vanilla\u003C\u002Ftd>\n    \u003Ctd>-\u003C\u002Ftd>\n    \u003Ctd>1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAngelSlim\u002FFun-CosyVoice3-0.5B-2512_eagle3\">Eagle3\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>-\u003C\u002Ftd>\n    \u003Ctd>1.96\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> 适配于 Transformers 后端推理，仅显示接受长度。vLLM 加速约 1.6 倍，基于基础 LLM 加速估算得出。\n\n\n\n### 2. 量化\n\n以下展示了部分选定模型的性能测试结果。如需完整基准测试，请参阅 [Benchmark 文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002Fperformance\u002Fquantization\u002Fbenchmarks.html)\n\n#### 2.1 Hunyuan 系列模型\n\n`Hunyuan-Instruct` 模型分别采用 `FP8`、`INT4-AWQ` 和 `INT4-GPTQ` 量化算法，在包括 `OlympiadBench`、`AIME 2024` 和 `DROP` 在内的数据集上的基准测试结果：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化方式\u003C\u002Fth>\u003Cth>OlympiadBench\u003C\u002Fth>\u003Cth>AIME 2024\u003C\u002Fth>\u003Cth>DROP\u003C\u002Fth>\u003Cth>GPQA-Diamond\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-A13B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>82.7\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>71.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.0\u003C\u002Ftd>\u003Ctd>86.7\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>82.7\u003C\u002Ftd>\u003Ctd>86.7\u003C\u002Ftd>\u003Ctd>91.1\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>82.6\u003C\u002Ftd>\u003Ctd>85.6\u003C\u002Ftd>\u003Ctd>91.0\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-7B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>76.5\u003C\u002Ftd>\u003Ctd>81.1\u003C\u002Ftd>\u003Ctd>85.9\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>76.6\u003C\u002Ftd>\u003Ctd>80.9\u003C\u002Ftd>\u003Ctd>86.0\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>76.2\u003C\u002Ftd>\u003Ctd>81.0\u003C\u002Ftd>\u003Ctd>85.7\u003C\u002Ftd>\u003Ctd>60.0\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>76.4\u003C\u002Ftd>\u003Ctd>80.9\u003C\u002Ftd>\u003Ctd>85.9\u003C\u002Ftd>\u003Ctd>60.1\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-4B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>73.1\u003C\u002Ftd>\u003Ctd>78.3\u003C\u002Ftd>\u003Ctd>78.2\u003C\u002Ftd>\u003Ctd>61.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>73.1\u003C\u002Ftd>\u003Ctd>76.6\u003C\u002Ftd>\u003Ctd>78.3\u003C\u002Ftd>\u003Ctd>60.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>72.9\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>78.1\u003C\u002Ftd>\u003Ctd>58.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>72.8\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>78.2\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-1.8B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>63.4\u003C\u002Ftd>\u003Ctd>56.7\u003C\u002Ftd>\u003Ctd>76.7\u003C\u002Ftd>\u003Ctd>47.2\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>62.5\u003C\u002Ftd>\u003Ctd>55.2\u003C\u002Ftd>\u003Ctd>75.1\u003C\u002Ftd>\u003Ctd>47.7\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>60.9\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>73.0\u003C\u002Ftd>\u003Ctd>44.4\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>61.7\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>71.7\u003C\u002Ftd>\u003Ctd>43.6\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Hunyuan-0.5B-Instruct\u003C\u002Ftd>\n    \u003Ctd>BF16\u003C\u002Ftd>          \u003Ctd>29.6\u003C\u002Ftd>\u003Ctd>17.2\u003C\u002Ftd>\u003Ctd>52.8\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>29.6\u003C\u002Ftd>\u003Ctd>17.2\u003C\u002Ftd>\u003Ctd>51.6\u003C\u002Ftd>\u003Ctd>22.5\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-GPTQ\u003C\u002Ftd>\u003Ctd>26.8\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>50.9\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>Int4-AWQ\u003C\u002Ftd>\u003Ctd>26.3\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>48.9\u003C\u002Ftd>\u003Ctd>23.3\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 2.2 通义千问3系列模型\n\n通义千问3系列模型在`CEVAL`、`MMLU`、`GSM8K`和`HUMANEVAL`等数据集上，采用`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`和`INT4-AWQ`量化算法的评测结果如下：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化方式\u003C\u002Fth>\u003Cth>CEVAL\u003C\u002Fth>\u003Cth>MMLU\u003C\u002Fth>\u003Cth>GSM8K\u003C\u002Fth>\u003Cth>HUMANEVAL\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-0.6B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>45.84\u003C\u002Ftd>\u003Ctd>47.21\u003C\u002Ftd>\u003Ctd>42.99\u003C\u002Ftd>\u003Ctd>19.51\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.87\u003C\u002Ftd>\u003Ctd>38.06\u003C\u002Ftd>\u003Ctd>18.90\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.93\u003C\u002Ftd>\u003Ctd>38.29\u003C\u002Ftd>\u003Ctd>20.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>45.17\u003C\u002Ftd>\u003Ctd>46.95\u003C\u002Ftd>\u003Ctd>41.17\u003C\u002Ftd>\u003Ctd>21.34\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"6\">Qwen3-8B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>79.27\u003C\u002Ftd>\u003Ctd>74.78\u003C\u002Ftd>\u003Ctd>87.79\u003C\u002Ftd>\u003Ctd>63.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>78.23\u003C\u002Ftd>\u003Ctd>74.79\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>62.20\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>78.45\u003C\u002Ftd>\u003Ctd>74.75\u003C\u002Ftd>\u003Ctd>87.64\u003C\u002Ftd>\u003Ctd>62.80\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>78.01\u003C\u002Ftd>\u003Ctd>74.84\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>67.07\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>77.19\u003C\u002Ftd>\u003Ctd>73.26\u003C\u002Ftd>\u003Ctd>86.43\u003C\u002Ftd>\u003Ctd>62.20\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>76.15\u003C\u002Ftd>\u003Ctd>73.59\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>63.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"6\">Qwen3-14B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>83.06\u003C\u002Ftd>\u003Ctd>78.90\u003C\u002Ftd>\u003Ctd>88.40\u003C\u002Ftd>\u003Ctd>55.49\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>82.62\u003C\u002Ftd>\u003Ctd>78.57\u003C\u002Ftd>\u003Ctd>89.46\u003C\u002Ftd>\u003Ctd>57.32\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>82.24\u003C\u002Ftd>\u003Ctd>78.92\u003C\u002Ftd>\u003Ctd>88.32\u003C\u002Ftd>\u003Ctd>52.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>81.87\u003C\u002Ftd>\u003Ctd>78.13\u003C\u002Ftd>\u003Ctd>86.28\u003C\u002Ftd>\u003Ctd>56.10\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>81.05\u003C\u002Ftd>\u003Ctd>78.02\u003C\u002Ftd>\u003Ctd>87.34\u003C\u002Ftd>\u003Ctd>57.93\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>82.02\u003C\u002Ftd>\u003Ctd>77.68\u003C\u002Ftd>\u003Ctd>84.23\u003C\u002Ftd>\u003Ctd>61.59\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen3-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>86.55\u003C\u002Ftd>\u003Ctd>82.00\u003C\u002Ftd>\u003Ctd>74.53\u003C\u002Ftd>\u003Ctd>37.80\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>86.92\u003C\u002Ftd>\u003Ctd>81.78\u003C\u002Ftd>\u003Ctd>70.20\u003C\u002Ftd>\u003Ctd>39.63\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>86.55\u003C\u002Ftd>\u003Ctd>81.89\u003C\u002Ftd>\u003Ctd>70.43\u003C\u002Ftd>\u003Ctd>38.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>81.01\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>43.29\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>81.54\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>36.59\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-30B-A3B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>83.66\u003C\u002Ftd>\u003Ctd>79.36\u003C\u002Ftd>\u003Ctd>89.99\u003C\u002Ftd>\u003Ctd>31.71\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.95\u003C\u002Ftd>\u003Ctd>79.47\u003C\u002Ftd>\u003Ctd>89.01\u003C\u002Ftd>\u003Ctd>31.10\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>84.10\u003C\u002Ftd>\u003Ctd>79.40\u003C\u002Ftd>\u003Ctd>89.16\u003C\u002Ftd>\u003Ctd>32.93\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>83.36\u003C\u002Ftd>\u003Ctd>79.48\u003C\u002Ftd>\u003Ctd>89.16\u003C\u002Ftd>\u003Ctd>34.15\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"4\">Qwen3-235B-A22B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>89.60\u003C\u002Ftd>\u003Ctd>86.28\u003C\u002Ftd>\u003Ctd>85.29\u003C\u002Ftd>\u003Ctd>27.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>89.67\u003C\u002Ftd>\u003Ctd>86.19\u003C\u002Ftd>\u003Ctd>86.96\u003C\u002Ftd>\u003Ctd>27.44\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>89.67\u003C\u002Ftd>\u003Ctd>86.18\u003C\u002Ftd>\u003Ctd>85.22\u003C\u002Ftd>\u003Ctd>28.05\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT8-Dynamic\u003C\u002Ftd>\u003Ctd>88.93\u003C\u002Ftd>\u003Ctd>86.20\u003C\u002Ftd>\u003Ctd>86.20\u003C\u002Ftd>\u003Ctd>23.78\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n#### 2.3 深势系列模型\n\n深势R1-0528系列模型在`GPQA Diamond`、`AIME 2024`、`SimpleQA`和`LiveCodeBench`等数据集上，采用`FP8-Block-Wise`和`W4A8-FP8`量化算法的评测结果如下：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化方式\u003C\u002Fth>\u003Cth>GPQA Diamond\u003C\u002Fth>\u003Cth>AIME 2024\u003C\u002Fth>\u003Cth>SimpleQA\u003C\u002Fth>\u003Cth>LiveCodeBench\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"6\">DeepSeek-R1-0528\u003C\u002Ftd>\u003Ctd>FP8-Block-Wise\u003C\u002Ftd>\u003Ctd>78.28\u003C\u002Ftd>\u003Ctd>88.67\u003C\u002Ftd>\u003Ctd>27.8\u003C\u002Ftd>\u003Ctd>77.1\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>W4A8-FP8\u003C\u002Ftd>\u003Ctd>77.37\u003C\u002Ftd>\u003Ctd>88.67\u003C\u002Ftd>\u003Ctd>26.83\u003C\u002Ftd>\u003Ctd>78.86\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>注\u003C\u002Fsummary>\n\n> - 上述结果基于使用TRT-LLM部署的5次测试运行的平均值\n> - 评估过程中使用的超参数如下：\n> ```json\n>{\n>  \"top_k\": 20,\n>  \"top_p\": 0.6,\n>  \"temperature\": 0.7,\n>  \"output_seq_len\": 32768,\n>  \"max_input_seq_len\": 16384\n>}\n>```\n\n\u003C\u002Fdetails>\n\n#### 2.4 通义千问-VL系列模型\n\n**Qwen3-VL评测**\n\n通义千问3VL系列模型在`MMMU_VAL`、`DocVQA_VAL`和`ChartQA_TEST`等数据集上，采用`BF16`、`FP8-Static`和`FP8-Dynamic`量化算法的评测结果如下：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化\u003C\u002Fth>\u003Cth>MMMU_VAL\u003C\u002Fth>\u003Cth>DocVQA_VAL\u003C\u002Fth>\u003Cth>ChartQA_TEST\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen3-VL-32B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>60.11\u003C\u002Ftd>\u003Ctd>96.08\u003C\u002Ftd>\u003Ctd>94.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>61.22\u003C\u002Ftd>\u003Ctd>96.00\u003C\u002Ftd>\u003Ctd>94.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>60.78\u003C\u002Ftd>\u003Ctd>96.19\u003C\u002Ftd>\u003Ctd>94.72\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"2\">Qwen3-VL-30B-A3B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>50.44\u003C\u002Ftd>\u003Ctd>95.28\u003C\u002Ftd>\u003Ctd>95.36\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>50.67\u003C\u002Ftd>\u003Ctd>95.25\u003C\u002Ftd>\u003Ctd>95.20\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Qwen2.5VL 基准测试\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nQwen2.5VL 系列模型在 `BF16`、`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ` 量化算法下，于 `MMMU_VAL`、`DocVQA_VAL` 和 `ChartQA_TEST` 数据集上的基准测试结果如下：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化\u003C\u002Fth>\u003Cth>MMMU_VAL\u003C\u002Fth>\u003Cth>MMLDocVQA_VALU\u003C\u002Fth>\u003Cth>ChartQA_TEST\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-3B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>47.11\u003C\u002Ftd>\u003Ctd>78.57\u003C\u002Ftd>\u003Ctd>80.32\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>47.33\u003C\u002Ftd>\u003Ctd>79.34\u003C\u002Ftd>\u003Ctd>79.68\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>45.99\u003C\u002Ftd>\u003Ctd>46.93\u003C\u002Ftd>\u003Ctd>38.29\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>46.56\u003C\u002Ftd>\u003Ctd>77.20\u003C\u002Ftd>\u003Ctd>78.96\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>45.78\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003Ctd>79.60\u003C\u002Ftd>\u003C\u002Ftr>\n   \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-7B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>45.44\u003C\u002Ftd>\u003Ctd>89.71\u003C\u002Ftd>\u003Ctd>84.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>47.00\u003C\u002Ftd>\u003Ctd>89.83\u003C\u002Ftd>\u003Ctd>85.92\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>47.22\u003C\u002Ftd>\u003Ctd>89.80\u003C\u002Ftd>\u003Ctd>88.64\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>46.67\u003C\u002Ftd>\u003Ctd>90.45\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>45.67\u003C\u002Ftd>\u003Ctd>89.28\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>57.00\u003C\u002Ftd>\u003Ctd>90.03\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>57.00\u003C\u002Ftd>\u003Ctd>89.88\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>56.44\u003C\u002Ftd>\u003Ctd>89.88\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>55.22\u003C\u002Ftd>\u003Ctd>89.80\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>55.22\u003C\u002Ftd>\u003Ctd>90.30\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5VL-72B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>58.78\u003C\u002Ftd>\u003Ctd>94.39\u003C\u002Ftd>\u003Ctd>85.60\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>57.89\u003C\u002Ftd>\u003Ctd>94.41\u003C\u002Ftd>\u003Ctd>85.84\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>58.67\u003C\u002Ftd>\u003Ctd>94.38\u003C\u002Ftd>\u003Ctd>85.60\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>57.56\u003C\u002Ftd>\u003Ctd>94.46\u003C\u002Ftd>\u003Ctd>86.48\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>58.78\u003C\u002Ftd>\u003Ctd>94.19\u003C\u002Ftd>\u003Ctd>87.28\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n#### 2.5 Qwen-Omni 系列模型\n\n**Qwen3-Omni 文本到文本基准测试**\n\nQwen3-Omni 系列模型在 BF16、FP8-Static 和 FP8-Dynamic 下，于 aime25、gpqa_diamond 和 mmlu_redux 上的基准测试结果如下：\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化\u003C\u002Fth>\u003Cth>aime25\u003C\u002Fth>\u003Cth>gpqa_diamond\u003C\u002Fth>\u003Cth>mmlu_redux\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>73.32\u003C\u002Ftd>\u003Ctd>56.77\u003C\u002Ftd>\u003Ctd>88.09\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>71.33\u003C\u002Ftd>\u003Ctd>56.57\u003C\u002Ftd>\u003Ctd>87.91\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>73.33\u003C\u002Ftd>\u003Ctd>55.15\u003C\u002Ftd>\u003Ctd>88.07\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cdetails>\n\u003Csummary>注\u003C\u002Fsummary>\n\n> - 上述评估结果是通过 vLLM 框架部署并取 5 次运行的平均值获得的（vLLM 仅支持思考器组件）。\n> - 评估过程中使用的超参数如下：\n> ```json\n>{\n>  \"top_p\": 0.95,\n>  \"temperature\": 0.6,\n>  \"do_sample\": true,\n>  \"max-model-len 65536\": 65536\n>}\n>```\n\n\u003C\u002Fdetails>\n\n#### 2.6 其他模型\n\n其他模型如 GLM-4.6、Qwen2.5 和 Seed-OSS 已经使用 `FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ` 和 `INT4-AWQ` 等量化策略，在 `CEVAL`、`MMLU` 和 `GSM8K` 等基准测试上进行了评估。\n\n\u003Cdetails>\n\u003Csummary>基准测试实验详情\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>量化\u003C\u002Fth>\u003Cth>CEVAL\u003C\u002Fth>\u003Cth>MMLU\u003C\u002Fth>\u003Cth>GSM8K\u003C\u002Fth>\u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\u003Ctd rowspan=\"3\">Qwen2.5-1.5B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>67.01\u003C\u002Ftd>\u003Ctd>60.05\u003C\u002Ftd>\u003Ctd>54.28\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>66.27\u003C\u002Ftd>\u003Ctd>60.23\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>66.79\u003C\u002Ftd>\u003Ctd>60.08\u003C\u002Ftd>\u003Ctd>51.71\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5-7B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>81.20\u003C\u002Ftd>\u003Ctd>74.55\u003C\u002Ftd>\u003Ctd>79.98\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>81.13\u003C\u002Ftd>\u003Ctd>74.03\u003C\u002Ftd>\u003Ctd>79.30\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>80.31\u003C\u002Ftd>\u003Ctd>74.07\u003C\u002Ftd>\u003Ctd>79.00\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>79.05\u003C\u002Ftd>\u003Ctd>73.05\u003C\u002Ftd>\u003Ctd>74.75\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>79.35\u003C\u002Ftd>\u003Ctd>73.22\u003C\u002Ftd>\u003Ctd>79.38\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">Qwen2.5-32B-Instruct\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>83.21\u003C\u002Ftd>\u003Ctd>81.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>87.59\u003C\u002Ftd>\u003Ctd>83.08\u003C\u002Ftd>\u003Ctd>81.58\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>87.30\u003C\u002Ftd>\u003Ctd>83.04\u003C\u002Ftd>\u003Ctd>81.58\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>86.70\u003C\u002Ftd>\u003Ctd>82.45\u003C\u002Ftd>\u003Ctd>82.03\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>87.00\u003C\u002Ftd>\u003Ctd>82.64\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-7B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>53.49\u003C\u002Ftd>\u003Ctd>53.80\u003C\u002Ftd>\u003Ctd>75.74\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>53.57\u003C\u002Ftd>\u003Ctd>54.17\u003C\u002Ftd>\u003Ctd>76.19\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>52.97\u003C\u002Ftd>\u003Ctd>54.13\u003C\u002Ftd>\u003Ctd>74.15\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>51.86\u003C\u002Ftd>\u003Ctd>52.44\u003C\u002Ftd>\u003Ctd>75.89\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>53.49\u003C\u002Ftd>\u003Ctd>53.70\u003C\u002Ftd>\u003Ctd>-\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-14B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>77.71\u003C\u002Ftd>\u003Ctd>74.28\u003C\u002Ftd>\u003Ctd>85.67\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>77.56\u003C\u002Ftd>\u003Ctd>74.66\u003C\u002Ftd>\u003Ctd>86.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>76.82\u003C\u002Ftd>\u003Ctd>74.63\u003C\u002Ftd>\u003Ctd>87.11\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>74.29\u003C\u002Ftd>\u003Ctd>72.37\u003C\u002Ftd>\u003Ctd>84.61\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>74.81\u003C\u002Ftd>\u003Ctd>73.00\u003C\u002Ftd>\u003Ctd>86.05\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd rowspan=\"5\">DeepSeek-R1-Distill-Qwen-32B\u003C\u002Ftd>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>84.18\u003C\u002Ftd>\u003Ctd>80.89\u003C\u002Ftd>\u003Ctd>87.41\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Static\u003C\u002Ftd>\u003Ctd>83.43\u003C\u002Ftd>\u003Ctd>80.90\u003C\u002Ftd>\u003Ctd>87.57\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FP8-Dynamic\u003C\u002Ftd>\u003Ctd>83.73\u003C\u002Ftd>\u003Ctd>81.10\u003C\u002Ftd>\u003Ctd>86.43\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-GPTQ\u003C\u002Ftd>\u003Ctd>84.10\u003C\u002Ftd>\u003Ctd>79.80\u003C\u002Ftd>\u003Ctd>86.73\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>INT4-AWQ\u003C\u002Ftd>\u003Ctd>82.84\u003C\u002Ftd>\u003Ctd>80.15\u003C\u002Ftd>\u003Ctd>87.19\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n### 3. Token压缩（VLM）\n\n我们在多个多模态基准测试上，针对**Qwen2.5-VL-3B-Instruct**模型评估了多种视觉Token压缩策略。您可以通过以下命令复现这些结果：\n\n```shell\npython tools\u002Frun_pruning_eval.py \\\n    --model_path \"Qwen\u002FQwen2.5-VL-3B-Instruct\" \\\n    --configs \"configs\u002Fqwen2_5_vl\u002Fpruning\u002Fvisionzip_r0.9.yaml\" \\\n    --tasks \"textvqa\" \\\n    --output_dir \".\u002Fresults\u002Fvisionzip_test\"\n```\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>详细基准测试结果（Qwen2.5-VL-3B-Instruct）\u003C\u002Fb>\u003C\u002Fsummary>\n\n\u003Ctable style=\"text-align:center; vertical-align:middle;\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>方法\u003C\u002Fth>\n      \u003Cth>AI2D\u003C\u002Fth>\n      \u003Cth>ChartQA\u003C\u002Fth>\n      \u003Cth>DocVQA\u003C\u002Fth>\n      \u003Cth>MMB\u003Csup>CN\u003C\u002Fsup>\u003C\u002Fth>\n      \u003Cth>MMB\u003C\u002Fth>\n      \u003Cth>MME\u003C\u002Fth>\n      \u003Cth>MMStar\u003C\u002Fth>\n      \u003Cth>OCRBench\u003C\u002Fth>\n      \u003Cth>POPE\u003C\u002Fth>\n      \u003Cth>SQA\u003C\u002Fth>\n      \u003Cth>VQA\u003Csup>Text\u003C\u002Fsup>\u003C\u002Fth>\n      \u003Cth>平均\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>\u003Cb>基线\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>79.11\u003C\u002Ftd>\n      \u003Ctd>83.56\u003C\u002Ftd>\n      \u003Ctd>92.48\u003C\u002Ftd>\n      \u003Ctd>73.28\u003C\u002Ftd>\n      \u003Ctd>77.32\u003C\u002Ftd>\n      \u003Ctd>1517\u003C\u002Ftd>\n      \u003Ctd>56.05\u003C\u002Ftd>\n      \u003Ctd>80.10\u003C\u002Ftd>\n      \u003Ctd>87.41\u003C\u002Ftd>\n      \u003Ctd>80.81\u003C\u002Ftd>\n      \u003Ctd>78.79\u003C\u002Ftd>\n      \u003Ctd>100.0%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #808080;\">\n      \u003Cth colspan=\"13\">保留25%的Token（75%压缩率）\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FastV\u003C\u002Ftd>\u003Ctd>72.70\u003C\u002Ftd>\u003Ctd>70.04\u003C\u002Ftd>\u003Ctd>75.98\u003C\u002Ftd>\u003Ctd>63.40\u003C\u002Ftd>\u003Ctd>66.92\u003C\u002Ftd>\u003Ctd>1437\u003C\u002Ftd>\u003Ctd>47.39\u003C\u002Ftd>\u003Ctd>36.60\u003C\u002Ftd>\u003Ctd>86.42\u003C\u002Ftd>\u003Ctd>79.33\u003C\u002Ftd>\u003Ctd>68.12\u003C\u002Ftd>\u003Ctd>86.02%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionZip\u003C\u002Ftd>\u003Ctd>74.19\u003C\u002Ftd>\u003Ctd>71.32\u003C\u002Ftd>\u003Ctd>70.11\u003C\u002Ftd>\u003Ctd>67.35\u003C\u002Ftd>\u003Ctd>71.22\u003C\u002Ftd>\u003Ctd>1452\u003C\u002Ftd>\u003Ctd>49.37\u003C\u002Ftd>\u003Ctd>42.50\u003C\u002Ftd>\u003Ctd>85.51\u003C\u002Ftd>\u003Ctd>\u003Cu>81.36\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>68.12\u003C\u002Ftd>\u003Ctd>87.34%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>HiPrune\u003C\u002Ftd>\u003Ctd>73.83\u003C\u002Ftd>\u003Ctd>72.76\u003C\u002Ftd>\u003Ctd>72.10\u003C\u002Ftd>\u003Ctd>67.27\u003C\u002Ftd>\u003Ctd>72.34\u003C\u002Ftd>\u003Ctd>1449\u003C\u002Ftd>\u003Ctd>48.93\u003C\u002Ftd>\u003Ctd>41.30\u003C\u002Ftd>\u003Ctd>85.86\u003C\u002Ftd>\u003Ctd>80.91\u003C\u002Ftd>\u003Ctd>69.27\u003C\u002Ftd>\u003Ctd>87.67%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionSelector\u003C\u002Ftd>\u003Ctd>75.19\u003C\u002Ftd>\u003Ctd>73.72\u003C\u002Ftd>\u003Ctd>\u003Cb>90.24\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>68.81\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>72.59\u003C\u002Ftd>\u003Ctd>\u003Cb>1521\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>49.97\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>61.80\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>85.36\u003C\u002Ftd>\u003Ctd>80.37\u003C\u002Ftd>\u003Ctd>\u003Cu>76.86\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>93.62%\u003C\u002Fu>\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DivPrune\u003C\u002Ftd>\u003Ctd>73.06\u003C\u002Ftd>\u003Ctd>62.96\u003C\u002Ftd>\u003Ctd>78.46\u003C\u002Ftd>\u003Ctd>67.10\u003C\u002Ftd>\u003Ctd>71.82\u003C\u002Ftd>\u003Ctd>1459\u003C\u002Ftd>\u003Ctd>48.38\u003C\u002Ftd>\u003Ctd>51.40\u003C\u002Ftd>\u003Ctd>\u003Cb>86.81\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>80.22\u003C\u002Ftd>\u003Ctd>68.91\u003C\u002Ftd>\u003Ctd>88.15%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DART\u003C\u002Ftd>\u003Ctd>71.08\u003C\u002Ftd>\u003Ctd>65.20\u003C\u002Ftd>\u003Ctd>79.72\u003C\u002Ftd>\u003Ctd>65.38\u003C\u002Ftd>\u003Ctd>71.05\u003C\u002Ftd>\u003Ctd>1428\u003C\u002Ftd>\u003Ctd>48.78\u003C\u002Ftd>\u003Ctd>41.80\u003C\u002Ftd>\u003Ctd>80.97\u003C\u002Ftd>\u003Ctd>80.91\u003C\u002Ftd>\u003Ctd>68.25\u003C\u002Ftd>\u003Ctd>86.17%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisPruner\u003C\u002Ftd>\u003Ctd>74.29\u003C\u002Ftd>\u003Ctd>68.20\u003C\u002Ftd>\u003Ctd>72.52\u003C\u002Ftd>\u003Ctd>67.35\u003C\u002Ftd>\u003Ctd>70.88\u003C\u002Ftd>\u003Ctd>1458\u003C\u002Ftd>\u003Ctd>49.74\u003C\u002Ftd>\u003Ctd>44.80\u003C\u002Ftd>\u003Ctd>86.59\u003C\u002Ftd>\u003Ctd>\u003Cb>81.46\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>69.62\u003C\u002Ftd>\u003Ctd>87.87%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>SCOPE\u003C\u002Ftd>\u003Ctd>\u003Cu>75.84\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>74.00\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>82.40\u003C\u002Ftd>\u003Ctd>\u003Cu>68.81\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>72.94\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>1471\u003C\u002Ftd>\u003Ctd>\u003Cb>50.35\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>56.00\u003C\u002Ftd>\u003Ctd>\u003Cu>86.62\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>80.96\u003C\u002Ftd>\u003Ctd>74.04\u003C\u002Ftd>\u003Ctd>91.98%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>\u003Cb>IDPruner\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>75.94\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>75.84\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>90.00\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>69.42\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>73.80\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>1505\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>49.49\u003C\u002Ftd>\u003Ctd>\u003Cb>64.90\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>86.26\u003C\u002Ftd>\u003Ctd>80.42\u003C\u002Ftd>\u003Ctd>53.31\u003C\u002Ftd>\u003Ctd>73.00%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr style=\"background-color: #808080;\">\n      \u003Cth colspan=\"13\">保留10%的Token（90%压缩率）\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>FastV\u003C\u002Ftd>\u003Ctd>65.87\u003C\u002Ftd>\u003Ctd>29.72\u003C\u002Ftd>\u003Ctd>36.89\u003C\u002Ftd>\u003Ctd>48.37\u003C\u002Ftd>\u003Ctd>51.98\u003C\u002Ftd>\u003Ctd>1257\u003C\u002Ftd>\u003Ctd>37.28\u003C\u002Ftd>\u003Ctd>13.90\u003C\u002Ftd>\u003Ctd>79.50\u003C\u002Ftd>\u003Ctd>77.05\u003C\u002Ftd>\u003Ctd>57.75\u003C\u002Ftd>\u003Ctd>65.30%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionZip\u003C\u002Ftd>\u003Ctd>67.65\u003C\u002Ftd>\u003Ctd>51.60\u003C\u002Ftd>\u003Ctd>37.88\u003C\u002Ftd>\u003Ctd>59.62\u003C\u002Ftd>\u003Ctd>63.06\u003C\u002Ftd>\u003Ctd>1338\u003C\u002Ftd>\u003Ctd>42.82\u003C\u002Ftd>\u003Ctd>21.40\u003C\u002Ftd>\u003Ctd>81.14\u003C\u002Ftd>\u003Ctd>80.47\u003C\u002Ftd>\u003Ctd>51.56\u003C\u002Ftd>\u003Ctd>72.75%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>HiPrune\u003C\u002Ftd>\u003Ctd>67.75\u003C\u002Ftd>\u003Ctd>53.20\u003C\u002Ftd>\u003Ctd>41.15\u003C\u002Ftd>\u003Ctd>59.45\u003C\u002Ftd>\u003Ctd>63.14\u003C\u002Ftd>\u003Ctd>1326\u003C\u002Ftd>\u003Ctd>41.08\u003C\u002Ftd>\u003Ctd>20.30\u003C\u002Ftd>\u003Ctd>80.90\u003C\u002Ftd>\u003Ctd>\u003Cb>80.96\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>53.31\u003C\u002Ftd>\u003Ctd>73.00%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisionSelector\u003C\u002Ftd>\u003Ctd>\u003Cu>70.50\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>65.92\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>79.94\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>59.97\u003C\u002Ftd>\u003Ctd>64.69\u003C\u002Ftd>\u003Ctd>1374\u003C\u002Ftd>\u003Ctd>42.86\u003C\u002Ftd>\u003Ctd>\u003Cu>45.20\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>82.66\u003C\u002Ftd>\u003Ctd>\u003Cu>80.61\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>71.57\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>84.42%\u003C\u002Fu>\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DivPrune\u003C\u002Ftd>\u003Ctd>67.71\u003C\u002Ftd>\u003Ctd>43.12\u003C\u002Ftd>\u003Ctd>58.03\u003C\u002Ftd>\u003Ctd>61.25\u003C\u002Ftd>\u003Ctd>65.12\u003C\u002Ftd>\u003Ctd>1389\u003C\u002Ftd>\u003Ctd>40.43\u003C\u002Ftd>\u003Ctd>27.90\u003C\u002Ftd>\u003Ctd>82.24\u003C\u002Ftd>\u003Ctd>79.18\u003C\u002Ftd>\u003Ctd>56.87\u003C\u002Ftd>\u003Ctd>75.50%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>DART\u003C\u002Ftd>\u003Ctd>67.49\u003C\u002Ftd>\u003Ctd>47.56\u003C\u002Ftd>\u003Ctd>60.23\u003C\u002Ftd>\u003Ctd>57.99\u003C\u002Ftd>\u003Ctd>63.83\u003C\u002Ftd>\u003Ctd>1299\u003C\u002Ftd>\u003Ctd>42.18\u003C\u002Ftd>\u003Ctd>23.40\u003C\u002Ftd>\u003Ctd>74.20\u003C\u002Ftd>\u003Ctd>78.63\u003C\u002Ftd>\u003Ctd>58.02\u003C\u002Ftd>\u003Ctd>74.09%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>VisPruner\u003C\u002Ftd>\u003Ctd>67.75\u003C\u002Ftd>\u003Ctd>47.92\u003C\u002Ftd>\u003Ctd>48.65\u003C\u002Ftd>\u003Ctd>59.28\u003C\u002Ftd>\u003Ctd>63.32\u003C\u002Ftd>\u003Ctd>1305\u003C\u002Ftd>\u003Ctd>41.51\u003C\u002Ftd>\u003Ctd>22.50\u003C\u002Ftd>\u003Ctd>78.74\u003C\u002Ftd>\u003Ctd>79.77\u003C\u002Ftd>\u003Ctd>54.95\u003C\u002Ftd>\u003Ctd>73.19%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>SCOPE\u003C\u002Ftd>\u003Ctd>69.75\u003C\u002Ftd>\u003Ctd>56.24\u003C\u002Ftd>\u003Ctd>55.01\u003C\u002Ftd>\u003Ctd>\u003Cb>64.26\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>67.18\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>1390\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>44.35\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>30.80\u003C\u002Ftd>\u003Ctd>\u003Cu>83.34\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>80.47\u003C\u002Ftd>\u003Ctd>62.58\u003C\u002Ftd>\u003Ctd>79.37%\u003C\u002Ftd>\u003C\u002Ftr>\n    \u003Ctr>\u003Ctd>\u003Cb>IDPruner\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>71.79\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>63.32\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>79.38\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cu>63.57\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>68.21\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>1438\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cu>44.05\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>45.50\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>\u003Cb>84.51\u003C\u002Fb>\u003C\u002Ftd>\u003Ctd>80.57\u003C\u002Ftd>\u003Ctd>\u003Cu>70.02\u003C\u002Fu\u003C\u002Fu>\u003C\u002Ftd>\u003Ctd>\u003Cb>85.71%\u003C\u002Fb>\u003C\u002Ftd>\u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n## 📝 许可证\n\n本项目的代码以[AngelSlim许可证](LICENSE)开源。\n\n## 🔗 引用\n\n```\n@article{angelslim2026,\n  title={AngelSlim: 一个更易用、全面且高效的大型模型压缩工具包},\n  author={Hunyuan AI Infra团队},\n  journal={arXiv预印本 arXiv:2602.21233},\n  year={2026}\n}\n```\n\n## 💬 技术讨论\n\n* AngelSlim由腾讯Hunyuan AI Infra团队开发，新功能会不断迭代更新。如果您有任何问题或建议，请在[Github Issues](https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues)中提交，或加入我们的[微信讨论群](.\u002Fdocs\u002Fsource\u002Fassets\u002Fangel_slim_wechat.png)。\n\n* ⭐ 请给本仓库标星，以便关注我们的最新进展。如果您有兴趣加入我们实习或全职工作，请将简历发送至：lucayu@tencent.com。","# AngelSlim 快速上手指南\n\nAngelSlim 是一个易用、全面且高效的大模型压缩工具包，支持量化（Quantization）、投机采样（Speculative Decoding）等多种压缩策略，覆盖 LLM、VLM、扩散模型及语音模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 3.8 - 3.11\n*   **GPU**: NVIDIA GPU (建议显存 >= 16GB，具体取决于模型大小)\n*   **CUDA**: 11.8 或 12.x\n*   **PyTorch**: 2.0+ (需与 CUDA 版本匹配)\n\n**前置依赖检查：**\n请确保已安装基础的 PyTorch 环境。若未安装，可使用以下命令（以 CUDA 12.1 为例）：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n```\n\n## 2. 安装步骤\n\n推荐通过 pip 直接安装最新稳定版。国内用户建议使用镜像源加速下载。\n\n### 方式一：通过 PyPI 安装（推荐）\n```bash\n# 使用清华镜像源加速安装\npip install angelslim -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方式二：从源码安装（获取最新特性）\n如果您需要使用最新的算法（如 Sherry, TEQUILA, Eagle3 等），建议从 GitHub 克隆源码安装：\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim.git\ncd AngelSlim\n\n# 安装依赖及工具包\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **提示**：部分高级量化算法（如 NVFP4）或特定模型支持可能需要额外安装对应的内核库，请参考官方文档中的 `requirements` 文件。\n\n## 3. 基本使用\n\nAngelSlim 提供了统一的命令行接口和 Python API。以下以最常用的 **PTQ（训练后量化）** 为例，展示如何将一个 HuggingFace 模型量化为 INT4 格式。\n\n### 场景：对 Qwen3 模型进行 INT4-GPTQ 量化\n\n#### 方法 A：使用命令行工具 (CLI)\n\n这是最快捷的方式，适合快速验证和批量处理。\n\n```bash\nangelslim quantize \\\n    --model_path Qwen\u002FQwen3-7B \\\n    --output_dir .\u002Fqwen3-7b-int4 \\\n    --algorithm gptq \\\n    --w_bits 4 \\\n    --group_size 128 \\\n    --calib_dataset \"c4\" \\\n    --calib_samples 128 \\\n    --device_map auto\n```\n\n**参数说明：**\n*   `--model_path`: 原始模型路径（本地路径或 HuggingFace\u002FModelScope ID）。\n*   `--algorithm`: 量化算法，支持 `gptq`, `awq`, `fp8_static`, `fp8_dynamic` 等。\n*   `--w_bits`: 权重量化位数（如 4, 8）。\n*   `--calib_dataset`: 校准数据集名称。\n\n#### 方法 B：使用 Python API\n\n适合需要集成到自定义训练或推理流程中的开发者。\n\n```python\nfrom angelslim.quant import Quantizer\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\n# 1. 加载模型和分词器\nmodel_name = \"Qwen\u002FQwen3-7B\"\ntokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(model_name, device_map=\"auto\", trust_remote_code=True)\n\n# 2. 配置量化参数\nconfig = {\n    \"algorithm\": \"gptq\",\n    \"w_bits\": 4,\n    \"group_size\": 128,\n    \"calib_dataset\": \"c4\",\n    \"calib_samples\": 128\n}\n\n# 3. 执行量化\nquantizer = Quantizer(model, tokenizer, config)\nquantized_model = quantizer.run()\n\n# 4. 保存量化后的模型\nquantized_model.save_quantized(\".\u002Fqwen3-7b-int4\")\ntokenizer.save_pretrained(\".\u002Fqwen3-7b-int4\")\n\nprint(\"量化完成，模型已保存至 .\u002Fqwen3-7b-int4\")\n```\n\n### 进阶：使用 Eagle3 进行投机采样加速\n\nAngelSlim 还支持 Eagle3 框架以加速推理。训练 Eagle3 草稿模型示例：\n\n```bash\nangelslim eagle3 train \\\n    --base_model Qwen\u002FQwen3-7B \\\n    --draft_model_output_dir .\u002Feagle3-draft \\\n    --dataset \"alpaca\" \\\n    --batch_size 4 \\\n    --learning_rate 1e-4\n```\n\n---\n*更多高级功能（如扩散模型量化、Sherry 1.25bit 量化等）请参阅 [官方文档](https:\u002F\u002Fangelslim.readthedocs.io\u002Fzh-cn\u002Flatest\u002F)。*","某初创团队试图将 72B 参数的多模态大模型部署到资源受限的边缘服务器上，以提供实时的工业质检服务。\n\n### 没有 AngelSlim 时\n- **显存爆满无法运行**：原始模型体积巨大，远超边缘设备显存上限，导致服务根本无法启动。\n- **算法适配成本极高**：团队需手动为不同层编写量化代码，面对 FP8、INT4 等多种算法，调试周期长达数周。\n- **推理延迟不可接受**：即使勉强通过裁剪运行，单次推理耗时超过 2 秒，完全无法满足生产线实时检测需求。\n- **精度损失难以控制**：缺乏专业的后训练量化（PTQ）策略，模型压缩后识别准确率大幅下降，误报率飙升。\n\n### 使用 AngelSlim 后\n- **端侧顺利部署**：利用 AngelSlim 的 Sherry 1.25 bit 或 INT4 量化算法，模型体积压缩至原来的 1\u002F4，成功载入边缘设备。\n- **一站式高效压缩**：借助其高度集成的框架，一键调用针对 Qwen2.5-VL 等模型的预设配置，半天内即可完成压缩流程。\n- **推理速度显著提升**：结合 Eagle3 投机解码技术，推理吞吐量提升数倍，单张图片检测延迟降低至 200 毫秒以内。\n- **知识保留完好**：通过 DAQ 等先进算法，在参数量剧烈缩减的同时，有效保留了模型核心知识，准确率几乎无损。\n\nAngelSlim 让超大模型在低算力设备上实现了“跑得动、跑得快、跑得准”的落地闭环。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent_AngelSlim_35090fa1.png","Tencent","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTencent_f7e55588.png","",null,"https:\u002F\u002Fopensource.tencent.com","https:\u002F\u002Fgithub.com\u002FTencent",[79,83],{"name":80,"color":81,"percentage":82},"Python","#3572A5",98.2,{"name":84,"color":85,"percentage":86},"Shell","#89e051",1.8,559,75,"2026-04-04T16:02:30","NOASSERTION","未说明","需要 NVIDIA GPU（文中提及单卡可运行 Qwen3-235B 等大模型量化，暗示对显存及算力有较高要求，具体型号及 CUDA 版本未明确列出）",{"notes":94,"python":91,"dependencies":95},"该工具专注于大模型压缩（量化、投机解码等），支持 LLM、VLM、扩散模型及语音模型。特色包括支持在单张 GPU 上对超大规模模型（如 Qwen3-235B、DeepSeek-R1）进行量化处理。集成了多种自研算法（如 DAQ, Sherry, TEQUILA, SpecExit, Eagle3）。具体环境依赖需参考官方文档或配置文件，README 中未提供详细的版本列表。",[96,97,98],"torch","transformers","vLLM (部分功能支持)",[14,100,35,15],"音频",[102,103,104,105,106,107,108,109,110,111,112,113,114],"llm","llm-compression","quantization","speculative-decoding","diffusion","vlm","hunyuan","deepseek","qwen","fp4","eagle","audio","dflash","2026-03-27T02:49:30.150509","2026-04-06T22:01:22.847129",[118,123,128,133,138,142],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},20156,"量化 Qwen 235B 大模型为 fp8 时遇到 OOM（显存溢出）或报错怎么办？","在单机多卡（如 8 卡 A100）环境下量化超大模型时，若使用 `device_map: auto` 或 `device_map: cuda` 导致显存不足（OOM），建议尝试将配置修改为 `device_map: cpu`。虽然速度可能稍慢，但能有效利用系统内存避免显存溢出问题。","https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues\u002F2",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},20157,"使用 Eagle3  speculative decoding（投机采样）后，推理速度为什么反而变慢了？","Eagle3 的实际加速效果高度依赖于具体的 Benchmark 场景、Batch Size 大小以及显卡型号。官方参考配置（GSM8K\u002FAlpaca 等数据集，tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024）下的平均加速比约为 1.4 倍。如果您的测试场景（如 Batch Size 过大或过小、特定任务类型）与参考配置差异较大，可能导致加速不明显甚至变慢。","https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues\u002F222",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},20158,"训练 Eagle3 VLM 离线模型时，设置 per_device_train_batch_size > 1 报张量尺寸不匹配错误（RuntimeError: size of tensor a must match size of tensor b）如何解决？","该错误是由于 MRoPE 格式的 position_ids (shape: 3, batch, seq_len) 被错误地 reshape 导致的。请修改 `angelslim\u002Fcompressor\u002Fspeculative\u002Ftrain\u002Ftrainer\u002Feagle3_trainer.py` 中的 `prepare_attention_mask_and_position_ids` 方法，增加对 3D position_ids 的判断逻辑：\n```python\nif position_ids.ndim == 3:\n    # MRoPE format: (3, batch, seq_len), keep as-is\n    position_ids = position_ids.long()\nelse:\n    position_ids = position_ids.view(-1, seq_length).long()\n```\n确保在处理 MRoPE 格式时保持其原始维度不变，仅进行类型转换。","https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues\u002F263",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},20159,"AngelSlim 的 W4A8 量化模型是否支持 TRT-LLM 部署？","是的，TRT-LLM 已经支持 W4A8 量化格式。您可以参考 NVIDIA TensorRT-LLM 仓库的相关 PR 获取具体实现和支持细节：https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\u002Fpull\u002F6857","https:\u002F\u002Fgithub.com\u002FTencent\u002FAngelSlim\u002Fissues\u002F36",{"id":139,"question_zh":140,"answer_zh":141,"source_url":127},20160,"训练一个 Eagle3 多模态模型大概需要多少资源和时间？","根据社区反馈，采用离线训练方式，在单机 8 卡的环境下，训练一个 Eagle3 模型大约需要 1 天的时间。具体资源消耗会根据模型大小和数据集规模有所波动。",{"id":143,"question_zh":144,"answer_zh":145,"source_url":137},20161,"如何在 SGLang 中启动 AngelSlim 的量化模型（如 DeepSeek-R1 w4a8_fp8）？","使用 SGLang 启动量化模型时，需指定 `--trust-remote-code` 并正确设置张量并行度（`--tp`）。示例命令如下：\n```bash\nexport CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7\nMODEL_PATH=\u002Fpath\u002Fto\u002Fmodel\nPORT=30000\nINFERENCE_TP_SIZE=8\n\npython -m sglang.launch_server \\\n    --host 0.0.0.0 \\\n    --port ${PORT} \\\n    --model-path $MODEL_PATH \\\n    --tp $INFERENCE_TP_SIZE \\\n    --mem-fraction-static 0.9 \\\n    --trust-remote-code\n```\n注意：如果遇到量化相关报错，请确保使用的 SGLang 版本已支持该量化格式，或检查是否需要更新后端引擎（如 TRT-LLM）的支持。",[147,152,157],{"id":148,"version":149,"summary_zh":150,"released_at":151},118189,"v0.3.0","# AngelSlim V0.3.0版本发布\r\n## 功能升级\r\n\r\n### 投机采样\r\n- 重构Eagle3训练的trainer和数据的代码架构 #178\r\n- 支持Qwen3-VL的Eagle3模型训练及vLLM Benchmark测试 #176\r\n- 更新HY模型、Qwen3系列模型Eagle3训练以及vLLM Benchmark测试流程 #172 #194\r\n- 支持HunyuanOCR、Qwen3-VL及语音ASR模型投机采样训练、Benchmark测试流程及文档 #193 #196 #201 #202 #204\r\n- 支持语音TTS模型投机采样训练、Benchmark测试流程及文档 #198 #205\r\n\r\n### 量化\r\n- 支持HunyuanOCR模型FP8量化 #164 #166 \r\n- 支持Diffusion模型`sgl_kernel`的`fp8-per-block`量化能力 #169\r\n- 支持Qwen2-Audio模型的FP8、INT8量化 #191\r\n\r\n## Bug fix及其他\r\n- 修复INT4-AWQ量化在低内存模式下的一些bug #179 #184\r\n- 修复Qwen3-VL-235B模型FP8 Block-wise量化的OOM问题 #180 #185","2026-01-13T08:33:11",{"id":153,"version":154,"summary_zh":155,"released_at":156},118190,"v0.2.0","# AngelSlim V0.2.0版本发布\n\n## 功能升级\n\n### 量化\n- 发布LeptoQuant量化算法，动态搜索最佳FP8静态量化scale #45\n- 支持int4 GPTAQ量化算法及Benchmark #49 \n- 支持DeepSeek\u002FQwen模型FP8-Block-Wise量化的工具化脚本 #52 #95\n- 支持Qwen2.5 code模型静态及动态FP8量化流程 #55 #56\n- 支持Seed-OSS模型FP8静态及动态量化 #53 \n- 支持Qwen3-Coder-480B-A35B静态及动态FP8量化流程 #66 #68\n- 支持Qwen3 NVFP4量化及Benchmark #72 #76 #77\n- 发布Tequila三值量化新方法 #79 #80\n- 支持DeepSeek int4-awq量化算法 #87 #96\n- 支持GLM-4.6模型FP8静态量化 #89 #100\n- 支持Qwen3-VL模型FP8静态量化及Benchmark #112 #124\n- 新增Qwen3-Omni的FP8静态量化 #121\n\n### 投机采样\n- 支持Eagle3的torch推理Benchmark流程 #54 \n- 更新Eagle3 head_dim自适应，兼容Transformer 4.56以上版本 #70 #71\n- 发布SpecExit思考早停新算法 #83 #91\n- 发布投机采样训练框架，支持vLLM数据采样，Deepspeed+HF在线Eagle3训练 #113\n- 支持Hunyuan模型Eagle3训练 #126\n- 支持投机采样vLLM测试Benchmark #125 #127\n\n### Diffusion压缩\n- 支持Diffusion FLUX模型fp8静态量化 #37\n- 支持Cache + FP8量化联合策略 #63\n- 重构Diffusion动态量化，支持per-tensor、per-token和per-block量化及导出流程 #90 #99\n- 支持Diffusion模型weight only fp8量化 ，新增DiT量化脚本及文档 #104 #117\n\n## Bug修复及其他\n- 修复DeepSeek per-tensor量化、导出模型、校准集等问题 #50 #64\n- 修复angelslim保存config的数据路径，对敏感信息模糊处理 #78\n- 分离各场景环境依赖，通过lazy import组织requirement #101 #120 #129 #131\n- 优化deploy脚本传参形式，优化tokenizer目录结构 #115\n- 支持attn_implementation可选接口，支持flash-attn来减低量化过程显存占用 #130","2025-11-05T06:55:50",{"id":158,"version":159,"summary_zh":160,"released_at":161},118191,"v0.1.0","# AngelSlim V0.1版本发布\n\n## 功能升级\n\n### 量化\n- 支持了`Hunyuan 0.5B\u002F1.8B\u002F4B\u002F7B\u002FA13B`模型的INT8、FP8、INT4等量化。\n- 支持了`Qwen2.5\u002FQwen3\u002FDeepSeek-R1-Distill-Qwen`等模型INT8、FP8、INT4等量化。\n- 支持了`Qwen2.5VL 3B\u002F7B\u002F32B\u002F72B`的FP8、INT4量化。\n- 支持了`DeepSeek-R1\u002FV3`和`Kimi-K2`模型的`FP8-Static`、`W4A8-FP8`量化\n- 支持量化敏感度分析工具，可对权重和激活同时进行量化敏感度分析。\n\n### 投机采样\n- 开源`Qwen3`系列模型的Eagle3权重。\n- 开源`Hunyuan 1.8B\u002F4B\u002F7B`系列模型的Eagle3权重。","2025-08-06T05:21:48"]