nunchaku
Nunchaku 是一款专为 4 比特扩散模型打造的高性能推理引擎,源自 ICLR 2025 焦点论文 SVDQuant。它主要解决了大型图像生成模型在消费级显卡上显存占用高、运行速度慢的难题,让用户无需昂贵硬件也能流畅体验高质量的 AI 绘图。
其核心亮点在于独特的“奇异值分解量化”技术,能够巧妙地将模型中的异常值吸收到低秩组件中。这种创新方法在将模型压缩至 4 比特精度的同时,几乎不损失生成图像的质量,从而大幅降低了计算资源门槛。近期更新更带来了对 LoRA 的原生支持、对旧款 20 系列显卡的兼容以及显著的生成速度提升。
Nunchaku 非常适合希望在本机部署高效工作流的开发者、需要快速验证算法的研究人员,以及渴望在个人电脑上运行最新大模型(如通义万相 Z-Image、Qwen 图像编辑等)的资深设计师和 AI 爱好者。通过集成 ComfyUI 节点,它让复杂的低精度推理变得简单易用,是连接前沿量化研究与实际落地应用的桥梁。
使用场景
一家专注于电商营销的初创团队,需要在本地工作站上快速批量生成大量高分辨率的商品宣传图,以应对每日更新的促销需求。
没有 nunchaku 时
- 显存门槛极高:运行最新的 Qwen-Image-Edit 或 Z-Image-Turbo 等大模型需要 24GB 甚至更高显存的旗舰显卡,团队旧有的 RTX 20/30 系列设备完全无法加载模型。
- 推理速度缓慢:即使使用高端显卡,生成一张高质量图片仍需数分钟,难以满足“即时预览、快速迭代”的创作节奏。
- 工作流割裂:为了加速不得不依赖云端 API 或复杂的量化脚本,导致无法在熟悉的 ComfyUI 中直接通过原生节点流畅调用 LoRA 进行风格微调。
- 画质与速度难兼得:传统的 4 比特量化方案往往伴随明显的画质损失(如纹理模糊、色彩断层),迫使团队在“低质快出”和“高质慢等”之间痛苦抉择。
使用 nunchaku 后
- 硬件利旧升级:借助 SVDQuant 技术吸收异常值,nunchaku 让 RTX 20 系列等老款显卡也能流畅运行 4 比特扩散模型,大幅降低了硬件投入成本。
- 性能显著跃升:在 Z-Image 等模型上实现了 20–30% 的推理速度提升,将单图生成时间从分钟级压缩至秒级,极大提升了批量生产效率。
- 无缝集成工作流:通过 ComfyUI 原生节点直接支持 LoRA 微调,设计师可在原有可视化界面中自由组合模型与插件,无需编写额外代码。
- 无损压缩体验:利用低秩组件技术,在 4 比特精度下依然保持了接近原模型的图像细节与色彩还原度,真正实现了“既要速度快,又要画质好”。
nunchaku 通过突破性的 4 比特量化推理引擎,让普通开发者也能在消费级显卡上低成本、高效率地部署顶尖扩散模型。
运行环境要求
- Linux
- Windows
- 必需 NVIDIA GPU
- 支持 RTX 20 系列(Turing 架构)及更新型号(如 4090, 5090)
- 显存需求灵活:开启异步卸载后最低仅需 3-4 GiB(如运行 Qwen-Image),常规高性能推理建议 16GB+
- 支持 INT4 和 NVFP4 精度
未说明(依赖 CPU 卸载功能可降低显存压力,系统内存建议充足以支持模型加载)

快速开始
论文 | 文档 | 官网 | 博客 | 演示 | Hugging Face | ModelScope | ComfyUI
Nunchaku 是一款针对 4 位神经网络优化的高性能推理引擎,如我们在论文 SVDQuant 中所介绍。有关底层量化库,请查看 DeepCompressor。
欢迎加入我们的用户群组——Discord 和 WeChat,与社区成员一起交流讨论!更多详情请参阅 这里。如果您有任何问题、遇到任何困难,或有意参与贡献,请随时联系我们!
新闻
- [2026-01-12] 🚀 v1.2.0 发布! 享受 Z-Image 性能提升 20–30%,无缝支持 LoRA 并配备原生 ComfyUI 节点,新增 20 系列显卡的 INT4 支持,以及 与 ComfyUI 0.7 的兼容性!
- [2025-12-20] 🔥 推出 4 位 Tongyi-MAI/Z-Image-Turbo!您可以在 Hugging Face 或 ModelScope 上下载,并使用我们的示例脚本 [examples/v1/z-image-turbo.py] 进行体验。
- [2025-09-25] 🔥 推出 4 位 4/8 步闪电版 Qwen-Image-Edit-2509!您可以在 Hugging Face 或 ModelScope 上下载,并使用我们的示例脚本 [examples/v1/qwen-image-edit-2509-lightning.py] 进行尝试。
- [2025-09-24] 🔥 发布了 4 位 Qwen-Image-Edit-2509!相关模型已在 Hugging Face 上架。您可以使用我们的示例脚本 [examples/v1/qwen-image-edit-2509.py] 来体验。闪电版本也将随后推出!
更多
- [2025-09-09] 🔥 发布了 4-bit Qwen-Image-Edit,同时推出了 4/8-step Lightning 变体!模型已在 Hugging Face 上架。请使用我们的 示例脚本 体验。
- [2025-09-04] 🚀 正式发布 Nunchaku v1.0.0!Qwen-Image 现已支持 异步卸载,在不损失性能的情况下,显存占用可低至 3 GiB。请查看 教程 以开始使用。
- [2025-08-27] 🔥 发布了 4-bit 4/8-step lightning Qwen-Image!可在 Hugging Face 或 ModelScope 下载,并使用我们的 示例脚本 进行尝试。
- [2025-08-15] 🔥 我们的 4-bit Qwen-Image 模型现已上线 Hugging Face!请使用我们的 示例脚本 开始体验。ComfyUI、LoRA 和 CPU 卸载支持即将推出!
- [2025-08-15] 🚀 Python 后端现已可用!请在此处探索我们的 Python 风格 FLUX 模型 [nunchaku/models/transformers/transformer_flux_v2.py],并查看模块化的 4-bit 线性层 [nunchaku/models/linear.py]。
- [2025-07-31] 🚀 FLUX.1-Krea-dev 现已支持! 请查看我们的新 示例脚本 以开始使用。
- [2025-07-13] 🚀 官方 Nunchaku 文档 现已上线!探索全面的指南和资源,帮助您快速入门。
- [2025-06-29] 🔥 支持 FLUX.1-Kontext!请尝试我们的 示例脚本 来体验其效果!演示链接为:[https://svdquant.mit.edu/kontext/]!
- [2025-06-01] 🚀 发布 v0.3.0! 此次更新新增多批次推理支持、ControlNet-Union-Pro 2.0、初步集成 PuLID,并引入了 双 FB 缓存。现在您可以将 Nunchaku FLUX 模型加载为单个文件,而我们升级的 4-bit T5 编码器 在质量上已与 FP8 T5 相当!
- [2025-04-16] 🎥 发布了教学视频,分别提供 英语 和 中文 版本,帮助用户完成安装和使用。
- [2025-04-09] 📢 发布了 四月路线图 和 常见问题解答,以帮助社区快速上手并及时了解 Nunchaku 的开发进展。
- [2025-04-05] 🚀 Nunchaku v0.2.0 发布! 本次版本带来了 多 LoRA 和 ControlNet 支持,并借助 FP16 注意力机制 和 首块缓存 实现更快速的性能。此外,我们还增加了对 20 系列 GPU 的兼容性——Nunchaku 如今比以往更加易用!
- [2025-03-07] 🚀 Nunchaku v0.1.4 发布! 我们新增了 4-bit 文本编码器及逐层 CPU 卸载 功能,使 FLUX 的最低内存需求降至仅 4 GiB,同时保持 2–3 倍加速。此次更新还修复了与分辨率、LoRA、固定内存及运行稳定性相关的多项问题。详情请参阅发行说明!
- [2025-02-20] 🚀 支持 NVIDIA RTX 5090 上的 NVFP4 精度! 与 INT4 相比,NVFP4 能提供更优质的图像质量,在 RTX 5090 上相比 BF16 可实现 约 3 倍加速。更多信息请参阅我们的 博客,并查看
examples了解使用方法,或在线试用我们的 演示! - [2025-02-18] 🔥 自定义 LoRA 转换 和 模型量化 指南现已发布!ComfyUI 工作流现已支持 自定义 LoRA,并兼容 FLUX.1-Tools!
- [2025-02-11] 🎉 SVDQuant 被选为 ICLR 2025 Spotlight!FLUX.1-tools Gradio 演示现已上线! 请参阅 此处 获取使用详情!我们全新的 深度转图像演示 也已上线——快来试试吧!
- [2025-02-04] 🚀 4-bit FLUX.1-tools 已发布! 相较于原版模型,速度提升 2–3 倍。请查看 examples 了解使用方法。ComfyUI 集成即将推出!
- [2025-01-23] 🚀 4-bit SANA 支持现已上线! 相比 16 位模型,速度提升 2–3 倍。请查看 使用示例 和 部署指南,了解更多细节。欢迎访问 svdquant.mit.edu 观看我们的实时演示!
- [2025-01-22] 🎉 SVDQuant 已被 ICLR 2025 接受!
- [2024-12-08] 支持 ComfyUI。请查阅 ComfyUI-nunchaku 了解使用方法。
- [2024-11-07] 🔥 我们的最新 W4A4 扩散模型量化工作 SVDQuant 已公开发布!量化库请参阅 DeepCompressor。
概述
Nunchaku 是一款面向低比特神经网络的高性能推理引擎。它实现了 SVDQuant,这是一种针对 4 位权重和激活的训练后量化技术,能够很好地保持视觉保真度。在 12B FLUX.1-dev 上,与 BF16 模型相比,内存占用减少了 3.6 倍。通过消除 CPU 数据交换,Nunchaku 在配备 16GB 显存的笔记本电脑 RTX 4090 GPU 上运行时,相比 16 位模型提速 8.7 倍,比 NF4 W4A16 基线快 3 倍。在 PixArt-∑ 上,Nunchaku 展现出显著优于其他 W4A4 甚至 W4A8 基线的视觉质量。“E2E”表示包括文本编码器和 VAE 解码器在内的端到端延迟。
SVDQuant:通过低秩组件吸收异常值以实现 4 位扩散模型量化
Muyang Li*, Yujun Lin*, Zhekai Zhang*, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu,以及 Song Han
MIT、NVIDIA、CMU、普林斯顿大学、加州大学伯克利分校、上海交通大学及 Pika Labs
https://github.com/user-attachments/assets/fdd4ab68-6489-4c65-8768-259bd866e8f8
方法
量化方法——SVDQuant
SVDQuant 的概述。阶段 1:原本,激活 $\boldsymbol{X}$ 和权重 $\boldsymbol{W}$ 中都存在异常值,这使得 4 位量化颇具挑战性。阶段 2:我们将激活中的异常值迁移到权重中,从而得到更新后的激活 $\hat{\boldsymbol{X}}$ 和权重 $\hat{\boldsymbol{W}}$。此时,$\hat{\boldsymbol{X}}$ 更容易量化,而 $\hat{\boldsymbol{W}}$ 则变得更加困难。阶段 3:SVDQuant 进一步利用奇异值分解(SVD)将 $\hat{\boldsymbol{W}}$ 分解为低秩分量 $\boldsymbol{L}_1\boldsymbol{L}_2$ 和残差 $\hat{\boldsymbol{W}}-\boldsymbol{L}_1\boldsymbol{L}_2$。由此,低秩分支以 16 位精度运行,缓解了量化难度。
Nunchaku 引擎设计
(a) 如果天真地以秩 32 运行低秩分支,由于 Down Projection 中额外读取 16 位输入以及 Up Projection 中额外写入 16 位输出,将会引入 57% 的延迟开销。Nunchaku 通过内核融合优化了这一开销。(b) Down Projection 和 Quantize 内核使用相同的输入,而 Up Projection 和 4-Bit Compute 内核共享相同的输出。为了减少数据移动开销,我们将前两个内核和后两个内核分别融合在一起。
性能
SVDQuant 将 12B FLUX.1 模型大小压缩至原来的 1/3.6,并使 16 位模型的内存占用降低 3.5 倍。借助 Nunchaku,我们的 INT4 模型在台式机和笔记本电脑上的 NVIDIA RTX 4090 GPU 上均比 NF4 W4A16 基线快 3.0 倍。值得注意的是,在笔记本电脑 RTX 4090 上,通过消除 CPU 数据交换,总加速高达 10.1 倍。我们的 NVFP4 模型在 RTX 5090 GPU 上也比 BF16 和 NF4 快 3.1 倍。
开始使用
- 安装指南
- 使用教程
- ComfyUI 插件:ComfyUI-nunchaku
- 自定义模型量化:DeepCompressor
- Gradio 演示应用
- 重现 SVDQuant 论文结果
- API 参考
- 贡献指南
- 常见问题解答
联系我们
对于有意采用 SVDQuant 或 Nunchaku 的企业,包括技术咨询、赞助机会或合作洽谈,请通过 muyangli@nunchaku.tech 与我们联系。
相关项目
- 用于条件 GAN 和扩散模型的高效空间稀疏推理,NeurIPS 2022 & T-PAMI 2023
- SmoothQuant:大型语言模型的准确且高效的训练后量化,ICML 2023
- Q-Diffusion:扩散模型量化,ICCV 2023
- AWQ:面向 LLM 压缩与加速的激活感知权重量化,MLSys 2024
- DistriFusion:高分辨率扩散模型的分布式并行推理,CVPR 2024
- QServe:W4A8KV4 量化与系统协同设计,用于高效 LLM 推理,MLSys 2025
- SANA:基于线性扩散 Transformer 的高效高分辨率图像合成,ICLR 2025
- Sparse VideoGen:利用时空稀疏性加速视频扩散 Transformer,ICML 2025
- Radial Attention:具有能量衰减的 $O(n \log n)$ 稀疏注意力,用于长视频生成,NeurIPS 2025
- Sparse VideoGen2:通过语义感知置换结合稀疏注意力加速视频生成,NeurIPS 2025
引用
如果您认为 nunchaku 对您的研究有用或相关,请引用我们的论文:
@inproceedings{
li2024svdquant,
title={SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models},
author={Li*, Muyang and Lin*, Yujun and Zhang*, Zhekai and Cai, Tianle and Li, Xiuyu and Guo, Junxian and Xie, Enze and Meng, Chenlin and Zhu, Jun-Yan and Han, Song},
booktitle={The Thirteenth International Conference on Learning Representations},
year={2025}
}
致谢
我们感谢麻省理工-IBM沃森人工智能实验室、麻省理工学院和亚马逊科学中心、麻省理工学院人工智能硬件项目、美国国家科学基金会、帕卡德基金会、戴尔、LG、现代汽车以及三星对本研究的支持。同时,我们也感谢英伟达捐赠的DGX服务器。此外,我们还要感谢First Intelligence和Yotta Labs慷慨赞助我们的计算资源。
我们使用img2img-turbo来训练草图到图像的LoRA模型。我们的文本到图像和图像到图像用户界面分别基于playground-v.25和img2img-turbo构建。我们的安全检查器则借鉴自hart。
Nunchaku也受到众多开源库的启发,其中包括(但不限于)TensorRT-LLM、vLLM、QServe、AWQ、FlashAttention-2以及Atom。
星标历史
版本历史
v1.3.0dev202603062026/03/06v1.3.0dev202602132026/02/13v1.3.0dev202602082026/02/08v1.3.0dev202602022026/02/02v1.2.12026/01/25v1.2.02026/01/12v1.2.0dev202601072026/01/07v1.2.0dev202512312025/12/31v1.1.02025/12/27v1.1.0dev202511112025/11/11v1.0.22025/10/25v1.0.12025/10/01v1.0.1dev202509302025/09/30v1.0.1dev202509292025/09/29v1.0.1dev202509262025/09/26v1.0.1dev202509242025/09/24v1.0.1dev202509232025/09/23v1.0.1dev202509212025/09/21v1.0.1dev202509202025/09/20v1.0.1dev202509122025/09/12常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
