[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-vipshop--cache-dit":3,"tool-vipshop--cache-dit":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":32,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":107,"github_topics":108,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":144},7473,"vipshop\u002Fcache-dit","cache-dit","A PyTorch-native Inference Engine with Cache Acceleration, Parallelism and Quantization for DiTs.","cache-dit 是一款专为扩散变压器（DiT）模型打造的高性能推理引擎，基于 PyTorch 原生构建并深度集成 Hugging Face Diffusers 库。它旨在解决 DiT 模型在生成图像或视频时计算量大、推理速度慢以及显存占用高的问题，让复杂的生成式 AI 应用运行得更加流畅高效。\n\n无论是致力于算法优化的研究人员，还是希望提升应用响应速度的开发者，都能从中受益。cache-dit 的核心亮点在于其“三合一”的加速策略：混合缓存加速（如 DBCache、TaylorSeer 等技术可复用中间计算结果）、全面的并行化优化（支持上下文并行、张量并行及针对文本编码器等的专用并行），以及灵活的量化方案（包括 W4A4 等低精度推理）。更难得的是，它仅需一行代码即可激活这些高级功能，无需大幅重构现有项目。\n\n该工具不仅兼容 NVIDIA、AMD GPU 及昇腾 NPU 等多种硬件，还能与 ComfyUI、SGLang 等主流生态无缝协作。通过编译优化和 CPU 卸载等特性，cache-dit 在保持易用性的同时，可实现高达 9 倍的推理提速，是加速 DiT 模型落地的理想选择。","\u003Cdiv align=\"center\">\n  \u003Cp align=\"center\">\n    \u003Ch2 align=\"center\">\n      \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Fcache-dit-logo-v2.png width=185px align=\"left\">\n      ⚡️🎉A PyTorch-native Inference Engine with Cache, \u003Cbr>Parallelism, Quantization for Diffusion Transformers\u003Cbr>\n      \u003Ca href=\"https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fcache-dit\">\u003Cimg src=https:\u002F\u002Fstatic.pepy.tech\u002Fpersonalized-badge\u002Fcache-dit?period=total&units=ABBREVIATION&left_color=GRAY&right_color=BLUE&left_text=downloads\u002Fpypi >\u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Fcache-dit\u002F\">\u003Cimg src=https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002Fvipshop\u002Fcache-dit.svg?color=GREEN >\u003C\u002Fa>\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fvipshop\u002Fcache-dit.svg?color=blue\">\n      \u003Ca href=\"https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002FCOMMUNITY\u002F\">\u003Cimg src=https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Community-orange.svg >\u003C\u002Fa> \n      \u003Ca href=\"https:\u002F\u002Fhellogithub.com\u002Frepository\u002Fvipshop\u002Fcache-dit\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fapi.hellogithub.com\u002Fv1\u002Fwidgets\u002Frecommend.svg?rid=b8b03b3b32a449ea84cfc2b96cd384f3&claim_uid=ofSCbzTmdeQk3FD&theme=small\" alt=\"Featured｜HelloGitHub\" \u002F>\u003C\u002Fa> \n    \u003C\u002Fh2>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n**🤗Why Cache-DiT❓❓**Cache-DiT is built on top of the 🤗[Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) library and now supports nearly [ALL](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fsupported_matrix\u002FNVIDIA_GPU\u002F) DiTs from Diffusers. It provides [hybrid cache acceleration](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCACHE_API\u002F) (DBCache, TaylorSeer, SCM, etc.) and comprehensive [parallelism](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCONTEXT_PARALLEL\u002F) optimizations, including Context Parallelism, Tensor Parallelism, hybrid 2D or 3D parallelism, and dedicated extra parallelism support for Text Encoder, VAE, and ControlNet. \n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Farch_v2.png width=815px>\n\u003C\u002Fdiv>\n\nCache-DiT is compatible with compilation, CPU Offloading, and quantization, fully integrates with [SGLang Diffusion](https:\u002F\u002Fdocs.sglang.io\u002Fdiffusion\u002Fperformance\u002Fcache\u002Fcache_dit.html), [vLLM-Omni](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fdiffusion\u002Fcache_acceleration\u002Fcache_dit\u002F), ComfyUI, and runs natively on NVIDIA GPUs, Ascend NPUs and AMD GPUs. Cache-DiT is **fast**, **easy to use**, and **flexible** for various DiTs (online docs at 📘[readthedocs.io](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002F)).\n\n\u003Cdiv align=\"center\">\n  \u003Cp align=\"center\">\n    \u003Ci>⚡️9x speedup by Cache-DiT with Cache, Context Parallelism and Compilation\u003C\u002Fi>\n  \u003C\u002Fp>\n  \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Fspeedup_v5.png width=800px>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cp> \u003Ch2>🚀Quick Start: Cache, Parallelism and Quantization\u003C\u002Fh2> \u003C\u002Fp>\n\u003C\u002Fdiv>\n\nFirst, you can install the cache-dit from PyPI or install from source: \n\n```bash\nuv pip install -U cache-dit # or, uv pip install git+https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git\n```\n\nThen, try to accelerate your DiTs with just **♥️one line♥️** of code ~  \n\n```python\n>>> import cache_dit\n>>> from diffusers import DiffusionPipeline\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n>>> cache_dit.enable_cache(pipe) # Cache Acceleration with One-line code.\n>>> from cache_dit import DBCacheConfig, ParallelismConfig\n>>> cache_dit.enable_cache( # Or, Hybrid Cache Acceleration + Parallelism.\n...   pipe, cache_config=DBCacheConfig(), # w\u002F default\n...   parallelism_config=ParallelismConfig(ulysses_size=2))\n>>> from cache_dit import DBCacheConfig, ParallelismConfig, QuantizeConfig\n>>> cache_dit.enable_cache( # Or, Hybrid Cache + Parallelism + Quantization.\n...   pipe, cache_config=DBCacheConfig(), # w\u002F default\n...   parallelism_config=ParallelismConfig(ulysses_size=2),\n...   quantize_config=QuantizeConfig(quant_type=\"float8_per_row\"))\n>>> output = pipe(...) # Then, just call the pipe as normal.\n```\n\n\u003Cdiv align=\"center\">\n  \u003Cp> \u003Ch2>🚀Quick Start: SVDQuant (W4A4) PTQ workflow\u003C\u002Fh2> \u003C\u002Fp>\n\u003C\u002Fdiv>\n\nFirst, build Cache-DiT from source with SVDQuant support (Experimental):\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git && cd cache-dit\nCACHE_DIT_BUILD_SVDQUANT=1 uv pip install -e \".[quantization]\" --no-build-isolation\n```\n\nThen, try to quantize your model with just **♥️a few lines♥️** of codes ~\n\n```python\n>>> from cache_dit import QuantizeConfig\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n>>> # 0. Define the calibration function for PTQ.\n>>> def calibrate_fn(**_: object) -> None:\n...   with torch.inference_mode():\n...     for prompt in calibration_prompts:\n...       _ = pipe(prompt=prompt, ...)\n>>> # 1. Build the QuantizeConfig for SVDQuant PTQ.\n>>> quant_config = QuantizeConfig(\n...   quant_type=\"svdq_int4_r32\", # _r{rank}, e.g., r16, r32, r64, r128, etc.\n...   calibrate_fn=calibrate_fn,\n...   serialize_to=..., \n... )\n>>> # 2. Apply quantization with `cache_dit.quantize(...)` API.\n>>> pipe.transformer = cache_dit.quantize(pipe.transformer, quant_config) \n>>> output = pipe(...) # 3. Use the quantized model for inference.\n```\n\nFor more advanced features, please refer to our online documentation at 📘[Documentation](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FOVERVIEWS\u002F).\n\n## 🌐Community Integration\n\n- 🎉[ComfyUI x Cache-DiT](https:\u002F\u002Fgithub.com\u002FJasonzzt\u002FComfyUI-CacheDiT)\n- 🎉[(Intel) llm-scaler x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fintel\u002Fllm-scaler\u002Ftree\u002Fmain\u002Fomni#cache-dit--torchcompile-acceleration)\n- 🎉[Diffusers x Cache-DiT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Foptimization\u002Fcache_dit)\n- 🎉[SGLang Diffusion x Cache-DiT](https:\u002F\u002Fdocs.sglang.io\u002Fdiffusion\u002Fperformance\u002Fcache\u002Fcache_dit.html)\n- 🎉[vLLM-Omni x Cache-DiT](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fdiffusion\u002Fcache_acceleration\u002Fcache_dit\u002F)\n- 🎉[Nunchaku x Cache-DiT](https:\u002F\u002Fnunchaku.tech\u002Fdocs\u002Fnunchaku\u002Fusage\u002Fcache.html#cache-dit)\n- 🎉[SD.Next x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fvladmandic\u002Fsdnext\u002Fblob\u002Fmaster\u002Fmodules\u002Fcachedit.py)\n- 🎉[stable-diffusion.cpp x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fleejet\u002Fstable-diffusion.cpp\u002Fblob\u002Fmaster\u002Fcache_dit.hpp)\n- 🎉[jetson-containers x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fdusty-nv\u002Fjetson-containers\u002Ftree\u002Fmaster\u002Fpackages\u002Fcv\u002Fdiffusion\u002Fcache_edit)\n\n\n## ©️Acknowledgements\n\nSpecial thanks to vipshop's Computer Vision AI Team for supporting testing and deployment of this project. We learned and reused codes from: [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers), [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang), [vLLM-Omni](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni), [Nunchaku](https:\u002F\u002Fgithub.com\u002Fnunchaku-ai\u002Fnunchaku), [xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT) and [TaylorSeer](https:\u002F\u002Fgithub.com\u002FShenyi-Z\u002FTaylorSeer).\n\n\n## ©️Citations\n\n\u003Cdiv id=\"citations\">\u003C\u002Fdiv>\n\n```BibTeX\n@misc{cache-dit@2025,\n  title={Cache-DiT: A PyTorch-native Inference Engine with Cache, Parallelism and Quantization for Diffusion Transformers.},\n  url={https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git},\n  note={Open-source software available at https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git},\n  author={DefTruth, vipshop.com, etc.},\n  year={2025}\n}\n```\n","\u003Cdiv align=\"center\">\n  \u003Cp align=\"center\">\n    \u003Ch2 align=\"center\">\n      \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Fcache-dit-logo-v2.png width=185px align=\"left\">\n      ⚡️🎉一款原生支持缓存、并行化与量化技术的PyTorch推理引擎，专为扩散Transformer模型设计\u003Cbr>\n      \u003Ca href=\"https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fcache-dit\">\u003Cimg src=https:\u002F\u002Fstatic.pepy.tech\u002Fpersonalized-badge\u002Fcache-dit?period=total&units=ABBREVIATION&left_color=GRAY&right_color=BLUE&left_text=downloads\u002Fpypi >\u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Fcache-dit\u002F\">\u003Cimg src=https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002Fvipshop\u002Fcache-dit.svg?color=GREEN >\u003C\u002Fa>\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fvipshop\u002Fcache-dit.svg?color=blue\">\n      \u003Ca href=\"https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002FCOMMUNITY\u002F\">\u003Cimg src=https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Community-orange.svg >\u003C\u002Fa> \n      \u003Ca href=\"https:\u002F\u002Fhellogithub.com\u002Frepository\u002Fvipshop\u002Fcache-dit\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Fapi.hellogithub.com\u002Fv1\u002Fwidgets\u002Frecommend.svg?rid=b8b03b3b32a449ea84cfc2b96cd384f3&claim_uid=ofSCbzTmdeQk3FD&theme=small\" alt=\"Featured｜HelloGitHub\" \u002F>\u003C\u002Fa> \n    \u003C\u002Fh2>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n**🤗为什么选择Cache-DiT❓❓**Cache-DiT基于🤗[Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers)库构建，现已支持Diffusers中的几乎所有DiT模型。它提供了[混合缓存加速](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCACHE_API\u002F)（DBCache、TaylorSeer、SCM等）以及全面的[并行化](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCONTEXT_PARALLEL\u002F)优化功能，包括上下文并行、张量并行、混合2D或3D并行，同时还为文本编码器、VAE和ControlNet等模块提供了专门的额外并行化支持。\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Farch_v2.png width=815px>\n\u003C\u002Fdiv>\n\nCache-DiT兼容编译、CPU卸载和量化技术，可与[SGLang Diffusion](https:\u002F\u002Fdocs.sglang.io\u002Fdiffusion\u002Fperformance\u002Fcache\u002Fcache_dit.html)、[vLLM-Omni](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fdiffusion\u002Fcache_acceleration\u002Fcache_dit\u002F)、ComfyUI等无缝集成，并且能够在NVIDIA GPU、Ascend NPU及AMD GPU上原生运行。Cache-DiT具有**速度快**、**易用性强**和**灵活性高**的特点，适用于各类DiT模型（详细文档请参阅📘[readthedocs.io](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002F)）。\n\n\u003Cdiv align=\"center\">\n  \u003Cp align=\"center\">\n    \u003Ci>⚡️通过缓存、上下文并行及编译技术，Cache-DiT可实现9倍加速\u003C\u002Fi>\n  \u003C\u002Fp>\n  \u003Cimg src=https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fraw\u002Fmain\u002Fassets\u002Fspeedup_v5.png width=800px>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cp> \u003Ch2>🚀快速入门：缓存、并行化与量化\u003C\u002Fh2> \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n首先，您可以通过PyPI安装cache-dit，或者从源码安装：\n\n```bash\nuv pip install -U cache-dit # 或者 uv pip install git+https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git\n```\n\n随后，只需使用**♥️一行代码♥️**即可加速您的DiT模型~\n\n```python\n>>> import cache_dit\n>>> from diffusers import DiffusionPipeline\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n>>> cache_dit.enable_cache(pipe) # 仅需一行代码即可启用缓存加速。\n>>> from cache_dit import DBCacheConfig, ParallelismConfig\n>>> cache_dit.enable_cache( # 混合缓存加速 + 并行化。\n...   pipe, cache_config=DBCacheConfig(), # 使用默认配置\n...   parallelism_config=ParallelismConfig(ulysses_size=2))\n>>> from cache_dit import DBCacheConfig、ParallelismConfig、QuantizeConfig\n>>> cache_dit.enable_cache( # 混合缓存 + 并行化 + 量化。\n...   pipe, cache_config=DBCacheConfig(), # 使用默认配置\n...   parallelism_config=ParallelismConfig(ulysses_size=2),\n...   quantize_config=QuantizeConfig(quant_type=\"float8_per_row\"))\n>>> output = pipe(...) # 接下来，像往常一样调用管道即可。\n```\n\n\u003Cdiv align=\"center\">\n  \u003Cp> \u003Ch2>🚀快速入门：SVDQuant (W4A4) PTQ流程\u003C\u002Fh2> \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n首先，从源码构建支持SVDQuant的Cache-DiT（实验性功能）：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git && cd cache-dit\nCACHE_DIT_BUILD_SVDQUANT=1 uv pip install -e \".[quantization]\" --no-build-isolation\n```\n\n然后，只需使用**♥️几行代码♥️**即可对您的模型进行量化~\n\n```python\n>>> from cache_dit import QuantizeConfig\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n>>> # 0. 定义PTQ的校准函数。\n>>> def calibrate_fn(**_: object) -> None:\n...   with torch.inference_mode():\n...     for prompt in calibration_prompts:\n...       _ = pipe(prompt=prompt, ...)\n>>> # 1. 构建用于SVDQuant PTQ的QuantizeConfig。\n>>> quant_config = QuantizeConfig(\n...   quant_type=\"svdq_int4_r32\", # _r{rank}, 例如 r16、r32、r64、r128等\n...   calibrate_fn=calibrate_fn,\n...   serialize_to=..., \n... )\n>>> # 2. 使用`cache_dit.quantize(...)` API应用量化。\n>>> pipe.transformer = cache_dit.quantize(pipe.transformer, quant_config) \n>>> output = pipe(...) # 3. 使用量化后的模型进行推理。\n```\n\n如需了解更多高级功能，请参阅我们的在线文档📘[Documentation](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FOVERVIEWS\u002F)。\n\n## 🌐社区集成\n\n- 🎉[ComfyUI x Cache-DiT](https:\u002F\u002Fgithub.com\u002FJasonzzt\u002FComfyUI-CacheDiT)\n- 🎉[(Intel) llm-scaler x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fintel\u002Fllm-scaler\u002Ftree\u002Fmain\u002Fomni#cache-dit--torchcompile-acceleration)\n- 🎉[Diffusers x Cache-DiT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Foptimization\u002Fcache_dit)\n- 🎉[SGLang Diffusion x Cache-DiT](https:\u002F\u002Fdocs.sglang.io\u002Fdiffusion\u002Fperformance\u002Fcache\u002Fcache_dit.html)\n- 🎉[vLLM-Omni x Cache-DiT](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fdiffusion\u002Fcache_acceleration\u002Fcache_dit\u002F)\n- 🎉[Nunchaku x Cache-DiT](https:\u002F\u002Fnunchaku.tech\u002Fdocs\u002Fnunchaku\u002Fusage\u002Fcache.html#cache-dit)\n- 🎉[SD.Next x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fvladmandic\u002Fsdnext\u002Fblob\u002Fmaster\u002Fmodules\u002Fcachedit.py)\n- 🎉[stable-diffusion.cpp x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fleejet\u002Fstable-diffusion.cpp\u002Fblob\u002Fmaster\u002Fcache_dit.hpp)\n- 🎉[jetson-containers x Cache-DiT](https:\u002F\u002Fgithub.com\u002Fdusty-nv\u002Fjetson-containers\u002Ftree\u002Fmaster\u002Fpackages\u002Fcv\u002Fdiffusion\u002Fcache_edit)\n\n\n## ©️致谢\n\n特别感谢VIPSHOP计算机视觉AI团队对本项目测试与部署的支持。我们借鉴并复用了以下项目的代码：[Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers)、[SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)、[vLLM-Omni](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni)、[Nunchaku](https:\u002F\u002Fgithub.com\u002Fnunchaku-ai\u002Fnunchaku)、[xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT)以及[TaylorSeer](https:\u002F\u002Fgithub.com\u002FShenyi-Z\u002FTaylorSeer)。\n\n## ©️引用\n\n\u003Cdiv id=\"citations\">\u003C\u002Fdiv>\n\n```BibTeX\n@misc{cache-dit@2025,\n  title={Cache-DiT：一种原生支持缓存、并行化和量化技术的 PyTorch 推理引擎，专为扩散 Transformer 设计。},\n  url={https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git},\n  note={开源软件可在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git 获取},\n  author={DefTruth, vipshop.com 等},\n  year={2025}\n}\n```","# Cache-DiT 快速上手指南\n\nCache-DiT 是一个基于 PyTorch 原生构建的推理引擎，专为扩散 Transformer（DiT）模型设计。它集成了混合缓存加速、并行计算优化及量化技术，能够显著提升生成速度（最高可达 9 倍），并兼容 NVIDIA GPU、昇腾 NPU 及 AMD GPU。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 3.8 - 3.11\n*   **核心依赖**:\n    *   PyTorch (需安装与硬件匹配的 CUDA\u002FROCm 版本)\n    *   Diffusers 库\n*   **硬件要求**:\n    *   NVIDIA GPU (支持 Ampere 架构及以上以获得最佳编译加速效果)\n    *   或 昇腾 NPU \u002F AMD GPU\n\n> **提示**: 请确保已正确安装显卡驱动及对应的 CUDA Toolkit。\n\n## 安装步骤\n\n推荐使用 `uv` 进行快速安装（若未安装 uv，可使用 `pip` 替代）。\n\n### 方式一：从 PyPI 安装（推荐）\n\n```bash\nuv pip install -U cache-dit\n# 或者使用 pip\npip install -U cache-dit\n```\n\n### 方式二：从源码安装（含实验性功能）\n\n如需使用 SVDQuant (W4A4) 等实验性量化功能，请从源码构建：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit.git && cd cache-dit\nCACHE_DIT_BUILD_SVDQUANT=1 uv pip install -e \".[quantization]\" --no-build-isolation\n```\n\n## 基本使用\n\nCache-DiT 的核心优势在于**极简的接入方式**。只需在现有的 Diffusers 流程中增加一行代码即可启用缓存加速。\n\n### 1. 单行代码启用缓存加速\n\n这是最简单的用法，适用于大多数 DiT 模型（如 Flux, SD3 等）。\n\n```python\n>>> import cache_dit\n>>> from diffusers import DiffusionPipeline\n>>> # 加载模型\n>>> pipe = DiffusionPipeline.from_pretrained(\"black-forest-labs\u002FFLUX.1-dev\").to(\"cuda\")\n>>> # 启用缓存加速 (仅需一行)\n>>> cache_dit.enable_cache(pipe) \n>>> # 正常推理\n>>> output = pipe(prompt=\"A cute cat\", num_inference_steps=25)\n```\n\n### 2. 进阶：混合加速（缓存 + 并行 + 量化）\n\n如需进一步挖掘性能，可组合使用上下文并行（Context Parallelism）和量化技术。\n\n```python\n>>> import cache_dit\n>>> from diffusers import DiffusionPipeline\n>>> from cache_dit import DBCacheConfig, ParallelismConfig, QuantizeConfig\n\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n\n>>> # 配置混合加速策略\n>>> cache_dit.enable_cache(\n...   pipe, \n...   cache_config=DBCacheConfig(), # 启用默认缓存策略 (如 DBCache)\n...   parallelism_config=ParallelismConfig(ulysses_size=2), # 启用 Ulysses 上下文并行\n...   quantize_config=QuantizeConfig(quant_type=\"float8_per_row\") # 启用 Float8 量化\n... )\n\n>>> # 执行推理，无需更改后续调用方式\n>>> output = pipe(...)\n```\n\n### 3. SVDQuant (W4A4) 量化工作流\n\n针对极低比特量化需求，可使用以下流程进行后训练量化（PTQ）：\n\n```python\n>>> from cache_dit import QuantizeConfig\n>>> pipe = DiffusionPipeline.from_pretrained(...).to(\"cuda\")\n\n>>> # 0. 定义校准函数\n>>> def calibrate_fn(**_: object) -> None:\n...   with torch.inference_mode():\n...     for prompt in calibration_prompts:\n...       _ = pipe(prompt=prompt, ...)\n\n>>> # 1. 配置 SVDQuant 参数\n>>> quant_config = QuantizeConfig(\n...   quant_type=\"svdq_int4_r32\", # 指定量化类型及秩，如 r16, r32, r64\n...   calibrate_fn=calibrate_fn,\n...   serialize_to=\"quantized_model.safetensors\", \n... )\n\n>>> # 2. 应用量化\n>>> pipe.transformer = cache_dit.quantize(pipe.transformer, quant_config) \n\n>>> # 3. 使用量化后的模型推理\n>>> output = pipe(...)\n```\n\n更多高级特性（如 ComfyUI 集成、多卡分布式训练细节）请参考官方文档：[Cache-DiT Documentation](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002F)。","某 AIGC 初创团队正在开发一款基于 Diffusion Transformer (DiT) 架构的实时高清图像生成服务，需在高并发下保证低延迟响应。\n\n### 没有 cache-dit 时\n- **推理延迟过高**：原生 PyTorch 运行 DiT 模型时，单次生成耗时数秒，无法满足用户“秒出图”的交互体验需求。\n- **显存资源紧张**：高分辨率生成占用巨大显存，导致单卡只能部署一个小批量实例，难以支撑多用户并发请求。\n- **并行优化复杂**：想要引入上下文并行或张量并行来加速，需要手动修改大量底层代码，开发周期长且容易出错。\n- **量化部署困难**：缺乏原生支持的量化方案，尝试自行压缩模型往往导致画质严重下降或推理崩溃。\n\n### 使用 cache-dit 后\n- **推理速度飞跃**：通过启用混合缓存加速（如 DBCache）和编译优化，生成速度提升高达 9 倍，轻松实现实时响应。\n- **显存效率倍增**：结合量化技术（如 W4A4）与缓存机制，显著降低显存占用，单卡可部署更多并发实例，大幅降低成本。\n- **并行配置极简**：仅需一行代码 `cache_dit.enable_cache` 并传入配置对象，即可自动开启上下文并行等高级策略，无需重构模型。\n- **全链路兼容性强**：完美兼容 Diffusers 生态及多种硬件（NVIDIA\u002FAscend\u002FAMD），支持从浮点到 INT8\u002FFP8 的平滑量化工作流，画质无损。\n\ncache-dit 通过一键式缓存加速、并行计算与量化整合，将复杂的 DiT 推理优化转化为简单的配置调用，极大降低了高性能 AIGC 服务的落地门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvipshop_cache-dit_042e1650.png","vipshop","唯品会","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fvipshop_8d117f2c.png","全球精选，正品特卖 (NASDAQ: VIPS)",null,"www.vip.com","https:\u002F\u002Fgithub.com\u002Fvipshop",[80,84,88],{"name":81,"color":82,"percentage":83},"Python","#3572A5",87.5,{"name":85,"color":86,"percentage":87},"Cuda","#3A4E3A",10.7,{"name":89,"color":90,"percentage":91},"C++","#f34b7d",1.8,1137,68,"2026-04-14T08:29:43","Apache-2.0","Linux","必需。支持 NVIDIA GPUs, Ascend NPUs (华为昇腾), AMD GPUs。具体显存大小未说明，取决于运行的 DiT 模型规模及是否启用量化\u002F并行策略。","未说明",{"notes":100,"python":98,"dependencies":101},"该工具基于 PyTorch 原生构建，深度集成 Hugging Face Diffusers 库。支持混合缓存加速（如 DBCache, TaylorSeer）、多种并行策略（上下文并行、张量并行等）及量化（包括实验性的 SVDQuant W4A4）。若需使用 SVDQuant 功能，必须从源码编译安装并设置特定环境变量。支持 CPU Offloading 和 torch.compile 编译加速。文档提及在 NVIDIA、昇腾和 AMD 硬件上原生运行，但未提供具体的 CUDA 版本号或最低显存数值，实际需求视具体模型和配置而定。",[102,103,104,105,106],"torch","diffusers","SGLang Diffusion (可选)","vLLM-Omni (可选)","ComfyUI (可选)",[15,14],[109,110,111],"flux2-klein","svdquant","parallelism","2026-03-27T02:49:30.150509","2026-04-15T03:22:29.340903",[115,120,125,130,135,139],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},33528,"使用 Cache-DiT 生成图像时结果不一致或质量异常，如何固定随机种子？","这通常是由于随机种子未固定导致的。建议在调用管道时手动指定 generator 参数来固定种子。例如：\n`generator=torch.Generator(\"cpu\").manual_seed(0)`\n将其传入 pipe 的调用中即可复现结果。","https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fissues\u002F870",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},33529,"在 Wan2.1-I2V 模型上使用 Cache-DiT 时生成的视频出现雪花噪声（低质量），如何解决？","该问题已在 PR #639 中修复。请尝试更新代码库到包含该修复的最新版本。如果问题仍然存在，请确保使用的是已修复的版本并重新测试。维护者确认该修复解决了 Wan2.1-I2V 生成雪花噪声的问题。","https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fissues\u002F622",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},33530,"如何在 Sana 模型上启用缓存以获得加速效果？默认配置下没有速度提升怎么办？","Sana 模型默认残差差异阈值（residual_diff_threshold, rdt）较低（0.08），导致缓存命中率低。建议将 `residual_diff_threshold` 从默认的 0.08 增加到 0.3 以激活缓存机制。\n配置示例：\n`cache_config = BasicCacheConfig(residual_diff_threshold=0.3, ...)` \n参考官方 Sana 示例脚本：examples\u002Fpipeline\u002Frun_sana.py","https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fissues\u002F545",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},33531,"Cache-DiT 是否与 groupoffload（分组卸载）功能兼容？使用时缓存似乎被跳过。","Cache-DiT 与现有的 groupoffload 实现存在冲突，因为缓存机制检测到已有的 hook 会跳过操作。目前用户需自行实现兼容的卸载逻辑，或者等待官方进一步支持。注意：有用户反馈在自定义实现中，当设置 Fn_compute_blocks 为 N 时，第 N-1 个块可能会被执行两次，需检查实现逻辑。","https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fissues\u002F443",{"id":136,"question_zh":137,"answer_zh":138,"source_url":119},33532,"量化（Quantization）和张量并行（TP）同时启用时，生成结果不正确怎么办？","同时启用量化和 TP 时，若结果异常，首先应检查是否固定了随机种子（见种子相关问题）。如果固定种子后仍有问题，可能是特定模型（如 Qwen-Image-Edit）在特定并行配置下的兼容性问题。建议尝试调整 `enable_cache` 的调用顺序，或参考 Issue #869 的修复方案，确保并行化和量化配置正确应用到 text_encoder 和 transformer 模块。",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},33533,"WanVacePipeline 配合 WAN2.2 14B 模型时报错无法工作，原因是什么？","这是一个已知的 Bug，通常表现为在 `enable_cache` 调用时发生 traceback 错误，涉及 `patch_functor` 应用失败。该问题与特定版本的 WAN2.2 模型结构适配有关。建议关注项目最新的 Release 或补丁，维护者通常会通过更新 `block_adapters` 或 `functor_wan_vace` 来修复此类新模型的适配问题。暂时可尝试不使用 cache 功能或回退到稳定支持的模型版本。","https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fissues\u002F578",[145,150,155,159,164,169,174,179,184,189,194,199,204,209,214,219,224,229,234,239],{"id":146,"version":147,"summary_zh":148,"released_at":149},255734,"v1.3.5","# 低位量化\n\n\u003Cdiv id=\"quantization\">\u003C\u002Fdiv>\n\n## 概述\n\n量化是一种强大的技术，通过使用更低精度的数据类型来表示权重和激活值，从而减少深度学习模型的内存占用和计算成本。Cache-DiT 支持多种量化方法，包括 FP8、INT8 和 INT4 量化，帮助用户在保持可接受的模型性能的同时，实现更快的推理速度和更低的内存使用。\n\n|量化类型| 描述|设备|\n|:---|:---|:---| \n|\u003Cspan style=\"color:#c77dff;\">float8_per_row\u003C\u002Fspan> |将权重和激活值按行量化为 float8（动态量化）。(**\u003Cspan style=\"color:#c77dff;\">推荐\u003C\u002Fspan>**)|\u003Cspan style=\"color:#c77dff;\">>=sm89\u003C\u002Fspan>, Ada、Hopper 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">float8_per_tensor\u003C\u002Fspan>|将权重和激活值按张量量化为 float8（动态量化）。|\u003Cspan style=\"color:#c77dff;\">>=sm89\u003C\u002Fspan>, Ada、Hopper 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">float8_per_block\u003C\u002Fspan>|按块量化权重和激活值（动态量化）为 float8，可提供更好的精度，激活值的块大小为 (1, 128)，权重的块大小为 (128, 128) |\u003Cspan style=\"color:#c77dff;\">>=sm89\u003C\u002Fspan>, Ada、Hopper 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">float8_weight_only\u003C\u002Fspan>|仅将权重量化为 float8，保留激活值的全精度|\u003Cspan style=\"color:#c77dff;\">>=sm89\u003C\u002Fspan>, Ada、Hopper 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">int8_per_row\u003C\u002Fspan>|将权重和激活值按行量化为 int8（动态量化）。|\u003Cspan style=\"color:#c77dff;\">>=sm80\u003C\u002Fspan>, Ampere 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">int8_per_tensor\u003C\u002Fspan>|将权重和激活值按张量量化为 int8（动态量化）。|\u003Cspan style=\"color:#c77dff;\">>=sm80\u003C\u002Fspan>, Ampere 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">int8_weight_only\u003C\u002Fspan>|仅将权重量化为 int8，保留激活值的全精度|\u003Cspan style=\"color:#c77dff;\">>=sm80\u003C\u002Fspan>, Ampere 或更高版本|\n|\u003Cspan style=\"color:#c77dff;\">int4_weight_only\u003C\u002Fspan>|仅将权重量化为 int4，保留激活值的全精度|\u003Cspan style=\"color:#c77dff;\">>=sm90\u003C\u002Fspan>, Hopper 或更高版本，需支持 TMA|\n\n\n## FP8 量化\n\n目前，TorchAo 已完全集成到 Cache-DiT 中，作为 \u003Cspan style=\"color:#c77dff;\">在线\u003C\u002Fspan> 量化的后端。您可以通过调用 \u003Cspan style=\"color:#c77dff;\">quantize\u003C\u002Fspan> 来实现模型量化，或者将 \u003Cspan style=\"color:#c77dff;\">QuantizeConfig\u003C\u002Fspan> 传递给 \u003Cspan style=\"color:#c77dff;\">enable_cache\u003C\u002Fspan> API。（推荐）\n\n对于显存容量较小的 GPU，我们建议使用 \u003Cspan style=\"color:#c77dff;\">float8_per_row\u003C\u002Fspan> 或 \u003Cspan style=\"color:#c77dff;\">float8_per_block\u003C\u002Fspan>,因为这些方法几乎不会导致精度损失。支持的量化类型包括：  \n\n  - \u003Cspan style=\"color:#c77dff;\">float8_per_row\u003C\u002Fspan>：同时量化权","2026-03-30T08:13:11",{"id":151,"version":152,"summary_zh":153,"released_at":154},255735,"v1.3.4","热修复","2026-03-27T03:14:47",{"id":156,"version":157,"summary_zh":153,"released_at":158},255736,"v1.3.3","2026-03-26T10:34:09",{"id":160,"version":161,"summary_zh":162,"released_at":163},255737,"v1.3.2","针对 FP8 每行量化与张量并行的热修复版本\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.3.1...v1.3.2","2026-03-26T10:16:17",{"id":165,"version":166,"summary_zh":167,"released_at":168},255738,"v1.3.1","## 变更内容\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F867 中更新加载配置文档\n* 修复：在张量并行中跳过带有偏置的 fp8 量化线性层，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F869 中完成\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F871 中添加量化快速入门标志\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F872 中更新 PyPI 下载徽章\n* 错误修复：移除不支持的量化类型，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F873 中完成\n* 功能：扩展量化配置，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F874 中实现\n* 功能：为 flux2 系列支持异步 Ulysses，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F877 中完成\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F878 中清理补丁函数代码\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F879 中修复文档中的拼写错误\n* 杂项：安全导入指标函数，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F880 中完成\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F881 中更新量化文档\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F882 中为校准器使用相对导入\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F883 中抑制 torchao 警告\n* 杂项：为 max-autotune 添加 tune 别名，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F884 中完成\n* 由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F885 中移除缓存块中的手动图断点\n* 文档：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F886 中格式化文档\n* 文档：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F887 中修复拼写错误\n* [1\u002FN] 功能：支持 flux2-klein 的 kv - 张量并行 + 编译，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F888 中实现\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F890 中清理张量并行工具代码\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F891 中修复 API 文档中的拼写错误\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F892 中添加 MCC 使用文档\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F893 中更新 MCC 使用文档\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F894 中将 MCC 加入 cache-dit 架构\n* 杂项：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F895 中更新 MCC 文档\n* [2\u002FN] 功能：支持 flux2-klein 的 kv 的 fp8 每行量化 + 张量并行，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F896 中实现\n* 量化：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F898 中添加 float8 线性层检查\n* 文档：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F899 中格式化文档\n* 依赖：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F900 中将 PyTorch 升级至 2.11.0\n* 量化：由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F901 中重构 torchao 后端实现\n* 功能：支持区域量化，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F902 中完成\n* 杂项：更改文档高亮","2026-03-25T07:26:05",{"id":170,"version":171,"summary_zh":172,"released_at":173},255739,"v1.3.0","## v1.3.0 主要版本：USP、2D\u002F3D 并行、FP8 分块量化……\r\n\r\nCache-DiT v1.3.0 是继 v1.2.0 之后的一个重大版本，主要变更包括：\r\n\r\n- [x] cache-dit-generate 命令行工具\r\n- [x] 优化 VAE 并行通信，采用批处理的 isend\u002Firecv 操作\r\n- [x] 2D\u002F3D 并行：混合 CP（USP）+ TP，并行策略，例如 SP2 + TP2\r\n- [x] 支持 USP（混合 Ulysses 和环形注意力机制）\r\n- [x] 新增模型支持：GLM-Image、FLUX.2-Klein、Helios、FireRed-Image-Edit 等。\r\n- [x] 支持将 quantize_config 传递给 `enable_cache` API\r\n- [x] 支持从 YAML 文件加载缓存、并行和量化配置，[文档](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FLOAD_CONFIGS\u002F)\r\n- [x] FP8 分块动态量化支持\r\n- [x] AMD GPU 支持\r\n- [x] ……\r\n\r\n**完整更新日志**：https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.2.0...v1.3.0","2026-03-11T10:35:24",{"id":175,"version":176,"summary_zh":177,"released_at":178},255740,"v1.2.3","## 变更内容\n* 功能：支持 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F797 中提出的 🔥FireRed-Image-Edit-1.0\n* 杂项：支持自定义输入高度\u002F宽度，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F799 中实现\n* 构建优化：支持在示例中编译重复块，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F800 中实现\n* 构建优化：添加 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F802 中完成\n* 构建优化：更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F803 中完成\n* 构建优化：再次更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F804 中完成\n* 构建优化：继续更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F805 中完成\n* 构建优化：进一步更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F806 中完成\n* 构建优化：再接再厉更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F807 中完成\n* 构建优化：最后更新 cache-dit 架构文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F809 中完成\n* 修复：针对 torch \u003C 2.10 的问题，修复了 tp 平铺网格损坏的情况，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F810 中解决\n* 构建优化：默认仅在 rank 0 进行日志记录，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F812 中实现\n* 构建优化：添加环境变量文档，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F813 中完成\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.2.2...v1.2.3","2026-02-26T06:28:57",{"id":180,"version":181,"summary_zh":182,"released_at":183},255741,"v1.2.2","## 变更内容\n* 修复加载配置文档中的错别字，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F778 中完成\n* 杂项：重命名混合并行后端，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F779 中完成\n* 功能：添加扩展上下文的并行 API，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F780 中完成\n* 杂项：将 ring p2p 的 save_ctx 设置为 False，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F782 中完成\n* 杂项：添加 flux2-klein 编辑示例，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F783 中完成\n* 修复 ring lse 的 fp32 转换错误，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F785 中完成\n* 功能：支持 glm-image 的缓存，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F787 中完成\n* 杂项：在示例中将 rdt 重置为 0.12，以提高精度，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F789 中完成\n* 杂项：更新徽章，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F790 中完成\n* 功能：针对 ascend NPU 的 ring 注意力，使用 npu_fia，由 @luren55 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F792 中完成\n* 功能：支持 glm-image 的张量并行，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F794 中完成\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.2.1...v1.2.2","2026-02-10T07:28:57",{"id":185,"version":186,"summary_zh":187,"released_at":188},255742,"v1.2.1","🎉 **[v1.2.1](https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit)** 版本已发布，主要更新包括：带有 [批处理 P2P](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCONTEXT_PARALLEL) 的 [Ring](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCONTEXT_PARALLEL) 注意力机制、[USP](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FCONTEXT_PARALLEL\u002F)（混合 Ring 和 Ulysses）、混合 2D 和 3D 并行计算（💥[USP + TP](https:\u002F\u002Fcache-dit.readthedocs.io\u002Fen\u002Flatest\u002Fuser_guide\u002FHYBRID_PARALLEL\u002F)），以及 VAE-P 通信开销的降低。\n\n```bash\n# Cache-DiT 中的混合 2D\u002F3D 并行计算完全兼容 torch.compile、缓存加速、文本编码器并行、VAE 并行等。\ntorchrun --nproc_per_node=8 -m cache_dit.generate flux2 --config parallel_2d.yaml --compile\ntorchrun --nproc_per_node=8 -m cache_dit.generate flux2 --config parallel_3d.yaml --compile\ntorchrun --nproc_per_node=8 -m cache_dit.generate --parallel ulysses_tp --cache --compile\n```\n\n## 变更内容\n* [杂项] 按照 @BBuf 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F723 中的示例，对 torch 生成器进行对齐。\n* @BBuf 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F724 中修复了 cache-dit 中的生成器 bug。\n* 示例：允许自定义生成器设备，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F726 中实现。\n* 示例：允许自定义预热步数，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F727 中实现。\n* 文档：添加最新动态，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F728 中完成。\n* 文档：修复文档格式，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F729 中完成。\n* 修复选定指标的打印问题，由 @66RING 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F730 中完成。\n* 文档：将 flux 示例添加到 TP 文档中，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F731 中完成。\n* 修复 ltx-2 i2v 示例，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F734 中完成。\n* 更新 README.md，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F735 中完成。\n* 杂项：允许为 scm 使用默认步数，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F736 中实现。\n* [杂项] 支持服务器端 GPU 生成器，由 @BBuf 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F737 中完成。\n* 文档：更新下载徽章，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F738 中完成。\n* 优化性能分析器和推理服务相关文档，由 @BBuf 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F739 中完成。\n* 示例支持图片路径中的 URL，由 @BBuf 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F742 中完成。\n* 修复在使用联合注意力时 UAA 出现的问题，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F743 中完成。\n* 编译优化：避免 UAA 的图断裂，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F744 中完成。\n* 重构示例中的配置文件 yml，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F745 中完成。\n* 放宽 NPU 注意力模块的导入限制，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F747 中完成。\n* 功能：新增 set_attn_backend 接口，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F748 中完成。\n* 文档：更新快速入门指南，由 @DefTruth 在 https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F749 中完成。\n*","2026-02-02T02:57:46",{"id":190,"version":191,"summary_zh":192,"released_at":193},255743,"v1.2.0","# v1.2.0 主要版本发布：NPU、TE-P、VAE-P、CN-P、…  \n\n## 概述 \n\nv1.2.0 是继 v1.1.0 之后的 major 版本。在 v1.2.0 中，我们引入了多项更新，进一步提升了 Cache-DiT 的易用性和性能。在此衷心感谢 Cache-DiT 的贡献者们。本次的主要更新包括： \n- 🎉 新模型支持\n- 🎉 请求级缓存上下文\n- 🎉 HTTP 服务支持\n- 🎉 上下文并行化优化\n- 🎉 文本编码器并行化\n- 🎉 自动编码器（VAE）并行化\n- 🎉 ControlNet 并行化\n- 🎉 Ascend NPU 支持\n- 🎉 社区集成。\n\n### 🔥 新模型支持 \n\n- Qwen-Image:\n    - 图像生成：Qwen-Image-2512、Qwen-Image-Layered\n    - 图像编辑：Qwen-Image-Edit-2511、Qwen-Image-Edit-2509\n    - ControlNet：Qwen-Image-ControlNet、Qwen-Image-ControlNet-Inpainting\n- Qwen-Image-Lightning：Qwen-Image-Lightning 系列、Qwen-Image-Edit-Lightning 系列\n- Wan：Wan 2.1 VACE、Wan 2.2 VACE。\n- Z-Image：Z-Image-Turbo、Z-Image-Turbo-Fun-ControlNet-2.0、Z-Image-Turbo-Fun-ControlNet-2.1\n- FLUX.2：FLUX.2-dev、FLUX.2-Klein-4B、FLUX.2-Klein-base-4B、FLUX.2-Klein-9B、FLUX.2-Klein-base-9B\n- LTX-2：LTX-2-I2V、LTX-2-T2V，由 @BBuf 提供\n- Ovis-Image：Ovis-Image\n- LongCat-Image：LongCat-Image、LongCat-Image-Edit\n- Nunchaku INT4 模型：Z-Image-Turbo、Qwen-Image-Edit-2511\n\n### 🔥 请求级缓存上下文\n\n如果您希望为每个用户请求使用 **不同** 的 `num_inference_steps`，而不是固定的值，则应将其与 `refresh_context` API 配合使用。在处理每个用户请求之前，根据实际的步骤数更新缓存上下文。请参考 [📚run_cache_refresh](https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fblob\u002Fmain\u002Fexamples\u002Fapi) 作为示例。\n\n```python\nimport cache_dit\nfrom cache_dit import DBCacheConfig\nfrom diffusers import DiffusionPipeline\n\n# 使用 num_inference_steps=None（默认值）初始化缓存上下文\npipe = DiffusionPipeline.from_pretrained(\"Qwen\u002FQwen-Image\")\npipe = cache_dit.enable_cache(pipe.transformer, cache_config=DBCacheConfig(num_inference_steps=None))\n\n# 假设 num_inference_steps 为 28，并希望刷新上下文\ncache_dit.refresh_context(pipe.transformer, num_inference_steps=28, verbose=True)\noutput = pipe(...) # 正常调用管道即可。\nstats = cache_dit.summary(pipe.transformer) # 然后获取摘要信息\n\n# 使用新的 num_inference_steps=50 更新缓存上下文。\ncache_dit.refresh_context(pipe.transformer, num_inference_steps=50, verbose=True)\noutput = pipe(...) # 同样正常调用管道。\nstats = cache_dit.summary(pipe.transformer) # 再次获取摘要信息\n\n# 使用新的 cache_config 更新缓存上下文。\ncache_dit.refresh_context(\n    pipe.transformer,\n    cache_config=DBCacheConfig(\n        residual_diff_threshold=0.1,\n        max_warmup_steps=10,\n        max_cached_steps=20,\n        max_continuous_cached_steps=4,\n        # 所有缓存设置都应放在缓存配置中，\n        # 如果缓存配置","2026-01-16T09:04:30",{"id":195,"version":196,"summary_zh":197,"released_at":198},255744,"v1.1.10","## New Models Supported\r\n\r\nLongCat-Image, LongCat-Image-Edit, Z-Image-Turbo-ControlNet, Z-Image-Turbo Nunchaku, Qwen-Image-Edit-2511, Qwen-Image-Layered\r\n\r\n## What's Changed\r\n* Simplify CLI: Make task argument optional by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F600\r\n* chore: fix extra path compare by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F603\r\n* CI: Add build_wheel CI by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F604\r\n* feat: support cache for LongCat-Image by @e1ijah1 in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F602\r\n* feat: Serving support LORA by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F601\r\n* CI: Add Forward Pattern CPU CI Tests by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F605\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F606\r\n* Fix typo by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F607\r\n* feat: z-image-controlnet 🔥4x speedup! by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F608\r\n* fix lora path mismatch in examples by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F609\r\n* feat: support TP and CP for longcat-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F610\r\n* misc: fix typo by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F612\r\n* feat: support 🔥Qwen-Image-Edit-2511 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F614\r\n* feat: support 🔥Qwen-Image-Layered by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F615\r\n* chore: simplify parallelism dispatch by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F616\r\n* chore: simplify quantize dispatch by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F617\r\n* chore: refactor kernels module by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F618\r\n* ci: add refresh context ci tests by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F619\r\n* misc: add device info to example summary by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F621\r\n* feat: support ⚡️Z-Image-Turbo Nunchaku by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F623\r\n* [chore] Improve error_logging in serving tp_worker.py by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F627\r\n* chore: support more alias for quant types by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F628\r\n* chore: fix alias rev map for quant types by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F629\r\n* chore: lazy import check for quantize api by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F630\r\n* chore: add more compile flags setting by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F631\r\n* [Bug] Apply --attn backend in single-GPU examples by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F633\r\n* Bump up to v1.1.10 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F634\r\n\r\n## New Contributors\r\n* @e1ijah1 made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F602\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.9...v1.1.10","2025-12-31T04:41:24",{"id":200,"version":201,"summary_zh":202,"released_at":203},255745,"v1.1.9","## What's Changed\r\n* feat: uaa avoid extra memory IO access by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F551\r\n* chore: simplify quantize flags in example utils by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F553\r\n* chore: fix quantize flags in example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F554\r\n* chore: fix quantize & TP conflicts for wan by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F556\r\n* feat: support serving text2video by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F555\r\n* chore: Update SERVING Doc and FAQ Doc by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F557\r\n* chore: qwen edit lightning cp\u002Ftp examples by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F559\r\n* feat: support ovis-image context parallel by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F560\r\n* feat: serving support image2video by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F558\r\n* chore: add collect_env script by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F562\r\n* Add pre-commit and GitHub Actions CI by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F564\r\n* chore: refactor parallelism for better reusability by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F565\r\n* chore: Update vLLM-Omni integration by @SamitHuang in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F566\r\n* feat: add pipe quant config for serving by @nono-Sang in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F563\r\n* News: 🔥vLLM-Omni x Cache-DiT ready! by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F567\r\n* feat: enable custom attn backend for TP by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F568\r\n* feat: support TP for many text encoder by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F569\r\n* fix qwen-edit-lightning examples by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F571\r\n* fix get_text_encoder_from_pipe by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F572\r\n* fix: handle general compile options in example utils by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F573\r\n* chore: reduce un-popular examples by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F574\r\n* feat: add text_encoder tp for serving by @nono-Sang in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F570\r\n* chore: simplify example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F575\r\n* chore: make unified examples by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F576\r\n* chore: fix vllm-omni docs link by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F577\r\n* chore: optimize examples default path mapping by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F579\r\n* chore: fix vllm-omni docs link by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F580\r\n* feat: support Ovis-Image tensor parallel by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F582\r\n* chore: fix typo in User_Guide.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F583\r\n* chore: fail fast TP validation for attn heads by @CPFLAME in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F581\r\n* fix patch functor for multi transformers by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F586\r\n* chore: add qwen image controlnet example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F588\r\n* chore: update docs by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F590\r\n* feat: register fa3 backend for context parallel by @nono-Sang in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F589\r\n* chore: support separate quant-type for text encoder by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F591\r\n* hotfix for fa3 backend import error by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F593\r\n* chore: fix typo in README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F594\r\n* chore: set save_ctx to False for inference by @nono-Sang in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F596\r\n* fix flux examples model path mismatch by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F597\r\n\r\n## New Contributors\r\n* @SamitHuang made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F566\r\n* @nono-Sang made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F563\r\n* @CPFLAME made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F581\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.8...v1.1.9","2025-12-22T07:08:46",{"id":205,"version":206,"summary_zh":207,"released_at":208},255746,"v1.1.8","## What's Changed\r\n* Add request queue to limit concurrent generation requests by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F535\r\n* News: 🔥🔥SGLang Diffusion x Cache-DiT ready!🔥🔥 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F536\r\n* feat: optimize async fp8 ulysses attn by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F537\r\n* chore: delete useless code in serving by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F539\r\n* feat: make all_to_all comm unified by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F538\r\n* feat: add refresh cache context api by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F542\r\n* feat: support image edit model in serving by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F541\r\n* chore: simplify ulysses async flag by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F543\r\n* chore: re-registered sage attn backend by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F544\r\n* feat: support any head num for ulysses by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F546\r\n* feat: support uneven heads in ulysses w\u002Fo padding by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F547\r\n* chore: refactor FLUX.2 image editing tests by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F548\r\n* feat: Add ulysses for any heads w\u002Fo padding by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F549\r\n* feat: add envs manager for cache-dit by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F550\r\n* fix ulysses fp8 and uneven head conflicts by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F552\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.7...v1.1.8","2025-12-10T08:58:24",{"id":210,"version":211,"summary_zh":212,"released_at":213},255747,"v1.1.7","hotfix for diffusers 0.35.2 compatible\r\n\r\n## What's Changed\r\n* feat: pointer casting for fp8 all2all by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F533\r\n* chore: relax block adapter deps by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F534\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.6...v1.1.7","2025-12-06T07:59:16",{"id":215,"version":216,"summary_zh":217,"released_at":218},255748,"v1.1.6","hotfix for diffusers 0.35.2 compatible\r\n\r\n## What's Changed\r\n* Add heartbeat to avoid nccl timeout when the service hangs. by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F531\r\n* chore: remove un-needed cp imports by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F532\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.5...v1.1.6","2025-12-05T10:47:08",{"id":220,"version":221,"summary_zh":222,"released_at":223},255749,"v1.1.5","## What's Changed\r\n* Add profiler for flux tp and cp example by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F501\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F502\r\n* feat: support FnB0 for z-image w\u002F cp by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F503\r\n* feat: support _sdpa_cudnn backend for cp by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F504\r\n* feat: support async ulysses cp for z-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F505\r\n* feat: add all_to_all_single v2 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F507\r\n* feat: support async ulysses cp for qwen-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F508\r\n* feat: support all2all qkv per token fp8 by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F509\r\n* chore: improve flux2 and qwen image examples by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F512\r\n* fix: workaround for uaa-fp8 .view compile error by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F514\r\n* feat: relaxed transformer strict assert by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F515\r\n* feat: all2all qkv fp8 for ulysses by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F516\r\n* feat: support pre-defined step masks by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F517\r\n* chore: separate chrono-edit and wan cp plan by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F519\r\n* fix example utils.py uaa fp8 flag typo by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F521\r\n* feat: extend predefined step masks for 4\u002F6 steps by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F523\r\n* misc: add z-image-turbo predefined step masks by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F525\r\n* feat: support per_token_quant_fp8 triton kernel by @triple-Mu in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F524\r\n* feat: unified async ulysses fp8 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F526\r\n* feat: support serving for cache-dit by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F522\r\n* Fix get_model_info api 404 when serving with tp\u002Fcp  by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F529\r\n* feat: support cache for hunyuanvideo-1.5 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F528\r\n* feat: support cache for ovis-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F530\r\n\r\n## New Contributors\r\n* @triple-Mu made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F509\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.4...v1.1.5","2025-12-05T08:18:27",{"id":225,"version":226,"summary_zh":227,"released_at":228},255750,"v1.1.4","## What's Changed\r\n* feat: support torch profiler in cache-dit by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F491\r\n* feat: support 🔥z-image tensor parallel by @gameofdimension in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F494\r\n* feat: support lumina2 tensor parallel by @gameofdimension in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F495\r\n* feat: support cache for 🔥z-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F496\r\n* feat: support context parallel for 🔥z-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F497\r\n* fix: temp FnB(n>0) workaround for z-image cache w\u002F cp  by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F499\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.3...v1.1.4","2025-11-28T11:46:57",{"id":230,"version":231,"summary_zh":232,"released_at":233},255751,"v1.1.3","## What's Changed\r\n* chore: Add wan 2.2 i2v context parallel example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F476\r\n* chore: optimize wan examples, compile & offload by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F477\r\n* feat: support async ulysses cp for flux by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F480\r\n* chore: update support matrix by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F484\r\n* chore: update async ulysses cp docs by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F486\r\n* chore: update async ulysses cp refs by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F487\r\n* feat: support FLUX.2-dev Tensor Parallelism by @gameofdimension in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F485\r\n* feat: support Hybrid cache + TP for 🔥FLUX.2 by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F489\r\n* feat: Add seq offload for 🔥FLUX.2 w\u002Fo parallel by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F490\r\n* feat: support 🔥FLUX.2 context parallel by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F492\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.2...v1.1.3","2025-11-28T02:15:20",{"id":235,"version":236,"summary_zh":237,"released_at":238},255752,"v1.1.2","## What's Changed\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F455\r\n* fix load options drop kwargs by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F456\r\n* chore: add maybe pad prompt utils by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F458\r\n* fix: move .to(device) to reduce tp mem  by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F459\r\n* example: support more overrided args and memory tracker by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F461\r\n* Add missing model-path args in example by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F463\r\n* UAA: ulysses anything attn w\u002F zero overhead by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F462\r\n* fix qwen-image multi-gpu mismatch by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F464\r\n* Fix more models multi gpu mismatch by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F466\r\n* feat: support unshard anything for UAA by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F465\r\n* chore: update qwen-image example for UAA by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F468\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F470\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F471\r\n* support skyreels cp and tp ulysses by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F469\r\n* always use vae tiling if vram \u003C= 48 GiB for qwen-image by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F472\r\n* chore: Add SkyReelsV2 tp\u002Fcp to support-matrix by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F473\r\n* fix: correct string literal syntax errors in examples by @BBuf in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F475\r\n* feat: allow UAA in compiled graph by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F474\r\n\r\n## New Contributors\r\n* @BBuf made their first contribution in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F459\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.1...v1.1.2","2025-11-24T09:55:58",{"id":240,"version":241,"summary_zh":242,"released_at":243},255753,"v1.1.1","## What's Changed\r\n* chore: Update README.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F442\r\n* feat: support step compute mask by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F444\r\n* bugfix: fix bench distill cfg mismatch by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F445\r\n* chore: update step mask docs by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F446\r\n* chore: Update User_Guide.md by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F447\r\n* chore: update README by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F448\r\n* chore: update step mask example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F449\r\n* chore: hightlight `SCM` - step computation mask by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F450\r\n* chore: hightlight `SCM` - step computation mask by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F451\r\n* chore: hightlight SCM - step computation mask by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F452\r\n* misc: support quantize and attn backend for flux example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F453\r\n* misc: add quant and attn backend -> step mask example by @DefTruth in https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fpull\u002F454\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fvipshop\u002Fcache-dit\u002Fcompare\u002Fv1.1.0...v1.1.1","2025-11-19T10:50:56"]