[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mit-han-lab--efficientvit":3,"tool-mit-han-lab--efficientvit":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",146793,2,"2026-04-08T23:32:35",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":32,"env_os":93,"env_gpu":94,"env_ram":93,"env_deps":95,"category_tags":103,"github_topics":104,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":154},5769,"mit-han-lab\u002Fefficientvit","efficientvit","Efficient vision foundation models for high-resolution generation and perception.","EfficientViT 是一套专为高分辨率图像生成与感知任务打造的高效视觉基础模型系列。它主要解决了传统大型视觉模型在處理高解析度图像时计算量大、推理速度慢的难题，让高性能 AI 也能在资源受限的设备上流畅运行。\n\n该项目的核心亮点在于其创新的架构设计，特别是最新推出的深度压缩自动编码器（DC-AE）。DC-AE 能够实现高达 128 倍的空间压缩率，同时保持卓越的图像重建质量，从而显著加速各类潜在扩散模型的生成过程。此外，EfficientViT 还被广泛应用于加速版 SAM（Segment Anything Model）以及 SANA 文本生成图像模型中，在多项基准测试中实现了速度与精度的最佳平衡，甚至超越了部分超大参数模型的表现。\n\nEfficientViT 非常适合计算机视觉研究人员、AI 开发者以及需要部署高效图像算法的工程师使用。无论是希望探索前沿生成式 AI 技术的学者，还是致力于将高质量视觉模型落地到边缘设备（如笔记本电脑或嵌入式开发板）的实践者，都能从中获得强大的技术支持。目前，相关模型已集成至主流框架并开源，方便社区直接调用与二次开发。","# Efficient Vision Foundation Models for High-Resolution Generation and Perception\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fdeep-compression-autoencoder-for-efficient\u002Fimage-generation-on-imagenet-512x512)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fimage-generation-on-imagenet-512x512?p=deep-compression-autoencoder-for-efficient)\n\n## News\n- (🔥 New) [2025\u002F09\u002F05] We will no longer maintain this codebase. All future updates and announcements will be made on [DC-Gen](https:\u002F\u002Fgithub.com\u002Fdc-ai-projects\u002FDC-Gen).\n- (🔥 New) [2025\u002F01\u002F24] We released DC-AE-SANA-1.1: [doc](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fblob\u002Fmaster\u002Fassets\u002Fdocs\u002Fdc_ae_sana_1.1.md). \n- (🔥 New) [2025\u002F01\u002F23] DC-AE and SANA are accepted by ICLR 2025.\n- (🔥 New) [2025\u002F01\u002F14] We released **DC-AE+USiT models**: [model](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmit-han-lab\u002Fdc-ae-diffusion-670dbb8d6b6914cf24c1a49d), [training](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fblob\u002Fmaster\u002Fapplications\u002Fdc_ae\u002FREADME.md#dc-ae--usit). Using the default training settings and sampling strategy, DC-AE+USiT-2B achieves 1.72 FID on ImageNet 512x512, surpassing the SOTA diffusion model EDM2-XXL and SOTA auto-regressive image generative models (MAGVIT-v2 and MAR-L).\n\n______________________________________________________________________\n\n- (🔥 New) [2024\u002F12\u002F24] **diffusers** supports DC-AE models. All [DC-AE models in diffusers safetensors](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmit-han-lab\u002Fdc-ae-670085b9400ad7197bb1009b) are released. [Usage](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Ftree\u002Fmaster\u002Fapplications\u002Fdc_ae#deep-compression-autoencoder-diffusers).\n- [2024\u002F10\u002F21] DC-AE and EfficientViT block are used in our latest text-to-image diffusion model SANA! Check the [project page](https:\u002F\u002Fnvlabs.github.io\u002FSana\u002F) for more details.\n- [2024\u002F10\u002F15] We released **Deep Compression Autoencoder (DC-AE)**: [link](#deep-compression-autoencoder-for-efficient-high-resolution-diffusion-models-paper-readme)!\n- [2024\u002F07\u002F10] EfficientViT is used as the backbone in [Grounding DINO 1.5 Edge](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.10300) for efficient open-set object detection.\n- [2024\u002F07\u002F10] EfficientViT-SAM is used in [MedficientSAM](https:\u002F\u002Fgithub.com\u002Fhieplpvip\u002Fmedficientsam), the 1st place model in [CVPR 2024 Segment Anything In Medical Images On Laptop Challenge](https:\u002F\u002Fwww.codabench.org\u002Fcompetitions\u002F1847\u002F).\n- [2024\u002F04\u002F06] EfficientViT-SAM is accepted by [eLVM@CVPR'24](https:\u002F\u002Fsites.google.com\u002Fview\u002Felvm\u002Fhome?authuser=0).\n- [2024\u002F03\u002F19] Online demo of EfficientViT-SAM is available: [https:\u002F\u002Fevitsam.hanlab.ai\u002F](https:\u002F\u002Fevitsam.hanlab.ai\u002F). \n- [2024\u002F02\u002F07] We released [EfficientViT-SAM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05008), the first accelerated SAM model that matches\u002Foutperforms SAM-ViT-H's zero-shot performance, delivering the SOTA performance-efficiency trade-off.\n- [2023\u002F11\u002F20] EfficientViT is available in the [NVIDIA Jetson Generative AI Lab](https:\u002F\u002Fwww.jetson-ai-lab.com\u002Ftutorial_efficientvit.html).\n- [2023\u002F09\u002F12] EfficientViT is highlighted by [MIT home page](https:\u002F\u002Fwww.mit.edu\u002Farchive\u002Fspotlight\u002Fefficient-computer-vision\u002F) and [MIT News](https:\u002F\u002Fnews.mit.edu\u002F2023\u002Fai-model-high-resolution-computer-vision-0912).\n- [2023\u002F07\u002F18] EfficientViT is accepted by ICCV 2023.\n\n## Content\n\n### [ICLR 2025] Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10733)] [[readme](applications\u002Fdc_ae\u002FREADME.md)] [[poster](assets\u002Fdc_ae_poster.pdf)]\n\n**Deep Compression Autoencoder (DC-AE) is a new family of high-spatial compression autoencoders with a spatial compression ratio of up to 128 while maintaining reconstruction quality. It accelerates all latent diffusion models regardless of the diffusion model architecture.**\n\n#### Demo\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_8384d1b20632.gif)\n\u003Cp align=\"center\">\n\u003Cb> Figure 1: We address the reconstruction accuracy drop of high spatial-compression autoencoders.\n\u003C\u002Fp>\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_01f42e895f88.gif)\n\u003Cp align=\"center\">\n\u003Cb> Figure 2: DC-AE speeds up latent diffusion models.\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_b2567a8ec776.jpg\"  width=\"1200\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cb> Figure 3: DC-AE enables efficient text-to-image generation on the laptop: \u003Ca href=\"https:\u002F\u002Fnvlabs.github.io\u002FSana\u002F\">SANA\u003C\u002Fa>.\n\u003C\u002Fp>\n\n- [Usage of Deep Compression Autoencoder](applications\u002Fdc_ae\u002FREADME.md#deep-compression-autoencoder)\n- [Usage of DC-AE-Diffusion](applications\u002Fdc_ae\u002FREADME.md#efficient-diffusion-models-with-dc-ae)\n- [Evaluate Deep Compression Autoencoder](applications\u002Fdc_ae\u002FREADME.md#evaluate-deep-compression-autoencoder)\n- [Demo DC-AE-Diffusion Models](applications\u002Fdc_ae\u002FREADME.md#demo-dc-ae-diffusion-models)\n- [Evaluate DC-AE-Diffusion Models](applications\u002Fdc_ae\u002FREADME.md#evaluate-dc-ae-diffusion-models)\n- [Train DC-AE-Diffusion Models](applications\u002Fdc_ae\u002FREADME.md#train-dc-ae-diffusion-models)\n- [Reference](applications\u002Fdc_ae\u002FREADME.md#reference)\n\n### [CVPR 2024 eLVM Workshop] EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05008)] [[online demo](https:\u002F\u002Fevitsam.hanlab.ai\u002F)] [[readme](applications\u002Fefficientvit_sam\u002FREADME.md)]\n\n**EfficientViT-SAM is a new family of accelerated segment anything models by replacing SAM's heavy image encoder with EfficientViT. It delivers a 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing accuracy.**\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_ddab4733c564.png\"  width=\"500\">\n\u003C\u002Fp>\n\n- [Pretrained EfficientViT-SAM Models](applications\u002Fefficientvit_sam\u002FREADME.md#pretrained-efficientvit-sam-models)\n- [Usage of EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#usage)\n- [Evaluate EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#evaluation)\n- [Visualize EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#visualization)\n- [Deploy EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#deployment)\n- [Train EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#training)\n- [Reference](applications\u002Fefficientvit_sam\u002FREADME.md#reference)\n\n### [ICCV 2023] EfficientViT-Classification [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14756)] [[readme](applications\u002Fefficientvit_cls\u002FREADME.md)]\n\n**Efficient image classification models with EfficientViT backbones.**\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_4dd1561344a3.png\"  width=\"600\">\n\u003C\u002Fp>\n\n- [Pretrained EfficientViT Classification Models](applications\u002Fefficientvit_cls\u002FREADME.md#pretrained-efficientvit-classification-models)\n- [Usage of EfficientViT Classification Models](applications\u002Fefficientvit_cls\u002FREADME.md#usage)\n- [Evaluate EfficientViT Classification Models](applications\u002Fefficientvit_cls\u002FREADME.md#evaluation)\n- [Export EfficientViT Classification Models](applications\u002Fefficientvit_cls\u002FREADME.md#export)\n- [Train EfficientViT Classification Models](applications\u002Fefficientvit_cls\u002FREADME.md#training)\n- [Reference](applications\u002Fefficientvit_cls\u002FREADME.md#reference)\n\n### [ICCV 2023] EfficientViT-Segmentation [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14756)] [[readme](applications\u002Fefficientvit_seg\u002FREADME.md)]\n\n**Efficient semantic segmantation models with EfficientViT backbones.**\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_db85cece8e60.gif)\n\n- [Pretrained EfficientViT Segmentation Models](applications\u002Fefficientvit_seg\u002FREADME.md#pretrained-efficientvit-segmentation-models)\n- [Usage of EfficientViT Segmentation Models](applications\u002Fefficientvit_seg\u002FREADME.md#usage)\n- [Evaluate EfficientViT Segmentation Models](applications\u002Fefficientvit_seg\u002FREADME.md#evaluation)\n- [Visualize EfficientViT Segmentation Models](applications\u002Fefficientvit_seg\u002FREADME.md#visualization)\n- [Export EfficientViT Segmentation Models](applications\u002Fefficientvit_seg\u002FREADME.md#export)\n- [Reference](applications\u002Fefficientvit_seg\u002FREADME.md#reference)\n\n### EfficientViT-GazeSAM [[readme](applications\u002Fefficientvit_gazesam\u002FREADME.md)]\n\n**Gaze-prompted image segmentation models capable of running in real time with TensorRT on an NVIDIA RTX 4070.**\n\n![GazeSAM demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_db8dc489bf4a.gif)\n\n## Getting Started\n\n```bash\nconda create -n efficientvit python=3.10\nconda activate efficientvit\npip install -U -r requirements.txt\n```\n\n## Third-Party Implementation\u002FIntegration\n\n- [NVIDIA Jetson Generative AI Lab](https:\u002F\u002Fwww.jetson-ai-lab.com\u002Ftutorial_efficientvit.html)\n- [timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models): [link](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models\u002Fblob\u002Fmain\u002Ftimm\u002Fmodels\u002Fefficientvit_mit.py)\n- [X-AnyLabeling](https:\u002F\u002Fgithub.com\u002FCVHub520\u002FX-AnyLabeling): [link](https:\u002F\u002Fgithub.com\u002FCVHub520\u002FX-AnyLabeling\u002Fblob\u002Fmain\u002Fanylabeling\u002Fservices\u002Fauto_labeling\u002Fefficientvit_sam.py)\n- [Grounding DINO 1.5 Edge](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounding-DINO-1.5-API): [link](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.10300)\n\n## Contact\n\n[Han Cai](http:\u002F\u002Fhancai.ai\u002F)\n\n## Reference\n\nIf EfficientViT or EfficientViT-SAM or DC-AE is useful or relevant to your research, please kindly recognize our contributions by citing our paper:\n\n```bibtex\n@inproceedings{cai2023efficientvit,\n  title={Efficientvit: Lightweight multi-scale attention for high-resolution dense prediction},\n  author={Cai, Han and Li, Junyan and Hu, Muyan and Gan, Chuang and Han, Song},\n  booktitle={Proceedings of the IEEE\u002FCVF International Conference on Computer Vision},\n  pages={17302--17313},\n  year={2023}\n}\n```\n\n```bibtex\n@article{zhang2024efficientvit,\n  title={EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss},\n  author={Zhang, Zhuoyang and Cai, Han and Han, Song},\n  journal={arXiv preprint arXiv:2402.05008},\n  year={2024}\n}\n```\n\n```bibtex\n@article{chen2024deep,\n  title={Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models},\n  author={Chen, Junyu and Cai, Han and Chen, Junsong and Xie, Enze and Yang, Shang and Tang, Haotian and Li, Muyang and Lu, Yao and Han, Song},\n  journal={arXiv preprint arXiv:2410.10733},\n  year={2024}\n}\n```\n","# 用于高分辨率生成与感知的高效视觉基础模型\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fdeep-compression-autoencoder-for-efficient\u002Fimage-generation-on-imagenet-512x512)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fimage-generation-on-imagenet-512x512?p=deep-compression-autoencoder-for-efficient)\n\n## 新闻\n- (🔥 新) [2025\u002F09\u002F05] 我们将不再维护此代码库。所有未来的更新和公告都将在 [DC-Gen](https:\u002F\u002Fgithub.com\u002Fdc-ai-projects\u002FDC-Gen) 上发布。\n- (🔥 新) [2025\u002F01\u002F24] 我们发布了 DC-AE-SANA-1.1：[文档](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fblob\u002Fmaster\u002Fassets\u002Fdocs\u002Fdc_ae_sana_1.1.md)。\n- (🔥 新) [2025\u002F01\u002F23] DC-AE 和 SANA 被 ICLR 2025 接受。\n- (🔥 新) [2025\u002F01\u002F14] 我们发布了 **DC-AE+USiT 模型**：[模型](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmit-han-lab\u002Fdc-ae-diffusion-670dbb8d6b6914cf24c1a49d)，[训练](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fblob\u002Fmaster\u002Fapplications\u002Fdc_ae\u002FREADME.md#dc-ae--usit)。使用默认的训练设置和采样策略，DC-AE+USiT-2B 在 ImageNet 512x512 数据集上达到了 1.72 的 FID 值，超越了 SOTA 扩散模型 EDM2-XXL 以及 SOTA 自回归图像生成模型（MAGVIT-v2 和 MAR-L）。\n\n______________________________________________________________________\n\n- (🔥 新) [2024\u002F12\u002F24] **diffusers** 支持 DC-AE 模型。所有 [diffusers 中的 DC-AE 模型 safetensors](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmit-han-lab\u002Fdc-ae-670085b9400ad7197bb1009b) 已发布。[使用方法](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Ftree\u002Fmaster\u002Fapplications\u002Fdc_ae#deep-compression-autoencoder-diffusers)。\n- [2024\u002F10\u002F21] DC-AE 和 EfficientViT 模块被用于我们最新的文本到图像扩散模型 SANA！更多详情请查看 [项目页面](https:\u002F\u002Fnvlabs.github.io\u002FSana\u002F)。\n- [2024\u002F10\u002F15] 我们发布了 **深度压缩自编码器 (DC-AE)**：[链接](#deep-compression-autoencoder-for-efficient-high-resolution-diffusion-models-paper-readme)！\n- [2024\u002F07\u002F10] EfficientViT 被用作 [Grounding DINO 1.5 Edge](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.10300) 的骨干网络，用于高效的开放集目标检测。\n- [2024\u002F07\u002F10] EfficientViT-SAM 被用于 [MedficientSAM](https:\u002F\u002Fgithub.com\u002Fhieplpvip\u002Fmedficientsam)，该模型在 [CVPR 2024 医学图像分割挑战赛](https:\u002F\u002Fwww.codabench.org\u002Fcompetitions\u002F1847\u002F) 中获得第一名。\n- [2024\u002F04\u002F06] EfficientViT-SAM 被 [eLVM@CVPR'24](https:\u002F\u002Fsites.google.com\u002Fview\u002Felvm\u002Fhome?authuser=0) 接受。\n- [2024\u002F03\u002F19] EfficientViT-SAM 的在线演示现已可用：[https:\u002F\u002Fevitsam.hanlab.ai\u002F](https:\u002F\u002Fevitsam.hanlab.ai\u002F)。\n- [2024\u002F02\u002F07] 我们发布了 [EfficientViT-SAM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05008)，这是首个加速的 SAM 模型，其零样本性能与 SAM-ViT-H 相当甚至更好，实现了 SOTA 的性能与效率平衡。\n- [2023\u002F11\u002F20] EfficientViT 已在 [NVIDIA Jetson 生成式 AI 实验室](https:\u002F\u002Fwww.jetson-ai-lab.com\u002Ftutorial_efficientvit.html) 中提供。\n- [2023\u002F09\u002F12] EfficientViT 被 [MIT 主页](https:\u002F\u002Fwww.mit.edu\u002Farchive\u002Fspotlight\u002Fefficient-computer-vision\u002F) 和 [MIT 新闻](https:\u002F\u002Fnews.mit.edu\u002F2023\u002Fai-model-high-resolution-computer-vision-0912) 重点报道。\n- [2023\u002F07\u002F18] EfficientViT 被 ICCV 2023 接受。\n\n## 内容\n\n### [ICLR 2025] 用于高效高分辨率扩散模型的深度压缩自编码器 [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10733)] [[说明](applications\u002Fdc_ae\u002FREADME.md)] [[海报](assets\u002Fdc_ae_poster.pdf)]\n\n**深度压缩自编码器 (DC-AE) 是一类新型的高空间压缩自编码器，其空间压缩比可达 128，同时保持重建质量。它能够加速所有潜在扩散模型，无论扩散模型架构如何。**\n\n#### 演示\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_8384d1b20632.gif)\n\u003Cp align=\"center\">\n\u003Cb> 图 1：我们解决了高空间压缩自编码器的重建精度下降问题。\n\u003C\u002Fp>\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_01f42e895f88.gif)\n\u003Cp align=\"center\">\n\u003Cb> 图 2：DC-AE 加速了潜在扩散模型。\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_b2567a8ec776.jpg\"  width=\"1200\">\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cb> 图 3：DC-AE 使得在笔记本电脑上高效地进行文本到图像生成成为可能：\u003Ca href=\"https:\u002F\u002Fnvlabs.github.io\u002FSana\u002F\">SANA\u003C\u002Fa>。\n\u003C\u002Fp>\n\n- [深度压缩自编码器的使用方法](applications\u002Fdc_ae\u002FREADME.md#deep-compression-autoencoder)\n- [DC-AE-扩散的使用方法](applications\u002Fdc_ae\u002FREADME.md#efficient-diffusion-models-with-dc-ae)\n- [评估深度压缩自编码器](applications\u002Fdc_ae\u002FREADME.md#evaluate-deep-compression-autoencoder)\n- [DC-AE-扩散模型的演示](applications\u002Fdc_ae\u002FREADME.md#demo-dc-ae-diffusion-models)\n- [DC-AE-扩散模型的评估](applications\u002Fdc_ae\u002FREADME.md#evaluate-dc-ae-diffusion-models)\n- [训练 DC-AE-扩散模型](applications\u002Fdc_ae\u002FREADME.md#train-dc-ae-diffusion-models)\n- [参考文献](applications\u002Fdc_ae\u002FREADME.md#reference)\n\n### [CVPR 2024 eLVM 研讨会] EfficientViT-SAM：无精度损失的加速 Segment Anything 模型 [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05008)] [[在线演示](https:\u002F\u002Fevitsam.hanlab.ai\u002F)] [[说明](applications\u002Fefficientvit_sam\u002FREADME.md)]\n\n**EfficientViT-SAM 是一类新的加速 Segment Anything 模型，通过用 EfficientViT 替代 SAM 中的重型图像编码器来实现。它在 A100 GPU 上相比 SAM-ViT-H 实现了 48.9 倍的 TensorRT 加速，且未牺牲精度。**\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_ddab4733c564.png\"  width=\"500\">\n\u003C\u002Fp>\n\n- [预训练的 EfficientViT-SAM 模型](applications\u002Fefficientvit_sam\u002FREADME.md#pretrained-efficientvit-sam-models)\n- [EfficientViT-SAM 的使用方法](applications\u002Fefficientvit_sam\u002FREADME.md#usage)\n- [评估 EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#evaluation)\n- [可视化 EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#visualization)\n- [部署 EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#deployment)\n- [训练 EfficientViT-SAM](applications\u002Fefficientvit_sam\u002FREADME.md#training)\n- [参考文献](applications\u002Fefficientvit_sam\u002FREADME.md#reference)\n\n### [ICCV 2023] EfficientViT-分类 [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14756)] [[README](applications\u002Fefficientvit_cls\u002FREADME.md)]\n\n**基于EfficientViT骨干网络的高效图像分类模型。**\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_4dd1561344a3.png\"  width=\"600\">\n\u003C\u002Fp>\n\n- [预训练的EfficientViT分类模型](applications\u002Fefficientvit_cls\u002FREADME.md#pretrained-efficientvit-classification-models)\n- [EfficientViT分类模型的使用方法](applications\u002Fefficientvit_cls\u002FREADME.md#usage)\n- [评估EfficientViT分类模型](applications\u002Fefficientvit_cls\u002FREADME.md#evaluation)\n- [导出EfficientViT分类模型](applications\u002Fefficientvit_cls\u002FREADME.md#export)\n- [训练EfficientViT分类模型](applications\u002Fefficientvit_cls\u002FREADME.md#training)\n- [参考文献](applications\u002Fefficientvit_cls\u002FREADME.md#reference)\n\n### [ICCV 2023] EfficientViT-分割 [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14756)] [[README](applications\u002Fefficientvit_seg\u002FREADME.md)]\n\n**基于EfficientViT骨干网络的高效语义分割模型。**\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_db85cece8e60.gif)\n\n- [预训练的EfficientViT分割模型](applications\u002Fefficientvit_seg\u002FREADME.md#pretrained-efficientvit-segmentation-models)\n- [EfficientViT分割模型的使用方法](applications\u002Fefficientvit_seg\u002FREADME.md#usage)\n- [评估EfficientViT分割模型](applications\u002Fefficientvit_seg\u002FREADME.md#evaluation)\n- [可视化EfficientViT分割模型](applications\u002Fefficientvit_seg\u002FREADME.md#visualization)\n- [导出EfficientViT分割模型](applications\u002Fefficientvit_seg\u002FREADME.md#export)\n- [参考文献](applications\u002Fefficientvit_seg\u002FREADME.md#reference)\n\n### EfficientViT-GazeSAM [[README](applications\u002Fefficientvit_gazesam\u002FREADME.md)]\n\n**基于视线提示的图像分割模型，可在NVIDIA RTX 4070上使用TensorRT实现实时运行。**\n\n![GazeSAM demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_readme_db8dc489bf4a.gif)\n\n## 快速入门\n\n```bash\nconda create -n efficientvit python=3.10\nconda activate efficientvit\npip install -U -r requirements.txt\n```\n\n## 第三方实现\u002F集成\n\n- [NVIDIA Jetson生成式AI实验室](https:\u002F\u002Fwww.jetson-ai-lab.com\u002Ftutorial_efficientvit.html)\n- [timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models): [链接](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models\u002Fblob\u002Fmain\u002Ftimm\u002Fmodels\u002Fefficientvit_mit.py)\n- [X-AnyLabeling](https:\u002F\u002Fgithub.com\u002FCVHub520\u002FX-AnyLabeling): [链接](https:\u002F\u002Fgithub.com\u002FCVHub520\u002FX-AnyLabeling\u002Fblob\u002Fmain\u002Fanylabeling\u002Fservices\u002Fauto_labeling\u002Fefficientvit_sam.py)\n- [Grounding DINO 1.5 Edge](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounding-DINO-1.5-API): [链接](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.10300)\n\n## 联系方式\n\n[Han Cai](http:\u002F\u002Fhancai.ai\u002F)\n\n## 参考文献\n\n若EfficientViT、EfficientViT-SAM或DC-AE对您的研究有所帮助或相关，请您在引用时注明我们的工作：\n\n```bibtex\n@inproceedings{cai2023efficientvit,\n  title={Efficientvit: 面向高分辨率密集预测的轻量级多尺度注意力},\n  author={Cai, Han and Li, Junyan and Hu, Muyan and Gan, Chuang and Han, Song},\n  booktitle={IEEE\u002FCVF国际计算机视觉会议论文集},\n  pages={17302--17313},\n  year={2023}\n}\n```\n\n```bibtex\n@article{zhang2024efficientvit,\n  title={EfficientViT-SAM：在不损失性能的情况下加速Segment Anything Model},\n  author={Zhang, Zhuoyang and Cai, Han and Han, Song},\n  journal={arXiv预印本 arXiv:2402.05008},\n  year={2024}\n}\n```\n\n```bibtex\n@article{chen2024deep,\n  title={用于高效高分辨率扩散模型的深度压缩自编码器},\n  author={Chen, Junyu and Cai, Han and Chen, Junsong and Xie, Enze and Yang, Shang and Tang, Haotian and Li, Muyang and Lu, Yao and Han, Song},\n  journal={arXiv预印本 arXiv:2410.10733},\n  year={2024}\n}\n```","# EfficientViT 快速上手指南\n\nEfficientViT 是麻省理工学院（MIT）韩松团队开发的一系列高效视觉基础模型，涵盖图像分类、语义分割、加速版 SAM（Segment Anything）以及用于高分辨率生成的深度压缩自编码器（DC-AE）。本指南将帮助您快速搭建环境并运行核心功能。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**: 3.10 (官方推荐版本)。\n*   **硬件要求**:\n    *   **推理**: 支持 CUDA 的 NVIDIA GPU（推荐显存 >= 8GB 以运行大模型或高分辨率生成任务）。\n    *   **训练**: 需要多卡 GPU 环境。\n*   **前置依赖**: 已安装 `conda` 或 `mamba` 包管理器。\n\n> **国内开发者提示**：建议配置清华或中科大镜像源以加速依赖下载。\n> ```bash\n> conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Fmain\u002F\n> conda config --add channels https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Ffree\u002F\n> pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 2. 安装步骤\n\n推荐使用 Conda 创建独立的虚拟环境以避免依赖冲突。\n\n### 第一步：创建并激活环境\n```bash\nconda create -n efficientvit python=3.10\nconda activate efficientvit\n```\n\n### 第二步：安装依赖库\n克隆仓库并安装核心依赖：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit.git\ncd efficientvit\npip install -U -r requirements.txt\n```\n\n### 第三步：安装特定应用模块（可选）\n根据您的需求，可能需要安装额外的组件：\n\n*   **如需使用 DC-AE (扩散模型\u002F图像生成)**:\n    ```bash\n    pip install diffusers transformers accelerate\n    ```\n*   **如需部署加速 (TensorRT)**:\n    请参考 `applications\u002Fefficientvit_sam\u002FREADME.md` 中的 TensorRT 特定安装指引。\n\n## 3. 基本使用\n\nEfficientViT 包含多个子项目，以下是两个最常用场景的快速示例。\n\n### 场景一：使用 DC-AE 进行图像重建与生成\nDC-AE 支持通过 Hugging Face `diffusers` 库直接加载，适合快速体验高分辨率图像生成。\n\n```python\nimport torch\nfrom diffusers import AutoencoderKL\n\n# 加载预训练的 DC-AE 模型 (例如 f64c128 版本)\nmodel_id = \"mit-han-lab\u002Fdc-ae-f64c128-in-1.0\"\nvae = AutoencoderKL.from_pretrained(model_id, trust_remote_code=True).to(\"cuda\")\n\n# 准备输入图像 (假设已加载为 tensor 形状 [B, C, H, W])\n# input_image = ... \n\n# 编码 (压缩)\nwith torch.no_grad():\n    latent = vae.encode(input_image).latent_dist.sample()\n\n# 解码 (重建)\nwith torch.no_grad():\n    reconstructed_image = vae.decode(latent).sample\n\nprint(f\"原始形状：{input_image.shape}, 潜空间形状：{latent.shape}\")\n```\n\n> **注意**：完整的文生图流程（Text-to-Image）需结合 SANA 或 USiT 模型，详细脚本请参阅 `applications\u002Fdc_ae\u002FREADME.md`。\n\n### 场景二：使用 EfficientViT-SAM 进行图像分割\nEfficientViT-SAM 是加速版的 Segment Anything 模型，可在保持精度的同时显著提升推理速度。\n\n```python\nimport torch\nfrom efficientvit.sam_model_zoo import create_sam_model\nfrom efficientvit.apps.utils import export_onnx\n\n# 1. 加载预训练模型 (例如 efficientvit_sam_l0)\nmodel_name = \"efficientvit_sam_l0\"\nmodel = create_sam_model(model_name, True).to(\"cuda\").eval()\n\n# 2. 准备图像数据\n# image = ... (加载图像并预处理为模型需要的格式)\n\n# 3. 执行推理\nwith torch.no_grad():\n    # 设置图像嵌入\n    model.set_image(image)\n    \n    # 定义提示点 (例如：坐标 [x, y], 标签 1 表示前景)\n    point_coords = torch.tensor([[500, 500]]).float().to(\"cuda\")\n    point_labels = torch.tensor([1]).int().to(\"cuda\")\n    \n    # 获取掩码\n    masks, _, _ = model.predict(\n        point_coords=point_coords,\n        point_labels=point_labels,\n        multimask_output=False,\n    )\n\nprint(f\"生成分割掩码形状：{masks.shape}\")\n```\n\n### 模型下载提示\n首次运行时，模型权重会自动从 Hugging Face 下载。如果下载缓慢，可手动下载权重文件后放置于本地缓存目录，或设置环境变量：\n```bash\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n```","某医疗影像初创团队正致力于开发一款能在普通笔记本电脑上实时运行的病灶分割系统，以辅助基层医生快速诊断。\n\n### 没有 efficientvit 时\n- **硬件门槛极高**：传统的 SAM（Segment Anything）大模型显存占用巨大，必须依赖昂贵的云端 A100 显卡才能运行，无法部署到医生的本地笔记本。\n- **推理延迟严重**：处理一张高分辨率 CT 影像需要数秒甚至更久，医生在手术或问诊间隙无法获得即时反馈，打断诊疗节奏。\n- **精度与速度难兼得**：若为了提速而强行压缩模型，会导致病灶边缘识别模糊，漏诊风险增加，无法满足医疗级精度要求。\n- **适配成本高昂**：针对不同尺寸的医学图像，需要反复调整预处理流程，开发周期长且维护困难。\n\n### 使用 efficientvit 后\n- **端侧流畅运行**：efficientvit-SAM 将模型大幅轻量化，使得在普通消费级笔记本上也能流畅运行，无需依赖云端算力。\n- **毫秒级实时响应**：得益于高效的架构设计，高分辨率影像的分割推理速度提升数倍，实现“点击即出结果”的交互体验。\n- **精度超越标杆**：在保持极速的同时，其零样本（zero-shot）分割性能不仅匹配甚至超越了庞大的 SAM-ViT-H 模型，确保病灶细节清晰可辨。\n- **灵活适配场景**：原生支持高分辨率输入，无需复杂的图像缩放预处理，直接适配各类医学影像设备输出的原始数据。\n\nefficientvit 通过极致的效率优化，成功打破了高性能视觉大模型对昂贵算力的依赖，让顶尖 AI 能力真正落地于资源受限的边缘设备。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmit-han-lab_efficientvit_11832256.png","mit-han-lab","MIT HAN Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmit-han-lab_65e6a38d.png","Efficient AI Computing. PI: Song Han",null,"songhan_mit","https:\u002F\u002Fhanlab.mit.edu","https:\u002F\u002Fgithub.com\u002Fmit-han-lab",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",98.3,{"name":86,"color":87,"percentage":88},"Shell","#89e051",1.7,3278,240,"2026-04-07T17:36:10","Apache-2.0","未说明","部分功能（如 EfficientViT-SAM, GazeSAM）明确需要 NVIDIA GPU 并提及 TensorRT 加速（测试环境包括 A100, RTX 4070）；基础推理可能支持 CPU，但高性能生成和感知建议配备 NVIDIA GPU",{"notes":96,"python":97,"dependencies":98},"1. 建议使用 conda 创建名为 'efficientvit' 的虚拟环境。2. 该仓库包含多个子项目（分类、分割、SAM、扩散模型），具体依赖可能因任务而异。3. 2025 年 9 月后官方将停止维护此代码库，后续更新移至 'DC-Gen' 项目。4. 部分高性能演示（如笔记本运行 SANA）展示了其在消费级硬件上的潜力，但训练或高分辨率生成仍推荐高显存显卡。","3.10",[99,100,101,102],"torch","torchvision","diffusers (可选，用于 DC-AE)","tensorrt (可选，用于部署加速)",[35,15],[105,106,64,107,108,109,110,111],"high-resolution","imagenet","segment-anything","segmentation","vision-transformer","deep-compression-autoencoder","efficient-diffusion-model","2026-03-27T02:49:30.150509","2026-04-09T10:30:05.845531",[115,120,125,130,135,140,145,150],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},26166,"DC-AE 为什么叫 AE 而不是 VAE？没有变分约束扩散模型如何工作？","在实际训练潜在扩散模型（Latent Diffusion Models）时，团队并未观察到普通自编码器（AE）与变分自编码器（VAE）有显著差异。实验结果表明，两者表现相当。虽然理论上 VAE 的潜在空间更连续正则化，但 DC-AE 的实践证明了普通 AE 同样能有效支持扩散生成任务，无需 KL 散度损失也能避免数值溢出或潜在空间稀疏的问题。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F155",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},26167,"如何使用 EfficientViT-SAM 模型时解决输出为空（Zero Output）的问题？","这通常是因为 `EfficientViTSamAutomaticMaskGenerator` 的超参数设置不当导致的。建议调整以下阈值：\n- `pred_iou_thresh=0.5`\n- `stability_score_thresh=0.90`\n不同模型可能需要微调这些超参数以获得最佳的自动掩码生成视觉效果。维护者已更新默认值以修复此问题。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F60",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},26168,"Hugging Face 上 DC-AE 模型名称中的 'in' 和 'mix' 后缀代表什么含义？","这些后缀指代模型训练所使用的数据集或特定应用场景。例如，带有 `sana` 后缀的模型（如 `mit-han-lab\u002Fdc-ae-f32c32-sana-1.0`）是专门用于 [SANA](https:\u002F\u002Fnvlabs.github.io\u002FSana\u002F) 项目的 DC-AE 模型。具体选择取决于你的使用场景，通常官方文档或模型卡片会说明其针对的特定任务优化。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F144",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},26169,"DC-AE 模型权重的许可证是什么？可以用于商业用途吗？","是的，DC-AE 模型权重遵循 Apache-2.0 许可证，与代码库保持一致。这意味着它可以用于商业用途，只要遵守该许可证的相关条款即可。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F166",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},26170,"CVPR 2023 版和 ICCV 2023 版的 EfficientViT 有什么区别？哪个更好？","ICCV 2023 版本（如 EfficientViT-L1\u002FL2）通常在性能上更优。例如在 ImageNet 上：\n- CVPR2023-M5 (512x512): Top1 Acc 80.8%, Params 12M\n- ICCV2023-L1 (224x224): Top1 Acc 84.48%, Params 53M\n- ICCV2023-L2 (224x224): Top1 Acc 85.05%, Params 64M\n尽管参数量增加，但 ICCV 版本在准确率和吞吐量（A100 上）上表现更好，通常是更佳的选择。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F36",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},26171,"如何在 Stable Diffusion 中将默认的 SD-VAE 替换为 DC-AE？","若要用 DC-AE 替代 SD-VAE 开发潜在扩散模型，需要在 DC-AE 的潜在空间上重新训练扩散模型。你可以参考官方提供的示例代码和教程：[DC-AE README 示例](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fblob\u002F20317cb7240c81e9ded74501a523846597021133\u002Fapplications\u002Fdc_ae\u002FREADME.md?plain=1#L87)。直接替换权重而不重新训练扩散部分通常无法正常工作。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F162",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},26172,"为什么 Flux-VAE-f8 的 PSNR 很高，但在扩散模型训练中的 FID 表现却比 SD-VAE-f8 差很多？","这主要归因于架构差异。SD 和 Flux 的 VAE 中仅包含单个注意力层（single attention layer），且通常在较低分辨率（如 64x64）下执行。相比之下，DC-AE 使用了高效的 ViT 块（Efficient ViT blocks），这种架构设计能更好地捕捉特征，从而在扩散模型训练中产生更低的 FID（更好的生成质量），即使其重建指标（如 PSNR）可能不是最高的。","https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fefficientvit\u002Fissues\u002F141",{"id":151,"question_zh":152,"answer_zh":153,"source_url":139},26173,"在 A100 GPU 上测试吞吐量（Throughput）时使用的 Batch Size 是多少？","默认情况下，测试使用的 Batch Size 为 256。如果模型过大导致显存不足，Batch Size 会自动从 256 降低到 128、64 或 32 等，直到能够适配 GPU 显存为止。这与边缘设备上通常使用 bs=1 测试延迟的情况不同。",[]]