EfficientFormer

1.1k 94 中等 1 次阅读 1周前NOASSERTION语言模型图像开发框架

AI 解读由 AI 自动生成，仅供参考

EfficientFormer 是一系列专为移动端设备设计的视觉 Transformer 模型，旨在让复杂的 AI 视觉任务也能在手机上跑得飞快。它主要解决了传统 Vision Transformer（ViT）虽然精度高，但计算量大、延迟高，难以在手机等资源受限设备上流畅运行的痛点。即便与多年前的轻量级卷积网络 MobileNet 相比，旧版 ViT 在速度和体积上仍显笨重。

EfficientFormer 通过重新思考架构设计，提出了一种改进的超网结构，并结合细粒度的联合搜索策略，同时优化模型的延迟和参数量。其升级版 EfficientFormerV2 更是在保持与 MobileNet 相当的运行速度和模型大小的前提下，将图像分类准确率提升了约 4%。这意味着开发者无需在“高精度”和“高速度”之间做妥协。

这套工具非常适合需要在移动端部署高性能视觉算法的 AI 开发者、研究人员以及嵌入式系统工程师。无论是进行图像分类、目标检测还是语义分割，EfficientFormer 都能提供高效的预训练模型和完整的转换工具（支持 CoreML 和 ONNX），帮助用户轻松将前沿算法落地到 iPhone 等移动设备中，实现真正的端侧智能。

使用场景

某电商团队正在开发一款面向全球用户的移动端实时商品识别功能，需要在用户摄像头画面中毫秒级定位并分类商品。

没有 EfficientFormer 时

推理延迟高：部署传统的 Vision Transformer 模型在 iPhone 等老旧机型上延迟超过 100ms，导致取景框画面卡顿，用户体验极差。
模型体积过大：为了保证精度不得不使用大参数量模型，安装包体积激增，严重影响用户在弱网环境下的下载转化率。
功耗与发热严重：复杂的注意力机制计算量大，长时间开启摄像头识别会导致手机迅速发热并消耗大量电量。
精度与速度难兼得：若强行替换为轻量级 CNN（如 MobileNet），虽然速度达标，但商品细粒度分类的准确率下降明显，误识率升高。

使用 EfficientFormer 后

端侧极速响应：利用 EfficientFormerV2 在 iPhone 12 上实现了与 MobileNet 相当的毫秒级低延迟，画面流畅无感知，实时交互体验大幅提升。
极致轻量化部署：模型参数量压缩至移动网级别，显著减小了应用包体积，同时保持了比 MobileNetV2 高出约 4% 的 Top-1 准确率。
能效比优化：重新设计的架构大幅降低了计算复杂度，长时间运行下设备发热明显减少，电池续航能力得到保障。
兼顾性能与效率：无需在精度和速度之间做妥协，既保留了 Transformer 强大的特征提取能力，又满足了移动端严苛的资源限制。

EfficientFormer 成功打破了视觉大模型难以在移动端落地的瓶颈，让高精度商品识别在普通手机上也能跑得飞快且省电。

运行环境要求

操作系统

Linux
macOS

GPU

训练需要 NVIDIA GPU（示例为 8 卡多 GPU 环境），需安装 cudatoolkit=11.3
推理部署在 iPhone (iOS) 或 macOS 上可使用 CoreML，无需 NVIDIA GPU

内存

未说明（多节点训练脚本中提示需根据资源指定内存）

依赖

notes1. 官方推荐使用 conda 管理环境。2. 延迟测试复现需要 macOS + XCode 环境及 iPhone 12 真机。3. 模型导出支持 ONNX 和 CoreML 格式。4. 下游任务（检测、分割）依赖 MMCV、MMDetection 和 MMSegmentation。5. 训练脚本支持单机多卡 (DDP) 和 Slurm 多节点集群。

python未说明（建议使用 conda 虚拟环境）

pytorch

torchvision

cudatoolkit==11.3

timm

submitit

coremltools==5.2

torch==1.11

快速开始

EfficientFormerV2
_{重新思考适用于移动设备尺寸与速度的视觉Transformer}

arXiv | PDF

模型在ImageNet-1K上训练，并使用CoreMLTools部署到iPhone 12上以测量延迟。

重新思考适用于移动设备尺寸与速度的视觉Transformer
李彦宇^1,2, 胡居¹, 温洋¹, 乔治奥斯·埃万杰利迪斯¹, 卡米亚尔·萨拉希³,
王延志², 谢尔盖·图利亚科夫¹, 任健¹
¹Snap Inc., ²东北大学, ³加州大学伯克利分校

摘要

随着视觉Transformer（ViT）在计算机视觉任务中取得成功，近期的研究致力于优化ViT的性能和复杂度，以便在移动设备上高效部署。为此，研究者提出了多种方法来加速注意力机制、改进低效设计，或引入轻量级卷积以构建混合架构。然而，即使经过多年的发展，ViT及其变体的延迟仍然高于轻量级CNN，参数量也远超老牌的MobileNet。实际上，在资源受限的硬件上进行高效部署时，延迟和模型大小都至关重要。本文探讨了一个核心问题：Transformer模型能否像MobileNet一样快速运行，同时保持相似的模型规模？我们重新审视了ViT的设计选择，并提出了一种低延迟、高参数效率的改进超网络。此外，我们还引入了一种细粒度的联合搜索策略，能够同时优化延迟和参数数量，从而找到高效的架构。所提出的EfficientFormerV2模型在ImageNet-1K上的Top-1准确率比MobileNetV2和MobileNetV2x1.4高出约4%，且具有相似的延迟和参数量。我们的研究表明，经过合理设计和优化的视觉Transformer可以在与MobileNet相当的尺寸和速度下实现高性能。

更改记录与待办事项

添加EfficientFormerV2模型系列，包括efficientformerv2_s0、efficientformerv2_s1、efficientformerv2_s2和efficientformerv2_l。
发布EfficientFormerV2在ImageNet-1K上的预训练检查点。
更新EfficientFormerV2在下游任务（检测、分割）中的应用。
发布下游任务中的检查点。
增加用于性能分析和部署的工具（我们使用CoreML==5.2和Torch==1.11），示例用法如下：

python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

EfficientFormer
_{以MobileNet速度运行的视觉Transformer}

arXiv | PDF

模型在ImageNet-1K上训练，并使用iPhone 12和CoreMLTools测量延迟。

EfficientFormer：以MobileNet速度运行的视觉Transformer
李彦宇^1,2, 袁根格^1,2, 温洋¹, 胡埃里克¹, 乔治奥斯·埃万杰利迪斯¹,
谢尔盖·图利亚科夫¹, 王延志², 任健¹
¹Snap Inc., ²东北大学

摘要

视觉Transformer（ViT）在计算机视觉任务中取得了快速发展，在各类基准测试中表现出色。然而，由于其庞大的参数量以及注意力机制等模型设计特点，基于ViT的模型通常比轻量级卷积网络慢得多。因此，将ViT部署于实时应用场景尤其具有挑战性，特别是在资源受限的硬件设备上，如移动设备。近年来，研究人员尝试通过网络架构搜索或与MobileNet模块结合的混合设计来降低ViT的计算复杂度，但其推理速度仍不理想。这引发了一个重要问题：Transformer能否在获得高性能的同时，达到与MobileNet相当的速度？为回答这一问题，我们首先回顾了ViT类模型中使用的网络架构和操作符，识别出其中的低效设计。随后，我们提出了一种完全基于Transformer的设计范式（不包含MobileNet模块）。最后，我们通过延迟驱动的精简策略，得到了一系列名为EfficientFormer的最终模型。大量实验表明，EfficientFormer在移动设备上的性能和速度均优于现有方案。我们最快的模型EfficientFormer-L1在ImageNet-1K上达到了79.2%的Top-1准确率，而在iPhone 12上仅需1.6毫秒的推理延迟（使用CoreML编译），速度与MobileNetV2x1.4（1.6毫秒，74.7% Top-1）相当；而最大的模型EfficientFormer-L7则以仅7.0毫秒的延迟获得了83.3%的准确率。我们的工作证明，经过合理设计的Transformer能够在保持高性能的同时，在移动设备上实现极低的延迟。

ImageNet-1K上的分类

模型

模型	Top-1 (300/450)	参数量	MACs	延迟	ckpt	ONNX	CoreML
EfficientFormerV2-S0	75.7 / 76.2	3.5M	0.40B	0.9ms	S0	S0	S0
EfficientFormerV2-S1	79.0 / 79.7	6.1M	0.65B	1.1ms	S1	S1	S1
EfficientFormerV2-S2	81.6 / 82.0	12.6M	1.25B	1.6ms	S2	S2	S2
EfficientFormerV2-L	83.3 / 83.5	26.1M	2.56B	2.7ms	L	L	L

模型	Top-1 准确率	延迟	Pytorch 检查点	CoreML	ONNX
EfficientFormer-L1	79.2 (80.2)	1.6ms	L1-300 (L1-1000)	L1	L1
EfficientFormer-L3	82.4	3.0ms	L3	L3	L3
EfficientFormer-L7	83.3	7.0ms	L7	L7	L7

延迟测量

EfficientFormerV2 在 iPhone 12（iOS 16）上报告的延迟使用了 XCode 14 中的基准测试工具。

对于 EfficientFormerV1，我们使用了 coreml-performance。感谢其出色的延迟测量实现！

提示: 要复现报告的速度，需要 macOS + Xcode 以及一台移动设备（iPhone 12）。

ImageNet

先决条件

建议使用 conda 虚拟环境。

conda install pytorch torchvision cudatoolkit=11.3 -c pytorch
pip install timm
pip install submitit

数据准备

从 http://image-net.org/ 下载并解压 ImageNet 的训练和验证图像。训练数据应放在 train 文件夹中，验证数据应放在 val 文件夹中：

|-- /path/to/imagenet/
    |-- train
    |-- val

单机多 GPU 训练

我们提供了一个使用 PyTorch 分布式数据并行（DDP）的示例训练脚本 dist_train.sh。

要在一台 8-GPU 机器上训练 EfficientFormer-L1：

sh dist_train.sh efficientformer_l1 8

提示：请在脚本中指定您的数据路径和实验名称！

多节点训练

在 Slurm 管理的集群上，可以通过 submitit 启动多节点训练，例如：

sh slurm_train.sh efficientformer_l1

提示：请根据您的资源情况，在脚本中指定每个节点的 GPU/CPU/内存数量！

测试

我们提供了一个使用 PyTorch 分布式数据并行（DDP）的示例测试脚本 dist_test.sh。例如，要在一台 8-GPU 机器上测试 EfficientFormer-L1：

sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

将 EfficientFormer 用作骨干网络

目标检测与实例分割
 语义分割

致谢

分类（ImageNet）代码库部分基于 LeViT 和 PoolFormer 构建。

检测和分割流程来自 MMCV（MMDetection 和 MMSegmentation）。

感谢这些优秀的实现！

引用

如果您在工作中使用了我们的代码或模型，请引用 EfficientFormer（NeurIPS 2022）和 EfficientFormerV2（ICCV 2023）：

@article{li2022efficientformer,
  title={Efficientformer: Vision transformers at mobilenet speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Ju and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={Advances in Neural Information Processing Systems},
  volume={35},
  pages={12934--12949},
  year={2022}
}

@inproceedings{li2022rethinking,
  title={Rethinking Vision Transformers for MobileNet Size and Speed},
  author={Li, Yanyu and Hu, Ju and Wen, Yang and Evangelidis, Georgios and Salahi, Kamyar and Wang, Yanzhi and Tulyakov, Sergey and Ren, Jian},
  booktitle={Proceedings of the IEEE international conference on computer vision},
  year={2023}
}

EfficientFormer 快速上手指南

EfficientFormer 系列模型旨在让 Vision Transformer (ViT) 在移动设备上达到与 MobileNet 相当的推理速度和参数量，同时保持更高的精度。本指南涵盖 EfficientFormerV2 及前代版本的快速部署流程。

1. 环境准备

系统要求

操作系统: Linux (推荐) 或 macOS
Python: 3.8+
GPU: NVIDIA GPU (用于训练和加速推理)，需安装对应版本的 CUDA
移动端部署测试: 如需复现论文中的延迟数据，需配备 iPhone 12 (iOS 16) 及 macOS + XCode 环境。

前置依赖

建议使用 conda 创建虚拟环境以避免依赖冲突。

# 创建并激活虚拟环境
conda create -n efficientformer python=3.8 -y
conda activate efficientformer

# 安装 PyTorch 及相关工具 (根据实际 CUDA 版本调整，此处以 11.3 为例)
# 国内用户推荐使用清华源加速
pip install torch torchvision cudatoolkit=11.3 -c pytorch -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装核心依赖
pip install timm submitit -i https://pypi.tuna.tsinghua.edu.cn/simple

# 若需进行 CoreML 转换或性能分析 (macOS 环境)
pip install coremltools==5.2

2. 安装步骤

本项目主要作为代码库使用，无需执行复杂的 setup.py 安装，克隆仓库即可直接使用。

# 克隆仓库
git clone https://github.com/snap-research/EfficientFormer.git
cd EfficientFormer

# (可选) 如果需要使用检测或分割任务，请确保已安装 MMCV, MMDetection, MMSegmentation
# 参考官方 detection/README.md 和 segmentation/README.md

3. 基本使用

3.1 模型推理与格式转换

项目提供了工具箱 toolbox.py 用于加载预训练权重并进行模型导出（ONNX 或 CoreML）。

示例：将 EfficientFormerV2-L 模型转换为 ONNX 和 CoreML 格式

python toolbox.py --model efficientformerv2_l --ckpt weights/eformer_l_450.pth --onnx --coreml

注意：请确保已下载对应的 .pth 预训练权重文件并放置在 weights/ 目录下。

3.2 ImageNet 分类测试

下载并准备好 ImageNet 数据集，目录结构如下：

|-- /path/to/imagenet/
    |-- train
    |-- val

单机多卡测试示例 (8 张 GPU) 使用提供的脚本对 EfficientFormer-L1 进行测试：

sh dist_test.sh efficientformer_l1 8 weights/efficientformer_l1_300d.pth

提示：使用前请编辑 dist_test.sh 脚本，指定正确的数据路径 (--data-path)。

3.3 模型训练

单机多卡训练示例 (8 张 GPU) 以训练 EfficientFormer-L1 为例：

sh dist_train.sh efficientformer_l1 8

提示：务必在运行前修改 dist_train.sh 中的数据集路径和实验名称配置。

多节点集群训练 (Slurm) 若在使用 Slurm 管理的集群上，可使用 submitit 启动训练：

sh slurm_train.sh efficientformer_l1

提示：请根据集群资源在脚本中调整 GPU/CPU/内存分配参数。

3.4 作为骨干网络使用

EfficientFormer 可轻松集成到下游任务中：

目标检测与实例分割: 参考 detection/README.md (基于 MMDetection)
语义分割: 参考 segmentation/README.md (基于 MMSegmentation)

常见问题

如何修改 EfficientFormerV2 以训练非标准分辨率（如 64x64 或 112x112）的图像？

为什么在 CPU 和 GPU 上，EfficientFormer 的 Patch Embedding（两个 3x3 卷积）比 PoolFormer 的（一个 7x7 卷积）更慢？

为什么我在 iPhone 上测试的 MobileNetV2 延迟与论文中的数据不一致？

EfficientFormer 报告的准确率数据是基于知识蒸馏（Distillation）训练的吗？

如何在 Hugging Face Transformers 库中使用 EfficientFormer 模型？

在 Jetson Nano 等边缘设备上运行 EfficientFormer 的 ONNX 模型时，为什么延迟表现不如预期？

使用 EfficientFormer 进行语义分割时效果不正确，可能是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

使用场景

没有 EfficientFormer 时

使用 EfficientFormer 后

运行环境要求

快速开始

EfficientFormerV2重新思考适用于移动设备尺寸与速度的视觉Transformer

更改记录与待办事项

EfficientFormer以MobileNet速度运行的视觉Transformer

ImageNet-1K上的分类

模型

延迟测量

ImageNet

先决条件

数据准备

单机多 GPU 训练

多节点训练

测试

将 EfficientFormer 用作骨干网络

致谢

引用

EfficientFormer 快速上手指南

1. 环境准备

系统要求

前置依赖

2. 安装步骤

3. 基本使用

3.1 模型推理与格式转换

3.2 ImageNet 分类测试

3.3 模型训练

3.4 作为骨干网络使用

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

EfficientFormerV2
_{重新思考适用于移动设备尺寸与速度的视觉Transformer}

EfficientFormer
_{以MobileNet速度运行的视觉Transformer}