eomt
eomt 是一款荣获 CVPR 2025 高光推荐的开源图像分割模型,其核心理念是“你的 ViT 本质上就是分割模型”。它巧妙地将标准的 Vision Transformer(ViT)直接转化为高效的分割工具,无需额外添加适配器或复杂的解码器结构。
传统图像分割方法往往依赖繁琐的特定任务组件,导致模型臃肿且推理缓慢。eomt 通过极简架构解决了这一痛点:它让 ViT 同时编码图像块和分割查询,在保持与最先进方法相当精度的同时,显著提升了运行速度(例如在 ViT-L 配置下速度可提升 4 倍)。近期更新更增加了对 DINOv3 主干网络的支持,进一步刷新了全景、实例及语义分割的性能基准。
这款工具特别适合计算机视觉领域的研究人员和开发者使用。如果你正在寻求轻量级、高能效的分割方案,或者希望深入探索 Transformer 架构在底层视觉任务中的潜力,eomt 提供了极佳的实践范例。其代码已集成至 Hugging Face Transformers,便于快速调用与实验。凭借“少即是多”的设计哲学,eomt 证明了在处理分割任务时,纯粹的 Transformer 架构足以胜任,为后续研究开辟了更简洁高效的技术路径。
使用场景
某自动驾驶感知团队正在开发实时道路场景分割系统,需要将摄像头采集的视频流精准划分为车道、车辆和行人等区域。
没有 eomt 时
- 架构臃肿复杂:必须搭建包含独立编码器和重型解码器(如 Mask2Former)的复杂流水线,代码维护成本高且难以调试。
- 推理延迟过高:复杂的解码步骤导致处理单帧图像耗时较长,在高分辨率输入下难以满足车载芯片的实时性要求。
- 预训练模型浪费:现有的大规模预训练 ViT 特征无法直接利用,需额外训练大量适配器(Adapters)进行微调,消耗大量算力资源。
- 视频处理瓶颈:若扩展至视频分割,传统方案往往需要引入昂贵的时序模块,导致帧率进一步下降,无法流畅运行。
使用 eomt 后
- 架构极简统一:直接复用纯 ViT 架构,将图像块与分割查询共同作为 Token 处理,移除了所有专用解码器和适配器,代码库大幅精简。
- 推理速度飞跃:得益于极简设计,在同等 ViT-L 骨干网络下,推理速度提升高达 4 倍,轻松实现高分辨率下的实时响应。
- 高效迁移学习:直接利用冻结的大规模预训练 ViT 权重即可达到业界领先的分割精度,显著降低了训练时间和数据需求。
- 无缝扩展视频:基于同一理念衍生的 VidEoMT 可直接处理视频流,比竞品快 10 倍,无需额外复杂的时序建模组件。
eomt 证明了简单的纯 Transformer 架构足以胜任复杂分割任务,让开发者能以最低的计算成本获得最先进的性能表现。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 示例配置:4×NVIDIA H100,单卡显存约 26GB
未说明

快速开始
你的 ViT 其实是个图像分割模型
CVPR 2025 ✨ 亮点 · 📄 论文
Tommie Kerssies1, Niccolò Cavagnero2,*, Alexander Hermans3, Narges Norouzi1, Giuseppe Averta2, Bastian Leibe3, Gijs Dubbelman1, Daan de Geus1,3
¹ 埃因霍温理工大学
² 都灵理工大学
³ 亚琛工业大学
* 在亚琛工业大学访问期间完成的工作
概述
我们提出了 仅编码器掩码 Transformer (EoMT),这是一种极简的图像分割模型,它将普通的 Vision Transformer (ViT) 改造成能够同时将图像块和分割查询编码为标记的架构。无需适配器,也不需要解码器——只需一个 ViT。
借助大规模预训练的 ViT,EoMT 获得了与依赖复杂任务特定组件的最先进方法相当的精度。与此同时,由于其简洁性,它的速度显著更快,例如在使用 ViT-L 时,速度可提升至原来的 4 倍。
事实证明,你的 ViT 其实就是一个图像分割模型。EoMT 表明,架构上的复杂性并非必要。对于分割任务来说,一个普通的 Transformer 就足够了。
🚀 新:PMT
隆重推出我们的最新模型,PMT:用于图像和视频分割的纯掩码 Transformer,采用冻结视觉编码器。
PMT 将 EoMT 的极简理念与保留冻结基础模型特征的需求相结合,通过使用简单快速的解码器来模拟 EoMT 和 VidEoMT 的最后几层。
快来看看吧!点此
🚀 新:VidEoMT
🔥 我们很高兴地推出最新的 CVPR 2026 论文,VidEoMT:你的 ViT 其实也是一个视频分割模型。
VidEoMT 将 EoMT 的理念扩展到时间维度,提出了一种仅编码器的视频分割模型,其速度比竞争对手快高达 10 倍。
快去查看一下吧!点此
🚀 新:DINOv3 支持
🔥 我们很高兴宣布支持 DINOv3 主干网络!基于 DINOv3 的全新 EoMT 模型在所有分割任务中都带来了性能提升:
- 全景分割:使用 EoMT-L 在 1280×1280 分辨率下,在 COCO 数据集上达到 58.9 的 PQ
- 实例分割:使用 EoMT-L 在 1280×1280 分辨率下,在 COCO 数据集上达到 49.9 的 mAP
- 语义分割:使用 EoMT-L 在 512×512 分辨率下,在 ADE20K 数据集上达到 59.5 的 mIoU
这一切,都在 EoMT 出色的速度下实现!
请查看我们的 DINOv3 模型库,了解所有可用的 EoMT 配置及性能基准。
感谢 DINOv3 团队提供的这些强大的基础模型!
🤗 Transformers
搭载 DINOv2 的 EoMT 也已在 Hugging Face Transformers 上发布。可在 这里查看可用模型。
安装
如果你尚未安装 Conda,请先安装 Miniconda 并重启终端:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
然后创建环境、激活并安装依赖项:
conda create -n eomt python==3.13.2
conda activate eomt
python3 -m pip install -r requirements.txt
Weights & Biases(wandb)用于实验记录和可视化。要启用 wandb,请登录你的账号:
wandb login
数据准备
根据你计划使用的数据集,下载以下文件。
你不需要解压任何下载的文件。
只需将它们放置在你选择的目录中,并通过 --data.path 参数指定该路径。
代码会直接读取 .zip 文件。
COCO
wget http://images.cocodataset.org/zips/train2017.zip
wget http://images.cocodataset.org/zips/val2017.zip
wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
wget http://images.cocodataset.org/annotations/panoptic_annotations_trainval2017.zip
ADE20K
wget http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip
wget http://sceneparsing.csail.mit.edu/data/ChallengeData2017/annotations_instance.tar
tar -xf annotations_instance.tar
zip -r -0 annotations_instance.zip annotations_instance/
rm -rf annotations_instance.tar
rm -rf annotations_instance
Cityscapes
wget --keep-session-cookies --save-cookies=cookies.txt --post-data 'username=<your_username>&password=<your_password>&submit=Login' https://www.cityscapes-dataset.com/login/
wget --load-cookies cookies.txt --content-disposition https://www.cityscapes-dataset.com/file-handling/?packageID=1
wget --load-cookies cookies.txt --content-disposition https://www.cityscapes-dataset.com/file-handling/?packageID=3
🔧 请将 <your_username> 和 <your_password> 替换为你实际的 Cityscapes 登录凭证。
使用
训练
要从头开始训练 EoMT,请运行:
python3 main.py fit \
-c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
--trainer.devices 4 \
--data.batch_size 4 \
--data.path /path/to/dataset
此命令将在 COCO 全景分割数据集上,使用 4 张 GPU,以 640×640 的输入尺寸训练 EoMT-L 模型。每张 GPU 处理 4 张图像的批次,总批次大小为 16。将配置路径中的 dinov2 更改为 dinov3,即可启用相应的 DINOv3 模型。
✅ 确保总批次大小为 devices × batch_size = 16
🔧 请将 /path/to/dataset 替换为包含数据集压缩包的目录。
此配置在 4 张 NVIDIA H100 GPU 上大约需要 6 小时,每张 GPU 约占用 26GB 显存。
若要微调预训练的 EoMT 模型,可添加:
--model.ckpt_path /path/to/pytorch_model.bin \
--model.load_ckpt_class_head False
🔧 请将 /path/to/pytorch_model.bin 替换为你要微调的检查点路径。
--model.load_ckpt_class_head False会在对具有不同类别数据集进行微调时跳过分类头的加载。
DINOv3 模型:当使用基于 DINOv3 的配置时,代码默认期望相对 DINOv3 权重的增量权重。若要禁用此行为而使用绝对权重,请添加
--model.delta_weights False。
评估
要评估一个预训练的 EoMT 模型,请运行以下命令:
python3 main.py validate \
-c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
--model.network.masked_attn_enabled False \
--trainer.devices 4 \
--data.batch_size 4 \
--data.path /path/to/dataset \
--model.ckpt_path /path/to/pytorch_model.bin
此命令使用 4 张 GPU,每张 GPU 的批大小为 4,来评估相同的 EoMT-L 模型。
🔧 请将 /path/to/dataset 替换为包含数据集压缩文件的目录。
🔧 请将 /path/to/pytorch_model.bin 替换为要评估的检查点路径。
我们提供了一个 notebook,可用于快速推理和可视化,并自动下载预训练模型。
DINOv3 模型:当使用基于 DINOv3 的配置时,代码默认会期望相对于 DINOv3 权重的增量权重。若要禁用此行为并改用绝对权重,请添加
--model.delta_weights False。
模型库
我们提供了基于 DINOv2 和 DINOv3 的 EoMT 模型的预训练权重。
引用
如果您在研究中使用了本工作,请使用以下 BibTeX 条目进行引用:
@inproceedings{kerssies2025eomt,
author = {Kerssies, Tommie and Cavagnero, Niccol\`{o} and Hermans, Alexander and Norouzi, Narges and Averta, Giuseppe and Leibe, Bastian and Dubbelman, Gijs and {de Geus}, Daan},
title = {{Your ViT is Secretly an Image Segmentation Model}},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2025},
}
致谢
本项目基于以下库和仓库中的代码:
- Hugging Face Transformers(Apache-2.0 许可证)
- PyTorch Image Models (timm)(Apache-2.0 许可证)
- PyTorch Lightning(Apache-2.0 许可证)
- TorchMetrics(Apache-2.0 许可证)
- Mask2Former(Apache-2.0 许可证)
- Detectron2(Apache-2.0 许可证)
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备