eomt

575 56 中等 1 次阅读 3天前MIT语言模型图像

AI 解读由 AI 自动生成，仅供参考

eomt 是一款荣获 CVPR 2025 高光推荐的开源图像分割模型，其核心理念是“你的 ViT 本质上就是分割模型”。它巧妙地将标准的 Vision Transformer（ViT）直接转化为高效的分割工具，无需额外添加适配器或复杂的解码器结构。

传统图像分割方法往往依赖繁琐的特定任务组件，导致模型臃肿且推理缓慢。eomt 通过极简架构解决了这一痛点：它让 ViT 同时编码图像块和分割查询，在保持与最先进方法相当精度的同时，显著提升了运行速度（例如在 ViT-L 配置下速度可提升 4 倍）。近期更新更增加了对 DINOv3 主干网络的支持，进一步刷新了全景、实例及语义分割的性能基准。

这款工具特别适合计算机视觉领域的研究人员和开发者使用。如果你正在寻求轻量级、高能效的分割方案，或者希望深入探索 Transformer 架构在底层视觉任务中的潜力，eomt 提供了极佳的实践范例。其代码已集成至 Hugging Face Transformers，便于快速调用与实验。凭借“少即是多”的设计哲学，eomt 证明了在处理分割任务时，纯粹的 Transformer 架构足以胜任，为后续研究开辟了更简洁高效的技术路径。

使用场景

某自动驾驶感知团队正在开发实时道路场景分割系统，需要将摄像头采集的视频流精准划分为车道、车辆和行人等区域。

没有 eomt 时

架构臃肿复杂：必须搭建包含独立编码器和重型解码器（如 Mask2Former）的复杂流水线，代码维护成本高且难以调试。
推理延迟过高：复杂的解码步骤导致处理单帧图像耗时较长，在高分辨率输入下难以满足车载芯片的实时性要求。
预训练模型浪费：现有的大规模预训练 ViT 特征无法直接利用，需额外训练大量适配器（Adapters）进行微调，消耗大量算力资源。
视频处理瓶颈：若扩展至视频分割，传统方案往往需要引入昂贵的时序模块，导致帧率进一步下降，无法流畅运行。

使用 eomt 后

架构极简统一：直接复用纯 ViT 架构，将图像块与分割查询共同作为 Token 处理，移除了所有专用解码器和适配器，代码库大幅精简。
推理速度飞跃：得益于极简设计，在同等 ViT-L 骨干网络下，推理速度提升高达 4 倍，轻松实现高分辨率下的实时响应。
高效迁移学习：直接利用冻结的大规模预训练 ViT 权重即可达到业界领先的分割精度，显著降低了训练时间和数据需求。
无缝扩展视频：基于同一理念衍生的 VidEoMT 可直接处理视频流，比竞品快 10 倍，无需额外复杂的时序建模组件。

eomt 证明了简单的纯 Transformer 架构足以胜任复杂分割任务，让开发者能以最低的计算成本获得最先进的性能表现。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
示例配置：4×NVIDIA H100，单卡显存约 26GB

内存

未说明

依赖

notes1. 官方安装指南仅提供了 Linux (x86_64) 的 Miniconda 下载命令，未明确支持 Windows 或 macOS。 2. 训练示例显示在 4 张 H100 上运行约需 6 小时，单卡显存占用约 26GB。 3. 数据集准备阶段无需解压文件，代码可直接读取 .zip 格式的数据包。 4. 使用 DINOv3 模型时，默认加载相对于 DINOv3 权重的增量权重 (delta weights)，若需使用绝对权重需添加特定参数。 5. 实验日志和可视化依赖 Weights & Biases (wandb)，需登录账号。

python3.13.2

torch

pytorch-lightning

transformers

timm

torchmetrics

wandb

快速开始

你的 ViT 其实是个图像分割模型

CVPR 2025 ✨ 亮点 · 📄 论文

Tommie Kerssies¹, Niccolò Cavagnero^2,*, Alexander Hermans³, Narges Norouzi¹, Giuseppe Averta², Bastian Leibe³, Gijs Dubbelman¹, Daan de Geus^1,3

¹ 埃因霍温理工大学
² 都灵理工大学
³ 亚琛工业大学
* 在亚琛工业大学访问期间完成的工作

概述

我们提出了 仅编码器掩码 Transformer (EoMT)，这是一种极简的图像分割模型，它将普通的 Vision Transformer (ViT) 改造成能够同时将图像块和分割查询编码为标记的架构。无需适配器，也不需要解码器——只需一个 ViT。

借助大规模预训练的 ViT，EoMT 获得了与依赖复杂任务特定组件的最先进方法相当的精度。与此同时，由于其简洁性，它的速度显著更快，例如在使用 ViT-L 时，速度可提升至原来的 4 倍。

事实证明，你的 ViT 其实就是一个图像分割模型。EoMT 表明，架构上的复杂性并非必要。对于分割任务来说，一个普通的 Transformer 就足够了。

🚀 新：PMT

隆重推出我们的最新模型，PMT：用于图像和视频分割的纯掩码 Transformer，采用冻结视觉编码器。

PMT 将 EoMT 的极简理念与保留冻结基础模型特征的需求相结合，通过使用简单快速的解码器来模拟 EoMT 和 VidEoMT 的最后几层。

快来看看吧！点此

🚀 新：VidEoMT

🔥 我们很高兴地推出最新的 CVPR 2026 论文，VidEoMT：你的 ViT 其实也是一个视频分割模型。

VidEoMT 将 EoMT 的理念扩展到时间维度，提出了一种仅编码器的视频分割模型，其速度比竞争对手快高达 10 倍。

快去查看一下吧！点此

🚀 新：DINOv3 支持

🔥 我们很高兴宣布支持 DINOv3 主干网络！基于 DINOv3 的全新 EoMT 模型在所有分割任务中都带来了性能提升：

全景分割：使用 EoMT-L 在 1280×1280 分辨率下，在 COCO 数据集上达到 58.9 的 PQ
实例分割：使用 EoMT-L 在 1280×1280 分辨率下，在 COCO 数据集上达到 49.9 的 mAP
语义分割：使用 EoMT-L 在 512×512 分辨率下，在 ADE20K 数据集上达到 59.5 的 mIoU

这一切，都在 EoMT 出色的速度下实现！

请查看我们的 DINOv3 模型库，了解所有可用的 EoMT 配置及性能基准。

感谢 DINOv3 团队提供的这些强大的基础模型！

🤗 Transformers

搭载 DINOv2 的 EoMT 也已在 Hugging Face Transformers 上发布。可在这里查看可用模型。

安装

如果你尚未安装 Conda，请先安装 Miniconda 并重启终端：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

然后创建环境、激活并安装依赖项：

conda create -n eomt python==3.13.2
conda activate eomt
python3 -m pip install -r requirements.txt

Weights & Biases（wandb）用于实验记录和可视化。要启用 wandb，请登录你的账号：

wandb login

数据准备

根据你计划使用的数据集，下载以下文件。
你不需要解压任何下载的文件。
只需将它们放置在你选择的目录中，并通过 --data.path 参数指定该路径。
代码会直接读取 .zip 文件。

COCO

wget http://images.cocodataset.org/zips/train2017.zip
wget http://images.cocodataset.org/zips/val2017.zip
wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
wget http://images.cocodataset.org/annotations/panoptic_annotations_trainval2017.zip

ADE20K

wget http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip
wget http://sceneparsing.csail.mit.edu/data/ChallengeData2017/annotations_instance.tar
tar -xf annotations_instance.tar
zip -r -0 annotations_instance.zip annotations_instance/
rm -rf annotations_instance.tar
rm -rf annotations_instance

Cityscapes

wget --keep-session-cookies --save-cookies=cookies.txt --post-data 'username=<your_username>&password=<your_password>&submit=Login' https://www.cityscapes-dataset.com/login/
wget --load-cookies cookies.txt --content-disposition https://www.cityscapes-dataset.com/file-handling/?packageID=1
wget --load-cookies cookies.txt --content-disposition https://www.cityscapes-dataset.com/file-handling/?packageID=3

🔧 请将 <your_username> 和 <your_password> 替换为你实际的 Cityscapes 登录凭证。

使用

训练

要从头开始训练 EoMT，请运行：

python3 main.py fit \
  -c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
  --trainer.devices 4 \
  --data.batch_size 4 \
  --data.path /path/to/dataset

此命令将在 COCO 全景分割数据集上，使用 4 张 GPU，以 640×640 的输入尺寸训练 EoMT-L 模型。每张 GPU 处理 4 张图像的批次，总批次大小为 16。将配置路径中的 dinov2 更改为 dinov3，即可启用相应的 DINOv3 模型。

✅ 确保总批次大小为 devices × batch_size = 16
🔧 请将 /path/to/dataset 替换为包含数据集压缩包的目录。

此配置在 4 张 NVIDIA H100 GPU 上大约需要 6 小时，每张 GPU 约占用 26GB 显存。

若要微调预训练的 EoMT 模型，可添加：

  --model.ckpt_path /path/to/pytorch_model.bin \
  --model.load_ckpt_class_head False

🔧 请将 /path/to/pytorch_model.bin 替换为你要微调的检查点路径。

--model.load_ckpt_class_head False 会在对具有不同类别数据集进行微调时跳过分类头的加载。

DINOv3 模型：当使用基于 DINOv3 的配置时，代码默认期望相对 DINOv3 权重的增量权重。若要禁用此行为而使用绝对权重，请添加 --model.delta_weights False。

评估

要评估一个预训练的 EoMT 模型，请运行以下命令：

python3 main.py validate \
  -c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
  --model.network.masked_attn_enabled False \
  --trainer.devices 4 \
  --data.batch_size 4 \
  --data.path /path/to/dataset \
  --model.ckpt_path /path/to/pytorch_model.bin

此命令使用 4 张 GPU，每张 GPU 的批大小为 4，来评估相同的 EoMT-L 模型。

🔧 请将 /path/to/dataset 替换为包含数据集压缩文件的目录。
🔧 请将 /path/to/pytorch_model.bin 替换为要评估的检查点路径。

我们提供了一个 notebook，可用于快速推理和可视化，并自动下载预训练模型。

DINOv3 模型：当使用基于 DINOv3 的配置时，代码默认会期望相对于 DINOv3 权重的增量权重。若要禁用此行为并改用绝对权重，请添加 --model.delta_weights False。

模型库

我们提供了基于 DINOv2 和 DINOv3 的 EoMT 模型的预训练权重。

DINOv2 模型 - 原始发表的结果及预训练权重。
DINOv3 模型 - 新的基于 DINOv3 的模型及预训练权重。

引用

如果您在研究中使用了本工作，请使用以下 BibTeX 条目进行引用：

@inproceedings{kerssies2025eomt,
  author    = {Kerssies, Tommie and Cavagnero, Niccol\`{o} and Hermans, Alexander and Norouzi, Narges and Averta, Giuseppe and Leibe, Bastian and Dubbelman, Gijs and {de Geus}, Daan},
  title     = {{Your ViT is Secretly an Image Segmentation Model}},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year      = {2025},
}

致谢

本项目基于以下库和仓库中的代码：

Hugging Face Transformers（Apache-2.0 许可证）
PyTorch Image Models (timm)（Apache-2.0 许可证）
PyTorch Lightning（Apache-2.0 许可证）
TorchMetrics（Apache-2.0 许可证）
Mask2Former（Apache-2.0 许可证）
Detectron2（Apache-2.0 许可证）

EoMT 快速上手指南

EoMT (Encoder-only Mask Transformer) 是一个极简的图像分割模型，它直接将预训练的 Vision Transformer (ViT) 复用为分割模型，无需额外的适配器或解码器。该模型在保持与最先进方法相当精度的同时，显著提升了推理速度（例如 ViT-L 版本快达 4 倍）。

环境准备

操作系统: Linux (推荐)
Python: 3.13.2 (官方推荐版本)
硬件: NVIDIA GPU (训练示例需多卡，如 4×H100；推理可根据模型大小调整)
依赖管理: Conda (Miniconda 或 Anaconda)
可选: Weights & Biases (wandb) 账号用于实验日志记录

安装步骤

1. 安装 Conda (如未安装)

如果系统中没有 Conda，请先安装 Miniconda：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

安装完成后请重启终端。

2. 创建并激活环境

创建名为 eomt 的虚拟环境并安装依赖：

conda create -n eomt python==3.13.2
conda activate eomt
python3 -m pip install -r requirements.txt

提示: 国内用户若下载依赖较慢，可添加清华或阿里镜像源： python3 -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 配置实验日志 (可选)

如需使用 WandB 记录训练过程：

wandb login

基本使用

1. 数据准备

下载数据集（以 COCO 为例），无需解压，代码可直接读取 .zip 文件。将文件存放在同一目录下。

# 示例：下载 COCO 数据集
wget http://images.cocodataset.org/zips/train2017.zip
wget http://images.cocodataset.org/zips/val2017.zip
wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
wget http://images.cocodataset.org/annotations/panoptic_annotations_trainval2017.zip

注：ADE20K 和 Cityscapes 数据集请下载对应文件并放在同一目录。

2. 模型训练

以下命令使用 4 张 GPU 从头训练 EoMT-L 模型（输入分辨率 640×640），基于 DINOv2 backbone 进行 COCO 全景分割任务。

python3 main.py fit \
  -c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
  --trainer.devices 4 \
  --data.batch_size 4 \
  --data.path /path/to/dataset

参数说明:
- /path/to/dataset: 替换为存放上述 zip 文件的目录路径。
- 总 Batch Size = devices × batch_size (示例中为 16)。
- 若要使用 DINOv3 模型，请将配置路径中的 dinov2 改为 dinov3。
- 若使用 DINOv3 且希望加载绝对权重而非增量权重，请添加 --model.delta_weights False。

3. 模型评估

使用预训练权重进行评估：

python3 main.py validate \
  -c configs/dinov2/coco/panoptic/eomt_large_640.yaml \
  --model.network.masked_attn_enabled False \
  --trainer.devices 4 \
  --data.batch_size 4 \
  --data.path /path/to/dataset \
  --model.ckpt_path /path/to/pytorch_model.bin

参数说明:
- /path/to/pytorch_model.bin: 替换为预训练模型权重文件的路径。
- --model.network.masked_attn_enabled False: 评估时通常关闭掩码注意力以加速。

4. 快速推理 (可选)

项目提供了一个 Jupyter Notebook 用于快速测试和可视化，会自动下载预训练模型：

# 启动 Jupyter 后打开 inference.ipynb
jupyter notebook inference.ipynb

常见问题

如何保存名为 pytorch_model.bin 的模型权重文件？

验证过程中出现 CUDA 显存不足（OOM）错误怎么办？

为什么无法复现论文中声称的 128 FPS 推理速度？

遇到 'AttributeError: module 'numpy' has no attribute 'NPY_OWNDATA'' 错误如何解决？

使用自定义数据集微调时训练损失不下降怎么办？

如何将 EoMT 模型部署到 Hugging Face Hub？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent