ViT-Adapter

1.5k 154 中等 1 次阅读昨天NOASSERTION语言模型图像

AI 解读由 AI 自动生成，仅供参考

ViT-Adapter 是一款专为密集预测任务设计的视觉 Transformer 适配工具，曾荣获 ICLR 2023 Spotlight 殊荣。它主要解决了标准 Vision Transformer（ViT）在处理语义分割、目标检测和实例分割等需要像素级精细输出的任务时，因缺乏局部细节感知和多尺度特征融合能力而表现不佳的难题。

通过引入轻量级的适配器模块，ViT-Adapter 能够在不改变预训练 ViT 主干网络参数的前提下，高效地注入局部性先验并构建多尺度特征金字塔。这种设计不仅保留了大规模预训练模型的强大泛化能力，还显著提升了其在下游密集任务中的性能，甚至在多个权威基准测试中达到了业界领先水平。此外，该方案兼容性极强，支持快速迁移到 DINOv2 等新型基础模型上。

ViT-Adapter 非常适合计算机视觉领域的研究人员和开发者使用，尤其是那些希望利用现有大型 ViT 模型解决具体场景理解问题，或探索高效微调策略的技术团队。借助其提供的开源代码和 Colab 笔记，用户可以轻松复现论文结果或将其集成到自己的检测与分割框架中，快速验证想法并构建高性能应用。

使用场景

某自动驾驶初创公司的算法团队正致力于提升车辆对复杂城市道路环境的感知能力，需要利用视觉模型精准识别车道线、行人及交通标志。

没有 ViT-Adapter 时

细节丢失严重：直接使用原生 Vision Transformer (ViT) 进行密集预测时，由于缺乏卷积归纳偏置，模型难以捕捉图像中的高频细节，导致车道线边缘模糊、小目标（如远处行人）漏检率高。
多尺度适应差：面对城市中远近大小不一的物体，原生 ViT 的特征金字塔构建能力较弱，无法有效融合不同层级的语义信息，造成大物体分割不完整或小物体识别不准。
迁移成本高昂：若想获得高精度结果，往往需要从零开始训练庞大的专用模型，不仅消耗大量 GPU 算力，且调试周期长达数周，严重拖慢迭代速度。

使用 ViT-Adapter 后

恢复精细边界：ViT-Adapter 通过引入轻量级的空间先验模块，成功将局部细节信息注入全局特征，使车道线分割边缘锐利清晰，显著提升了小目标的检测召回率。
强化多尺度特征：该工具自适应地增强了特征金字塔的多尺度表达能力，让模型能同时精准处理近处的大卡车和远处的交通锥，大幅优化了复杂场景下的泛化性能。
高效复用预训练模型：团队可直接加载强大的预训练 ViT 主干网络（如 DINOv2），仅需微调适配器参数即可在 ADE20K 或 Cityscapes 数据集上达到 SOTA 水平，训练时间缩短 70% 以上。

ViT-Adapter 的核心价值在于它架起了通用视觉大模型与高密度预测任务之间的桥梁，让开发者能以极低的成本解锁业界领先的感知精度。

运行环境要求

操作系统

未说明

GPU

未说明（基于 ViT 和密集预测任务特性，通常必需 NVIDIA GPU 以支持 CUDA 加速，具体显存需求取决于模型大小如 ViT-Adapter-L 及任务类型）

内存

未说明

依赖

notesREADME 中未直接列出具体的运行环境配置（如 OS、Python 版本、依赖库列表）。该项目是论文《Vision Transformer Adapter for Dense Predictions》的官方实现，支持语义分割、目标检测等密集预测任务。代码库包含多种 SOTA 检测器和分割器（如 HTC++, Mask2Former, DINO）。文中提到了与 DINOv2、InternViT-6B 等大模型的集成，暗示可能需要较新的深度学习框架支持。建议参考提供的 Colab Notebook 或关联仓库（如 MMDetection/MMSegmentation 生态）获取具体环境配置。

python未说明

未说明

快速开始

ViT-Adapter

这是论文“用于密集预测的视觉Transformer适配器”（arXiv:2205.08534）的官方实现。

论文 | 中文博客 | 幻灯片 | 海报 | 英文视频 | 中文视频

分割Colab笔记本 | 检测Colab笔记本（感谢@IamShubhamGupto、@dudifrid）

新闻

2024/01/19: 使用冻结的InternViT-6B训练ViT-Adapter，详情请见这里!
2023/12/23: 🚀🚀🚀 我们发布了一个拥有60亿参数的基于ViT的视觉基础模型，详情请见这里!
2023/08/31: 🚀🚀 DINOv2发布了基于ViT-g的分割模型，并结合ViT-Adapter，详情请见这里。
2023/07/10: 🚀 支持使用DINOv2的权重进行目标检测，详情请见[detection/configs/mask_rcnn/dinov2/]!
2023/06/26: ViT-Adapter被CVPR 2023自动驾驶挑战赛Track 3（3D占用预测）冠军方案NVOCC采用。
2023/06/07: ViT-Adapter被ONE-PEACE使用，并在ADE20K数据集上创造了63.0 mIoU的新SOTA记录。
2023/04/14: ViT-Adapter被EVA和DINOv2采用！
2023/01/21: 我们的论文被ICLR 2023接受！
2023/01/17: 我们使用ViT-Adapter赢得了WSDM Cup 2023 Toloka VQA Challenge的冠军。
2022/10/20: Zhang等人采用了ViT-Adapter，并在UVO Challenge 2022中获得了第一名。
2022/08/22: ViT-Adapter被BEiT-3采用，在ADE20K数据集上创造了62.8 mIoU的新SOTA记录。
2022/06/09: ViT-Adapter-L在COCO test-dev上实现了60.4 box AP和52.5 mask AP，且未使用Objects365数据。
2022/06/04: 代码和模型正式发布。
2022/05/12: ViT-Adapter-L在Cityscapes测试集上达到了85.2 mIoU，且未使用粗粒度数据。
2022/05/05: ViT-Adapter-L在ADE20K验证集上以60.5 mIoU的成绩刷新了SOTA！

亮点

ViT-Adapter支持多种密集预测任务，包括目标检测、实例分割、语义分割、视觉定位、全景分割等。
该代码库包含许多SOTA检测器和分割器，如HTC++、Mask2Former、DINO，能够实现顶尖性能。

https://user-images.githubusercontent.com/23737120/208140362-f2029060-eb16-4280-b85f-074006547a12.mp4

摘要

本研究提出了一种简单而强大的用于视觉Transformer（ViT）的密集预测任务适配器。与近期通过架构设计引入视觉特定归纳偏置的改进型模型不同，普通的ViT由于先验假设较弱，在密集预测任务上的表现往往欠佳。为了解决这一问题，我们提出了ViT-Adapter，它能够让普通的ViT达到与专门针对视觉任务设计的Transformer相当的性能。具体来说，我们的框架主干是一个普通的ViT，能够从大规模多模态数据中学习到强大的表征。当迁移到下游任务时，无需预训练的适配器会将与图像相关的归纳偏置引入模型，使其更适合这些任务。我们在多个密集预测任务上验证了ViT-Adapter，包括目标检测、实例分割和语义分割。值得注意的是，即使不使用额外的检测数据，我们的ViT-Adapter-L在COCO test-dev上仍取得了60.9 box AP和53.0 mask AP的最先进水平。我们希望ViT-Adapter能够作为视觉专用Transformer的一种替代方案，并促进未来的研究。代码和模型将随后公开。

方法

使用 ViT-Adapter 的优秀竞赛解决方案

第五届 LSVOS 挑战赛：视频实例分割第一名解决方案
张涛、田兴业、周益康、吴岳华、季顺平、闫赐林、王学博、陶欣、张元辉、万鹏飞
[代码]
2023年8月28日

自主无人机配送场景理解竞赛（SUADD'23）第二名解决方案
米科拉·拉夫列纽克、尼维迪塔·鲁弗斯、乌尼克里希南·R·奈尔
[代码]
2023年7月18日

CVPR 2023 自动驾驶挑战赛第三赛道（3D 占用预测）冠军解决方案
FB-OCC：基于前后视图变换的3D占用预测
李志奇、于志东、大卫·奥斯汀、方明生、兰世义、扬·考茨、何塞·M·阿尔瓦雷斯
[代码]
2023年6月26日

PVUW 挑战赛 2023：视频全景分割第三名解决方案
苏金明、杨旺旺、罗俊峰、魏晓林
2023年6月6日

CVPR 2023 野外视频场景解析挑战赛冠军解决方案
通过对比损失和多数据集训练方法对 VSPW 数据集进行语义分割
严敏、宁千雄、王倩
2023年6月3日

CVPR 2023 野外视频场景解析挑战赛第二名
基于多模型集成的可回收半监督方法用于视频场景解析
吴彪、刘绍丽、张殿凯、郑成健、高思、张晓峰、王宁
2023年6月2日

WSDM2023 Toloka VQA 挑战赛冠军解决方案
高圣毅、陈哲、陈国、王文海、陆通
[代码]
2023年1月9日

UVO 挑战赛 2022 第一名解决方案
张佳俊、陈博宇、姬志龙、白金峰、胡宗海
2022年10月9日

引用

如果本工作对您的研究有所帮助，请考虑引用以下 BibTeX 条目。

@article{chen2022vitadapter,
  title={密集预测任务中的视觉Transformer适配器},
  author={陈哲、段雨晨、王文海、何俊俊、陆通、戴继峰、乔宇},
  journal={arXiv 预印本 arXiv:2205.08534},
  year={2022}
}

许可证

本仓库根据 LICENSE 文件中的 Apache 2.0 许可协议发布。

ViT-Adapter 快速上手指南

ViT-Adapter 是一个用于密集预测任务（如目标检测、实例分割、语义分割等）的 Vision Transformer (ViT) 适配器。它能让普通的 ViT backbone 在无需额外预训练的情况下，通过引入图像相关的归纳偏置，达到与专用视觉 Transformer 相媲美的性能。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 18.04+)
Python: 3.7 或更高版本
GPU: 支持 CUDA 的 NVIDIA GPU (建议显存 16GB+ 以运行大模型)
CUDA: 11.0 或更高版本
PyTorch: 1.8.0 或更高版本
MMCV: 1.5.0 或更高版本 (ViT-Adapter 基于 MMDetection 和 MMSegmentation 构建)

前置依赖安装建议： 推荐使用 conda 创建独立环境。国内用户可使用清华源加速包下载。

# 创建虚拟环境
conda create -n vit-adapter python=3.8 -y
conda activate vit-adapter

# 安装 PyTorch (根据实际 CUDA 版本调整，此处以 CUDA 11.3 为例，使用清华源)
pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html

# 安装 MMCV (MMDetection/MMSegmentation 的基础库)
# 注意：需根据 torch 和 cuda 版本选择对应的 mmcv 版本
pip install mmcv-full==1.7.0 -f https://download.openmmlab.com/mmcv/dist/cu113/torch1.12/index.html

安装步骤

ViT-Adapter 代码库依赖于 MMDetection 和 MMSegmentation。请按顺序执行以下命令进行安装。

1. 克隆代码库

git clone https://github.com/czczup/ViT-Adapter.git
cd ViT-Adapter

2. 安装 MMDetection 和 MMSegmentation

本项目通常包含特定的 MM 版本子模块或要求。建议先初始化子模块（如果存在），然后安装依赖。

# 初始化和更新子模块 (如果项目包含 mmdet/mmseg 源码)
git submodule update --init --recursive

# 安装 MMDetection (如果未自动安装)
# 假设子模块路径为 mmdetection，具体视仓库结构而定，若独立安装请参考官方文档
# 此处以直接安装当前仓库依赖为主
pip install -r requirements.txt

# 以可编辑模式安装 ViT-Adapter 及其集成的 MMDet/MMSeg 组件
pip install -v -e .

注意：如果遇到编译错误，请确保已安装 ninja 和 gcc。
apt-get install ninja-build gcc g++

3. 下载预训练模型

您需要下载对应的 ViT 预训练权重（如 BEiT, DINOv2 等）以及 ViT-Adapter 的微调权重。请访问 Model Zoo (原 README 中的链接) 下载模型，并放置在 pretrain/ 或 work_dirs/ 目录下，具体路径需在配置文件中指定。

基本使用

ViT-Adapter 的使用流程与标准的 MMDetection/MMSegmentation 一致。以下分别展示语义分割和目标检测的最简推理示例。

1. 语义分割 (Semantic Segmentation)

假设您已下载好配置文件和权重文件。

单张图片推理：

python demo/image_demo.py \
    demo/demo.jpg \
    configs/segmentation/vit_adapter/upernet_vit_adapter_l_ade20k.py \
    checkpoints/vit_adapter_l_ade20k.pth \
    --device cuda:0 \
    --out-file result.jpg

评估模型 (在验证集上)：

python tools/test.py \
    configs/segmentation/vit_adapter/upernet_vit_adapter_l_ade20k.py \
    checkpoints/vit_adapter_l_ade20k.pth \
    --eval mIoU \
    --gpu-collect

2. 目标检测 (Object Detection)

单张图片推理：

python demo/image_demo.py \
    demo/demo.jpg \
    configs/detection/vit_adapter/faster_rcnn_vit_adapter_l_coco.py \
    checkpoints/vit_adapter_l_coco.pth \
    --device cuda:0 \
    --score-thr 0.3 \
    --out-file result_det.jpg

评估模型：

python tools/test.py \
    configs/detection/vit_adapter/faster_rcnn_vit_adapter_l_coco.py \
    checkpoints/vit_adapter_l_coco.pth \
    --eval bbox segm \
    --gpu-collect

3. 使用 Colab 快速体验

如果您没有本地 GPU 环境，可以直接使用官方提供的 Colab Notebook 进行快速尝试：

分割任务: Segmentation Colab Notebook
检测任务: Detection Colab Notebook

更多高级用法（如训练自定义数据集、混合精度训练等）请参考原仓库的 docs/ 目录及具体配置文件注释。

版本历史

panoptic2023/02/08

wsdm20232023/01/21

v0.3.12022/06/10

0.3.02022/06/09

v0.2.92022/06/05

v0.2.82022/06/05

v0.2.72022/06/04

v0.2.62022/06/04

v0.2.52022/06/03

v0.2.42022/06/03

v0.2.32022/06/03

v0.2.22022/06/03

v0.2.12022/06/03

v0.2.02022/06/03

v0.1.62022/06/01

v0.1.52022/05/31

v0.1.42022/05/31

v0.1.32022/05/31

v0.1.22022/05/30

v0.1.12022/05/30

常见问题

使用 DINOv2 权重进行训练时有什么特殊注意事项？

运行代码时出现 'Cuda is not available' 错误，但 torch.cuda.is_available() 返回 True，如何解决？

遇到 'EncoderDecoderMask2Former is not in the models registry' 或 'No module named ops.modules' 错误怎么办？

输入图像的尺寸有什么要求？小尺寸图像（如 112x112）能否直接使用？

如何进行断点续训（Resume Training）？

预训练权重的图像尺寸（如 224）与当前模型配置的图像尺寸（如 128）不一致，是否可以加载？

分割任务中背景类（像素值 255）是否应该算作一类？测试集缺失某些类别像素值怎么办？

下载的官方模型在本地测试时性能达不到 GitHub 上宣称的效果，原因是什么？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent