how-do-vits-work

821 77 中等 1 次阅读 1个月前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

how-do-vits-work 是 ICLR 2022 亮点论文《How Do Vision Transformers Work?》的官方 PyTorch 实现，旨在深入解析视觉 Transformer（ViT）中多头自注意力机制（MSA）的真实工作原理。该项目挑战了传统认知，指出 MSA 的成功并非源于其弱归纳偏置或捕捉长距离依赖的能力，而是作为一种“广义空间平滑”操作，与卷积神经网络（CNN）形成互补。

通过代码复现与实验，该工具回答了三个核心问题：首先，MSA 通过平坦化损失景观来优化训练，关键在于其数据特异性而非长程依赖；其次，MSA 表现为低通滤波器（偏向形状），而卷积是高通滤波器（偏向纹理），两者特性截然相反；最后，基于上述发现，项目提出了 AlterNet 架构，通过在神经网络的每个阶段末尾用 MSA 替换卷积，显著提升了模型在大小数据集上的表现。

这一工具非常适合 AI 研究人员和深度学习开发者使用，尤其是那些希望理解 Transformer 底层机制、探索 CNN 与 ViT 融合架构设计的人员。它不仅提供了理论验证的代码基础，更为设计更高效、鲁棒的混合视觉模型提供了明确的设计准则与实践参考。

使用场景

某计算机视觉团队在开发医疗影像诊断模型时，面临小样本数据下卷积神经网络（CNN）泛化能力不足且难以融合 Transformer 优势的困境。

没有 how-do-vits-work 时

盲目堆叠自注意力机制（MSA），误以为其核心优势是捕捉长距离依赖，导致在小数据集上训练损失曲面非凸，模型难以收敛。
将 MSA 简单视为广义卷积进行替换，忽略了两者频域特性的互补性（MSA 为低通、Conv 为高通），造成形状与纹理特征提取失衡。
缺乏明确的架构设计准则，随意在网络各处插入 Transformer 模块，不仅未提升精度，反而增加了计算冗余和调试难度。
面对小样本医疗数据，传统 CNN 容易过拟合纹理噪声，而直接套用标准 ViT 又因归纳偏置太弱导致性能甚至不如纯 CNN。

使用 how-do-vits-work 后

依据论文结论调整优化策略，利用 MSA 平坦化损失曲面的特性而非追求长程依赖，显著改善了小样本下的训练稳定性。
遵循“互补原则”重构网络，利用 MSA 的形状偏置弥补 CNN 的纹理偏置，有效过滤高频噪声并增强对病灶形态的识别。
采纳 AlterNet 架构设计规范，仅在每个计算阶段的末尾用 MSA 替换卷积块，以最小改动实现了超越纯 CNN 和标准 ViT 的诊断准确率。
在小规模医疗影像数据集中，成功 harmonize（协调）了两种机制，既保留了 CNN 的特征变换能力，又发挥了 MSA 的预测聚合优势。

how-do-vits-work 通过揭示自注意力机制的本质属性，指导开发者从“盲目混搭”转向“科学互补”，以极低成本实现了小样本场景下模型性能的突破。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需（支持 CPU 运行），若使用 GPU 推荐 NVIDIA 显卡，README 中提供的 Docker 镜像基于 CUDA 11.1

内存

未说明（建议根据数据集大小配置，ImageNet 训练需较大内存）

依赖

notes项目主要提供基于 Docker 镜像 'pytorch/pytorch:1.9.0-cuda11.1-cudnn8-runtime' 的运行环境。代码包含用于图像分类的 Jupyter Notebook（classification.ipynb），支持在 CIFAR-10/100 和 ImageNet 上训练和测试。预训练模型需手动下载或通过网络加载。Seaborn 为可选依赖。

python未说明（兼容 PyTorch 1.9.0 的版本，通常对应 Python 3.6-3.9）

pytorch

matplotlib

notebook

ipywidgets

timm

einops

tensorboard

seaborn

快速开始

视觉Transformer是如何工作的？

[arxiv, 海报, 幻灯片]

本仓库提供了论文《视觉Transformer是如何工作的？（ICLR 2022 Spotlight）》的PyTorch实现。在该论文中，我们指出多头自注意力机制（MSA）在计算机视觉领域的成功并不在于其弱的归纳偏置和对长距离依赖的捕捉。MSA不仅仅是卷积的泛化形式，更是一种与卷积互补的空间平滑操作。

具体而言，我们探讨了关于MSA和视觉Transformer（ViT）的以下三个关键问题：

Q1. 我们需要MSA的哪些特性来更好地优化神经网络？

A1. MSA有利有弊。MSA通过使损失曲面更加平坦来提升神经网络性能。其关键特性是数据特异性（数据依赖性），而非长距离依赖。另一方面，ViT模型则面临非凸损失的问题。

Q2. MSA是否像卷积一样工作？

A2. MSA和卷积表现出截然相反的行为——例如，MSA是低通滤波器，而卷积则是高通滤波器。这表明MSA偏向于形状信息，而卷积则偏向于纹理信息。因此，MSA和卷积具有互补性。

Q3. 如何将MSA与卷积有机结合？

A3. 在每个阶段的末尾使用MSA（而非在整个模型的末尾）能够显著提升模型精度。基于此，我们提出了AlterNet架构，用MSA替换每个阶段末尾的卷积模块。AlterNet不仅在大数据场景下优于传统CNN，在小数据场景下也同样表现出色。

👇 下面让我们详细了解一下这些问题的答案！

I. MSA有哪些特性有助于优化？

MSA不仅能提升模型精度，还能通过使损失曲面更加平坦（降低Hessian矩阵特征值的幅度）来增强泛化能力。这种改进主要归功于MSA的数据特异性，而非长距离依赖 😱 另一方面，ViT模型却存在非凸损失问题（Hessian矩阵出现负特征值）。在小数据集情况下，其弱的归纳偏置和长距离依赖会导致出现非凸点，从而干扰训练过程。而大规模数据集以及损失曲面平滑方法可以缓解这一问题。

II. MSA是否像卷积一样工作？

MSA和卷积的表现截然相反，因此两者具有互补性。例如，MSA是低通滤波器，而卷积则是高通滤波器。同样地，卷积容易受到高频噪声的影响，而MSA则容易受到低频噪声的影响：这表明MSA偏向于形状信息，而卷积则偏向于纹理信息。此外，卷积负责变换特征图，而MSA则负责聚合这些变换后的特征图预测结果。因此，将MSA置于卷积之后是十分有效的。

III. 如何将MSA与卷积有机结合？

多阶段神经网络可以看作是由多个小型子模型串联而成。此外，每个阶段末尾的MSA（而非整个模型末尾的MSA）在最终预测中起着关键作用。基于这些发现，我们提出了一种将MSA与卷积结合的设计规则：每个网络阶段由若干个卷积块和一个（或几个）MSA块组成。这种设计模式自然引出了经典Transformer的结构——即每个MSA块对应一个MLP块。

根据上述设计规则，我们提出了AlterNet架构（代码链接），用MSA块替换了每个阶段末尾的卷积块。令人惊讶的是，AlterNet不仅在大数据场景下表现优异，在小数据场景下也同样超越了传统CNN，例如在CIFAR数据集上。这与经典的ViT模型形成鲜明对比——后者在小数据量下表现较差。更多细节请参阅下方的“如何将MSA应用到自己的模型中”部分。

那么，为什么视觉Transformer会以这种方式工作呢？我们最近发表的一篇论文《模糊操作如同集成学习：空间平滑技术提升准确率、不确定性与鲁棒性（ICML 2022）》（arXiv链接，代码及摘要 :octocat:，海报）表明，即使是一个简单的（不可训练的）2×2方框模糊滤波器，也具备类似的特性。空间平滑操作可以通过对CNN中空间邻近的特征图进行集成，并使损失曲面更加平坦，从而同时提升准确率、不确定性和鲁棒性；而自注意力机制则可以被视为一种可训练的、加权集成的特征图集合。综上所述，MSA并非单纯的卷积泛化，而是一种与卷积互补的可训练模糊滤波器。欢迎进一步了解！

入门指南

以下软件包是必需的：

PyTorch
Matplotlib
Jupyter Notebook
ipywidgets
timm
einops
TensorBoard
seaborn（可选）

我们主要使用 Docker 镜像 pytorch/pytorch:1.9.0-cuda11.1-cudnn8-runtime 来运行代码。

请参阅 classification.ipynb（Colab 笔记本）进行图像分类实验。运行所有单元格以在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上训练和测试模型。

指标。 我们提供了多种用于衡量准确性和不确定性的指标：准确率（Acc，↑）以及置信度达到 90% 的结果的准确率（Acc-90，↑）、负对数似然（NLL，↓）、期望校准误差（ECE，↓）、交并比（IoU，↑）及置信度达到 90% 的结果的交并比（IoU-90，↑）、不确信度（Unc-90，↑）以及置信度达到 90% 的结果的频率（Freq-90，↑）。我们还定义了一种绘制可靠性图的方法以便于可视化。

模型。 默认情况下，我们提供了 AlexNet、VGG、预激活 VGG、ResNet、预激活 ResNet、ResNeXt、WideResNet、ViT、PiT、Swin、MLP-Mixer 和 Alter-ResNet。也可以使用 timm 提供的实现。

同时也提供了 CIFAR-100 的预训练模型： ResNet-50、ViT-Ti、PiT-Ti 和 Swin-Ti。为了简化操作，我们建议使用 timm 来处理 ImageNet-1K 数据集（例如，请参考 fourier_analysis.ipynb）。

以下代码片段展示了如何 (a) 加载预训练模型以及 (b) 将其转换为模块序列。

# ResNet-50
import models
  
# a. 下载并加载 CIFAR-100 的预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/resnet_50_cifar100_691cc9a9e4.pth.tar"
path = "checkpoints/resnet_50_cifar100_691cc9a9e4.pth.tar"
models.download(url=url, path=path)

name = "resnet_50"
model = models.get_model(name, num_classes=100,  # timm 不提供 CIFAR 的 ResNet
                         stem=model_args.get("stem", False))
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])

# b. 模型 → 模块。`blocks` 是一个模块序列
blocks = [
    model.layer0,
    *model.layer1,
    *model.layer2,
    *model.layer3,
    *model.layer4,
    model.classifier,
]

# ViT-Ti
import copy
import timm
import torch
import torch.nn as nn
import models

# a. 下载并加载 CIFAR-100 的预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/vit_ti_cifar100_9857b21357.pth.tar"
path = "checkpoints/vit_ti_cifar100_9857b21357.pth.tar"
models.download(url=url, path=path)

model = timm.models.vision_transformer.VisionTransformer(
    num_classes=100, img_size=32, patch_size=2,  # 适用于 CIFAR
    embed_dim=192, depth=12, num_heads=3, qkv_bias=False,  # 对应 ViT-Ti 
)
model.name = "vit_ti"
models.stats(model)
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])


# b. 模型 → 模块。`blocks` 是一个模块序列

class PatchEmbed(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = copy.deepcopy(model)
        
    def forward(self, x, **kwargs):
        x = self.model.patch_embed(x)
        cls_token = self.model.cls_token.expand(x.shape[0], -1, -1)
        x = torch.cat((cls_token, x), dim=1)
        x = self.model.pos_drop(x + self.model.pos_embed)
        return x


class Residual(nn.Module):
    def __init__(self, *fn):
        super().__init__()
        self.fn = nn.Sequential(*fn)
        
    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) + x
    
    
class Lambda(nn.Module):
    def __init__(self, fn):
        super().__init__()
        self.fn = fn
        
    def forward(self, x):
        return self.fn(x)


def flatten(xs_list):
    return [x for xs in xs_list for x in xs]


# 模型 → 模块。`blocks` 是一个模块序列
blocks = [
    PatchEmbed(model),
    *flatten([[Residual(b.norm1, b.attn), Residual(b.norm2, b.mlp)] 
              for b in model.blocks]),
    nn.Sequential(model.norm, Lambda(lambda x: x[:, 0]), model.head),
]

# PiT-Ti
import copy
import math
import timm

import torch
import torch.nn as nn

# a. 下载并加载 CIFAR-100 的预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/pit_ti_cifar100_0645889efb.pth.tar"
path = "checkpoints/pit_ti_cifar100_0645889efb.pth.tar"
models.download(url=url, path=path)

model = timm.models.pit.PoolingVisionTransformer(
    num_classes=100, img_size=32, patch_size=2, stride=1,  # 适用于 CIFAR-100
    base_dims=[32, 32, 32], depth=[2, 6, 4], heads=[2, 4, 8], mlp_ratio=4,  # 对应 PiT-Ti
)
model.name = "pit_ti"
models.stats(model)
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])

# b. 模型 → 块。`blocks` 是一系列块

class PatchEmbed(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = copy.deepcopy(model)
        
    def forward(self, x, **kwargs):
        x = self.model.patch_embed(x)
        x = self.model.pos_drop(x + self.model.pos_embed)
        cls_tokens = self.model.cls_token.expand(x.shape[0], -1, -1)

        return (x, cls_tokens)

    
class Concat(nn.Module):
    def __init__(self, model):
        super().__init__()
        self.model = copy.deepcopy(model)
        
    def forward(self, x, **kwargs):
        x, cls_tokens = x
        B, C, H, W = x.shape
        token_length = cls_tokens.shape[1]

        x = x.flatten(2).transpose(1, 2)
        x = torch.cat((cls_tokens, x), dim=1)

        return x
    
    
class Pool(nn.Module):
    def __init__(self, block, token_length):
        super().__init__()
        self.block = copy.deepcopy(block)
        self.token_length = token_length
        
    def forward(self, x, **kwargs):
        cls_tokens = x[:, :self.token_length]
        x = x[:, self.token_length:]
        B, N, C = x.shape
        H, W = int(math.sqrt(N)), int(math.sqrt(N))
        x = x.transpose(1, 2).reshape(B, C, H, W)

        x, cls_tokens = self.block(x, cls_tokens)
        
        return x, cls_tokens
    
    
class Classifier(nn.Module):
    def __init__(self, norm, head):
        super().__init__()
        self.head = copy.deepcopy(head)
        self.norm = copy.deepcopy(norm)
        
    def forward(self, x, **kwargs):
        x = x[:,0]
        x = self.norm(x)
        x = self.head(x)
        return x

    
class Residual(nn.Module):
    def __init__(self, *fn):
        super().__init__()
        self.fn = nn.Sequential(*fn)
        
    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) + x

    
def flatten(xs_list):
    return [x for xs in xs_list for x in xs]


blocks = [
    nn.Sequential(PatchEmbed(model), Concat(model),),
    *flatten([[Residual(b.norm1, b.attn), Residual(b.norm2, b.mlp)] 
              for b in model.transformers[0].blocks]),
    nn.Sequential(Pool(model.transformers[0].pool, 1), Concat(model),),
    *flatten([[Residual(b.norm1, b.attn), Residual(b.norm2, b.mlp)] 
              for b in model.transformers[1].blocks]),
    nn.Sequential(Pool(model.transformers[1].pool, 1), Concat(model),),
    *flatten([[Residual(b.norm1, b.attn), Residual(b.norm2, b.mlp)] 
              for b in model.transformers[2].blocks]),
    Classifier(model.norm, model.head),
]

# Swin-Ti
import copy
import timm
import models

import torch
import torch.nn as nn

# a. 下载并加载用于 CIFAR-100 的预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/swin_ti_cifar100_ec2894492b.pth.tar"
path = "checkpoints/swin_ti_cifar100_ec2894492b.pth.tar"
models.download(url=url, path=path)

model = timm.models.swin_transformer.SwinTransformer(
    num_classes=100, img_size=32, patch_size=1, window_size=4,  # 适用于 CIFAR-100
    embed_dim=96, depths=(2, 2, 6, 2), num_heads=(3, 6, 12, 24), qkv_bias=False,  # 对应 Swin-Ti
)
model.name = "swin_ti"
models.stats(model)
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])


# b. 模型 → 块。`blocks` 是一系列块

class Attn(nn.Module):
    def __init__(self, block):
        super().__init__()
        self.block = copy.deepcopy(block)
        self.block.mlp = nn.Identity()
        self.block.norm2 = nn.Identity()
        
    def forward(self, x, **kwargs):
        x = self.block(x)
        x = x / 2
        
        return x

class MLP(nn.Module):
    def __init__(self, block):
        super().__init__()
        block = copy.deepcopy(block)
        self.mlp = block.mlp
        self.norm2 = block.norm2
        
    def forward(self, x, **kwargs):
        x = x + self.mlp(self.norm2(x))

        return x

    
class Classifier(nn.Module):
    def __init__(self, norm, head):
        super().__init__()
        self.norm = copy.deepcopy(norm)
        self.head = copy.deepcopy(head)
        
    def forward(self, x, **kwargs):
        x = self.norm(x)
        x = x.mean(dim=1)
        x = self.head(x)

        return x

    
def flatten(xs_list):
    return [x for xs in xs_list for x in xs]


blocks = [
    model.patch_embed,
    *flatten([[Attn(block), MLP(block)] for block in model.layers[0].blocks]),
    model.layers[0].downsample,
    *flatten([[Attn(block), MLP(block)] for block in model.layers[1].blocks]),
    model.layers[1].downsample,
    *flatten([[Attn(block), MLP(block)] for block in model.layers[2].blocks]),
    model.layers[2].downsample,
    *flatten([[Attn(block), MLP(block)] for block in model.layers[3].blocks]),
    Classifier(model.norm, model.head)
]

表征的傅里叶分析

请参阅 fourier_analysis.ipynb（Colab 笔记本），通过傅里叶变换的视角分析特征图。运行所有单元格以可视化傅里叶变换后的特征图。傅里叶分析表明，MSA 会降低高频信号，而卷积则会增强高频成分。

测量特征图方差

请参阅 featuremap_variance.ipynb（Colab 笔记本），以测量特征图的方差。运行所有单元格以可视化特征图的方差。特征图方差显示，MSA 会聚合特征图，而卷积和 MLP 则会使其多样化。

可视化损失景观

请参阅 losslandscape.ipynb（Colab 笔记本）或原始仓库，以探索损失景观。运行所有单元格以获得模型在权重空间网格上的预测性能。损失景观可视化显示，ViT 的损失比 ResNet 更平坦。

在损坏数据集上评估鲁棒性

请参阅 robustness.ipynb（Colab 笔记本），以评估对损坏数据集的鲁棒性，例如 CIFAR-10-C 和 CIFAR-100-C。运行所有单元格以获得模型在包含 15 种不同损坏类型、每种类型有 5 个强度等级的数据集上的预测性能。

如何将MSA应用到您自己的模型中

我们发现，MSA是对卷积层的补充（而非替代），并且在每个阶段的末端使用MSA能够显著提升预测性能。基于这些发现，我们提出了以下构建规则：

从基准CNN模型的末尾开始，交替用MSA块替换卷积块。
如果新增的MSA块未能提升预测性能，则将较早阶段末尾的卷积块替换为MSA。
在较晚的阶段中，为MSA块使用更多的注意力头和更高的隐藏维度。

在上方的动画中，我们按照上述构建规则，逐一将ResNet中的卷积层替换为MSA。请注意，c3中的几个MSA反而降低了准确率，而位于c2末尾的MSA却提升了准确率。因此，令人惊讶的是，遵循适当构建规则的MSA模型即使在小数据集场景下（例如CIFAR-100）也能超越传统的CNN模型！

使用L2正则化在增强数据集上研究损失景观与Hessian矩阵

常见的两个错误是：在（1）未考虑L2正则化的情况下，以及在（2）干净数据集上研究损失景观和Hessian矩阵。然而，需要注意的是，神经网络通常是在增强数据集上结合L2正则化进行优化的。因此，更合适的做法是在增强数据集上可视化“NLL + L2”。如果在未使用L2正则化的干净数据集上测量相关指标，将会得到不准确的结果。

引用

如果您觉得本项目有用，请考虑引用论文并给本仓库标星🌟。如有任何意见或反馈，欢迎随时联系Namuk Park（邮箱：namuk.park@gmail.com，Twitter：xxxnell）。

@inproceedings{park2022how,
  title={How Do Vision Transformers Work?},
  author={Namuk Park and Songkuk Kim},
  booktitle={International Conference on Learning Representations},
  year={2022}
}

许可协议

所有代码均以Apache License 2.0许可提供给您。其中，CNN模型基于torchvision提供的模型，而后者采用BSD许可证；ViT模型则基于PyTorch Image Models和Vision Transformer - Pytorch，分别采用Apache 2.0和MIT许可证。

How Do Vision Transformers Work 快速上手指南

本指南基于 how-do-vits-work 开源项目，帮助开发者快速复现论文《How Do Vision Transformers Work?》中的实验，理解多头自注意力（MSA）与卷积（Conv）的互补关系，并运行 AlterNet 等模型。

环境准备

系统要求

操作系统: Linux (推荐) 或 macOS
GPU: 支持 CUDA 的 NVIDIA 显卡（可选，用于加速训练）
Python: 3.7+

前置依赖

项目主要依赖以下 Python 包：

pytorch (核心框架)
matplotlib, seaborn (可视化)
notebook, ipywidgets (Jupyter 支持)
timm (预训练模型库)
einops (张量操作)
tensorboard (训练监控)

提示：作者推荐使用 Docker 镜像 pytorch/pytorch:1.9.0-cuda11.1-cudnn8-runtime 以获得最一致的运行环境。

安装步骤

方案 A：使用 Docker（推荐）

直接拉取官方推荐的镜像，无需手动配置环境：

docker pull pytorch/pytorch:1.9.0-cuda11.1-cudnn8-runtime
docker run --gpus all -it --rm -v $(pwd):/workspace pytorch/pytorch:1.9.0-cuda11.1-cudnn8-runtime bash

进入容器后，安装剩余依赖：

pip install matplotlib notebook ipywidgets timm einops tensorboard seaborn

方案 B：本地 Conda/Pip 安装

如果你偏好本地环境，建议先创建虚拟环境，并使用国内镜像源加速安装：

# 创建虚拟环境
conda create -n vit-work python=3.8 -y
conda activate vit-work

# 安装 PyTorch (根据是否使用 GPU 选择命令，此处以 CUDA 11.1 为例，使用清华源)
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://pypi.tuna.tsinghua.edu.cn/simple

# 安装其他依赖 (使用清华源加速)
pip install matplotlib notebook ipywidgets timm einops tensorboard seaborn -i https://pypi.tuna.tsinghua.edu.cn/simple

获取代码

克隆仓库并进入目录：

git clone https://github.com/xxxnell/how-do-vits-work.git
cd how-do-vits-work

基本使用

本项目主要通过 Jupyter Notebook 进行图像分类实验、损失景观分析及频域分析。

1. 运行图像分类示例

最直接的上手方式是运行 classification.ipynb。该脚本涵盖了在 CIFAR-10, CIFAR-100 和 ImageNet 数据集上训练和测试模型的全流程。

启动 Jupyter Notebook:

jupyter notebook classification.ipynb

或者在 Colab 中直接运行：打开 Colab Notebook

操作步骤:

打开 Notebook 后，依次点击 "Cell" -> "Run All" 执行所有单元格。
代码将自动下载数据、初始化模型（如 ResNet, ViT, AlterNet 等）、训练并评估。
输出指标包括：准确率 (Acc)、负对数似然 (NLL)、期望校准误差 (ECE) 等。

2. 加载预训练模型

项目提供了针对 CIFAR-100 的预训练权重（ResNet-50, ViT-Ti, PiT-Ti, Swin-Ti）。以下是在 Python 脚本中加载 ResNet-50 并转换为块序列（blocks）的示例代码：

import models
import torch

# a. 下载并加载 CIFAR-100 预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/resnet_50_cifar100_691cc9a9e4.pth.tar"
path = "checkpoints/resnet_50_cifar100_691cc9a9e4.pth.tar"
models.download(url=url, path=path)

name = "resnet_50"
model = models.get_model(name, num_classes=100,  # timm does not provide a ResNet for CIFAR
                         stem=model_args.get("stem", False))
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])

# b. 将模型转换为块序列 (blocks)
blocks = [
    model.layer0,
    *model.layer1,
    *model.layer2,
    *model.layer3,
    *model.layer4,
    model.classifier,
]

若需加载 ViT-Ti 模型，可使用以下代码片段：

import copy
import timm
import torch
import torch.nn as nn
import models

# a. 下载并加载 ViT-Ti 预训练模型
url = "https://github.com/xxxnell/how-do-vits-work-storage/releases/download/v0.1/vit_ti_cifar100_9857b21357.pth.tar"
path = "checkpoints/vit_ti_cifar100_9857b21357.pth.tar"
models.download(url=url, path=path)

model = timm.models.vision_transformer.VisionTransformer(
    num_classes=100, img_size=32, patch_size=2,  # for CIFAR
    embed_dim=192, depth=12, num_heads=3, qkv_bias=False,  # for ViT-Ti 
)
model.name = "vit_ti"
models.stats(model)
map_location = "cuda" if torch.cuda.is_available() else "cpu"
checkpoint = torch.load(path, map_location=map_location)
model.load_state_dict(checkpoint["state_dict"])

# ... (后续 blocks 转换逻辑参考原仓库 classification.ipynb 或 README 中的完整代码)

3. 频域分析 (可选)

若要深入分析 MSA 与 Conv 的频域特性（低通/高通滤波行为），可运行：

jupyter notebook fourier_analysis.ipynb

注：对于 ImageNet-1K 的大规模实验，建议直接使用 timm 库加载模型以简化流程。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent