awesome-image-classification

3.1k 611 困难 1 次阅读 3天前开发框架图像

AI 解读由 AI 自动生成，仅供参考

awesome-image-classification 是一份精心整理的深度学习图像分类资源清单，收录了自 2014 年以来该领域的重要学术论文与对应代码实现。它主要解决了初学者和研究者在进入计算机视觉领域时面临的痛点：面对海量文献不知从何下手，或缺乏系统性的学习路径指引。通过梳理从经典的 VGG、GoogleNet 到 ResNet、Inception 系列等主流模型的发展脉络，这份清单为用户提供了清晰的技术演进视图。

该项目特别适合深度学习入门者、高校研究人员以及需要快速复现基准模型的开发者使用。对于零基础用户，作者还贴心地给出了建议的学习顺序，帮助其稳步建立知识体系。其独特亮点在于不仅罗列论文，还提供了详细的性能对比表，直观展示各模型在 ImageNet 数据集上的 Top-1 和 Top-5 准确率、发表会议等关键信息，方便用户根据精度需求或模型复杂度进行选型。此外，项目还关联了部分网络的 PyTorch 实现仓库，进一步降低了代码复现的门槛。无论是希望夯实基础的学生，还是寻求最新研究灵感的专家，awesome-image-classification 都是一份极具价值的参考指南。

使用场景

某初创公司的计算机视觉算法工程师小李，正负责为一款新的工业质检系统搭建图像分类基线模型，需要在短时间内复现并对比多种主流网络架构的性能。

没有 awesome-image-classification 时

文献检索效率低下：需要在 Google Scholar、arXiv 和各大会议官网间反复跳转搜索，难以系统性梳理从 VGG 到 Inception 系列的演进脉络。
代码复现门槛高：找到的论文往往缺乏官方开源代码，或实现的框架版本过旧（如仅支持 TensorFlow 1.x），导致环境配置耗时数天且报错频发。
选型依据模糊：缺乏统一的性能对比表格，难以区分哪些模型是追求极致精度（如 Inception-ResNet-v2），哪些是侧重轻量化（如 SqueezeNet），容易选错技术路线。
学习路径混乱：作为深度学习新手，面对海量论文不知从何入手，极易在复杂的数学推导中迷失，忽略了作者推荐的"VGG -> GoogLeNet -> ResNet"最佳入门顺序。

使用 awesome-image-classification 后

资源一站式获取：直接查阅按时间排序的精选列表，快速定位到 2014 年至今的关键论文及其对应的 PyTorch/TensorFlow 实现链接，检索时间从几天缩短至半小时。
复现成功率提升：利用列表中关联的高质量开源代码库（如作者提供的 pytorch-cifar100 实现），迅速跑通基准模型，将精力集中在业务数据适配而非调试基础网络。
科学决策模型架构：参考清晰的 ImageNet Top-1/Top-5 准确率对比表，结合项目对推理速度和精度的双重需求，果断选择适合的预训练模型作为起点。
建立清晰认知体系：遵循仓库作者建议的学习路径，由浅入深理解卷积神经网络设计思想，避免了盲目阅读高难度论文带来的挫败感。

awesome-image-classification 通过整合分散的学术资源与工程代码，将图像分类领域的入门与研发周期大幅压缩，让开发者能专注于核心业务创新而非重复造轮子。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个深度学习图像分类论文和代码的精选列表（Awesome List），本身不是一个可直接运行的单一软件工具。它列出了多种网络架构（如 VGG, ResNet, EfficientNet 等）及其对应的原始论文链接和第三方实现代码（涵盖 PyTorch, TensorFlow, Keras, Caffe, Chainer, MXNet 等多种框架）。具体的运行环境需求取决于用户选择实现的特定模型和所使用的深度学习框架版本。

python未说明

快速开始

令人惊叹 - 图像分类

自2014年以来，深度学习图像分类领域的论文与代码精选列表。受 awesome-object-detection、deep_learning_object_detection 和 awesome-deep-learning-papers 的启发而创建。

背景

我认为，在深入其他计算机视觉领域之前，图像分类是一个非常好的起点，尤其是对于完全不了解深度学习的初学者而言。当我刚开始学习计算机视觉时，犯过许多错误。当时如果有人能告诉我应该从哪篇论文入手就好了。直到现在，似乎还没有一个像 deep_learning_object_detection 那样专门列出图像分类论文的仓库。因此，我决定创建这样一个包含深度学习图像分类论文和代码的仓库，以帮助他人。我个人建议那些对深度学习一无所知的人，可以从 VGG 开始，然后是 GoogLeNet、ResNet，读完这些之后再继续阅读列表中的其他论文，或者转到其他领域。

注：我还维护了一个关于部分图像分类网络的 PyTorch 实现仓库，你可以在这里查看：pytorch-cifar100。

性能表格

为简化起见，我仅列出了各论文在 ImageNet 数据集上取得的最佳 Top-1 和 Top-5 准确率。需要注意的是，即使某个模型的准确率更高，也不一定意味着它就比另一个更好。这是因为有些模型更注重降低模型复杂度而非提升准确率，或者有些论文只提供了单裁剪的结果，而另一些则给出了模型融合或多裁剪的结果。

ConvNet：卷积网络名称
ImageNet Top-1 Acc：该论文在 ImageNet 上取得的最佳 Top-1 准确率
ImageNet Top-5 Acc：该论文在 ImageNet 上取得的最佳 Top-5 准确率
Published In：论文发表的会议或期刊名称

卷积神经网络	ImageNet Top-1准确率	ImageNet Top-5准确率	发表时间
Vgg	76.3	93.2	ICLR2015
GoogleNet	-	93.33	CVPR2015
PReLU-nets	-	95.06	ICCV2015
ResNet	-	96.43	CVPR2015
PreActResNet	79.9	95.2	CVPR2016
Inceptionv3	82.8	96.42	CVPR2016
Inceptionv4	82.3	96.2	AAAI2016
Inception-ResNet-v2	82.4	96.3	AAAI2016
Inceptionv4 + Inception-ResNet-v2	83.5	96.92	AAAI2016
RiR	-	-	ICLR Workshop2016
Stochastic Depth ResNet	78.02	-	ECCV2016
WRN	78.1	94.21	BMVC2016
SqueezeNet	60.4	82.5	arXiv2017(被ICLR2017拒绝)
GeNet	72.13	90.26	ICCV2017
MetaQNN	-	-	ICLR2017
PyramidNet	80.8	95.3	CVPR2017
DenseNet	79.2	94.71	ECCV2017
FractalNet	75.8	92.61	ICLR2017
ResNext	-	96.97	CVPR2017
IGCV1	73.05	91.08	ICCV2017
Residual Attention Network	80.5	95.2	CVPR2017
Xception	79	94.5	CVPR2017
MobileNet	70.6	-	arXiv2017
PolyNet	82.64	96.55	CVPR2017
DPN	79	94.5	NIPS2017
Block-QNN	77.4	93.54	CVPR2018
CRU-Net	79.7	94.7	IJCAI2018
DLA	75.3	-	CVPR2018
ShuffleNet	75.3	-	CVPR2018
CondenseNet	73.8	91.7	CVPR2018
NasNet	82.7	96.2	CVPR2018
MobileNetV2	74.7	-	CVPR2018
IGCV2	70.07	-	CVPR2018
hier	79.7	94.8	ICLR2018
PNasNet	82.9	96.2	ECCV2018
AmoebaNet	83.9	96.6	AAAI2018
SENet	-	97.749	CVPR2018
ShuffleNetV2	81.44	-	ECCV2018
CBAM	79.93	94.41	ECCV2018
IGCV3	72.2	-	BMVC2018
BAM	77.56	93.71	BMVC2018
MnasNet	76.13	92.85	CVPR2018
SKNet	80.60	-	CVPR2019
DARTS	73.3	91.3	ICLR2019
ProxylessNAS	75.1	92.5	ICLR2019
MobileNetV3	75.2	-	CVPR2019
Res2Net	79.2	94.37	PAMI2019
LIP-ResNet	79.33	94.6	ICCV2019
EfficientNet	84.3	97.0	ICML2019
FixResNeXt	86.4	98.0	NIPS2019
BiT	87.5	-	ECCV2020
PSConv + ResNext101	80.502	95.276	ECCV2020
NoisyStudent	88.4	98.7	CVPR2020
RegNet	79.9	-	CVPR2020
GhostNet	75.7	-	CVPR2020
ViT	88.55	-	ICLR2021
DeiT	85.2	-	ICML2021
PVT	81.7	-	ICCV2021
T2T-Vit	83.3	-	ICCV2021
DeepVit	80.9	-	Arvix2021
ViL	83.7	-	ICCV2021
TNT	83.9	-	Arvix2021
CvT	87.7	-	ICCV2021
CViT	84.1	-	ICCV2021
Focal-T	84.0	-	NIPS2021
Twins	83.7	-	NIPS2021
PVTv2	81.7	-	CVM2022

论文与代码

VGG

用于大规模图像识别的超深卷积网络。 卡伦·西蒙尼扬，安德鲁·齐瑟曼

GoogleNet

通过卷积更深入地学习 克里斯蒂安·塞格迪，魏刘，杨青·贾，皮埃尔·塞尔马内，斯科特·里德，德拉戈米尔·安古洛夫，杜米特鲁·埃尔汉，文森特·范胡克，安德鲁·拉比诺维奇

论文：https://arxiv.org/abs/1409.4842
代码：非官方TensorFlow实现：https://github.com/conan7882/GoogLeNet-Inception
代码：非官方Caffe实现：https://github.com/lim0606/caffe-googlenet-bn

PReLU-nets

深入研究修正线性单元：在ImageNet分类任务上超越人类水平的表现 凯明·何，张祥宇，任少卿，孙健

论文：https://arxiv.org/abs/1502.01852
代码：非官方Chainer实现：https://github.com/nutszebra/prelu_net

ResNet

用于图像识别的深度残差学习 凯明·何，张祥宇，任少卿，孙健

PreActResNet

深度残差网络中的恒等映射 凯明·何，张祥宇，任少卿，孙健

Inceptionv3

重新思考计算机视觉中的Inception架构 克里斯蒂安·塞格迪，文森特·范胡克，谢尔盖·伊奥费，乔纳森·施伦斯，兹比格涅夫·沃伊纳

Inceptionv4 && Inception-ResNetv2

Inception-v4、Inception-ResNet以及残差连接对学习的影响 克里斯蒂安·塞格迪，谢尔盖·伊奥费，文森特·范胡克，亚历克斯·阿莱米

RiR

残差网络中的残差网络：泛化残差架构 萨莎·塔格，迪奥戈·阿尔梅达，凯文·莱曼

论文：https://arxiv.org/abs/1603.08029
代码：非官方TensorFlow实现：https://github.com/SunnerLi/RiR-Tensorflow
代码：非官方Chainer实现：https://github.com/nutszebra/resnet_in_resnet

随机深度ResNet

具有随机深度的深度网络 高黄，于孙，庄刘，丹尼尔·塞德拉，基利安·温伯格

WRN

宽残差网络 谢尔盖·扎戈鲁伊科，尼科斯·科莫达基斯

SqueezeNet

SqueezeNet：参数量减少50倍、模型大小小于0.5MB，同时达到AlexNet级别的精度 Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer

GeNet

遗传CNN Lingxi Xie, Alan Yuille

论文：https://arxiv.org/abs/1703.01513
代码：非官方-TensorFlow：https://github.com/aqibsaeed/Genetic-CNN

MetaQNN

利用强化学习设计神经网络架构 Bowen Baker, Otkrist Gupta, Nikhil Naik, Ramesh Raskar

论文：https://arxiv.org/abs/1611.02167
代码：官方：https://github.com/bowenbaker/metaqnn

PyramidNet

深度金字塔残差网络 Dongyoon Han, Jiwhan Kim, Junmo Kim

论文：https://arxiv.org/abs/1610.02915
代码：官方：https://github.com/jhkim89/PyramidNet
代码：非官方-PyTorch：https://github.com/dyhan0920/PyramidNet-PyTorch

DenseNet

密集连接的卷积网络 Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger

论文：https://arxiv.org/abs/1608.06993
代码：官方：https://github.com/liuzhuang13/DenseNet
代码：非官方-Keras：https://github.com/titu1994/DenseNet
代码：非官方-Caffe：https://github.com/shicai/DenseNet-Caffe
代码：非官方-TensorFlow：https://github.com/YixuanLi/densenet-tensorflow
代码：非官方-PyTorch：https://github.com/YixuanLi/densenet-tensorflow
代码：非官方-PyTorch：https://github.com/bamos/densenet.pytorch
代码：非官方-Keras：https://github.com/flyyufelix/DenseNet-Keras

FractalNet

FractalNet：无残差连接的超深层神经网络 Gustav Larsson, Michael Maire, Gregory Shakhnarovich

论文：https://arxiv.org/abs/1605.07648
代码：非官方-Caffe：https://github.com/gustavla/fractalnet
代码：非官方-Keras：https://github.com/snf/keras-fractalnet
代码：非官方-TensorFlow：https://github.com/tensorpro/FractalNet

ResNext

用于深度神经网络的聚合残差变换 Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He

IGCV1

用于深度神经网络的交错分组卷积 Ting Zhang, Guo-Jun Qi, Bin Xiao, Jingdong Wang

论文：https://arxiv.org/abs/1707.02725
代码：官方：https://github.com/hellozting/InterleavedGroupConvolutions

残差注意力网络

用于图像分类的残差注意力网络 Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, Xiaoou Tang

Xception

Xception：基于深度可分离卷积的深度学习 François Chollet

MobileNet

MobileNets：面向移动视觉应用的高效卷积神经网络 Andrew G. Howard、Menglong Zhu、Bo Chen、Dmitry Kalenichenko、Weijun Wang、Tobias Weyand、Marco Andreetto、Hartwig Adam

论文PDF：https://arxiv.org/abs/1704.04861
代码（TensorFlow非官方实现）：https://github.com/Zehaos/MobileNet
代码（Caffe非官方实现）：https://github.com/shicai/MobileNet-Caffe
代码（PyTorch非官方实现）：https://github.com/marvis/pytorch-mobilenet
代码（Keras应用库）：https://github.com/keras-team/keras-applications/blob/master/keras_applications/mobilenet.py

PolyNet

PolyNet：在超深度网络中追求结构多样性 Xingcheng Zhang、Zhizhong Li、Chen Change Loy、Dahua Lin

论文PDF：https://arxiv.org/abs/1611.05725
代码（官方实现）：https://github.com/open-mmlab/polynet

DPN

双路径网络 Yunpeng Chen、Jianan Li、Huaxin Xiao、Xiaojie Jin、Shuicheng Yan、Jiashi Feng

论文PDF：https://arxiv.org/abs/1707.01629
代码（官方实现）：https://github.com/cypw/DPNs
代码（Keras非官方实现）：https://github.com/titu1994/Keras-DualPathNetworks
代码（PyTorch非官方实现）：https://github.com/oyam/pytorch-DPNs
代码（PyTorch非官方实现）：https://github.com/rwightman/pytorch-dpn-pretrained

Block-QNN

实用的分块式神经网络架构生成 Zhao Zhong、Junjie Yan、Wei Wu、Jing Shao、Cheng-Lin Liu

论文PDF：https://arxiv.org/abs/1708.05552

CRU-Net

通过深度神经网络中的集体张量分解共享残差单元 Chen Yunpeng、Jin Xiaojie、Kang Bingyi、Feng Jiashi、Yan Shuicheng

论文PDF：https://arxiv.org/abs/1703.02180
代码（官方实现）：https://github.com/cypw/CRU-Net
代码（MXNet非官方实现）：https://github.com/bruinxiong/Modified-CRUNet-and-Residual-Attention-Network.mxnet

DLA

深度层聚合 Fisher Yu、Dequan Wang、Evan Shelhamer、Trevor Darrell

论文PDF：https://arxiv.org/abs/1707.06484
代码（PyTorch官方实现）：https://github.com/ucbdrive/dla

ShuffleNet

ShuffleNet：一种极其高效的移动端卷积神经网络 Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun

论文PDF：https://arxiv.org/abs/1707.01083
代码（TensorFlow非官方实现）：https://github.com/MG2033/ShuffleNet
代码（PyTorch非官方实现）：https://github.com/jaxony/ShuffleNet
代码（Caffe非官方实现）：https://github.com/farmingyard/ShuffleNet
代码（Keras非官方实现）：https://github.com/scheckmedia/keras-shufflenet

CondenseNet

CondenseNet：一种使用学习型组卷积的高效DenseNet Gao Huang、Shichen Liu、Laurens van der Maaten、Kilian Q. Weinberger

论文PDF：https://arxiv.org/abs/1711.09224
代码（官方实现）：https://github.com/ShichenLiu/CondenseNet
代码（TensorFlow非官方实现）：https://github.com/markdtw/condensenet-tensorflow

NasNet

学习可迁移的架构以实现可扩展的图像识别 Barret Zoph、Vijay Vasudevan、Jonathon Shlens、Quoc V. Le

论文PDF：https://arxiv.org/abs/1707.07012
代码（Keras非官方实现）：https://github.com/titu1994/Keras-NASNet
代码（Keras应用库）：https://github.com/keras-team/keras-applications/blob/master/keras_applications/nasnet.py
代码（PyTorch非官方实现）：https://github.com/wandering007/nasnet-pytorch
代码（TensorFlow非官方实现）：https://github.com/yeephycho/nasnet-tensorflow

MobileNetV2

MobileNetV2：倒置残差与线性瓶颈 Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov、Liang-Chieh Chen

论文PDF：https://arxiv.org/abs/1801.04381
代码（Keras非官方实现）：https://github.com/xiaochus/MobileNetV2
代码（PyTorch非官方实现）：https://github.com/Randl/MobileNetV2-pytorch
代码（TensorFlow非官方实现）：https://github.com/neuleaf/MobileNetV2

IGCV2

IGCV2：交错式结构化稀疏卷积神经网络 Guotian Xie、Jingdong Wang、Ting Zhang、Jianhuang Lai、Richang Hong、Guo-Jun Qi

论文PDF：https://arxiv.org/abs/1804.06202

hier

用于高效架构搜索的层次化表示 Hanxiao Liu、Karen Simonyan、Oriol Vinyals、Chrisantha Fernando、Koray Kavukcuoglu

论文PDF：https://arxiv.org/abs/1711.00436

PNasNet

渐进式神经架构搜索 Chenxi Liu、Barret Zoph、Maxim Neumann、Jonathon Shlens、Wei Hua、Li-Jia Li、Li Fei-Fei、Alan Yuille、Jonathan Huang、Kevin Murphy

论文PDF：https://arxiv.org/abs/1712.00559
代码（TensorFlow-Slim实现）：https://github.com/tensorflow/models/blob/master/research/slim/nets/nasnet/pnasnet.py
代码（PyTorch非官方实现）：https://github.com/chenxi116/PNASNet.pytorch
代码（TensorFlow非官方实现）：https://github.com/chenxi116/PNASNet.TF

AmoebaNet

基于正则化进化的图像分类器架构搜索 Esteban Real、Alok Aggarwal、Yanping Huang、Quoc V Le

论文PDF：https://arxiv.org/abs/1802.01548
代码（TensorFlow TPU实现）：https://github.com/tensorflow/tpu/tree/master/models/official/amoeba_net

SENet

挤压与激励网络 胡杰、沈力、塞缪尔·阿尔巴尼、孙刚、吴恩华

论文：https://arxiv.org/abs/1709.01507
代码：官方：https://github.com/hujie-frank/SENet
代码：非官方-PyTorch：https://github.com/moskomule/senet.pytorch
代码：非官方-TensorFlow：https://github.com/taki0112/SENet-Tensorflow
代码：非官方-Caffe：https://github.com/shicai/SENet-Caffe
代码：非官方-MXNet：https://github.com/bruinxiong/SENet.mxnet

ShuffleNetV2

ShuffleNet V2：高效CNN架构设计的实用指南 马宁宁、张翔宇、郑海涛、孙剑

论文：https://arxiv.org/abs/1807.11164
代码：非官方-PyTorch：https://github.com/Randl/ShuffleNetV2-pytorch
代码：非官方-Keras：https://github.com/opconty/keras-shufflenetV2
代码：非官方-PyTorch：https://github.com/Bugdragon/ShuffleNet_v2_PyTorch
代码：非官方-Caffe2：https://github.com/wolegechu/ShuffleNetV2.Caffe2

CBAM

CBAM：卷积块注意力模块桑贤宇、朴宗灿、李俊英、权仁昭

论文：https://arxiv.org/abs/1807.06521
代码：官方-PyTorch：https://github.com/Jongchan/attention-module
代码：非官方-PyTorch：https://github.com/luuuyi/CBAM.PyTorch
代码：非官方-PyTorch：https://github.com/elbuco1/CBAM
代码：非官方-Keras：https://github.com/kobiso/CBAM-keras

IGCV3

IGCV3：用于高效深度神经网络的交错低秩分组卷积 孙柯、李明杰、刘东、王井东

论文：https://arxiv.org/abs/1806.00178
代码：官方：https://github.com/homles11/IGCV3
代码：非官方-PyTorch：https://github.com/xxradon/IGCV3-pytorch
代码：非官方-TensorFlow：https://github.com/ZHANG-SHI-CHANG/IGCV3

BAM

BAM：瓶颈注意力模块 朴宗灿、桑贤宇、李俊英、权仁昭

论文：https://arxiv.org/abs/1807.06514
代码：官方-PyTorch：https://github.com/Jongchan/attention-module
代码：非官方-TensorFlow：https://github.com/huyz1117/BAM

MNasNet

MnasNet：面向移动设备的平台感知神经架构搜索 谭铭星、陈博、庞若明、瓦苏德万、黎魁

论文：https://arxiv.org/abs/1807.11626
代码：非官方-PyTorch：https://github.com/AnjieZheng/MnasNet-PyTorch
代码：非官方-Caffe：https://github.com/LiJianfei06/MnasNet-caffe
代码：非官方-MXNet：https://github.com/chinakook/Mnasnet.MXNet
代码：非官方-Keras：https://github.com/Shathe/MNasNet-Keras-Tensorflow

SKNet

选择性卷积网络 李翔、王文海、胡晓林、杨健

论文：https://arxiv.org/abs/1903.06586
代码：官方：https://github.com/implus/SKNet

DARTS

DARTS：可微架构搜索 刘瀚霄、卡伦·西蒙扬、杨一鸣

论文：https://arxiv.org/abs/1806.09055
代码：官方：https://github.com/quark0/darts
代码：非官方-PyTorch：https://github.com/khanrc/pt.darts
代码：非官方-TensorFlow：https://github.com/NeroLoh/darts-tensorflow

ProxylessNAS

ProxylessNAS：直接在目标任务和硬件上进行神经架构搜索 蔡汉、朱立耕、韩松

论文：https://arxiv.org/abs/1812.00332
代码：官方：https://github.com/mit-han-lab/ProxylessNAS

MobileNetV3

MobileNetV3的搜索 安德鲁·霍华德、马克·桑德勒、格蕾丝·楚、梁哲·陈、陈博、谭铭星、王伟军、朱玉坤、庞若明、瓦苏德万、黎魁、哈特维格·亚当

论文：https://arxiv.org/abs/1905.02244
代码：非官方-PyTorch：https://github.com/xiaolai-sqlai/mobilenetv3
代码：非官方-PyTorch：https://github.com/kuan-wang/pytorch-mobilenet-v3
代码：非官方-PyTorch：https://github.com/leaderj1001/MobileNetV3-Pytorch
代码：非官方-PyTorch：https://github.com/d-li14/mobilenetv3.pytorch
代码：非官方-Caffe：https://github.com/jixing0415/caffe-mobilenet-v3
代码：非官方-Keras：https://github.com/xiaochus/MobileNetV3

Res2Net

Res2Net：一种新的多尺度骨干网络架构 高尚华、程明明、赵凯、张鑫宇、杨明轩、托尔

论文：https://arxiv.org/abs/1904.01169
代码：非官方-PyTorch：https://github.com/4uiiurz1/pytorch-res2net
代码：非官方-Keras：https://github.com/fupiao1998/res2net-keras
代码：官方-PyTorch：https://github.com/Res2Net

LIP-ResNet

LIP：基于局部重要性的池化 高子腾、王利民、吴刚山

论文：https://arxiv.org/abs/1908.04156
代码：官方-PyTorch：https://github.com/sebgao/LIP

EfficientNet

EfficientNet：重新思考卷积神经网络的模型缩放 Mingxing Tan, Quoc V. Le

FixResNeXt

解决训练与测试分辨率不一致的问题 Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou

BiT

大迁移（BiT）：通用视觉表征学习 Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby

PSConv + ResNext101

PSConv：将特征金字塔压缩进一个紧凑的多尺度卷积层 Duo Li1, Anbang Yao2B, 和 Qifeng Chen1B

pdf：https://arxiv.org/abs/2007.06191
代码：https://github.com/d-li14/PSConv

NoisyStudent

带有噪声的学生自训练提升 ImageNet 分类性能 Qizhe Xie, Minh-Thang Luong, Eduard Hovy, Quoc V. Le

RegNet

设计网络设计空间 Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár

GhostNet

GhostNet：以低成本操作获得更多特征 Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, Chang Xu

pdf：https://arxiv.org/abs/1911.11907
代码：官方 PyTorch 版本：https://github.com/huawei-noah/ghostnet

ViT

一张图胜过 16×16 个词：大规模图像识别中的 Transformer Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

DeiT

数据高效训练的视觉 Transformer 及通过注意力进行蒸馏 Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou

pdf：https://arxiv.org/abs/2012.12877
代码：官方 PyTorch 版本：https://github.com/facebookresearch/deit

PVT

金字塔视觉 Transformer：无需卷积的密集预测通用骨干网络 Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

pdf：https://arxiv.org/abs/2102.12122
代码：官方 PyTorch 版本：https://github.com/whai362/PVT

T2T

Token-to-Token ViT：从头开始在 ImageNet 上训练视觉 Transformer Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan

DeepVit

DeepViT：迈向更深的视觉 Transformer Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Zihang Jiang, Qibin Hou，以及 Jiashi Feng。

pdf：https://arxiv.org/abs/2103.11886
代码：官方 PyTorch 版本：https://github.com/zhoudaquan/dvit_repo

ViL

多尺度视觉 Longformer：一种用于高分辨率图像编码的新视觉 Transformer Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang，以及 Jianfeng Gao

TNT

Transformer in Transformer Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu，以及 Yunhe Wang

pdf：https://arxiv.org/abs/2103.00112
代码：https://github.com/huawei-noah/CV-Backbones

CvT

CvT：将卷积引入视觉 Transformer Haiping Wu, Bin Xiao, Noel Codella，以及 Mengchen Liu、Xiyang Dai、Lu Yuan、Lei Zhang

pdf：https://arxiv.org/abs/2103.15808
代码：https://github.com/microsoft/CvT

CViT

CrossViT：用于图像分类的交叉注意力多尺度视觉 Transformer Chun-Fu (Richard) Chen, Quanfu Fan，以及 Rameswar Panda

pdf：https://arxiv.org/abs/2103.14899
代码：https://github.com/IBM/CrossViT

Focal-T

视觉 Transformer 中用于长距离交互的焦点注意力 Jianwei Yang, Chunyuan Li, Pengchuan Zhang，以及 Xiyang Dai、Bin Xiao、Lu Yuan、Jianfeng Gao

pdf：https://arxiv.org/abs/2107.00641
代码：https://github.com/microsoft/Focal-Transformer

Twins

Twins：重新审视视觉 Transformer 中的空间注意力设计

pdf：https://arxiv.org/abs/2104.13840
代码：https://git.io/Twins

PVTv2

Wenhai Wang, Enze Xie, Xiang Li，以及 Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao

pdf：https://arxiv.org/abs/2106.13797
代码：官方 PyTorch 版本：https://github.com/whai362/PVT

Awesome-Image-Classification 快速上手指南

awesome-image-classification 并非一个可直接安装的单一软件包，而是一个精选的深度学习图像分类论文与代码实现清单。本指南将指导你如何利用该清单中的资源，快速搭建环境并运行经典的图像分类模型（以 ResNet 为例）。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Linux (推荐 Ubuntu 18.04+), macOS, 或 Windows (需配置 WSL2)。
硬件要求：建议使用配备 NVIDIA GPU 的机器以加速训练和推理（CUDA 支持）。
前置依赖：
- Python 3.8 或更高版本
- pip 包管理工具
- Git

安装步骤

由于清单中包含了多种框架（PyTorch, TensorFlow, Keras 等）的实现，以下步骤以目前最主流的 PyTorch 框架为例，演示如何安装依赖并获取代码。

1. 创建虚拟环境（推荐）

python -m venv img_cls_env
source img_cls_env/bin/activate  # Windows 用户请使用: img_cls_env\Scripts\activate

2. 安装 PyTorch

推荐使用国内镜像源（如清华大学开源软件镜像站）加速安装。以下命令安装支持 CUDA 11.8 的稳定版 PyTorch：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

注：若无 NVIDIA GPU，请使用 CPU 版本：pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

3. 获取参考代码

清单中推荐了多个代码库。你可以直接克隆作者提供的 PyTorch 实现仓库，其中包含了 VGG, ResNet, DenseNet 等多种模型的复现代码：

git clone https://github.com/weiaicunzai/pytorch-cifar100.git
cd pytorch-cifar100

同时安装该项目所需的额外依赖：

pip install -r requirements.txt

基本使用

以下示例展示如何使用已安装的 pytorch-cifar100 仓库运行一个经典的 ResNet-18 模型进行简单的推理测试。

1. 加载预定义模型

在项目根目录下，创建一个名为 quick_start.py 的文件，填入以下代码：

import torch
from models.resnet import resnet18
from torchvision import transforms
from PIL import Image

# 1. 初始化模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = resnet18(num_classes=100) # CIFAR-100 有 100 个类别
model.to(device)
model.eval()

# 2. 定义图像预处理流程 (需与训练时保持一致)
transform = transforms.Compose([
    transforms.Resize((32, 32)), # CIFAR 数据集图像大小为 32x32
    transforms.ToTensor(),
    transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
])

# 3. 加载示例图像 (请替换为你本地的图片路径)
# 如果没有图片，可以使用随机张量模拟输入
# image = Image.open("your_image.jpg").convert('RGB')
input_tensor = torch.rand(1, 3, 32, 32).to(device) 

# 4. 执行推理
with torch.no_grad():
    output = model(input_tensor)
    probabilities = torch.nn.functional.softmax(output[0], dim=0)
    
    # 获取预测类别索引
    predicted_class = torch.argmax(probabilities).item()
    confidence = probabilities[predicted_class].item()

print(f"Predicted Class Index: {predicted_class}")
print(f"Confidence: {confidence:.4f}")

2. 运行脚本

在终端执行以下命令运行脚本：

python quick_start.py

若输出类似 Predicted Class Index: 45 和 Confidence: 0.0123，则说明环境配置成功，模型已可正常调用。

提示：若要复现清单中其他论文（如 EfficientNet, ViT 等）的效果，请访问 awesome-image-classification 原文查找对应的论文链接和官方/非官方代码仓库地址，参照上述步骤进行克隆和运行。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架