awesome-image-classification
awesome-image-classification 是一份精心整理的深度学习图像分类资源清单,收录了自 2014 年以来该领域的重要学术论文与对应代码实现。它主要解决了初学者和研究者在进入计算机视觉领域时面临的痛点:面对海量文献不知从何下手,或缺乏系统性的学习路径指引。通过梳理从经典的 VGG、GoogleNet 到 ResNet、Inception 系列等主流模型的发展脉络,这份清单为用户提供了清晰的技术演进视图。
该项目特别适合深度学习入门者、高校研究人员以及需要快速复现基准模型的开发者使用。对于零基础用户,作者还贴心地给出了建议的学习顺序,帮助其稳步建立知识体系。其独特亮点在于不仅罗列论文,还提供了详细的性能对比表,直观展示各模型在 ImageNet 数据集上的 Top-1 和 Top-5 准确率、发表会议等关键信息,方便用户根据精度需求或模型复杂度进行选型。此外,项目还关联了部分网络的 PyTorch 实现仓库,进一步降低了代码复现的门槛。无论是希望夯实基础的学生,还是寻求最新研究灵感的专家,awesome-image-classification 都是一份极具价值的参考指南。
使用场景
某初创公司的计算机视觉算法工程师小李,正负责为一款新的工业质检系统搭建图像分类基线模型,需要在短时间内复现并对比多种主流网络架构的性能。
没有 awesome-image-classification 时
- 文献检索效率低下:需要在 Google Scholar、arXiv 和各大会议官网间反复跳转搜索,难以系统性梳理从 VGG 到 Inception 系列的演进脉络。
- 代码复现门槛高:找到的论文往往缺乏官方开源代码,或实现的框架版本过旧(如仅支持 TensorFlow 1.x),导致环境配置耗时数天且报错频发。
- 选型依据模糊:缺乏统一的性能对比表格,难以区分哪些模型是追求极致精度(如 Inception-ResNet-v2),哪些是侧重轻量化(如 SqueezeNet),容易选错技术路线。
- 学习路径混乱:作为深度学习新手,面对海量论文不知从何入手,极易在复杂的数学推导中迷失,忽略了作者推荐的"VGG -> GoogLeNet -> ResNet"最佳入门顺序。
使用 awesome-image-classification 后
- 资源一站式获取:直接查阅按时间排序的精选列表,快速定位到 2014 年至今的关键论文及其对应的 PyTorch/TensorFlow 实现链接,检索时间从几天缩短至半小时。
- 复现成功率提升:利用列表中关联的高质量开源代码库(如作者提供的 pytorch-cifar100 实现),迅速跑通基准模型,将精力集中在业务数据适配而非调试基础网络。
- 科学决策模型架构:参考清晰的 ImageNet Top-1/Top-5 准确率对比表,结合项目对推理速度和精度的双重需求,果断选择适合的预训练模型作为起点。
- 建立清晰认知体系:遵循仓库作者建议的学习路径,由浅入深理解卷积神经网络设计思想,避免了盲目阅读高难度论文带来的挫败感。
awesome-image-classification 通过整合分散的学术资源与工程代码,将图像分类领域的入门与研发周期大幅压缩,让开发者能专注于核心业务创新而非重复造轮子。
运行环境要求
未说明
未说明

快速开始
令人惊叹 - 图像分类
自2014年以来,深度学习图像分类领域的论文与代码精选列表。受 awesome-object-detection、deep_learning_object_detection 和 awesome-deep-learning-papers 的启发而创建。
背景
我认为,在深入其他计算机视觉领域之前,图像分类是一个非常好的起点,尤其是对于完全不了解深度学习的初学者而言。当我刚开始学习计算机视觉时,犯过许多错误。当时如果有人能告诉我应该从哪篇论文入手就好了。直到现在,似乎还没有一个像 deep_learning_object_detection 那样专门列出图像分类论文的仓库。因此,我决定创建这样一个包含深度学习图像分类论文和代码的仓库,以帮助他人。我个人建议那些对深度学习一无所知的人,可以从 VGG 开始,然后是 GoogLeNet、ResNet,读完这些之后再继续阅读列表中的其他论文,或者转到其他领域。
注:我还维护了一个关于部分图像分类网络的 PyTorch 实现仓库,你可以在这里查看:pytorch-cifar100。
性能表格
为简化起见,我仅列出了各论文在 ImageNet 数据集上取得的最佳 Top-1 和 Top-5 准确率。需要注意的是,即使某个模型的准确率更高,也不一定意味着它就比另一个更好。这是因为有些模型更注重降低模型复杂度而非提升准确率,或者有些论文只提供了单裁剪的结果,而另一些则给出了模型融合或多裁剪的结果。
- ConvNet:卷积网络名称
- ImageNet Top-1 Acc:该论文在 ImageNet 上取得的最佳 Top-1 准确率
- ImageNet Top-5 Acc:该论文在 ImageNet 上取得的最佳 Top-5 准确率
- Published In:论文发表的会议或期刊名称
| 卷积神经网络 | ImageNet Top-1准确率 | ImageNet Top-5准确率 | 发表时间 |
|---|---|---|---|
| Vgg | 76.3 | 93.2 | ICLR2015 |
| GoogleNet | - | 93.33 | CVPR2015 |
| PReLU-nets | - | 95.06 | ICCV2015 |
| ResNet | - | 96.43 | CVPR2015 |
| PreActResNet | 79.9 | 95.2 | CVPR2016 |
| Inceptionv3 | 82.8 | 96.42 | CVPR2016 |
| Inceptionv4 | 82.3 | 96.2 | AAAI2016 |
| Inception-ResNet-v2 | 82.4 | 96.3 | AAAI2016 |
| Inceptionv4 + Inception-ResNet-v2 | 83.5 | 96.92 | AAAI2016 |
| RiR | - | - | ICLR Workshop2016 |
| Stochastic Depth ResNet | 78.02 | - | ECCV2016 |
| WRN | 78.1 | 94.21 | BMVC2016 |
| SqueezeNet | 60.4 | 82.5 | arXiv2017(被ICLR2017拒绝) |
| GeNet | 72.13 | 90.26 | ICCV2017 |
| MetaQNN | - | - | ICLR2017 |
| PyramidNet | 80.8 | 95.3 | CVPR2017 |
| DenseNet | 79.2 | 94.71 | ECCV2017 |
| FractalNet | 75.8 | 92.61 | ICLR2017 |
| ResNext | - | 96.97 | CVPR2017 |
| IGCV1 | 73.05 | 91.08 | ICCV2017 |
| Residual Attention Network | 80.5 | 95.2 | CVPR2017 |
| Xception | 79 | 94.5 | CVPR2017 |
| MobileNet | 70.6 | - | arXiv2017 |
| PolyNet | 82.64 | 96.55 | CVPR2017 |
| DPN | 79 | 94.5 | NIPS2017 |
| Block-QNN | 77.4 | 93.54 | CVPR2018 |
| CRU-Net | 79.7 | 94.7 | IJCAI2018 |
| DLA | 75.3 | - | CVPR2018 |
| ShuffleNet | 75.3 | - | CVPR2018 |
| CondenseNet | 73.8 | 91.7 | CVPR2018 |
| NasNet | 82.7 | 96.2 | CVPR2018 |
| MobileNetV2 | 74.7 | - | CVPR2018 |
| IGCV2 | 70.07 | - | CVPR2018 |
| hier | 79.7 | 94.8 | ICLR2018 |
| PNasNet | 82.9 | 96.2 | ECCV2018 |
| AmoebaNet | 83.9 | 96.6 | AAAI2018 |
| SENet | - | 97.749 | CVPR2018 |
| ShuffleNetV2 | 81.44 | - | ECCV2018 |
| CBAM | 79.93 | 94.41 | ECCV2018 |
| IGCV3 | 72.2 | - | BMVC2018 |
| BAM | 77.56 | 93.71 | BMVC2018 |
| MnasNet | 76.13 | 92.85 | CVPR2018 |
| SKNet | 80.60 | - | CVPR2019 |
| DARTS | 73.3 | 91.3 | ICLR2019 |
| ProxylessNAS | 75.1 | 92.5 | ICLR2019 |
| MobileNetV3 | 75.2 | - | CVPR2019 |
| Res2Net | 79.2 | 94.37 | PAMI2019 |
| LIP-ResNet | 79.33 | 94.6 | ICCV2019 |
| EfficientNet | 84.3 | 97.0 | ICML2019 |
| FixResNeXt | 86.4 | 98.0 | NIPS2019 |
| BiT | 87.5 | - | ECCV2020 |
| PSConv + ResNext101 | 80.502 | 95.276 | ECCV2020 |
| NoisyStudent | 88.4 | 98.7 | CVPR2020 |
| RegNet | 79.9 | - | CVPR2020 |
| GhostNet | 75.7 | - | CVPR2020 |
| ViT | 88.55 | - | ICLR2021 |
| DeiT | 85.2 | - | ICML2021 |
| PVT | 81.7 | - | ICCV2021 |
| T2T-Vit | 83.3 | - | ICCV2021 |
| DeepVit | 80.9 | - | Arvix2021 |
| ViL | 83.7 | - | ICCV2021 |
| TNT | 83.9 | - | Arvix2021 |
| CvT | 87.7 | - | ICCV2021 |
| CViT | 84.1 | - | ICCV2021 |
| Focal-T | 84.0 | - | NIPS2021 |
| Twins | 83.7 | - | NIPS2021 |
| PVTv2 | 81.7 | - | CVM2022 |
论文与代码
VGG
用于大规模图像识别的超深卷积网络。 卡伦·西蒙尼扬,安德鲁·齐瑟曼
- 论文:https://arxiv.org/abs/1409.1556
- 代码:torchvision:https://github.com/pytorch/vision/blob/master/torchvision/models/vgg.py
- 代码:keras-applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/vgg16.py
- 代码:keras-applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/vgg19.py
GoogleNet
通过卷积更深入地学习 克里斯蒂安·塞格迪,魏刘,杨青·贾,皮埃尔·塞尔马内,斯科特·里德,德拉戈米尔·安古洛夫,杜米特鲁·埃尔汉,文森特·范胡克,安德鲁·拉比诺维奇
- 论文:https://arxiv.org/abs/1409.4842
- 代码:非官方TensorFlow实现:https://github.com/conan7882/GoogLeNet-Inception
- 代码:非官方Caffe实现:https://github.com/lim0606/caffe-googlenet-bn
PReLU-nets
深入研究修正线性单元:在ImageNet分类任务上超越人类水平的表现 凯明·何,张祥宇,任少卿,孙健
ResNet
用于图像识别的深度残差学习 凯明·何,张祥宇,任少卿,孙健
- 论文:https://arxiv.org/abs/1512.03385
- 代码:Facebook Torch实现:https://github.com/facebook/fb.resnet.torch
- 代码:torchvision:https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py
- 代码:keras-applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/resnet.py
- 代码:非官方Keras实现:https://github.com/raghakot/keras-resnet
- 代码:非官方TensorFlow实现:https://github.com/ry/tensorflow-resnet
PreActResNet
深度残差网络中的恒等映射 凯明·何,张祥宇,任少卿,孙健
- 论文:https://arxiv.org/abs/1603.05027
- 代码:Facebook Torch实现:https://github.com/facebook/fb.resnet.torch/blob/master/models/preresnet.lua
- 代码:官方实现:https://github.com/KaimingHe/resnet-1k-layers
- 代码:非官方PyTorch实现:https://github.com/kuangliu/pytorch-cifar/blob/master/models/preact_resnet.py
- 代码:非官方MXNet实现:https://github.com/tornadomeet/ResNet
Inceptionv3
重新思考计算机视觉中的Inception架构 克里斯蒂安·塞格迪,文森特·范胡克,谢尔盖·伊奥费,乔纳森·施伦斯,兹比格涅夫·沃伊纳
- 论文:https://arxiv.org/abs/1512.00567
- 代码:torchvision:https://github.com/pytorch/vision/blob/master/torchvision/models/inception.py
- 代码:keras-applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/inception_v3.py
Inceptionv4 && Inception-ResNetv2
Inception-v4、Inception-ResNet以及残差连接对学习的影响 克里斯蒂安·塞格迪,谢尔盖·伊奥费,文森特·范胡克,亚历克斯·阿莱米
- 论文:https://arxiv.org/abs/1602.07261
- 代码:非官方Keras实现:https://github.com/kentsommer/keras-inceptionV4
- 代码:非官方Keras实现:https://github.com/titu1994/Inception-v4
- 代码:非官方Keras实现:https://github.com/yuyang-huang/keras-inception-resnet-v2
RiR
残差网络中的残差网络:泛化残差架构 萨莎·塔格,迪奥戈·阿尔梅达,凯文·莱曼
- 论文:https://arxiv.org/abs/1603.08029
- 代码:非官方TensorFlow实现:https://github.com/SunnerLi/RiR-Tensorflow
- 代码:非官方Chainer实现:https://github.com/nutszebra/resnet_in_resnet
随机深度ResNet
具有随机深度的深度网络 高黄,于孙,庄刘,丹尼尔·塞德拉,基利安·温伯格
- 论文:https://arxiv.org/abs/1603.09382
- 代码:非官方Torch实现:https://github.com/yueatsprograms/Stochastic_Depth
- 代码:非官方Chainer实现:https://github.com/yasunorikudo/chainer-ResDrop
- 代码:非官方Keras实现:https://github.com/dblN/stochastic_depth_keras
WRN
宽残差网络 谢尔盖·扎戈鲁伊科,尼科斯·科莫达基斯
- 论文:https://arxiv.org/abs/1605.07146
- 代码:官方实现:https://github.com/szagoruyko/wide-residual-networks
- 代码:非官方PyTorch实现:https://github.com/xternalz/WideResNet-pytorch
- 代码:非官方Keras实现:https://github.com/asmith26/wide_resnets_keras
- 代码:非官方PyTorch实现:https://github.com/meliketoy/wide-resnet.pytorch
SqueezeNet
SqueezeNet:参数量减少50倍、模型大小小于0.5MB,同时达到AlexNet级别的精度 Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer
- 论文:https://arxiv.org/abs/1602.07360
- 代码:torchvision:https://github.com/pytorch/vision/blob/master/torchvision/models/squeezenet.py
- 代码:非官方-Caffe:https://github.com/DeepScale/SqueezeNet
- 代码:非官方-Keras:https://github.com/rcmalli/keras-squeezenet
- 代码:非官方-Caffe:https://github.com/songhan/SqueezeNet-Residual
GeNet
遗传CNN Lingxi Xie, Alan Yuille
MetaQNN
利用强化学习设计神经网络架构 Bowen Baker, Otkrist Gupta, Nikhil Naik, Ramesh Raskar
PyramidNet
深度金字塔残差网络 Dongyoon Han, Jiwhan Kim, Junmo Kim
- 论文:https://arxiv.org/abs/1610.02915
- 代码:官方:https://github.com/jhkim89/PyramidNet
- 代码:非官方-PyTorch:https://github.com/dyhan0920/PyramidNet-PyTorch
DenseNet
密集连接的卷积网络 Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger
- 论文:https://arxiv.org/abs/1608.06993
- 代码:官方:https://github.com/liuzhuang13/DenseNet
- 代码:非官方-Keras:https://github.com/titu1994/DenseNet
- 代码:非官方-Caffe:https://github.com/shicai/DenseNet-Caffe
- 代码:非官方-TensorFlow:https://github.com/YixuanLi/densenet-tensorflow
- 代码:非官方-PyTorch:https://github.com/YixuanLi/densenet-tensorflow
- 代码:非官方-PyTorch:https://github.com/bamos/densenet.pytorch
- 代码:非官方-Keras:https://github.com/flyyufelix/DenseNet-Keras
FractalNet
FractalNet:无残差连接的超深层神经网络 Gustav Larsson, Michael Maire, Gregory Shakhnarovich
- 论文:https://arxiv.org/abs/1605.07648
- 代码:非官方-Caffe:https://github.com/gustavla/fractalnet
- 代码:非官方-Keras:https://github.com/snf/keras-fractalnet
- 代码:非官方-TensorFlow:https://github.com/tensorpro/FractalNet
ResNext
用于深度神经网络的聚合残差变换 Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He
- 论文:https://arxiv.org/abs/1611.05431
- 代码:官方:https://github.com/facebookresearch/ResNeXt
- 代码:Keras Applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/resnext.py
- 代码:非官方-PyTorch:https://github.com/prlz77/ResNeXt.pytorch
- 代码:非官方-Keras:https://github.com/titu1994/Keras-ResNeXt
- 代码:非官方-TensorFlow:https://github.com/taki0112/ResNeXt-Tensorflow
- 代码:非官方-TensorFlow:https://github.com/wenxinxu/ResNeXt-in-tensorflow
IGCV1
用于深度神经网络的交错分组卷积 Ting Zhang, Guo-Jun Qi, Bin Xiao, Jingdong Wang
- 论文:https://arxiv.org/abs/1707.02725
- 代码:官方:https://github.com/hellozting/InterleavedGroupConvolutions
残差注意力网络
用于图像分类的残差注意力网络 Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, Xiaoou Tang
- 论文:https://arxiv.org/abs/1704.06904
- 代码:官方:https://github.com/fwang91/residual-attention-network
- 代码:非官方-PyTorch:https://github.com/tengshaofeng/ResidualAttentionNetwork-pytorch
- 代码:非官方-Gluon:https://github.com/PistonY/ResidualAttentionNetwork
- 代码:非官方-Keras:https://github.com/koichiro11/residual-attention-network
Xception
Xception:基于深度可分离卷积的深度学习 François Chollet
- 论文:https://arxiv.org/abs/1610.02357
- 代码:非官方-PyTorch:https://github.com/jfzhang95/pytorch-deeplab-xception/blob/master/modeling/backbone/xception.py
- 代码:非官方-TensorFlow:https://github.com/kwotsin/TensorFlow-Xception
- 代码:非官方-Caffe:https://github.com/yihui-he/Xception-caffe
- 代码:非官方-PyTorch:https://github.com/tstandley/Xception-PyTorch
- 代码:Keras Applications:https://github.com/keras-team/keras-applications/blob/master/keras_applications/xception.py
MobileNet
MobileNets:面向移动视觉应用的高效卷积神经网络 Andrew G. Howard、Menglong Zhu、Bo Chen、Dmitry Kalenichenko、Weijun Wang、Tobias Weyand、Marco Andreetto、Hartwig Adam
- 论文PDF:https://arxiv.org/abs/1704.04861
- 代码(TensorFlow非官方实现):https://github.com/Zehaos/MobileNet
- 代码(Caffe非官方实现):https://github.com/shicai/MobileNet-Caffe
- 代码(PyTorch非官方实现):https://github.com/marvis/pytorch-mobilenet
- 代码(Keras应用库):https://github.com/keras-team/keras-applications/blob/master/keras_applications/mobilenet.py
PolyNet
PolyNet:在超深度网络中追求结构多样性 Xingcheng Zhang、Zhizhong Li、Chen Change Loy、Dahua Lin
DPN
双路径网络 Yunpeng Chen、Jianan Li、Huaxin Xiao、Xiaojie Jin、Shuicheng Yan、Jiashi Feng
- 论文PDF:https://arxiv.org/abs/1707.01629
- 代码(官方实现):https://github.com/cypw/DPNs
- 代码(Keras非官方实现):https://github.com/titu1994/Keras-DualPathNetworks
- 代码(PyTorch非官方实现):https://github.com/oyam/pytorch-DPNs
- 代码(PyTorch非官方实现):https://github.com/rwightman/pytorch-dpn-pretrained
Block-QNN
实用的分块式神经网络架构生成 Zhao Zhong、Junjie Yan、Wei Wu、Jing Shao、Cheng-Lin Liu
CRU-Net
通过深度神经网络中的集体张量分解共享残差单元 Chen Yunpeng、Jin Xiaojie、Kang Bingyi、Feng Jiashi、Yan Shuicheng
- 论文PDF:https://arxiv.org/abs/1703.02180
- 代码(官方实现):https://github.com/cypw/CRU-Net
- 代码(MXNet非官方实现):https://github.com/bruinxiong/Modified-CRUNet-and-Residual-Attention-Network.mxnet
DLA
深度层聚合 Fisher Yu、Dequan Wang、Evan Shelhamer、Trevor Darrell
- 论文PDF:https://arxiv.org/abs/1707.06484
- 代码(PyTorch官方实现):https://github.com/ucbdrive/dla
ShuffleNet
ShuffleNet:一种极其高效的移动端卷积神经网络 Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun
- 论文PDF:https://arxiv.org/abs/1707.01083
- 代码(TensorFlow非官方实现):https://github.com/MG2033/ShuffleNet
- 代码(PyTorch非官方实现):https://github.com/jaxony/ShuffleNet
- 代码(Caffe非官方实现):https://github.com/farmingyard/ShuffleNet
- 代码(Keras非官方实现):https://github.com/scheckmedia/keras-shufflenet
CondenseNet
CondenseNet:一种使用学习型组卷积的高效DenseNet Gao Huang、Shichen Liu、Laurens van der Maaten、Kilian Q. Weinberger
- 论文PDF:https://arxiv.org/abs/1711.09224
- 代码(官方实现):https://github.com/ShichenLiu/CondenseNet
- 代码(TensorFlow非官方实现):https://github.com/markdtw/condensenet-tensorflow
NasNet
学习可迁移的架构以实现可扩展的图像识别 Barret Zoph、Vijay Vasudevan、Jonathon Shlens、Quoc V. Le
- 论文PDF:https://arxiv.org/abs/1707.07012
- 代码(Keras非官方实现):https://github.com/titu1994/Keras-NASNet
- 代码(Keras应用库):https://github.com/keras-team/keras-applications/blob/master/keras_applications/nasnet.py
- 代码(PyTorch非官方实现):https://github.com/wandering007/nasnet-pytorch
- 代码(TensorFlow非官方实现):https://github.com/yeephycho/nasnet-tensorflow
MobileNetV2
MobileNetV2:倒置残差与线性瓶颈 Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov、Liang-Chieh Chen
- 论文PDF:https://arxiv.org/abs/1801.04381
- 代码(Keras非官方实现):https://github.com/xiaochus/MobileNetV2
- 代码(PyTorch非官方实现):https://github.com/Randl/MobileNetV2-pytorch
- 代码(TensorFlow非官方实现):https://github.com/neuleaf/MobileNetV2
IGCV2
IGCV2:交错式结构化稀疏卷积神经网络 Guotian Xie、Jingdong Wang、Ting Zhang、Jianhuang Lai、Richang Hong、Guo-Jun Qi
hier
用于高效架构搜索的层次化表示 Hanxiao Liu、Karen Simonyan、Oriol Vinyals、Chrisantha Fernando、Koray Kavukcuoglu
PNasNet
渐进式神经架构搜索 Chenxi Liu、Barret Zoph、Maxim Neumann、Jonathon Shlens、Wei Hua、Li-Jia Li、Li Fei-Fei、Alan Yuille、Jonathan Huang、Kevin Murphy
- 论文PDF:https://arxiv.org/abs/1712.00559
- 代码(TensorFlow-Slim实现):https://github.com/tensorflow/models/blob/master/research/slim/nets/nasnet/pnasnet.py
- 代码(PyTorch非官方实现):https://github.com/chenxi116/PNASNet.pytorch
- 代码(TensorFlow非官方实现):https://github.com/chenxi116/PNASNet.TF
AmoebaNet
基于正则化进化的图像分类器架构搜索 Esteban Real、Alok Aggarwal、Yanping Huang、Quoc V Le
- 论文PDF:https://arxiv.org/abs/1802.01548
- 代码(TensorFlow TPU实现):https://github.com/tensorflow/tpu/tree/master/models/official/amoeba_net
SENet
挤压与激励网络 胡杰、沈力、塞缪尔·阿尔巴尼、孙刚、吴恩华
- 论文:https://arxiv.org/abs/1709.01507
- 代码:官方:https://github.com/hujie-frank/SENet
- 代码:非官方-PyTorch:https://github.com/moskomule/senet.pytorch
- 代码:非官方-TensorFlow:https://github.com/taki0112/SENet-Tensorflow
- 代码:非官方-Caffe:https://github.com/shicai/SENet-Caffe
- 代码:非官方-MXNet:https://github.com/bruinxiong/SENet.mxnet
ShuffleNetV2
ShuffleNet V2:高效CNN架构设计的实用指南 马宁宁、张翔宇、郑海涛、孙剑
- 论文:https://arxiv.org/abs/1807.11164
- 代码:非官方-PyTorch:https://github.com/Randl/ShuffleNetV2-pytorch
- 代码:非官方-Keras:https://github.com/opconty/keras-shufflenetV2
- 代码:非官方-PyTorch:https://github.com/Bugdragon/ShuffleNet_v2_PyTorch
- 代码:非官方-Caffe2:https://github.com/wolegechu/ShuffleNetV2.Caffe2
CBAM
CBAM:卷积块注意力模块 桑贤宇、朴宗灿、李俊英、权仁昭
- 论文:https://arxiv.org/abs/1807.06521
- 代码:官方-PyTorch:https://github.com/Jongchan/attention-module
- 代码:非官方-PyTorch:https://github.com/luuuyi/CBAM.PyTorch
- 代码:非官方-PyTorch:https://github.com/elbuco1/CBAM
- 代码:非官方-Keras:https://github.com/kobiso/CBAM-keras
IGCV3
IGCV3:用于高效深度神经网络的交错低秩分组卷积 孙柯、李明杰、刘东、王井东
- 论文:https://arxiv.org/abs/1806.00178
- 代码:官方:https://github.com/homles11/IGCV3
- 代码:非官方-PyTorch:https://github.com/xxradon/IGCV3-pytorch
- 代码:非官方-TensorFlow:https://github.com/ZHANG-SHI-CHANG/IGCV3
BAM
BAM:瓶颈注意力模块 朴宗灿、桑贤宇、李俊英、权仁昭
- 论文:https://arxiv.org/abs/1807.06514
- 代码:官方-PyTorch:https://github.com/Jongchan/attention-module
- 代码:非官方-TensorFlow:https://github.com/huyz1117/BAM
MNasNet
MnasNet:面向移动设备的平台感知神经架构搜索 谭铭星、陈博、庞若明、瓦苏德万、黎魁
- 论文:https://arxiv.org/abs/1807.11626
- 代码:非官方-PyTorch:https://github.com/AnjieZheng/MnasNet-PyTorch
- 代码:非官方-Caffe:https://github.com/LiJianfei06/MnasNet-caffe
- 代码:非官方-MXNet:https://github.com/chinakook/Mnasnet.MXNet
- 代码:非官方-Keras:https://github.com/Shathe/MNasNet-Keras-Tensorflow
SKNet
选择性卷积网络 李翔、王文海、胡晓林、杨健
DARTS
DARTS:可微架构搜索 刘瀚霄、卡伦·西蒙扬、杨一鸣
- 论文:https://arxiv.org/abs/1806.09055
- 代码:官方:https://github.com/quark0/darts
- 代码:非官方-PyTorch:https://github.com/khanrc/pt.darts
- 代码:非官方-TensorFlow:https://github.com/NeroLoh/darts-tensorflow
ProxylessNAS
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索 蔡汉、朱立耕、韩松
MobileNetV3
MobileNetV3的搜索 安德鲁·霍华德、马克·桑德勒、格蕾丝·楚、梁哲·陈、陈博、谭铭星、王伟军、朱玉坤、庞若明、瓦苏德万、黎魁、哈特维格·亚当
- 论文:https://arxiv.org/abs/1905.02244
- 代码:非官方-PyTorch:https://github.com/xiaolai-sqlai/mobilenetv3
- 代码:非官方-PyTorch:https://github.com/kuan-wang/pytorch-mobilenet-v3
- 代码:非官方-PyTorch:https://github.com/leaderj1001/MobileNetV3-Pytorch
- 代码:非官方-PyTorch:https://github.com/d-li14/mobilenetv3.pytorch
- 代码:非官方-Caffe:https://github.com/jixing0415/caffe-mobilenet-v3
- 代码:非官方-Keras:https://github.com/xiaochus/MobileNetV3
Res2Net
Res2Net:一种新的多尺度骨干网络架构 高尚华、程明明、赵凯、张鑫宇、杨明轩、托尔
- 论文:https://arxiv.org/abs/1904.01169
- 代码:非官方-PyTorch:https://github.com/4uiiurz1/pytorch-res2net
- 代码:非官方-Keras:https://github.com/fupiao1998/res2net-keras
- 代码:官方-PyTorch:https://github.com/Res2Net
LIP-ResNet
LIP:基于局部重要性的池化 高子腾、王利民、吴刚山
EfficientNet
EfficientNet:重新思考卷积神经网络的模型缩放 Mingxing Tan, Quoc V. Le
- pdf:https://arxiv.org/abs/1905.11946
- 代码:非官方 PyTorch 版本:https://github.com/lukemelas/EfficientNet-PyTorch
- 代码:官方 TensorFlow 版本:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet
FixResNeXt
解决训练与测试分辨率不一致的问题 Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou
BiT
大迁移(BiT):通用视觉表征学习 Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby
- pdf:https://arxiv.org/abs/1912.11370
- 代码:官方 TensorFlow 版本:https://github.com/google-research/big_transfer
PSConv + ResNext101
PSConv:将特征金字塔压缩进一个紧凑的多尺度卷积层 Duo Li1, Anbang Yao2B, 和 Qifeng Chen1B
NoisyStudent
带有噪声的学生自训练提升 ImageNet 分类性能 Qizhe Xie, Minh-Thang Luong, Eduard Hovy, Quoc V. Le
- pdf:https://arxiv.org/abs/1911.04252
- 代码:官方 TensorFlow 版本:https://github.com/google-research/noisystudent
- 代码:非官方 PyTorch 版本:https://github.com/sally20921/NoisyStudent
RegNet
设计网络设计空间 Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár
- pdf:https://arxiv.org/abs/2003.13678
- 代码:官方 PyTorch 版本:https://github.com/facebookresearch/pycls
- 代码:非官方 PyTorch 版本:https://github.com/d-li14/regnet.pytorch
GhostNet
GhostNet:以低成本操作获得更多特征 Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, Chang Xu
ViT
一张图胜过 16×16 个词:大规模图像识别中的 Transformer Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
- pdf:https://arxiv.org/abs/2010.11929
- 代码:官方 TensorFlow 版本:https://github.com/google-research/vision_transformer
- 代码:非官方 PyTorch 版本:https://github.com/jeonsworld/ViT-pytorch
DeiT
数据高效训练的视觉 Transformer 及通过注意力进行蒸馏 Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou
PVT
金字塔视觉 Transformer:无需卷积的密集预测通用骨干网络 Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao
T2T
Token-to-Token ViT:从头开始在 ImageNet 上训练视觉 Transformer Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan
DeepVit
DeepViT:迈向更深的视觉 Transformer Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Zihang Jiang, Qibin Hou,以及 Jiashi Feng。
ViL
多尺度视觉 Longformer:一种用于高分辨率图像编码的新视觉 Transformer Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang,以及 Jianfeng Gao
- pdf:https://arxiv.org/abs/2103.15358
- 代码:官方 PyTorch 版本:https://github.com/microsoft/vision-longformer
TNT
Transformer in Transformer Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu,以及 Yunhe Wang
CvT
CvT:将卷积引入视觉 Transformer Haiping Wu, Bin Xiao, Noel Codella,以及 Mengchen Liu、Xiyang Dai、Lu Yuan、Lei Zhang
CViT
CrossViT:用于图像分类的交叉注意力多尺度视觉 Transformer Chun-Fu (Richard) Chen, Quanfu Fan,以及 Rameswar Panda
Focal-T
视觉 Transformer 中用于长距离交互的焦点注意力 Jianwei Yang, Chunyuan Li, Pengchuan Zhang,以及 Xiyang Dai、Bin Xiao、Lu Yuan、Jianfeng Gao
Twins
Twins:重新审视视觉 Transformer 中的空间注意力设计
PVTv2
Wenhai Wang, Enze Xie, Xiang Li,以及 Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。