pytorch-classification
pytorch-classification 是一个基于 PyTorch 构建的开源图像分类工具箱,专注于在 CIFAR-10/100 和 ImageNet 等主流数据集上复现经典的深度学习模型。它有效解决了研究人员在尝试不同网络架构时,需要重复编写训练代码、配置多显卡环境以及手动记录实验数据的痛点,让用户能将精力集中在算法改进而非工程实现上。
该项目非常适合 AI 开发者、学术研究人员以及希望快速上手深度学习的学生使用。其核心亮点在于提供了一套统一的接口,轻松切换 AlexNet、VGG、ResNet、DenseNet、ResNeXt 等多种主流网络结构,并原生支持多 GPU 并行加速训练。此外,工具内置了丰富的训练进度条、自动日志记录及可视化曲线功能,帮助用户直观监控模型收敛情况。项目不仅提供了详细的训练指南,还开放了预训练模型和完整的实验日志,极大地降低了复现前沿论文结果的门槛,是进行图像分类算法研究与教学的得力助手。
使用场景
某计算机视觉初创团队需要在两周内为新的安防摄像头系统训练一个能精准识别 100 种违规行为的分类模型,且必须适配多张显卡以加速迭代。
没有 pytorch-classification 时
- 架构适配繁琐:工程师需手动修改 ResNet 或 DenseNet 等主流网络的输入层代码,以适配非标准尺寸图像,极易引入维度错误。
- 实验管理混乱:缺乏统一的训练接口,每次切换模型架构都要重写数据加载和训练循环脚本,导致代码库冗余且难以维护。
- 调试效率低下:缺少内置的进度条和可视化日志工具,团队只能依靠打印散乱的终端输出来监控损失曲线,难以直观判断模型是否收敛。
- 多卡配置困难:手动配置多 GPU 并行训练涉及复杂的进程通信代码,新手容易出错,导致昂贵的算力资源闲置或利用率极低。
使用 pytorch-classification 后
- 开箱即用架构:直接调用
models.cifar或models.imagenet包中已适配好的 AlexNet、ResNeXt 等十几种架构,无需修改底层代码即可启动训练。 - 统一实验流程:利用统一的接口规范,团队成员仅需更改配置文件即可在不同网络间快速切换对比,大幅降低了试错成本。
- 可视化监控增强:内置的 logger 模块自动生成训练曲线和详细日志,配合丰富的进度条信息,让模型性能趋势一目了然。
- 高效并行计算:原生支持多 GPU 训练,简单配置即可线性提升训练速度,确保团队在紧迫工期内完成大规模参数搜索。
pytorch-classification 通过提供标准化的基准实现和完善的工具链,将研究人员从重复的“造轮子”工作中解放出来,使其能专注于核心算法的优化与创新。
运行环境要求
支持多 GPU 训练(Multi-GPU support),具体型号、显存大小及 CUDA 版本未说明
未说明

快速开始
pytorch-classification
使用 PyTorch 在 CIFAR-10/100 和 ImageNet 数据集上进行分类。
特性
- 针对不同网络架构的统一接口
- 多 GPU 支持
- 带有丰富信息的训练进度条
- 训练日志和训练曲线可视化代码(见
./utils/logger.py)
安装
- 安装 PyTorch
- 递归克隆
git clone --recursive https://github.com/bearpaw/pytorch-classification.git
训练
请参阅 训练指南,了解如何训练模型。
结果
CIFAR
报告了在 CIFAR-10/100 基准上的 Top-1 错误率。使用不同的随机种子训练模型可能会得到不同的结果。 请注意,参数数量是在 CIFAR-10 数据集上计算的。
| 模型 | 参数量 (M) | CIFAR-10 (%) | CIFAR-100 (%) |
|---|---|---|---|
| alexnet | 2.47 | 22.78 | 56.13 |
| vgg19_bn | 20.04 | 6.66 | 28.05 |
| ResNet-110 | 1.70 | 6.11 | 28.86 |
| PreResNet-110 | 1.70 | 4.94 | 23.65 |
| WRN-28-10 (drop 0.3) | 36.48 | 3.79 | 18.14 |
| ResNeXt-29, 8x64 | 34.43 | 3.69 | 17.38 |
| ResNeXt-29, 16x64 | 68.16 | 3.53 | 17.30 |
| DenseNet-BC (L=100, k=12) | 0.77 | 4.54 | 22.88 |
| DenseNet-BC (L=190, k=40) | 25.62 | 3.32 | 17.17 |

ImageNet
报告了单裁剪(224×224)验证错误率。
| 模型 | 参数量 (M) | Top-1 错误率 (%) | Top-5 错误率 (%) |
|---|---|---|---|
| ResNet-18 | 11.69 | 30.09 | 10.78 |
| ResNeXt-50 (32x4d) | 25.03 | 22.6 | 6.29 |

预训练模型
我们训练好的模型和训练日志可在 OneDrive 下载。
支持的架构
CIFAR-10 / CIFAR-100
由于 CIFAR 数据集中的图像尺寸为 32x32,因此用于 ImageNet 的流行网络结构需要进行一些修改以适应此输入尺寸。修改后的模型位于 models.cifar 包中:
- AlexNet
- VGG(从 pytorch-cifar 导入)
- ResNet
- Pre-act-ResNet
- ResNeXt(从 ResNeXt.pytorch 导入)
- Wide Residual Networks(从 WideResNet-pytorch 导入)
- DenseNet
ImageNet
-
torchvision.models中的所有模型(alexnet、vgg、resnet、densenet、inception_v3、squeezenet) - ResNeXt
- Wide Residual Networks
贡献
如果您发现任何错误或希望做出贡献(例如,添加更多数据集和网络结构),欢迎提交拉取请求。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。