channel-pruning

1.1k 308 困难 1 次阅读 3周前MIT图像

AI 解读由 AI 自动生成，仅供参考

channel-pruning 是一款专为加速超深神经网络设计的开源工具，核心功能是通过“通道剪枝”技术大幅压缩模型体积并提升推理速度。它主要解决了深度卷积神经网络（如 VGG、ResNet）在部署时计算量大、显存占用高导致运行缓慢的难题，让庞大的模型也能在资源受限的设备上高效运行。

该工具非常适合人工智能研究人员、算法工程师以及需要在移动端或嵌入式设备部署模型的开发者使用。其独特的技术亮点在于提出了一种迭代式的剪枝策略：先利用 LASSO 回归自动识别并剔除冗余的特征通道，再通过微调恢复模型精度。这种方法不仅支持分类任务，还成功应用于 Faster R-CNN 等目标检测模型，实现了最高 5 倍的加速比，同时保持了极具竞争力的准确率。作为 ICCV 2017 的经典成果，channel-pruning 提供了完整的代码与预训练模型，是探索模型压缩与加速领域的实用利器。

使用场景

某自动驾驶初创团队正试图将高精度的 ResNet-50 目标检测模型部署到算力有限的车载嵌入式设备上，以满足实时路况分析需求。

没有 channel-pruning 时

推理延迟过高：原始深层网络参数量巨大，在边缘设备上单次推理耗时超过 200ms，无法达到自动驾驶要求的 30fps 实时标准。
显存资源爆满：模型加载后占用显存远超硬件上限，导致频繁的数据交换甚至程序崩溃，无法与其他感知模块共存。
能耗严重超标：密集的卷积计算导致设备功耗激增，引发芯片过热降频，进一步拖慢处理速度并缩短车辆续航。
部署妥协困难：团队被迫在“降低输入分辨率牺牲精度”和“更换昂贵高性能硬件”之间做两难选择，项目进度受阻。

使用 channel-pruning 后

推理速度倍增：通过剪枝冗余通道，channel-pruning 成功将 ResNet-50 模型加速 2 倍，推理延迟降至 90ms 以内，轻松满足实时性要求。
资源占用大幅降低：模型体积显著缩小，显存占用减少一半以上，使得多模型并行运行成为可能，系统稳定性显著提升。
能效比优化明显：计算量的直接减少降低了功耗与发热，设备可长时间稳定运行在高频状态，无需额外散热改造。
精度几乎无损：得益于迭代剪枝与微调策略，Top-1 准确率仅微跌（如从 76% 降至 72.3%），在可接受范围内保住了核心检测能力。

channel-pruning 的核心价值在于它能在几乎不牺牲模型精度的前提下，通过结构化剪枝让超深神经网络在资源受限的边缘设备上实现高效、实时的落地运行。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
微调（finetuning）阶段建议 4 张显卡，每张显存约 11GB（总计约 44GB）
推理/测试可使用单卡

内存

未说明

依赖

notes1. 该工具基于 Caffe 框架，需编译作者提供的自定义 Caffe fork（支持双三次插值和特定图像预处理），不支持主流深度学习框架如 PyTorch 或 TensorFlow。 2. 必须使用 `git clone --recursive` 克隆仓库以获取子模块。 3. 需要手动下载 ImageNet 数据集和预训练的 VGG-16 模型文件并配置路径。 4. 若进行大规模微调（batch size 128），硬件门槛较高（4x 11GB GPU）；若仅测试已剪枝模型，单张 GPU 即可。

pythonPython 3

Caffe (自定义 fork 版本)

scipy

sklearn

easydict

py-faster-rcnn (用于 Faster R-CNN 任务)

快速开始

通道剪枝用于加速超深神经网络

GitHub - yihui-he/channel-pruning: 通道剪枝用于加速超深神经网络 (ICCV'17)

通道剪枝用于加速超深神经网络

ICCV 2017，由 Yihui He、Xiangyu Zhang 和 Jian Sun 共同完成。

请查看我们在深度模型压缩方面的最新工作：

AMC：面向移动设备的模型压缩与加速自动化机器学习 ECCV’18，该方法结合了通道剪枝和强化学习，进一步加速卷积神经网络。代码和模型均已公开！
AddressNet：基于移位操作的高效卷积神经网络原语 WACV’19。我们提出了一类基于移位操作的高效网络。
MoBiNet：用于图像分类的移动端二值化网络 WACV’20，一种二值化的MobileNet。

在本仓库中，我们发布了以下模型的代码：

模型	加速倍数	准确率
https://github.com/yihui-he/channel-pruning/releases/tag/channel_pruning_5x	5倍	Top-5 88.1%，Top-1 67.8%
https://github.com/yihui-he/channel-pruning/releases/tag/VGG-16_3C4x	4倍	Top-5 89.9%，Top-1 70.6%
https://github.com/yihui-he/channel-pruning/releases/tag/ResNet-50-2X	2倍	Top-5 90.8%，Top-1 72.3%
https://github.com/yihui-he/channel-pruning/releases/tag/faster-RCNN-2X4X	2倍	AP@.50:.05:.95 36.7
https://github.com/yihui-he/channel-pruning/releases/tag/faster-RCNN-2X4X	4倍	AP@.50:.05:.95 35.1

3C 方法结合了空间分解（参见《利用低秩展开加速卷积神经网络》）和通道分解（参见《加速用于分类和检测的超深卷积神经网络》）（详见 4.1.2 节）。

引用

如果您在研究中使用了这些代码，请考虑引用以下文献：

@InProceedings{He_2017_ICCV,
author = {He, Yihui and Zhang, Xiangyu and Sun, Jian},
title = {Channel Pruning for Accelerating Very Deep Neural Networks},
booktitle = {The IEEE International Conference on Computer Vision (ICCV)},
month = {Oct},
year = {2017}
}

环境要求

您可能尚未安装的 Python3 包：scipy、sklearn、easydict，可使用 sudo pip3 install 进行安装。
使用 128 的批量大小进行微调时，需要 4 块 GPU（每块约 11GB 显存）。

安装说明（适用于演示）

克隆仓库

# 请务必使用 --recursive 选项克隆
 git clone --recursive https://github.com/yihui-he/channel-pruning.git

构建我的 Caffe 分支（支持双三次插值，并将图像短边调整为 256 后裁剪为 224×224）

cd caffe

 # 如果您熟悉 Caffe 并已安装所有依赖项，则只需执行：
 make all -j8 && make pycaffe
 # 或者按照此处的 Caffe 安装说明进行操作：
 # http://caffe.berkeleyvision.org/installation.html

 # 如果您之前已经安装过 Caffe，可能需要将 pycaffe 添加到 PYTHONPATH 中

下载 ImageNet 分类数据集 http://www.image-net.org/download-images
在 temp/vgg.prototxt 文件中指定 ImageNet 数据源路径（第 12 行和第 36 行）。

通道剪枝

为了快速测试，您可以直接下载剪枝后的模型。请参阅【下一节】关于可下载的剪枝模型 1. 下载原始的 VGG-16 模型 http://www.robots.ox.ac.uk/~vgg/software/very_deep/caffe/VGG_ILSVRC_16_layers.caffemodel 将其移动至 temp/vgg.caffemodel（或创建一个软链接代替）。

开始通道剪枝

python3 train.py -action c3 -caffe [GPU0]
 # 或通过 ./run.sh 记录日志：python3 train.py -action c3 -caffe [GPU0]
 # 将 [GPU0] 替换为实际的 GPU 设备编号，如 0、1 或 2

将部分因子化层合并以进一步压缩模型，并计算加速比。将 temp/cb_3c_3C4x_mem_bn_vgg.prototxt 中的 ImageData 层替换为 [temp/vgg.prototxt 中的](https://github.com/yihui-he/channel-pruning/blob/master/temp/vgg.prototxt#L1-L49) Shell ./combine.sh | xargs ./calflop.sh

微调

caffe train -solver temp/solver.prototxt -weights temp/cb_3c_vgg.caffemodel -gpu [GPU0,GPU1,GPU2,GPU3]
 # 将 [GPU0,GPU1,GPU2,GPU3] 替换为实际的 GPU 设备编号，如 0、1、2、3

测试

虽然测试通常在微调过程中进行，但您也可以随时使用以下命令进行测试：
```
caffe test -model path/to/prototxt -weights path/to/caffemodel -iterations 5000 -gpu [GPU0]
 # 将 [GPU0] 替换为实际的 GPU 设备编号，如 0、1 或 2
```
剪枝后的模型（可供下载）

为了快速测试，您可以直接从发布页面下载剪枝后的模型：VGG-16 3C 4X、VGG-16 5X、ResNet-50 2X。或者通过百度网盘提供的下载链接：Download link

测试示例：

caffe test -model channel_pruning_VGG-16_3C4x.prototxt -weights channel_pruning_VGG-16_3C4x.caffemodel -iterations 5000 -gpu [GPU0]
# 将 [GPU0] 替换为实际的 GPU 设备编号，如 0、1 或 2

Faster R-CNN 的剪枝

为了快速测试，您可以直接从发布页面下载剪枝后的模型。或者您也可以：1. 克隆我的 py-faster-rcnn 仓库：https://github.com/yihui-he/py-faster-rcnn；2. 使用本仓库中的剪枝模型来训练 2 倍和 4 倍加速的 Faster R-CNN，其求解器 prototxt 文件位于 https://github.com/yihui-he/py-faster-rcnn/tree/master/models/pascal_voc。

常见问题解答

您可以在我们的 Github wiki 中找到一些常见问题的答案，或者直接创建一个新的 issue。

Channel Pruning 快速上手指南

Channel Pruning 是一种用于加速深度神经网络（如 VGG、ResNet）的通道剪枝技术，源自 ICCV 2017 论文。本指南帮助你快速搭建环境并运行剪枝流程。

环境准备

系统要求：

操作系统：Linux (推荐 Ubuntu)
Python 版本：Python 3
GPU：建议配备 4 张 GPU（每张显存约 11GB），以支持 batch size 128 的微调训练。

前置依赖： 安装必要的 Python 包：

sudo pip3 install scipy sklearn easydict

数据集：

下载 ImageNet 分类数据集：http://www.image-net.org/download-images
注：国内用户可使用镜像源或自行寻找公开镜像加速下载。

安装步骤

1. 克隆仓库 务必使用 --recursive 参数以获取子模块：

git clone --recursive https://github.com/yihui-he/channel-pruning.git
cd channel-pruning

2. 编译 Caffe 框架 本项目依赖作者修改版的 Caffe（支持双三次插值及特定图像预处理）。

cd caffe

# 若已具备 Caffe 所有依赖，直接编译：
make all -j8 && make pycaffe

# 若未安装 Caffe 依赖，请参考官方文档：
# http://caffe.berkeleyvision.org/installation.html

提示：编译完成后，可能需要将 pycaffe 路径添加到 PYTHONPATH 环境变量中。

3. 配置数据集路径 打开 temp/vgg.prototxt 文件，修改第 12 行和第 36 行，将 source 路径指向你本地的 ImageNet 数据目录。

基本使用

以下以 VGG-16 模型为例，演示从加载预训练模型到完成剪枝微调的流程。

1. 准备预训练模型 下载原始 VGG-16 模型并放置到指定位置：

# 下载地址：http://www.robots.ox.ac.uk/~vgg/software/very_deep/caffe/VGG_ILSVRC_16_layers.caffemodel
# 将下载的文件移动或软链接到 temp/vgg.caffemodel
mv VGG_ILSVRC_16_layers.caffemodel temp/vgg.caffemodel

2. 执行通道剪枝 开始剪枝过程（请将 [GPU0] 替换为实际可用的 GPU 编号，如 0）：

python3 train.py -action c3 -caffe [GPU0]
# 或者使用脚本记录日志：
# ./run.sh python3 train.py -action c3 -caffe [GPU0]

3. 层融合与加速比计算 合并部分分解层以进一步压缩，并计算加速比例：

# 替换 temp/cb_3c_3C4x_mem_bn_vgg.prototxt 中的 ImageData 层为 temp/vgg.prototxt 的配置
# 然后执行：
./combine.sh | xargs ./calflop.sh

4. 微调模型 (Finetuning) 使用剪枝后的权重进行微调（支持多 GPU，如 0,1,2,3）：

caffe train -solver temp/solver.prototxt -weights temp/cb_3c_vgg.caffemodel -gpu [GPU0,GPU1,GPU2,GPU3]

5. 测试模型 微调过程中会自动测试，也可手动运行测试命令：

caffe test -model path/to/prototxt -weights path/to/caffemodel -iterations 5000 -gpu [GPU0]

快捷方式：若仅需测试效果，可直接从 Release 页面下载已剪枝好的模型（如 VGG-16 4x, ResNet-50 2x 等），直接使用上述测试命令即可。

版本历史

ResNet-50-2X2017/10/10

faster-RCNN-2X4X2017/10/10

channel_pruning_5x2017/10/10

VGG-16_3C4x2017/08/23

常见问题

运行代码时遇到 'Failed to include caffe_pb2' 或 protobuf 相关的 TypeError 错误怎么办？

在通道剪枝（Channel Pruning）步骤中，为什么代码不考虑 ReLU 层？

仅进行剪枝（不使用空间分解 3C）时，运行 stepend() 报错 'shape mismatch' 或无法写入权重怎么办？

代码中的 rankdic（秩字典）是如何计算的？ResNet-50 的秩是多少？

如何获取 ResNet-50 2X 的原始 prototxt 文件？为什么剪枝后的模型比原模型慢？

如果想只进行剪枝而不包含空间分解（3C），需要修改多少代码？

安装过程中遇到 sklearn 相关缺失导致的问题如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent