mega.pytorch

576 121 较难 1 次阅读 1个月前NOASSERTION图像视频开发框架

AI 解读由 AI 自动生成，仅供参考

mega.pytorch 是一个专注于视频目标检测的开源深度学习项目，由 CVPR 2020 获奖论文团队官方发布。它基于 PyTorch 框架构建，旨在解决视频中因物体快速运动、遮挡或模糊导致的目标识别不准难题。

传统方法往往难以有效利用视频帧之间的时间关联信息，而 mega.pytorch 核心提出了“记忆增强全局 - 局部聚合”（MEGA）机制。该技术不仅能捕捉相邻帧的局部特征，还能通过记忆模块聚合长距离的全局上下文信息，从而显著提升检测精度。在权威的 ImageNet VID 数据集测试中，搭载 ResNet-101 主干网络的 MEGA 模型取得了 82.9% 的平均精度（AP），性能优于 DFF、FGFA 及 RDN 等主流算法。

除了核心的 MEGA 算法，该项目还集成了 FGFA、RDN 等多种经典视频检测方法的复现代码，并提供了完整的训练脚本、预训练模型以及可视化演示工具，支持对图像文件夹和视频文件进行直观的效果展示。

mega.pytorch 非常适合计算机视觉领域的研究人员、算法工程师及高校开发者使用。无论是希望复现前沿论文结果、进行对比实验，还是想要在此基础上开发新的视频分析应用，它都是一个功能完善且易于扩展的理想起点。项目代码开放透明，欢迎社区贡献更多创新方法，共同推动视频理解技术的发展。

使用场景

某安防监控团队正在开发一套高速公路异常事件检测系统，需要从海量视频流中精准识别并追踪快速移动的车辆与行人。

没有 mega.pytorch 时

高速目标丢失严重：面对车速极快导致的运动模糊，传统单帧检测模型频繁出现目标漏检，尤其在车辆变道或超车瞬间，追踪链路经常中断。
上下文信息利用不足：现有方案难以有效融合长时序的全局记忆与短时序的局部特征，导致在目标被短暂遮挡（如经过桥墩）后无法重新捕获。
精度与速度难以平衡：为了提升准确率强行增加帧间关联计算量，导致推理延迟过高，无法满足实时报警的业务需求，且在小目标检测上表现疲软。

使用 mega.pytorch 后

显著提升高速检测率：借助 MEGA 的记忆增强全局 - 局部聚合机制，系统在“快速”类别下的检测精度（AP fast）从基准的 52.3% 提升至 62.7%，有效锁定了模糊的高速车辆。
强化长时依赖与抗遮挡：模型能够智能调用历史帧的全局记忆信息，即使目标被遮挡数秒，也能在重现时迅速恢复追踪轨迹，大幅减少了 ID 切换错误。
实现高效实时推理：在保持 ResNet-101 骨干网络高特征提取能力的同时，通过优化的聚合策略避免了冗余计算，整体平均精度（AP）提升至 82.9%，兼顾了高精度与低延迟。

mega.pytorch 通过创新地融合时空记忆机制，彻底解决了复杂动态场景下视频目标检测的断层难题，让监控系统真正具备了“过目不忘”的智能视野。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
README 明确指出单张 GPU 仅能处理 1 张图像（显存需求较高，建议大显存显卡），需支持 PyTorch 分布式训练 (torch.distributed)，具体 CUDA 版本未说明（取决于安装的 PyTorch 版本）

内存

未说明

依赖

notes1. 该项目基于 maskrcnn_benchmark 框架，安装需遵循其 INSTALL.md 指引（通常涉及自定义 CUDA 算子编译，主要支持 Linux）。2. 训练和测试时严格限制每张 GPU 只能加载 1 张图像，需调整配置使 IMS_PER_BATCH 等于 GPU 数量。3. 首次运行会生成缓存文件，耗时较长。4. 复现 FGFA 和 DFF 算法需要额外的 FlowNet 预训练权重。5. 数据集需准备 ILSVRC2015 DET 和 VID。

python未说明

pytorch

maskrcnn_benchmark

torchvision

快速开始

MEGA 用于视频目标检测

作者：Yihong Chen、Yue Cao、Han Hu、Liwei Wang。

本仓库是 CVPR 2020 接收的论文 "Memory Enhanced Global-Local Aggregation for Video Object Detection" 的官方实现。该仓库基于 maskrcnn_benchmark 提供了我们方法 MEGA 的 PyTorch 实现，并包含一些训练脚本，用于复现我们在论文中报告的 ImageNet VID 数据集上的实验结果。

此外，本仓库还实现了其他几种算法，如 FGFA 和 RDN。欢迎添加新的方法！期待您的 Pull Request！我们希望这个仓库能够帮助推动视频目标检测及相关领域的进一步研究。 :)

引用 MEGA

如果我们的工作对您的研究有所帮助，请在您的出版物中引用我们的论文：

@inproceedings{chen20mega,
    Author = {Chen, Yihong and Cao, Yue and Hu, Han and Wang, Liwei},
    Title = {Memory Enhanced Global-Local Aggregation for Video Object Detection},
    Conference = {CVPR},
    Year = {2020}
}

更新

添加了针对 motion-IoU 的 AP 评估代码。仅适用于 ImageNet VID 数据集。（2020年6月19日）
增加了可视化演示（支持图片文件夹和视频）。（2020年6月17日）
添加了使用 ResNet-50 主干网络的结果。（2020年4月13日）
发布了 Deep Feature Flow 的代码和预训练权重。（2020年3月30日）

主要结果

预训练模型现已在百度网盘（提取码：neck）和 Google Drive 上提供。

模型	主干网络	AP50	AP (fast)	AP (med)	AP (slow)	链接
单帧基线	ResNet-101	76.7	52.3	74.1	84.9	Google
DFF	ResNet-101	75.0	48.3	73.5	84.5	Google
FGFA	ResNet-101	78.0	55.3	76.9	85.6	Google
RDN-base	ResNet-101	81.1	60.2	79.4	87.7	Google
RDN	ResNet-101	81.7	59.5	80.0	89.0	Google
MEGA	ResNet-101	82.9	62.7	81.6	89.4	Google

模型	主干网络	AP50	AP (fast)	AP (med)	AP (slow)	链接
单帧基线	ResNet-50	71.8	47.2	69.2	80.6	Google
DFF	ResNet-50	70.4	43.6	68.9	80.8	Google
FGFA	ResNet-50	74.3	50.6	72.3	84.0	Google
RDN-base	ResNet-50	76.7	53.8	74.8	85.4	Google
MEGA	ResNet-50	77.3	56.5	75.7	85.2	Google

注意：ResNet-50 主干网络的性能不太稳定。

注意：针对 motion-IoU 的 AP 评估代码与 FGFA 中的原始实现略有不同。我认为原始实现确实有些奇怪，因此我对其进行了修改。所以这些结果可能无法直接与 FGFA 及其他使用 MXNet 版本评估代码的方法的结果进行比较。不过，在相同的评估协议下，我们仍然可以判断哪种方法相对更好。

安装

请按照 INSTALL.md 中的说明进行安装。

数据准备

请从这里下载 ILSVRC2015 DET 和 ILSVRC2015 VID 数据集。之后，建议将数据集路径符号链接到 datasets/ 目录下。路径结构应如下所示：

./datasets/ILSVRC2015/
./datasets/ILSVRC2015/Annotations/DET
./datasets/ILSVRC2015/Annotations/VID
./datasets/ILSVRC2015/Data/DET
./datasets/ILSVRC2015/Data/VID
./datasets/ILSVRC2015/ImageSets

注意：我们已经在 datasets/ILSVRC2015/ImageSets 目录下提供了用于训练和测试模型的所有图像列表，格式为 txt 文件。您无需更改它们。

使用

注意：首次运行本项目时会生成缓存文件，这可能需要一些时间！请不必担心！

注意：目前，一张 GPU 只能处理一张图像。请勿在同一张 GPU 上放置两张或更多图像！

注意我们提供了名为 BASE_RCNN_{}gpus.yaml 的模板文件，它会自动调整批次大小和其他相关设置。这种行为类似于 detectron2。如果您想使用不同数量的 GPU 进行训练，请自行修改 :) 但请务必确保 每张 GPU 只处理一张图像！也就是说，您应始终将 SOLVER.IMS_PER_BATCH 和 TEST.IMS_PER_BATCH 设置为所使用的 GPU 数量。

推理

在验证数据集上进行测试的推理命令行：

python -m torch.distributed.launch \
    --nproc_per_node 4 \
    tools/test_net.py \
    --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
    --motion-specific \
    MODEL.WEIGHT MEGA_R_101.pth

请注意：

如果您的模型名称不同，请将 MEGA_R_101.pth 替换为您自己的模型文件名。
如果您想评估不同的模型，请将 --config-file 更改为相应配置文件，并将 MODEL.WEIGHT 更改为该模型的权重文件。
如果您不想评估运动 IoU 特定的 AP，只需删除 --motion-specific 即可。
测试过程较为耗时，请耐心等待！
由于在超过 17 万帧的数据上进行测试非常耗时，我们提供了直接基于生成的边界框进行测试的功能，这些结果会自动保存到训练目录下的 predictions.pth 文件中。这意味着您无需每次都从头开始运行评估。您可以通过以下命令访问该文件并进行评估：

    python tools/test_prediction.py \
        --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
        --prediction [您使用 MEGA 生成的 predictions.pth 文件]
        --motion-specific

训练

以下命令行将在 4 张 GPU 上使用同步随机梯度下降（SGD）训练 MEGA_R_101_FPN_1x 模型：

python -m torch.distributed.launch \
    --nproc_per_node=4 \
    tools/train_net.py \
    --master_port=$((RANDOM + 10000)) \
    --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
    --motion-specific \
    OUTPUT_DIR training_dir/MEGA_R_101_1x

请注意：

模型将被保存到 OUTPUT_DIR 目录中。
如果您希望使用其他骨干网络训练 MEGA 或其他方法，请更改 --config-file。
对于 FGFA 和 DFF 的训练，我们需要 FlowNet 的预训练权重。我们提供了一个转换后的版本在此。下载后，请将其放置在 models/ 目录下。更多细节请参阅 config/defaults.py 文件及代码。
对于 RDN 的训练，我们采用与其原始论文中描述相同的两阶段训练策略。第一阶段应使用配置文件 configs/RDN/vid_R_101_C4_RDN_base_1x.yaml 进行训练。第二阶段则需将 MODEL.WEIGHT 设置为第一阶段训练结束时生成的最终模型文件名。或者您可以将该模型文件重命名为 RDN_base_R_101.pth 并将其放入 models/ 目录中，然后直接使用配置文件 configs/RDN/vid_R_101_C4_RDN_1x.yaml 进行第二阶段训练。
如果您不希望在训练结束时评估运动 IoU 特定的 AP，只需删除 --motion-specific 即可。

示例用法

请参考 demo/README.md，了解如何可视化您自己的图片或视频。

自定义

如果您希望在自己的数据集上使用这些方法，或实现您自己的新方法，请参考 CUSTOMIZE.md。

参与项目贡献

欢迎任何拉取请求或问题反馈。

MEGA.pytorch 快速上手指南

MEGA (Memory Enhanced Global-Local Aggregation) 是一个基于 PyTorch 的视频目标检测开源项目，由 CVPR 2020 论文提出。本指南帮助开发者快速搭建环境并运行模型。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu 16.04/18.04)
Python: 3.6 或更高版本
PyTorch: 1.4 或更高版本 (需与 CUDA 版本匹配)
GPU: 支持 CUDA 的 NVIDIA 显卡 (训练时建议多卡)
其他依赖: torchvision, ninja, yacs, cython, opencv-python 等

注意：本项目基于 maskrcnn_benchmark 架构开发，安装过程较为特殊，请严格按照下方步骤操作。

安装步骤

1. 克隆代码库

git clone https://github.com/scalsol/mega.pytorch.git
cd mega.pytorch

2. 创建虚拟环境并安装基础依赖

建议使用 Conda 管理环境：

conda create -n mega python=3.7
conda activate mega
conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit=10.1 -c pytorch
pip install ninja yacs cython matplotlib opencv-python tqdm

3. 安装 maskrcnn_benchmark 核心库

进入项目目录并执行安装脚本（这将编译 CUDA 扩展）：

export TORCH_CUDA_ARCH_LIST="6.0 6.1 7.0" # 根据您的显卡算力调整，如 RTX 2080Ti 设为 7.0
python setup.py build develop

注：如果编译报错，请检查 TORCH_CUDA_ARCH_LIST 是否包含您显卡对应的算力值。

4. 数据集准备

下载 ILSVRC2015 DET 和 ILSVRC2015 VID 数据集。下载完成后，建立软链接至项目根目录下的 datasets/ 文件夹，结构如下：

./datasets/ILSVRC2015/
├── Annotations/DET
├── Annotations/VID
├── Data/DET
├── Data/VID
└── ImageSets

项目已内置所需的训练/测试列表文件 (ImageSets 目录下)，无需手动修改。

5. 下载预训练模型

从 Google Drive 或百度网盘下载预训练权重，并放置在项目根目录或指定路径。

MEGA (ResNet-101): Google Drive | 百度网盘 (提取码: neck)

基本使用

推理测试 (Inference)

使用下载的预训练模型在验证集上进行测试。以下命令示例使用 4 张 GPU：

python -m torch.distributed.launch \
    --nproc_per_node 4 \
    tools/test_net.py \
    --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
    --motion-specific \
    MODEL.WEIGHT MEGA_R_101.pth

关键参数说明：

--nproc_per_node: 使用的 GPU 数量。重要约束：目前每个 GPU 仅能处理 1 张图像，因此 Batch Size 必须等于 GPU 数量。
--motion-specific: 启用针对运动 IoU 的特定评估指标（可选，若不需要可删除此参数）。
MODEL.WEIGHT: 指向您的 .pth 权重文件路径。

提示：全量测试非常耗时。首次运行后生成的边界框结果会自动保存为 predictions.pth。后续若只需重新评估指标而无需重新推理，可使用以下命令加速：
python tools/test_prediction.py \
    --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
    --prediction [YOUR predictions.pth] \
    --motion-specific

模型训练 (Training)

使用 4 张 GPU 训练 MEGA 模型 (ResNet-101 backbone)：

python -m torch.distributed.launch \
    --nproc_per_node=4 \
    tools/train_net.py \
    --master_port=$((RANDOM + 10000)) \
    --config-file configs/MEGA/vid_R_101_C4_MEGA_1x.yaml \
    --motion-specific \
    OUTPUT_DIR training_dir/MEGA_R_101_1x

注意事项：

模型检查点将保存在 OUTPUT_DIR 指定的目录中。
若训练 FGFA 或 DFF 方法，需预先下载 FlowNet 的预训练权重并放入 models/ 目录。
若训练 RDN 方法，需采用两阶段训练策略（先训练 base 版本，再加载权重进行第二阶段训练）。
配置文件 BASE_RCNN_{}gpus.yaml 会自动调整 Batch Size，但请务必保证 SOLVER.IMS_PER_BATCH 与实际使用的 GPU 数量一致（即 1 GPU = 1 Image）。

可视化演示 (Demo)

若需对自己的图片或视频进行可视化演示，请参考项目内 demo/README.md 文档进行操作。

常见问题

如何在自己的数据集上训练 MEGA 模型？需要修改哪些配置？

加载预训练模型时出现 'size mismatch' 错误（如 rpn.anchor_generator 形状不匹配），如何解决？

如何使用预训练模型对本地 MP4 视频文件进行目标检测演示？

复现结果比论文报告的 mAP 低约 1 个点，是否正常？

在非 VID 数据集（自定义数据集）上运行时，为什么没有 mAP 输出或报错 'IndexError: list index out of range'？

推理时显存不足或报错，每个 GPU 能处理多少张图像？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像