mmengine

1.5k 447 简单 1 次阅读昨天Apache-2.0开发框架图像Agent

AI 解读由 AI 自动生成，仅供参考

MMEngine 是 OpenMMLab 推出的基于 PyTorch 的深度学习模型训练基础库。它作为 OpenMMLab 全家桶的核心训练引擎，不仅支撑了涵盖计算机视觉等多个领域的数百种算法，也具备通用性，可广泛应用于非 OpenMMLab 的深度学习项目中。

在深度学习研发中，开发者常需重复编写数据加载、模型训练循环、日志记录及分布式训练等底层代码，既耗时又易出错。MMEngine 通过高度模块化设计，将这些通用流程封装为简洁易用的接口，让研究人员和算法工程师能专注于核心模型结构的创新与实验，大幅降低开发门槛并提升迭代效率。

这款工具特别适合从事深度学习算法研究的科研人员、需要快速验证新想法的开发者，以及希望构建标准化训练流程的工程团队。其技术亮点包括灵活的配置系统、强大的执行器（Runner）机制以统一管理训练流程，以及对多种可视化后端和分布式训练策略的原生支持。无论是初学者还是资深专家，都能利用 MMEngine 更高效地搭建稳健的深度学习训练管道。

使用场景

某计算机视觉算法团队正在基于 PyTorch 研发一套新的缺陷检测系统，需要快速验证多种前沿模型架构并部署到生产环境。

没有 mmengine 时

重复造轮子：每次切换新模型（如从 Faster R-CNN 换到 YOLO），都需要重新编写数据加载、训练循环和日志记录代码，耗时且易出错。
配置管理混乱：超参数硬编码在脚本中，调整学习率或批次大小需修改多处代码，难以复现实验结果。
分布式训练门槛高：实现多卡或多机训练需手动处理进程通信和梯度同步，调试复杂，普通算法工程师难以上手。
生态割裂：想要尝试 OpenMMLab 社区的最新算法，因接口不统一，集成成本极高，往往只能望而却步。

使用 mmengine 后

统一训练范式：借助 mmengine 的标准执行器（Runner），只需修改配置文件即可无缝切换不同模型，核心训练逻辑无需改动。
配置即代码：采用统一的配置文件管理所有实验参数，支持继承与复用，轻松实现实验版本控制和一键复现。
开箱即用的分布式能力：内置对 DeepSpeed 等加速引擎的支持，仅需简单配置即可启动大规模分布式训练，大幅降低并行开发难度。
无缝对接开放生态：作为 OpenMMLab 系列算法库的底层引擎，可直接调用数百种预置算法模块，快速构建高性能检测方案。

mmengine 通过标准化深度学习训练流程，让算法团队从繁琐的工程基建中解放出来，专注于模型创新与业务落地。

运行环境要求

操作系统

未说明

GPU

非强制依赖，但训练深度学习模型通常需 NVIDIA GPU
支持 CUDA 的 PyTorch 版本范围为 1.6~2.1（对应 CUDA 版本视具体 PyTorch 安装而定）

内存

未说明

依赖

notes安装前需先按官方指南成功安装 PyTorch。该工具是 OpenMMLab 系列算法库的基础训练引擎，支持多种大规模模型训练框架（如 DeepSpeed, FSDP, ColossalAI）及混合精度训练等策略。建议使用 pip 或 openmim 进行安装。

python3.8 ~ 3.11

torch>=1.6, <=2.1

openmim

mmengine

快速开始

OpenMMLab 官网 ^热门 OpenMMLab 平台 ^立即体验

简介 | 安装 | 快速入门 | 📘文档 | 🤔提交问题

English | 简体中文

简介

MMEngine 是一个基于 PyTorch 的深度学习模型训练基础库。它是所有 OpenMMLab 代码库的训练引擎，支持多个研究领域的数百种算法。此外，MMEngine 也可广泛应用于非 OpenMMLab 项目。其主要特点如下：

集成主流大规模模型训练框架

支持多种训练策略

提供用户友好的配置系统

覆盖主流训练监控平台

TensorBoard | WandB | MLflow
ClearML | Neptune | DVCLive | Aim

安装

支持的 PyTorch 版本

MMEngine	PyTorch	Python
main	>=1.6 <=2.1	>=3.8, <=3.11
>=0.9.0, <=0.10.4	>=1.6 <=2.1	>=3.8, <=3.11

在安装 MMEngine 之前，请确保已按照官方指南成功安装 PyTorch。

安装 MMEngine

pip install -U openmim
mim install mmengine

验证安装

python -c 'from mmengine.utils.dl_utils import collect_env;print(collect_env())'

开始使用

以在 CIFAR-10 数据集上训练 ResNet-50 模型为例，我们将使用 MMEngine 在不到 80 行代码中构建一个完整且可配置的训练和验证流程。

构建模型

首先，我们需要定义一个模型，它需要：1) 继承自 BaseModel；2) 在 forward 方法中除了接收与数据集相关的参数外，还需接受一个额外的参数 mode。

在训练阶段，mode 的值为 "loss"，此时 forward 方法应返回一个包含键 "loss" 的字典。
在验证阶段，mode 的值为 "predict"，此时 forward 方法应返回同时包含预测结果和标签的结果。

import torch.nn.functional as F
import torchvision
from mmengine.model import BaseModel

class MMResNet50(BaseModel):
    def __init__(self):
        super().__init__()
        self.resnet = torchvision.models.resnet50()

    def forward(self, imgs, labels, mode):
        x = self.resnet(imgs)
        if mode == 'loss':
            return {'loss': F.cross_entropy(x, labels)}
        elif mode == 'predict':
            return x, labels

构建数据集

接下来，我们需要为训练和验证创建 Dataset 和 DataLoader。在本例中，我们直接使用 TorchVision 中支持的内置数据集。

import torchvision.transforms as transforms
from torch.utils.data import DataLoader

norm_cfg = dict(mean=[0.491, 0.482, 0.447], std=[0.202, 0.199, 0.201])
train_dataloader = DataLoader(batch_size=32,
                              shuffle=True,
                              dataset=torchvision.datasets.CIFAR10(
                                  'data/cifar10',
                                  train=True,
                                  download=True,
                                  transform=transforms.Compose([
                                      transforms.RandomCrop(32, padding=4),
                                      transforms.RandomHorizontalFlip(),
                                      transforms.ToTensor(),
                                      transforms.Normalize(**norm_cfg)
                                  ])))
val_dataloader = DataLoader(batch_size=32,
                            shuffle=False,
                            dataset=torchvision.datasets.CIFAR10(
                                'data/cifar10',
                                train=False,
                                download=True,
                                transform=transforms.Compose([
                                    transforms.ToTensor(),
                                    transforms.Normalize(**norm_cfg)
                                ])))

构建评估指标

为了对模型进行验证和测试，我们需要定义一个名为准确率的 Metric 来评估模型性能。该指标需要继承自 BaseMetric，并实现 process 和 compute_metrics 方法。

from mmengine.evaluator import BaseMetric

class Accuracy(BaseMetric):
    def process(self, data_batch, data_samples):
        score, gt = data_samples
        # 将一个批次的结果保存到 `self.results`
        self.results.append({
            'batch_size': len(gt),
            'correct': (score.argmax(dim=1) == gt).sum().cpu(),
        })
    def compute_metrics(self, results):
        total_correct = sum(item['correct'] for item in results)
        total_size = sum(item['batch_size'] for item in results)
        # 返回一个包含评估指标结果的字典，键为指标名称
        return dict(accuracy=100 * total_correct / total_size)

构建 Runner

最后，我们可以使用之前定义的 Model、DataLoader 和 Metrics，结合其他配置，构建一个 Runner，如下所示。

from torch.optim import SGD
from mmengine.runner import Runner

runner = Runner(
    model=MMResNet50(),
    work_dir='./work_dir',
    train_dataloader=train_dataloader,
    # 用于执行反向传播和梯度更新等操作的包装器
    optim_wrapper=dict(optimizer=dict(type=SGD, lr=0.001, momentum=0.9)),
    # 设置一些训练配置，例如训练轮数
    train_cfg=dict(by_epoch=True, max_epochs=5, val_interval=1),
    val_dataloader=val_dataloader,
    val_cfg=dict(),
    val_evaluator=dict(type=Accuracy),
)

启动训练

runner.train()

了解更多

教程

高级教程

示例

训练一个GAN

常见用法

设计

迁移指南

贡献

我们非常感谢所有对MMEngine改进的贡献。请参阅CONTRIBUTING.md以获取贡献指南。

引用

如果您在研究中发现本项目有用，请考虑引用：

@article{mmengine2022,
  title   = {{MMEngine}: OpenMMLab用于训练深度学习模型的基础库},
  author  = {MMEngine贡献者},
  howpublished = {\url{https://github.com/open-mmlab/mmengine}},
  year={2022}
}

许可证

本项目采用Apache 2.0许可证发布。

生态系统

OpenMMLab中的项目

MIM: MIM用于安装OpenMMLab的相关软件包。
MMCV: OpenMMLab计算机视觉领域的基础库。
MMEval: 一个用于多种机器学习框架的统一评估库。
MMPreTrain: OpenMMLab预训练工具箱及基准测试平台。
MMagic: OpenMMLab Advanced, Generative和Intelligent Creation工具箱。
MMDetection: OpenMMLab目标检测工具箱及基准测试平台。
MMYOLO: OpenMMLab YOLO系列工具箱及基准测试平台。
MMDetection3D: OpenMMLab下一代通用3D目标检测平台。
MMRotate: OpenMMLab旋转目标检测工具箱及基准测试平台。
MMTracking: OpenMMLab视频感知工具箱及基准测试平台。
MMPose: OpenMMLab人体姿态估计工具箱及基准测试平台。
MMSegmentation: OpenMMLab语义分割工具箱及基准测试平台。
MMOCR: OpenMMLab文本检测、识别和理解工具箱。
MMHuman3D: OpenMMLab3D人体参数化模型工具箱及基准测试平台。
MMSelfSup: OpenMMLab自监督学习工具箱及基准测试平台。
MMFewShot: OpenMMLab少样本学习工具箱及基准测试平台。
MMAction2: OpenMMLab下一代动作理解工具箱及基准测试平台。
MMFlow: OpenMMLab光流计算工具箱及基准测试平台。
MMDeploy: OpenMMLab模型部署框架。
MMRazor: OpenMMLab模型压缩工具箱及基准测试平台。
Playground: 一个汇集并展示基于OpenMMLab构建的优秀项目的中心平台。

MMEngine 快速上手指南

MMEngine 是 OpenMMLab 开源的基于 PyTorch 的深度学习模型训练基础库。它提供了灵活的配置系统、主流的大模型训练框架支持（如 DeepSpeed、FSDP）以及丰富的训练策略，适用于从入门到大规模模型训练的各类场景。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux, Windows, macOS
Python: 3.8 ~ 3.11
PyTorch: 1.6 ~ 2.1 (请先参考 PyTorch 官方指南安装对应版本的 PyTorch)
CUDA: 根据您的显卡驱动和 PyTorch 版本选择合适的 CUDA 版本（可选，用于 GPU 加速）

2. 安装步骤

推荐使用 openmim 工具进行安装，它能自动处理依赖关系。

步骤 1：安装 openmim

pip install -U openmim

步骤 2：安装 MMEngine

mim install mmengine

提示：如果下载速度较慢，可以添加国内镜像源加速：
pip install -U openmim -i https://pypi.tuna.tsinghua.edu.cn/simple
mim install mmengine

步骤 3：验证安装 运行以下命令检查是否安装成功及查看环境信息：

python -c 'from mmengine.utils.dl_utils import collect_env;print(collect_env())'

若无报错并输出了环境配置信息，则说明安装成功。

3. 基本使用

以下示例展示如何使用 MMEngine 在 CIFAR-10 数据集上训练一个 ResNet-50 模型。整个流程包含定义模型、数据加载、评估指标和启动训练四个步骤。

第一步：定义模型

继承 BaseModel 并重写 forward 方法，需支持 mode 参数以区分训练（计算 loss）和验证（返回预测结果）。

import torch.nn.functional as F
import torchvision
from mmengine.model import BaseModel

class MMResNet50(BaseModel):
    def __init__(self):
        super().__init__()
        self.resnet = torchvision.models.resnet50()

    def forward(self, imgs, labels, mode):
        x = self.resnet(imgs)
        if mode == 'loss':
            return {'loss': F.cross_entropy(x, labels)}
        elif mode == 'predict':
            return x, labels

第二步：准备数据

构建训练集和验证集的 DataLoader。此处直接使用 TorchVision 内置的 CIFAR-10 数据集。

import torchvision.transforms as transforms
from torch.utils.data import DataLoader

norm_cfg = dict(mean=[0.491, 0.482, 0.447], std=[0.202, 0.199, 0.201])

train_dataloader = DataLoader(
    batch_size=32,
    shuffle=True,
    dataset=torchvision.datasets.CIFAR10(
        'data/cifar10',
        train=True,
        download=True,
        transform=transforms.Compose([
            transforms.RandomCrop(32, padding=4),
            transforms.RandomHorizontalFlip(),
            transforms.ToTensor(),
            transforms.Normalize(**norm_cfg)
        ]))
)

val_dataloader = DataLoader(
    batch_size=32,
    shuffle=False,
    dataset=torchvision.datasets.CIFAR10(
        'data/cifar10',
        train=False,
        download=True,
        transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(**norm_cfg)
        ]))
)

第三步：定义评估指标

继承 BaseMetric 实现准确率计算，需实现 process（处理单批次数据）和 compute_metrics（汇总计算）方法。

from mmengine.evaluator import BaseMetric

class Accuracy(BaseMetric):
    def process(self, data_batch, data_samples):
        score, gt = data_samples
        # 将单批次结果保存至 self.results
        self.results.append({
            'batch_size': len(gt),
            'correct': (score.argmax(dim=1) == gt).sum().cpu(),
        })
    
    def compute_metrics(self, results):
        total_correct = sum(item['correct'] for item in results)
        total_size = sum(item['batch_size'] for item in results)
        # 返回包含指标名称和结果的字典
        return dict(accuracy=100 * total_correct / total_size)

第四步：构建 Runner 并启动训练

使用 Runner 统一管理模型、数据、优化器和训练配置，一键启动训练。

from torch.optim import SGD
from mmengine.runner import Runner

runner = Runner(
    model=MMResNet50(),
    work_dir='./work_dir',
    train_dataloader=train_dataloader,
    # 配置优化器包装器
    optim_wrapper=dict(optimizer=dict(type=SGD, lr=0.001, momentum=0.9)),
    # 配置训练轮数等参数
    train_cfg=dict(by_epoch=True, max_epochs=5, val_interval=1),
    val_dataloader=val_dataloader,
    val_cfg=dict(),
    val_evaluator=dict(type=Accuracy),
)

# 开始训练
runner.train()

版本历史

v0.11.0rc22025/12/23

v0.11.0rc12025/12/11

v0.11.0rc02025/11/25

v0.10.72025/03/04

v0.10.62025/01/13

v0.10.52024/09/20

v0.10.42024/04/23

v0.10.32024/01/24

v0.10.22023/12/26

v0.10.12023/11/22

v0.10.02023/11/21

v0.9.12023/11/03

v0.9.02023/10/10

v0.8.52023/09/25

v0.8.42023/08/03

v0.8.32023/07/31

v0.8.22023/07/12

v0.8.12023/07/06

v0.8.02023/07/03

v0.7.42023/06/03

常见问题

如何在构建重复对象时避免每次手动处理错误，或者如何获取当前注册的实例？

在 MMSegmentation 1.x 中使用 `SegLocalVisualizer._draw_sem_seg` 可视化语义分割图时，为什么会出现边界模糊或颜色叠加异常的问题？

如果配置中 `randomness.seed=None`，运行实验后如何得知实际使用的随机种子值？

如何在自定义 Metric 类或其他模块中访问 Runner 实例的属性（如 work_dir 或 seed）？

分布式训练时导入 config 文件出现 'EOFError: Ran out of input' 错误，可能与 yapf 有关，如何解决？

项目是否有官方沟通渠道以便讨论路线图或协作事宜？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

使用场景

没有 mmengine 时

使用 mmengine 后

运行环境要求

快速开始

最新动态

简介

安装

开始使用

了解更多

贡献

引用

许可证

生态系统

OpenMMLab中的项目

MMEngine 快速上手指南

1. 环境准备

2. 安装步骤

3. 基本使用

第一步：定义模型

第二步：准备数据

第三步：定义评估指标

第四步：构建 Runner 并启动训练

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch