Pai-Megatron-Patch

1.6k 227 困难 1 次阅读今天Apache-2.0语言模型开发框架其他

AI 解读由 AI 自动生成，仅供参考

Pai-Megatron-Patch 是阿里云官方推出的深度学习训练工具包，旨在帮助开发者基于 Megatron 框架高效地训练和推理大规模语言模型（LLM）与视觉语言模型（VLM）。随着模型结构日益复杂且参数量突破百亿级，传统使用 Transformers 或 DeepSpeed 的训练方式往往面临效率瓶颈。Pai-Megatron-Patch 正是为解决这一痛点而生，它充分挖掘 GPU 算力潜能，让主流大模型的训练过程更加便捷且高性能。

该工具特别适合从事大模型预训练、微调及强化学习的算法工程师与研究人员。其核心亮点在于深度集成了 Megatron-LM 的各项加速技术，并率先支持了 Qwen3 系列、DeepSeek-V3/R1 以及 Moonlight 等前沿模型的多种训练场景。无论是基础的预训练与监督微调（SFT），还是高难度的 GRPO 强化学习，Pai-Megatron-Patch 都能提供稳定支持。此外，它还创新性地引入了上下文并行（Context Parallel）和序列打包（Sequence Packing）等技术，显著提升了如 Moonlight 等采用 MLA 架构模型的训练稳定性与效率，并实现了与 ChatLearn、Verl 等生态工具的无缝对接，是构建下一代超大规模模型的理想选择。

使用场景

某大型科技公司算法团队正致力于基于 Qwen3-Next 架构训练一个 800 亿参数的行业垂直大模型，以应对复杂的金融推理任务。

没有 Pai-Megatron-Patch 时

训练效率低下：直接使用原生 Transformers 或基础 DeepSpeed 框架，在处理超大规模参数时显存利用率不足，导致单卡吞吐量极低，训练周期被无限拉长。
并行策略复杂：面对 80B 量级模型，手动配置数据并行、张量并行及流水线并行极其繁琐，极易因配置错误导致显存溢出（OOM）或通信死锁。
强化学习难落地：想要引入 GRPO 等先进强化学习算法进行对齐优化时，缺乏与 Megatron 内核的高效集成，代码适配成本高且运行不稳定。
新架构支持滞后：对于 Qwen3-Next 等最新模型的稀疏注意力（MoE）或多查询注意力机制，开源社区通用方案往往支持滞后，需自行修改底层算子。

使用 Pai-Megatron-Patch 后

极致算力释放：Pai-Megatron-Patch 内置了针对阿里云 GPU 优化的 Megatron-LM 加速技术，显著提升了千亿参数模型的训练吞吐，将预计训练时间从数周缩短至数天。
一键式并行配置：工具提供了开箱即用的混合并行模板，自动管理复杂的切分逻辑，团队无需关注底层通信细节即可稳定运行超大模型。
无缝集成强化学习：通过与 ChatLearn 和 Verl 的深度打通，直接支持 Qwen3-Next 的 GRPO 强化训练，让模型对齐流程变得流畅且高效。
前沿模型即时可用：官方持续更新对 Qwen3 系列及 DeepSeek-V3 等最新架构的支持，团队能立即利用最新的 MoE 结构特性，无需等待社区适配。

Pai-Megatron-Patch 通过屏蔽底层分布式训练的复杂性并最大化硬件效能，让企业能够以最低成本快速构建和迭代顶尖规模的行业大模型。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
支持 FP8 训练需 Hopper 架构（如 H800/H100）或配合 Transformer Engine
支持 Flash-Attention 2/3
针对 DeepSeek-V3 (671B)、Qwen3 (235B) 等超大模型，需多卡分布式集群环境

内存

未说明（取决于模型规模，训练千亿参数模型通常需 TB 级系统内存）

依赖

notes该工具主要面向阿里云 PAI-Lingjun 智能计算服务及大规模分布式训练场景。核心特性包括：1. 基于 Megatron-Core 的非侵入式补丁设计；2. 支持 DeepSeek-V3/R1、Qwen3 系列等超大规模 MoE 模型的预训练、SFT 及强化学习（GRPO/GSPO）；3. 提供 Huggingface 与 Megatron 权重双向转换工具；4. 支持 FP8 加速、序列并行、上下文并行及优化器卸载等高级特性。具体环境配置需参考各模型示例目录下的详细文档。

python未说明

Megatron-Core

PyTorch

Transformer Engine

Flash-Attention

ChatLearn

Verl

Huggingface Transformers

快速开始

快速入门

	Megatron-Core	ChatLearn	verl
Qwen3-Omni	使用说明	无	即将推出
Qwen3-Next	使用说明	使用说明	即将推出
Qwen3	使用说明	使用说明	使用说明
Qwen3-VL	使用说明	无	即将推出
Qwen2.5-VL	使用说明	使用说明	无
Moonlight	使用说明	使用说明	使用说明
DeepSeek-V3	使用说明	无	无
DeepSeek-R1	无	使用说明	使用说明

简介

英语 | 简体中文

Pai-Megatron-Patch（https://github.com/alibaba/Pai-Megatron-Patch）是一款专为开发者打造的深度学习训练工具包，旨在帮助用户轻松使用Megatron框架训练和预测大语言模型（LLM）及多模态模型（VLM）。随着大语言模型的不断发展，模型结构和规模也在迅速演进。尽管这些模型可以借助Transformers或DeepSpeed等训练框架便捷地构建，但其训练效率相对较低。当模型规模超过100亿参数时，这一问题尤为突出。Pai-Megatron-Patch的主要目标是高效利用GPU的计算资源来加速大语言模型的训练。该工具支持使用Megatron-LM提供的所有加速技术，方便用户训练常用的大语言模型。

亮点

Pai-Megatron-Patch由阿里云机器学习平台（PAI）算法团队开发。该工具旨在帮助开发者快速上手Lingjun系列产品，并完成大语言模型的完整开发流程，包括高效的分布式训练、监督微调以及离线模型推理或验证。其主要优势如下：

支持多种常用的大语言模型，如llama、llama-2、codellama、deepseek、baichuan、qwen、Falcon、GLM、Starcoder、Bloom、chatglm等。
支持模型权重转换：实现Huggingface、Megatron和Transformer Engine之间算子命名空间的映射。
支持在Flash Attention 2.0和Transformer Engine模式下进行FP8训练加速，确保训练收敛。
提供丰富且易用的使用示例，涵盖大语言模型预训练、微调、评估、推理以及强化学习的全流程最佳实践。

框架

Pai-Megatron-Patch 的设计理念是避免对 Megatron-LM 源代码进行侵入性修改。换言之，它不会直接向 Megatron-LM 添加新模块。相反，需要扩展和改进的功能以补丁的形式呈现。这种解耦设计确保用户在不受到 Megatron-LM 升级影响的情况下，仍能持续采用 LLM 领域的最佳实践。

Pai-Megatron-Patch 包含构建 LLM 训练所需的关键组件，例如模型库、分词器、模型转换工具、强化学习模块、离线文本生成工具、使用示例以及工具包。模型库提供了基于 Megatron 实现的热门 LLM，如 Baichuan、BLOOM、ChatGLM、Falcon、Galactica、GLM、Llama、Qwen 和 StarCoder 等。未来还将根据需求添加更多基于 Megatron 的 LLM 实现。此外，该补丁还支持 Hugging Face 和 Megatron 模型权重之间的双向转换。这使得用户能够轻松地将 Hugging Face 预训练模型用于 Megatron 中的继续预训练或微调，同时也可以利用 Hugging Face 的评估/推理流水线对已训练的 Megatron 模型进行质量评估。

在强化学习部分，该补丁提供了 PPO 训练工作流，使用户能够使用 SFT 模型和 RM 模型进行强化学习。最后，该补丁还提供了大量使用示例，帮助用户快速启动 LLM 训练和离线推理。关于阿里云灵骏产品中的具体使用流程，请参阅以下链接：PAI-灵骏智能计算服务 LLM 解决方案。

技术报告

联系方式

请使用钉钉扫描下方二维码加入群组。

注意：群 1 和 2 已满员，请加入群 3。

许可证

本项目采用 Apache License (Version 2.0) 许可证。此外，该工具包还包含从其他仓库基于不同开源许可证修改而来的部分代码。更多信息请参阅 NOTICE 文件。

Pai-Megatron-Patch 快速上手指南

Pai-Megatron-Patch 是由阿里云 PAI 团队开发的深度学习训练工具包，旨在帮助开发者基于 Megatron 框架高效地训练和推理大语言模型（LLM）及多模态大模型（VLM）。它支持 Qwen、DeepSeek、Llama 等主流模型，并提供从预训练、微调（SFT）到强化学习（RLHF/GRPO）的全流程加速方案。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04 或 CentOS 7+)
GPU: NVIDIA GPU (建议显存充足以支持大模型分布式训练)
CUDA: 根据显卡驱动版本安装对应的 CUDA Toolkit (通常建议 11.8 或 12.x)
Python: 3.8 - 3.10
前置依赖:
- PyTorch (需与 CUDA 版本匹配)
- NVIDIA Apex (可选，用于混合精度训练)
- Transformer Engine (推荐，用于 FP8 加速)
- Git

提示：推荐使用阿里云 PAI-DSW 或灵骏智算服务，这些环境已预装相关依赖并针对国内网络进行了优化。

2. 安装步骤

步骤一：克隆项目代码

git clone https://github.com/alibaba/Pai-Megatron-Patch.git
cd Pai-Megatron-Patch

步骤二：安装核心依赖

建议使用虚拟环境（如 conda）进行隔离。以下命令将安装 Megatron-Core 及项目所需的基础库。

# 创建并激活 conda 环境 (示例)
conda create -n mpatch python=3.10 -y
conda activate mpatch

# 安装 PyTorch (请以官方推荐的与您 CUDA 版本匹配的命令为准)
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目依赖
pip install -r requirements.txt

步骤三：配置环境变量与路径

为了方便调用，建议将项目根目录添加到 PYTHONPATH：

export PYTHONPATH=$PWD:$PYTHONPATH

如果您需要使用特定的模型权重转换工具或强化学习框架（如 ChatLearn 或 Verl），请参考对应模型目录下的 README 安装额外依赖。

3. 基本使用

Pai-Megatron-Patch 针对不同模型（如 Qwen3, DeepSeek-V3, Moonlight 等）和不同任务（预训练、SFT、RL）提供了独立的示例脚本。以下以 Qwen3 模型的监督微调（SFT） 为例展示最简使用流程。

3.1 准备数据与权重

确保您已准备好 HuggingFace 格式的模型权重和数据集。Pai-Megatron-Patch 支持自动将 HF 权重转换为 Megatron 格式。

3.2 运行微调任务

进入对应模型的示例目录（例如 examples/qwen3），使用提供的启动脚本运行任务。

cd examples/qwen3

# 运行 SFT 训练脚本
# 请根据实际机器配置修改 --nproc_per_node 和其他超参数
python train_sft.py \
    --model-name-or-path /path/to/qwen3-hf-model \
    --data-path /path/to/train_data.jsonl \
    --output-dir ./output_qwen3_sft \
    --per-device-train-batch-size 1 \
    --gradient-accumulation-steps 4 \
    --learning-rate 1e-5 \
    --num-train-epochs 3 \
    --fp16

3.3 进阶：使用强化学习 (GRPO)

若需进行强化学习训练（如使用 ChatLearn 或 Verl 框架），请参考对应模型的专用文档。例如，对 Qwen3 使用 Verl 进行 GRPO 训练：

# 在 examples/qwen3 目录下
python train_grpo_verl.py \
    --sft-model-path ./output_qwen3_sft \
    --reward-model-path /path/to/rm-model \
    --prompt-data-path /path/to/prompts.jsonl \
    --algo grpo

注意：具体参数配置（如张量并行 TP、流水线并行 PP、序列并行 SP 等）需根据您的集群规模调整。详细参数说明请查阅各模型文件夹下的 README.md 文件（如 examples/qwen3/README.md）。

3.4 模型权重转换

训练完成后，如需将 Megatron 格式的 checkpoint 转回 HuggingFace 格式以便推理或上传，可使用内置转换工具：

python tools/convert_checkpoint/convert_mcore_to_hf.py \
    --input-dir ./output_qwen3_sft/checkpoints/iter_XXX \
    --output-dir ./hf_qwen3_final \
    --model-type qwen3

版本历史

v0.12.32025/10/31

v0.12.22025/09/30

v0.12.12025/09/03

v0.12.02025/08/01

v0.11.32025/07/02

v0.11.22025/05/27

v0.11.12025/04/30

v0.11.02025/03/31

v0.10.32025/02/28

v0.10.22025/01/24

v0.10.12025/01/03

v0.10.02024/11/29

v0.9.32024/10/30

v0.9.22024/09/27

v0.9.12024/08/30

v0.9.02024/07/26

v0.8.32024/06/28

v0.8.22024/05/31

v0.8.12024/04/26

v0.8.02024/03/21

常见问题

在使用 TP > 1 进行训练时遇到 RuntimeError: device_supports_multicast 错误，如何解决？

DeepSeek V2/V3 模型在保存 checkpoint 时报错或格式不兼容，如何处理？

如何将 Megatron-LM 训练的分布式 checkpoint (torch_dist) 转换为 HuggingFace 格式？

转换 DeepSeek V2/V3 等大模型 checkpoint 时内存占用过高（接近 2T），如何优化？

增加 TP/PP 并行度后，模型初始 Loss 异常升高且训练效果下降，是什么原因？

在转换或加载 checkpoint 时遇到 `_extra_state` 相关的 FP8 错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent