Pai-Megatron-Patch
Pai-Megatron-Patch 是阿里云官方推出的深度学习训练工具包,旨在帮助开发者基于 Megatron 框架高效地训练和推理大规模语言模型(LLM)与视觉语言模型(VLM)。随着模型结构日益复杂且参数量突破百亿级,传统使用 Transformers 或 DeepSpeed 的训练方式往往面临效率瓶颈。Pai-Megatron-Patch 正是为解决这一痛点而生,它充分挖掘 GPU 算力潜能,让主流大模型的训练过程更加便捷且高性能。
该工具特别适合从事大模型预训练、微调及强化学习的算法工程师与研究人员。其核心亮点在于深度集成了 Megatron-LM 的各项加速技术,并率先支持了 Qwen3 系列、DeepSeek-V3/R1 以及 Moonlight 等前沿模型的多种训练场景。无论是基础的预训练与监督微调(SFT),还是高难度的 GRPO 强化学习,Pai-Megatron-Patch 都能提供稳定支持。此外,它还创新性地引入了上下文并行(Context Parallel)和序列打包(Sequence Packing)等技术,显著提升了如 Moonlight 等采用 MLA 架构模型的训练稳定性与效率,并实现了与 ChatLearn、Verl 等生态工具的无缝对接,是构建下一代超大规模模型的理想选择。
使用场景
某大型科技公司算法团队正致力于基于 Qwen3-Next 架构训练一个 800 亿参数的行业垂直大模型,以应对复杂的金融推理任务。
没有 Pai-Megatron-Patch 时
- 训练效率低下:直接使用原生 Transformers 或基础 DeepSpeed 框架,在处理超大规模参数时显存利用率不足,导致单卡吞吐量极低,训练周期被无限拉长。
- 并行策略复杂:面对 80B 量级模型,手动配置数据并行、张量并行及流水线并行极其繁琐,极易因配置错误导致显存溢出(OOM)或通信死锁。
- 强化学习难落地:想要引入 GRPO 等先进强化学习算法进行对齐优化时,缺乏与 Megatron 内核的高效集成,代码适配成本高且运行不稳定。
- 新架构支持滞后:对于 Qwen3-Next 等最新模型的稀疏注意力(MoE)或多查询注意力机制,开源社区通用方案往往支持滞后,需自行修改底层算子。
使用 Pai-Megatron-Patch 后
- 极致算力释放:Pai-Megatron-Patch 内置了针对阿里云 GPU 优化的 Megatron-LM 加速技术,显著提升了千亿参数模型的训练吞吐,将预计训练时间从数周缩短至数天。
- 一键式并行配置:工具提供了开箱即用的混合并行模板,自动管理复杂的切分逻辑,团队无需关注底层通信细节即可稳定运行超大模型。
- 无缝集成强化学习:通过与 ChatLearn 和 Verl 的深度打通,直接支持 Qwen3-Next 的 GRPO 强化训练,让模型对齐流程变得流畅且高效。
- 前沿模型即时可用:官方持续更新对 Qwen3 系列及 DeepSeek-V3 等最新架构的支持,团队能立即利用最新的 MoE 结构特性,无需等待社区适配。
Pai-Megatron-Patch 通过屏蔽底层分布式训练的复杂性并最大化硬件效能,让企业能够以最低成本快速构建和迭代顶尖规模的行业大模型。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 支持 FP8 训练需 Hopper 架构(如 H800/H100)或配合 Transformer Engine
- 支持 Flash-Attention 2/3
- 针对 DeepSeek-V3 (671B)、Qwen3 (235B) 等超大模型,需多卡分布式集群环境
未说明(取决于模型规模,训练千亿参数模型通常需 TB 级系统内存)

快速开始
快速入门
| Megatron-Core | ChatLearn | verl | |
|---|---|---|---|
| Qwen3-Omni | 使用说明 | 无 | 即将推出 |
| Qwen3-Next | 使用说明 | 使用说明 | 即将推出 |
| Qwen3 | 使用说明 | 使用说明 | 使用说明 |
| Qwen3-VL | 使用说明 | 无 | 即将推出 |
| Qwen2.5-VL | 使用说明 | 使用说明 | 无 |
| Moonlight | 使用说明 | 使用说明 | 使用说明 |
| DeepSeek-V3 | 使用说明 | 无 | 无 |
| DeepSeek-R1 | 无 | 使用说明 | 使用说明 |
简介
英语 | 简体中文
最新动态:
- [实验性] 支持使用Megatron-Core进行Qwen3-Omni-thinker SFT训练 [🔥🔥 2025.11.12]
- 支持使用Megatron-Core和ChatLearn进行Qwen3-Next-80B-A3B强化训练 [🔥🔥 2025.10.17]
- 支持使用Megatron-Core进行Qwen3-VL系列预训练 [🔥🔥 2025.10.17]
- 通过上下文并行和序列打包技术,提升Moonlight/DeepSeek-V3等MLA模型RL训练的稳定性和效率 [🔥🔥 2025.10.10]
- [实验性] 支持使用Megatron-Core进行Qwen3-Next-80B-A3B预训练 [🔥🔥 2025.09.22]
- 支持使用Megatron-Core和Verl进行Qwen3及DeepSeek-R1 GRPO强化训练 [🔥🔥 2025.09.19]
- 支持使用Megatron-Core和Verl进行Moonlight GRPO强化训练 [🔥🔥 2025.09.11]
- 支持Verl无缝加载来自Pai-Megatron-Patch高性能DistCKPT转换器的分布式检查点 [🔥🔥 2025.09.05]
- 支持所有Mcore模型通过ChatLearn进行上下文并行强化训练 [🔥🔥 2025.08.31]
- 支持所有Mcore模型通过ChatLearn进行GSPO强化训练 [🔥🔥 2025.08.11]
- 支持使用Megatron-Core和ChatLearn进行DeepSeek-V3-671B GRPO强化训练 [🔥🔥 2025.07.31]
- 支持使用Megatron-Core和ChatLearn进行Qwen3-235B GRPO强化训练 [🔥🔥 2025.07.20]
- 支持使用Megatron-Core和ChatLearn进行Moonlight GRPO强化训练 [🔥🔥 2025.06.30]
- 支持使用Megatron-Core和ChatLearn进行Qwen3 GRPO强化训练 [🔥🔥 2025.06.03]
- 支持使用Megatron-Core和ChatLearn进行Qwen2.5 GRPO强化训练 [🔥🔥 2025.05.18]
- 支持所有Qwen3模型使用torch_dist检查点进行训练 [🔥🔥 2025.04.29]
- [实验性] 支持大型LLM的分布式检查点转换 [🔥🔥 2025.04.16]
- 全面升级DeepSeek-V3 SFT,实现完全基于Mcore的实现。 [🔥🔥 2025.03.31]
- 支持使用Megatron-Core训练QwQ模型。 [🔥🔥 2025.03.27]
- 支持使用Megatron-Core训练Qwen2.5-VL模型。 [🔥🔥 2025.03.21]
- 支持使用Megatron-Core从Moonshot AI KIMI处训练Moonlight-16B-A3B模型。 [🔥🔥 2025.03.14]
- 优化DeepSeek-V3的检查点转换,并新增支持ETP训练的功能。 [🔥🔥 2025.03.14]
- 支持使用Megatron-Core训练DeepSeek-V3 671B模型。 [🔥🔥 2025.02.21]
- 升级LLM SFT训练流程 [🔥🔥 2025.02.20]
- 升级DeepSeek-V2-MoE,以促进顺利过渡到集成DeepSeek-V3-MoE。 [🔥🔥 2025.01.16]
- 升级Qwen2-VL模型,支持序列并行、VPP和TP通信重叠功能。 [🔥🔥 2025.01.15]
- 升级Qwen2-VL模型,支持MG2HF检查点转换以及多轮复杂多模态样本的训练。 [🔥🔥 2024.12.27]
- 支持使用Megatron-Core训练Qwen2-VL模型。 [🔥🔥 2024.11.27]
- 支持使用Megatron-Core训练LLaVA模型。 [🔥🔥 2024.11.20]
- 新增LLM自动配置器,并为qwen2/2.5模型应用每序列SFT损失。 [🔥🔥 2024.10.30]
- 升级deepseek-v2-moe模型,支持通过Transformer引擎和流水线检查点转换实现MLA。 [🔥🔥 2024.09.26]
- 支持使用Megatron-Core训练Qwen2.5模型。 [🔥🔥 2024.09.20]
- 支持在Qwen2和LLaMA 3.1模型的SFT中使用序列打包技术。 [🔥🔥 2024.09.13]
- 升级qwen2密集型和Moe模型,支持Flash-Attention 3、卸载和通信重叠等功能。 [🔥🔥 2024.08.26]
- 支持使用Flash-Attention 3后端训练LLaMA 3.1密集型模型。 [🔥🔥 2024.08.23]
- 支持使用Megatron-Core训练LLaMA 3.1密集型模型。 [🔥🔥 2024.08.23]
- 支持在OffloadDistributedOptimizer中启用自动优化器卸载功能。 [🔥🔥 2024.07.25]
- 支持在OffloadDistributedOptimizer中启用静态优化器卸载功能。 [🔥🔥 2024.07.15]
- 支持使用Megatron-Core训练qwen2 Moe模型。 [🔥🔥 2024.06.19]
- 支持使用Megatron-Core训练qwen2密集型模型。 [🔥🔥 2024.06.12]
- 支持使用Megatron-Core训练deepseek-v2-moe模型。 [🔥🔥 2024.05.30]
- 支持使用Megatron-Core训练qwen1.5-Moe模型。 [🔥🔥 2024.05.13]
- 支持使用Megatron-LM和Megatron-Core训练llama3模型。 [🔥🔥 2024.04.21]
- 支持使用Megatron-Core训练qwen1.5模型。 [🔥🔥 2024.03.20]
- 支持使用Megatron-LM训练qwen1.5模型。 [🔥🔥 2024.02.28]
- 支持使用Megatron-Core训练mixtral-8x7b Moe模型。 [🔥🔥 2024.01.26]
- 支持使用Megatron-LM训练qwen-VL多模态模型。 [🔥🔥 2023.12.15]
- 支持使用Megatron-LM训练LLava多模态模型。 [🔥🔥 2023.12.01]
- 支持使用Megatron-LM训练deepseek模型。 [🔥🔥 2023.11.24]
- 支持使用Megatron-LM训练qwen-72B模型。 [🔥🔥 2023.11.23]
- 支持训练Mistral-7B、Yi-6B和Codellama-34B模型。 [🔥🔥 2023.11.16]
- 升级Megatron-LM,使Llama2、qwen和baichuan2能够使用Transformer引擎和FP8精度。 [🔥🔥 2023.10.19]
- 支持使用Megatron-LM训练qwen-14B和baichuan2-13B模型。 [🔥🔥 2023.10.08]
亮点
Pai-Megatron-Patch由阿里云机器学习平台(PAI)算法团队开发。该工具旨在帮助开发者快速上手Lingjun系列产品,并完成大语言模型的完整开发流程,包括高效的分布式训练、监督微调以及离线模型推理或验证。其主要优势如下:
- 支持多种常用的大语言模型,如llama、llama-2、codellama、deepseek、baichuan、qwen、Falcon、GLM、Starcoder、Bloom、chatglm等。
- 支持模型权重转换:实现Huggingface、Megatron和Transformer Engine之间算子命名空间的映射。
- 支持在Flash Attention 2.0和Transformer Engine模式下进行FP8训练加速,确保训练收敛。
- 提供丰富且易用的使用示例,涵盖大语言模型预训练、微调、评估、推理以及强化学习的全流程最佳实践。
框架
Pai-Megatron-Patch 的设计理念是避免对 Megatron-LM 源代码进行侵入性修改。换言之,它不会直接向 Megatron-LM 添加新模块。相反,需要扩展和改进的功能以补丁的形式呈现。这种解耦设计确保用户在不受到 Megatron-LM 升级影响的情况下,仍能持续采用 LLM 领域的最佳实践。
Pai-Megatron-Patch 包含构建 LLM 训练所需的关键组件,例如模型库、分词器、模型转换工具、强化学习模块、离线文本生成工具、使用示例以及工具包。模型库提供了基于 Megatron 实现的热门 LLM,如 Baichuan、BLOOM、ChatGLM、Falcon、Galactica、GLM、Llama、Qwen 和 StarCoder 等。未来还将根据需求添加更多基于 Megatron 的 LLM 实现。此外,该补丁还支持 Hugging Face 和 Megatron 模型权重之间的双向转换。这使得用户能够轻松地将 Hugging Face 预训练模型用于 Megatron 中的继续预训练或微调,同时也可以利用 Hugging Face 的评估/推理流水线对已训练的 Megatron 模型进行质量评估。
在强化学习部分,该补丁提供了 PPO 训练工作流,使用户能够使用 SFT 模型和 RM 模型进行强化学习。最后,该补丁还提供了大量使用示例,帮助用户快速启动 LLM 训练和离线推理。关于阿里云灵骏产品中的具体使用流程,请参阅以下链接:PAI-灵骏智能计算服务 LLM 解决方案。
技术报告
- 基于PAI-ChatLearn的GSPO强化学习实践
- 基于 Megatron 的多模态大模型训练加速技术解析
- Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态
- Meta Llama3.1模型在PAI-Megatron-Patch的最佳实践
- 基于Megatron-Core的稀疏大模型训练工具:阿里云MoE大模型最佳实践
- Mixtral-8x7B在PAI灵骏的训练指南
- 通义千问开源模型在PAI灵骏的最佳实践
- 阿里云机器学习PAI开源AI大模型训练工具Pai-Megatron-Patch, 助力大模型技术落地
- 基于单机最高能效270亿参数GPT模型的文本生成与理解
- 中文稀疏GPT大模型落地 — 通往低成本&高性能多任务通用自然语言理解的关键里程碑
- 预训练知识度量比赛夺冠!阿里云PAI发布知识预训练工具
- 阿里云PAI获得FewCLUE基于大模型的小样本学习双料冠军
联系方式
请使用 钉钉 扫描下方二维码加入群组。
注意:群 1 和 2 已满员,请加入群 3。
许可证
本项目采用 Apache License (Version 2.0) 许可证。此外,该工具包还包含从其他仓库基于不同开源许可证修改而来的部分代码。更多信息请参阅 NOTICE 文件。
版本历史
v0.12.32025/10/31v0.12.22025/09/30v0.12.12025/09/03v0.12.02025/08/01v0.11.32025/07/02v0.11.22025/05/27v0.11.12025/04/30v0.11.02025/03/31v0.10.32025/02/28v0.10.22025/01/24v0.10.12025/01/03v0.10.02024/11/29v0.9.32024/10/30v0.9.22024/09/27v0.9.12024/08/30v0.9.02024/07/26v0.8.32024/06/28v0.8.22024/05/31v0.8.12024/04/26v0.8.02024/03/21常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备