Motus
Motus 是一款统一的潜在动作世界模型,旨在为机器人赋予更强大的感知、决策与行动能力。它巧妙整合了现有的预训练大模型与丰富的运动信息,通过独特的“混合变压器(MoT)”架构,将理解、动作执行和视频生成三大专家模块融为一体。
针对传统机器人模型难以灵活切换任务模式、动作学习不够精细的痛点,Motus 引入类 UniDiffuser 调度器,支持在世界模型、视觉 - 语言 - 动作模型及视频生成等多种模式间自由切换。其核心技术亮点在于利用光流技术学习“潜在动作”,并通过三阶段训练流程与六层数据金字塔,从像素级提取细微的动作变化,实现了大规模的动作预训练。在 RoboTwin 2.0 仿真测试中,其平均任务成功率高达 87.02%,显著优于同类主流模型。
Motus 主要面向机器人领域的研究人员与开发者,特别是那些致力于探索具身智能、多模态大模型应用以及需要高性能仿真训练的专业团队。由于推理和训练对显存要求较高(推荐 RTX 5090 或 A100/H100 等专业显卡),它更适合具备一定算力基础的技术用户进行二次开发、算法研究或复杂场景的模型部署。
使用场景
某具身智能研发团队正在为仓储物流机器人开发一套能同时理解指令、规划动作并预测执行结果的通用控制系统。
没有 Motus 时
- 模型割裂严重:团队需分别维护视觉语言模型(VLM)、动作策略模型和视频生成模型,导致系统架构臃肿,多模型间的数据对齐与协同推理极其困难。
- 动作泛化能力弱:传统方法难以从有限的示教数据中提取像素级的细微动作差异,机器人在面对未见过的货物摆放或光照变化时,成功率大幅下降。
- 训练数据利用率低:缺乏统一的潜在动作空间,无法有效融合大规模异构数据(如不同机器人采集的轨迹),导致多任务联合训练效果不佳,平均成功率难以突破 70%。
- 推理模式僵化:系统无法灵活切换“正向预测”与“逆向推导”模式,当需要反推“如何达成目标状态”时,必须重新训练专用的逆动力学模型。
使用 Motus 后
- 统一架构集成:Motus 通过混合专家(MoT)架构将理解、动作和视频生成三大能力整合进一个约 8B 参数的统一模型中,大幅简化了部署流程并实现了端到端的协同推理。
- 潜在动作增强泛化:利用光流技术学习像素级“增量动作”,Motus 能从海量数据中提取共享的运动规律,使机器人在复杂随机环境下的任务成功率提升至 87.02%。
- 大规模数据预训练:借助六层数据金字塔和三阶段训练流程,Motus 高效融合了多源异构数据,显著提升了模型在 50 种不同仓储任务中的零样本适应能力。
- 灵活模式切换:依托 UniDiffuser 风格的调度器,开发者可随时让 Motus 在“世界模型预测”、“视觉 - 语言 - 动作控制”及“视频生成”等多种模式间无缝切换,无需额外训练。
Motus 通过构建统一的潜在动作世界模型,彻底打破了感知、决策与生成的壁垒,让机器人真正具备了像人类一样“看懂、想通、做对”的通用智能。
运行环境要求
- 未说明
- 必需 NVIDIA GPU
- 推理模式:预编码 T5 需 >24GB 显存 (推荐 RTX 5090),无预编码 T5 需 ~41GB 显存 (推荐 A100/H100/B200)
- 训练模式:需 >80GB 显存 (推荐 A100 80GB/H100/B200)
- 安装指令指定 CUDA 12.8
未说明

快速开始
Motus:统一的潜在动作世界模型
目录
概述
Motus 是一种 统一的潜在动作世界模型,它利用现有的预训练模型和丰富、可共享的动作信息。Motus 引入了 Transformer 混合体(MoT) 架构,以整合三个专家(理解、动作和视频生成),并采用 UniDiffuser 风格调度器,实现不同建模模式之间的灵活切换(世界模型、视觉-语言-动作模型、逆动力学模型、视频生成模型以及视频-动作联合预测模型)。Motus 进一步利用 光流 来学习 潜在动作,并采用 三阶段训练流程 和 六层数据金字塔,从而提取像素级的“动作增量”,并支持大规模动作预训练。
| 组件 | 基础模型 | 参数量 |
|---|---|---|
| VGM(视频生成模型) | Wan2.2-5B | ~5.00B |
| VLM(视觉-语言模型) | Qwen3-VL-2B | ~2.13B |
| 动作专家 | - | ~641.5M |
| 理解专家 | - | ~253.5M |
| 总计 | - | ~8B |
关键结果(RoboTwin 2.0 模拟。 在每个任务中使用 50 个干净数据和 500 个随机化数据条目,我们将所有 50 个任务的数据合并进行多任务训练。):
- 87.02% 的平均成功率(比 X-VLA 高 15%,比 π₀.₅ 高 45%)
更新
- [2025-12-16] Motus 初始发布,包含预训练检查点和训练代码。
- [2025-12-20] 简单的 RoboTwin 推理
- [2025-12-24] 支持 LeRobotDataset 格式
- [2025-12-24] 优化的训练脚本
- [2025-12-26] 支持 MultiLeRobotDataset 格式
- [2025-12-27] RoboTwin 原始数据转换
- [2025-12-27] 三视角图像拼接脚本
我们欢迎社区成员帮助维护和扩展 Motus。欢迎加入 Motus 社区,共同贡献!
要求
| 模式 | 显存 | 推荐显卡 |
|---|---|---|
| 推理(使用预编码 T5) | > 24 GB | RTX 5090 |
| 推理(不使用预编码 T5) | ~ 41 GB | A100 (40GB) / A100 (80GB) / H100 / B200 |
| 训练 | > 80 GB | A100 (80GB) / H100 / B200 |
安装
# 克隆仓库
git clone https://github.com/thu-ml/Motus.git
cd Motus
# 创建 conda 环境
conda create -n motus python=3.10 -y
conda activate motus
# 安装 torch(cuda12.8)
pip install torch==2.7.1 torchvision==0.22.1 --index-url https://download.pytorch.org/whl/cu128
# 安装 flash
pip install flash-attn --no-build-isolation
# 安装 Motus 依赖
pip install -r requirements.txt
# (可选)安装 lerobot 依赖
pip install --no-deps lerobot==0.3.2
pip install -r requirements/lerobot.txt
模型检查点
我们为不同的用例提供了多个检查点:
| 模型 | 用例 | 描述 | 检查点路径 |
|---|---|---|---|
| Motus_Wan2_2_5B_pretrain | 预训练 / VGM 主干 | 第一阶段 VGM 预训练检查点 | motus-robotics/Motus_Wan2_2_5B_pretrain |
| Motus | 微调 | 第二阶段潜在动作预训练检查点 | motus-robotics/Motus |
| Motus_robotwin2 | 推理 / 微调 | 第三阶段 RoboTwin2 微调检查点 | motus-robotics/Motus_robotwin2 |
下载检查点:
# 创建预训练模型目录
mkdir -p pretrained_models
# 下载 Motus 检查点
huggingface-cli download motus-robotics/Motus_Wan2_2_5B_pretrain --local-dir ./pretrained_models/Motus_Wan2_2_5B_pretrain
huggingface-cli download motus-robotics/Motus --local-dir ./pretrained_models/Motus
huggingface-cli download motus-robotics/Motus_robotwin2 --local-dir ./pretrained_models/Motus_robotwin2
# 下载基础模型
huggingface-cli download Qwen/Qwen3-VL-2B-Instruct --local-dir ./pretrained_models/Qwen3-VL-2B-Instruct
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./pretrained_models/Wan2.2-TI2V-5B
在您的特定机器人配置文件中更新配置路径(例如 configs/robotwin.yaml、configs/ac_one.yaml 或其他机器人配置文件):
model:
wan:
checkpoint_path: "./pretrained_models/Motus_Wan2_2_5B_pretrain"
config_path: "./pretrained_models/Motus_Wan2_2_5B_pretrain"
vae_path: "./pretrained_models/Wan2.2-TI2V-5B/Wan2.2_VAE.pth"
vlm:
checkpoint_path: "./pretrained_models/Qwen3-VL-2B-Instruct"
config_path: "./pretrained_models/Qwen3-VL-2B-Instruct"
数据格式
Motus 支持三种类型的数据集,并具有特定的目录结构,以实现最佳的训练和推理效果。
📖 查看详细指南: 数据格式指南
快速概览:
- RoboTwin 2.0:带有干净/随机化划分的模拟数据
- 真实世界:AC-One、Aloha-Agilex-2 机器人数据
数据转换工具:
运行推理
📖 查看详细指南: 推理指南
- RoboTwin 2.0:评估设置
- 真实世界:无需机器人环境的最小化推理
训练
Motus 遵循 三阶段训练流程:
| 阶段 | 数据 | 训练 |
|---|---|---|
| 预训练基础模型 | 第1层:网络数据 | VGM 和 VLM |
| 第1阶段(VGM 训练) | 第2层:第一人称视角的人类视频 第3层:合成数据 第5层:多机器人任务轨迹 |
仅 VGM |
| 第2阶段(Motus 预训练) | 第2层:第一人称视角的人类视频 第3层:合成数据 第4层:与任务无关的数据 第5层:多机器人任务轨迹 |
Motus(所有3个专家,使用潜在动作) |
| 第3阶段(Motus SFT) | 第6层:目标机器人任务轨迹 | Motus(所有3个专家,使用动作) |
六层数据金字塔如图所示:
📖 查看详细指南: 训练指南
数据准备:
故障排除
📖 详细指南:
引用
如果您觉得我们的工作有所帮助,请引用我们:
@misc{bi2025motusunifiedlatentaction,
title={Motus: 统一潜在动作世界模型},
author={Hongzhe Bi 和 Hengkai Tan 和 Shenghao Xie 和 Zeyuan Wang 和 Shuhe Huang 和 Haitian Liu 和 Ruowen Zhao 和 Yao Feng 和 Chendong Xiang 和 Yinze Rong 和 Hongyan Zhao 和 Hanyu Liu 和 Zhizhong Su 和 Lei Ma 和 Hang Su 和 Jun Zhu},
year={2025},
eprint={2512.13030},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2512.13030},
}
谢谢!
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。