Magma

1.9k 156 中等 1 次阅读今天MIT语言模型图像视频Agent其他

AI 解读由 AI 自动生成，仅供参考

Magma 是一款面向多模态 AI 智能体的基础模型，旨在打通虚拟数字世界与真实物理世界的交互壁垒。它不仅能像人类一样理解图像和视频内容，更能基于目标自主生成可视化的行动规划与具体操作指令，从而胜任复杂的代理任务。

传统 AI 模型往往局限于单一的内容识别或文本生成，难以在动态环境中进行空间推理和连续决策。Magma 正是为了解决这一痛点而生，它在用户界面导航、机器人操控以及通用视听理解等任务上均达到了业界领先水平，特别是在空间理解与逻辑推理方面表现卓越。

Magma 的核心技术亮点在于其可扩展的预训练策略。除了利用现有的智能体数据外，它还能直接从野外未标注的视频中学习视觉轨迹，这种独特的学习方式赋予了模型极强的泛化能力，使其能更好地适应现实世界的复杂应用。

这款模型非常适合 AI 研究人员、开发者以及从事机器人学和自动化系统设计的专业人士使用。无论是希望构建能自动操作软件界面的智能助手，还是开发能在实体环境中执行任务的机器人，Magma 都提供了一个强大且灵活的基础底座，助力多模态智能体技术的落地与创新。

使用场景

某智能家居机器人开发团队正致力于让机器人通过观察人类操作视频，自主学会在复杂物理环境中完成“整理桌面”等长序列任务。

没有 Magma 时

感知与行动割裂：团队需分别训练视觉理解模型和动作控制策略，导致机器人能“看懂”物体却无法精准规划抓取路径，空间推理能力极弱。
数据标注成本高昂：为了让机器人学会新任务，工程师必须人工逐帧标注大量操作视频中的关键动作和物体状态，耗时数周且难以规模化。
泛化能力受限：模型仅在特定实验室环境下有效，一旦光照变化或物品摆放位置微调，机器人便无法适应，需重新采集数据训练。
多模态协同困难：处理涉及屏幕指令（数字世界）与机械臂操作（物理世界）的混合任务时，需编写复杂的规则引擎桥接两个系统，维护成本极高。

使用 Magma 后

端到端多模态决策：Magma 作为统一基座模型，直接输入视频即可生成包含空间推理的目标驱动计划，机器人能精准理解“把红色杯子移到笔记本电脑左侧”并执行。
无监督视频学习：利用 Magma 可扩展的预训练策略，团队直接投喂海量未标注的野外操作视频，模型自动提取视觉轨迹（Visual Traces），将数据准备周期从数周缩短至数天。
强大的零样本泛化：凭借在数字与物理双世界的预训练，Magma 让机器人在未见过的家庭场景中也能灵活调整策略，无需针对新环境重新训练。
跨域任务无缝切换：单个 Magma 模型即可同时处理手机 UI 导航和实体机械臂操控，不再需要额外的规则桥接，实现了真正的通用智能体架构。

Magma 通过统一数字与物理世界的感知行动闭环，将多模态智能体的开发从繁琐的定制化拼凑转变为高效的可扩展学习。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU（隐含，因依赖 CUDA 生态及 bitsandbytes），具体显存和 CUDA 版本未说明

内存

未说明

依赖

notes必须安装特定分支的定制版 transformers (git+https://github.com/jwyang/transformers.git) 以修复 ConvNext 骨干网络中 'gamma' 参数的加载错误。项目推荐使用 conda 管理环境。额外依赖包括 co-tracker 和 kmeans_pytorch，需从 GitHub 源码安装而非 pip。模型支持 8B 参数规模，推理可能需要较大显存。

python3.10

torch

transformers>=4.49.0 (需使用定制版)

co-tracker

kmeans_pytorch

faiss-cpu

decord

imageio[ffmpeg]

ipython

快速开始

🤖 Magma：多模态AI智能体的基础模型

Jianwei Yang^*¹^† Reuben Tan¹^† Qianhui Wu¹^† Ruijie Zheng²^‡ Baolin Peng¹^‡ Yongyuan Liang²^‡

Yu Gu¹ Mu Cai³ Seonghyeon Ye⁴ Joel Jang⁵ Yuquan Deng⁵ Lars Liden¹ Jianfeng Gao¹^▽

¹ 微软研究院；² 马里兰大学；³ 威斯康星大学麦迪逊分校
⁴ KAIST；⁵ 华盛顿大学

^* 项目负责人 ^† 第一作者 ^‡ 第二作者 ^▽ 领导层

CVPR 2025

📄 arXiv论文 🌐 项目主页 🤗 Hugging Face模型 ☁️ Azure AI Foundry 📺 视频

迈向多模态AI智能体之路

:sparkles: 亮点

数字与物理世界： Magma是首个面向多模态AI智能体的基础模型，专为处理虚拟与现实环境中的复杂交互而设计！
多功能能力： Magma作为单一模型，不仅具备通用的图像和视频理解能力，还能生成目标驱动的视觉规划与行动，使其在各类智能体任务中表现出色！
最先进性能： Magma在多项多模态任务上取得了最先进的性能，包括UI导航、机器人操作以及通用图像和视频理解，尤其是在空间理解和推理方面！
可扩展的预训练策略： Magma的设计使其能够从海量无标注视频中进行可扩展学习，同时结合现有的智能体数据，从而具备强大的泛化能力，非常适合实际应用！

:fire: 最新消息

[2025.04.29] Mind2Web 和 AITW 数据集，附带SoM提示标注，已在Hugging Face上发布！我们使用这些数据对Magma进行了下游微调，并在表格中报告了结果。
[2025.04.12] 🔥 我们在Hugging Face上发布了带有视觉轨迹的预训练视频 Magma-Video-ToM。
[2025.04.06] 可以从 Magma-OXE-ToM 下载带有视觉轨迹的Open X-Embodiment预训练数据。
[2025.03.16] 我们在 SoM/ToM Generation 中发布了用于生成教学视频的SoM和ToM的示例代码（即我们论文中的算法2）。
[2025.03.09] 🔥 我们发布了Magma的训练代码，并提供了一个在Magma-820K数据集上训练Magma-8B的示例。请查看 Model Training。
[2025.03.06] 我们发布了一个新的演示，展示了机器人的规划能力。运行 python agents/robot_traj/app.py 即可启动演示！
[2025.02.28] 我们在Hugging Face上发布了两个演示：Magma-UI 和 Magma-Gaming。快来体验我们的模型在动作接地和规划方面的能力吧！
[2025.02.26] ⭐ 激动人心的消息！Magma已被CVPR 2025接收！
[2025.02.25] 🎉 大新闻！我们将在 Hugging Face 和 Azure AI Foundry 上发布Magma模型！
[2025.02.23] 我们发布了Magma的推理代码！
[2025.02.20] Magma已登上 Hacker News 的榜首！
[2025.02.19] 我们将于下周二 MSR Forum on 02.25 上发布我们的代码、模型以及UI导航演示！
[2025.02.18] 我们在微软研究院的旗舰项目Magma已在 arXiv 上发布！

:bookmark_tabs: 待办事项

我们将陆续发布以下内容：

模型推理代码
添加UI和游戏代理演示
模型检查点
训练代码
带有轨迹的Open-XE预训练数据
带有轨迹的视频预训练数据
SeeClick和Vision2UI预训练数据，附带SoM
UI/Libero微调脚本
视频微调脚本

:clipboard: 目录

什么是Magma？
我们如何预训练Magma？
安装
数据预处理
- SoM和ToM的生成
模型训练
- 在Open-X上进行无SoM/ToM的预训练
- 在Magma-820K数据集上进行微调
模型使用
引用
致谢

什么是Magma？

Magma 是一个多模态 AI 代理的基础模型。作为多模态代理模型的基石，它应当具备强大的多模态感知能力，并能精确地执行目标驱动的行为（见上图）。基于这一理念，我们致力于实现以下目标：

语言与时空智能： Magma 应当同时具备强大的语言理解和时空感知能力，以理解图像和视频、根据观察结果采取行动，并进一步将外部目标转化为行动计划并加以执行。
数字世界与物理世界： Magma 不应局限于数字世界（如网页导航）或物理世界（如机器人操作），而应能够在两个世界之间无缝切换，正如人类自身一样。

为此，我们开发了一种新的预训练数据集，主要由大量未标注的野外视频以及现有的标注好的代理数据组成；同时，我们还设计了一个全新的预训练框架，能够统一训练文本、图像和动作这三种模态的数据，从而训练出一种面向多模态 AI 代理的新基础模型——Magma。

我们如何预训练 Magma？

我们从两个方面来实现这一目标：

大规模异构训练数据： 我们精心收集了大量野外数据，包括现有的多模态理解数据、UI 导航数据、机器人操作数据，以及未标注的野外视频。此外，我们还提出了一套可扩展且经济高效的新数据采集流程，用于收集未标注的野外视频。为了从原始视频和机器人轨迹中提取有用的行动监督信号，我们仔细去除了视频中的相机运动，并将其转换为“动作”监督信号，用于模型训练。这些独特的信号帮助模型学习跨模态的关联性，以及长时程的动作预测与规划。
通用预训练目标： 文本和动作本质上截然不同，因此存在巨大鸿沟，而视觉特征则是连续的。我们提出了一种统一训练三种模态的通用预训练框架，并证明这对于模型学习跨模态联系至关重要。具体而言，我们提出了“标记集合”（Set-of-Mark）和“标记轨迹”（Trace-of-Mark）作为辅助任务，用以连接不同的输出模态。通过这种方式，我们在文本与动作模态之间，以及图像与动作模态之间，建立了良好的对齐关系。

安装

将此仓库克隆到本地：

git clone https://github.com/microsoft/Magma
cd Magma

安装依赖项：

conda create -n magma python=3.10 -y
conda activate magma
pip install --upgrade pip
pip install -e .

安装用于训练的包：

pip install -e ".[train]"

安装用于代理的包：

pip install -e ".[agent]"

其他可能需要的包：

Co-tracker

# 安装 co-tracker
git clone https://github.com/facebookresearch/co-tracker
cd co-tracker
pip install -e .
pip install imageio[ffmpeg]
cd ../

Kmeans

# 安装 kmeans_pytorch，注意：使用 pip 安装会导致错误
git clone https://github.com/subhadarship/kmeans_pytorch
cd kmeans_pytorch
pip install -e .
cd ../

其他

# 安装其他包
pip install ipython
pip install faiss-cpu
pip install decord

⚠️ 请确保您已安装正确版本的 transformers（>=4.49.0）。如果遇到异常行为，请检查 transformers 的版本，必要时可参考下方的定制版 transformers。

点击展开

定制版 Transformers

⚠️ 需要注意的一点是，我们的模型使用 ConvNext 作为骨干网络，其中包含一个层缩放参数 gamma。这导致 Transformers 库出现了一个 bug：在加载模型时，它会自动将“gamma”替换为“weight”。为了解决这个问题，我们需要修改 transformers/models/auto/modeling_auto.py 文件如下：

if "gamma" in key and "clip_vision_model" not in key:
    key = key.replace("gamma", "weight")

该 bug 在最新版本的 Transformers 中仍然存在。因此，请务必安装以下无 bug 的定制版 transformers，其版本号列于 pyproject.toml 中：

pip install git+https://github.com/jwyang/transformers.git@dev/jwyang-v4.44.1

或者最新的版本：

pip install git+https://github.com/jwyang/transformers.git@dev/jwyang-v4.48.2

数据预处理

SoM 和 ToM 的生成

如论文表 1 所示，我们将 SoM 和 ToM 应用于机器人数据和教学视频。为确保实验的可重复性，我们提供了用于生成教学视频 SoM 和 ToM 的代码，位于 tools/som_tom/demo.py。您可以运行以下命令来生成机器人数据的 SoM 和 ToM：

python tools/som_tom/demo.py

随后，您将在 tools/som_tom/videos 文件夹中找到两段视频。原始轨迹由 CoTracker 提取后保存为 orig_trace.mp4，而 SoM-ToM 视频则命名为 som_tom.mp4。

模型训练

我们提供了在 Open-X-Embodiment 数据集上预训练 LLama-3-8B-Instruct，以及在不同下游任务上微调 Magma-8B 的详细说明。

在 Open-X 上不使用 SoM/ToM 进行预训练

数据准备

从官方网站下载 Open-X-Embodiment 数据集。然后相应地编辑数据配置文件 openx.yaml。数据配置文件应如下所示：

# 所有数据路径的列表
DATA_PATH: 
  - "/path/to/open-x"
IMAGE_FOLDER:
  - "siglip-224px+mx-oxe-magic-soup"    
LANGUAGE_PATH:
  - ""

在 OpenX 上进行预训练

完成数据集和配置的设置后，您可以运行以下命令来微调模型：

sh scripts/pretrain/pretrain_openx.sh

优点：我们付出了巨大努力，将 Open-X 数据加载器与 OpenVLA 解耦，使其能够兼容我们实验中使用的其他数据集*

在 Magma-820K 数据集上进行微调

数据准备

从 MagmaAI/Magma-820K 下载标注文件。请根据数据集页面上的图像列表准备图像数据。完成后，请相应地编辑 magma_820k.yaml 文件。


# 所有数据路径的列表
DATA_PATH: 
  - "/path/to/magma_820k.json"
IMAGE_FOLDER:
  - "/root/to/magma_820k/images"

从 Magma-8B 进行微调

在设置好数据集和配置后，您可以运行以下命令来微调模型：

sh scripts/finetune/finetune_magma_820k.sh

模型使用

推理

使用 Hugging Face Transformers 进行推理

我们已将模型上传至 Hugging Face Hub。您可以通过以下代码轻松加载模型和处理器。

点击展开

from PIL import Image
import torch
from transformers import AutoModelForCausalLM
from transformers import AutoProcessor 

dtype = torch.bfloat16
model = AutoModelForCausalLM.from_pretrained("microsoft/Magma-8B", trust_remote_code=True, torch_dtype=dtype)
processor = AutoProcessor.from_pretrained("microsoft/Magma-8B", trust_remote_code=True)
model.to("cuda")

# 推理
image = Image.open("./assets/images/magma_logo.jpg").convert("RGB")

convs = [
    {"role": "system", "content": "你是一个能看、能说、能行动的智能体。"},            
    {"role": "user", "content": "<image_start><image><image_end>\n机器人上是什么字母？"},
]
prompt = processor.tokenizer.apply_chat_template(convs, tokenize=False, add_generation_prompt=True)
inputs = processor(images=[image], texts=prompt, return_tensors="pt")
inputs['pixel_values'] = inputs['pixel_values'].unsqueeze(0)
inputs['image_sizes'] = inputs['image_sizes'].unsqueeze(0)
inputs = inputs.to("cuda").to(dtype)

generation_args = { 
    "max_new_tokens": 500, 
    "temperature": 0.0, 
    "do_sample": False, 
    "use_cache": True,
    "num_beams": 1,
} 

with torch.inference_mode():
    generate_ids = model.generate(**inputs, **generation_args)

generate_ids = generate_ids[:, inputs["input_ids"].shape[-1] :]
response = processor.decode(generate_ids[0], skip_special_tokens=True).strip()

print(response)

使用本仓库中的本地 Transformers 代码进行推理

如果您想调试我们的模型，我们也提供了本地推理代码。您可以运行以下代码来加载模型。

点击展开

from magma.processing_magma import MagmaProcessor
from magma.modeling_magma import MagmaForCausalLM

dtype = torch.bfloat16
model = MagmaForCausalLM.from_pretrained("microsoft/Magma-8B", trust_remote_code=True, torch_dtype=dtype)
processor = MagmaProcessor.from_pretrained("microsoft/Magma-8B", trust_remote_code=True)
model.to("cuda")

使用 bitsandbytes 进行推理

我们还提供了一个使用 bitsandbytes 进行推理的示例代码。您可以运行以下代码来加载模型。

点击展开

from PIL import Image
import torch
from transformers import AutoModelForCausalLM
from transformers import AutoProcessor 
from transformers import BitsAndBytesConfig

# 定义量化配置
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

# 加载带有量化配置的模型
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Magma-8B", 
    trust_remote_code=True,
    device_map={"": 0},  # 强制所有内容加载到 GPU 0
    quantization_config=quantization_config
)
processor = AutoProcessor.from_pretrained("microsoft/Magma-8B", trust_remote_code=True)

# 推理
image = Image.open("assets/images/magma_logo.jpg").convert("RGB")

convs = [
    {"role": "system", "content": "你是一个能看、能说、能行动的智能体。"},            
    {"role": "user", "content": "<image_start><image><image_end>\n机器人上是什么字母？"},
]
prompt = processor.tokenizer.apply_chat_template(convs, tokenize=False, add_generation_prompt=True)
inputs = processor(images=[image], texts=prompt, return_tensors="pt")
inputs['pixel_values'] = inputs['pixel_values'].unsqueeze(0)
inputs['image_sizes'] = inputs['image_sizes'].unsqueeze(0)

# 将输入转换为正确的设备和数据类型
inputs = {k: v.to(device=model.device, dtype=torch.float16 if v.dtype == torch.float32 else v.dtype) 
          for k, v in inputs.items()}

generation_args = { 
    "max_new_tokens": 500, 
    "temperature": 0.0, 
    "do_sample": False, 
    "use_cache": True,
    "num_beams": 1,
} 

with torch.inference_mode():
    generate_ids = model.generate(**inputs, **generation_args)

generate_ids = generate_ids[:, inputs["input_ids"].shape[-1] :]
response = processor.decode(generate_ids[0], skip_special_tokens=True).strip()
print(response)

基准测试

我们对模型在使用和不使用 bitsandbytes 情况下的推理时间和内存占用进行了基准测试。

模型	推理时间	内存峰值
Magma-8B (bfloat16)	1.1秒	17GB
Magma-8B (4-bit)	1.1秒	7GB

使用 lmms-eval 进行评估

请参阅 lmms-eval-instruction 以获取使用 lmms-eval 工具包进行评估的详细说明。

一切准备就绪后，您可以在根目录下运行以下代码来评估我们的模型。

sh scripts/evaluation/lmms-eval/lmms_eval_magma.sh

您可以通过修改变量 eval_tasks 来评估其他基准。运行以下代码可以查看 eval_tasks 的列表：

# lmms-eval --tasks {list_groups,list_subtasks,list_tags,list}
lmms-eval --tasks list_groups

使用 SimplerEnv 进行评估

请参阅 SimplerEnv-instruction 以获取使用 SimplerEnv 工具包进行评估的详细说明。

一切准备就绪后，您可以通过运行以下代码来评估我们的模型。

sh scripts/evaluation/simplerenv/bridge.sh

多张图片或视频支持

对于我们的模型来说，处理多张图片非常简单。您只需在文本提示中重复占位符，并相应地将所有图片添加到列表中即可。一个示例代码如下：

convs = [
    {"role": "system", "content": "你是一个能看、能说、能行动的智能体。"},            
    {"role": "user", "content": "<image_start><image><image_end>\n<image_start><image><image_end>\n<image_start><image><image_end>\n机器人上是什么字母？"},
]
prompt = processor.tokenizer.apply_chat_template(convs, tokenize=False, add_generation_prompt=True)
inputs = processor(images=[image1,image2,image3], texts=prompt, return_tensors="pt")

我们的模型会自动为您完成视觉标记的填充！

API 服务器

我们提供一个基于 FastAPI 的服务器，用于将 Magma 部署为 REST API 服务，从而实现以下功能：

通过 REST 端点进行视觉和语言处理
为机器人应用提供动作预测
支持 base64 编码的图片以及文件上传

该服务器可以通过三种方式部署：

直接运行：最简单的开发方式
Docker 容器：推荐用于生产环境
原生系统服务：适用于系统集成场景

快速入门

cd server
./magma-server.sh run

这将设置一个 conda 环境、安装依赖项，并在端口 8080 上启动服务器。

Docker 部署

cd server
./magma-server.sh docker up

API 端点

API 提供以下端点：

GET /health - 检查服务器是否运行及模型是否已加载
POST /predict - 使用 base64 编码的图片进行预测
POST /predict_from_file - 使用上传的图片文件进行预测

更多详细信息，请参阅 Server README。

代理演示

UI 代理

我们为自己的模型构建了代理模型。首个构建的是 UI 代理演示。由于我们的模型使用 Set-of-Mark 和 Trace-of-Mark 进行预训练，因此与 OmniParser 天然具有协同效应。将两者结合，您即可立即获得一个 UI 代理，运行命令如下：

python agents/ui_agent/app.py

更重要的是，我们的 Magma 模型不仅具备动作接地能力，还拥有多模态理解与推理能力。您不仅可以使用文本让模型预测点击位置：

前往排名第一的帖子

还可以随时提出自由问题！只需在文本提示前加上前缀“Q:”，例如：

Q: 这篇帖子的标题是什么？

游戏代理

我们还构建了一个游戏代理演示。您可以运行以下命令来启动演示：

python agents/gaming_agent/app.py

演示运行后，您将看到一个机器人主动收集绿色方块。

机器人视觉规划

我们也构建了机器人视觉规划演示。您可以运行以下命令来启动演示：

python agents/robot_traj/app.py

在此演示中，您可能会遇到此 issue 中讨论的问题，快速解决方法是运行以下命令：

pip install imageio[ffmpeg]

如果仍然无效，请安装较旧版本的 transformers：

pip install git+https://github.com/jwyang/transformers.git@dev/jwyang-v4.44.1

用户指南

直接使用

该模型旨在以英语为基础，广泛应用于研究领域。模型接受图像和文本作为输入，并生成文本输出，可用于以下用途：

基于图像/视频的文本生成： 模型可以根据输入的文本和图像生成文本（如描述、答案）。
视觉规划能力： 模型还可以生成视觉轨迹，作为完成任务的未来规划（如将物体从一处移动到另一处）。
智能体能力： 模型还能生成 UI 接地指令（如点击“搜索”按钮）以及机器人操作指令（如机器人夹爪的 7 自由度控制）。

我们的模型仅用于研究目的，旨在促进多模态人工智能领域的知识共享与研究加速，尤其是多模态智能体 AI 方面的研究。

下游应用

该模型可进一步微调以适应不同的下游任务，例如：

图像字幕与问答： 我们可以在此模型的基础上，结合多模态大语言模型的流水线，进一步微调用于图像字幕和问答任务。根据我们的实验，该模型在这些任务上表现出色，同时在空间理解与推理方面更具优势。
视频字幕与问答： 同样地，我们也可以将其微调用于视频字幕和问答任务。实验表明，该模型在时间理解与推理方面表现优异，性能可与现有最佳模型媲美。
UI 导航： 该模型还可针对特定的 UI 导航任务进行微调，例如网页导航或移动应用导航。在这些任务上，模型的表现尤为突出。
机器人操控： 由于该模型具备视觉-语言-行动一体化的通用智能体能力，因此非常适合进一步微调以应用于机器人任务。微调后，该模型在机器人操控任务上的表现显著优于当前最先进的模型，如 OpenVLA。

偏见、风险与局限性

请注意，该模型并非专门为所有下游用途而设计或评估。开发者在选择具体应用场景时，应充分考虑语言模型的常见局限性，并在实际使用前对准确性、安全性及公平性进行评估与缓解，尤其是在高风险场景下。此外，开发者还需了解并遵守与其应用场景相关的适用法律或法规（包括隐私保护、贸易合规等）。

引用

如果您在研究中使用本模型，请考虑引用以下文献：

@misc{yang2025magmafoundationmodelmultimodal,
      title={Magma: 多模态智能体的基础模型}, 
      author={Jianwei Yang、Reuben Tan、Qianhui Wu、Ruijie Zheng、Baolin Peng、Yongyuan Liang、Yu Gu、Mu Cai、Seonghyeon Ye、Joel Jang、Yuquan Deng、Lars Liden、Jianfeng Gao},
      year={2025},
      eprint={2502.13130},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.13130}, 
}

致谢

我们的工作得到了微软研究院的支持。我们感谢所有为构建该项目付出努力的贡献者。

我们的工作建立在一些令人惊叹的开源项目之上，包括 Transformers、LLaVA、OpenVLA、SeeClick、Mind2Web，以及多个优秀的开源数据集，如 Ego4d、Epic-Kitchen、Something-Somethingv2、Open-X-Embodiment。此外，我们还使用了若干评估基准，例如 SimplerEnv 和 Libero。

许可证

本项目采用 MIT 许可证授权。详情请参阅 LICENSE 文件。

贡献

本项目欢迎各类贡献和建议。大多数贡献都需要您签署贡献者许可协议（CLA），以声明您有权并将您的贡献权利授予我们使用。有关详细信息，请访问 https://cla.opensource.microsoft.com。

当您提交拉取请求时，CLA 机器人会自动判断您是否需要提供 CLA，并相应地标记您的 PR（例如添加状态检查或评论）。您只需按照机器人提供的指示操作即可。对于使用我们 CLA 的所有仓库，您只需完成一次此步骤。

本项目已采纳微软开源行为准则。更多信息请参阅行为准则常见问题解答或发送邮件至 opencode@microsoft.com 咨询更多问题或意见。

商标

本项目可能包含与项目、产品或服务相关的商标或标识。未经授权使用微软商标或标识须遵守并遵循微软商标与品牌指南。在本项目的修改版本中使用微软商标或标识时，不得造成混淆或暗示微软的赞助关系。任何第三方商标或标识的使用均应遵守该第三方的相关政策。

Magma 快速上手指南

Magma 是微软研究院推出的首个面向多模态 AI 智能体（Multimodal AI Agents）的基础模型。它不仅能理解图像和视频，还能在数字世界（如 UI 导航、游戏）和物理世界（如机器人操作）中生成目标驱动的视觉计划与动作。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python 版本: 3.10
GPU: 推荐使用 NVIDIA GPU (支持 CUDA)，显存建议 16GB 以上以运行 8B 模型
包管理器: Conda (推荐) 或 pip
Git: 用于克隆代码库

注意：本指南基于官方仓库内容整理。由于网络原因，国内开发者在安装依赖时若遇到超时，可临时配置 pip 使用清华或阿里镜像源（例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple ...）。

安装步骤

1. 克隆项目代码

首先将 Magma 仓库克隆到本地并进入目录：

git clone https://github.com/microsoft/Magma
cd Magma

2. 创建并激活虚拟环境

建议使用 Conda 创建独立的 Python 3.10 环境：

conda create -n magma python=3.10 -y
conda activate magma
pip install --upgrade pip

3. 安装核心依赖

安装项目基础包：

pip install -e .

4. 安装可选组件（按需）

如果您需要进行模型训练或运行智能体演示，请执行以下命令：

# 安装训练所需依赖
pip install -e ".[train]"

# 安装智能体演示所需依赖
pip install -e ".[agent]"

5. 安装额外工具包

Magma 依赖一些特定的第三方库（如 Co-tracker, Kmeans 等），需手动安装：

安装 Co-tracker:

git clone https://github.com/facebookresearch/co-tracker
cd co-tracker
pip install -e .
pip install imageio[ffmpeg]
cd ../

安装 Kmeans (注意不要直接用 pip 安装原版):

git clone https://github.com/subhadarship/kmeans_pytorch
cd kmeans_pytorch
pip install -e .
cd ../

安装其他杂项依赖:

pip install ipython faiss-cpu decord

⚠️ 关键步骤：安装定制版 Transformers

Magma 使用 ConvNext 作为骨干网络，其中包含 gamma 参数，这与原生 Hugging Face Transformers 库存在兼容性冲突（会自动将 gamma 替换为 weight 导致报错）。

必须安装项目维护的修复版 Transformers，请选择以下任一版本：

# 方案 A：稳定版
pip install git+https://github.com/jwyang/transformers.git@dev/jwyang-v4.44.1

# 方案 B：最新版
# pip install git+https://github.com/jwyang/transformers.git@dev/jwyang-v4.48.2

请确保安装的 transformers 版本 >= 4.49.0 且包含上述修复，否则模型加载会出现异常。

基本使用

安装完成后，您可以通过 Hugging Face transformers 库直接加载模型进行推理。以下是最简单的单图推理示例。

使用 Hugging Face Transformers 进行推理

确保已登录 Hugging Face（如果需要访问私有权重）或直接运行以下代码加载公开模型 microsoft/Magma-8B：

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

# 加载处理器和模型
model_id = "microsoft/Magma-8B"
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto",
    trust_remote_code=True
)

# 准备输入数据
# 假设您有一张图片路径和一个提示词
image_path = "assets/images/demo.png" 
prompt = "Describe this image and suggest possible actions."

# 处理输入
inputs = processor(images=[image_path], text=prompt, return_tensors="pt").to(model.device)

# 生成输出
with torch.no_grad():
    output_ids = model.generate(
        **inputs,
        max_new_tokens=512,
        do_sample=False
    )

# 解码结果
output_text = processor.decode(output_ids[0], skip_special_tokens=True)
print(output_text)

运行智能体演示 (可选)

如果您安装了 [agent] 依赖，可以尝试运行官方的 UI 导航或机器人规划演示：

# 启动机器人轨迹规划演示
python agents/robot_traj/app.py

现在您已经成功部署了 Magma，可以开始探索其在多模态理解与智能体任务中的强大能力。更多高级用法（如视频输入、多图推理、微调训练）请参考项目仓库中的详细文档。

常见问题

运行 Hugging Face 示例代码时，模型输出大量重复的 token（如 'the the the...'），如何解决？

如何在 Mind2Web 或 AITW 等数据集上生成用于 UI 导航任务的 SoM（Set-of-Mark）标注？

运行机器人轨迹演示程序 (robot_traj/app.py) 时报错 'expected bytes, NoneType found' 且无视频输出，如何修复？

Magma-8B 模型权重是否已在 Hugging Face 上公开发布？

在计算 ToM (Trajectory of Motion) 时，对于相机运动较大的视频，正负轨迹的判断是否准确？需要调整哪些参数？

Magma 模型能否预测包含深度信息的 3D 轨迹坐标（如 x, y, z, pitch, roll, yaw）？

在 Jetson AGX Orin (aarch64) 架构上安装和运行 Magma 是否支持？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent