m3-agent
m3-agent 是一款具备长期记忆能力的多模态智能体框架,旨在让 AI 像人类一样通过“看”和“听”来感知世界,并持续积累知识与经验。它不仅能处理实时的视觉与听觉输入,还能构建包含情景记忆(具体经历)和语义记忆(通用知识)的长期记忆库。这些记忆以实体为中心进行组织,帮助智能体在复杂环境中保持更深层次、更一致的理解力。
面对用户指令,m3-agent 能够自主进行多轮迭代推理,并从记忆中精准检索相关信息以完成任务,有效解决了传统 AI 在处理长视频或长时间跨度的交互时容易“遗忘”上下文、难以进行连贯推理的痛点。为了验证其能力,研究团队还推出了配套的 M3-Bench 评测基准,涵盖机器人第一视角及多样化网络场景的长视频问答任务。实验显示,经过强化学习训练的 m3-agent 在多项测试中均超越了基于顶级大模型的提示工程方案。
这款工具特别适合人工智能研究人员、多模态算法开发者以及致力于构建具身智能(如机器人助手)的工程师使用。其独特的技术亮点在于引入了类人的双重记忆机制,并采用强化学习优化推理过程,为打造拥有真正“长期记忆”的实用型 AI 助手提供了全新的设计思路与技术基础。
使用场景
一位家庭服务机器人开发者正试图让机器人在长达数小时的日常交互中,记住用户的习惯、物品位置及过往对话细节。
没有 m3-agent 时
- 记忆断层严重:机器人无法关联几小时前看到的场景,用户询问“我的眼镜放哪了”时,它只能回答不知道,因为短期上下文窗口已溢出。
- 多模态理解割裂:系统难以将听到的语音指令与看到的视觉画面深度结合,导致对用户“把那个红色的杯子收起来”这类跨模态指令执行错误。
- 知识积累为零:每次重启或新任务开始,机器人都像失忆一样,无法从过去的互动中提取语义知识(如用户偏好),需重复学习。
- 长视频推理失效:面对记录全天活动的长视频数据,传统模型无法进行有效的回溯推理,难以回答涉及时间跨度的复杂问题。
使用 m3-agent 后
- 构建长期记忆库:m3-agent 能像人类一样将实时视听输入转化为实体中心的长期记忆,准确回忆出“眼镜在两小时前被放在了书房书架第二层”。
- 深度跨模态推理:凭借多模态记忆架构,m3-agent 能精准理解并结合视觉线索与语音指令,无误地完成复杂的整理任务。
- 语义知识持续进化:m3-agent 自动积累世界知识与用户偏好,随着时间推移,它能主动根据用户习惯提供个性化服务,无需重复训练。
- 长程任务自主规划:基于强化学习训练的 m3-agent 可自主进行多轮迭代推理,从长达数小时的视频流中提取关键信息,完美解决复杂的时间跨度问答。
m3-agent 通过赋予智能体类人的长期记忆与跨模态推理能力,彻底解决了机器人在长时交互中“记不住、想不通”的核心瓶颈。
运行环境要求
- Linux
需要 NVIDIA GPU(用于运行 Qwen-Omni 和 vLLM),具体显存大小未说明(建议 24GB+ 以运行多模态大模型),需安装兼容的 CUDA 版本
未说明(建议 32GB+ 以处理长视频记忆图谱)

快速开始
看见、聆听、记忆与推理:具备长期记忆的多模态智能体
ICLR 2026
摘要
我们提出了M3-Agent,一个全新的配备长期记忆的多模态智能体框架。如同人类一样,M3-Agent能够实时处理视觉和听觉输入,构建并更新其长期记忆。除了情景记忆之外,它还发展出语义记忆,从而随着时间推移不断积累世界知识。其记忆以实体为中心、多模态的形式组织,使得对环境的理解更加深入且一致。在接收到指令后,M3-Agent会自主进行多轮迭代式推理,并从记忆中检索相关信息来完成任务。为了评估多模态智能体的记忆效能及其基于记忆的推理能力,我们开发了M3-Bench,一个新的长视频问答基准测试集。M3-Bench由100段全新录制的、从机器人视角拍摄的真实场景视频(M3-Bench-robot)以及920段来自网络、涵盖多种场景的视频(M3-Bench-web)组成。我们标注了问答对,旨在测试智能体应用中至关重要的关键能力,如理解人类意图、提取通用知识以及跨模态推理等。实验结果表明,通过强化学习训练的M3-Agent,在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上分别比最强基线——使用Gemini-1.5-pro和GPT-4o的提示型智能体——高出8.2%、7.7%和5.3%的准确率。我们的工作推动了多模态智能体向更接近人类的长期记忆方向发展,并为其实际设计提供了重要启示。

M3-Agent作为个人助理的演示!
该视频也可在Bilibili上观看。
M3-Bench
我们推出了M3-Bench,一个专为评估多模态智能体利用长期记忆进行推理能力而设计的长视频问答数据集。M3-Bench中的每个实例都包含一段模拟智能体感知输入的长视频,以及一系列开放式问答对。该数据集分为两个子集:
- M3-Bench-robot,包含100段从机器人第一人称视角录制的真实场景视频;
- M3-Bench-web,包含920段来自网络、内容和场景更为多样的视频。

链接1, 链接2, 链接3
M3-Bench中的示例。M3-Bench-robot收录了来自真实机器人工作场景的长视频,而M3-Bench-web则扩展了视频多样性,以支持更广泛的评估。问答任务的设计旨在评估多模态智能体构建连贯可靠长期记忆的能力,以及在其基础上进行有效推理的能力。

M3-Bench基准的数据统计概览。每道题目可能对应多种题型。
视频
- 从Hugging Face下载M3-Bench-robot。
- 从
data/annotations/web.json中的video_url下载M3-Bench-web。
中间输出
[可选] 您可以从Hugging Face下载我们已处理好的中间输出,也可以按照以下步骤直接从视频中生成。
记忆图
[可选] 您可以从Hugging Face下载并提取我们已处理好的记忆图,或者按照以下步骤直接从视频中生成。
M3-Agent

M3-Agent的系统架构。该系统由记忆和控制两大并行流程组成。在记忆过程中,M3-Agent在线处理视频和音频流,生成情景记忆和语义记忆。而在控制过程中,它则通过迭代思考和从长期记忆中检索信息来执行指令。长期记忆被组织成一个多模态图结构。
实验结果

M3-Bench-robot、M3-Bench-web和VideoMME-long上的实验结果。
本地运行
在运行之前,请先在
configs/api_config.json中添加API配置。
记忆
为每段视频生成记忆图。结果保存在 data/memory_graphs 中。
- 以下步骤仅在您尚未从 Hugging Face 下载 intermediate_outputs 和 memory_graphs,或希望处理非 M3-Bench 数据集中的其他视频时才需要执行。
- 搭建环境
bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4
- 切分视频
将视频切割成 30 秒一段的片段。
#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')
segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); do
start=$((i * 30))
end=$(((i + 1) * 30))
output="data/clips/$video/$i.mp4"
ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done
- 准备数据
准备一个每行包含一段视频的 JSONL 文件,保存为 data/data.jsonl。
{"id": "bedroom_01", "video_path": "data/videos/robot/bedroom_01.mp4", "clip_path": "data/videos/clips/bedroom_01", "mem_path": "data/videos/memory_graphs/bedroom_01.pkl", "intermediate_path": "data/videos/intermediate_outputs/robot/bedroom_01"}
生成中间输出
此步骤使用人脸检测和说话人分离工具生成中间输出。
如果您打算使用 M3-Bench 并已从 Hugging Face 下载了 intermediate_outputs,则可以跳过此步骤。
下载音频嵌入模型并保存到
models\目录下,文件名为 pretrained_eres2netv2.ckpt。下载 speakerlab。
m3-agent ├── models │ └── pretrained_eres2netv2.ckpt └── speakerlab
python m3_agent/memorization_intermediate_outputs.py \
--data_file data/data.jsonl
生成记忆图
此步骤使用 M3-Agent-Memorization 模型生成记忆图。
- 从 Hugging Face 下载 M3-Agent-Memorization。
python m3_agent/memorization_memory_graphs.py \
--data_file data/data.jsonl
- 记忆图可视化
python visualization.py \
--mem_path data/memory_graphs/robot/bedroom_01.pkl \
--clip_id 1
控制
- 搭建环境
bash setup.sh
pip install transformers==4.51.0
pip install vllm==0.8.4
pip install numpy==1.26.4
问答与评估
此步骤使用 M3-Agent-Control 模型生成答案,并用 GPT-4o 对答案进行评估。
- 从 Hugging Face 下载 M3-Agent-Control。
python m3_agent/control.py \
--data_file data/annotations/robot.json
其他模型
如果您希望调用其他模型来生成记忆或回答问题,只需将模型推理替换为 API 调用,并使用相应的提示词即可。
提示词:
记忆
- Gemini/GPT-4o:
mmagent.prompts.prompt_generate_captions_with_ids - Qwen2.5-Omni-7B:
mmagent.prompts.prompt_generate_full_memory
- Gemini/GPT-4o:
控制
- GPT-4o:
mmagent.prompts.prompt_answer_with_retrieval_final
- GPT-4o:
训练
- 记忆:https://github.com/hyc2026/sft-qwen2.5-omni-thinker
- 控制:https://github.com/hyc2026/M3-Agent-Training
引用
请按如下格式引用我们:
@misc{long2025seeing,
title={Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory},
author={Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li},
year={2025},
eprint={2508.09736},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
