LatentMAS
LatentMAS 是一个创新的多智能体推理框架,它彻底改变了智能体之间的协作方式。传统多智能体系统通常依赖生成冗长的文本对话来进行沟通,这不仅消耗大量计算资源,还导致响应速度缓慢。LatentMAS 巧妙地将这一过程从“文本空间”转移到了模型的“潜在空间(latent space)”,让智能体直接通过内部工作记忆传递隐含的思维向量,而非输出具体的文字轨迹。
这一架构主要解决了多智能体协作中令牌(token)消耗过大、推理延迟高以及上下文窗口受限的痛点。通过跳过繁琐的文本生成步骤,LatentMAS 在显著降低算力成本的同时,实现了更快的推理速度和更稳定的多步逻辑推导。其独特的技术亮点在于无需额外训练即可实现潜在空间的对齐,并且天然兼容 Hugging Face 上的各类模型及 vLLM 后端,具备极强的通用性。
该工具非常适合 AI 研究人员、大模型应用开发者以及对高效能多智能体系统有需求的技术团队使用。无论是希望优化现有 Agent 协作效率的工程师,还是探索科学发现自动化(如 Science-LatentMAS 分支所示)的科研人员,都能利用 LatentMAS 以更低的资源开销构建出性能更优越的智能体系统。
使用场景
某生物材料研发团队正利用多智能体系统模拟新型蛋白质折叠路径,需要在多个专用模型间进行高频、深度的迭代推理。
没有 LatentMAS 时
- 通信开销巨大:智能体间必须通过生成冗长的自然语言文本交换中间推理步骤,导致 Token 消耗量呈指数级增长。
- 响应延迟严重:由于需要等待每个代理完整输出长篇大论的“思维链”,整个协作流程的墙钟时间(Wall-clock time)极长,难以实时反馈。
- 信息失真风险:将复杂的数值化潜变量强制转换为文本再还原,容易在多次转译中丢失细微的科学特征或引入幻觉。
- 资源成本高昂:巨大的 Token 吞吐量直接推高了 GPU 显存占用和云端 API 调用成本,限制了大规模并行实验的可行性。
使用 LatentMAS 后
- 隐空间直连:智能体直接在模型的潜空间(Latent Space)通过工作记忆传递“潜在思维”,彻底消除了冗余的文本生成过程,Token 用量减少 90% 以上。
- 推理速度飞跃:跳过繁琐的文本编解码环节,多步推理的端到端延迟显著降低,实现了近乎实时的科学发现迭代。
- 精度稳定对齐:采用无需训练的潜空间对齐技术,确保了复杂材料参数在不同代理间传递时的数值稳定性与高保真度。
- 架构灵活通用:无缝兼容现有的 HuggingFace 模型及 vLLM 后端,团队无需重构底层架构即可让异构科学代理高效协作。
LatentMAS 通过将多智能体协作从低效的“文本对话”升级为高效的“隐空间思维共振”,在大幅降低成本的同时重塑了科学计算的推理速度。
运行环境要求
- 未说明
- 运行 LatentMAS 标准版需 GPU(隐含需求)
- 若使用 vLLM 混合模式,推荐双 GPU 配置(一张用于 vLLM 推理,一张用于辅助 HF 模型进行潜空间展开),具体型号和显存未说明,但需支持 CUDA
未说明

快速开始
潜在协作多智能体系统
💡 简介
LatentMAS 是一种多智能体推理框架,它将智能体协作从标记空间转移到模型的潜在空间。
与生成冗长的文本推理轨迹不同,智能体通过在各自的 工作记忆 中传递 潜在思想 来进行通信。LatentMAS 具有以下关键特性:
- 多步推理高效,所需标记数大幅减少
- 无需训练即可实现潜在空间对齐,从而保证生成的稳定性
- 这是一种通用技术,兼容 任何 Hugging Face 模型,并可选地支持 vLLM 后端。
总体而言,LatentMAS 在多智能体系统中实现了 更优性能、更低的标记使用量 以及 显著的实时加速。
🔔 最新消息
[2026-02-26] 🦞 请查看我们 Gen-Verse 团队的 OpenClaw-RL!OpenClaw-RL 是一个完全异步的强化学习框架,可以直接从自然对话反馈中训练个性化 AI 智能体——无需人工标注,无需 API 密钥。它引入了两种学习范式(基于 GRPO 的二元强化学习和策略蒸馏),并且整个流程都可以在您自己的基础设施上运行。它是 LatentMAS 高效多智能体推理的绝佳补充!
[2025-12-20] 请查看 Science-LatentMAS,这是由麻省理工学院的 Markus J. Buehler 教授和 LAMM 实验室 开发的 LatentMAS 的优秀扩展版本。Science-LatentMAS 专门针对科学发现下游应用而设计!有关更多详细信息和说明,请参阅下方的“Science-LatentMAS”README 部分以及新的
Science-LatentMAS分支。[2025-12-15] 请查看这些由社区驱动的 LatentMAS 扩展!
- KNN-LatentMAS — 能够更高效地利用 KV 缓存,优化潜在内存管理。
- Hybrid-LatentMAS — 将 LatentMAS 扩展到混合、异构多智能体系统中。
[2025-11-25] 我们已经发布了 LatentMAS 的论文和代码实现!敬请期待更多模型后端支持和高级功能!
[2025-11-25] 我们被 🤗 选为 HuggingFace 当日首篇论文!
🌐 基于 LatentMAS 构建的优秀作品
探索由社区驱动的扩展项目,它们将 LatentMAS 推广到新的领域、架构和协作模式中:
🔬 1. Science-LatentMAS
由 Markus J. Buehler 教授及 MIT LAMM 小组开发
- 新分支: https://github.com/Gen-Verse/LatentMAS/tree/Science-LatentMAS
- 原始代码: https://github.com/lamm-mit/LatentMAS/tree/flexible_agents
新增功能: 将 LatentMAS 扩展用于科学建模和材料系统协作,支持灵活的智能体类型和面向科学领域的专用潜在通信方式。
🧠 2. KNN-LatentMAS
由 Bookmaster9 开发
- 博客(概述): https://bookmaster9.github.io/kNN-latentMAS/
- 代码: https://github.com/Bookmaster9/kNN-latentMAS
- 新增功能: 引入基于 kNN 的潜在检索技术,以改善 KV 缓存的使用效率,从而提升跨智能体的内存效率和多步推理的稳定性。
🤖 3. Hybrid-LatentMAS
由 nhminle 开发
- 代码: https://github.com/nhminle/LatentMAS-Hybrid
- 新增功能: 支持异构/混合智能体协作(LLM + 非 LLM 智能体),能够构建混合模型、工具和推理策略的模块化多智能体流水线。
🌍 4. Awareness Network
由 Everest-AN 开发
- 网站: https://awareness.market/
- 代码: https://github.com/everest-an/Awareness-Market
- 新增功能: 基于 LatentMAS 研究构建的去中心化 AI 意识市场产品,支持自主智能体协作和记忆共享。
🧩 5. LatentMAS-SLoRA
由 Arifuzzaman Joy 开发
- 演示: https://www.youtube.com/watch?v=g7sxYjwgRRk
- 代码: https://github.com/Arifuzzamanjoy/latent_mas_slora
- 新增功能: 通过角色专业化、可动态切换的 LoRA 适配器增强 LatentMAS,使其具备更好的专业化能力和适应性。
🛰️ 6. AVP(Agent Vector Protocol)
由 VectorArc 开发
- 博客: https://blog.avprotocol.ai/avp-binary-protocol-latent-agent-communication/
- 代码: https://github.com/VectorArc/avp-python
- 新增功能: 使智能体能够共享 KV 缓存和隐藏状态,而非文本,从而支持零训练的潜在交接、跨模型迁移以及更快的多智能体协作。
如果您也有基于 LatentMAS 的扩展工作,欢迎提交 PR,我们将在此处展示您的成果!🚀
📊 实验概览
⭐ 主要结果
来自我们论文的三张主要表格,涵盖了数学与科学推理、常识推理和代码生成等领域的 9 项任务:
表 1 — LatentMAS 在顺序多智能体设置下的表现

表 2 — LatentMAS 在层次化多智能体设置下的表现

表 3 — 针对推理密集型任务的主要结果

⚡ 时间和标记数 方面的卓越效率
总体而言,与标准的文本多智能体或思维链基线相比,LatentMAS 可以减少:
- 约 50–80% 的标记数
- 约 3–7 倍的实时用时
🛠️ 快速入门
本仓库提供了所有代码,用于复现 LatentMAS、TextMAS 以及 GSM8K、AIME24/25、GPQA、ARC-Easy/Challenge、MBPP+、HumanEval+ 和 MedQA 等任务中的单智能体基线实验。
⚙️ 设置环境变量
我们建议设置 Hugging Face 缓存目录,以避免重复下载:
export HF_HOME=/path/to/huggingface
export TRANSFORMERS_CACHE=$HF_HOME
export HF_DATASETS_CACHE=$HF_HOME
模型和数据集将自动下载到 $HF_HOME 目录中。
📦 安装依赖包
conda create -n latentmas python=3.10 -y
conda activate latentmas
pip install -r requirements.txt
如果您需要 vLLM 支持,还需要安装:
pip install vllm
🚀 快速入门
1. 克隆仓库
git clone https://github.com/Gen-Verse/LatentMAS.git
cd LatentMAS
2. 仓库结构
LatentMAS/
│── run.py # 实验主入口
│── models.py # 封装了 Hugging Face + vLLM + 隐空间对齐的工具
│── methods/
│ ├── baseline.py # 单智能体基线
│ ├── text_mas.py # 基于文本空间的多智能体方法
│ └── latent_mas.py # 隐空间多智能体(我们的方法)
│── prompts.py # 提示词构造器
│── data.py # 数据集加载器
│── data/ # 提供的数据及图表(这里以 medqa.json 为例)
│── utils.py # 答案解析 / 超时处理 / 工具函数
│── example_logs/ # LatentMAS 的示例日志
│── requirements.txt
🧪 运行实验(标准 Hugging Face 后端)
🔹 基线(单模型)
python run.py --method baseline --model_name Qwen/Qwen3-14B --task gsm8k --max_samples -1 --max_new_tokens 2048
🔹 TextMAS(基于文本的多智能体系统)
python run.py --method text_mas --model_name Qwen/Qwen3-14B --task gsm8k --prompt sequential --max_samples -1 --max_new_tokens 2048
🔹 LatentMAS(我们的隐空间多智能体方法)
python run.py --method latent_mas --model_name Qwen/Qwen3-14B --task gsm8k --prompt sequential --max_samples -1 --max_new_tokens 2048
注意事项:
--latent_steps∈ [0, 80] 可根据性能调整。--latent_space_realign启用隐空间到嵌入空间的对齐功能。 我们将其视为一个 超参数 — 根据任务和模型选择是否启用:
python run.py --method latent_mas --model_name Qwen/Qwen3-14B --task gsm8k --prompt sequential --max_samples -1 --latent_space_realign --max_new_tokens 2048
📘 示例日志
提供了两个 LatentMAS 示例日志供参考:
example_logs/qwen3_14b_mbppplus_sequential.txtexample_logs/qwen3_14b_humanevalplus_hierarchical.txt
更多实验日志请参阅 这里。您可以打开这些文件查看完整的智能体交互轨迹和输出。
⚡ vLLM 集成
LatentMAS 支持 vLLM,以实现更快的推理速度。
🔹 基线(使用 vLLM)
python run.py --method baseline --model_name Qwen/Qwen3-14B --task gsm8k --max_samples -1 --use_vllm --max_new_tokens 2048
🔹 TextMAS(使用 vLLM)
python run.py --method text_mas --model_name Qwen/Qwen3-14B --task gsm8k --prompt sequential --max_samples -1 --use_vllm --max_new_tokens 2048
🔹 LatentMAS(使用 vLLM)
LatentMAS 支持 混合 Hugging Face + vLLM 流程,以实现快速推理:
- vLLM 负责 最终文本生成(通过前缀缓存、张量并行等技术)
- Hugging Face 模型负责 隐空间展开 和隐藏状态对齐
对于这种配置,我们建议使用两块 GPU:
- 一块 GPU 用于 vLLM(
--device,例如cuda:0) - 一块 GPU 用于辅助 Hugging Face 模型(
--device2,例如cuda:1)
CUDA_VISIBLE_DEVICES=0,1 python run.py --method latent_mas --model_name Qwen/Qwen3-14B --task gsm8k --prompt sequential --max_samples -1 --max_new_tokens 2048 \
--use_vllm \
--use_second_HF_model \
--enable_prefix_caching \
--device2 cuda:1
📍重要提示:
vLLM 官方并不支持修改 KV 缓存或通过隐式嵌入进行提示。 我们为了实现该方法,对 vLLM 后端的部分内部代码进行了修改。 由于解码(生成)策略的不同,与官方 Hugging Face 后端相比可能会出现轻微的数值差异。请使用 Hugging Face 后端来复现官方已发表的结果。
📚 引用
💫 如果您觉得 LatentMAS 对您有帮助,请为我们点亮一颗星 ⭐️ 并引用以下内容。谢谢!
@article{zou2025latentmas,
title={多智能体系统中的隐空间协作},
author={Zou, Jiaru and Yang, Xiyuan and Qiu, Ruizhong and Li, Gaotang and Tieu, Katherine and Lu, Pan and Shen, Ke and Tong, Hanghang and Choi, Yejin and He, Jingrui and Zou, James and Wang, Mengdi and Yang, Ling},
journal={arXiv preprint arXiv:2511.20639},
year={2025}
}
🤝 致谢
本代码部分基于 vLLM 的优秀工作。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。