[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zchoi--Awesome-Embodied-Robotics-and-Agent":3,"tool-zchoi--Awesome-Embodied-Robotics-and-Agent":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":79,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":86,"env_os":87,"env_gpu":88,"env_ram":88,"env_deps":89,"category_tags":92,"github_topics":94,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":107},5275,"zchoi\u002FAwesome-Embodied-Robotics-and-Agent","Awesome-Embodied-Robotics-and-Agent","This is a curated list of \"Embodied AI or robot with Large Language Models\" research. Watch this repository for the latest updates! 🔥","Awesome-Embodied-Robotics-and-Agent 是一个精心整理的开源资源库，专注于汇聚“具身智能”领域的前沿研究，特别是结合大语言模型（LLM）和视觉 - 语言模型（VLM）的机器人与智能体技术。它旨在解决该领域论文爆发式增长导致的信息分散问题，为研究者提供一站式的高质量文献导航，涵盖从基础理论综述、视觉 - 语言 - 动作模型（VLA）、智能体自我进化，到多智能体协作及各类仿真基准测试等全方位内容。\n\n该资源库特别适合人工智能研究人员、机器人开发者以及高校师生使用。无论是希望快速把握行业趋势的初学者，还是需要追踪最新算法（如 π-0.5 轻量级框架、Mobile-Agent-v2 等）的资深专家，都能从中高效获取关键信息。其独特亮点在于不仅收录了经典的学术论文，还持续更新包括 ICLR、CVPR 等顶级会议的最新成果，甚至涵盖了智能体在电子游戏中的创新应用案例。通过清晰的分类目录和及时的动态维护，Awesome-Embodied-Robotics-and-Agent 成为了连接理论研究与实际落地的重要桥梁，助力社区共同推动具身智能技术的发展。","# 🤖 Awesome Embodied Robotics and Agent [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n> This is a curated list of \"Embodied robotics or agent with Vision-Language Models (VLMs) and Large Language Models (LLMs)\" research which is maintained by [haonan](https:\u002F\u002Fzchoi.github.io\u002F).\n\u003C!---\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_33d91d4a25e9.png\" width=15% align=\"right\" \u002F> \n--->\nWatch this repository for the latest updates and **feel free to raise pull requests if you find some interesting papers**!\n\n## News🔥\n[2025\u002F10\u002F30] 🎉 Our survey paper \"**A Survey on Efficient Vision-Language-Action Models**\" [[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24795) has been released!\u003Cbr>\n[2025\u002F04\u002F23] Add **π-0.5**, a lightweight and modular framework designed to integrate perception, control, and learning directly within physical systems.\u003Cbr>\n[2025\u002F03\u002F18] Add some popular vision-language action (VLA) models. 🦾 \u003Cbr>\n[2024\u002F06\u002F28] Created a new board about agent self-evolutionary research. 🤖 \u003Cbr>\n[2024\u002F06\u002F07] Add **Mobile-Agent-v2**, a mobile device operation assistant with effective navigation via multi-agent collaboration. 🚀 \u003Cbr>\n[2024\u002F05\u002F13] Add \"**Learning Interactive Real-World Simulators**\"——outstanding paper award in ICLR 2024 🥇.\u003Cbr>\n[2024\u002F04\u002F24] Add \"**A Survey on Self-Evolution of Large Language Models**\", a systematic survey on self-evolution in LLMs! 💥\u003Cbr>\n[2024\u002F04\u002F16] Add some CVPR 2024 papers. \u003Cbr>\n[2024\u002F04\u002F15] Add **MetaGPT**, accepted for oral presentation (top 1.2%) at ICLR 2024, **ranking #1** in the LLM-based Agent category. 🚀 \u003Cbr>\n[2024\u002F03\u002F13] Add **CRADLE**, an interesting paper exploring LLM-based agent in Red Dead Redemption II！🎮\n\n\u003C!---\n## Trend and Imagination of Embodied Robotics and Agent\n--->\n\n## Development of Embodied Robotics and Benchmarks\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\">\n\n[π0-video-1](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd0fb7c8f-fd79-40ad-9606-cc60af8a5491)\n\n\u003C\u002Ftd>\n\u003Ctd align=\"center\">\n\n[π0-video-2](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F569316e8-9dd8-426b-a35c-9fd9a4ba9d89)\n\n\u003C\u002Ftd>\n\u003Ctd align=\"center\">\n\n[π0-video-3](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7e83919e-fd90-4544-878e-853ba92ab8f6)\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_08abe4859714.png)\n* Video demo and figure from [1] and [2].\n\n\u003C!---\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_89c6781e34d8.png\" width=\"54%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_9a9ae4a3358d.jpg\" width=\"43%\">\n    \u003Cspan>\u003Cb>Figure 1. Trend of Embodied Agent with LLMs.\u003Csup>[1]\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Fspan>\n    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \n    \u003Cspan>\u003Cb>Figure 2. An envisioned Agent society.\u003Csup>[2]\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Fspan>\n\u003C\u002Fp>\n--->\n\n\n## Table of Contents 🍃\n- [Survey](#survey)\n- [Vision-Language-Action Model](#vision-language-action-model)\n- [Self-Evolving Agents](#self-evolving-agents)\n- [Advanced Agent Applications](#advanced-agent-applications)\n- [LLMs with RL or World Model](#llms-with-rl-or-world-model)\n- [Planning and Manipulation or Pretraining](#planning-and-manipulation-or-pretraining)\n- [Multi-Agent Learning and Coordination](#multi-agent-learning-and-coordination)\n- [Vision and Language Navigation](#vision-and-language-navigation)\n- [Detection](#detection)\n- [3D Grounding](#3d-grounding)\n- [Interactive Embodied Learning](#interactive-embodied-learning)\n- [Rearrangement](#rearrangement)\n- [Benchmark](#benchmark)\n- [Simulator](#simulator)\n- [Others](#others)\n\n\n## Methods\n\n> ### Survey\n\n* [**A Survey on Efficient Vision-Language-Action Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24795) [**arXiv 2025.10**] [[**Github**](https:\u002F\u002Fgithub.com\u002FYuZhaoshu\u002FEfficient-VLAs-Survey)] [[**Project Page**](https:\u002F\u002Fevla-survey.github.io\u002F)]\u003Cbr>\nZhaoshu Yu\u003Csup>1\u003C\u002Fsup>, Bo Wang\u003Csup>1\u003C\u002Fsup>, Pengpeng Zeng\u003Csup>1\u003C\u002Fsup>, Haonan Zhang\u003Csup>1\u003C\u002Fsup>, Ji Zhang\u003Csup>1\u003C\u002Fsup>, Lianli Gao\u003Csup>3\u003C\u002Fsup>, Jingkuan Song\u003Csup>1\u003C\u002Fsup>, Nicu Sebe\u003Csup>4\u003C\u002Fsup>, Heng Tao Shen\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup> Tongji University,\n\u003Csup>2\u003C\u002Fsup> Southwest Jiaotong University,\n\u003Csup>3\u003C\u002Fsup> University of Electronic Science and Technology of China,\n\u003Csup>4\u003C\u002Fsup> University of Trento\n\n\n* [**A Survey on Vision-Language-Action Models for Embodied AI**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.14093) [**arXiv 2024.03**]\u003Cbr>\nThe Chinese University of Hong Kong, Huawei Noah’s Ark Lab\n\n* [**Large Multimodal Agents: A Survey**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.15116) [**arXiv 2024.02**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fjun0wanan\u002Fawesome-large-multimodal-agents)]\u003Cbr>\nJunlin Xie\u003Csup>♣♡\u003C\u002Fsup> Zhihong Chen\u003Csup>♣♡\u003C\u002Fsup> Ruifei Zhang\u003Csup>♣♡\u003C\u002Fsup> Xiang Wan\u003Csup>♣\u003C\u002Fsup> Guanbin Li\u003Csup>♠\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♡\u003C\u002Fsup>The Chinese University of Hong Kong, Shenzhen \u003Csup>♣\u003C\u002Fsup>Shenzhen Research Institute of Big Data, \u003Csup>♠\u003C\u002Fsup>Sun Yat-sen University\n\n* [**A Survey on Self-Evolution of Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14387.pdf) [**arXiv 2024.01**]\u003Cbr>\nKey Lab of HCST (PKU), MOE; School of Computer Science, Peking University, Alibaba Group, Nanyang Technological University\n\n* [**Agent AI: Surveying the Horizons of Multimodal Interaction**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.03568.pdf) [**arXiv 2024.01**]\u003Cbr>\nStanford University, Microsoft Research, Redmond, University of California, Los Angeles, University of Washington, Microsoft Gaming\n\n* [**Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.11797.pdf) [**arXiv 2023.11**]\u003Cbr>\nShanghai Jiao Tong University, Amazon Web Services, Yale University\n\n* [**The Rise and Potential of Large Language Model Based Agents: A Survey**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.07864.pdf) [**arXiv 2023.09**]\u003Cbr>\nFudan NLP Group, miHoYo Inc\n\n* [**A Survey on LLM-based Autonomous Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.11432.pdf) [**arXiv 2023,08**] \u003Cbr>\nGaoling School of Artificial Intelligence, Renmin University of China\n\n> ### Vision-Language-Action Model\n* [**D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05684) [**ICLR 2026**] [[Github](https:\u002F\u002Fgithub.com\u002Fworv-ai\u002FD2E)][[Project page](https:\u002F\u002Fworv-ai.github.io\u002Fd2e\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.05684)]\u003Cbr>\nStanford University, Seoul National University, MAUM.AI\n\n* [**Robotic Control via Embodied Chain-of-Thought Reasoning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=S70MgnIA0v) [**CoRL 2024**] [[Github](https:\u002F\u002Fgithub.com\u002FMichalZawalski\u002Fembodied-CoT\u002F)][[Project page](https:\u002F\u002Fembodied-cot.github.io\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002FEmbodied-CoT)]\u003Cbr>\nMichał Zawalski\u003Csup>∗1,2\u003C\u002Fsup>, William Chen\u003Csup>∗1\u003C\u002Fsup>, Karl Pertsch\u003Csup>1,3\u003C\u002Fsup> Oier Mees\u003Csup>1\u003C\u002Fsup>, Chelsea Finn\u003Csup>3\u003C\u002Fsup>, Sergey Levine\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC Berkeley, \u003Csup>2\u003C\u002Fsup>University of Warsaw, \u003Csup>3\u003C\u002Fsup>Stanford University\n\n* [**π0.5: a VLA with Open-World Generalization**](https:\u002F\u002Fwww.physicalintelligence.company\u002Fdownload\u002Fpi05.pdf) [**arXiv 2025.04**] [[Project page](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi05)]\u003Cbr>\nPhysical Intelligence\n\n* [**π0: A Vision-Language-Action Flow Model for General Robot Control**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.24164) [**arXiv 2024.10**] [[Project page](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi0)]\u003Cbr>\nPhysical Intelligence\n\n* [**Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.19417) [**arXiv 2025.02**] [[Project page](https:\u002F\u002Fwww.pi.website\u002Fresearch\u002Fhirobot)]\u003Cbr>\nPhysical Intelligence\n\n* [**OpenVLA: An Open-Source Vision-Language-Action Model**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.09246) [arXiv 2024.01] [[Github](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla)][[Project page](https:\u002F\u002Fopenvla.github.io\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fopenvla)]\u003Cbr>\nStanford University, UC Berkeley, Toyota Research Institute, Google Deepmind, Physical Intelligence, MIT\n\n* [**FAST: Efficient Action Tokenization for Vision-Language-Action Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09747) [**arXiv 2025.01**] [[Project page](https:\u002F\u002Fwww.pi.website\u002Fresearch\u002Ffast)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fphysical-intelligence\u002Ffast)]\u003Cbr>\nPhysical Intelligence\n\n* [**RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control**](https:\u002F\u002Frobotics-transformer2.github.io\u002Fassets\u002Frt2.pdf) [**arXiv 2024.07**] [[Project Page](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Frt-2-new-model-translates-vision-and-language-into-action\u002F)] \u003Cbr>\nGoogle Deepmind\n\n* [**Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21696) [**arXiv 2025.03**] [[Github](https:\u002F\u002Fgithub.com\u002Fzwq2018\u002Fembodied_reasoner)] [[Project Page](https:\u002F\u002Fembodied-reasoner.github.io\u002F)] [[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzwq2018\u002Fembodied_reasoner)] \u003Cbr>\nZhejiang University; Institute of Software, Chinese Academy of Sciences; Alibaba Group\n\n\n> ### Self-Evolving Agents\n\n* [**Meta-Control: Automatic Model-based Control System Synthesis for Heterogeneous Robot Skills**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Tsinghua University\n\n* [**AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.04151) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002FWooooDyy\u002FAgentGym)] [[**Project page**](https:\u002F\u002Fagentgym.github.io\u002F)] \u003Cbr>\nFudan NLP Lab & Fudan Vision and Learning Lab\n\n* [**Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11736) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fxufangzhi\u002FENVISIONS)]\u003Cbr>\nFangzhi Xu\u003Csup>♢♡\u003C\u002Fsup>, Qiushi Sun\u003Csup>2, ♡\u003C\u002Fsup>, Kanzhi Cheng\u003Csup>1\u003C\u002Fsup>, Jun Liu\u003Csup>♢\u003C\u002Fsup>, Yu Qiao♡, Zhiyong Wu\u003Csup>♡\u003C\u002Fsup> \u003Cbr>\n\u003Csup>♢\u003C\u002Fsup>Xi’an Jiaotong University, \u003Csup>♡\u003C\u002Fsup>Shanghai Artificial Intelligence Laboratory, \u003Csup>1\u003C\u002Fsup>The University of Hong Kong, \u003Csup>2\u003C\u002Fsup>Nanjing Univerisity\n\n* [**Symbolic Learning Enables Self-Evolving Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.18532) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002Faiwaves-cn\u002Fagents)]\u003Cbr>\nWangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang\u003Cbr>\nAIWaves Inc.\nhttps:\u002F\u002Fmeta-control-paper.github.io\u002F\n\n> ### Advanced Agent Applications\n\n* [**Meta-Control: Automatic Model-based Control System Synthesis for Heterogeneous Robot Skills**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Tsinghua University\n\n\n* [**Embodied-agents**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmbodiai\u002Fembodied-agents)] \u003Cbr>\nSeamlessly integrate state-of-the-art transformer models into robotics stacks.\n\n* [**Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.01014) [**arXiv 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FMobileAgent\u002Ftree\u002Fmain\u002FMobile-Agent-v2)]\u003Cbr>\nJunyang Wang\u003Csup>1\u003C\u002Fsup>, Haiyang Xu\u003Csup>2\u003C\u002Fsup>, Haitao Jia\u003Csup>1\u003C\u002Fsup>, Xi Zhang\u003Csup>2\u003C\u002Fsup>, Ming Yan\u003Csup>2\u003C\u002Fsup>, Weizhou Shen\u003Csup>2\u003C\u002Fsup>, Ji Zhang\u003Csup>2\u003C\u002Fsup>, Fei Huang\u003Csup>2\u003C\u002Fsup>, Jitao Sang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beijing Jiaotong University \u003Csup>2\u003C\u002Fsup>Alibaba Group\n\n* [**Mobile-Agent: The Powerful Mobile Device Operation Assistant Family**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.01014) [**ICLR 2024 Workshop LLM Agents**] [[**Github**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FMobileAgent\u002Ftree\u002Fmain\u002FMobile-Agent-v2)]\u003Cbr>\nJunyang Wang\u003Csup>1\u003C\u002Fsup>, Haiyang Xu\u003Csup>2\u003C\u002Fsup>, Jiabo Ye\u003Csup>2\u003C\u002Fsup>, Ming Yan\u003Csup>2\u003C\u002Fsup>, Weizhou Shen\u003Csup>2\u003C\u002Fsup>, Ji Zhang\u003Csup>2\u003C\u002Fsup>, Fei Huang\u003Csup>2\u003C\u002Fsup>, Jitao Sang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beijing Jiaotong University \u003Csup>2\u003C\u002Fsup>Alibaba Group\n\n* [**Machinascript-for-robots**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fbabycommando\u002Fmachinascript-for-robots)] \u003Cbr>\nBuild LLM-powered robots in your garage with MachinaScript For Robots!\n\n* [**ros2_medkit**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fselfpatch\u002Fros2_medkit)] [[**MCP Server**](https:\u002F\u002Fgithub.com\u002Fselfpatch\u002Fros2_medkit_mcp)] \u003Cbr>\nLLM-powered robot diagnostics for ROS 2 — fault detection, root cause analysis, and self-healing via MCP.\n\n* [**DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.01342) [**CVPR 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FDiffAgent)] \u003Cbr>\nLirui Zhao\u003Csup>1,2\u003C\u002Fsup> Yue Yang\u003Csup>2,4\u003C\u002Fsup> Kaipeng Zhang\u003Csup>2\u003C\u002Fsup> Wenqi Shao\u003Csup>2\u003C\u002Fsup>, Yuxin Zhang\u003Csup>1\u003C\u002Fsup>, Yu Qiao\u003Csup>2\u003C\u002Fsup>, Ping Luo\u003Csup>2,3\u003C\u002Fsup> Rongrong Ji\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Xiamen University, \u003Csup>2\u003C\u002Fsup>OpenGVLab, Shanghai AI Laboratory \u003Csup>3\u003C\u002Fsup>The University of Hong Kong, \u003Csup>4\u003C\u002Fsup>Shanghai Jiao Tong University\n\n\n* [**MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework**](https:\u002F\u002Fopenreview.net\u002Fforum?id=VtmBAGCN7o) [**ICLR 2024 (oral)**]\u003Cbr>\nDeepWisdom, AI Initiative, King Abdullah University of Science and Technology, Xiamen University, The Chinese University of Hong Kong, Shenzhen, Nanjing University, University of Pennsylvania, University of California, Berkeley, The Swiss AI Lab IDSIA\u002FUSI\u002FSUPSI\n\n* [**AppAgent: Multimodal Agents as Smartphone Users**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.13771.pdf) [[**Project page**](https:\u002F\u002Fappagent-official.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmnotgod96\u002FAppAgent)] \u003Cbr>\nChi Zhang∗ ZhaoYang∗ JiaxuanLiu∗ YuchengHan XinChen Zebiao Huang BinFu GangYu†\u003Cbr>\nTencent\n\n> ### LLMs with RL or World Model\n\n* [**KALM: Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=sFyTZEqmUY&name=pdf) [**NeurIPS 2024**] [[**Project Page**](https:\u002F\u002Fkalmneurips2024.github.io)]\u003Cbr>\nJing-Cheng Pang, Si-Hang Yang, Kaiyuan Li, Jiaji Zhang, Xiong-Hui Chen, Nan Tang, Yang Yu\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Nanjing University, \u003Csup>2\u003C\u002Fsup>Polixir.ai\n\n* [**Learning Interactive Real-World Simulators**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=sFyTZEqmUY&name=pdf) [**ICLR 2024 (Outstanding Papers)**] [[**Project Page**](https:\u002F\u002Funiversal-simulator.github.io\u002Funisim\u002F)]\u003Cbr>\nSherry Yang\u003Csup>1,2\u003C\u002Fsup>, Yilun Du\u003Csup>3\u003C\u002Fsup>, Kamyar Ghasemipour\u003Csup>2\u003C\u002Fsup>, Jonathan Tompson\u003Csup>2\u003C\u002Fsup>, Leslie Kaelbling\u003Csup>3\u003C\u002Fsup>, Dale Schuurmans\u003Csup>2\u003C\u002Fsup>, Pieter Abbeel\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC Berkeley, \u003Csup>2\u003C\u002Fsup>Google DeepMind, \u003Csup>3\u003C\u002Fsup>MIT\n\n* [**Robust agents learn causal world models**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=pOoKI3ouv1&name=pdf) [**ICLR 2024**]\u003Cbr>\nJonathan Richens*, TomEveritt \u003Cbr>\nGoogle DeepMind\n\n* [**Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16714.pdf) [**CVPR 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fstevenyangyj\u002FEmma-Alfworld)]\u003Cbr>\nYijun Yang\u003Csup>154\u003C\u002Fsup>, Tianyi Zhou\u003Csup>2\u003C\u002Fsup>, Kanxue Li\u003Csup>3\u003C\u002Fsup>, Dapeng Tao\u003Csup>3\u003C\u002Fsup>, Lvsong Li\u003Csup>4\u003C\u002Fsup>, Li Shen\u003Csup>4\u003C\u002Fsup>, Xiaodong He\u003Csup>4\u003C\u002Fsup>, Jing Jiang\u003Csup>5\u003C\u002Fsup>, Yuhui Shi\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Southern University of Science and Technology, \u003Csup>2\u003C\u002Fsup>University of Maryland, College Park, \u003Csup>3\u003C\u002Fsup>Yunnan University, \u003Csup>4\u003C\u002Fsup>JD Explore Academy, \u003Csup>5\u003C\u002Fsup>University of Technology Sydney\n\n* [**Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning**](https:\u002F\u002Fopenreview.net\u002Fforum?id=zDbsSscmuj) [**NeurIPS 2023**] [[**Project Page**](https:\u002F\u002Fguansuns.github.io\u002Fpages\u002Fllm-dm\u002F)][[**Github**](https:\u002F\u002Fgithub.com\u002FGuanSuns\u002FLLMs-World-Models-for-Planning)]\u003Cbr>\nLin_Guan\u003Csup>1\u003C\u002Fsup>, Karthik Valmeekam\u003Csup>1\u003C\u002Fsup>, Sarath Sreedharan\u003Csup>2\u003C\u002Fsup>, Subbarao Kambhampati\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>School of Computing & AI Arizona State University Tempe, AZ, \u003Csup>2\u003C\u002Fsup>Department of Computer Science Colorado State University Fort Collins, CO\n\n* [**Eureka: Human-Level Reward Design via Coding Large Language Models**](https:\u002F\u002Feureka-research.github.io\u002Fassets\u002Feureka_paper.pdf) [**NeurIPS 2023 Workshop ALOE Spotlight**] [[**Project page**](https:\u002F\u002Feureka-research.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Feureka-research\u002FEureka)] \u003Cbr>\nJason Ma\u003Csup>1,2\u003C\u002Fsup>, William Liang\u003Csup>2\u003C\u002Fsup>, Guanzhi Wang\u003Csup>1,3\u003C\u002Fsup>, De-An Huang\u003Csup>1\u003C\u002Fsup>,\nOsbert Bastani\u003Csup>2\u003C\u002Fsup>, Dinesh Jayaraman\u003Csup>2\u003C\u002Fsup>, Yuke Zhu\u003Csup>1,4\u003C\u002Fsup>, Linxi \"Jim\" Fan\u003Csup>1\u003C\u002Fsup>, Anima Anandkumar\u003Csup>1,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA; \u003Csup>2\u003C\u002Fsup>UPenn; \u003Csup>3\u003C\u002Fsup>Caltech; \u003Csup>4\u003C\u002Fsup>UT Austin\n\n* [**RLAdapter: Bridging Large Language Models to Reinforcement Learning in Open Worlds**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3s4fZTr1ce) [**arXiv 2023**] \u003Cbr>\n\n* [**Can Language Agents Be Alternatives to PPO? A Preliminary Empirical Study on OpenAI Gym**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=F0q880yOgY) [**arXiv 2023**] \u003Cbr>\n\n* [**RoboGPT: An intelligent agent of making embodied long-term decisions for daily instruction tasks**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=x4fm4T2tjM) [**arXiv 2023**] \u003Cbr>\n\n* [**Aligning Agents like Large Language Models**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kQqZVayz07) [**arXiv 2023**] \u003Cbr>\n\n* [**AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=M6XWoEdmwf) [**ICLR 2024 spotlight**] \u003Cbr>\n\n* [**STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=LXiG2WqKXR) [**arXiv 2023**] \u003Cbr>\n\n* [**Text2Reward: Dense Reward Generation with Language Models for Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=tUM39YTRxH) [**ICLR 2024 spotlight**] \u003Cbr>\n\n* [**Leveraging Large Language Models for Optimised Coordination in Textual Multi-Agent Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=1PPjf4wife) [**arXiv 2023**] \u003Cbr>\n\n* [**Online Continual Learning for Interactive Instruction Following Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=7M0EzjugaN) [**ICLR 2024**] \u003Cbr>\n\n* [**ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=LVp217SAtb) [**arXiv 2023**] \u003Cbr>\n\n* [**Language Reward Modulation for Pretraining Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SWRFC2EupO) [**arXiv 2023**] \u003Cbr>\n\n* [**Informing Reinforcement Learning Agents by Grounding Natural Language to Markov Decision Processes**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=P4op21eju0) [**arXiv 2023**] \u003Cbr>\n\n* [**Learning to Model the World with Language**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=eWLOoaShEH) [**arXiv 2023**] \u003Cbr>\n\n* [**MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=1RE0H6mU7M) [**ICLR 2024**] \u003Cbr>\n\n\n* [**Language Reward Modulation for Pretraining Reinforcement Learning**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.12270.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fademiadeniji\u002Flamp)]\u003Cbr>\nAdemi Adeniji, Amber Xie, Carmelo Sferrazza, Younggyo Seo, Stephen James, Pieter Abbeel\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC Berkeley\n\n* [**Guiding Pretraining in Reinforcement Learning with Large Language Models**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=63704LH4v5&name=pdf) [**ICML 2023**] \u003Cbr>\nYuqing Du\u003Csup>1*\u003C\u002Fsup>, Olivia Watkins\u003Csup>1*\u003C\u002Fsup>, Zihan Wang\u003Csup>2\u003C\u002Fsup>, Cedric Colas ´\u003Csup>3,4\u003C\u002Fsup>, Trevor Darrell\u003Csup>1\u003C\u002Fsup>, Pieter Abbeel\u003Csup>1\u003C\u002Fsup>, Abhishek Gupta\u003Csup>2\u003C\u002Fsup>, Jacob Andreas\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Department of Electrical Engineering and Computer Science, University of California, Berkeley, USA \u003Csup>2\u003C\u002Fsup>University of Washington, Seattle \u003Csup>3\u003C\u002Fsup>Massachusetts Institute of Technology, Computer Science and Artificial Intelligence Laboratory \u003Csup>4\u003C\u002Fsup>\nInria, Flowers Laboratory.\n\n> ### Planning and Manipulation or Pretraining\n\n* [**RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.04308) [**Arxiv 2025**] [[**Project Page**](https:\u002F\u002Fzhoues.github.io\u002FRoboRefer\u002F)] [[**Code**](https:\u002F\u002Fgithub.com\u002FZhoues\u002FRoboRefer)]\u003Cbr>\nEnshen Zhou\u003Csup>1,2,*\u003C\u002Fsup>, Jingkun An\u003Csup>1,*\u003C\u002Fsup>, Cheng Chi\u003Csup>2,*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beihang University, \u003Csup>2\u003C\u002Fsup>Beijing Academy of Artificial Intelligence\n\n* [**RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16537) [**CVPR 2025 (Oral)**] [[**Project Page**](https:\u002F\u002Fchanh.ee\u002FRoboSpatial\u002F)] [[**Code**](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FRoboSpatial)]\u003Cbr>\nChan Hee Song\u003Csup>1\u003C\u002Fsup>, Valts Blukis\u003Csup>2\u003C\u002Fsup>, Jonathan Tremblay\u003Csup>2\u003C\u002Fsup>, Stephen Tyree\u003Csup>2\u003C\u002Fsup>, Yu Su\u003Csup>1\u003C\u002Fsup>, Stan Birchfield\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>The Ohio State University, \u003Csup>2\u003C\u002Fsup>NVIDIA\n\n* [**Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.17288) [**AAAI 2025**] [[**Project page**](https:\u002F\u002Ftwoongg.github.io\u002Fprojects\u002Fflare\u002F)]\u003Cbr>\nTaewoong Kim, Byeonghwi Kim, Jonghyun Choi\u003Csup>†\u003C\u002Fsup>\u003Cbr>\nSeoul National University\n\n* [**Pre-emptive Action Revision by Environmental Feedback for Embodied Instruction Following Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=cq2uB30uBM) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fpred-agent.github.io\u002F)]\u003Cbr>\nJinyeon Kim\u003Csup>1,2,*\u003C\u002Fsup>, Cheolhong Min\u003Csup>1,*\u003C\u002Fsup>, Byeonghwi Kim\u003Csup>1\u003C\u002Fsup>, Jonghyun Choi\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Seoul National University \u003Csup>2\u003C\u002Fsup>Yonsei University\n\n* [**Meta-Control: Automatic Model-based Control System Synthesis for Heterogeneous Robot Skills**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Tsinghua University\n\n* [**Voyager: An Open-Ended Embodied Agent with Large Language Models**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=pAMNKGwja6&name=pdf) [**NeurIPS 2023 Workshop ALOE Spotlight**] [[**Project page**](https:\u002F\u002Fvoyager.minedojo.org\u002F)] [[**Github**]](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FVoyager) \u003Cbr>\nGuanzhi Wang\u003Csup>1,2\u003C\u002Fsup>, Yuqi Xie\u003Csup>3\u003C\u002Fsup>, Yunfan Jiang\u003Csup>4\u003C\u002Fsup>, Ajay Mandlekar\u003Csup>1\u003C\u002Fsup>, Chaowei Xiao\u003Csup>1,5\u003C\u002Fsup>, Yuke Zhu\u003Csup>1,3\u003C\u002Fsup>, Linxi Fan\u003Csup>1\u003C\u002Fsup>, Anima Anandkumar\u003Csup>1,2\u003C\u002Fsup>\n\u003Csup>1\u003C\u002Fsup>NVIDIA, \u003Csup>2\u003C\u002Fsup>Caltech, \u003Csup>3\u003C\u002Fsup>UT Austin, \u003Csup>4\u003C\u002Fsup>Stanford, \u003Csup>5\u003C\u002Fsup>UW Madison\n\n* [**Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17574) [**ACL 2024**][[**Github**](https:\u002F\u002Fgithub.com\u002Fzwq2018\u002FAgent-Pro)] \u003Cbr>\nWenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu\n\n* [**Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.02009) [**ACL 2024**] \u003Cbr>\nWenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu\n\n* [**MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.12037.pdf) [**arXiv 2024**] [[**Project Page**](https:\u002F\u002Fsites.google.com\u002Fview\u002Fminedreamer\u002Fmain)] \u003Cbr>\n  Enshen Zhou\u003Csup>1,2\u003C\u002Fsup> Yiran Qin\u003Csup>1,3\u003C\u002Fsup> Zhenfei Yin\u003Csup>1,4\u003C\u002Fsup> Yuzhou Huang\u003Csup>3\u003C\u002Fsup> Ruimao Zhang\u003Csup>3\u003C\u002Fsup> Lu Sheng\u003Csup>2\u003C\u002Fsup> Yu Qiao\u003Csup>1\u003C\u002Fsup>  Jing Shao\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>Shanghai Artificial Intelligence Laboratory, \u003Csup>2\u003C\u002Fsup>The Chinese University of Hong Kong, Shenzhen, \u003Csup>3\u003C\u002Fsup>Beihang University, \u003Csup>4\u003C\u002Fsup>The University of Sydney\n\n* [**MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.07472.pdf) [**CVPR 2024**] [[**Project Page**](https:\u002F\u002Firanqin.github.io\u002FMP5.github.io\u002F)] \u003Cbr>\n  Yiran Qin\u003Csup>1,2\u003C\u002Fsup> Enshen Zhou\u003Csup>1,3\u003C\u002Fsup> Qichang Liu\u003Csup>1,4\u003C\u002Fsup> Zhenfei Yin\u003Csup>1,5\u003C\u002Fsup> Lu Sheng\u003Csup>3\u003C\u002Fsup> Ruimao Zhang\u003Csup>2\u003C\u002Fsup> Yu Qiao\u003Csup>1\u003C\u002Fsup>  Jing Shao\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>Shanghai Artificial Intelligence Laboratory, \u003Csup>2\u003C\u002Fsup>The Chinese University of Hong Kong, Shenzhen, \u003Csup>3\u003C\u002Fsup>Beihang University, \u003Csup>4\u003C\u002Fsup>Tsinghua University, \u003Csup>5\u003C\u002Fsup>The University of Sydney\n  \n* [**Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04455) [**CVPR 2025**] [[**Project Page**](https:\u002F\u002Fzhoues.github.io\u002FCode-as-Monitor\u002F)] \u003Cbr>\nEnshen Zhou\u003Csup>1*\u003C\u002Fsup> Qi Su\u003Csup>2*\u003C\u002Fsup> Cheng Chi\u003Csup>3*;\u003C\u002Fsup> Zhizheng Zhang\u003Csup>4\u003C\u002Fsup> Zhongyuan Wang\u003Csup>3\u003C\u002Fsup> Tiejun Huang\u003Csup>2,3\u003C\u002Fsup> Lu Sheng\u003Csup>1;\u003C\u002Fsup> He Wang\u003Csup>2,3,4;\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beihang University, \u003Csup>2\u003C\u002Fsup>Peking University, \u003Csup>3\u003C\u002Fsup>Beijing Academy of Artificial Intelligence, \u003Csup>4\u003C\u002Fsup>GalBot\n\n\n* [**RILA: Reflective and Imaginative Language Agent for Zero-Shot Semantic Audio-Visual Navigation**](https:\u002F\u002Fpeihaochen.github.io\u002Ffiles\u002Fpublications\u002FRILA.pdf) [**CVPR 2024**] \u003Cbr>\nZeyuan Yang\u003Csup>1\u003C\u002Fsup>, LIU JIAGENG, Peihao Chen\u003Csup>2\u003C\u002Fsup>, Anoop Cherian\u003Csup>3\u003C\u002Fsup>, Tim Marks, Jonathan Le Roux\u003Csup>4\u003C\u002Fsup>, Chuang Gan\u003Csup>5\u003C\u002Fsup>\n\u003Csup>1\u003C\u002Fsup>Tsinghua University, \u003Csup>2\u003C\u002Fsup>South China University of Technology, \u003Csup>3\u003C\u002Fsup>Mitsubishi Electric Research Labs (MERL), \u003Csup>4\u003C\u002Fsup>Mitsubishi Electric Research Labs, \u003Csup>5\u003C\u002Fsup>MIT-IBM Watson AI Lab \n\n* [**Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.03186.pdf) [**arXiv 2024**] [[**Project Page**]](https:\u002F\u002Fbaai-agents.github.io\u002FCradle\u002F) [[**Code**]](https:\u002F\u002Fbaai-agents.github.io\u002FCradle\u002F) \u003Cbr>\nWeihao Tan\u003Csup>2\u003C\u002Fsup>, Ziluo Ding\u003Csup>1\u003C\u002Fsup>, Wentao Zhang\u003Csup>2\u003C\u002Fsup>, Boyu Li\u003Csup>1\u003C\u002Fsup>, Bohan Zhou\u003Csup>3\u003C\u002Fsup>, Junpeng Yue\u003Csup>3\u003C\u002Fsup>, Haochong Xia\u003Csup>2\u003C\u002Fsup>, Jiechuan Jiang\u003Csup>3\u003C\u002Fsup>, Longtao Zheng\u003Csup>2\u003C\u002Fsup>, Xinrun Xu1, Yifei Bi\u003Csup>1\u003C\u002Fsup>, Pengjie Gu\u003Csup>2\u003C\u002Fsup>,\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beijing Academy of Artificial Intelligence (BAAI), China; \u003Csup>2\u003C\u002Fsup>Nanyang Technological University, Singapore; \u003Csup>3\u003C\u002Fsup>School of Computer Science, Peking University, China\n\n* [**See and Think: Embodied Agent in Virtual Environment**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.15209.pdf) [**arXiv 2023**] \u003Cbr>\n Zhonghan Zhao\u003Csup>1*\u003C\u002Fsup>, Wenhao Chai\u003Csup>2*\u003C\u002Fsup>, Xuan Wang\u003Csup>1*\u003C\u002Fsup>, Li Boyi\u003Csup>1\u003C\u002Fsup>, Shengyu Hao\u003Csup>1\u003C\u002Fsup>, Shidong Cao\u003Csup>1\u003C\u002Fsup>, Tian Ye\u003Csup>3\u003C\u002Fsup>, Jenq-Neng Hwang\u003Csup>2\u003C\u002Fsup>, Gaoang Wang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Zhejiang University \u003Csup>1\u003C\u002Fsup>University of Washington \u003Csup>1\u003C\u002Fsup>Hong Kong University of Science and Technology (GZ)\n\n* [**Agent Instructs Large Language Models to be General Zero-Shot Reasoners**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.03710.pdf) [**arXiv 2023**] \u003Cbr>\nNicholas Crispino\u003Csup>1\u003C\u002Fsup>, Kyle Montgomery\u003Csup>1\u003C\u002Fsup>, Fankun Zeng\u003Csup>1\u003C\u002Fsup>, Dawn Song\u003Csup>2\u003C\u002Fsup>, Chenguang Wang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Washington University in St. Louis, \u003Csup>2\u003C\u002Fsup>UC Berkeley\n\n* [**JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models**](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2023\u002F79171https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997) [**NeurIPS 2023**] [[**Project Page**](https:\u002F\u002Fcraftjarvis-jarvis1.github.io\u002F)] \u003Cbr>\n  Zihao Wang\u003Csup>1,2\u003C\u002Fsup> Shaofei Cai\u003Csup>1,2\u003C\u002Fsup> Anji Liu\u003Csup>3\u003C\u002Fsup> Yonggang Jin\u003Csup>4\u003C\u002Fsup> Jinbing Hou\u003Csup>4\u003C\u002Fsup> Bowei Zhang\u003Csup>5\u003C\u002Fsup> Haowei Lin\u003Csup>1,2\u003C\u002Fsup> Zhaofeng He\u003Csup>4\u003C\u002Fsup> Zilong Zheng\u003Csup>6\u003C\u002Fsup> Yaodong Yang\u003Csup>1\u003C\u002Fsup> Xiaojian Ma\u003Csup>6†\u003C\u002Fsup> Yitao Liang\u003Csup>1†\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>Institute for Artificial Intelligence, Peking University, \u003Csup>2\u003C\u002Fsup>School of Intelligence Science and Technology, Peking University, \u003Csup>3\u003C\u002Fsup>Computer Science Department, University of California, Los Angeles, \u003Csup>4\u003C\u002Fsup>Beijing University of Posts and Telecommunications, \u003Csup>5\u003C\u002Fsup>School of Electronics Engineering and Computer Science, Peking University, \u003Csup>6\u003C\u002Fsup>Beijing Institute for General Artificial Intelligence (BIGAI)\n\n* [**Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560) [**NeurIPS 2023**]\u003Cbr>\n  Zihao Wang\u003Csup>1,2\u003C\u002Fsup> Shaofei Cai\u003Csup>1,2\u003C\u002Fsup> Guanzhou Chen\u003Csup>3\u003C\u002Fsup> Anji Liu\u003Csup>4\u003C\u002Fsup> Xiaojian Ma\u003Csup>4\u003C\u002Fsup> Yitao Liang\u003Csup>1,5†\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>Institute for Artificial Intelligence, Peking University, \u003Csup>2\u003C\u002Fsup>School of Intelligence Science and Technology, Peking University, \u003Csup>3\u003C\u002Fsup>School of Computer Science, Beijing University of Posts and Telecommunications, \u003Csup>4\u003C\u002Fsup>Computer Science Department, University of California, Los Angeles, \u003Csup>5\u003C\u002Fsup>Beijing Institute for General Artificial Intelligence (BIGAI)\n\n* [**CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.17760.pdf) [**NeurIPS 2023**] [[**Github**](https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel)] [[**Project page**](https:\u002F\u002Fwww.camel-ai.org\u002F)]\u003Cbr>\nGuohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>King Abdullah University of Science and Technology (KAUST)\n\n* [**Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.07207.pdf) [**arXiv 2022**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fhuangwl18\u002Flanguage-planner)] [[**Project page**](https:\u002F\u002Fwenlong.page\u002Flanguage-planner\u002F)] \u003Cbr>\nWenlong Huang\u003Csup>1\u003C\u002Fsup>, Pieter Abbeel\u003Csup>1\u003C\u002Fsup>, Deepak Pathak\u003Csup>2\u003C\u002Fsup>, Igor Mordatch\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC Berkeley, \u003Csup>2\u003C\u002Fsup>Carnegie Mellon University, \u003Csup>3\u003C\u002Fsup>Google\n\n* [**FILM: Following Instructions in Language with Modular Methods**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=qI4542Y2s1D) [**ICLR 2022**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fsoyeonm\u002FFILM)] [[**Project page**](https:\u002F\u002Fgary3410.github.io\u002FTaPA\u002F)] \u003Cbr>\nSo Yeon Min\u003Csup>1\u003C\u002Fsup>, Devendra Singh Chaplot\u003Csup>2\u003C\u002Fsup>, Pradeep Ravikumar\u003Csup>1\u003C\u002Fsup>, Yonatan Bisk\u003Csup>1\u003C\u002Fsup>, Ruslan Salakhutdinov\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**Embodied Task Planning with Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.01848.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002FGary3410\u002FTaPA)] [[**Project page**](https:\u002F\u002Fgary3410.github.io\u002FTaPA\u002F)] [[**Demo**](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fxuxw98\u002FTAPA)] [[**Huggingface Model**](https:\u002F\u002Fhuggingface.co\u002FGary3410\u002Fpretrain_lit_llama)] \u003Cbr>\nZhenyu Wu\u003Csup>1\u003C\u002Fsup>, Ziwei Wang\u003Csup>2,3\u003C\u002Fsup>, Xiuwei Xu\u003Csup>2,3\u003C\u002Fsup>, Jiwen Lu\u003Csup>2,3\u003C\u002Fsup>, Haibin Yan\u003Csup>1*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>School of Automation, Beijing University of Posts and Telecommunications,\n\u003Csup>2\u003C\u002Fsup>Department of Automation, Tsinghua University,\n\u003Csup>3\u003C\u002Fsup>Beijing National Research Center for Information Science and Technology\n\n* [**SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.15486.pdf) [**arXiv 2023**] \u003Cbr>\nYue Wu\u003Csup>1,4*\u003C\u002Fsup>\n, Shrimai Prabhumoye\u003Csup>2\u003C\u002Fsup>\n, So Yeon Min\u003Csup>1\u003C\u002Fsup>\n, Yonatan Bisk\u003Csup>1\u003C\u002Fsup>\n, Ruslan Salakhutdinov\u003Csup>1\u003C\u002Fsup>\n,Amos Azaria\u003Csup>3\u003C\u002Fsup>\n, Tom Mitchell\u003Csup>1\u003C\u002Fsup>\n, Yuanzhi Li\u003Csup>1,4\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Carnegie Mellon University, \u003Csup>2\u003C\u002Fsup>NVIDIA, \u003Csup>3\u003C\u002Fsup>Ariel University, \u003Csup>4\u003C\u002Fsup>Microsoft Research\n\n* [**PONI: Potential Functions for ObjectGoal Navigation\nwith Interaction-free Learning**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FRamakrishnan_PONI_Potential_Functions_for_ObjectGoal_Navigation_With_Interaction-Free_Learning_CVPR_2022_paper.pdf) [**CVPR 2022 (Oral)**] [[**Project page**](https:\u002F\u002Fvision.cs.utexas.edu\u002Fprojects\u002Fponi\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fsrama2512\u002FPONI)] \u003Cbr>\nSanthosh Kumar Ramakrishnan\u003Csup>1,2\u003C\u002Fsup>, Devendra Singh Chaplot\u003Csup>1\u003C\u002Fsup>, Ziad Al-Halah\u003Csup>2\u003C\u002Fsup>\nJitendra Malik\u003Csup>1,3\u003C\u002Fsup>, Kristen Grauman\u003Csup>1,2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Facebook AI Research, \u003Csup>2\u003C\u002Fsup>UT Austin, \u003Csup>3\u003C\u002Fsup>UC Berkeley\n\n* [**Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=vmjctNUSWI) [**ICLR 2023**] [[**Project page**](https:\u002F\u002Fprior.allenai.org\u002Fprojects\u002Faction-adaptive-policy)] [[**Github**](https:\u002F\u002Fgithub.com\u002FKuoHaoZeng\u002FAAP)] \u003Cbr>\nKuo-Hao Zeng\u003Csup>1\u003C\u002Fsup>, Luca Weihs\u003Csup>2\u003C\u002Fsup>, Roozbeh Mottaghi\u003Csup>1\u003C\u002Fsup>, Ali Farhadi\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Paul G. Allen School of Computer Science & Engineering, University of Washington,\n\u003Csup>2\u003C\u002Fsup>PRIOR @ Allen Institute for AI\n\n* [**Modeling Dynamic Environments with Scene Graph Memory**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=NiUxS1cAI4&name=pdf) [**ICML 2023**] \u003Cbr>\nAndrey Kurenkov\u003Csup>1\u003C\u002Fsup>, Michael Lingelbach\u003Csup>1\u003C\u002Fsup>, Tanmay Agarwal\u003Csup>1\u003C\u002Fsup>, Emily Jin\u003Csup>1\u003C\u002Fsup>, Chengshu Li\u003Csup>1\u003C\u002Fsup>, Ruohan Zhang\u003Csup>1\u003C\u002Fsup>, Li Fei-Fei\u003Csup>1\u003C\u002Fsup>, Jiajun Wu\u003Csup>1\u003C\u002Fsup>, Silvio Savarese\u003Csup>2\u003C\u002Fsup>, Roberto Mart´ın-Mart´ın\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Department of Computer Science, Stanford University\n\u003Csup>2\u003C\u002Fsup>Salesforce AI Research \u003Csup>3\u003C\u002Fsup>Department of Computer Science, University of Texas at Austin.\n\n* [**Reasoning with Language Model is Planning with World Model**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14992.pdf) [**arXiv 2023**] \u003Cbr>\nShibo Hao\u003Csup>∗♣\u003C\u002Fsup>, Yi Gu\u003Csup>∗♣\u003C\u002Fsup>, Haodi Ma\u003Csup>♢\u003C\u002Fsup>, Joshua Jiahua Hong\u003Csup>♣\u003C\u002Fsup>, Zhen Wang\u003Csup>♣ ♠\u003C\u002Fsup>,\nDaisy Zhe Wang\u003Csup>♢\u003C\u002Fsup>, Zhiting Hu\u003Csup>♣\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♣\u003C\u002Fsup>UC San Diego, \u003Csup>♢\u003C\u002Fsup>University of Florida,\n\u003Csup>♠\u003C\u002Fsup>Mohamed bin Zayed University of Artificial Intelligence\n\n* [**Do As I Can, Not As I Say: Grounding Language in Robotic Affordances**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.01691.pdf) [**arXiv 2022**]\u003Cbr>\nRobotics at Google, Everyday Robots\n\n* [**Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=Rm5Qi57C5I&name=pdf) [**ICML 2023**]\u003Cbr>\nKolby Nottingham\u003Csup>1\u003C\u002Fsup> Prithviraj Ammanabrolu\u003Csup>2\u003C\u002Fsup> Alane Suhr\u003Csup>2\u003C\u002Fsup>\nYejin Choi\u003Csup>3,2\u003C\u002Fsup> Hannaneh Hajishirzi\u003Csup>3,2\u003C\u002Fsup> Sameer Singh\u003Csup>1,2\u003C\u002Fsup> Roy Fox\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Department of Computer Science, University of California\nIrvine \u003Csup>2\u003C\u002Fsup>Allen Institute for Artificial\nIntelligence\n\u003Csup>3\u003C\u002Fsup>Paul G. Allen School of\nComputer Science\n\n* [**Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.07241v2.pdf) [**ICCV 2023**] [[**Project page**](https:\u002F\u002Fbhkim94.github.io\u002Fprojects\u002FCAPEAM\u002F)]\u003Cbr>\nByeonghwi Kim Jinyeon Kim Yuyeong Kim\u003Csup>1,*\u003C\u002Fsup> Cheolhong Min Jonghyun Choi\u003Csup>†\u003C\u002Fsup>\u003Cbr>\nYonsei University \u003Csup>1\u003C\u002Fsup>Gwangju Institute of Science and Technology\n\n* [**Inner Monologue: Embodied Reasoning through Planning with Language Models**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3R3Pz5i0tye) [**CoRL 2022**] [[**Project page**](https:\u002F\u002Finnermonologue.github.io\u002F)]\u003Cbr>\nRobotics at Google\n\n* [**Language Models Meet World Models: Embodied Experiences Enhance Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10626.pdf) [**arXiv 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fszxiangjn\u002Fworld-model-for-language-model?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Fszxiangjn\u002Fworld-model-for-language-model) [[**Twitter**](https:\u002F\u002Ftwitter.com\u002Fszxiangjn\u002Fstatus\u002F1659399771126370304)]\u003Cbr>\nJiannan Xiang\u003Csup>∗♠\u003C\u002Fsup>, Tianhua Tao\u003Csup>∗♠\u003C\u002Fsup>, Yi Gu\u003Csup>♠\u003C\u002Fsup>, Tianmin Shu\u003Csup>♢\u003C\u002Fsup>,\nZirui Wang\u003Csup>♠\u003C\u002Fsup>, Zichao Yang\u003Csup>♡\u003C\u002Fsup>, Zhiting Hu\u003Csup>♠\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♠\u003C\u002Fsup>UC San Diego, \u003Csup>♣\u003C\u002Fsup>UIUC, \u003Csup>♢\u003C\u002Fsup>MIT, \u003Csup>♡\u003C\u002Fsup>Carnegie Mellon University\n\n* [**AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18898.pdf) [**arXiv 2023**] [[**Video**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ayAzID1_qQk)]\u003Cbr>\nChuhao Jin\u003Csup>1*\u003C\u002Fsup>\n, Wenhui Tan\u003Csup>1*\u003C\u002Fsup>\n, Jiange Yang\u003Csup>2*\u003C\u002Fsup>\n, Bei Liu3\u003Csup>†\u003C\u002Fsup>\n, Ruihua Song\u003Csup>1\u003C\u002Fsup>\n, Limin Wang\u003Csup>2\u003C\u002Fsup>\n, Jianlong Fu\u003Csup>3†\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Renmin University of China, \u003Csup>2\u003C\u002Fsup>Nanjing University,\n\u003Csup>3\u003C\u002Fsup>Microsoft Research\n\n* [**A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=NeGDZeyjcKa) [**CoRL 2021**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fvaltsblukis\u002Fhlsm?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Fvaltsblukis\u002Fhlsm)  [[**Project page**](https:\u002F\u002Fhlsm-alfred.github.io\u002F)] [[**Poster**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=NeGDZeyjcKa&name=poster)]\u003Cbr>\nValts Blukis\u003Csup>1,2\u003C\u002Fsup>, Chris Paxton\u003Csup>1\u003C\u002Fsup>, Dieter Fox\u003Csup>1,3\u003C\u002Fsup>, Animesh Garg\u003Csup>1,4\u003C\u002Fsup>, Yoav Artzi\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA \u003Csup>2\u003C\u002Fsup>Cornell University \u003Csup>3\u003C\u002Fsup>University of Washington \u003Csup>4\u003C\u002Fsup>University of Toronto, Vector Institute\n\n\n* [**LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.04088.pdf) [**ICCV 2023**] [[**Project page**](https:\u002F\u002Fdki-lab.github.io\u002FLLM-Planner\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FOSU-NLP-Group\u002FLLM-Planner)]\u003Cbr>\nChan Hee Song\u003Csup>1\u003C\u002Fsup>, Jiaman Wu\u003Csup>1\u003C\u002Fsup>, Clayton Washington\u003Csup>1\u003C\u002Fsup>, Brian M. Sadler\u003Csup>2\u003C\u002Fsup>, Wei-Lun Chao\u003Csup>1\u003C\u002Fsup>, Yu Su\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>The Ohio State University, \u003Csup>2\u003C\u002Fsup>DEVCOM ARL\n\n* [**Code as Policies: Language Model Programs for Embodied Control**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.07753) [**arXiv 2023**] [[**Project page**](https:\u002F\u002Fcode-as-policies.github.io\u002F)] [[**Github**](https:\u002F\u002Fcode-as-policies.github.io)] [[**Blog**](https:\u002F\u002Fai.googleblog.com\u002F2022\u002F11\u002Frobots-that-write-their-own-code.html)] [[**Colab**](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F124TE4TsGYyrvduzeDclufyvwcc2qbbrE)]\u003Cbr>\nJacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zeng\u003Cbr>\nRobotics at Google\n\n* [**3D-LLM: Injecting the 3D World into Large Language Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12981) [**arXiv 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FUMass-Foundation-Model\u002F3D-LLM?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002F3D-LLM) \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Yining Hong, \u003Csup>2\u003C\u002Fsup>Haoyu Zhen, \u003Csup>3\u003C\u002Fsup>Peihao Chen, \u003Csup>4\u003C\u002Fsup>Shuhong Zheng, \u003Csup>5\u003C\u002Fsup>Yilun Du, \u003Csup>6\u003C\u002Fsup>Zhenfang Chen, \u003Csup>6,7\u003C\u002Fsup>Chuang Gan \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UCLA       \u003Csup>2\u003C\u002Fsup> SJTU       \u003Csup>3\u003C\u002Fsup> SCUT       \u003Csup>4\u003C\u002Fsup> UIUC       \u003Csup>5\u003C\u002Fsup> MIT       \u003Csup>6\u003C\u002Fsup>MIT-IBM Watson AI Lab       \u003Csup>7\u003C\u002Fsup> Umass Amherst\n\n* [**VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05973) [**arXiv 2023**] [[**Project page**](https:\u002F\u002Fvoxposer.github.io\u002F)] [[**Online Demo**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Yvn4eR05A3M)]\u003Cbr>\nWenlong Huang\u003Csup>1\u003C\u002Fsup>, Chen Wang\u003Csup>1\u003C\u002Fsup>, Ruohan Zhang\u003Csup>1\u003C\u002Fsup>, Yunzhu Li\u003Csup>1,2\u003C\u002Fsup>, Jiajun Wu\u003Csup>1\u003C\u002Fsup>, Li Fei-Fei\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Stanford University \u003Csup>2\u003C\u002Fsup>University of Illinois Urbana-Champaign\n\n* [**Palm-e: An embodied multimodal language mode**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03378.pdf) [**ICML 2023**] [[**Project page**](https:\u002F\u002Fpalm-e.github.io)]\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Robotics at Google \u003Csup>2\u003C\u002Fsup>TU Berlin 3Google Research    \n\n* [**Large Language Models as Commonsense Knowledge for Large-Scale Task Planning**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14078.pdf) [**arXiv 2023**] \u003Cbr>\nZirui Zhao Wee Sun Lee David Hsu \u003Cbr>\nSchool of Computing National University of Singapore\n\n* [**An Embodied Generalist Agent in 3D World**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871) [**ICML 2024**] \u003Cbr>\nJiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang\nBeijing Institute for General Artificial Intelligence (BIGAI)   \n\n> ###  Multi-Agent Learning and Coordination\n\n* [**Building Cooperative Embodied Agents Modularly with Large Language Models**](https:\u002F\u002Fopenreview.net\u002Fforum?id=EnXJfQqy0K) [**ICLR 2024**] [[**Project page**](https:\u002F\u002Fvis-www.cs.umass.edu\u002FCo-LLM-Agents\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002FCo-LLM-Agents\u002F)]\u003Cbr>\nHongxin Zhang\u003Csup>1*\u003C\u002Fsup>, Weihua Du\u003Csup>2*\u003C\u002Fsup>, Jiaming Shan\u003Csup>3\u003C\u002Fsup>, Qinhong Zhou\u003Csup>1\u003C\u002Fsup>, Yilun Du\u003Csup>4\u003C\u002Fsup>, Joshua B. Tenenbaum\u003Csup>4\u003C\u002Fsup>, Tianmin Shu\u003Csup>4\u003C\u002Fsup>, Chuang Gan\u003Csup>1,5\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>University of Massachusetts Amherst, \u003Csup>2\u003C\u002Fsup>Tsinghua University, \u003Csup>3\u003C\u002Fsup>Shanghai Jiao Tong University, \u003Csup>4\u003C\u002Fsup>MIT, \u003Csup>5\u003C\u002Fsup>MIT-IBM Watson AI Lab\n\n\n* [**War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.17227.pdf) [**arXiv 2023**]\u003Cbr>\nWenyue Hua\u003Csup>1*\u003C\u002Fsup>, Lizhou Fan\u003Csup>2*\u003C\u002Fsup>, Lingyao Li\u003Csup>2\u003C\u002Fsup>, Kai Mei\u003Csup>1\u003C\u002Fsup>, Jianchao Ji\u003Csup>1\u003C\u002Fsup>, Yingqiang Ge\u003Csup>1\u003C\u002Fsup>, Libby Hemphill\u003Csup>2\u003C\u002Fsup>, Yongfeng Zhang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Rutgers University, \u003Csup>2\u003C\u002Fsup>University of Michigan\n\n* [**MindAgent: Emergent Gaming Interaction**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971) [**arXiv 2023**]\u003Cbr> Ran Gong\u003Csup>*1†\u003C\u002Fsup> Qiuyuan Huang\u003Csup>*2‡\u003C\u002Fsup> Xiaojian Ma\u003Csup>*1\u003C\u002Fsup> Hoi Vo\u003Csup>3\u003C\u002Fsup> Zane Durante\u003Csup>†4\u003C\u002Fsup> Yusuke Noda\u003Csup>3\u003C\u002Fsup> Zilong Zheng\u003Csup>5\u003C\u002Fsup> Song-Chun Zhu\u003Csup>15678\u003C\u002Fsup> Demetri Terzopoulos\u003Csup>1\u003C\u002Fsup> Li Fei-Fei\u003Csup>4\u003C\u002Fsup> Jianfeng Gao\u003Csup>2\u003C\u002Fsup>\u003Cbr>\u003Csup>1\u003C\u002Fsup>UCLA; \u003Csup>2\u003C\u002Fsup>Microsoft Research, Redmond; \u003Csup>3\u003C\u002Fsup>Xbox Team, Microsoft; \u003Csup>4\u003C\u002Fsup>Stanford; \u003Csup>5\u003C\u002Fsup>BIGAI; \u003Csup>6\u003C\u002Fsup>PKU; \u003Csup>7\u003C\u002Fsup>THU; \u003Csup>8\u003C\u002Fsup>UCLA\n\n* [**Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=BMO1vLKq7D&name=pdf) [**ICML 2023**]\u003Cbr>\nJigang Kim\u003Csup>*1,2\u003C\u002Fsup> Daesol Cho\u003Csup>*1,2\u003C\u002Fsup> H. Jin Kim\u003Csup>1,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Seoul National University, \u003Csup>2\u003C\u002Fsup>Artificial Intelligence Institute of Seoul National University (AIIS), \u003Csup>3\u003C\u002Fsup>Automation and Systems Research Institute (ASRI).\u003Cbr>\n***Note: This paper mainly focuses on reinforcement learning for Embodied AI.***\n\n* [**Adaptive Coordination in Social Embodied Rearrangement**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=BYEsw113sz&name=pdf) [**ICML 2023**]\u003Cbr>\nAndrew Szot\u003Csup>1,2\u003C\u002Fsup> Unnat Jain\u003Csup>1\u003C\u002Fsup> Dhruv Batra\u003Csup>1,2\u003C\u002Fsup> Zsolt Kira\u003Csup>2\u003C\u002Fsup> Ruta Desai\u003Csup>1\u003C\u002Fsup> Akshara Rai\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Meta AI \u003Csup>2\u003C\u002Fsup>Georgia Institute of Technology.\n\n> ### Vision and Language Navigation\n\n* [**CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.01273) [**ICRA 2025**] \u003Cbr>\nSuhwan Choi\u003Csup>1\u003C\u002Fsup> Yongjun Cho\u003Csup>1\u003C\u002Fsup> Minchan Kim\u003Csup>1\u003C\u002Fsup> Jaeyoon Jung\u003Csup>1\u003C\u002Fsup> Myunchul Joe\u003Csup>1\u003C\u002Fsup> Yubeen Park\u003Csup>1\u003C\u002Fsup> Minseo Kim\u003Csup>2\u003C\u002Fsup> Sungwoong Kim\u003Csup>2\u003C\u002Fsup> Sungjae Lee\u003Csup>2\u003C\u002Fsup> Hwiseong Park\u003Csup>1\u003C\u002Fsup> Jiwan Chung\u003Csup>2\u003C\u002Fsup> Youngjae Yu\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>MAUM.AI \u003Csup>2\u003C\u002Fsup>Yonsei University\n\n* [**IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience**](http:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01098) [**arXiv 2023**] \u003Cbr>\nJoanne Truong\u003Csup>1,2\u003C\u002Fsup>, April Zitkovich\u003Csup>1\u003C\u002Fsup>, Sonia Chernova\u003Csup>2\u003C\u002Fsup>, Dhruv Batra\u003Csup>2,3\u003C\u002Fsup>, Tingnan Zhang\u003Csup>1\u003C\u002Fsup>, Jie Tan\u003Csup>1\u003C\u002Fsup>, Wenhao Yu\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Robotics at Google \u003Csup>2\u003C\u002Fsup>Georgia Institute of Technology \u003Csup>3\u003C\u002Fsup>Meta AI\n\n\n* [**DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02730) [**arXiv 2024**] [[**Project page**](https:\u002F\u002Fzhaowei-wang-nlp.github.io\u002Fdivscene-project-page\u002F)]\u003Cbr>\nZhaowei Wang\u003Csup>1\u003C\u002Fsup>, Hongming Zhang\u003Csup>2\u003C\u002Fsup>, Tianqing Fang\u003Csup>1,2\u003C\u002Fsup>, Ye Tian\u003Csup>3\u003C\u002Fsup>, Yue Yang\u003Csup>4\u003C\u002Fsup>, Kaixin Ma\u003Csup>2\u003C\u002Fsup>, Xiaoman Pan\u003Csup>2\u003C\u002Fsup>, Yangqiu Song\u003Csup>1\u003C\u002Fsup>, Dong Yu\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>CSE Department, HKUST&nbsp;&nbsp;\u003Csup>2\u003C\u002Fsup>Tencent AI Lab, Bellevue, USA&nbsp;&nbsp;\u003Csup>3\u003C\u002Fsup>Robotics X, Tencent&nbsp;&nbsp;\u003Csup>4\u003C\u002Fsup>University of Pennsylvania\n\n\n* [**ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=GydFM0ZEXY&name=pdf) [**ICML 2023**] \u003Cbr>\nKaiwen Zhou\u003Csup>1\u003C\u002Fsup>, Kaizhi Zheng\u003Csup>1\u003C\u002Fsup>, Connor Pryor\u003Csup>1\u003C\u002Fsup>, Yilin Shen\u003Csup>2\u003C\u002Fsup>, Hongxia Jin\u003Csup>2\u003C\u002Fsup>, Lise Getoor\u003Csup>1\u003C\u002Fsup>, Xin Eric Wang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>University of California, Santa Cruz \u003Csup>2\u003C\u002Fsup>Samsung Research America.\n\n\n* [**NavGPT: Explicit Reasoning in Vision-and-Language\nNavigation with Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.16986.pdf) [**arXiv 2023**] \u003Cbr>\nGengze Zhou\u003Csup>1\u003C\u002Fsup> Yicong Hong\u003Csup>2\u003C\u002Fsup> Qi Wu\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>The University of Adelaide \u003Csup>2\u003C\u002Fsup>The Australian National University\n\n\n* [**Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11176.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInstruct2Act)]    \nSiyuan Huang\u003Csup>1,2\u003C\u002Fsup> Zhengkai Jiang\u003Csup>4\u003C\u002Fsup> Hao Dong\u003Csup>3\u003C\u002Fsup> Yu Qiao\u003Csup>2\u003C\u002Fsup> Peng Gao\u003Csup>2\u003C\u002Fsup> Hongsheng Li\u003Csup>5\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Shanghai Jiao Tong University, \u003Csup>2\u003C\u002Fsup>Shanghai AI Laboratory, \u003Csup>3\u003C\u002Fsup>CFCS, School of CS, PKU,\n\u003Csup>4\u003C\u002Fsup>University of Chinese Academy of Sciences, \u003Csup>5\u003C\u002Fsup>The Chinese University of Hong Kong\n\n> ### Detection\n* [**DetGPT: Detect What You Need via Reasoning**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14167.pdf) [**arXiv 2023**] \u003Cbr>\nRenjie Pi\u003Csup>1∗\u003C\u002Fsup> Jiahui Gao\u003Csup>2*\u003C\u002Fsup> Shizhe Diao\u003Csup>1∗\u003C\u002Fsup> Rui Pan\u003Csup>1\u003C\u002Fsup> Hanze Dong\u003Csup>1\u003C\u002Fsup> Jipeng Zhang\u003Csup>1\u003C\u002Fsup> Lewei Yao\u003Csup>1\u003C\u002Fsup> Jianhua Han\u003Csup>3\u003C\u002Fsup> Hang Xu\u003Csup>2\u003C\u002Fsup>\nLingpeng Kong\u003Csup>2\u003C\u002Fsup> Tong Zhang\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>The Hong Kong University of Science and Technology \u003Csup>2\u003C\u002Fsup>The University of Hong Kong 3Shanghai Jiao Tong University\n\n> ### 3D Grounding\n* [**LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.12311.pdf) [**arXiv 2023**]  \u003Cbr>\nJianing Yang\u003Csup>1,*\u003C\u002Fsup>, Xuweiyi Chen\u003Csup>1,*\u003C\u002Fsup>, Shengyi Qian\u003Csup>1\u003C\u002Fsup>, Nikhil Madaan, Madhavan Iyengar\u003Csup>1\u003C\u002Fsup>, David F. Fouhey\u003Csup>1,2\u003C\u002Fsup>, Joyce Chai\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>University of Michigan, \u003Csup>2\u003C\u002Fsup>New York University\n\n* [**3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04352) [**ICCV 2023**] \u003Cbr>\nZiyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, Qing Li\nBeijing Institute for General Artificial Intelligence (BIGAI) \n\n\n> ### Interactive Embodied Learning\n\n* [**CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09527) [**ICCV 2025**] [[**Project page**](https:\u002F\u002Fcombatvla.github.io\u002F)]\u003Cbr>\nPeng Chen*, Pi Bu*, Yingyao Wang,  Xinyi Wang, Ziming Wang, Jie Guo, Yingxiu Zhao, Qi Zhu, Jun Song†,  Siran Wang, Jiamang Wang, Bo Zheng\u003Cbr>\nAlibaba Group\n\n* [**Meta-Control: Automatic Model-based Control System Synthesis for Heterogeneous Robot Skills**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Tsinghua University\n\n\n* [**Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=feXm8GbxWU&name=pdf) [**ICML 2023**]  \u003Cbr>\nThomas Carta\u003Csup>1*\u003C\u002Fsup>, Clement Romac ´\u003Csup>1,2\u003C\u002Fsup>, Thomas Wolf\u003Csup>2\u003C\u002Fsup>, Sylvain Lamprier\u003Csup>3\u003C\u002Fsup>, Olivier Sigaud\u003Csup>4\u003C\u002Fsup>, Pierre-Yves Oudeyer\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Inria (Flowers), University of Bordeaux, \u003Csup>2\u003C\u002Fsup>Hugging Face, \u003Csup>3\u003C\u002Fsup>Univ Angers, LERIA, SFR MATHSTIC,\nF-49000, \u003Csup>4\u003C\u002Fsup>Sorbonne University, ISIR\n\n* [**Learning Affordance Landscapes for Interaction Exploration in 3D Environments**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2008.09241.pdf) [**NeurIPS 2020**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Ffacebookresearch\u002Finteraction-exploration?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Finteraction-exploration) [[Project page](https:\u002F\u002Fvision.cs.utexas.edu\u002Fprojects\u002Finteraction-exploration\u002F)] \u003Cbr>\nTushar Nagarajan, Kristen Grauman\u003Cbr>\nUT Austin and Facebook AI Research, UT Austin and Facebook AI Research\n\n* [**Embodied Question Answering in Photorealistic Environments with Point Cloud Perception**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03461) [**CVPR 2019 (oral)**] [[**Slides**](https:\u002F\u002Fembodiedqa.org\u002Fslides\u002Feqa_matterport.slides.pdf)]\u003Cbr>\nErik Wijmans\u003Csup>1†\u003C\u002Fsup>, Samyak Datta\u003Csup>1\u003C\u002Fsup>, Oleksandr Maksymets\u003Csup>2†\u003C\u002Fsup>, Abhishek Das\u003Csup>1\u003C\u002Fsup>, Georgia Gkioxari\u003Csup>2\u003C\u002Fsup>, Stefan Lee\u003Csup>1\u003C\u002Fsup>, Irfan Essa\u003Csup>1\u003C\u002Fsup>, Devi Parikh\u003Csup>1,2\u003C\u002Fsup>, Dhruv Batra\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Georgia Institute of Technology, \u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**Multi-Target Embodied Question Answering**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2019\u002Fpapers\u002FYu_Multi-Target_Embodied_Question_Answering_CVPR_2019_paper.pdf) [**CVPR 2019**] \u003Cbr>\nLicheng Yu\u003Csup>1\u003C\u002Fsup>, Xinlei Chen\u003Csup>3\u003C\u002Fsup>, Georgia Gkioxari\u003Csup>3\u003C\u002Fsup>, Mohit Bansal\u003Csup>1\u003C\u002Fsup>, Tamara L. Berg\u003Csup>1,3\u003C\u002Fsup>, Dhruv Batra\u003Csup>2,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>University of North Carolina at Chapel Hill \u003Csup>2\u003C\u002Fsup>Georgia Tech 3Facebook AI\n\n* [**Neural Modular Control for Embodied Question Answering**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.11181) [**CoRL 2018 (Spotlight)**] [[**Project page**](https:\u002F\u002Fembodiedqa.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEmbodiedQA)]\u003Cbr>\nAbhishek Das\u003Csup>1\u003C\u002Fsup>,Georgia Gkioxari\u003Csup>2\u003C\u002Fsup>, Stefan Lee\u003Csup>1\u003C\u002Fsup>, Devi Parikh\u003Csup>1,2\u003C\u002Fsup>, Dhruv Batra\u003Csup>1,2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Georgia Institute of Technology \u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**Embodied Question Answering**](https:\u002F\u002Fembodiedqa.org\u002Fpaper.pdf) [**CVPR 2018 (oral)**] [[**Project page**](https:\u002F\u002Fembodiedqa.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEmbodiedQA)]\u003Cbr>\nAbhishek Das\u003Csup>1\u003C\u002Fsup>, Samyak Datta\u003Csup>1\u003C\u002Fsup>, Georgia Gkioxari2\u003Csup>2\u003C\u002Fsup>, Stefan Lee\u003Csup>1\u003C\u002Fsup>, Devi Parikh\u003Csup>2,1\u003C\u002Fsup>, Dhruv Batra\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Georgia Institute of Technology, \u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n> ### Rearrangement\n* [**A Simple Approach for Visual Room Rearrangement: 3D Mapping and Semantic Search**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=fGG6vHp3W9W) [**ICLR 2023**] \u003Cbr> \n\u003Csup>1\u003C\u002Fsup>Brandon Trabucco, \u003Csup>2\u003C\u002Fsup>Gunnar A Sigurdsson, \u003Csup>2\u003C\u002Fsup>Robinson Piramuthu, \u003Csup>2,3\u003C\u002Fsup>Gaurav S. Sukhatme, \u003Csup>1\u003C\u002Fsup>Ruslan Salakhutdinov\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>CMU, \u003Csup>2\u003C\u002Fsup>Amazon Alexa AI, \u003Csup>3\u003C\u002Fsup>University of Southern California\n\n> ### Benchmark\n\n* [**RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.04308) [**Arxiv 2025**] [[**Project Page**](https:\u002F\u002Fzhoues.github.io\u002FRoboRefer\u002F)]\u003Cbr>\nEnshen Zhou\u003Csup>1,2,*\u003C\u002Fsup>, Jingkun An\u003Csup>1,*\u003C\u002Fsup>, Cheng Chi\u003Csup>2,*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beihang University, \u003Csup>2\u003C\u002Fsup>Beijing Academy of Artificial Intelligence\n\n* [**DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02730) [**arXiv 2024**] [[**Project page**](https:\u002F\u002Fzhaowei-wang-nlp.github.io\u002Fdivscene-project-page\u002F)]\u003Cbr>\nZhaowei Wang\u003Csup>1\u003C\u002Fsup>, Hongming Zhang\u003Csup>2\u003C\u002Fsup>, Tianqing Fang\u003Csup>1,2\u003C\u002Fsup>, Ye Tian\u003Csup>3\u003C\u002Fsup>, Yue Yang\u003Csup>4\u003C\u002Fsup>, Kaixin Ma\u003Csup>2\u003C\u002Fsup>, Xiaoman Pan\u003Csup>2\u003C\u002Fsup>, Yangqiu Song\u003Csup>1\u003C\u002Fsup>, Dong Yu\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>CSE Department, HKUST&nbsp;&nbsp;\u003Csup>2\u003C\u002Fsup>Tencent AI Lab, Bellevue, USA&nbsp;&nbsp;\u003Csup>3\u003C\u002Fsup>Robotics X, Tencent&nbsp;&nbsp;\u003Csup>4\u003C\u002Fsup>University of Pennsylvania\n\n* [**ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.18550) [**ECCV 2024**] [[**Project page**](https:\u002F\u002Ftwoongg.github.io\u002Fprojects\u002Frealfred\u002F)]\u003Cbr>\nTaewoong Kim\u003Csup>1*\u003C\u002Fsup>, Cheolhong Min\u003Csup>1*\u003C\u002Fsup>, Byeonghwi Kim\u003Csup>1\u003C\u002Fsup>, Jinyeon Kim\u003Csup>12\u003C\u002Fsup>, Wonje Jeung\u003Csup>1\u003C\u002Fsup>, Jonghyun Choi\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Seoul National University \u003Csup>2\u003C\u002Fsup>Yonsei University\n\n* [**Online Continual Learning for Interactive Instruction Following Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=7M0EzjugaN) [**ICLR 2024**] [[**Project page**](https:\u002F\u002Fbhkim94.github.io\u002Fprojects\u002FCL-ALFRED\u002F)]\u003Cbr>\nByeonghwi Kim\u003Csup>1*\u003C\u002Fsup>, Minhyuk Seo\u003Csup>1*\u003C\u002Fsup>, Jonghyun Choi\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Yonsei University \u003Csup>2\u003C\u002Fsup>Seoul National University\n\n* [**SmartPlay: A Benchmark for LLMs as Intelligent Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0IOX0YcCdTn) [**ICLR 2024**]  [[**Github**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSmartPlay)] \u003Cbr> \nYue Wu\u003Csup>1,2\u003C\u002Fsup>, Xuan Tang\u003Csup>1\u003C\u002Fsup>, Tom Mitchell\u003Csup>1\u003C\u002Fsup>, Yuanzhi Li\u003Csup>1,2\u003C\u002Fsup>\n\u003Csup>1\u003C\u002Fsup>Carnegie Mellon University, \u003Csup>2\u003C\u002Fsup>Microsoft Research\n\n* [**RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01455.pdf) [**arXiv 2023**] [[**Project page**](https:\u002F\u002Frobogen-ai.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FRoboGen)] \u003Cbr> \nYufei Wang\u003Csup>1\u003C\u002Fsup>, Zhou Xian\u003Csup>1\u003C\u002Fsup>, Feng Chen\u003Csup>2\u003C\u002Fsup>, Tsun-Hsuan Wang\u003Csup>3\u003C\u002Fsup>, Yian Wang\u003Csup>4\u003C\u002Fsup>, Katerina Fragkiadaki\u003Csup>1\u003C\u002Fsup>, Zackory Erickson\u003Csup>1\u003C\u002Fsup>, David Held\u003Csup>1\u003C\u002Fsup>, Chuang Gan\u003Csup>4,5\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>CMU, \u003Csup>2\u003C\u002Fsup>Tsinghua IIIS, \u003Csup>3\u003C\u002Fsup>MIT CSAIL, \u003Csup>4\u003C\u002Fsup>UMass Amherst, \u003Csup>5\u003C\u002Fsup>MIT-IBM AI Lab\n\n* [**ALFWorld: Aligning Text and Embodied Environments for Interactive Learning**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0IOX0YcCdTn) [**ICLR 2021**] [[**Project page**](https:\u002F\u002Falfworld.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Falfworld\u002Falfworld)] \u003Cbr> \nMohit Shridhar\u003Csup>†\u003C\u002Fsup> Xingdi Yuan\u003Csup>♡\u003C\u002Fsup> Marc-Alexandre Côté\u003Csup>♡\u003C\u002Fsup>\nYonatan Bisk\u003Csup>‡\u003C\u002Fsup> Adam Trischler\u003Csup>♡\u003C\u002Fsup> Matthew Hausknecht\u003Csup>♣\u003C\u002Fsup>\u003Cbr>\n\u003Csup>‡\u003C\u002Fsup>University of Washington \u003Csup>♡\u003C\u002Fsup>Microsoft Research, Montréal\n\u003Csup>‡\u003C\u002Fsup>Carnegie Mellon University \u003Csup>♣\u003C\u002Fsup>Microsoft Research\n\n\n* [**ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.01734.pdf) [**CVPR 2020**] [[**Project page**](https:\u002F\u002Faskforalfred.com\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Faskforalfred\u002Falfred)] \u003Cbr> \nMohit Shridhar\u003Csup>1\u003C\u002Fsup>\nJesse Thomason\u003Csup>1\u003C\u002Fsup> Daniel Gordon\u003Csup>1\u003C\u002Fsup> Yonatan Bisk\u003Csup>1,2,3\u003C\u002Fsup>\nWinson Han\u003Csup>3\u003C\u002Fsup> Roozbeh Mottaghi\u003Csup>1,3\u003C\u002Fsup> Luke Zettlemoyer\u003Csup>1\u003C\u002Fsup> Dieter Fox\u003Csup>1,4\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Paul G. Allen School of Computer Sci. & Eng., Univ. of Washington,\n\u003Csup>2\u003C\u002Fsup>Language Technologies Institute @ Carnegie Mellon University,\n\u003Csup>3\u003C\u002Fsup>Allen Institute for AI,\n\u003Csup>4\u003C\u002Fsup>NVIDIA\u003Cbr>\n\n* [**VIMA: Robot Manipulation with Multimodal Prompts**](https:\u002F\u002Fvimalabs.github.io\u002Fassets\u002Fvima_paper.pdf) [**ICML 2023**] [[**Project page**](https:\u002F\u002Fvimalabs.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)] [[**VIMA-Bench**](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)] \u003Cbr> \nYunfan Jiang\u003Csup>1\u003C\u002Fsup> Agrim Gupta\u003Csup>1†\u003C\u002Fsup> Zichen Zhang\u003Csup>2†\u003C\u002Fsup> Guanzhi Wang\u003Csup>3,4†\u003C\u002Fsup> Yongqiang Dou\u003Csup>5\u003C\u002Fsup> Yanjun Chen\u003Csup>1\u003C\u002Fsup>\nLi Fei-Fei\u003Csup>1\u003C\u002Fsup> Anima Anandkumar\u003Csup>3,4\u003C\u002Fsup> Yuke Zhu\u003Csup>3,6‡\u003C\u002Fsup> Linxi Fan\u003Csup>3‡\u003C\u002Fsup>\u003Cbr>\n\n* [**SQA3D: Situated Question Answering in 3D Scenes**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.07474.pdf) [**ICLR 2023**] [[**Project page**](https:\u002F\u002Fsqa3d.github.io\u002F)] [[**Slides**](http:\u002F\u002Fweb.cs.ucla.edu\u002F~xm\u002Ffile\u002Fsqa3d_iclr23_slides.pdf)] [[**Github**](https:\u002F\u002Fgithub.com\u002FSilongYong\u002FSQA3D)]\u003Cbr> \nXiaojian Ma\u003Csup>2\u003C\u002Fsup> Silong Yong\u003Csup>1,3*\u003C\u002Fsup> Zilong Zheng\u003Csup>1\u003C\u002Fsup> Qing Li\u003Csup>1\u003C\u002Fsup> Yitao Liang\u003Csup>1,4\u003C\u002Fsup> Song-Chun Zhu\u003Csup>1,2,3,4\u003C\u002Fsup> Siyuan Huang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Beijing Institute for General Artificial Intelligence (BIGAI) \u003Csup>2\u003C\u002Fsup>UCLA \u003Csup>3\u003C\u002Fsup>Tsinghua University \u003Csup>4\u003C\u002Fsup>Peking University\n\n* [**IQA: Visual Question Answering in Interactive Environments**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FGordon_IQA_Visual_Question_CVPR_2018_paper.pdf) [**CVPR 2018**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fdanielgordon10\u002Fthor-iqa-cvpr-2018)] [[**Demo video (YouTube)**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=pXd3C-1jr98&feature=youtu.be)]\u003Cbr>\nDanie\u003Csup>1\u003C\u002Fsup> Gordon1 Aniruddha Kembhavi\u003Csup>2\u003C\u002Fsup> Mohammad Rastegari\u003Csup>2,4\u003C\u002Fsup> Joseph Redmon\u003Csup>1\u003C\u002Fsup> Dieter Fox\u003Csup>1,3\u003C\u002Fsup> Ali Farhadi\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Paul G. Allen School of Computer Science, University of Washington \u003Csup>2\u003C\u002Fsup>Allen Institute for Artificial Intelligence \u003Csup>3\u003C\u002Fsup>Nvidia \u003Csup>4\u003C\u002Fsup>Xnor.ai\n\n* [**Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FGao_Env-QA_A_Video_Question_Answering_Benchmark_for_Comprehensive_Understanding_of_ICCV_2021_paper.pdf) [**ICCV 2021**] [[**Project page**](https:\u002F\u002Fenvqa.github.io\u002F#Overview)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmaybelu9\u002Fenv-qa)]\u003Cbr>\nDifei Gao\u003Csup>1,2\u003C\u002Fsup>, Ruiping Wang\u003Csup>1,2,3\u003C\u002Fsup>, Ziyi Bai\u003Csup>1,2\u003C\u002Fsup>, Xilin Chen\u003Csup>1\u003C\u002Fsup>, \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Key Laboratory of Intelligent Information Processing of Chinese Academy of Sciences (CAS),\nInstitute of Computing Technology, CAS,\n\u003Csup>2\u003C\u002Fsup>University of Chinese Academy of Sciences, \u003Csup>3\u003C\u002Fsup>Beijing Academy of Artificial Intelligence\n\n> ### Simulator\n* [**LEGENT: Open Platform for Embodied Agents**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.18243) [**ACL 2024**] [[**Project page**](https:\u002F\u002Fdocs.legent.ai\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FLEGENT)]\u003Cbr>\nTsinghua University\u003Cbr>\n\n* [**AI2-THOR: An Interactive 3D Environment for Visual AI**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.05474) [**arXiv 2022**] [[**Project page**](http:\u002F\u002Fai2thor.allenai.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fai2thor)]\u003Cbr> \nAllen Institute for AI, University of Washington, Stanford University, Carnegie Mellon University\u003Cbr>\n\n* [**iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes**](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9636667) [**IROS 2021**] [[**Project page**](https:\u002F\u002Fsvl.stanford.edu\u002Figibson\u002F)] [[**Github**](https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002FStanfordVL\u002FiGibson\u002Freleases\u002Ftag\u002F1.0.0)]\u003Cbr> \nBokui Shen*, Fei Xia* et al.\u003Cbr>\n\n* [**Habitat: A Platform for Embodied AI Research**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FSavva_Habitat_A_Platform_for_Embodied_AI_Research_ICCV_2019_paper.pdf) [**ICCV 2019**] [[**Project page**](https:\u002F\u002Faihabitat.org\u002F)] [[**Habitat-Sim**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-sim)] [[**Habitat-Lab**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-lab)] [[**Habitat Challenge**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-challenge)]\u003Cbr> \nFacebook AI Research, Facebook Reality Labs, Georgia Institute of Technology, Simon Fraser University, Intel Labs, UC Berkeley\u003Cbr>\n\n* [**Habitat 2.0: Training Home Assistants to Rearrange their Habitat**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.14405) [**NeurIPS 2021**] [[**Project page**](https:\u002F\u002Fresearch.facebook.com\u002Fpublications\u002Fhabitat-2-0-training-home-assistants-to-rearrange-their-habitat\u002F#:~:text=Habitat%202.0%3A%20Training%20Home%20Assistants%20to%20Rearrange%20their,AI%20stack%20%E2%80%93%20data%2C%20simulation%2C%20and%20benchmark%20tasks.)]\u003Cbr> \nFacebook AI Research, Georgia Tech, Intel Research, Simon Fraser University, UC Berkeley\n\n> ### Others\n\n* [**Least-to-Most Prompting Enables Complex Reasoning in Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10625) [**ICLR 2023**] \u003Cbr>\nGoogle Research, Brain Team\n\n* [**React: Synergizing reasoning and acting in language models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03629.pdf) [**ICLR 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fysymyth\u002FReAct?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Fysymyth\u002FReAct) \u003Cbr>\nShunyu Yao\u003Csup>1∗\u003C\u002Fsup>, Jeffrey Zhao\u003Csup>2\u003C\u002Fsup>, Dian Yu\u003Csup>2\u003C\u002Fsup>, Nan Du\u003Csup>2\u003C\u002Fsup>, Izhak Shafran\u003Csup>2\u003C\u002Fsup>, Karthik Narasimhan\u003Csup>1\u003C\u002Fsup>, Yuan Cao\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Department of Computer Science, Princeton University \u003Csup>2\u003C\u002Fsup>, Google Research, Brain team\n\n* [**Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.10379.pdf) [**arXiv 2023**] \u003Cbr>\nVirginia Tech, Microsoft\n\n* [**Graph of Thoughts: Solving Elaborate Problems with Large Language Models**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09687.pdf) [**arXiv 2023**] \u003Cbr>\nETH Zurich, Cledar, Warsaw University of Technology\n\n* [**Tree of Thoughts: Deliberate Problem Solving with Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10601.pdf) [**arXiv 2023**] \u003Cbr>\nShunyu Yao\u003Csup>1\u003C\u002Fsup>, Dian Yu\u003Csup>2\u003C\u002Fsup>, Jeffrey Zhao\u003Csup>2\u003C\u002Fsup>, Izhak Shafran\u003Csup>2\u003C\u002Fsup>, Thomas L. Griffiths\u003Csup>1\u003C\u002Fsup>, Yuan Cao\u003Csup>2\u003C\u002Fsup>, Karthik Narasimhan\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Princeton University, \u003Csup>2\u003C\u002Fsup>Google DeepMind\n\n* [**Chain-of-Thought Prompting Elicits Reasoning in Large Language Models**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.11903.pdf) [**NeurIPS 2022**] \u003Cbr>\nJason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma,\nBrian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou\u003Cbr>\nGoogle Research, Brain Team\n\n* [**MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge**](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F74a67268c5cc5910f64938cac4526a90-Paper-Datasets_and_Benchmarks.pdf) [**NeurIPS 2022**] [[Github](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FMineDojo)] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FMineDojo\u002FMineDojo?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FMineDojo) [[Project page](https:\u002F\u002Fminedojo.org\u002F)] [[Knowledge Base](https:\u002F\u002Fminedojo.org\u002Fknowledge_base.html)] \u003Cbr>\nLinxi Fan\u003Csup>1\u003C\u002Fsup>\n, Guanzhi Wang\u003Csup>2∗\u003C\u002Fsup>\n, Yunfan Jiang\u003Csup>3*\u003C\u002Fsup>\n, Ajay Mandlekar\u003Csup>1\u003C\u002Fsup>\n, Yuncong Yang\u003Csup>4\u003C\u002Fsup>\n,\nHaoyi Zhu\u003Csup>5\u003C\u002Fsup>\n, Andrew Tang\u003Csup>4\u003C\u002Fsup>\n, De-An Huang\u003Csup>1\u003C\u002Fsup>\n, Yuke Zhu\u003Csup>1,6†\u003C\u002Fsup>\n, Anima Anandkumar\u003Csup>1,2†\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA, \u003Csup>2\u003C\u002Fsup>Caltech, \u003Csup>3\u003C\u002Fsup>Stanford, \u003Csup>4\u003C\u002Fsup>Columbia, \u003Csup>5\u003C\u002Fsup>SJTU, \u003Csup>6\u003C\u002Fsup>UT Austin\n\n* [**Distilling Internet-Scale Vision-Language Models into Embodied Agents**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=6vVkGnEpP7) [**ICML 2023**] \u003Cbr>\nTheodore Sumers\u003Csup>1∗\u003C\u002Fsup> Kenneth Marino\u003Csup>2\u003C\u002Fsup> Arun Ahuja\u003Csup>2\u003C\u002Fsup> Rob Fergus\u003Csup>2\u003C\u002Fsup> Ishita Dasgupta\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\n* [**LISA: Reasoning Segmentation via Large Language Model**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.00692.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fdvlab-research\u002FLISA)] [[**Huggingface Models**](https:\u002F\u002Fhuggingface.co\u002Fxinlai)] [[**Dataset**](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F125mewyg5Ao6tZ3ZdJ-1-E3n04LGVELqy?usp=sharing)] [[**Online Demo**](http:\u002F\u002F103.170.5.190:7860\u002F)]     \nTXin Lai\u003Csup>1\u003C\u002Fsup> Zhuotao Tian\u003Csup>2\u003C\u002Fsup> Yukang Chen\u003Csup>1\u003C\u002Fsup> Yanwei Li\u003Csup>1\u003C\u002Fsup> Yuhui Yuan\u003Csup>3\u003C\u002Fsup> Shu Liu\u003Csup>2\u003C\u002Fsup> Jiaya Jia\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>The Chinese University of Hong Kong \u003Csup>2\u003C\u002Fsup>SmartMore \u003Csup>3\u003C\u002Fsup>MSRA\u003Cbr>\n\n* [**Meta-Control: Automatic Model-based Control System Synthesis for Heterogeneous Robot Skills**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**Project page**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\n\u003Csup>*\u003C\u002Fsup>Equal Contribution \u003Csup>1\u003C\u002Fsup>Carnegie Mellon University \u003Csup>2\u003C\u002Fsup>Tsinghua University\n\n\u003C!--## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_a90ca3d6d22e.png)](https:\u002F\u002Fstar-history.com\u002F#zchoi\u002FAwesome-Embodied-Agent-with-LLMs&Date)-->\n\n\n> ### Acknowledge\n[1] Video demo from this [project](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi0) \u003Cbr>\n[2] Figure from this [project][https:\u002F\u002Frobotics-transformer-x.github.io\u002F)\n\u003C!---\n[1] Trend pic from this [repo](https:\u002F\u002Fgithub.com\u002FPaitesanshi\u002FLLM-Agent-Survey\u002Ftree\u002Fmain).\u003Cbr>\n[2] Figure from this paper: [The Rise and Potential of Large Language Model Based Agents: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.07864.pdf).\n--->\n","# 🤖 令人惊叹的具身机器人与智能体 [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome)\n> 这是一个由[haonan](https:\u002F\u002Fzchoi.github.io\u002F)维护的精选列表，专注于“结合视觉-语言模型（VLMs）和大型语言模型（LLMs）的具身机器人或智能体”相关研究。\n\u003C!---\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_33d91d4a25e9.png\" width=15% align=\"right\" \u002F> \n--->\n请关注本仓库以获取最新动态，并**如果您发现一些有趣的论文，欢迎随时提交Pull Request**！\n\n## 新闻🔥\n[2025\u002F10\u002F30] 🎉 我们的综述论文“高效视觉-语言-行动模型综述”[[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24795)已发布！\u003Cbr>\n[2025\u002F04\u002F23] 增加了π-0.5，这是一个轻量级且模块化的框架，旨在将感知、控制和学习直接集成到物理系统中。\u003Cbr>\n[2025\u002F03\u002F18] 添加了一些流行的视觉-语言-行动（VLA）模型。🦾 \u003Cbr>\n[2024\u002F06\u002F28] 创建了一个关于智能体自我进化研究的新板块。🤖 \u003Cbr>\n[2024\u002F06\u002F07] 添加了Mobile-Agent-v2，这是一款通过多智能体协作实现高效导航的移动设备操作助手。🚀 \u003Cbr>\n[2024\u002F05\u002F13] 添加了“学习交互式真实世界模拟器”——该论文荣获ICLR 2024杰出论文奖🥇。\u003Cbr>\n[2024\u002F04\u002F24] 添加了“大型语言模型的自我进化综述”，这是一篇系统性地探讨LLM自我进化的综述！💥\u003Cbr>\n[2024\u002F04\u002F16] 添加了一些CVPR 2024的论文。\u003Cbr>\n[2024\u002F04\u002F15] 添加了MetaGPT，该论文被ICLR 2024接受为口头报告（排名前1.2%），并在基于LLM的智能体类别中位居#1。🚀 \u003Cbr>\n[2024\u002F03\u002F13] 添加了CRADLE，一篇有趣的研究论文，探讨了在《荒野大镖客2》中使用LLM驱动的智能体！🎮\n\n\u003C!---\n## 具身机器人与智能体的趋势与畅想\n--->\n\n## 具身机器人发展与基准测试\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\">\n\n[π0-video-1](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd0fb7c8f-fd79-40ad-9606-cc60af8a5491)\n\n\u003C\u002Ftd>\n\u003Ctd align=\"center\">\n\n[π0-video-2](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F569316e8-9dd8-426b-a35c-9fd9a4ba9d89)\n\n\u003C\u002Ftd>\n\u003Ctd align=\"center\">\n\n[π0-video-3](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7e83919e-fd90-4544-878e-853ba92ab8f6)\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_08abe4859714.png)\n* 视频演示及图片来自[1]和[2]。\n\n\u003C!---\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_89c6781e34d8.png\" width=\"54%\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_9a9ae4a3358d.jpg\" width=\"43%\">\n    \u003Cspan>\u003Cb>图1. 基于LLM的具身智能体发展趋势。\u003Csup>[1]\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Fspan>\n    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \n    \u003Cspan>\u003Cb>图2. 一个设想中的智能体社会。\u003Csup>[2]\u003C\u002Fsup>\u003C\u002Fb>\u003C\u002Fspan>\n\u003C\u002Fp>\n--->\n\n\n## 目录 🍃\n- [综述](#survey)\n- [视觉-语言-行动模型](#vision-language-action-model)\n- [自我进化智能体](#self-evolving-agents)\n- [高级智能体应用](#advanced-agent-applications)\n- [结合强化学习或世界模型的LLMs](#llms-with-rl-or-world-model)\n- [规划与操控或预训练](#planning-and-manipulation-or-pretraining)\n- [多智能体学习与协调](#multi-agent-learning-and-coordination)\n- [视觉与语言导航](#vision-and-language-navigation)\n- [检测](#detection)\n- [3D接地](#3d-grounding)\n- [交互式具身学习](#interactive-embodied-learning)\n- [重新布局](#rearrangement)\n- [基准测试](#benchmark)\n- [模拟器](#simulator)\n- [其他](#others)\n\n\n## 方法\n\n> ### 综述\n\n* [**高效视觉-语言-行动模型综述**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24795) [**arXiv 2025.10**] [[**Github**](https:\u002F\u002Fgithub.com\u002FYuZhaoshu\u002FEfficient-VLAs-Survey)] [[**项目页面**](https:\u002F\u002Fevla-survey.github.io\u002F)]\u003Cbr>\n余照书\u003Csup>1\u003C\u002Fsup>, 王博\u003Csup>1\u003C\u002Fsup>, 曾鹏鹏\u003Csup>1\u003C\u002Fsup>, 张浩楠\u003Csup>1\u003C\u002Fsup>, 张继\u003Csup>1\u003C\u002Fsup>, 高莲莉\u003Csup>3\u003C\u002Fsup>, 宋京宽\u003Csup>1\u003C\u002Fsup>, 尼库·塞贝\u003Csup>4\u003C\u002Fsup>, 沈恒涛\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>同济大学，\n\u003Csup>2\u003C\u002Fsup>西南交通大学，\n\u003Csup>3\u003C\u002Fsup>电子科技大学，\n\u003Csup>4\u003C\u002Fsup>特伦托大学\n\n\n* [**面向具身AI的视觉-语言-行动模型综述**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.14093) [**arXiv 2024.03**]\u003Cbr>\n香港中文大学、华为诺亚方舟实验室\n\n* [**大型多模态智能体：综述**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.15116) [**arXiv 2024.02**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fjun0wanan\u002Fawesome-large-multimodal-agents)]\u003Cbr>\n谢俊林\u003Csup>♣♡\u003C\u002Fsup> 陈志宏\u003Csup>♣♡\u003C\u002Fsup> 张瑞飞\u003Csup>♣♡\u003C\u002Fsup> 向万\u003Csup>♣\u003C\u002Fsup> 李冠斌\u003Csup>♠\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♡\u003C\u002Fsup>香港中文大学深圳分校，\u003Csup>♣\u003C\u002Fsup>深圳大数据研究院，\u003Csup>♠\u003C\u002Fsup>中山大学\n\n* [**大型语言模型的自我进化综述**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14387.pdf) [**arXiv 2024.01**]\u003Cbr>\nHCST重点实验室（北大）、教育部；北京大学计算机学院、阿里巴巴集团、南洋理工大学\n\n* [**智能体AI：探索多模态交互的边界**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.03568.pdf) [**arXiv 2024.01**]\u003Cbr>\n斯坦福大学、微软研究院（雷德蒙德）、加州大学洛杉矶分校、华盛顿大学、微软游戏部门\n\n* [**点燃语言智能：从思维链推理到语言智能体的指南**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.11797.pdf) [**arXiv 2023.11**]\u003Cbr>\n上海交通大学、亚马逊云服务、耶鲁大学\n\n* [**基于大型语言模型的智能体崛起与潜力：综述**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.07864.pdf) [**arXiv 2023.09**]\u003Cbr>\n复旦NLP小组、米哈游公司\n\n* [**基于LLM的自主智能体综述**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.11432.pdf) [**arXiv 2023.08**] \u003Cbr>\n高瓴人工智能学院、中国人民大学\n\n> ### 视觉-语言-行动模型\n* [**D2E：在桌面数据上扩展视觉-行动预训练，以迁移到具身AI**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05684) [**ICLR 2026**] [[Github](https:\u002F\u002Fgithub.com\u002Fworv-ai\u002FD2E)][[项目页面](https:\u002F\u002Fworv-ai.github.io\u002Fd2e\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.05684)]\u003Cbr>\n斯坦福大学、首尔国立大学、MAUM.AI\n\n* [**基于具身思维链推理的机器人控制**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=S70MgnIA0v) [**CoRL 2024**] [[Github](https:\u002F\u002Fgithub.com\u002FMichalZawalski\u002Fembodied-CoT\u002F)][[项目页面](https:\u002F\u002Fembodied-cot.github.io\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002FEmbodied-CoT)]\u003Cbr>\n米哈尔·扎瓦尔斯基\u003Csup>∗1,2\u003C\u002Fsup>, 威廉·陈\u003Csup>∗1\u003C\u002Fsup>, 卡尔·佩尔奇\u003Csup>1,3\u003C\u002Fsup> 奥耶尔·梅斯\u003Csup>1\u003C\u002Fsup>, 切尔西·芬恩\u003Csup>3\u003C\u002Fsup>, 谢尔盖·莱文\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>加州大学伯克利分校，\u003Csup>2\u003C\u002Fsup>华沙大学，\u003Csup>3\u003C\u002Fsup>斯坦福大学\n\n* [**π0.5：具有开放世界泛化能力的VLA**](https:\u002F\u002Fwww.physicalintelligence.company\u002Fdownload\u002Fpi05.pdf) [**arXiv 2025.04**] [[项目页面](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi05)]\u003Cbr>\n物理智能\n\n* [**π0：用于通用机器人控制的视觉-语言-动作流模型**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.24164) [**arXiv 2024.10**] [[项目页面](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi0)]\u003Cbr>\n物理智能\n\n* [**Hi Robot：基于层次化视觉-语言-动作模型的开放式指令遵循**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.19417) [**arXiv 2025.02**] [[项目页面](https:\u002F\u002Fwww.pi.website\u002Fresearch\u002Fhirobot)]\u003Cbr>\n物理智能\n\n* [**OpenVLA：开源视觉-语言-动作模型**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.09246) [arXiv 2024.01] [[Github](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla)][[项目页面](https:\u002F\u002Fopenvla.github.io\u002F)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fopenvla)]\u003Cbr>\n斯坦福大学、加州大学伯克利分校、丰田研究院、谷歌DeepMind、物理智能、麻省理工学院\n\n* [**FAST：视觉-语言-动作模型的高效动作标记化**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09747) [**arXiv 2025.01**] [[项目页面](https:\u002F\u002Fwww.pi.website\u002Fresearch\u002Ffast)][[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fphysical-intelligence\u002Ffast)]\u003Cbr>\n物理智能\n\n* [**RT-2：将网络知识迁移到机器人控制中的视觉-语言-动作模型**](https:\u002F\u002Frobotics-transformer2.github.io\u002Fassets\u002Frt2.pdf) [**arXiv 2024.07**] [[项目页面](https:\u002F\u002Fdeepmind.google\u002Fdiscover\u002Fblog\u002Frt-2-new-model-translates-vision-and-language-into-action\u002F)] \u003Cbr>\n谷歌DeepMind\n\n* [**Embodied-Reasoner：为具身交互任务协同视觉搜索、推理与行动**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21696) [**arXiv 2025.03**] [[Github](https:\u002F\u002Fgithub.com\u002Fzwq2018\u002Fembodied_reasoner)] [[项目页面](https:\u002F\u002Fembodied-reasoner.github.io\u002F)] [[HuggingFace🤗](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzwq2018\u002Fembodied_reasoner)] \u003Cbr>\n浙江大学；中国科学院软件研究所；阿里巴巴集团\n\n\n> ### 自我进化的智能体\n\n* [**Meta-Control：面向异构机器人技能的自动模型基控制系统合成**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>2\u003C\u002Fsup>清华大学\n\n* [**AGENTGYM：在多样化环境中进化大型语言模型驱动的智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.04151) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002FWooooDyy\u002FAgentGym)] [[**项目页面**](https:\u002F\u002Fagentgym.github.io\u002F)] \u003Cbr>\n复旦NLP实验室及复旦视觉与学习实验室\n\n* [**交互式进化：大型语言模型的神经符号自训练框架**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11736) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fxufangzhi\u002FENVISIONS)]\u003Cbr>\nFangzhi Xu\u003Csup>♢♡\u003C\u002Fsup>, Qiushi Sun\u003Csup>2, ♡\u003C\u002Fsup>, Kanzhi Cheng\u003Csup>1\u003C\u002Fsup>, Jun Liu\u003Csup>♢\u003C\u002Fsup>, Yu Qiao♡, Zhiyong Wu\u003Csup>♡\u003C\u002Fsup> \u003Cbr>\n\u003Csup>♢\u003C\u002Fsup>西安交通大学，\u003Csup>♡\u003C\u002Fsup>上海人工智能实验室，\u003Csup>1\u003C\u002Fsup>香港大学，\u003Csup>2\u003C\u002Fsup>南京大学\n\n* [**符号学习赋能自我进化的智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.18532) [**arXiv 2024.06**] [[**Github**](https:\u002F\u002Fgithub.com\u002Faiwaves-cn\u002Fagents)]\u003Cbr>\nWangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang\u003Cbr>\nAIWaves公司\nhttps:\u002F\u002Fmeta-control-paper.github.io\u002F\n\n> ### 高级智能体应用\n\n* [**Meta-Control：面向异构机器人技能的自动模型基控制系统合成**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>*\u003C\u002Fsup>共同第一作者 \u003Csup>1\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>2\u003C\u002Fsup>清华大学\n\n\n* [**Embodied-agents**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmbodiai\u002Fembodied-agents)] \u003Cbr>\n无缝集成最先进的Transformer模型到机器人系统中。\n\n* [**Mobile-Agent-v2：通过多智能体协作实现高效导航的移动设备操作助手**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.01014) [**arXiv 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FMobileAgent\u002Ftree\u002Fmain\u002FMobile-Agent-v2)]\u003Cbr>\nJunyang Wang\u003Csup>1\u003C\u002Fsup>, Haiyang Xu\u003Csup>2\u003C\u002Fsup>, Haitao Jia\u003Csup>1\u003C\u002Fsup>, Xi Zhang\u003Csup>2\u003C\u002Fsup>, Ming Yan\u003Csup>2\u003C\u002Fsup>, Weizhou Shen\u003Csup>2\u003C\u002Fsup>, Ji Zhang\u003Csup>2\u003C\u002Fsup>, Fei Huang\u003Csup>2\u003C\u002Fsup>, Jitao Sang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京交通大学 \u003Csup>2\u003C\u002Fsup>阿里巴巴集团\n\n* [**Mobile-Agent：强大的移动设备操作助手家族**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.01014) [**ICLR 2024 LLM智能体研讨会**] [[**Github**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FMobileAgent\u002Ftree\u002Fmain\u002FMobile-Agent-v2)]\u003Cbr>\nJunyang Wang\u003Csup>1\u003C\u002Fsup>, Haiyang Xu\u003Csup>2\u003C\u002Fsup>, Jiabo Ye\u003Csup>2\u003C\u002Fsup>, Ming Yan\u003Csup>2\u003C\u002Fsup>, Weizhou Shen\u003Csup>2\u003C\u002Fsup>, Ji Zhang\u003Csup>2\u003C\u002Fsup>, Fei Huang\u003Csup>2\u003C\u002Fsup>, Jitao Sang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京交通大学 \u003Csup>2\u003C\u002Fsup>阿里巴巴集团\n\n* [**Machinascript-for-robots**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fbabycommando\u002Fmachinascript-for-robots)] \u003Cbr>\n使用MachinaScript For Robots，在自家车库就能打造LLM驱动的机器人！\n\n* [**ros2_medkit**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fselfpatch\u002Fros2_medkit)] [[**MCP服务器**](https:\u002F\u002Fgithub.com\u002Fselfpatch\u002Fros2_medkit_mcp)] \u003Cbr>\n基于LLM的ROS 2机器人诊断——故障检测、根本原因分析，并通过MCP实现自我修复。\n\n* [**DiffAgent：利用大型语言模型快速准确地选择文生图API**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.01342) [**CVPR 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FDiffAgent)] \u003Cbr>\nLirui Zhao\u003Csup>1,2\u003C\u002Fsup> Yue Yang\u003Csup>2,4\u003C\u002Fsup> Kaipeng Zhang\u003Csup>2\u003C\u002Fsup> Wenqi Shao\u003Csup>2\u003C\u002Fsup>, Yuxin Zhang\u003Csup>1\u003C\u002Fsup>, Yu Qiao\u003Csup>2\u003C\u002Fsup>, Ping Luo\u003Csup>2,3\u003C\u002Fsup> Rongrong Ji\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>厦门大学，\u003Csup>2\u003C\u002Fsup>OpenGVLab、上海人工智能实验室，\u003Csup>3\u003C\u002Fsup>香港大学，\u003Csup>4\u003C\u002Fsup>上海交通大学\n\n\n* [**MetaGPT：用于多智能体协作框架的元编程**](https:\u002F\u002Fopenreview.net\u002Fforum?id=VtmBAGCN7o) [**ICLR 2024（口头报告）**]\u003Cbr>\nDeepWisdom、AI Initiative、阿卜杜拉国王科技大学、厦门大学、香港中文大学、深圳、南京大学、宾夕法尼亚大学、加州大学伯克利分校、瑞士AI实验室IDSIA\u002FUSI\u002FSUPSI\n\n* [**AppAgent：作为智能手机用户的多模态智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.13771.pdf) [[**项目页面**](https:\u002F\u002Fappagent-official.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmnotgod96\u002FAppAgent)] \u003Cbr>\n张驰∗ 赵阳∗ 刘家轩∗ 韩宇成 陈鑫 黄泽彪 付斌 于刚†\u003Cbr>\n腾讯\n\n> ### 结合强化学习或世界模型的大型语言模型\n\n* [**KALM：基于大型语言模型回放的离线强化学习构建的知识型智能体**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=sFyTZEqmUY&name=pdf) [**NeurIPS 2024**] [[**项目页面**](https:\u002F\u002Fkalmneurips2024.github.io)]\u003Cbr>\n庞景程、杨思航、李凯源、张嘉吉、陈雄辉、唐楠、余洋\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>南京大学，\u003Csup>2\u003C\u002Fsup>Polixir.ai\n\n* [**学习交互式真实世界模拟器**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=sFyTZEqmUY&name=pdf) [**ICLR 2024（杰出论文）**] [[**项目页面**](https:\u002F\u002Funiversal-simulator.github.io\u002Funisim\u002F)]\u003Cbr>\n杨雪莉\u003Csup>1,2\u003C\u002Fsup>、杜一伦\u003Csup>3\u003C\u002Fsup>、加米亚尔·卡塞米普尔\u003Csup>2\u003C\u002Fsup>、乔纳森·汤普森\u003Csup>2\u003C\u002Fsup>、莱斯利·凯尔布林\u003Csup>3\u003C\u002Fsup>、戴尔·舒尔曼斯\u003Csup>2\u003C\u002Fsup>、皮特·阿贝尔\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC伯克利，\u003Csup>2\u003C\u002Fsup>谷歌DeepMind，\u003Csup>3\u003C\u002Fsup>MIT\n\n* [**鲁棒智能体学习因果世界模型**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=pOoKI3ouv1&name=pdf) [**ICLR 2024**]\u003Cbr>\n乔纳森·里琴斯*、汤姆·埃弗里特\u003Cbr>\n谷歌DeepMind\n\n* [**由大型语言模型从平行TextWorld训练的具身多模态智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16714.pdf) [**CVPR 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fstevenyangyj\u002FEmma-Alfworld)]\u003Cbr>\n杨义军\u003Csup>154\u003C\u002Fsup>、周天翼\u003Csup>2\u003C\u002Fsup>、李侃学\u003Csup>3\u003C\u002Fsup>、陶大鹏\u003Csup>3\u003C\u002Fsup>、李路松\u003Csup>4\u003C\u002Fsup>、沈力\u003Csup>4\u003C\u002Fsup>、何晓东\u003Csup>4\u003C\u002Fsup>、蒋静\u003Csup>5\u003C\u002Fsup>、史宇辉\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>南方科技大学，\u003Csup>2\u003C\u002Fsup>马里兰大学帕克分校，\u003Csup>3\u003C\u002Fsup>云南大学，\u003Csup>4\u003C\u002Fsup>京东探索研究院，\u003Csup>5\u003C\u002Fsup>悉尼科技大学\n\n* [**利用预训练大型语言模型构建并使用基于模型的任务规划世界模型**](https:\u002F\u002Fopenreview.net\u002Fforum?id=zDbsSscmuj) [**NeurIPS 2023**] [[**项目页面**](https:\u002F\u002Fguansuns.github.io\u002Fpages\u002Fllm-dm\u002F)][[**Github**](https:\u002F\u002Fgithub.com\u002FGuanSuns\u002FLLMs-World-Models-for-Planning)]\u003Cbr>\n关琳\u003Csup>1\u003C\u002Fsup>、卡尔蒂克·瓦尔米坎\u003Csup>1\u003C\u002Fsup>、萨拉特·斯里德哈兰\u003Csup>2\u003C\u002Fsup>、苏巴拉奥·坎巴帕蒂\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>亚利桑那州立大学坦佩校区计算与人工智能学院，\u003Csup>2\u003C\u002Fsup>科罗拉多州立大学计算机科学系\n\n* [**Eureka：通过编码大型语言模型实现人类水平的奖励设计**](https:\u002F\u002Feureka-research.github.io\u002Fassets\u002Feureka_paper.pdf) [**NeurIPS 2023 ALOE研讨会亮点**] [[**项目页面**](https:\u002F\u002Feureka-research.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Feureka-research\u002FEureka)] \u003Cbr>\n贾森·马\u003Csup>1,2\u003C\u002Fsup>、威廉·梁\u003Csup>2\u003C\u002Fsup>、王冠志\u003Csup>1,3\u003C\u002Fsup>、黄德安\u003Csup>1\u003C\u002Fsup>，\n奥斯伯特·巴斯塔尼\u003Csup>2\u003C\u002Fsup>、迪内什·贾亚拉曼\u003Csup>2\u003C\u002Fsup>、朱玉科\u003Csup>1,4\u003C\u002Fsup>、范林希“吉姆”\u003Csup>1\u003C\u002Fsup>、阿尼玛·阿南德库马尔\u003Csup>1,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA；\u003Csup>2\u003C\u002Fsup>宾夕法尼亚大学；\u003Csup>3\u003C\u002Fsup>加州理工学院；\u003Csup>4\u003C\u002Fsup>德州大学奥斯汀分校\n\n* [**RLAdapter：在开放世界中将大型语言模型与强化学习连接起来**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3s4fZTr1ce) [**arXiv 2023**] \u003Cbr>\n\n* [**语言智能体能否替代PPO？关于OpenAI Gym的初步实证研究**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=F0q880yOgY) [**arXiv 2023**] \u003Cbr>\n\n* [**RoboGPT：用于日常指令任务的具身长期决策智能体**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=x4fm4T2tjM) [**arXiv 2023**] \u003Cbr>\n\n* [**像大型语言模型一样对齐智能体**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=kQqZVayz07) [**arXiv 2023**] \u003Cbr>\n\n* [**AMAGO：面向自适应智能体的可扩展上下文强化学习**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=M6XWoEdmwf) [**ICLR 2024亮点**] \u003Cbr>\n\n* [**STARLING：利用大型语言模型进行文本强化学习智能体的自监督训练**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=LXiG2WqKXR) [**arXiv 2023**] \u003Cbr>\n\n* [**Text2Reward：利用语言模型为强化学习生成密集奖励**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=tUM39YTRxH) [**ICLR 2024亮点**] \u003Cbr>\n\n* [**在文本多智能体强化学习中利用大型语言模型优化协作**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=1PPjf4wife) [**arXiv 2023**] \u003Cbr>\n\n* [**面向交互式指令跟随智能体的在线持续学习**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=7M0EzjugaN) [**ICLR 2024**] \u003Cbr>\n\n* [**ADAPTER-RL：利用强化学习适配任意智能体**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=LVp217SAtb) [**arXiv 2023**] \u003Cbr>\n\n* [**用于强化学习预训练的语言奖励调制**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SWRFC2EupO) [**arXiv 2023**] \u003Cbr>\n\n* [**通过将自然语言映射到马尔可夫决策过程来指导强化学习智能体**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=P4op21eju0) [**arXiv 2023**] \u003Cbr>\n\n* [**用语言学习建模世界**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=eWLOoaShEH) [**arXiv 2023**] \u003Cbr>\n\n* [**MAMBA：一种用于元强化学习的有效世界模型方法**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=1RE0H6mU7M) [**ICLR 2024**] \u003Cbr>\n\n\n* [**用于强化学习预训练的语言奖励调制**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.12270.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fademiadeniji\u002Flamp)]\u003Cbr>\n阿德米·阿德尼吉、安珀·谢、卡梅洛·斯费拉扎、徐永教、斯蒂芬·詹姆斯、皮特·阿贝尔\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC伯克利\n\n* [**用大型语言模型指导强化学习的预训练**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=63704LH4v5&name=pdf) [**ICML 2023**] \u003Cbr>\n杜雨晴\u003Csup>1*\u003C\u002Fsup>、奥利维娅·沃特金斯\u003Csup>1*\u003C\u002Fsup>、王子涵\u003Csup>2\u003C\u002Fsup>、塞德里克·科拉斯\u003Csup>3,4\u003C\u002Fsup>、特雷弗·达雷尔\u003Csup>1\u003C\u002Fsup>、皮特·阿贝尔\u003Csup>1\u003C\u002Fsup>、阿比舍克·古普塔\u003Csup>2\u003C\u002Fsup>、雅各布·安德烈亚斯\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>美国加州大学伯克利分校电气工程与计算机科学系，\u003Csup>2\u003C\u002Fsup>华盛顿大学西雅图分校，\u003Csup>3\u003C\u002Fsup>麻省理工学院计算机科学与人工智能实验室，\u003Csup>4\u003C\u002Fsup>Inria花卉实验室。\n\n> ### 规划与操作或预训练\n\n* [**RoboRefer：迈向机器人视觉—语言模型中的推理空间指代**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.04308) [**Arxiv 2025**] [[**项目页面**](https:\u002F\u002Fzhoues.github.io\u002FRoboRefer\u002F)] [[**代码**](https:\u002F\u002Fgithub.com\u002FZhoues\u002FRoboRefer)]\u003Cbr>\n周恩深\u003Csup>1,2,*\u003C\u002Fsup>、安京坤\u003Csup>1,*\u003C\u002Fsup>、迟诚\u003Csup>2,*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京航空航天大学，\u003Csup>2\u003C\u002Fsup>北京人工智能研究院\n\n* [**RoboSpatial：为机器人2D和3D视觉-语言模型教授空间理解能力**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.16537) [**CVPR 2025（口头报告）**] [[**项目页面**](https:\u002F\u002Fchanh.ee\u002FRoboSpatial\u002F)] [[**代码**](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FRoboSpatial)]\u003Cbr>\n宋灿熙\u003Csup>1\u003C\u002Fsup>、瓦尔茨·布卢基斯\u003Csup>2\u003C\u002Fsup>、乔纳森·特伦布雷\u003Csup>2\u003C\u002Fsup>、斯蒂芬·泰里\u003Csup>2\u003C\u002Fsup>、苏宇\u003Csup>1\u003C\u002Fsup>、斯坦·伯奇菲尔德\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>俄亥俄州立大学，\u003Csup>2\u003C\u002Fsup>NVIDIA\n\n* [**基于多模态接地的规划与高效重规划：通过少量示例学习具身智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.17288) [**AAAI 2025**] [[**项目页面**](https:\u002F\u002Ftwoongg.github.io\u002Fprojects\u002Fflare\u002F)]\u003Cbr>\n金泰雄、金炳辉、崔钟贤\u003Csup>†\u003C\u002Fsup>\u003Cbr>\n首尔国立大学\n\n* [**具身指令遵循智能体的环境反馈驱动式抢先行动修正**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=cq2uB30uBM) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fpred-agent.github.io\u002F)]\u003Cbr>\n金珍妍\u003Csup>1,2,*\u003C\u002Fsup>、闵哲洪\u003Csup>1,*\u003C\u002Fsup>、金炳辉\u003Csup>1\u003C\u002Fsup>、崔钟贤\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>首尔国立大学 \u003Csup>2\u003C\u002Fsup>延世大学\n\n* [**元控制：面向异构机器人技能的自动模型基控制系统综合**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\n魏天浩\u003Csup>1*\u003C\u002Fsup>、马丽倩\u003Csup>12*\u003C\u002Fsup>、陈睿\u003Csup>1\u003C\u002Fsup>、赵伟业\u003Csup>1\u003C\u002Fsup>、刘长流\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>共同第一作者 \u003Csup>1\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>2\u003C\u002Fsup>清华大学\n\n* [**Voyager：基于大型语言模型的开放式具身智能体**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=pAMNKGwja6&name=pdf) [**NeurIPS 2023研讨会 ALOE Spotlight**] [[**项目页面**](https:\u002F\u002Fvoyager.minedojo.org\u002F)] [[**Github**]](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FVoyager) \u003Cbr>\n王冠志\u003Csup>1,2\u003C\u002Fsup>、谢宇奇\u003Csup>3\u003C\u002Fsup>、蒋云帆\u003Csup>4\u003C\u002Fsup>、曼德尔卡尔\u003Csup>1\u003C\u002Fsup>、肖超伟\u003Csup>1,5\u003C\u002Fsup>、朱玉科\u003Csup>1,3\u003C\u002Fsup>、范林溪\u003Csup>1\u003C\u002Fsup>、安南德库马尔\u003Csup>1,2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA，\u003Csup>2\u003C\u002Fsup>加州理工学院，\u003Csup>3\u003C\u002Fsup>得克萨斯大学奥斯汀分校，\u003Csup>4\u003C\u002Fsup>斯坦福大学，\u003Csup>5\u003C\u002Fsup>威斯康星大学麦迪逊分校\n\n* [**Agent-Pro：通过策略级反思与优化实现自我进化学习**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17574) [**ACL 2024**][[**Github**](https:\u002F\u002Fgithub.com\u002Fzwq2018\u002FAgent-Pro)] \u003Cbr>\n张文琪、唐科、吴海、王梦娜、沈永亮、侯贵阳、谭泽奇、李鹏、庄雨婷、陆伟明\n\n* [**自我对比：通过不一致的解题视角促进更佳的反思**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.02009) [**ACL 2024**] \u003Cbr>\n张文琪、沈永亮、吴琳娟、彭秋英、王军、庄雨婷、陆伟明\n\n* [**MineDreamer：通过想象链式推理学习指令跟随，用于模拟世界控制**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.12037.pdf) [**arXiv 2024**] [[**项目页面**](https:\u002F\u002Fsites.google.com\u002Fview\u002Fminedreamer\u002Fmain)] \u003Cbr>\n周恩深\u003Csup>1,2\u003C\u002Fsup>、秦怡然\u003Csup>1,3\u003C\u002Fsup>、尹振飞\u003Csup>1,4\u003C\u002Fsup>、黄宇洲\u003Csup>3\u003C\u002Fsup>、张瑞茂\u003Csup>3\u003C\u002Fsup>、盛路\u003Csup>2\u003C\u002Fsup>、乔宇\u003Csup>1\u003C\u002Fsup>、邵静\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>上海人工智能实验室，\u003Csup>2\u003C\u002Fsup>香港中文大学深圳校区，\u003Csup>3\u003C\u002Fsup>北京航空航天大学，\u003Csup>4\u003C\u002Fsup>悉尼大学\n\n* [**MP5：基于主动感知的Minecraft多模态开放式具身系统**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.07472.pdf) [**CVPR 2024**] [[**项目页面**](https:\u002F\u002Firanqin.github.io\u002FMP5.github.io\u002F)] \u003Cbr>\n秦怡然\u003Csup>1,2\u003C\u002Fsup>、周恩深\u003Csup>1,3\u003C\u002Fsup>、刘启昌\u003Csup>1,4\u003C\u002Fsup>、尹振飞\u003Csup>1,5\u003C\u002Fsup>、盛路\u003Csup>3\u003C\u002Fsup>、张瑞茂\u003Csup>2\u003C\u002Fsup>、乔宇\u003Csup>1\u003C\u002Fsup>、邵静\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>上海人工智能实验室，\u003Csup>2\u003C\u002Fsup>香港中文大学深圳校区，\u003Csup>3\u003C\u002Fsup>北京航空航天大学，\u003Csup>4\u003C\u002Fsup>清华大学，\u003Csup>5\u003C\u002Fsup>悉尼大学\n\n* [**代码即监控：面向反应式与主动式的机器人故障检测的约束感知型可视化编程**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.04455) [**CVPR 2025**] [[**项目页面**](https:\u002F\u002Fzhoues.github.io\u002FCode-as-Monitor\u002F)] \u003Cbr>\n周恩深\u003Csup>1*\u003C\u002Fsup>、苏琪\u003Csup>2*\u003C\u002Fsup>、池成\u003Csup>3*；\u003C\u002Fsup>、张志正\u003Csup>4\u003C\u002Fsup>、王中源\u003Csup>3\u003C\u002Fsup>、黄铁军\u003Csup>2,3\u003C\u002Fsup>、盛路\u003Csup>1；\u003C\u002Fsup>、汪鹤\u003Csup>2,3,4；\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京航空航天大学，\u003Csup>2\u003C\u002Fsup>北京大学，\u003Csup>3\u003C\u002Fsup>北京智源人工智能研究院，\u003Csup>4\u003C\u002Fsup>GalBot\n\n* [**RILA：零样本语义视听导航的反思性与想象力语言智能体**](https:\u002F\u002Fpeihaochen.github.io\u002Ffiles\u002Fpublications\u002FRILA.pdf) [**CVPR 2024**] \u003Cbr>\n杨泽远\u003Csup>1\u003C\u002Fsup>、刘嘉庚、陈培豪\u003Csup>2\u003C\u002Fsup>、阿努普·切里安\u003Csup>3\u003C\u002Fsup>、蒂姆·马克斯、乔纳森·勒鲁\u003Csup>4\u003C\u002Fsup>、甘创\u003Csup>5\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>清华大学，\u003Csup>2\u003C\u002Fsup>华南理工大学，\u003Csup>3\u003C\u002Fsup>三菱电机研究实验室（MERL），\u003Csup>4\u003C\u002Fsup>三菱电机研究实验室，\u003Csup>5\u003C\u002Fsup>MIT-IBM 沃森人工智能实验室\n\n* [**迈向通用计算机控制：以《荒野大镖客2》为例的多模态智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.03186.pdf) [**arXiv 2024**] [[**项目页面**]](https:\u002F\u002Fbaai-agents.github.io\u002FCradle\u002F) [[**代码**]](https:\u002F\u002Fbaai-agents.github.io\u002FCradle\u002F) \u003Cbr>\n谭伟浩\u003Csup>2\u003C\u002Fsup>、丁子洛\u003Csup>1\u003C\u002Fsup>、张文涛\u003Csup>2\u003C\u002Fsup>、李博宇\u003Csup>1\u003C\u002Fsup>、周博文\u003Csup>3\u003C\u002Fsup>、岳俊鹏\u003Csup>3\u003C\u002Fsup>、夏浩冲\u003Csup>2\u003C\u002Fsup>、蒋杰川\u003Csup>3\u003C\u002Fsup>、郑龙涛\u003Csup>2\u003C\u002Fsup>、徐欣润\u003Csup>1\u003C\u002Fsup>、毕一飞\u003Csup>1\u003C\u002Fsup>、顾鹏杰\u003Csup>2\u003C\u002Fsup>,\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>中国北京智源人工智能研究院；\u003Csup>2\u003C\u002Fsup>新加坡南洋理工大学；\u003Csup>3\u003C\u002Fsup>中国北京大学计算机学院\n\n* [**看见并思考：虚拟环境中的具身智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.15209.pdf) [**arXiv 2023**] \u003Cbr>\n赵仲涵\u003Csup>1*\u003C\u002Fsup>、柴文浩\u003Csup>2*\u003C\u002Fsup>、王轩\u003Csup>1*\u003C\u002Fsup>、李博毅\u003Csup>1\u003C\u002Fsup>、郝圣宇\u003Csup>1\u003C\u002Fsup>、曹士东\u003Csup>1\u003C\u002Fsup>、田叶\u003Csup>3\u003C\u002Fsup>、黄景能\u003Csup>2\u003C\u002Fsup>、王高昂\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>浙江大学 \u003Csup>1\u003C\u002Fsup>华盛顿大学 \u003Csup>1\u003C\u002Fsup>香港科技大学（广州）\n\n* [**智能体指导大型语言模型成为通用零样本推理者**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.03710.pdf) [**arXiv 2023**] \u003Cbr>\n尼古拉斯·克里斯皮诺\u003Csup>1\u003C\u002Fsup>、凯尔·蒙哥马利\u003Csup>1\u003C\u002Fsup>、曾凡坤\u003Csup>1\u003C\u002Fsup>、邓恩·宋\u003Csup>2\u003C\u002Fsup>、王晨光\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>圣路易斯华盛顿大学，\u003Csup>2\u003C\u002Fsup>加州大学伯克利分校\n\n* [**JARVIS-1：具有记忆增强型多模态语言模型的开放世界多任务智能体**](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2023\u002F79171https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997) [**NeurIPS 2023**] [[**项目页面**](https:\u002F\u002Fcraftjarvis-jarvis1.github.io\u002F)] \u003Cbr>\n  王子豪\u003Csup>1,2\u003C\u002Fsup> 蔡绍飞\u003Csup>1,2\u003C\u002Fsup> 刘安吉\u003Csup>3\u003C\u002Fsup> 金永刚\u003Csup>4\u003C\u002Fsup> 侯金兵\u003Csup>4\u003C\u002Fsup> 张博伟\u003Csup>5\u003C\u002Fsup> 林浩伟\u003Csup>1,2\u003C\u002Fsup> 何兆峰\u003Csup>4\u003C\u002Fsup> 郑子龙\u003Csup>6\u003C\u002Fsup> 杨耀东\u003Csup>1\u003C\u002Fsup> 马晓健\u003Csup>6†\u003C\u002Fsup> 梁义涛\u003Csup>1†\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>北京大学人工智能研究院，\u003Csup>2\u003C\u002Fsup>北京大学智能科学与技术学院，\u003Csup>3\u003C\u002Fsup>加州大学洛杉矶分校计算机科学系，\u003Csup>4\u003C\u002Fsup>北京邮电大学，\u003Csup>5\u003C\u002Fsup>北京大学电子工程与计算机科学学院，\u003Csup>6\u003C\u002Fsup>北京通用人工智能研究院（BIGAI）\n\n* [**描述、解释、规划与选择：基于大型语言模型的交互式规划赋能开放世界多任务智能体**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560) [**NeurIPS 2023**]\u003Cbr>\n  王子豪\u003Csup>1,2\u003C\u002Fsup> 蔡绍飞\u003Csup>1,2\u003C\u002Fsup> 陈冠州\u003Csup>3\u003C\u002Fsup> 刘安吉\u003Csup>4\u003C\u002Fsup> 马晓健\u003Csup>4\u003C\u002Fsup> 梁义涛\u003Csup>1,5†\u003C\u002Fsup>\u003Cbr>\n  \u003Csup>1\u003C\u002Fsup>北京大学人工智能研究院，\u003Csup>2\u003C\u002Fsup>北京大学智能科学与技术学院，\u003Csup>3\u003C\u002Fsup>北京邮电大学计算机学院，\u003Csup>4\u003C\u002Fsup>加州大学洛杉矶分校计算机科学系，\u003Csup>5\u003C\u002Fsup>北京通用人工智能研究院（BIGAI）\n\n* [**CAMEL：用于大规模语言模型社会“心智”探索的沟通型智能体**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.17760.pdf) [**NeurIPS 2023**] [[**Github**](https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel)] [[**项目页面**](https:\u002F\u002Fwww.camel-ai.org\u002F)]\u003Cbr>\n李国豪、哈桑·阿贝德·阿尔·卡德尔·哈穆德、哈尼·伊塔尼、德米特里·希兹布林、伯纳德·加内姆\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>阿卜杜拉国王科技大学（KAUST）\n\n* [**语言模型作为零样本规划器：为具身智能体提取可操作知识**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.07207.pdf) [**arXiv 2022**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fhuangwl18\u002Flanguage-planner)] [[**项目页面**](https:\u002F\u002Fwenlong.page\u002Flanguage-planner\u002F)] \u003Cbr>\n黄文龙\u003Csup>1\u003C\u002Fsup>, 彼得·阿贝尔\u003Csup>1\u003C\u002Fsup>, 迪帕克·帕塔克\u003Csup>2\u003C\u002Fsup>, 伊戈尔·莫达奇\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>UC伯克利，\u003Csup>2\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>3\u003C\u002Fsup>谷歌\n\n* [**FILM：通过模块化方法遵循语言指令**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=qI4542Y2s1D) [**ICLR 2022**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fsoyeonm\u002FFILM)] [[**项目页面**](https:\u002F\u002Fgary3410.github.io\u002FTaPA\u002F)] \u003Cbr>\n闵素妍\u003Csup>1\u003C\u002Fsup>, 查普洛特·德文德拉\u003Csup>2\u003C\u002Fsup>, 拉维库马尔·普拉迪普\u003Csup>1\u003C\u002Fsup>, 比斯克·约纳坦\u003Csup>1\u003C\u002Fsup>, 萨拉胡丁诺夫·鲁斯兰\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**基于大型语言模型的具身任务规划**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.01848.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002FGary3410\u002FTaPA)] [[**项目页面**](https:\u002F\u002Fgary3410.github.io\u002FTaPA\u002F)] [[**演示**](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fxuxw98\u002FTAPA)] [[**Huggingface模型**](https:\u002F\u002Fhuggingface.co\u002FGary3410\u002Fpretrain_lit_llama)] \u003Cbr>\n吴振宇\u003Csup>1\u003C\u002Fsup>, 王子威\u003Csup>2,3\u003C\u002Fsup>, 徐秀伟\u003Csup>2,3\u003C\u002Fsup>, 卢继文\u003Csup>2,3\u003C\u002Fsup>, 闫海斌\u003Csup>1*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京邮电大学自动化学院，\n\u003Csup>2\u003C\u002Fsup>清华大学自动化系，\n\u003Csup>3\u003C\u002Fsup>北京国家信息科学技术研究中心\n\n* [**SPRING：通过研读论文和推理，GPT-4的表现超越强化学习算法**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.15486.pdf) [**arXiv 2023**] \u003Cbr>\n吴悦\u003Csup>1,4*\u003C\u002Fsup>\n, 普拉布莫耶·施里迈\u003Csup>2\u003C\u002Fsup>\n, 闵素妍\u003Csup>1\u003C\u002Fsup>\n, 比斯克·约纳坦\u003Csup>1\u003C\u002Fsup>\n, 萨拉胡丁诺夫·鲁斯兰\u003Csup>1\u003C\u002Fsup>\n, 阿扎里亚·阿莫斯\u003Csup>3\u003C\u002Fsup>\n, 米切尔·汤姆\u003Csup>1\u003C\u002Fsup>\n, 李元智\u003Csup>1,4\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>2\u003C\u002Fsup>NVIDIA，\u003Csup>3\u003C\u002Fsup>阿里埃尔大学，\u003Csup>4\u003C\u002Fsup>微软研究\n\n* [**PONI：用于ObjectGoal导航的势能函数，无需交互式学习**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FRamakrishnan_PONI_Potential_Functions_for_ObjectGoal_Navigation_With_Interaction-Free_Learning_CVPR_2022_paper.pdf) [**CVPR 2022（口头报告）**] [[**项目页面**](https:\u002F\u002Fvision.cs.utexas.edu\u002Fprojects\u002Fponi\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fsrama2512\u002FPONI)] \u003Cbr>\n桑托什·库马尔·拉马克里希南\u003Csup>1,2\u003C\u002Fsup>, 查普洛特·德文德拉\u003Csup>1\u003C\u002Fsup>, 扎伊德·阿尔-哈拉赫\u003Csup>2\u003C\u002Fsup>\n贾廷德拉·马利克\u003Csup>1,3\u003C\u002Fsup>, 克里斯汀·格劳曼\u003Csup>1,2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Facebook AI Research，\u003Csup>2\u003C\u002Fsup>UT奥斯汀，\u003Csup>3\u003C\u002Fsup>UC伯克利\n\n* [**向后而行以向前迈进：将动作影响嵌入到动作语义中**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=vmjctNUSWI) [**ICLR 2023**] [[**项目页面**](https:\u002F\u002Fprior.allenai.org\u002Fprojects\u002Faction-adaptive-policy)] [[**Github**](https:\u002F\u002Fgithub.com\u002FKuoHaoZeng\u002FAAP)] \u003Cbr>\n曾国豪\u003Csup>1\u003C\u002Fsup>, 卢卡·魏斯\u003Csup>2\u003C\u002Fsup>, 鲁兹贝·莫塔吉\u003Csup>1\u003C\u002Fsup>, 阿里·法拉希\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>华盛顿大学保罗·G·艾伦计算机科学与工程学院，\n\u003Csup>2\u003C\u002Fsup>PRIOR @ Allen Institute for AI\n\n* [**用场景图记忆建模动态环境**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=NiUxS1cAI4&name=pdf) [**ICML 2023**] \u003Cbr>\n安德烈·库伦科夫\u003Csup>1\u003C\u002Fsup>, 迈克尔·林格尔巴赫\u003Csup>1\u003C\u002Fsup>, 坦迈·阿加瓦尔\u003Csup>1\u003C\u002Fsup>, 艾米丽·金\u003Csup>1\u003C\u002Fsup>, 李成书\u003Csup>1\u003C\u002Fsup>, 张若涵\u003Csup>1\u003C\u002Fsup>, 李飞飞\u003Csup>1\u003C\u002Fsup>, 吴家俊\u003Csup>1\u003C\u002Fsup>, 萨瓦雷斯·西尔维奥\u003Csup>2\u003C\u002Fsup>, 马丁-马丁·罗伯托\u003Csup>3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>斯坦福大学计算机科学系\n\u003Csup>2\u003C\u002Fsup>Salesforce AI Research \u003Csup>3\u003C\u002Fsup>德克萨斯大学奥斯汀分校计算机科学系。\n\n* [**利用语言模型进行推理即是在使用世界模型进行规划**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14992.pdf) [**arXiv 2023**] \u003Cbr>\n郝世博\u003Csup>∗♣\u003C\u002Fsup>, 顾毅\u003Csup>∗♣\u003C\u002Fsup>, 马浩迪\u003Csup>♢\u003C\u002Fsup>, 洪嘉华·乔舒亚\u003Csup>♣\u003C\u002Fsup>, 王振\u003Csup>♣ ♠\u003C\u002Fsup>,\n王哲·黛西\u003Csup>♢\u003C\u002Fsup>, 胡志婷\u003Csup>♣\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♣\u003C\u002Fsup>UC圣地亚哥，\u003Csup>♢\u003C\u002Fsup>佛罗里达大学，\n\u003Csup>♠\u003C\u002Fsup>穆罕默德·本·扎耶德人工智能大学\n\n* [**做我能做到的，而不是我说的：将语言与机器人可用性相结合**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.01691.pdf) [**arXiv 2022**]\u003Cbr>\n谷歌机器人团队，Everyday Robots\n\n* [**具身智能体是否会梦见像素化的羊？：基于语言引导的世界建模的具身决策**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=Rm5Qi57C5I&name=pdf) [**ICML 2023**]\u003Cbr>\n科尔比·诺丁汉\u003Csup>1\u003C\u002Fsup> 普里特维拉吉·阿曼纳布罗卢\u003Csup>2\u003C\u002Fsup> 阿兰·苏尔\u003Csup>2\u003C\u002Fsup>\n耶金·乔伊\u003Csup>3,2\u003C\u002Fsup> 哈娜内·哈吉希尔齐\u003Csup>3,2\u003C\u002Fsup> 萨米尔·辛格\u003Csup>1,2\u003C\u002Fsup> 罗伊·福克斯\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>加州大学欧文分校计算机科学系 \u003Csup>2\u003C\u002Fsup>艾伦人工智能研究所\n\u003Csup>3\u003C\u002Fsup>保罗·G·艾伦计算机科学学院\n\n* [**面向指令遵循的具身智能体的上下文感知规划与环境感知记忆**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.07241v2.pdf) [**ICCV 2023**] [[**项目页面**](https:\u002F\u002Fbhkim94.github.io\u002Fprojects\u002FCAPEAM\u002F)]\u003Cbr>\n金炳辉 金珍妍 金有英\u003Csup>1,*\u003C\u002Fsup> 闵哲洪 崔钟贤\u003Csup>†\u003C\u002Fsup>\u003Cbr>\n延世大学 \u003Csup>1\u003C\u002Fsup>光州科学技术院\n\n* [**内心独白：通过语言模型规划实现具身推理**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=3R3Pz5i0tye) [**CoRL 2022**] [[**项目页面**](https:\u002F\u002Finnermonologue.github.io\u002F)]\u003Cbr>\n谷歌机器人实验室\n\n* [**语言模型邂逅世界模型：具身经验增强语言模型**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10626.pdf) [**arXiv 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fszxiangjn\u002Fworld-model-for-language-model?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Fszxiangjn\u002Fworld-model-for-language-model) [[**Twitter**](https:\u002F\u002Ftwitter.com\u002Fszxiangjn\u002Fstatus\u002F1659399771126370304)]\u003Cbr>\n向建南\u003Csup>∗♠\u003C\u002Fsup>, 陶天华\u003Csup>∗♠\u003C\u002Fsup>, 顾毅\u003Csup>♠\u003C\u002Fsup>, 舒天敏\u003Csup>♢\u003C\u002Fsup>,\n王子睿\u003Csup>♠\u003C\u002Fsup>, 杨子超\u003Csup>♡\u003C\u002Fsup>, 胡志廷\u003Csup>♠\u003C\u002Fsup>\u003Cbr>\n\u003Csup>♠\u003C\u002Fsup>加州大学圣地亚哥分校, \u003Csup>♣\u003C\u002Fsup>伊利诺伊大学厄巴纳-香槟分校, \u003Csup>♢\u003C\u002Fsup>麻省理工学院, \u003Csup>♡\u003C\u002Fsup>卡内基梅隆大学\n\n* [**AlphaBlock：用于机器人操作中视觉-语言推理的具身微调**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18898.pdf) [**arXiv 2023**] [[**视频**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ayAzID1_qQk)]\u003Cbr>\n金初浩\u003Csup>1*\u003C\u002Fsup>\n, 谭文辉\u003Csup>1*\u003C\u002Fsup>\n, 杨建阁\u003Csup>2*\u003C\u002Fsup>\n, 刘贝3\u003Csup>†\u003C\u002Fsup>\n, 宋瑞华\u003Csup>1\u003C\u002Fsup>\n, 王利民\u003Csup>2\u003C\u002Fsup>\n, 傅建龙\u003Csup>3†\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>中国人民大学, \u003Csup>2\u003C\u002Fsup>南京大学,\n\u003Csup>3\u003C\u002Fsup>微软研究院\n\n* [**用于高层自然语言指令执行的持久化空间语义表示**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=NeGDZeyjcKa) [**CoRL 2021**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fvaltsblukis\u002Fhlsm?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002Fvaltsblukis\u002Fhlsm)  [[**项目页面**](https:\u002F\u002Fhlsm-alfred.github.io\u002F)] [[**海报**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=NeGDZeyjcKa&name=poster)]\u003Cbr>\n瓦尔茨·布鲁基斯\u003Csup>1,2\u003C\u002Fsup>, 克里斯·帕克斯顿\u003Csup>1\u003C\u002Fsup>, 迪特·福克斯\u003Csup>1,3\u003C\u002Fsup>, 阿尼梅什·加格\u003Csup>1,4\u003C\u002Fsup>, 约阿夫·阿策\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA \u003Csup>2\u003C\u002Fsup>康奈尔大学 \u003Csup>3\u003C\u002Fsup>华盛顿大学 \u003Csup>4\u003C\u002Fsup>多伦多大学，Vector Institute\n\n\n* [**LLM-Planner：利用大型语言模型为具身智能体进行少样本接地规划**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.04088.pdf) [**ICCV 2023**] [[**项目页面**](https:\u002F\u002Fdki-lab.github.io\u002FLLM-Planner\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FOSU-NLP-Group\u002FLLM-Planner)]\u003Cbr>\n宋灿熙\u003Csup>1\u003C\u002Fsup>, 吴佳曼\u003Csup>1\u003C\u002Fsup>, 克莱顿·华盛顿\u003Csup>1\u003C\u002Fsup>, 布赖恩·M·萨德勒\u003Csup>2\u003C\u002Fsup>, 曹伟伦\u003Csup>1\u003C\u002Fsup>, 苏宇\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>俄亥俄州立大学, \u003Csup>2\u003C\u002Fsup>DEVCOM ARL\n\n* [**代码即策略：用于具身控制的语言模型程序**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.07753) [**arXiv 2023**] [[**项目页面**](https:\u002F\u002Fcode-as-policies.github.io\u002F)] [[**Github**](https:\u002F\u002Fcode-as-policies.github.io)] [[**博客**](https:\u002F\u002Fai.googleblog.com\u002F2022\u002F11\u002Frobots-that-write-their-own-code.html)] [[**Colab**](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F124TE4TsGYyrvduzeDclufyvwcc2qbbrE)]\u003Cbr>\n杰基·梁、黄文龙、夏飞、徐鹏、卡罗尔·豪斯曼、布莱恩·伊克特、皮特·弗洛伦斯、安迪·曾\u003Cbr>\n谷歌机器人实验室\n\n* [**3D-LLM：将三维世界注入大型语言模型**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12981) [**arXiv 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FUMass-Foundation-Model\u002F3D-LLM?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002F3D-LLM) \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>洪怡宁, \u003Csup>2\u003C\u002Fsup>甄浩宇, \u003Csup>3\u003C\u002Fsup>陈培浩, \u003Csup>4\u003C\u002Fsup>郑书红, \u003Csup>5\u003C\u002Fsup>杜一伦, \u003Csup>6\u003C\u002Fsup>陈振芳, \u003Csup>6,7\u003C\u002Fsup>甘创 \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>加州大学洛杉矶分校       \u003Csup>2\u003C\u002Fsup>上海交通大学       \u003Csup>3\u003C\u002Fsup>华南理工大学       \u003Csup>4\u003C\u002Fsup>伊利诺伊大学厄巴纳-香槟分校       \u003Csup>5\u003C\u002Fsup>麻省理工学院       \u003Csup>6\u003C\u002Fsup>MIT-IBM沃森人工智能实验室       \u003Csup>7\u003C\u002Fsup>马萨诸塞大学阿默斯特分校\n\n* [**VoxPoser：结合语言模型的可组合3D价值图用于机器人操作**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05973) [**arXiv 2023**] [[**项目页面**](https:\u002F\u002Fvoxposer.github.io\u002F)] [[**在线演示**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=Yvn4eR05A3M)]\u003Cbr>\n黄文龙\u003Csup>1\u003C\u002Fsup>, 王晨\u003Csup>1\u003C\u002Fsup>, 张若涵\u003Csup>1\u003C\u002Fsup>, 李云珠\u003Csup>1,2\u003C\u002Fsup>, 吴家俊\u003Csup>1\u003C\u002Fsup>, 李飞飞\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>斯坦福大学 \u003Csup>2\u003C\u002Fsup>伊利诺伊大学厄巴纳-香槟分校\n\n* [**Palm-e：一种具身多模态语言模型**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03378.pdf) [**ICML 2023**] [[**项目页面**](https:\u002F\u002Fpalm-e.github.io)]\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>谷歌机器人实验室 \u003Csup>2\u003C\u002Fsup>柏林工业大学 3谷歌研究    \n\n* [**大型语言模型作为大规模任务规划中的常识知识**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14078.pdf) [**arXiv 2023**] \u003Cbr>\n赵子睿 李伟孙 大卫·许\u003Cbr>\n新加坡国立大学计算机学院\n\n* [**三维世界中的具身通用智能体**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871) [**ICML 2024**] \u003Cbr>\n黄江勇、雍思龙、马晓健、凌虎雄坤、李普浩、王燕、李青、朱松春、贾宝雄、黄思远\n北京通用人工智能研究院 (BIGAI)   \n\n> ### 多智能体学习与协作\n\n* [**利用大型语言模型模块化构建合作型具身智能体**](https:\u002F\u002Fopenreview.net\u002Fforum?id=EnXJfQqy0K) [**ICLR 2024**] [[**项目页面**](https:\u002F\u002Fvis-www.cs.umass.edu\u002FCo-LLM-Agents\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FUMass-Foundation-Model\u002FCo-LLM-Agents\u002F)]\u003Cbr>\n张宏鑫\u003Csup>1*\u003C\u002Fsup>, 杜伟华\u003Csup>2*\u003C\u002Fsup>, 山嘉明\u003Csup>3\u003C\u002Fsup>, 周勤洪\u003Csup>1\u003C\u002Fsup>, 杜一伦\u003Csup>4\u003C\u002Fsup>, 乔舒亚·B·特南鲍姆\u003Csup>4\u003C\u002Fsup>, 舒天敏\u003Csup>4\u003C\u002Fsup>, 甘创\u003Csup>1,5\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>马萨诸塞大学阿默斯特分校, \u003Csup>2\u003C\u002Fsup>清华大学, \u003Csup>3\u003C\u002Fsup>上海交通大学, \u003Csup>4\u003C\u002Fsup>MIT, \u003Csup>5\u003C\u002Fsup>MIT-IBM沃森人工智能实验室\n\n* [**战争与和平（WarAgent）：基于大型语言模型的世界大战多智能体仿真**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.17227.pdf) [**arXiv 2023**]\u003Cbr>\n华文悦\u003Csup>1*\u003C\u002Fsup>，范立洲\u003Csup>2*\u003C\u002Fsup>，李凌瑶\u003Csup>2\u003C\u002Fsup>，梅凯\u003Csup>1\u003C\u002Fsup>，季建超\u003Csup>1\u003C\u002Fsup>，葛英强\u003Csup>1\u003C\u002Fsup>，利比·亨菲尔\u003Csup>2\u003C\u002Fsup>，张永峰\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>罗格斯大学，\u003Csup>2\u003C\u002Fsup>密歇根大学\n\n* [**MindAgent：涌现式游戏交互**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971) [**arXiv 2023**]\u003Cbr> 龚然\u003Csup>*1†\u003C\u002Fsup> 黄秋源\u003Csup>*2‡\u003C\u002Fsup> 马晓健\u003Csup>*1\u003C\u002Fsup> 霍伊·沃\u003Csup>3\u003C\u002Fsup> 泽恩·杜兰特\u003Csup>†4\u003C\u002Fsup> 野田悠介\u003Csup>3\u003C\u002Fsup> 郑子龙\u003Csup>5\u003C\u002Fsup> 朱松纯\u003Csup>15678\u003C\u002Fsup> 德米特里·特尔佐波洛斯\u003Csup>1\u003C\u002Fsup> 李飞飞\u003Csup>4\u003C\u002Fsup> 高剑锋\u003Csup>2\u003C\u002Fsup>\u003Cbr>\u003Csup>1\u003C\u002Fsup>加州大学洛杉矶分校；\u003Csup>2\u003C\u002Fsup>微软雷德蒙德研究院；\u003Csup>3\u003C\u002Fsup>微软Xbox团队；\u003Csup>4\u003C\u002Fsup>斯坦福大学；\u003Csup>5\u003C\u002Fsup>BIGAI；\u003Csup>6\u003C\u002Fsup>北京大学；\u003Csup>7\u003C\u002Fsup>清华大学；\u003Csup>8\u003C\u002Fsup>加州大学洛杉矶分校\n\n* [**通过隐式与双向课程实现无需演示的自主强化学习**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=BMO1vLKq7D&name=pdf) [**ICML 2023**]\u003Cbr>\n金志刚\u003Csup>*1,2\u003C\u002Fsup> 曹大瑟\u003Csup>*1,2\u003C\u002Fsup> 金洪镇\u003Csup>1,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>首尔国立大学，\u003Csup>2\u003C\u002Fsup>首尔国立大学人工智能研究所（AIIS），\u003Csup>3\u003C\u002Fsup>自动化与系统研究所有限公司（ASRI）。\u003Cbr>\n***注：本文主要关注具身人工智能中的强化学习。***\n\n* [**社交具身重组中的适应性协调**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=BYEsw113sz&name=pdf) [**ICML 2023**]\u003Cbr>\n安德鲁·索特\u003Csup>1,2\u003C\u002Fsup> 安纳特·贾因\u003Csup>1\u003C\u002Fsup> 德鲁夫·巴特拉\u003Csup>1,2\u003C\u002Fsup> 兹索特·基拉\u003Csup>2\u003C\u002Fsup> 鲁塔·戴赛\u003Csup>1\u003C\u002Fsup> 阿克沙拉·赖\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>Meta AI \u003Csup>2\u003C\u002Fsup>佐治亚理工学院。\n\n> ### 视觉与语言导航\n\n* [**CANVAS：面向直观人机交互的常识感知导航系统**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.01273) [**ICRA 2025**] \u003Cbr>\n崔秀焕\u003Csup>1\u003C\u002Fsup> 曹勇俊\u003Csup>1\u003C\u002Fsup> 金珉灿\u003Csup>1\u003C\u002Fsup> 郑在允\u003Csup>1\u003C\u002Fsup> 赵民哲\u003Csup>1\u003C\u002Fsup> 朴有彬\u003Csup>1\u003C\u002Fsup> 金敏书\u003Csup>2\u003C\u002Fsup> 金成雄\u003Csup>2\u003C\u002Fsup> 李成宰\u003Csup>2\u003C\u002Fsup> 朴辉成\u003Csup>1\u003C\u002Fsup> 钟智完\u003Csup>2\u003C\u002Fsup> 柳英载\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>MAUM.AI \u003Csup>2\u003C\u002Fsup>延世大学\n\n* [**IndoorSim-to-OutdoorReal：无需任何户外经验即可学会户外导航**](http:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01098) [**arXiv 2023**] \u003Cbr>\n乔安妮·庄\u003Csup>1,2\u003C\u002Fsup>, 四月·齐特科维奇\u003Csup>1\u003C\u002Fsup>, 索尼娅·切尔诺娃\u003Csup>2\u003C\u002Fsup>, 德鲁夫·巴特拉\u003Csup>2,3\u003C\u002Fsup>, 张婷楠\u003Csup>1\u003C\u002Fsup>, 谭杰\u003Csup>1\u003C\u002Fsup>, 于文浩\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>谷歌机器人部门 \u003Csup>2\u003C\u002Fsup>佐治亚理工学院 \u003Csup>3\u003C\u002Fsup>Meta AI\n\n\n* [**DivScene：用于对象导航的多样化场景与物体基准测试**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02730) [**arXiv 2024**] [[**项目页面**](https:\u002F\u002Fzhaowei-wang-nlp.github.io\u002Fdivscene-project-page\u002F)]\u003Cbr>\n王兆伟\u003Csup>1\u003C\u002Fsup>, 张宏明\u003Csup>2\u003C\u002Fsup>, 方天青\u003Csup>1,2\u003C\u002Fsup>, 田烨\u003Csup>3\u003C\u002Fsup>, 杨悦\u003Csup>4\u003C\u002Fsup>, 马凯欣\u003Csup>2\u003C\u002Fsup>, 潘小曼\u003Csup>2\u003C\u002Fsup>, 宋阳秋\u003Csup>1\u003C\u002Fsup>, 于东\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>香港科技大学计算机科学与工程系&nbsp;&nbsp;\u003Csup>2\u003C\u002Fsup>腾讯AI实验室，美国贝尔维尤&nbsp;&nbsp;\u003Csup>3\u003C\u002Fsup>腾讯Robotics X&nbsp;&nbsp;\u003Csup>4\u003C\u002Fsup>宾夕法尼亚大学\n\n\n* [**ESC：带有软性常识约束的零样本对象导航探索**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=GydFM0ZEXY&name=pdf) [**ICML 2023**] \u003Cbr>\n周凯文\u003Csup>1\u003C\u002Fsup>, 郑凯志\u003Csup>1\u003C\u002Fsup>, 康纳·普赖尔\u003Csup>1\u003C\u002Fsup>, 沈怡琳\u003Csup>2\u003C\u002Fsup>, 金红霞\u003Csup>2\u003C\u002Fsup>, 利斯·吉托尔\u003Csup>1\u003C\u002Fsup>, 王新埃里克\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>加州大学圣克鲁斯分校 \u003Csup>2\u003C\u002Fsup>Samsung Research America.\n\n\n* [**NavGPT：利用大型语言模型进行视觉-语言导航中的显式推理**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.16986.pdf) [**arXiv 2023**] \u003Cbr>\n周耿泽\u003Csup>1\u003C\u002Fsup> 洪一聪\u003Csup>2\u003C\u002Fsup> 吴奇\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>阿德莱德大学 \u003Csup>2\u003C\u002Fsup>澳大利亚国立大学\n\n\n* [**Instruct2Act：利用大型语言模型将多模态指令映射为机器人动作**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11176.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInstruct2Act)]    \n黄思远\u003Csup>1,2\u003C\u002Fsup> 姜正凯\u003Csup>4\u003C\u002Fsup> 董浩\u003Csup>3\u003C\u002Fsup> 乔宇\u003Csup>2\u003C\u002Fsup> 高鹏\u003Csup>2\u003C\u002Fsup> 李洪生\u003Csup>5\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>上海交通大学，\u003Csup>2\u003C\u002Fsup>上海人工智能实验室，\u003Csup>3\u003C\u002Fsup>北京大学计算机学院CFCS，\n\u003Csup>4\u003C\u002Fsup>中国科学院大学，\u003Csup>5\u003C\u002Fsup>香港中文大学\n\n> ### 检测\n* [**DetGPT：通过推理检测所需内容**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14167.pdf) [**arXiv 2023**] \u003Cbr>\n皮仁杰\u003Csup>1∗\u003C\u002Fsup> 高佳慧\u003Csup>2*\u003C\u002Fsup> 迪奥世哲\u003Csup>1∗\u003C\u002Fsup> 潘锐\u003Csup>1\u003C\u002Fsup> 董汉泽\u003Csup>1\u003C\u002Fsup> 张继鹏\u003Csup>1\u003C\u002Fsup> 姚乐威\u003Csup>1\u003C\u002Fsup> 韩建华\u003Csup>3\u003C\u002Fsup> 徐航\u003Csup>2\u003C\u002Fsup>\n孔令鹏\u003Csup>2\u003C\u002Fsup> 张彤\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>香港科技大学 \u003Csup>2\u003C\u002Fsup>香港大学 3上海交通大学\n\n> ### 3D定位\n* [**LLM-Grounder：以大型语言模型为代理的开放词汇3D视觉定位**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.12311.pdf) [**arXiv 2023**]  \u003Cbr>\n杨嘉宁\u003Csup>1,*\u003C\u002Fsup>, 陈旭伟\u003Csup>1,*\u003C\u002Fsup>, 钱盛义\u003Csup>1\u003C\u002Fsup>, 尼基尔·马丹，艾扬格尔\u003Csup>1\u003C\u002Fsup>, 大卫·F·福黑\u003Csup>1,2\u003C\u002Fsup>, 乔伊斯·柴\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>密歇根大学，\u003Csup>2\u003C\u002Fsup>纽约大学\n\n* [**3D-VisTA：用于3D视觉与文本对齐的预训练Transformer**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04352) [**ICCV 2023**] \u003Cbr>\n朱子宇、马晓健、陈一鑫、邓志东、黄思远、李青\u003Cbr>\n北京通用人工智能研究院（BIGAI）\n\n\n> ### 交互式具身学习\n\n* [**CombatVLA：用于3D动作角色扮演游戏战斗任务的高效视觉-语言-行动模型**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09527) [**ICCV 2025**] [[**项目页面**](https:\u002F\u002Fcombatvla.github.io\u002F)]\u003Cbr>\n陈鹏*，卜丕*，王英耀，王心怡，王子铭，郭杰，赵英秀，朱琪，宋军†，王思然，王家猛，郑博\u003Cbr>\n阿里巴巴集团\n\n* [**元控制：针对异构机器人技能的自动基于模型控制系统合成**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\n魏天昊\u003Csup>1*\u003C\u002Fsup>, 马丽倩\u003Csup>12*\u003C\u002Fsup>, 陈瑞\u003Csup>1\u003C\u002Fsup>, 赵伟业\u003Csup>1\u003C\u002Fsup>, 刘昌柳\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>贡献相等 \u003Csup>1\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>2\u003C\u002Fsup>清华大学\n\n* [**基于在线强化学习的交互环境中大型语言模型接地**](https:\u002F\u002Fopenreview.net\u002Fattachment?id=feXm8GbxWU&name=pdf) [**ICML 2023**]  \u003Cbr>\n托马斯·卡尔塔\u003Csup>1*\u003C\u002Fsup>, 克莱芒·罗马克\u003Csup>1,2\u003C\u002Fsup>, 托马斯·沃尔夫\u003Csup>2\u003C\u002Fsup>, 西尔万·朗普里耶\u003Csup>3\u003C\u002Fsup>, 奥利维埃·西戈\u003Csup>4\u003C\u002Fsup>, 皮埃尔-伊夫·乌代耶\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>法国国家信息与自动化研究所（Flowers），波尔多大学，\u003Csup>2\u003C\u002Fsup>Hugging Face，\u003Csup>3\u003C\u002Fsup>昂热大学，LERIA，SFR MATHSTIC，\nF-49000，\u003Csup>4\u003C\u002Fsup>索邦大学，ISIR\n\n* [**在3D环境中学习用于交互探索的可供性景观**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2008.09241.pdf) [**NeurIPS 2020**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Ffacebookresearch\u002Finteraction-exploration?style=social&label=代码+星标)](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Finteraction-exploration) [[项目页面](https:\u002F\u002Fvision.cs.utexas.edu\u002Fprojects\u002Finteraction-exploration\u002F)] \u003Cbr>\n图沙尔·纳加拉詹，克里斯汀·格劳曼\u003Cbr>\n德克萨斯大学奥斯汀分校和Facebook AI Research，德克萨斯大学奥斯汀分校和Facebook AI Research\n\n* [**基于点云感知的真实感环境中具身问答**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03461) [**CVPR 2019（口头报告）**] [[**幻灯片**](https:\u002F\u002Fembodiedqa.org\u002Fslides\u002Feqa_matterport.slides.pdf)]\u003Cbr>\n埃里克·维杰曼斯\u003Csup>1†\u003C\u002Fsup>, 萨米亚克·达塔\u003Csup>1\u003C\u002Fsup>, 奥列克桑德尔·马克西梅茨\u003Csup>2†\u003C\u002Fsup>, 阿比谢克·达斯\u003Csup>1\u003C\u002Fsup>, 乔治娅·吉科扎里\u003Csup>2\u003C\u002Fsup>, 斯蒂芬·李\u003Csup>1\u003C\u002Fsup>, 伊尔凡·埃萨\u003Csup>1\u003C\u002Fsup>, 德维·帕里克\u003Csup>1,2\u003C\u002Fsup>, 德鲁夫·巴特拉\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>佐治亚理工学院，\u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**多目标具身问答**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2019\u002Fpapers\u002FYu_Multi-Target_Embodied_Question_Answering_CVPR_2019_paper.pdf) [**CVPR 2019**] \u003Cbr>\n李成宇\u003Csup>1\u003C\u002Fsup>, 辛雷·陈\u003Csup>3\u003C\u002Fsup>, 乔治娅·吉科扎里\u003Csup>3\u003C\u002Fsup>, 莫希特·班萨尔\u003Csup>1\u003C\u002Fsup>, 塔玛拉·L·伯格\u003Csup>1,3\u003C\u002Fsup>, 德鲁夫·巴特拉\u003Csup>2,3\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北卡罗来纳大学教堂山分校 \u003Csup>2\u003C\u002Fsup>佐治亚理工学院 3Facebook AI\n\n* [**用于具身问答的神经模块化控制**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.11181) [**CoRL 2018（亮点论文）**] [[**项目页面**](https:\u002F\u002Fembodiedqa.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEmbodiedQA)]\u003Cbr>\n阿比谢克·达斯\u003Csup>1\u003C\u002Fsup>, 乔治娅·吉科扎里\u003Csup>2\u003C\u002Fsup>, 斯蒂芬·李\u003Csup>1\u003C\u002Fsup>, 德维·帕里克\u003Csup>1,2\u003C\u002Fsup>, 德鲁夫·巴特拉\u003Csup>1,2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>佐治亚理工学院 \u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n* [**具身问答**](https:\u002F\u002Fembodiedqa.org\u002Fpaper.pdf) [**CVPR 2018（口头报告）**] [[**项目页面**](https:\u002F\u002Fembodiedqa.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FEmbodiedQA)]\u003Cbr>\n阿比谢克·达斯\u003Csup>1\u003C\u002Fsup>, 萨米亚克·达塔\u003Csup>1\u003C\u002Fsup>, 乔治娅·吉科扎里\u003Csup>2\u003C\u002Fsup>, 斯蒂芬·李\u003Csup>1\u003C\u002Fsup>, 德维·帕里克\u003Csup>2,1\u003C\u002Fsup>, 德鲁夫·巴特拉\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>佐治亚理工学院，\u003Csup>2\u003C\u002Fsup>Facebook AI Research\n\n> ### 重新布置\n* [**一种简单的视觉房间重新布置方法：3D建图与语义搜索**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=fGG6vHp3W9W) [**ICLR 2023**] \u003Cbr> \n\u003Csup>1\u003C\u002Fsup>布兰登·特拉布科，\u003Csup>2\u003C\u002Fsup>冈纳尔·A·西古尔德森，\u003Csup>2\u003C\u002Fsup>罗宾逊·皮拉穆图，\u003Csup>2,3\u003C\u002Fsup>高拉夫·S·苏卡特梅，\u003Csup>1\u003C\u002Fsup>鲁斯兰·萨拉胡丁诺夫\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>2\u003C\u002Fsup>亚马逊Alexa AI，\u003Csup>3\u003C\u002Fsup>南加州大学\n\n> ### 基准测试\n\n* [**RoboRefer：面向机器人技术的视觉-语言模型推理空间指代**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.04308) [**Arxiv 2025**] [[**项目页面**](https:\u002F\u002Fzhoues.github.io\u002FRoboRefer\u002F)]\u003Cbr>\n恩申·周\u003Csup>1,2,*\u003C\u002Fsup>, 景坤·安\u003Csup>1,*\u003C\u002Fsup>, 成驰\u003Csup>2,*\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京航空航天大学，\u003Csup>2\u003C\u002Fsup>北京人工智能研究院\n\n* [**DivScene：针对多样化场景与物体的对象导航的LVLM基准测试**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02730) [**arXiv 2024**] [[**项目页面**](https:\u002F\u002Fzhaowei-wang-nlp.github.io\u002Fdivscene-project-page\u002F)]\u003Cbr>\n赵伟王\u003Csup>1\u003C\u002Fsup>, 洪明张\u003Csup>2\u003C\u002Fsup>, 天青方\u003Csup>1,2\u003C\u002Fsup>, 叶田\u003Csup>3\u003C\u002Fsup>, 岳阳\u003Csup>4\u003C\u002Fsup>, 凯欣马\u003Csup>2\u003C\u002Fsup>, 小满潘\u003Csup>2\u003C\u002Fsup>, 杨秋宋\u003Csup>1\u003C\u002Fsup>, 东宇\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>香港科技大学计算机科学与工程系&nbsp;&nbsp;\u003Csup>2\u003C\u002Fsup>Tencent AI Lab，贝尔维尤，美国&nbsp;&nbsp;\u003Csup>3\u003C\u002Fsup>腾讯Robotics X&nbsp;&nbsp;\u003Csup>4\u003C\u002Fsup>宾夕法尼亚大学\n\n* [**ReALFRED：真实感环境中的具身指令遵循基准测试**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.18550) [**ECCV 2024**] [[**项目页面**](https:\u002F\u002Ftwoongg.github.io\u002Fprojects\u002Frealfred\u002F)]\u003Cbr>\n泰雄金\u003Csup>1*\u003C\u002Fsup>, 哲洪闵\u003Csup>1*\u003C\u002Fsup>, 别亨辉金\u003Csup>1\u003C\u002Fsup>, 珍妍金\u003Csup>12\u003C\u002Fsup>, 愿济郑\u003Csup>1\u003C\u002Fsup>, 宗贤崔\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>同等贡献 \u003Csup>1\u003C\u002Fsup>首尔国立大学 \u003Csup>2\u003C\u002Fsup>延世大学\n\n* [**交互式指令遵循智能体的在线持续学习**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=7M0EzjugaN) [**ICLR 2024**] [[**项目页面**](https:\u002F\u002Fbhkim94.github.io\u002Fprojects\u002FCL-ALFRED\u002F)]\u003Cbr>\n别亨辉金\u003Csup>1*\u003C\u002Fsup>, 敏赫徐\u003Csup>1*\u003C\u002Fsup>, 宗贤崔\u003Csup>2\u003C\u002Fsup>\u003Cbr>\n\u003Csup>*\u003C\u002Fsup>同等贡献 \u003Csup>1\u003C\u002Fsup>延世大学 \u003Csup>2\u003C\u002Fsup>首尔国立大学\n\n* [**SmartPlay：作为智能代理的LLM基准测试**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0IOX0YcCdTn) [**ICLR 2024**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSmartPlay)] \u003Cbr> \n岳吴\u003Csup>1,2\u003C\u002Fsup>, 玄唐\u003Csup>1\u003C\u002Fsup>, 汤姆·米切尔\u003Csup>1\u003C\u002Fsup>, 元志李\u003Csup>1,2\u003C\u002Fsup>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>2\u003C\u002Fsup>微软研究\n\n* [**RoboGen：通过生成式仿真释放无限数据以实现机器人自动化学习**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01455.pdf) [**arXiv 2023**] [[**项目页面**](https:\u002F\u002Frobogen-ai.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FRoboGen)] \u003Cbr> \n玉飞王\u003Csup>1\u003C\u002Fsup>, 周贤\u003Csup>1\u003C\u002Fsup>, 冯晨\u003Csup>2\u003C\u002Fsup>, 恒轩王\u003Csup>3\u003C\u002Fsup>, 亦安王\u003Csup>4\u003C\u002Fsup>, 卡特琳娜·弗拉吉亚达基\u003Csup>1\u003C\u002Fsup>, 扎科里·埃里克森\u003Csup>1\u003C\u002Fsup>, 大卫·赫尔德\u003Csup>1\u003C\u002Fsup>, 创甘\u003Csup>4,5\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>卡内基梅隆大学，\u003Csup>2\u003C\u002Fsup>清华大学IIIS，\u003Csup>3\u003C\u002Fsup>MIT CSAIL，\u003Csup>4\u003C\u002Fsup>马萨诸塞大学阿默斯特分校，\u003Csup>5\u003C\u002Fsup>MIT-IBM AI实验室\n\n* [**ALFWorld：对齐文本与具身环境以进行交互式学习**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0IOX0YcCdTn) [**ICLR 2021**] [[**项目页面**](https:\u002F\u002Falfworld.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Falfworld\u002Falfworld)] \u003Cbr> \n莫希特·施里达尔\u003Csup>†\u003C\u002Fsup> 星迪袁\u003Csup>♡\u003C\u002Fsup> 马克-亚历山大·科特\u003Csup>♡\u003C\u002Fsup>\n约纳坦·比斯克\u003Csup>‡\u003C\u002Fsup> 亚当·特里施勒\u003Csup>♡\u003C\u002Fsup> 马修·豪斯克内希特\u003Csup>♣\u003C\u002Fsup>\u003Cbr>\n\u003Csup>‡\u003C\u002Fsup>华盛顿大学 \u003Csup>♡\u003C\u002Fsup>Microsoft Research，蒙特利尔\n\u003Csup>‡\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>♣\u003C\u002Fsup>Microsoft Research\n\n* [**ALFRED：面向日常任务的具身指令理解基准**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.01734.pdf) [**CVPR 2020**] [[**项目页面**](https:\u002F\u002Faskforalfred.com\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Faskforalfred\u002Falfred)] \u003Cbr> \nMohit Shridhar\u003Csup>1\u003C\u002Fsup>\nJesse Thomason\u003Csup>1\u003C\u002Fsup> Daniel Gordon\u003Csup>1\u003C\u002Fsup> Yonatan Bisk\u003Csup>1,2,3\u003C\u002Fsup>\nWinson Han\u003Csup>3\u003C\u002Fsup> Roozbeh Mottaghi\u003Csup>1,3\u003C\u002Fsup> Luke Zettlemoyer\u003Csup>1\u003C\u002Fsup> Dieter Fox\u003Csup>1,4\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>华盛顿大学保罗·G·艾伦计算机科学与工程学院，\n\u003Csup>2\u003C\u002Fsup>卡内基梅隆大学语言技术研究所，\n\u003Csup>3\u003C\u002Fsup>艾伦人工智能研究所，\n\u003Csup>4\u003C\u002Fsup>NVIDIA\u003Cbr>\n\n* [**VIMA：多模态提示下的机器人操作**](https:\u002F\u002Fvimalabs.github.io\u002Fassets\u002Fvima_paper.pdf) [**ICML 2023**] [[**项目页面**](https:\u002F\u002Fvimalabs.github.io\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)] [[**VIMA-Bench**](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)] \u003Cbr> \nYunfan Jiang\u003Csup>1\u003C\u002Fsup> Agrim Gupta\u003Csup>1†\u003C\u002Fsup> Zichen Zhang\u003Csup>2†\u003C\u002Fsup> Guanzhi Wang\u003Csup>3,4†\u003C\u002Fsup> Yongqiang Dou\u003Csup>5\u003C\u002Fsup> Yanjun Chen\u003Csup>1\u003C\u002Fsup>\nLi Fei-Fei\u003Csup>1\u003C\u002Fsup> Anima Anandkumar\u003Csup>3,4\u003C\u002Fsup> Yuke Zhu\u003Csup>3,6‡\u003C\u002Fsup> Linxi Fan\u003Csup>3‡\u003C\u002Fsup>\u003Cbr>\n\n* [**SQA3D：三维场景中的情境问答**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.07474.pdf) [**ICLR 2023**] [[**项目页面**](https:\u002F\u002Fsqa3d.github.io\u002F)] [[**幻灯片**](http:\u002F\u002Fweb.cs.ucla.edu\u002F~xm\u002Ffile\u002Fsqa3d_iclr23_slides.pdf)] [[**Github**](https:\u002F\u002Fgithub.com\u002FSilongYong\u002FSQA3D)]\u003Cbr> \nXiaojian Ma\u003Csup>2\u003C\u002Fsup> Silong Yong\u003Csup>1,3*\u003C\u002Fsup> Zilong Zheng\u003Csup>1\u003C\u002Fsup> Qing Li\u003Csup>1\u003C\u002Fsup> Yitao Liang\u003Csup>1,4\u003C\u002Fsup> Song-Chun Zhu\u003Csup>1,2,3,4\u003C\u002Fsup> Siyuan Huang\u003Csup>1\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>北京通用人工智能研究院（BIGAI） \u003Csup>2\u003C\u002Fsup>加州大学洛杉矶分校 \u003Csup>3\u003C\u002Fsup>清华大学 \u003Csup>4\u003C\u002Fsup>北京大学\n\n* [**IQA：交互式环境中的视觉问答**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FGordon_IQA_Visual_Question_CVPR_2018_paper.pdf) [**CVPR 2018**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fdanielgordon10\u002Fthor-iqa-cvpr-2018)] [[**演示视频（YouTube）**](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=pXd3C-1jr98&feature=youtu.be)]\u003Cbr>\nDanie\u003Csup>1\u003C\u002Fsup> Gordon1 Aniruddha Kembhavi\u003Csup>2\u003C\u002Fsup> Mohammad Rastegari\u003Csup>2,4\u003C\u002Fsup> Joseph Redmon\u003Csup>1\u003C\u002Fsup> Dieter Fox\u003Csup>1,3\u003C\u002Fsup> Ali Farhadi\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>华盛顿大学保罗·G·艾伦计算机科学学院 \u003Csup>2\u003C\u002Fsup>艾伦人工智能研究所 \u003Csup>3\u003C\u002Fsup>Nvidia \u003Csup>4\u003C\u002Fsup>Xnor.ai\n\n* [**Env-QA：用于全面理解动态环境的视频问答基准**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FGao_Env-QA_A_Video_Question_Answering_Benchmark_for_Comprehensive_Understanding_of_ICCV_2021_paper.pdf) [**ICCV 2021**] [[**项目页面**](https:\u002F\u002Fenvqa.github.io\u002F#Overview)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fmaybelu9\u002Fenv-qa)]\u003Cbr>\nDifei Gao\u003Csup>1,2\u003C\u002Fsup>, Ruiping Wang\u003Csup>1,2,3\u003C\u002Fsup>, Ziyi Bai\u003Csup>1,2\u003C\u002Fsup>, Xilin Chen\u003Csup>1\u003C\u002Fsup>, \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，\n\u003Csup>2\u003C\u002Fsup>中国科学院大学， \u003Csup>3\u003C\u002Fsup>北京人工智能研究院\n\n> ### 模拟器\n* [**LEGENT：具身智能体开放平台**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.18243) [**ACL 2024**] [[**项目页面**](https:\u002F\u002Fdocs.legent.ai\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FLEGENT)]\u003Cbr>\n清华大学\u003Cbr>\n\n* [**AI2-THOR：用于视觉人工智能的交互式3D环境**](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.05474) [**arXiv 2022**] [[**项目页面**](http:\u002F\u002Fai2thor.allenai.org\u002F)] [[**Github**](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fai2thor)]\u003Cbr> \n艾伦人工智能研究所、华盛顿大学、斯坦福大学、卡内基梅隆大学\u003Cbr>\n\n* [**iGibson：大型真实场景中交互任务的仿真环境**](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9636667) [**IROS 2021**] [[**项目页面**](https:\u002F\u002Fsvl.stanford.edu\u002Figibson\u002F)] [[**Github**](https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002FStanfordVL\u002FiGibson\u002Freleases\u002Ftag\u002F1.0.0)]\u003Cbr> \nBokui Shen*, Fei Xia* 等人\u003Cbr>\n\n* [**Habitat：具身人工智能研究平台**](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FSavva_Habitat_A_Platform_for_Embodied_AI_Research_ICCV_2019_paper.pdf) [**ICCV 2019**] [[**项目页面**](https:\u002F\u002Faihabitat.org\u002F)] [[**Habitat-Sim**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-sim)] [[**Habitat-Lab**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-lab)] [[**Habitat挑战赛**](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhabitat-challenge)]\u003Cbr> \nFacebook AI Research、Facebook Reality Labs、佐治亚理工学院、西蒙弗雷泽大学、英特尔实验室、加州大学伯克利分校\u003Cbr>\n\n* [**Habitat 2.0：训练家庭助手重新整理其居住环境**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.14405) [**NeurIPS 2021**] [[**项目页面**](https:\u002F\u002Fresearch.facebook.com\u002Fpublications\u002Fhabitat-2-0-training-home-assistants-to-rearrange-their-habitat\u002F#:~:text=Habitat%202.0%3A%20Training%20Home%20Assistants%20to%20Rearrange%20their,AI%20stack%20%E2%80%93%20data%2C%20simulation%2C%20and%20benchmark%20tasks.)]\u003Cbr> \nFacebook AI Research、佐治亚理工学院、英特尔研究、西蒙弗雷泽大学、加州大学伯克利分校\n\n> ### 其他\n\n* [**从简到繁提示法赋能大型语言模型进行复杂推理**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10625) [**ICLR 2023**] \u003Cbr>\n谷歌研究院，大脑团队\n\n* [**React：在语言模型中协同推理与行动**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03629.pdf) [**ICLR 2023**] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fysymyth\u002FReAct?style=social&label=代码+星标)](https:\u002F\u002Fgithub.com\u002Fysymyth\u002FReAct) \u003Cbr>\nShunyu Yao\u003Csup>1∗\u003C\u002Fsup>, Jeffrey Zhao\u003Csup>2\u003C\u002Fsup>, Dian Yu\u003Csup>2\u003C\u002Fsup>, Nan Du\u003Csup>2\u003C\u002Fsup>, Izhak Shafran\u003Csup>2\u003C\u002Fsup>, Karthik Narasimhan\u003Csup>1\u003C\u002Fsup>, Yuan Cao\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>普林斯顿大学计算机科学系 \u003Csup>2\u003C\u002Fsup>, 谷歌研究院，大脑团队\n\n* [**思维算法：增强大型语言模型中的思路探索**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.10379.pdf) [**arXiv 2023**] \u003Cbr>\n弗吉尼亚理工大学、微软\n\n* [**思维图谱：利用大型语言模型解决复杂问题**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09687.pdf) [**arXiv 2023**] \u003Cbr>\n苏黎世联邦理工学院、Cledar公司、华沙理工大学\n\n* [**思维树：利用大型语言模型进行审慎的问题解决**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10601.pdf) [**arXiv 2023**] \u003Cbr>\nShunyu Yao\u003Csup>1\u003C\u002Fsup>, Dian Yu\u003Csup>2\u003C\u002Fsup>, Jeffrey Zhao\u003Csup>2\u003C\u002Fsup>, Izhak Shafran\u003Csup>2\u003C\u002Fsup>, Thomas L. Griffiths\u003Csup>1\u003C\u002Fsup>, Yuan Cao\u003Csup>2\u003C\u002Fsup>, Karthik Narasimhan\u003Csup>1\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>普林斯顿大学， \u003Csup>2\u003C\u002Fsup>谷歌DeepMind\n\n* [**思维链提示在大型语言模型中激发推理能力**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.11903.pdf) [**NeurIPS 2022**] \u003Cbr>\nJason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma,\nBrian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou\u003Cbr>\n谷歌研究院，大脑团队\n\n* [**MINEDOJO：利用互联网规模知识构建开放式具身智能体**](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F74a67268c5cc5910f64938cac4526a90-Paper-Datasets_and_Benchmarks.pdf) [**NeurIPS 2022**] [[Github](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FMineDojo)] [![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FMineDojo\u002FMineDojo?style=social&label=Code+Stars)](https:\u002F\u002Fgithub.com\u002FMineDojo\u002FMineDojo) [[项目页面](https:\u002F\u002Fminedojo.org\u002F)] [[知识库](https:\u002F\u002Fminedojo.org\u002Fknowledge_base.html)] \u003Cbr>\nLinxi Fan\u003Csup>1\u003C\u002Fsup>\n, Guanzhi Wang\u003Csup>2∗\u003C\u002Fsup>\n, Yunfan Jiang\u003Csup>3*\u003C\u002Fsup>\n, Ajay Mandlekar\u003Csup>1\u003C\u002Fsup>\n, Yuncong Yang\u003Csup>4\u003C\u002Fsup>\n,\nHaoyi Zhu\u003Csup>5\u003C\u002Fsup>\n, Andrew Tang\u003Csup>4\u003C\u002Fsup>\n, De-An Huang\u003Csup>1\u003C\u002Fsup>\n, Yuke Zhu\u003Csup>1,6†\u003C\u002Fsup>\n, Anima Anandkumar\u003Csup>1,2†\u003C\u002Fsup>\u003Cbr>\n\u003Csup>1\u003C\u002Fsup>NVIDIA, \u003Csup>2\u003C\u002Fsup>加州理工学院, \u003Csup>3\u003C\u002Fsup>斯坦福大学, \u003Csup>4\u003C\u002Fsup>哥伦比亚大学, \u003Csup>5\u003C\u002Fsup>上海交通大学, \u003Csup>6\u003C\u002Fsup>德克萨斯大学奥斯汀分校\n\n* [**将互联网规模的视觉-语言模型蒸馏为具身智能体**](https:\u002F\u002Fopenreview.net\u002Fpdf?id=6vVkGnEpP7) [**ICML 2023**] \u003Cbr>\nTheodore Sumers\u003Csup>1∗\u003C\u002Fsup> Kenneth Marino\u003Csup>2\u003C\u002Fsup> Arun Ahuja\u003Csup>2\u003C\u002Fsup> Rob Fergus\u003Csup>2\u003C\u002Fsup> Ishita Dasgupta\u003Csup>2\u003C\u002Fsup> \u003Cbr>\n\n* [**LISA：基于大型语言模型的推理分割**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.00692.pdf) [**arXiv 2023**] [[**Github**](https:\u002F\u002Fgithub.com\u002Fdvlab-research\u002FLISA)] [[**Huggingface模型**](https:\u002F\u002Fhuggingface.co\u002Fxinlai)] [[**数据集**](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F125mewyg5Ao6tZ3ZdJ-1-E3n04LGVELqy?usp=sharing)] [[**在线演示**](http:\u002F\u002F103.170.5.190:7860\u002F)]     \nTXin Lai\u003Csup>1\u003C\u002Fsup> Zhuotao Tian\u003Csup>2\u003C\u002Fsup> Yukang Chen\u003Csup>1\u003C\u002Fsup> Yanwei Li\u003Csup>1\u003C\u002Fsup> Yuhui Yuan\u003Csup>3\u003C\u002Fsup> Shu Liu\u003Csup>2\u003C\u002Fsup> Jiaya Jia\u003Csup>1,2\u003C\u002Fsup> \u003Cbr>\n\u003Csup>1\u003C\u002Fsup>香港中文大学 \u003Csup>2\u003C\u002Fsup>SmartMore \u003Csup>3\u003C\u002Fsup>MSRA\u003Cbr>\n\n* [**元控制：用于异构机器人技能的自动模型基控制系统合成**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.11380) [**CoRL 2024**] [[**项目页面**](https:\u002F\u002Fmeta-control-paper.github.io\u002F)]\u003Cbr>\nTianhao Wei\u003Csup>1*\u003C\u002Fsup>, Liqian Ma\u003Csup>12*\u003C\u002Fsup>, Rui Chen\u003Csup>1\u003C\u002Fsup>, Weiye Zhao\u003Csup>1\u003C\u002Fsup>, Changliu Liu\u003Csup>1\u003C\u002Fsup>\n\u003Csup>*\u003C\u002Fsup>贡献相等 \u003Csup>1\u003C\u002Fsup>卡内基梅隆大学 \u003Csup>2\u003C\u002Fsup>清华大学\n\n\u003C!--## 星级历史\n\n[![星级历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_readme_a90ca3d6d22e.png)](https:\u002F\u002Fstar-history.com\u002F#zchoi\u002FAwesome-Embodied-Agent-with-LLMs&Date)-->\n\n\n> ### 致谢\n[1] 来自此[项目](https:\u002F\u002Fwww.physicalintelligence.company\u002Fblog\u002Fpi0)的视频演示 \u003Cbr>\n[2] 来自此[项目][https:\u002F\u002Frobotics-transformer-x.github.io\u002F)的图片\n\u003C!---\n[1] 来自此[仓库](https:\u002F\u002Fgithub.com\u002FPaitesanshi\u002FLLM-Agent-Survey\u002Ftree\u002Fmain)的趋势图。\u003Cbr>\n[2] 来自这篇论文的图表：[基于大型语言模型的智能体的兴起与潜力：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.07864.pdf)。\n--->","# Awesome-Embodied-Robotics-and-Agent 快速上手指南\n\n本项目是一个精选的“具身机器人与智能体（结合视觉 - 语言模型 VLMs 和大语言模型 LLMs）”研究列表，并非单一的可执行软件包。本指南将指导开发者如何获取该资源库，并快速运行其中代表性的开源模型（以 **OpenVLA** 为例）。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04) 或 macOS。\n*   **硬件要求**:\n    *   **GPU**: 建议配备 NVIDIA GPU (显存 ≥ 24GB 用于训练或大模型推理，≥ 16GB 可尝试量化版本)。\n    *   **CPU**: 多核处理器 (8 核以上推荐)。\n    *   **内存**: ≥ 32GB RAM。\n*   **前置依赖**:\n    *   Python 3.9 或更高版本。\n    *   Git。\n    *   CUDA Toolkit (版本需与 PyTorch 匹配，通常推荐 11.8 或 12.1)。\n    *   Conda 或 Mamba (推荐用于环境管理)。\n\n> **国内加速建议**:\n> *   使用清华源或中科大源配置 `pip` 和 `conda`，以加快依赖下载速度。\n> *   访问 Hugging Face 模型时，建议配置 `HF_ENDPOINT` 环境变量指向国内镜像。\n\n```bash\n# 配置 pip 国内源 (临时生效示例)\nexport PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 配置 Hugging Face 国内镜像\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n```\n\n## 安装步骤\n\n由于本项目是论文和代码的集合，以下步骤以克隆仓库并安装代表性项目 **OpenVLA** 的环境为例。\n\n### 1. 克隆项目仓库\n获取最新的研究列表和资源链接：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FYuZhaoshu\u002FAwesome-Embodied-Robotics-and-Agent.git\ncd Awesome-Embodied-Robotics-and-Agent\n```\n\n### 2. 创建并激活虚拟环境\n推荐使用 Conda 创建隔离环境：\n\n```bash\nconda create -n embodied-agent python=3.10 -y\nconda activate embodied-agent\n```\n\n### 3. 安装代表性模型 (以 OpenVLA 为例)\nOpenVLA 是一个开源的视觉 - 语言 - 动作模型，适合作为入门实践。\n\n```bash\n# 克隆 OpenVLA 官方仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla.git\ncd openvla\n\n# 安装核心依赖 (建议使用国内源加速)\npip install -e . --extra-index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装额外的训练\u002F推理依赖\npip install wandb tensorboard imageio av\n```\n\n> **注意**: 如果您想尝试列表中其他模型（如 $\\pi_0$, RT-2, MetaGPT 等），请访问仓库中对应的 `Methods` 章节，点击各项目的 `[Github]` 链接，遵循其独立的 `README` 进行安装。\n\n## 基本使用\n\n以下示例展示如何加载预训练的 OpenVLA 模型并进行简单的推理（模拟机器人动作预测）。\n\n### 1. 下载预训练模型\n首次运行时，脚本会自动从 Hugging Face 下载模型权重。若网络受限，请提前手动下载并放置到本地目录。\n\n### 2. 运行推理示例\n创建一个名为 `run_inference.py` 的文件，或直接使用官方提供的示例脚本：\n\n```python\nimport torch\nfrom openvla import OpenVLA\n\n# 加载预训练模型 (自动利用 HF_ENDPOINT 环境变量)\nmodel = OpenVLA.load_pretrained(\n    \"openvla\u002Fopenvla-7b\", \n    load_in_4bit=True  # 显存有限时开启 4-bit 量化\n)\n\n# 准备输入数据 (示例：图像张量和语言指令)\n# 实际使用中需替换为真实的摄像头图像和任务指令\ndummy_image = torch.rand(1, 3, 224, 224).cuda()\ninstruction = \"pick up the red block\"\n\n# 将模型移至 GPU\nmodel = model.cuda()\n\n# 执行推理，预测动作\nwith torch.inference_mode():\n    action = model.predict_action(dummy_image, instruction)\n\nprint(f\"Predicted Action: {action}\")\n```\n\n### 3. 运行脚本\n在终端执行：\n\n```bash\npython run_inference.py\n```\n\n若成功，您将看到模型输出的动作向量（通常包含机械臂的位移、旋转及夹爪开合状态）。\n\n---\n**提示**: 本仓库持续更新，更多前沿模型（如 $\\pi_0.5$, D2E 等）的使用方式请参考仓库内对应论文的 `Project Page` 或 `Github` 链接获取最新文档。","某高校具身智能实验室的研究团队正致力于开发一款能理解自然语言指令并执行复杂家务操作的机器人，急需整合视觉 - 语言 - 动作（VLA）模型与多智能体协作技术。\n\n### 没有 Awesome-Embodied-Robotics-and-Agent 时\n- **文献检索效率低下**：研究人员需在 arXiv、GitHub 和各大会议网站间手动穿梭，耗费数周才能拼凑出关于\"Self-Evolving Agents\"或\"Efficient VLA\"的零散论文，极易遗漏如 ICLR 2024 获奖论文等关键成果。\n- **技术选型盲目试错**：面对层出不穷的新框架（如 π-0.5 或 Mobile-Agent-v2），团队缺乏系统性的对比视角，往往花费大量时间复现过时或不适合物理系统的模型，导致项目进度严重滞后。\n- **前沿动态感知滞后**：由于缺乏统一的更新源，团队难以及时获取如\"CRADLE 在游戏中的智能体应用”或最新的多智能体协同导航方案，导致研究思路局限于旧有范式，创新性不足。\n- **基准测试标准混乱**：在评估机器人性能时，找不到权威且最新的 Benchmark 列表，不同组员使用不同的评测数据集，导致实验结果无法横向对比，验证周期被无限拉长。\n\n### 使用 Awesome-Embodied-Robotics-and-Agent 后\n- **一站式资源聚合**：团队直接利用该仓库分类清晰的目录（如 Vision-Language-Action Model、Simulator），几分钟内即可锁定 2025 年最新的高效 VLA 综述及相关代码库，文献调研时间缩短 80%。\n- **精准技术落地**：通过查看仓库中关于 π-0.5 轻量化框架和 Mobile-Agent-v2 的具体介绍，团队迅速确定了适合嵌入式设备的感知控制方案，避免了在非模块化架构上的无效投入。\n- **实时追踪前沿突破**：订阅仓库更新后，团队第一时间掌握了代理自进化（Self-Evolution）和多智能体协作的最新进展，迅速将\"Learning Interactive Real-World Simulators\"的思路引入仿真训练，显著提升了算法泛化能力。\n- **统一评测体系**：依据仓库推荐的 Benchmark 和 Simulator 列表，团队建立了标准化的评估流程，确保了实验数据的可比性，加速了从仿真到真机部署的迭代闭环。\n\nAwesome-Embodied-Robotics-and-Agent 将原本分散杂乱的具身智能研究资源转化为结构化的知识图谱，成为研发团队加速技术落地与创新的核心引擎。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzchoi_Awesome-Embodied-Robotics-and-Agent_08abe485.png","zchoi","Haonan Zhang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzchoi_fc26e6ac.jpg","Ph.D. student. Research Interests: LLM-Agents, Vision-Language.","UESTC | UniTn","Sichuan ⇌ Italy","zchiowal@gmail.com",null,"https:\u002F\u002Fzchoi.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fzchoi",1762,91,"2026-04-07T09:49:46","Apache-2.0",1,"","未说明",{"notes":90,"python":88,"dependencies":91},"该仓库是一个精选的论文和资源列表（Awesome List），而非一个可直接运行的单一软件工具。它汇集了多个独立的开源项目（如 OpenVLA, π0, Mobile-Agent 等），每个子项目都有各自独立的运行环境、依赖库和硬件需求。用户需根据列表中感兴趣的具体论文或项目，访问其提供的 GitHub 链接或项目主页以获取详细的安装和运行说明。",[],[35,13,93],"其他",[95,96,97,98,99,100,101,102,103],"embodied-agent","embodied-ai","scene-understanding","navigation","planning-algorithms","manipulator-robotics","awesome","agent","large-language-model","2026-03-27T02:49:30.150509","2026-04-08T07:45:49.248780",[],[]]