Embodied_AI_Paper_List

2k 139 非常简单 1 次阅读今天其他Agent

AI 解读由 AI 自动生成，仅供参考

Embodied_AI_Paper_List 是由中山大学 HCPLab 与鹏城实验室联合维护的具身智能（Embodied AI）领域论文与资源汇总库。该项目旨在解决具身智能研究方向分散、文献更新迅速导致研究者难以全面追踪前沿进展的痛点，通过系统化的整理，为社区提供一站式的知识导航。

资源库内容涵盖具身机器人、仿真模拟器、感知、交互、智能体架构以及虚实迁移等核心议题，并特别关注多模态大模型与世界模型在其中的应用。除了按时间顺序持续更新的精选论文列表外，项目还配套了发表在 IEEE/ASME Transactions on Mechatronics 上的综述文章，深入剖析了现有方法的范式、数据集及未来挑战。

该工具非常适合人工智能研究人员、高校师生以及从事智能机器人开发的工程师使用。无论是希望快速入门的新手，还是需要把握最新技术动态的资深专家，都能从中高效获取高质量参考文献和项目代码。其独特的亮点在于不仅提供清单，更通过专业的分类体系和定期的维护更新，帮助开发者理清从理论到落地的完整技术脉络，是探索具身通用智能不可或缺的参考指南。

使用场景

某高校机器人实验室的博士生正在撰写关于“具身智能感知与交互”的综述论文，并计划开发一套新的仿真训练框架。

没有 Embodied_AI_Paper_List 时

文献检索如大海捞针：需要在 arXiv、Google Scholar 等多个平台反复搜索关键词，难以区分哪些是核心综述，哪些是边缘研究，耗时数周仍担心遗漏重要成果。
技术脉络模糊不清：面对碎片化的论文，难以系统梳理从“具身感知”到“虚实迁移（Sim-to-Real）”的技术演进路线，导致论文逻辑架构搭建困难。
资源匹配效率低下：找到了算法论文却找不到对应的开源代码或专用数据集，甚至发现选用的仿真器已过时，严重拖慢实验复现进度。
前沿动态滞后：无法及时获取 2025-2026 年的最新突破（如多模态大模型在具身智能中的最新应用），导致研究起点落后于社区平均水平。

使用 Embodied_AI_Paper_List 后

一站式获取权威清单：直接查阅按时间排序的最新论文列表，快速锁定 IEEE/ASME Transactions 等顶刊收录的综述及 2025-2026 年的前沿工作，文献调研时间缩短 80%。
清晰构建知识图谱：依托工具中分类明确的四大核心板块（感知、交互、智能体、虚实迁移），迅速理清技术范式与局限性，高效完成论文大纲设计。
代码与数据无缝对接：通过关联的资源库直接定位到经过分类的优质项目、数据集和仿真器链接，实现了从理论阅读到实验复现的无缝衔接。
紧跟社区最新节奏：利用每周更新的机制，即时掌握多模态大模型与世界模型在具身智能领域的最新落地案例，确保研究内容始终处于行业最前沿。

Embodied_AI_Paper_List 将原本分散杂乱的科研信息整合为结构化的知识导航，极大提升了具身智能领域从理论研究到工程落地的全链路效率。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个论文列表和资源仓库（Paper List and Resource Repository），主要包含综述文章、数据集链接和模拟器介绍，并非可执行的软件代码库，因此没有特定的运行环境、依赖库或硬件需求。用户只需通过浏览器查看网页或使用 Git 克隆仓库即可使用。

python未说明

快速开始

具身人工智能论文列表与资源库

HCPLab
中山大学HCP实验室与鹏城实验室

我们非常感谢同行对本论文列表或综述提出的任何有益改进建议。请提交问题或发送邮件至liuy856@mail.sysu.edu.cn和chen867820261@gmail.com。感谢您的合作！我们也欢迎为本项目贡献代码！

Teaser

将网络空间与物理世界对齐：具身人工智能的全面综述，IEEE/ASME机电一体化汇刊 2025
刘洋, 陈伟星, 白永杰, 梁晓丹, 李冠斌, 高文, 林亮

🏠 关于

具身人工智能（Embodied AI）对于实现通用人工智能（AGI）至关重要，同时也是连接网络空间与物理世界的各类应用（如智能机电系统、智能制造等）的基础。近年来，多模态大模型（MLMs）和世界模型（WMs）凭借其卓越的感知、交互和推理能力，成为具身智能体的有前景架构，备受关注。在本综述中，我们全面探讨了具身人工智能领域的最新进展。首先，我们梳理了具身机器人和仿真平台的代表性研究成果，以深入理解当前的研究重点及其局限性。随后，我们从四个主要研究方向展开分析：1）具身感知，2）具身交互，3）具身智能体，以及4）模拟到现实的迁移，涵盖了最先进的方法、关键范式和丰富的数据集。此外，我们还探讨了多模态大模型在虚拟和真实具身智能体中的复杂性，强调其在数字与物理环境中促进交互的重要意义。最后，我们总结了具身人工智能面临的挑战与局限，并讨论了未来的发展方向。希望本综述能为研究社区提供基础性参考。

:collision: 更新日志

[2026.03.11] 更新论文列表，新增2025-2026年各领域最新论文！
[2025.05.27] 我们的具身人工智能综述论文已被IEEE/ASME机电一体化汇刊接收！
[2024.09.08] 数据集部分持续更新中！
[2024.08.31] 新增数据集板块，并对相关项目进行了分类！
[2024.08.19] 为帮助读者聚焦最新成果，我们已按时间顺序排列论文！
[2024.08.02] 我们每周定期更新项目内容！
[2024.07.29] 项目已完成更新！
[2024.07.22] 更新了论文列表及其他具身相关有用项目！
[2024.07.10] 发布具身人工智能综述的首个版本PDF！
[2024.07.10] 发布具身人工智能论文列表的首个版本。本页面将持续更新！

书籍与综述 🔝

自我进化具身智能, arXiv:2602.04411, 2026
冯通通、王欣、朱文武。
[论文]
迈向鲁棒且安全的具身智能：漏洞与攻击的综述, arXiv:2502.13175, 2025
邢文鹏、李明浩、李摩根、韩萌。
[论文]
从屏幕到场景：医疗领域具身智能的综述, arXiv:2501.07468, 2025
刘一浩、曹旭、陈婷婷、蒋燕凯、游俊杰、吴明华、王小松、冯梦玲、金耀初、陈金泰。
[论文]
室内具身智能中的语义地图构建——综述, arXiv:2501.05750, 2025
索尼亚·雷乔杜里、安吉尔·X·张。
[论文]
具身智能世界模型的全面综述, arXiv:2510.16732, 2025
李新青、何鑫、张乐、吴敏、李晓丽、刘云。
[论文]
机器人操作中的生成式人工智能：综述, arXiv:2503.03464, 2025
张坤、云鹏、岑军、蔡俊豪、朱迪迪、袁航杰、赵超、冯涛、王迈克尔宇、陈启峰、潘佳、张伟、杨博、陈华。
[论文]
通过模仿学习实现灵巧操作：综述, arXiv:2504.03515, 2025
安山、孟子宇、唐超、周雨宁、刘腾宇、丁方强、张淑芳、穆瑶、宋冉、张伟、侯增光、张宏。
[论文]
人形机器人与人形人工智能：回顾、展望与方向, arXiv:2405.15775, 2025
曹龙兵。
[论文]
具身智能时代下基于物理模拟器的机器人导航与操作综述, arXiv:2505.01458, 2025
黄力恒、康雪阳、白凯欣、张建伟。
[论文]
多模态大模型：通用人工智能的新范式, 电子工业出版社, 2024
刘洋、林亮
[页面]
将网络空间与物理世界对齐：具身智能的全面综述, arXiv:2407.06886, 2024
刘洋、陈卫星、白永杰、李冠斌、高文、林亮。
[论文]
一个机器人解决所有问题：面向多功能通用具身智能体的新标准与统一数据集, arXiv:2408.10899, 2024
王志强、郑浩、聂云霜、徐文俊、王庆伟、叶华、李哲、张凯东、程学文、董万喜、蔡昌、林亮、郑峰、梁晓丹
[论文][项目]
基于AI基础模型时代的具身智能，助力未来智能制造, IEEE/ASME机电一体化汇刊, 2024
任磊、董家宝、刘帅、张琳、王立辉。
[论文]
以物体为中心的机器人操作中具身学习的综述, arXiv:2408.11537, 2024
郑英、姚雷、苏月娇、张毅、王毅、赵思成、张怡怡、周立辉
[论文]
人形机器人遥操作：综述, IEEE机器人学汇刊, 2024
达维什·库鲁什、彭科·路易吉、拉莫斯·若昂、西斯内罗斯·拉斐尔、普拉特·杰里、吉田荣一、伊瓦尔迪·塞雷娜、普奇·达尼埃莱。
[论文]
具身智能中视觉-语言-动作模型的综述, arXiv:2405.14093, 2024
马跃恩、宋子兴、庄宇正、郝建业、金尔温
[论文]
从互联网视频中学习通用机器人：综述, arXiv:2404.19664, 2024
麦卡锡、罗伯特、陈丹尼尔、施密特·多米尼克、阿塞罗·费尔南多、赫尔·内森、杜一伦、瑟尔斯·托马斯·G、李志斌。
[论文]
基于基础模型的机器人技术：迈向具身智能, arXiv:2402.02385, 2024
许志远、吴坤、温俊杰、李金明、刘宁、车正平、唐健。
[论文]
借助基础模型实现通用机器人：综述与元分析, Machines, 2023
胡亚飞、谢泉亭、贾因·维迪、弗朗西斯·乔纳森、帕特里卡尔·杰伊、基塔·尼希尔、金承灿、谢雅琪、张天一、赵世博、崇于权、王晨、西卡拉·卡蒂娅、约翰逊-罗伯森·马修、巴特拉·德鲁夫、王小龙、舍勒·塞巴斯蒂安、基拉·佐尔特、夏菲·费伊、比斯克·约纳坦。
[论文]
护理场景中的可变形物体操作：综述, Machines, 2023
王利民、朱继红。
[[论文]https://www.mdpi.com/2075-1702/11/11/1013]
具身智能综述：从模拟器到研究任务, IEEE新兴计算智能主题汇刊, 2022
段嘉飞、余山森、谭慧莉、朱洪源、谭切斯顿
[论文]
具身认知的发展：来自婴儿的六个启示, Artificial life, 2005
史密斯·琳达、加瑟·迈克尔
[论文]
具身人工智能：趋势与挑战, 计算机科学讲义, 2004
罗尔夫·普菲弗、井田文弥
[论文]

具身模拟器 🔝

通用仿真器

Gazebo：开源多机器人仿真器的设计与使用范式, IROS, 2004
科尼格，内森；安德鲁，霍华德。
[页面]
NVIDIA Isaac Sim：机器人仿真与合成数据生成平台, NVIDIA, 2023
[页面]
Aerial Gym——面向空中机器人的Isaac Gym仿真器, ArXiv, 2023
米希尔·库尔卡尼、西奥多·J·L·福加德、科斯塔斯·阿莱克西斯。
[论文]
Webots：开源机器人仿真器, 2018
赛博机器人公司
[页面, 代码]
Unity：面向智能体的通用平台, ArXiv, 2020
朱利亚尼，阿瑟；文森特-皮埃尔，贝尔热；埃尔文，滕；安德鲁，科恩；乔纳森，哈珀；克里斯，埃利昂；袁，戈伊；亨特，亨利；马尔万，马塔尔；丹尼，兰格。
[页面]
AirSim：面向自动驾驶车辆的高保真视觉与物理仿真系统, 场地与服务机器人, 2017
希塔尔·沙赫、德巴迪普塔·戴、克里斯·洛维特、阿希什·卡普尔。
[页面]
PyBullet：用于游戏、机器人和机器学习的物理仿真Python模块, 2016
库曼斯，埃尔温；白云飞。
[页面]
V-REP：多功能且可扩展的机器人仿真框架, IROS, 2013
罗默，埃里克；苏里亚·PN；辛格，马克；弗里斯。
[页面]
MuJoCo：基于模型控制的物理引擎, IROS, 2012
托多罗夫，伊曼纽尔；汤姆，埃雷兹；尤瓦尔，塔萨。
[页面, 代码]
模块化开源机器人仿真引擎：Morse, ICRA, 2011
埃切韦里亚，吉尔伯托；拉萨贝，尼古拉斯；德格鲁特，阿尔诺；勒梅尼昂，塞韦林
[页面]

基于真实场景的仿真器

RoboVerse：迈向可扩展且通用的机器人学习统一平台、数据集与基准测试，arXiv，2025年
耿浩然、王飞石、魏松林、李宇阳、王邦俊、安博世、程天悦、娄浩哲、李沛昊、王延杰、梁宇彤、戈廷·迪伦、徐超毅、陈浩哲、钱宇曦、耿怡然、毛家庚、万维康、张明通、吕江然、赵思恒、张嘉钊、张佳亮、赵成阳、陆浩然、丁宇飞、龚冉、王雨然、匡宇轩、吴瑞海、贾宝雄、卡洛·斯费拉扎、董浩、黄思远、王岳、马利克·吉滕德拉、皮特·阿贝尔。
[页面]
Isaac Lab：用于多模态机器人学习的GPU加速仿真框架，arXiv，2025年
米扬克·米塔尔、帕斯卡尔·罗斯、詹姆斯·蒂格、安托万·理查德、张奥克提、杜彼得、安东尼奥·塞拉诺-穆尼奥斯、姚新杰、勒内·祖尔布吕格、鲁丁·尼基塔、瓦夫日尼亚克·卢卡什、拉赫沙·米拉德、丹兹勒·阿兰、海登·埃里克、博罗维茨卡·阿莱斯、艾哈迈德·奥萨马、阿基诺拉·伊雷蒂亚约、安瓦尔·阿布拉尔、卡尔森·马克·T、冯·季元、加格·阿尼梅什。
[页面]
InfiniteWorld：用于通用视觉-语言机器人交互的统一可扩展仿真框架，arXiv，2024年
任鹏振、李敏、罗震、宋新帅、陈子威、刘福伟嘉、杨一轩、郑浩、许荣涛、黄子桐、丁同生、谢路洋、张凯东、傅昌飞、刘洋、林亮、郑峰、梁晓丹。
[页面]
ManiSkill3：面向通用具身AI的GPU并行化机器人仿真与渲染，arXiv，2024年
陶石头、向凡博、舒克拉·阿斯、秦宇哲、欣德里希森·赞德、袁晓迪、鲍晨、林信松、刘玉林、陈泽凯、高源、李玄林、穆通州、肖楠、古尔哈·阿尔纳夫、黄志傲、卡拉德拉·罗伯托、陈锐、罗珊、苏浩。
[页面]
PhyScene：面向具身AI的物理可交互3D场景合成，arXiv，2024年
杨、严丹、贾宝雄、支培源、黄思远。
[页面]
Holodeck：语言引导生成3D具身AI环境，CVPR，2024年
杨月、孙凡云、魏斯·卢卡、范德比尔特·伊利、埃拉瓦罗·埃拉斯特里、韩温森、吴嘉俊、哈伯·尼克、克里希纳·兰杰、刘凌洁、卡利森-伯奇·克里斯、雅茨卡尔·马克、坎巴维·阿尼鲁达、克拉克·克里斯托弗。
[页面]
RoboGen：通过生成式仿真释放无限数据以实现自动化机器人学习，arXiv，2023年
王宇飞、周贤、冯辰、王存萱、王义安、王卡特琳娜、弗拉基亚达基·扎科里、埃里克森·大卫、赫尔德·庄、甘。
[页面]
ProcTHOR：基于程序化生成的大规模具身AI，NeurIPS，2022年
代特克、范德比尔特、埃拉斯特里、魏斯、萨尔瓦多、埃赫萨尼、韩、科尔夫、法哈迪、坎巴维、莫塔吉。
[页面]
ThreeDWorld：用于交互式多模态物理仿真的平台，NeurIPS，2021年
甘·庄、J、施瓦茨·塞思、阿尔特·马丁、施林普夫·詹姆斯、特雷尔·朱利安德、弗雷塔斯·乔纳斯、库比利乌斯·阿比舍克、班德瓦尔德·尼克、哈伯·梅古米、佐野·久野、金·伊利亚斯、王·达米安、姆罗卡·迈克尔、林格尔巴赫·艾丹、柯蒂斯·凯文T、费格尔里斯·戴维M、贝尔·丹、古特弗伦德·戴维D、考克斯·詹姆斯J、迪卡洛·乔什H、麦克德莫特·乔舒亚B、特南鲍姆·丹尼尔、亚马津。
[页面]
iGibson 1.0：大型真实场景中交互任务的仿真环境，IROS，2021年
沈博魁、费夏、程书、李罗伯托、马丁-马丁·林熙、范关智、王克劳迪娅、佩雷斯-达尔皮诺·夏马尔、布赫·桑贾娜、斯里瓦斯塔瓦·莱恩、查普米·米卡埃尔、查普米·肯特、韦尼奥·约西亚、王莉、费-费·西尔维奥、萨瓦雷斯。
[页面]
SAPIEN：基于部件的模拟交互环境，CVPR，2020年
向凡博、秦宇哲、莫凯春、李益宽、夏浩、朱方晨、刘明华、刘汉霄、蒋义夫、袁何、王李易、安吉尔X、张列奥尼达斯J、圭巴斯·郝、苏浩。
[页面]
Habitat：具身AI研究平台，ICCV，2019年
萨瓦·马诺利斯、阿比舍克·卡迪安、奥列克桑德尔·马克西梅茨、赵伊丽、维曼斯·埃里克、贾伊·布莱恩、刘弗拉德伦、科尔顿·吉滕德拉、马利克·黛薇、帕里克·德鲁夫、巴特拉。
[页面]
VirtualHome：通过程序模拟家庭活动，CVPR，2018年
普伊格·哈维尔、凯文·拉、马尔科·鲍本、李佳满、王珊雅、菲德勒·安东尼奥、托拉尔巴。
[页面]
Matterport3D：从室内环境中的RGB-D数据中学习，3DV，2017年
张·安吉尔、安吉拉·戴、托马斯·芬克豪瑟、马切伊·哈尔伯、马蒂亚斯·尼布纳、马诺利斯·萨瓦、宋·安迪、曾·印达、张。
[页面]
AI2-THOR：用于视觉AI的交互式3D环境，arXiv，2017年
科尔夫·埃里克、鲁兹贝·莫塔吉、丹尼尔·戈登、朱·阿比纳夫、古普塔·阿里、法哈迪。
[页面]

具身感知 🔝

主动视觉探索

迈向行走视觉：学习视觉驱动的主动视点选择，Arxiv，2025年。
库·朱伊尔*、崔大贤*、尹尚佑*、李Phillip Y.、成珉赫。
[论文]
ActiveGAMER：通过高效渲染进行主动高斯映射，CVPR，2025年。
陈丽燕、詹黄英、陈凯文、徐向宇、颜庆安、蔡长江、徐毅。
[论文]
ActiveGS：利用高斯泼溅进行主动场景重建，RA-L，2025年。
金立仁、钟兴光、潘岳、贝利·延斯、斯塔赫尼斯·西里尔、波波维奇·玛丽亚。
[论文]
RoboTracer：借助视觉-语言模型中的推理掌握空间追踪技术，应用于机器人领域，arxiv，2025年。
周恩深、池成、李一博、安景坤、张家源、荣善宇、韩毅、姬宇衡、刘孟珍、王鹏威、王中原、盛陆、张尚航。
[论文] [项目]
RoboRefer：面向机器人视觉-语言模型推理的空间指代，arXiv，2025年。
周恩深、安景坤、池成、韩毅、荣善宇、张驰、王鹏威、王中元、黄铁军、盛璐、张尚航。
[论文] [项目]
3DAffordSplat：基于3D高斯的高效 affordance 推理，arXiv，2025年。
魏泽明、林俊义、刘洋、陈伟星、罗静洲、李冠斌、林亮。
[论文] [项目]
代码即监控：面向反应式与前瞻式机器人故障检测的约束感知型视觉编程，CVPR，2025年。
周恩深、苏琪、池成、张志正、王中元、黄铁军、盛璐、王赫。
[论文] [项目]
SnapMem：基于快照的具身探索与推理用3D场景记忆，arXiv，2024年。
杨云聪、杨涵、周嘉晨、陈沛浩、张洪鑫、杜一伦、甘闯。
[页面]
AIR-Embodied：基于具身大型语言模型的高效主动3DGS交互与重建框架，arXiv，2024年。
齐正浩、袁圣海、刘芬、曹浩志、邓天辰、杨建飞、谢丽华。
[页面]
BEHAVIOR Vision Suite：通过仿真自定义数据集生成，CVPR，2024年。
葛云浩、唐艺禾、徐家树、杰姆·戈克曼、李承书、艾文思、本杰明·何塞·马丁内斯、阿尔曼·艾丁、莫娜·安瓦里、阿尤什·K·查克拉瓦蒂、余宏兴、约西亚·王、桑贾娜·斯里瓦斯塔瓦、莎伦·李、赵圣欣、洛朗·伊蒂、李云竹、罗伯托·马丁-马丁、刘淼、张鹏川、张若涵、李飞飞、吴佳俊。
[页面]
机器人焊接中多条焊缝的粗细结合检测，arXiv，2024年。
魏鹏坤、程硕、李大友、宋然、张一鹏、张伟。
[页面]
证据主动识别：智能且审慎的开放世界具身感知，CVPR，2024年。
范、雷、明福、梁、李云轩、华刚、吴英。
[页面]
SpatialBot：利用视觉语言模型实现精确的空间理解，arXiv，2024年。
蔡文晓、亚罗斯拉夫·波诺马连科、袁建豪、李小奇、杨万库、董浩、赵博。
[页面]
具身不确定性感知下的物体分割，IROS，2024年。
方晓琳、莱斯利·帕克·凯尔布林、托马斯·洛萨诺-佩雷斯。
[页面]
Point Transformer V3：更简单、更快、更强，CVPR，2024年。
吴晓阳、李江、彭帅、王志坚、刘希辉、刘宇、乔万里、欧阳彤、何恒爽、赵。
[页面]
PointMamba：用于点云分析的简单状态空间模型，arXiv，2024年。
梁定康、周新、周信宇、王兴奎、朱伟、许志康、邹晓青、叶翔、白。
[页面]
Point Could Mamba：基于状态空间模型的点云学习，arXiv，2024年。
张涛、李向泰、李浩波、袁顺平、季水成、严。
[页面]
Mamba3d：通过状态空间模型增强3D点云分析中的局部特征，arXiv，2024年。
韩旭、袁唐、赵轩宣、王贤志、李。
[页面]
Gs-slam：基于3D高斯泼溅的稠密视觉SLAM，CVPR，2024年。
严驰、屈德林、徐丹、王志刚、王东、王雪龙、李。
[页面]
GOReloc：基于图的物体级重定位技术，用于视觉SLAM，IEEE RAL，2024年。
王宇彤、蒋朝阳、陈谢源立。
[页面]
Embodiedscan：面向具身AI的整体多模态3D感知套件，CVPR，2024年。
王泰、夏涵、毛晨明、朱润森、徐瑞远、吕培森、李晓、陈文伟、张凯、陈天凡、薛以及其他。
[页面]
Neu-nbv：基于图像神经渲染中的不确定性估计进行下一个最佳视角规划，IROS，2023年。
金利仁、陈谢源立、朱利叶斯、鲁金、玛丽亚、波波维奇。
[页面]
具有在线适应性的离策略评估，用于机器人在复杂环境中的探索，IEEE机器人与自动化快报，2023年。
胡亚飞、耿俊义、陈、王约翰、凯勒、塞巴斯蒂安、舍雷尔。
[页面]
OVD-SLAM：一种适用于动态环境的在线视觉SLAM，IEEE传感器期刊，2023年。
何嘉明、李明睿、王阳阳、王鸿宇、王。
[页面]
跨异构机器人形态转移非视觉对象属性的隐式知识，ICRA，2023年。
塔蒂娅、吉安、乔纳森、弗朗西斯、季夫科、西纳波夫。
[页面]
Swin3d：用于3D室内场景理解的预训练Transformer骨干网络，arXiv，2023年。
杨宇奇、于晓、郭建宇、熊扬、刘浩、潘彭帅、王欣、童百宁、郭。
[页面]
Point Transformer v2：分组向量注意力与基于分区的池化，NeurIPS，2022年。
吴晓阳、易兴、老李、李江、刘希辉、赵恒爽。
[页面]
重新思考点云中的网络设计与局部几何：一个简单的残差MLP框架，arXiv，2022年。
马旭、秦灿、郝轩、游浩熙、冉云、傅。
[页面]
So-slam：带有尺度比例和对称纹理约束的语义物体SLAM。IEEE机器人与自动化快报第7卷第2期（2022年）：4008–4015页。
廖子威、胡宇彤、张家栋、张宪宇、齐晓宇、张伟、王。
[页面]
SG-SLAM：一种面向动态场景、融合语义与几何信息的实时RGB-D视觉SLAM，IEEE仪器与测量汇刊 72.（2022）：1–12。
程书宏，孙昌和，张世军，张典凡。
[页面]
点变换器，ICCV，2021年。赵恒爽，李江，贾亚，Philip HS，托尔，弗拉德伦，科尔顿。
[页面]
PointPillars：用于从点云中进行目标检测的快速编码器，CVPR，2019年。
朗·亚历克斯·H，索拉布·沃拉，霍尔格·凯撒，周鲁冰，杨炯，奥斯卡·贝伊博姆。
[页面]
4D时空卷积网络：明可夫斯基卷积神经网络，CVPR，2019年。
乔伊，克里斯托弗，具俊英，萨瓦雷斯，西尔维奥。
[页面]
Cubeslam：单目3D目标SLAM，IEEE T-RO 35. 4（2019）：925–938
杨世超，塞巴斯蒂安·舍雷尔。
[页面]
基于层次主题模型的目标关联用于语义SLAM，IEEE T-VCG 25. 11（2019）：3052–3062
张建华，桂孟平，王奇超，刘汝宇，徐盛勇，陈。
[页面]
DS-SLAM：面向动态环境的语义视觉SLAM，IROS，2018年
于超，刘祖鑫，刘新军，谢富贵，杨毅，魏琪，乔飞。
[页面]
DynaSLAM：动态场景中的跟踪、建图与修复，IEEE机器人与自动化快报 3. 4（2018）：4076–4083
贝斯科斯，贝尔塔，何塞·M，法西尔，哈维尔，西韦拉，何塞，内拉。
[页面]
Quadricslam：基于目标检测的双二次曲面作为面向对象SLAM中的地标，IEEE机器人与自动化快报 4. 1（2018）：1–8。
尼科尔森，拉克兰，米尔福德，迈克尔，桑德豪夫，尼科。
[页面]
利用子流形稀疏卷积网络进行3D语义分割，CVPR，2018年。
格雷厄姆，本杰明，恩格尔克，马丁，范德马滕，劳伦斯。
[页面]
学习环顾四周：为未知任务智能探索未知环境，CVPR，2018年。
贾亚拉曼，迪内什，格劳曼，克里斯汀。
[页面]
用于自动驾驶的多视角3D目标检测网络，CVPR，2017年。
陈晓志，马慧敏，万吉，李天，夏。
[页面]
从单幅深度图像进行语义场景补全，CVPR，2017年。
宋舒然，费舍尔，余，安迪，曾，安杰尔·X，张，马诺利斯，萨瓦，托马斯，芬克豪瑟。
[页面]
PointNet：用于3D分类与分割的点集深度学习，CVPR，2017年。
齐，查尔斯·R，苏，郝，莫，凯春，古伊巴斯，莱昂尼达斯·J。
[[页面](Pointnet: Deep learning on point sets for 3d classification and segmentation)]
PointNet++：在度量空间中对点集进行深度层次特征学习，NeurIPS，2017年。
齐，查尔斯·瑞仲泰，李，易，苏，郝，古伊巴斯，莱昂尼达斯·J。
[页面]
好奇的机器人：通过物理交互学习视觉表征，ECCV，2016年。
平托，勒雷尔，加迪，迪拉吉，韩元峰，朴永来，古普塔，阿比纳夫。
[页面]
用于3D形状识别的多视角卷积神经网络，ICCV，2015年。
苏，杭，马吉，苏布兰苏，卡洛格拉基斯，埃文杰洛斯，利アード-米勒，埃里克。
[页面]
Voxnet：用于实时目标识别的3D卷积神经网络，IROS，2015年。
马图拉纳，丹尼尔，舍雷尔，塞巴斯蒂安。
[页面]
ORB-SLAM：一种通用且精确的单目SLAM系统 IEEE T-RO 31. 5（2015）：1147–1163
穆尔-阿尔塔尔，劳尔，马丁内斯·何塞·玛丽亚，蒙蒂埃尔，胡安·D，塔尔多斯。
[页面]
LSD-SLAM：大规模直接单目SLAM，ECCV，2014年
恩格尔，雅各布，肖普斯，托马斯，克雷默斯，丹尼尔。
[页面]
Slam++：在目标级别实现的同时定位与建图，CVPR，2013年
萨拉斯-莫雷诺，雷纳托·F，理查德·A，纽科姆，豪克，斯特拉斯达特，保罗·HJ，凯利，安德鲁·J，戴维森。
[页面]
DTAM：实时密集跟踪与建图，ICCV，2011年
纽科姆，理查德·A，洛夫格罗夫，史蒂文·J，戴维森，安德鲁·J。
[页面]
MonoSLAM：实时单目SLAM，IEEE T-PAMI，2007年。
戴维森，安德鲁·J，里德，伊恩·D，莫尔顿，尼古拉斯·D，斯塔斯，奥利维埃。
[页面]
用于视觉辅助惯性导航的多状态约束卡尔曼滤波器，IROS，2007年
穆里基斯，阿纳斯塔西奥斯·I，鲁梅利奥蒂斯，斯特吉奥斯·I。
[页面]
用于小型AR工作空间的并行跟踪与建图，ISMAR，2007年
克莱因，乔治，穆雷，大卫。
[页面]

3D视觉感知与接地

ReasonGrounder：LVLM引导的层次化特征投射用于开放词汇3D视觉接地，CVPR，2025年
刘振阳，王一凯，郑思晓，潘彤颖，梁龙飞，傅延伟，薛向阳。
[页面]
ViGiL3D：一个用于3D视觉接地的多语言数据集，arXiv，2025年
王奥斯汀·T，龚泽明，张安杰尔·X。
[页面]
UAD：用于机器人操作泛化任务的无监督可供性蒸馏，ICRA，2025 唐一鹤、黄文龙、王英科、李成树、Roy Yuan、张若涵、吴嘉俊、李飞飞
[页面]
基于语言指令、视觉观测与交互的3D物体可供性对齐，arXiv，2025
朱赫、孔秋宇、徐克春、夏训龙、邓冰、叶洁平、熊荣、王岳
[页面]
3D-AffordanceLLM：利用大型语言模型实现3D世界中的开放词汇可供性检测，arXiv，2025
褚恒硕、邓翔、吕琪、陈晓阳、李银川、郝建业、聂立强
[页面]
SeqAfford：通过多模态大型语言模型进行序列化的3D可供性推理，CVPR，2025
王汉青、于春林、罗浩洋、俞静怡、史烨、王静雅
[页面]
GEAL：基于跨模态一致性的可泛化3D可供性学习，CVPR，2025
卢东岳、孔令东、黄天欣、李金熙
[页面]
GREAT：面向开放词汇3D物体可供性对齐的几何-意图协同推理，arXiv，2024
邵亚文、翟伟、杨宇航、罗洪晨、曹阳、查正军，CVPR，2025
[页面]
LASO：基于语言引导的3D物体可供性分割，CVPR，2024
李一聪、赵娜、肖俊斌、冯春、王翔、蔡特生
[页面]
SceneFun3D：3D场景中的细粒度功能与可供性理解，CVPR，2024
亚历山德罗斯·德利察斯、艾伊卡·塔克马兹、费德里科·汤巴里、罗伯特·萨姆纳、马克·波勒菲斯、弗朗西斯·恩格尔曼
[页面]
语言条件下的3D点云可供性-位姿检测，ICRA，2024
阮端、武明日、黄宝儒、武团文、张薇、黎银、武秀、黎北、阮英
[页面]
DSPNet：用于鲁棒3D问答的双目场景感知，CVPR，2025
罗景州、刘洋、陈伟星、李振、王耀威、李冠彬、林亮
[页面]项目
用于3D可供性对齐的2D不变可供性知识学习，arXiv，2024
高贤强、张平瑞、曲德林、王东、王志刚、丁岩、赵斌、李学龙
[页面]
EmbodiedSAM：实时在线分割任意3D物体，arXiv，2024
许修伟、陈黄兴、赵琳清、王子威、周杰、陆继文
[页面]
OpenScan：面向通用开放词汇3D场景理解的基准数据集，arXiv，2024
赵友军、林佳颖、叶书权、庞千石、劳仁森·W·H·
[页面]
LLMI3D：通过单张2D图像赋予大型语言模型3D感知能力，arXiv，2024
杨帆、赵思诚、张彦豪、陈浩翔、陈辉、唐文博、陆浩楠、徐鹏飞、杨振宇、韩俊功、丁贵光
[页面]
MMScan：具有分层语义标注的多模态3D场景数据集，arXiv，2024
吕睿远、王泰、林静丽、杨帅、毛晓涵、陈逸伦、徐润森、黄海峰、朱晨明、林大华、庞江淼
[页面]
ShapeLLM：面向具身交互的通用3D对象理解模型，arXiv，2024
戚泽坤、董润培、张绍晨、耿浩然、韩春锐、葛政、王何、李毅、马凯胜
[页面]
LEO：3D世界中的具身通用智能体，ICML，2024
黄江勇、雍思龙、马晓健、凌虎雄坤、李普浩、王燕、李青、朱松纯、贾宝雄、黄思源
[页面]
SceneVerse：面向场景理解的3D视觉-语言学习规模化扩展，ECCV，2024
贾宝雄、陈艺心、于黄悦、王燕、牛雪松、刘腾宇、李青、黄思源
[页面]
PQ3D：通过可提示查询统一3D视觉-语言理解，ECCV，2024
朱子宇、张卓凡、马晓健、牛雪松、陈艺心、贾宝雄、邓志东、黄思源、李青
[页面]
MultiPLY：3D世界中以多感官为中心的具身大型语言模型，CVPR，2024
洪宜宁、郑子硕、陈培浩、王依安、李俊彦、甘创
[页面]
MP5：基于主动感知的多模态开放式具身系统，应用于Minecraft，CVPR，2024
秦怡然、周恩深、刘启昌、尹振飞、盛路、张瑞茂、乔宇、邵晶
[页面]
MaskClustering：基于视图共识的掩码图聚类，用于开放词汇3D实例分割，CVPR，2024
严米、张家照、朱燕、王何
[页面]
TACO：可泛化双手工具-动作-物体理解的基准测试，CVPR，2024
刘云、杨浩林、司旭、刘玲、李子朋、张雨翔、刘业斌、李毅
[页面]
EDA：显式文本解耦与密集对齐技术在3D视觉对齐中的应用，CVPR，2023
吴、严敏、程、新华、张、仁瑞、程、泽森、张、健
[页面]
Affordpose：大规模手-物体交互数据集，包含基于可供性的手部姿态信息，ICCV，2023
简俊涛、刘秀萍、李曼怡、胡瑞珍、刘健
[页面]
基于图像中2D交互的3D物体可供性定位, ICCV, 2023
杨宇航、翟伟、罗洪晨、曹阳、罗杰波、查正军
[页面]
3d-vista：用于3D视觉与文本对齐的预训练Transformer模型, ICCV, 2023
朱子宇、马晓健、陈一欣、邓志东、黄思远、李青
[页面]
LeaF：用于4D点云序列理解的学习帧方法, ICCV, 2023
刘云泽、陈俊宇、张泽凯、易力
[页面]
SQA3D：3D场景中的情境化问答系统, ICLR, 2023
马晓健、雍思龙、郑子龙、李青、梁义涛、朱松纯、黄思远
[页面]
LLM-Grounder：以大型语言模型为代理的开放词汇3D视觉定位, arXiv, 2023
杨佳宁、陈旭伟、钱圣毅、马丹尼尔、艾英加尔马达万、福黑大卫F、蔡乔伊斯
[页面]
面向零样本开放词汇3D视觉定位的视觉编程, arXiv, 2023
袁志浩、任金科、冯春梅、赵恒爽、崔曙光、李震
[页面]
用于3D视觉定位的多视角Transformer模型, CVPR, 2022
黄世嘉、陈奕伦、贾佳亚、王立伟
[页面]
环顾四周并参照：用于3D视觉定位的2D合成语义知识蒸馏, CVPR, 2022
巴克尔埃斯拉姆、阿尔萨迪雅斯敏、埃尔霍赛尼穆罕默德
[页面]
3D-SPS：通过引用点渐进式选择实现单阶段3D视觉定位, CVPR, 2022
罗俊宇、傅家辉、孔祥昊、高辰、任海兵、沈浩、夏华夏、刘思
[页面]
自下而上、自上而下的检测Transformer模型，用于图像和点云中的语言定位, ECCV, 2022
贾因阿尤什、格卡纳西奥斯尼古拉斯、梅迪拉塔伊希塔、弗拉基亚达基卡特琳娜
[页面]
3d affordancenet：视觉物体可供性理解的基准测试, CVPR, 2021
邓盛恒、徐勋、吴超正、陈科、贾奎
[页面]
文本引导的图神经网络用于引用式3D实例分割, AAAI, 2021
黄品豪、李汉鸿、陈焕宗、刘廷禄
[页面]
InstanceRefer：通过实例多层次上下文引用实现点云上视觉定位的协同整体理解, ICCV, 2021
袁志浩、严旭、廖英红、张瑞茂、王晟、李震、崔曙光
[页面]
自由描述引导的3D视觉图网络用于点云中的物体定位, CVPR, 2021
冯明涛、李震、李琪、张亮、张向东、朱光明、张辉、王耀南、米安阿吉马尔
[页面]
SAT：用于3D视觉定位的2D语义辅助训练, CVPR, 2021
杨正元、张松阳、王立伟、罗杰波
[页面]
LanguageRefer：用于3D视觉定位的空间语言模型, CVPR, 2021
罗俊河、德辛格卡尔蒂克、法哈迪阿里、福克斯迪特尔
[页面]
3DVG-Transformer：用于点云上视觉定位的关系建模, ICCV, 2021
赵丽晨、蔡大刚、盛璐、许东
[页面]
TransRefer3D：面向细粒度3D视觉定位的实体与关系感知Transformer模型, CVPR, 2021
何代兰、赵宇生、罗俊宇、惠天睿、黄绍飞、张爱喜、刘思 [页面]
ScanRefer：利用自然语言在RGB-D扫描中进行3D物体定位, ECCV, 2020
陈大卫振宇、常安吉尔X、尼斯纳马蒂亚斯
[页面]
ReferIt3D：用于真实场景中细粒度3D物体识别的神经听者, ECCV, 2020
阿奇利奥普塔斯帕诺斯、阿卜杜勒雷赫姆艾哈迈德、夏菲、埃尔霍赛尼穆罕默德、圭巴斯莱昂尼达斯
[页面]

视觉语言导航

WMNav：将视觉-语言模型整合到世界模型中，用于目标物体导航, IROS, 2025.
聂杜君、郭贤达、段义群、张瑞俊、陈龙。
[论文]] [项目]
SmartWay：增强的航点预测与回溯功能，用于零样本视觉-语言导航, IROS, 2025.
石向宇、李泽锐、吕文琦、夏家通、达优布费拉斯、乔燕媛、吴琪。
[论文]
EmbodiedBench：面向视觉驱动具身智能体的多模态大型语言模型综合基准测试, arXiv, 2025.
杨锐、陈汉阳、张俊宇、赵马克、钱成、王康睿、王秦能、科里佩拉泰贾文卡特、莫瓦赫迪马尔齐耶、李曼玲、季恒、张欢、张彤。
[论文]] [项目]
MapNav：基于标注语义地图的新型记忆表示，用于基于VLM的视觉-语言导航, arXiv, 2025.
张凌峰、郝晓帅、徐钦文、张强、张新尧、王鹏威、张静、王忠源、张尚航、徐仁静。
[论文]
迈向长时程视觉-语言导航：平台、基准与方法, CVPR, 2025.
宋新帅、陈伟星、刘洋、陈维凯、李冠斌、林亮。
[页面]]项目
DivScene：基于多样化场景和物体的LVLMs目标导航基准测试，arxiv，2024年。
王兆伟、张洪明、方天庆、田晔、杨岳、马凯欣、潘晓曼、宋阳秋、于东。
[论文] [项目]
MapGPT：基于地图引导提示与自适应路径规划的视觉-语言导航，ACL，2024年。
陈嘉琪、林冰倩、徐然、柴振华、梁晓丹、黄冠义。
[页面]
NavCoT：通过学习解耦推理提升基于LLM的视觉-语言导航性能，ArXiv，2024年。
林冰倩、聂云霜、魏子明、陈嘉琪、马世魁、韩建华、许航、常晓军、梁晓丹。
[页面]
OMEGA：基于状态空间模型的高效遮挡感知式空地机器人动态环境导航，ArXiv，2024年。
王俊明、黄栋、关秀贤、孙泽凯、沈天翔、刘方明、崔鹤鸣。
[页面]
CoVLA：面向自动驾驶的综合视觉-语言-动作数据集，ArXiv，2024年。
荒井英久、三轮圭太、佐佐木健斗、山口优、渡边浩平、青木俊介、山本一成。
[页面]
FLAME：在城市环境中利用多模态LLM进行导航的学习，ArXiv，2024年。
徐云哲、潘怡媛、刘哲、王赫生。
[页面]
基于基础模型的连续视觉-语言导航中的可供性导向规划，ArXiv，2024年。
陈嘉琪、林冰倩、刘新民、梁晓丹、黄冠义。
[页面]
未知环境中的具身指令遵循，ArXiv，2024年。
吴、王、徐、陆、颜。
[页面]
DISCO：通过可微分场景语义与双层控制实现具身导航与交互，arxiv，2024年。
徐鑫宇、罗圣诚、杨延超、李永禄、陆策吾。
[页面]
NOLO：仅看一次即可导航，arxiv，2024年。
周博文、王江星、陆宗清。
[页面]
迈向具身导航通用模型的学习，CVPR，2024年。
郑铎、黄诗佳、赵琳、钟毅武、王立伟。
[页面]
在线视觉-语言导航中的快慢结合测试时适应 ICML，2024年。
高俊宇、姚璇、徐昌盛。
[页面]
行动前先讨论：通过多专家讨论实现视觉语言导航，ICRA，2024年。
龙、宇兴、小奇、李、文哲、蔡、浩、董。
[页面]
基于因果学习的视觉-语言导航，CVPR，2024年。
王柳依、陈启君。
[页面]
用于视觉-语言导航的体素化环境表示，CVPR，2024年。
刘睿、杨毅。
[页面]
利用神经辐射场进行连续视觉-语言导航的前瞻式探索，CVPR 2024。
王、子涵、向阳、李、家豪、杨、叶琪、刘、俊杰、胡、明、蒋、书强、蒋。 [页面]
通过像素引导的导航技能连接零样本目标导航与基础模型 ICRA，2024年。
蔡文哲、黄思远、程光然、龙宇兴、高鹏、孙昌寅以及董浩。
[页面]
OVER-NAV：借助开放词汇检测与结构化表示提升迭代式视觉-语言导航，CVPR，2024年。
赵干龙、李冠斌、陈维凯、俞益舟。
[页面]
RILA：用于零样本语义视听导航的反思与想象型语言代理，CVPR，2024年。
杨泽源、刘嘉庚、陈培浩、阿努普·切里安、蒂姆·K·马克斯、乔纳森·勒鲁、甘创。
[页面]
迈向具身导航通用模型的学习，CVPR，2024年。
郑铎、黄诗佳、赵琳、钟毅武、王立伟。
[页面]
基于因果学习的视觉-语言导航，CVPR，2024年。
王柳依、何宗涛、党荣浩、申孟娇、刘承举、陈启君。
[页面]
针对实例图像目标导航的实例感知探索-验证-开发，CVPR，2024年。
雷晓涵、王敏、周文刚、李莉、李厚强。
[页面]
Habitat合成场景数据集（HSSD-200）：对象目标导航中3D场景规模与真实感权衡的分析，CVPR，2024年。
穆库尔·卡纳、毛永森、姜瀚霄、哈雷什·桑杰、布伦南·沙克莱特、德鲁夫·巴特拉、亚历山大·克莱格、埃里克·昂德桑德、安吉尔·X·张、马诺利斯·萨瓦。
[页面]
SchurVINS：基于舒尔补的轻量级视觉惯性导航系统，CVPR，2024年。
范云飞、赵天宇、王贵东。
[页面]
SPOC：在仿真中模仿最短路径实现现实世界中的高效导航与操作，CVPR，2024年。
Kiana Ehsani、Tanmay Gupta、Rose Hendrix、Jordi Salvador、Luca Weihs、Kuo-Hao Zeng、Kunal Pratap Singh、Yejin Kim、Winson Han、Alvaro Herrasti、Ranjay Krishna、Dustin Schwenk、Eli VanderBilt、Aniruddha Kembhavi。
[页面]
用于视觉-语言导航的体素化环境表示，CVPR，2024年。
刘睿、王文冠、杨毅。
[页面]
GOAT-Bench：多模态终身导航基准测试，CVPR，2024年。
王小涵、刘岳虎、宋欣航、刘宇怡、张思贤、蒋书强。
[页面]
基于效果导向效用的交互式导航方法，CVPR，2024年。
王小涵、刘岳虎、宋欣航、刘宇怡、张思贤、蒋书强。
[页面]
先想象再行动：面向目标物体导航的自监督生成地图，CVPR，2024年。
张思贤、于新尧、宋欣航、王小涵、蒋书强。
[页面]
MemoNav：用于视觉导航的工作记忆模型，CVPR，2024年。
李洪鑫、王泽宇、杨旭、杨雨然、梅淑琪、张兆翔。
[页面]
基于价值引导扩散策略的偏观测下多功能导航，CVPR，2024年。
张耿宇、唐浩、严燕。
[页面]
利用神经辐射场进行前瞻探索的连续视觉-语言导航，CVPR，2024年。
王子涵、李向阳、杨嘉豪、刘叶琪、胡俊杰、江明、蒋书强。
[页面]
SPIN：同步感知、交互与导航，CVPR，2024年。
Shagun Uppal、Ananye Agarwal、熊浩宇、Kenneth Shaw、Deepak Pathak。
[页面]
通过大型模型实现视觉-语言导航中的可修正地标发现，TPAMI，2024年。
林冰倩、聂云霜、魏子明、朱毅、徐航、马世奎、刘建庄、梁晓丹。
[页面]
ETPNav：面向连续环境下的视觉-语言导航的演化式拓扑规划，IEEE T-PAMI，2024年。
安、董、韩青、王、王文冠、王尊、黄彦、何凯基、王亮。 [页面]
NaVid：基于视频的VLM为视觉-语言导航规划下一步行动，RSS，2024年。
张佳钊、王坤宇、许荣涛、周庚泽、洪一聪、方晓萌、吴奇、张志正、王赫。
[页面]
对话中的行进：用于远程具身指代表达的交互式提示，ICCV，2023年。
乔、闫元、袁凯、齐、郑、余、景、刘、齐、吴。
[页面]
用于交互式指令遵循的多级组合推理，AAAI，2023年。
Bhambri、Suvaansh、金炳辉、崔钟贤。
[页面]
通过在线视觉-语言地图实现真实世界的视觉和语言导航，ArXiv，2023年。
徐成光、阮孝德、克里斯托弗·阿马托、劳森·L·S·王。 [页面]
通过扰动感知对比学习实现抗偏差的智能体导航，TPAMI，2023年。
林冰倩、龙延鑫、朱毅、朱凤达、梁晓丹、叶启祥、林亮。
[页面]
找到你想要的：学习需求条件下的物体属性空间以支持需求驱动的导航，NIPS，2023年。
王晨、李武、董。
[页面]
HomeRobot：开放词汇的移动操作机器人，NIPS，2023年。
耶纳曼德拉、斯里拉姆、阿伦、拉马昌德兰、卡尔梅什、亚达夫、奥斯汀、王、穆库尔、坎纳、提奥菲尔、热韦特、杨宗炎、维迪、贾因、亚历山大威廉、克莱格、约翰、特纳、佐尔特、基拉、马诺利斯、萨瓦、安吉尔、张、德文德拉辛格、查普洛特、德鲁夫、巴特拉、鲁兹贝、莫塔吉、约纳坦、比斯克、克里斯、帕克斯顿。
[页面]
Behavior-1k：包含1,000项日常活动及真实感仿真的具身人工智能基准测试，机器人学习会议，2023年。
李承书、张若涵、王乔西亚、戈克门、斯里瓦斯塔瓦、马丁-马丁、王陈、莱文、凌格尔巴赫、孙以及其他。
[页面]
DialFRED：用于具身指令遵循的对话式智能体，arXiv，2022年。
高晓峰、高巧姿、龚冉、林戈文德、塔泰、高拉夫S.、苏卡特梅。
[页面]
HOP：面向视觉-语言导航的历史与顺序感知预训练，CVPR，2022年。
乔、闫元、齐、洪一聪、余、彭、王、齐、吴。
[页面]
弥合视觉-语言导航中离散与连续环境学习之间的差距，CVPR，2022年。
洪一聪、王尊、吴齐、史蒂芬·古尔德。
[页面]
FILM：使用模块化方法遵循语言指令，ICLR，2022年。
Min So Yeon、查普洛特、拉维库马尔、比斯克、萨拉胡丁诺夫。
[页面]
LM-Nav：基于大规模预训练语言、视觉和动作模型的机器人导航，机器人学习会议。2022年。
Dhruv Shah, , Blazej Osinski, Brian Ichter, Sergey Levine。
[页面]
SOON：基于图的探索的场景导向目标导航，CVPR，2021年。
Zhu, Fengda, Xiwen, Liang, Yi, Zhu, Qizhi, Yu, Xiaojun, Chang, Xiaodan, Liang。
[页面]
视觉-语言导航策略学习与适应，IEEE T-PAMI 43. 12(2021): 4205-4216。
Wang, Xin, Qiuyuan, Huang, Asli, Celikyilmaz, Jianfeng, Gao, Dinghan, Shen, Yuan-Fang, Wang, William Yang, Wang, Lei, Zhang。
[页面]
邻域视图增强的视觉与语言导航模型，MM，2021年。
An, Dong, Yuankai, Qi, Yan, Huang, Qi, Wu, Liang, Wang, Tieniu, Tan。
[页面]
超越导航图：连续环境中的视觉与语言导航，ECCV，2020年。
Krantz, Jacob 和 Wijmans, Erik 和 Majumdar, Arjun 和 Batra, Dhruv 和 Lee, Stefan。
[页面]
REVERIE：真实室内环境中的远程具身视觉指代表达，CVPR，2020年。
Qi, Yuankai, Qi, Wu, Peter, Anderson, Xin, Wang, William Yang, Wang, Chunhua, Shen, Anton, Hengel。
[页面]
ALFRED：面向日常任务的具身指令理解基准，CVPR，2020年。
Shridhar, Mohit, Jesse, Thomason, Daniel, Gordon, Yonatan, Bisk, Winson, Han, Roozbeh, Mottaghi, Luke, Zettlemoyer, Dieter, Fox。
[页面]
视觉与对话导航，机器人学习会议。2020年。
Thomason, Jesse, Michael, Murray, Maya, Cakmak, Luke, Zettlemoyer。
[页面]
用于智能体导航的语言与视觉实体关系图，NeurIPS，2020年。
Hong, Yicong, Cristian, Rodriguez, Yuankai, Qi, Qi, Wu, Stephen, Gould。
[页面]
基于跨模态接地与交替对抗学习的语言引导导航，IEEE T-CSVT 31. (2020): 3469-3481。
Weixia Zhang, , Chao Ma, Qi Wu, Xiaokang Yang。
[页面]
坚守路径：视觉与语言导航中的指令忠实性，ACL，2019年。
Jain, Vihan, Gabriel, Magalhaes, Alexander, Ku, Ashish, Vaswani, Eugene, Ie, Jason, Baldridge。
[页面]
TOUCHDOWN：视觉街道环境中的自然语言导航与空间推理，CVPR，2019年。
Chen, Howard, Alane, Suhr, Dipendra, Misra, Noah, Snavely, Yoav, Artzi。
[页面]
视觉与语言导航：在真实环境中解读具身导航指令，CVPR，2018年。
Anderson, Peter, Qi, Wu, Damien, Teney, Jake, Bruce, Mark, Johnson, Niko, Sunderhauf, Ian, Reid, Stephen, Gould, Anton, Hengel。
[页面]
三思而后行：为前瞻式视觉与语言导航架起无模型与基于模型强化学习的桥梁，ECCV，2018年。
Xin Eric Wang, , Wenhan Xiong, Hongmin Wang, William Yang Wang。
[页面]

非视觉感知：触觉

传感器无关触觉表征（SITR），ICLR，2025年。
Harsh Gupta, Yuchen Mo, Shengmiao Jin, Wenzhen Yuan。
[页面]
反应式扩散策略：面向接触密集型操作的慢速-快速视觉-触觉策略学习，RSS，2025年。
Han Xue, Jieji Ren, Wendi Chen, Gu Zhang, Yuan Fang, Guoying Gu, Huazhe Xu, Cewu Lu。
[页面]
3D-ViTac：利用视觉-触觉传感进行精细操作学习，CoRL，2024年。
Binghao Huang, Yixuan Wang, Xinyi Yang, Yiyue Luo, Yunzhu Li。
[页面]
TacSL：用于视觉-触觉传感器仿真与学习的库，IEEE TRO，2025年。
Iretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang。
[页面]
当视觉遇见触觉：从信号处理视角看视觉-触觉传感器的当代综述，Arxiv，2024年。
Li, Shoujie 和 Wang, Zihan 和 Wu, Changsheng 和 Li, Xiang 和 Luo, Shan 和 Fang, Bin 和 Sun, Fuchun 和 Zhang, Xiao-Ping 和 Ding, Wenbo。
[页面]
利用触觉传感提升手部物体的可泛化6D位姿跟踪，RA-L，2024年。
Yun Liu, Xiaomeng Xu, Weihang Chen, Haocheng Yuan, He Wang, Jing Xu, Rui Chen, Li Yi。
[页面]
用两只多指灵巧手学习视觉-触觉技能，ArXiv，2024年。
Lin, Toru 和 Zhang, Yu 和 Li, Qiyang 和 Qi, Haozhi 和 Yi, Brent 和 Levine, Sergey 和 Malik, Jitendra。
[页面]
将触觉融入一切：学习统一的多模态触觉表征，CVPR，2024年。
Yang, Fengyu 和 Feng, Chao 和 Chen, Ziyang 和 Park, Hyoungseob 和 Wang, Daniel 和 Dou, Yiming 和 Zeng, Ziyao 和 Chen, Xien 和 Gangopadhyay, Rit 和 Owens, Andrew 等人。
[页面]
受生物启发的传感器及其在智能机器人中的应用：综述，机器人智能与自动化，2024年。
Zhou, Yanmin 和 Yan, Zheng 和 Yang, Ye 和 Wang, Zhipeng 和 Lu, Ping 和 Yuan, Philip F 和 He, Bin。
[页面]
给我一个信号：使用数据手套进行静态手势识别，传感器，2023年。
Achenbach, Philipp 和 Laux, Sebastian 和 Purdack, Dennis 和 Müller, Philipp Niklas 和 Göbel, Stefan。
[页面]
语义感知的自适应知识蒸馏用于传感器到视觉的动作识别，IEEE图像处理汇刊，2021年。
Liu, Yang 和 Wang, Keze 和 Li, Guanbin 和 Lin, Liang。
[页面]
手部动作：触觉对象识别的窗口，认知心理学，1987年。
Lederman, Susan J 和 Klatzky, Roberta L。
[页面]
力与触觉传感，施普林格机器人学手册，2016年。
Cutkosky, Mark R 和 Howe, Robert D 和 Provancher, William R。
[页面]
触觉感知：教程, 注意力、知觉与心理物理学, 2009年.
莱德曼，苏珊·J 和克拉茨基，罗伯塔·L.
[页面]
基于压阻复合材料的柔性触觉传感：综述, 传感器, 2014年.
斯塔西，斯特凡诺和卡乌达，瓦伦蒂娜和卡纳韦塞，詹卡洛和皮里，坎迪多·法布里齐奥.
[页面]
灵巧机器人手中的触觉传感, 机器人与自主系统, 2015年.
卡帕索夫，扎纳特和科拉列斯，胡安-安东尼奥和佩尔德罗，韦罗尼克.
[页面]
GelLink：一种基于视觉的触觉感知与本体感觉的紧凑型多指节手指, arXiv, 2024年.
马，宇翔和阿德尔森，爱德华.
[页面]
用于多模态对齐的触觉、视觉和语言数据集, ArXiv, 2024年.
傅，乐天和达塔，高拉夫和黄，黄和帕尼奇，威廉·钟浩和德雷克，贾伊敏和奥尔蒂斯，约瑟夫和穆卡达姆，穆斯塔法和兰贝塔，迈克和卡兰德拉，罗伯托和戈德堡，肯.
[页面]
通过离散扩散进行大规模无动作视频预训练以实现高效策略学习, ArXiv, 2024年.
何，浩然和白，陈佳和潘，凌和张，维南和赵，彬和李，雪龙.
[页面]
Snap-it, Tap-it, Splat-it：面向复杂表面重建的触觉信息引导的3D高斯泼溅法, ArXiv, 2024年.
科米，毛罗和托尼奥尼，阿莱西奥和杨，麦克斯和特雷姆布莱，乔纳森和布卢基斯，瓦尔茨和林，易琼和列波拉，内森·F 和艾奇森，劳伦斯.
[页面]
触觉增强的辐射场, CVPR, 2024年.
Dou，Yiming 和 Yang，Fengyu 和 Liu，Yi 和 Loquercio，Antonio 和 Owens，Andrew.
[页面]
AnyRotate：具有Sim-to-Real触感的重力不变式手持物体旋转, ArXiv, 2024年.
杨，麦克斯和卢，成华和 Church，Alex 和林，易琼和 Ford，Chris 和李，浩然和 Psomopoulou，Efi 和 Barton，David AW 和 Lepora，Nathan F.
[页面]
用于机器人操作的触觉图像特征级Sim2Real回归, ICRA ViTac, 2024年.
段，博义和钱，坤和赵，永强和张，东元和罗，山.
[页面]
MAE4GM：利用多模态自编码器进行颗粒状物料属性估计的视觉-触觉学习,ICRA ViTac, 2024年.
张，泽青和郑，广泽和季，学博和陈，冠琪和贾，瑞星和陈，文涛和陈，冠华和张，梁俊和潘，嘉.
[页面]
Octopi：利用大型触觉-语言模型进行物体属性推理, arXiv预印本arXiv:2405.02794, 2024年.
Yu，Samson 和 Lin，Kelvin 和 Xiao，Anxing 和段，贾飞和 Soh，Harold.
[页面]
9dtact：一种紧凑型基于视觉的触觉传感器，用于精确的3D形状重建和可推广的6D力估计, IEEE机器人与自动化快报, 2023年.
林，昌毅和张，韩和许，继凯和吴，雷和许，华哲.
[页面]
Allsight：一种低成本、高分辨率的圆形触觉传感器，具备零样本学习能力, IEEE机器人与自动化快报, 2023年.
阿祖莱，奥舍和柯蒂斯，尼姆罗德和索科洛夫斯基，罗特姆和莱维茨基，盖伊和斯洛莫维克，丹尼尔和利林，盖伊和辛托夫，阿维沙伊.
[页面]
Vistac：迈向用于机器人操作的统一多模态感知手指, IEEE传感器期刊, 2023年.
阿塔尔，希拉兹和帕特尔，高拉夫和徐，正通和邱，强和谢，宇.
[页面]
Midastouch：跨滑动触摸分布的蒙特卡洛推理, CoRL, 2023年.
苏雷什，苏达尔尚和施，子琳和安德森，斯图尔特和凯斯，迈克和穆卡达姆，穆斯塔法.
[页面]
The objectfolder基准测试：结合神经网络与真实物体的多感官学习, CVPR, 2023年.
高，若涵和 Dou，Yiming 和李，浩和阿加瓦尔，坦迈和博格，珍妮特和李，云竹和费-费，李和吴，家俊. [页面]
Imagebind：一个嵌入空间，将一切绑定在一起, CVPR, 2023年.
吉尔达尔，罗希特和埃尔-努比，阿拉丁和刘，庄和辛格，曼纳特和阿尔瓦拉，卡利扬·瓦苏德夫和朱林，阿芒和米斯拉，伊桑.
[页面]
触摸神经场：利用神经辐射场生成触觉传感数据, 机器人学习会议, 第1618–1628页, 2023年.
钟，绍洪和阿尔比尼，亚历山德罗和琼斯，欧伊维·帕克和迈奥利诺，佩尔拉和波斯纳，英格玛.
[页面]
学习阅读盲文：利用扩散模型弥合触觉现实差距, ArXiv, 2023年.
伊圭拉，卡罗丽娜和布茨，拜伦和穆卡达姆，穆斯塔法.
[页面]
从触觉生成视觉场景, CVPR, 2023年.
杨，冯宇和张，家诚和奥文斯，安德鲁.
[页面]
Dtact：一种基于视觉的触觉传感器，可直接从黑暗中测量高分辨率的3D几何形状, ICRA, 2023年.
林，昌毅和林，子琪和王，绍雄和许，华哲.
[页面]
使用安装在手中的RGB相机和视觉触觉传感器进行手部姿态估计, IEEE Access, 2023年.
高，袁和松冈，祥吾和万，伟伟和清川，拓也和小山，圭介和原田，健介.
[页面]
利用多个基于视觉的触觉传感器进行碰撞感知的手部6D物体姿态估计, ICRA, 2023年.
卡代奥，加布里埃莱 M 和皮加，尼古拉 A 和博塔雷尔，法布里齐奥和纳塔莱，洛伦佐.
[页面]
基于视觉触觉传感的三维形状重建的隐式神经表示, ArXiv, 2023.
科米，毛罗；丘奇，亚历克斯；李克杰；艾奇森，劳伦斯；莱波拉，内森·F.
[页面]
多指手滑动触碰探索用于未知物体形状建模, IROS, 2023.
陈怡婷；泰克登，艾哈迈特·埃尔詹；戴森罗斯，马克·彼得；贝基罗格鲁，亚塞敏.
[页面]
结合视觉与触觉的通用手持物体旋转, CoRL, 2023.
齐浩志；易布伦特；苏雷什，苏达尔尚；兰贝塔，迈克；马毅；卡兰德拉，罗伯托；马利克，吉滕德拉.
[页面]
基于模型与无模型的触觉推动模拟到现实深度强化学习, IEEE机器人与自动化快报, 2023.
杨，麦克斯；林，义琼；丘奇，亚历克斯；劳埃德，约翰；张，丹丹；巴顿，大卫·AW；莱波拉，内森·F.
[页面]
用于触觉图像模拟到现实迁移的无监督对抗域适应, IEEE仪器与测量汇刊, 2023.
景，星硕；钱，坤；贾努，图多尔；罗珊.
[页面]
从不完全触觉数据中学习：基于掩码自编码器的触觉表征学习, IROS, 2023.
曹，关群；江，佳琪；博勒加拉，达努什卡；罗珊.
[页面]
触觉带来的灵巧性：通过机器人玩耍进行触觉表征的自监督预训练, ArXiv, 2023.
古泽伊，伊尔马克；埃文斯，本；钦塔拉，索米思；平托，莱雷尔.
[页面]
Gelslim 3.0：紧凑型触觉感知手指中的高分辨率形状、力和滑移测量, ICRA, 2022.
泰勒，伊恩·H；董，思远；罗德里格斯，阿尔贝托.
[页面]
Tacto：一款快速、灵活且开源的高分辨率基于视觉的触觉传感器仿真器, IEEE机器人与自动化快报, 2022.
王，绍雄；兰贝塔，迈克；周，柏伟；卡兰德拉，罗伯托.
[页面]
Taxim：一种基于示例的GelSight触觉传感器仿真模型, IEEE机器人与自动化快报, 2022.
司，子琳；袁，文珍.
[页面]
Objectfolder 2.0：用于模拟到现实迁移的多感官物体数据集, CVPR, 2022.
高，若涵；司，子琳；张，延宇；克拉克，塞缪尔；博格，珍妮特；费-费，李；袁，文珍；吴，嘉俊.
[页面]
自监督视觉-触觉预训练用于定位和跟随衣物特征, ArXiv, 2022.
克尔，贾斯汀；黄，黄；威尔科克斯，阿尔伯特；霍克，瑞安；伊赫诺夫斯基，杰弗里；卡兰德拉，罗伯托；戈德堡，肯.
[页面]
利用视觉和触觉传感器数据对手中物体进行视觉触觉6D位姿估计, IEEE机器人与自动化快报, 2022.
迪卡莱，斯内哈尔；帕特尔，卡兰库马尔；丁格拉，达克什；纳拉穆拉，伊托西；林，明信；伊巴，索希；贾马利，纳维德.
[页面]
Shapemap 3-D：通过密集触碰和视觉实现高效形状映射, ICRA, 2022.
苏雷什，苏达尔尚；司，子琳；曼格尔森，乔舒亚·G；袁，文珍；凯斯，迈克尔.
[页面]
Visuotactile-rl：利用深度强化学习学习多模态操作策略, ICRA, 2022.
汉森，约翰娜；霍根，弗朗索瓦；里夫金，德米特里；梅格，大卫；詹金，迈克尔；杜德克，格雷戈里.
[页面]
触觉健身房2.0：低成本高分辨率机器人触觉比较的模拟到现实深度强化学习, IEEE机器人与自动化快报, 2022.
林，义琼；劳埃德，约翰；丘奇，亚历克斯；莱波拉，内森·F.
[页面]
触碰即走：从人类收集的视觉和触觉数据中学习, ArXiv, 2022.
杨，冯宇；马，晨阳；张，家成；朱，静；袁，文珍；欧文斯，安德鲁.
[页面]
Objectfolder：一个包含隐式视觉、听觉和触觉表征的对象数据集, arXiv, 2021.
高，若涵；张，延宇；马尔，希瓦尼；李，费-费；吴，嘉俊.
[页面]
从自然语言监督中学习可迁移的视觉模型, 国际机器学习大会, 2021.
拉德福德，亚历克；金，钟旭；哈拉西，克里斯；拉梅什，阿迪蒂亚；戈，加布里埃尔；阿加瓦尔，桑迪尼；萨斯特里，吉里什；阿斯克尔，阿曼达；米什金，帕梅拉；克拉克，杰克等.
[页面]
GelSight楔形：用紧凑型机器人手指测量高分辨率3D接触几何形状, ICRA, 2021.
王，绍雄；谢，宇；罗梅罗，布兰登；阿德尔森，爱德华.
[页面]
利用几何接触渲染从首次触碰中进行触觉物体位姿估计, CoRL, 2021.
维利亚隆加，玛丽亚·鲍萨；罗德里格斯，阿尔贝托；林，布莱恩；瓦尔斯，埃里克；塞霍波洛斯，西奥.
[页面]
基于视觉和触觉的主动3D形状重建, NeurIPS, 2021.
史密斯，爱德华；梅格，大卫；皮内达，路易斯；卡兰德拉，罗伯托；马利克，吉滕德拉；罗梅罗·索里亚诺，阿德里亚娜；德罗兹达尔，米哈尔.
[页面]
为syntouch biotac解读和预测触觉信号, 国际机器人研究杂志, 2021.
纳朗，雅什拉杰·S；孙达拉林甘，巴拉库马尔；范·维克，卡尔；穆萨维安，阿尔萨兰；福克斯，迪特.
[页面]
GelTip：用于机器人操作的指状光学触觉传感器, IROS, 2020.
戈梅斯，丹尼尔·费尔南德斯；林，钟林；罗，珊.
[页面]
DIGIT：一种用于手持操作的低成本、紧凑型高分辨率触觉传感器的新设计，IEEE机器人与自动化快报，2020年。
兰贝塔、迈克，周柏玮，田斯蒂芬，杨布莱恩，马伦本杰明，莫斯维多利亚·罗斯，斯特劳德戴夫，桑托斯雷蒙德，比亚戈维艾哈迈德，卡默雷尔格雷格，贾亚拉曼迪内什，卡兰德拉罗伯托。
[页面]
Digit：一种用于手持操作的低成本、紧凑型高分辨率触觉传感器的新设计，IEEE机器人与自动化快报，2020年。
兰贝塔、迈克，周柏玮，田斯蒂芬，杨布莱恩，马伦本杰明，莫斯维多利亚·罗斯，斯特劳德戴夫，桑托斯雷蒙德，比亚戈维艾哈迈德，卡默雷尔格雷格等。
[页面]
深度触觉体验：基于深度传感器数据估计触觉传感器输出，IROS，2020年。
帕特尔、卡拉库马尔，伊巴、索西，贾马利、纳维德。
[页面]
基于视觉和触觉的3D形状重建，NeurIPS，2020年。
史密斯、爱德华，卡兰德拉、罗伯托，罗梅罗、阿德里亚娜，吉奥克萨里、乔治娅，梅格尔、大卫，马利克、吉滕德拉，德罗兹达尔、米哈尔。
[页面]
异构触觉传感数据上的监督自编码器联合学习：提升材料分类性能，IROS，2020年。
高瑞涵、陶尼亚佐夫、塔斯博拉特，林志平、吴燕。
[页面]
融合视觉与触觉：为接触密集型任务学习多模态表征，IEEE机器人学汇刊，2020年。
李、米歇尔A，朱、宇科，扎卡雷斯、彼得，谭、马修，斯里尼瓦桑、克里希南，萨瓦雷斯、西尔维奥，费-费、李，加格、阿尼梅什，博格、珍妮特。
[页面]
利用刚性触觉传感器阵列进行高效触觉形状探索的学习，PloS One，2020年。
弗勒、萨沙，莫林根、亚历山德拉，克拉茨基、罗伯塔L，里特、赫尔格。
[页面]
通过物理驱动与数据驱动相结合的框架解释和预测触觉信号，ArXiv，2020年。
纳朗、雅什拉杰S，范威克、卡尔，穆萨维安、阿尔萨兰，福克斯、迪特。
[页面]
利用触觉神经编码与脉冲神经网络实现快速纹理分类，IROS，2020年。
陶尼亚佐夫、塔斯博拉特，蔡、彦松，高瑞涵、吴燕。
[页面]
SynTouch BioTac传感器的仿真，智能自主系统15：第15届国际会议IAS-15论文集，2019年。
鲁佩尔、菲利普，约内茨科、扬尼克，格尔纳、米夏埃尔，亨德里希、诺尔曼，张、建伟。
[页面]
通过机器人交互稳健地学习触觉力估计，ICRA，2019年。
孙达拉林甘、巴拉库马尔，兰伯特、亚历山大·萨莎，汉达、安库尔，布茨、拜伦，赫尔曼斯、塔克，伯奇菲尔德、斯坦，拉特利夫、内森，福克斯、迪特。
[页面]
从像素到感知：利用深度学习和仿生光学触觉传感器实现高度鲁棒的边缘感知与轮廓跟踪，IEEE机器人与自动化快报，2019年。
莱波拉、内森F，丘奇、亚历克斯，德凯尔克霍夫、康拉德，哈德塞尔、赖娅，劳埃德、约翰。
[页面]
基于高分辨率触觉印迹的触觉映射与定位，ICRA，2019年。
鲍萨、玛丽亚，卡纳尔、奥列古尔，罗德里格斯、阿尔贝托。
[页面]
用于触觉传感特征提取的卷积自编码器，IEEE机器人与自动化快报，2019年。
波利克、马尔塞拉，克拉亚西奇、伊沃娜，莱波拉、内森，奥尔萨格、马特科。
[页面]
通过触摸识别物体实例：基于多模态匹配的触觉识别，ICRA，2019年。
林、贾斯汀，卡兰德拉、罗伯托，莱文、谢尔盖。
[页面]
Tactip系列：具有3D打印仿生形态的软体光学触觉传感器，软体机器人，2018年。
沃德-谢里耶、本杰明，佩斯泰尔、尼古拉斯，克拉姆霍恩、卢克，温斯顿、本杰明，吉安纳奇尼、玛丽亚·埃莱娜，罗西特、乔纳森，莱波拉、内森F。
[页面]
基于单目视觉、触觉及形状先验的3D形状感知，IROS，2018年。
王、绍雄，吴、嘉俊，孙、兴元，袁、文珍，弗里曼、威廉T，特南鲍姆、乔舒亚B，阿德尔森、爱德华H。
[页面]
GelSight：用于估计几何形状和作用力的高分辨率机器人触觉传感器，传感器，2017年。
袁、文珍，董、思远，阿德尔森、爱德华H。
[页面]
成功的触感：触觉传感能否帮助预测抓取结果？，arXiv，2017年。
卡兰德拉、罗伯托，欧文斯、安德鲁，乌帕迪亚亚、马努，袁、文珍，林、贾斯汀，阿德尔森、爱德华H，莱文、谢尔盖。
[页面]
用于测量几何形状和滑移的改进型GelSight触觉传感器，IROS，2017年。
董、思远，袁、文珍，阿德尔森、爱德华H。
[页面]
GelSight：用于估计几何形状和作用力的高分辨率机器人触觉传感器，传感器，第17卷第12期，第2762页，2017年。
袁、文珍，董、思远，阿德尔森、爱德华H。
[页面]
连接视觉与触感：关联物理材料的视觉与触觉特性，CVPR，2017年。
袁、文珍，王、绍雄，董、思远，阿德尔森、爱德华。
[页面]
结合自编码器的稳定强化学习应用于触觉和视觉数据，IROS，2016年。
范霍夫、赫尔克，陈、努坦，卡尔、马克西米利安，范德斯马赫特、帕特里克，彼得斯、扬。
[页面]
利用BioTac感知触觉微振动——与人类敏感度的比较, BioRob, 2012.
Fishel, Jeremy A 和 Loeb, Gerald E.
[页面]

身体化交互 🔝

DexGrasp Anything：迈向具备物理意识的通用机器人灵巧抓取, arXiv, 2025
钟一鸣、蒋琪、于静怡、马悦欣。
[页面]
超越目的地：一种面向探索感知的身体化问答新基准, arXiv, 2025
姜凯旋、刘洋、陈伟星、罗景洲、陈子良、潘玲、李冠斌、林亮。
[页面]
基于强化学习的跨身体灵巧抓取, arXiv, 2024
袁浩奇、周博涵、傅宇辉、陆宗庆。
[页面]
ManiGaussian：用于多任务机器人操作的动态高斯泼溅法, arXiv, 2024
卢冠兴、张世义、王子威、刘昌柳、陆继文、唐言松。
[页面]
MANUS：使用关节式3D高斯模型实现无标记抓取捕捉, CVPR, 2024
波卡里亚·钱德拉迪普、沙阿·伊山·尼基尔、辛格·安吉拉、李泽坤、陈可凡、夏尔马·阿维纳什、斯里达尔·斯里纳特。
[页面]
语言驱动的抓取检测, CVPR, 2024
武英定、武明日、黄宝儒、阮义、黎孝、武秋、阮英。
[页面]
通过领域先验知识泛化六自由度抓取检测, CVPR, 2024
马浩翔、石莫迪、高博阳、黄迪。
[页面]
灵巧抓取Transformer, CVPR, 2024
徐国豪、魏艺琳、郑典、吴晓明、郑伟士。
[页面]
单视角场景点云的人类抓取生成, CVPR, 2024
王彦康、邢成毅、魏艺琳、吴晓明、郑伟士。
[页面]
G-HOP：用于交互重建和抓取合成的生成式手物先验, CVPR, 2024
叶宇飞、阿比纳夫·古普塔、克里斯·基塔尼、舒巴姆·图尔西亚尼。
[页面]
利用模拟人形机器人抓取多样化物体 ArXiv, 2024.
罗正毅、曹金坤、萨米·克里斯滕、亚历山大·温克勒、克里斯·基塔尼、许伟鹏
[页面]
基于可微分抓握力矩边界估计器的任务导向灵巧抓取合成, IROS, 2024.
陈嘉怡、陈宇星、张佳梁、王赫
[页面]
Open6DOR：开放指令下6自由度物体重排的基准测试及基于VLM的方法, IROS, 2024.
丁宇飞、耿浩然、徐超逸、方晓梦、张家照、魏松林、戴启宇、张志正、王赫
[页面]
ASGrasp：基于RGB-D主动立体相机的透明物体重建与6自由度抓取检测的通用方法, ICRA, 2024.
史俊、永A、金义祥、李鼎哲、牛浩宇、金哲柱、王赫
[页面]
OpenEQA：基础模型时代的身体化问答, CVPR, 2024
马朱姆达尔、阿琼、阿贾伊、张晓涵、普塔、耶纳曼德拉、塞拉姆、亨纳夫、西尔瓦尔、麦克维、马克西梅茨、阿尔瑙德等人
[页面]
探索至确信：身体化问答中的高效探索, ICRA Workshop VLMNM, 2024
任、艾伦Z、克拉克、贾登、迪克西特、阿努什丽、伊特基娜、玛莎、马朱姆达尔、阿尼鲁达、萨迪格、多尔萨
[页面]
S-EQA：解决身体化问答中的情境查询, arXiv, 2024
多尔巴拉、维什努·萨尚克、戈亚尔、皮拉穆图、约翰斯顿、马诺查、加纳丹
[页面]
基于地图的模块化零样本身体化问答方法, arXiv, 2024
坂本、小谷、东、大智、宫西、太贵、栗田、修平、川边、元明
[页面]
基于多LLM系统的身体化问答, arXiv, 2024
帕特尔、多尔巴拉、贝迪
[页面]
MultiGripperGrasp：从平行爪夹持器到灵巧手的机器人抓取数据集, arXiv, 2024
穆里洛、路易斯·费利佩·卡萨斯、卡尔贡卡尔、普拉巴卡兰、杨翔
[页面]
基于多模态大型语言模型的推理抓取, arXiv, 2024
金世宇、徐锦轩、雷雨田、张良俊
[页面]
SemGrasp：通过语言对齐离散化生成语义抓取, CoRR, 2024
李凯林、王京博、杨立新、陆策武、戴博
[页面]
GaussianGrasper：用于开放词汇机器人抓取的3D语言高斯泼溅法, arXiv, 2024
郑宇航、陈翔宇、郑宇鹏、顾松恩、杨润益、靳步、李鹏飞、仲承亮、王增茂、刘丽娜等
[页面]
基于知识的身体化问答, TPAMI, 2023
谭思南、葛梦梦、郭迪、刘华萍、孙富春
[页面]
抓取合成的深度学习方法：综述，IEEE机器人学汇刊，2023年
纽伯里，瑞斯；顾，莫里斯；钱布尔利，拉克兰；穆萨维安，阿尔萨兰；埃普纳，克莱门斯；莱特纳，尤尔根；博格，珍妮特；莫拉莱斯，安东尼奥；阿斯福尔，塔米姆；克拉吉奇，达尼察等
[页面]
语言引导的机器人抓取：基于CLIP的杂乱场景下指代性抓取合成，CoRL，2023年
齐亚法斯，乔治奥斯；许，宇成；戈埃尔，阿鲁希；卡塞伊，穆罕默德雷扎；李，志斌；卡塞伊，哈米德雷扎
[页面]
推理调优抓取：将多模态大型语言模型适配于机器人抓取任务，CoRL，2023年
徐，金轩；金，世宇；雷，宇田；张，玉倩；张，梁俊
[页面]
蒸馏特征场实现少样本语言引导操作，CoRL，2023年
沈，威廉；杨，戈；余，艾伦；王，詹森；凯尔布林，莱斯利·帕克；伊索拉，菲利普
[页面]
AnyGrasp：空间与时间域中的鲁棒高效抓取感知，IEEE机器人学汇刊，2023年
方，浩书；王，晨曦；方，洪杰；勾，明浩；刘，继荣；颜，恒旭；刘，文海；谢，义臣；陆，策武
[页面]
DexGraspNet：基于仿真构建的大规模通用物体灵巧抓取数据集，ICRA，2023年。
王瑞诚、张嘉亮、陈佳怡、许银振、李普浩、刘腾宇、王鹤
[页面]
UniDexGrasp：通过学习多样化的提案生成与目标条件策略实现通用机器人灵巧抓取，CVPR，2023年。
许银振、万伟康、张嘉亮、刘浩然、单子康、沈浩、王瑞诚、耿浩然、翁一嘉、陈佳怡、刘腾宇、李毅、王鹤
[页面]
UniDexGrasp++：通过几何感知课程和迭代式通才—专才学习改进灵巧抓取策略学习，ICCV，2023年。
万伟康、耿浩然、刘芸、单子康、杨耀东、李毅、王鹤
[页面]
CLIPort：用于机器人操作的“什么”与“哪里”路径，CoRL，2022年
施里达尔，莫希特；马努埃利，卢卡斯；福克斯，迪特
[页面]
ACRONYM：基于仿真的大规模抓取数据集，ICRA，2021年
埃普纳，克莱门斯；穆萨维安，阿尔萨兰；福克斯，迪特
[页面]
Habitat-Matterport 3D数据集（HM3D）：1000个用于具身AI的大规模3D环境，NeurIPS，2021年
拉马克里希南，桑托什·K；戈卡斯兰，亚伦；维贾曼斯，埃里克；马克西梅茨，奥列克桑德尔；克雷格，亚历克斯；特纳，约翰；昂德桑德，埃里克；加卢巴，沃伊切赫；韦斯特伯里，安德鲁；昌，安吉尔·X等
[页面]
端到端可训练的深度神经网络：用于从RGB图像中进行机器人抓取检测与语义分割，ICRA，2021年
艾内特，斯特凡；弗劳恩多费尔，弗里德里希
[页面]
重访具身QA：一个简单基线及更进一步，IEEE图像处理汇刊，2020年
吴，宇；蒋，璐；杨，毅
[页面]
交互环境中多智能体具身问答，ECCV，2020年
谭，思南；向，伟来；刘，华平；郭，迪；孙，富春
[页面]
语言模型是少样本学习者，NIPS，2020年
布朗，汤姆；曼，本杰明；赖德，尼克；苏比亚，梅拉妮；卡普兰，贾里德·D；达里瓦尔，普拉富拉；尼拉坎坦，阿温德；夏亚姆，普拉纳夫；萨斯特里，吉里什；阿斯克尔，阿曼达等
[页面]
GraspNet-1Billion：通用物体抓取的大规模基准测试，CVPR，2020年
方，浩书；王，晨曦；勾，明浩；陆，策武
[页面]
多目标具身问答，CVPR，2019年
俞，立成；陈，欣蕾；吉奥克萨里，乔治娅；班萨尔，莫希特；伯格，塔玛拉·L；巴特拉，德鲁夫
[页面]
具有点云感知的写实环境中具身问答，CVPR，2019年
维贾曼斯，埃里克；达塔，萨米亚克；马克西梅茨，奥列克桑德尔；达斯，阿比舍克；吉奥克萨里，乔治娅；李，斯蒂芬；埃萨，伊尔凡；帕里克，黛薇；巴特拉，德鲁夫
[页面]
VideoNavQA：弥合视觉问答与具身问答之间的鸿沟，BMVC，2019年
坎吉亚，卡塔利娜；贝利洛夫斯基，尤金；利奥，皮耶特罗；库维尔，阿隆
[页面]
6-DOF GraspNet：面向物体操作的变分抓取生成，ICCV，2019年
穆萨维安，阿尔萨兰；埃普纳，克莱门斯；福克斯，迪特
[页面]
具身问答，CVPR，2018年
达斯，阿比舍克；达塔，萨米亚克；吉奥克萨里，乔治娅；李，斯蒂芬；帕里克，黛薇；巴特拉，德鲁夫
[页面]
IQA：交互环境中的视觉问答，CVPR，2018年
戈登，丹尼尔；肯布哈维，阿尼鲁达；拉斯泰加里，穆罕默德；雷德蒙，约瑟夫；福克斯，迪特；法尔哈迪，阿里 [页面]
利用逼真且丰富的3D环境构建可泛化智能体，ECCV，2018年
吴，毅；吴，宇鑫；吉奥克萨里，乔治娅；田，元东
[页面]
MINOS：复杂环境中导航的多模态室内模拟器，ECCV，2018年
Savva, Manolis 和 Chang, Angel X 和 Dosovitskiy, Alexey 和 Funkhouser, Thomas 和 Koltun, Vladlen
[页面]
用于具身问答的神经模块化控制，ECCV，2018年
Das, Abhishek 和 Gkioxari, Georgia 和 Lee, Stefan 和 Parikh, Devi 和 Batra, Dhruv
[页面]
Jacquard：用于机器人抓取检测的大规模数据集，IROS，2018年
Depierre, Amaury 和 Dellandr{'e}a, Emmanuel 和 Chen, Liming
[页面]
Matterport3D：从室内场景的RGB-D数据中学习，IEEE国际3D视觉会议，2017年
Chang, Angel 和 Dai, Angela 和 Funkhouser, Thomas 和 Halber, Maciej 和 Niessner, Matthias 和 Savva, Manolis 和 Song, Shuran 和 Zeng, Andy 和 Zhang, Yinda
[页面]
ScanNet：室内场景的丰富标注3D重建，CVPR，2017年
Dai, Angela 和 Chang, Angel X 和 Savva, Manolis 和 Halber, Maciej 和 Funkhouser, Thomas 和 Nie{\ss}ner, Matthias [页面]
基于形状补全的机器人抓取，IROS，2017年
Varley, Jacob 和 DeChant, Chad 和 Richardson, Adam 和 Ruales, Joaqu{'\i}n 和 Allen, Peter
[页面]
基于RGB-D图像的有效抓取：使用新的矩形表示进行学习，IEEE国际机器人与自动化会议，2011年
Jiang, Yun 和 Moseson, Stephen 和 Saxena, Ashutosh
[页面]
一种基于前沿的自主探索方法，CIRA，1997年
Yamauchi, Brian
[页面]

具身智能体 🔝

具身多模态基础模型与VLA方法

π₀：用于通用机器人控制的视觉-语言-动作流模型，arXiv，2024年。
Kevin Black、Noah Brown、Danny Driess、Adnan Esmail、Michael Equi、Chelsea Finn、Niccolo Fusai、Lachy Groom、Karol Hausman、Brian Ichter、Szymon Jakubczak、Tim Jones、Liyiming Ke、Sergey Levine、Adrian Li-Bell、Mohith Mothukuri、Suraj Nair、Karl Pertsch、Lucy Xiaoyang Shi、James Tanner、Quan Vuong、Anna Walling、Haohuan Wang、Ury Zhilinsky。
[论文] [项目]
π₀.₅：具有开放世界泛化能力的视觉-语言-动作模型，arXiv，2025年。
Physical Intelligence、Kevin Black、Noah Brown、James Darpinian、Karan Dhabalia、Danny Driess、Adnan Esmail、Michael Equi、Chelsea Finn、Niccolo Fusai、Manuel Y. Galliker、Dibya Ghosh、Lachy Groom、Karol Hausman、Brian Ichter、Szymon Jakubczak、Tim Jones、Liyiming Ke、Devin LeBlanc、Sergey Levine、Adrian Li-Bell、Mohith Mothukuri、Suraj Nair、Karl Pertsch、Allen Z. Ren、Laura Smith、Jost Tobias Springenberg、Kyle Stachowicz、James Tanner、Quan Vuong、Homer Walke、Anna Walling、Haohuan Wang、Lili Yu、Ury Zhilinsky。
[论文] [项目]
GR00T N1：面向通用人形机器人的开源基础模型，arXiv，2025年。
NVIDIA：Johan Bjorck、Fernando Castañeda、Nikita Cherniadev、Xingye Da、Runyu Ding、Linxi "Jim" Fan、Yu Fang、Dieter Fox、Fengyuan Hu、Spencer Huang、Joel Jang、Zhenyu Jiang、Jan Kautz、Yuke Zhu。
[论文] [项目]
Gemini Robotics：将AI带入物理世界，arXiv，2025年。
Gemini Robotics团队、Google DeepMind。
[论文] [项目]
OpenVLA：开源视觉-语言-动作模型，CoRL，2024年。
Moo Jin Kim、Karl Pertsch、Siddharth Karamcheti、Ted Xiao、Ashwin Balakrishna、Suraj Nair、Rafael Rafailov、Ethan Foster、Grace Lam、Pannag R. Sanketi、Quan Vuong、Thomas Kollar、Benjamin Burchfiel、Russ Tedrake、Dorsa Sadigh、Sergey Levine、Percy Liang、Chelsea Finn。
[论文] [项目]
Octo：开源通用机器人策略，RSS，2024年。
Octo模型团队、Dibya Ghosh、Homer Walke、Karl Pertsch、Kevin Black、Oier Mees、Sudeep Dasari、Joey Hejna、Tobias Kreiman、Charles Xu、Jianlan Luo、You Liang Tan、Lawrence Yunliang Chen、Lerrel Pinto、Chelsea Finn、Sergey Levine。
[论文] [项目]
Magma：多模态AI智能体的基础模型，CVPR，2025年。
Jianwei Yang、Reuben Tan、Qianhui Wu、Ruijie Zheng、Baolin Peng、Yongyuan Liang、Yu Gu、Mu Cai、Seonghyeon Ye、Jongmin Jang、Yuquan Deng、Lars Lidén、Jianfeng Gao。
[论文]
UniVLA：统一的视觉-语言-动作模型，RSS，2025年。
Yuqi Wang、Xinghang Li、Wenxuan Wang、Junbo Zhang、Yingyan Li、Yuntao Chen、Xinlong Wang、Zhaoxiang Zhang。
[论文] [项目]
FAST：视觉-语言-动作模型的高效动作标记化，arXiv，2025年。
Karl Pertsch、Kyle Stachowicz、Brian Ichter、Danny Driess、Suraj Nair、Quan Vuong、Sergey Levine、Chelsea Finn。
[论文] [项目]
HumanPlus：来自人类的人形机器人影子跟随与模仿，CoRL，2024年。
Zipeng Fu、Qingqing Zhao、Qi Wu、Gordon Wetzstein、Chelsea Finn。
[论文] [项目]
ASAP：对齐仿真与真实物理环境以学习敏捷的人形全身技能，arXiv，2025年。
Tairan He、Jiawei Gao、Wenli Xiao、Yuanhang Zhang、Zi Wang、Jiashun Wang、Zhengyi Luo、Guanqi He、Nikhil Sobanbab、Chaoyi Pan、Zeji Yi、Guannan Qu、Kris Kitani、Jessica Hodgins、Linxi "Jim" Fan、Yuke Zhu、Changliu Liu、Guanya Shi。
[论文]
Embodied-Reasoner：为具身交互任务协同视觉搜索、推理与行动，arXiv，2025年。
Wenqi Zhang、Mengna Wang、Gangao Liu、Xu Huixin、Yiwei Jiang、Yongliang Shen、Guiyang Hou、Zhe Zheng、Hang Zhang、Xin Li、Weiming Lu、Peng Li、Yueting Zhuang
[页面]
RoboMatrix：面向开放世界中可扩展机器人任务规划与执行的技能中心分层框架, arXiv, 2024.
毛伟欣、钟伟恒、蒋洲、方东、张仲悦、兰子涵、贾凡、王天材、范浩强、吉江修。
[页面]
用于端到端机器人学习的空间视觉感知, arXiv, 2024.
特拉维斯·戴维斯、严嘉欢、陈翔、田宇、庄雨婷、黄一奇、胡璐辉。
[页面]
GR-2：具有网络规模知识的生成式视频-语言-动作模型，用于机器人操作, arXiv, 2024.
张志廉、陈广增、景雅、孔涛、李航、李一峰、刘宇晓、吴洪涛、徐家锋、杨一初、张汉博、朱敏钊。
[页面]
利用异构预训练Transformer扩展本体感觉-视觉学习, arXiv, 2024.
王立睿、陈新磊、赵佳亮、何凯明。
[页面]
深度具身智能体的空间推理与规划, arXiv, 2024.
石田修。
[页面]
在不完善的世界模型下将大型语言模型具身化于环境中, arXiv, 2024.
刘浩然、赵继申。
[页面]
SELU：未知环境中的自学习具身多模态大语言模型, arXiv, 2024.
李博宇、姜浩斌、丁子洛、徐新润、李浩然、赵东彬、陆宗庆。
[页面]
Autort：用于大规模机器人智能体编排的具身基础模型, arXiv, 2024.
安恩、迈克尔、德比达塔、德维贝迪、切尔西、芬恩、蒙塞·冈萨雷斯、阿雷纳斯、基尔塔娜、戈帕拉克里希南、卡罗尔、豪斯曼、布赖恩、伊赫特、亚历克斯、伊尔潘、尼希尔、乔希、瑞安、朱利安等。
[页面]
扩散增强型智能体：高效探索与迁移学习框架, arXiv, 2024.
诺曼·迪·帕洛、莱昂纳德·哈森克莱弗、扬·洪普利克、阿伦库马尔·比亚万。
[页面]
Rt-h：基于语言的动作层次结构, ArXiv, 2024.
贝尔哈利、苏尼尔、丁天力、泰德、肖、皮埃尔、塞尔梅内、权、武英、乔纳森、汤普森、叶夫根、切博塔尔、德比达塔、德维贝迪、多尔萨、萨迪格。
[页面]
照我所能做，而非照我说的做：将语言具身化于机器人操作能力之中, 机器人学习会议，2023年。
布罗汉、安东尼、叶夫根·切博塔尔、切尔西·芬恩、卡罗尔·豪斯曼、亚历山大·赫尔佐格、丹尼尔·霍、朱利安·伊巴尔斯、艾瑞克·伊尔潘、杨瑞安、朱利安等。
[页面]
Embodiedgpt：通过具身思维链进行视觉-语言预训练, NeurIPS, 2024.
穆、姚、张青龙、胡孟康、王文海、丁俊、金斌、王继峰、戴宇、乔平、罗。
[页面]
Q-transformer：通过自回归Q函数实现可扩展的离线强化学习, 机器人学习会议，2023年。
切博塔尔、叶夫根、权、武英、卡罗尔·豪斯曼、费伊、夏、姚、卢、亚历克斯·伊尔潘、阿维拉尔·库马尔、田和、俞、亚历山大·赫尔佐格、卡尔·佩尔茨等人。
[页面]
Sara-rt：利用自适应鲁棒注意力扩展机器人Transformer, arXiv, 2023.
莱阿尔、伊莎贝尔、克日什托夫·霍罗马斯基、迪帕莉·贾因、阿维纳瓦·杜贝、杰克·瓦利、迈克尔·里奥、姚、卢、弗雷德里克·刘、维卡斯·辛德瓦尼、权、武英等。
[页面]
Palm-e：一种具身多模态语言模型, ArXiv, 2023.
德里斯、丹尼、费伊、夏、梅迪 SM、萨贾迪、科里、林奇、阿坎克沙、乔德里、布莱恩·伊赫特、艾扎安、瓦希德、乔纳森·汤普森、权、武英、田和、俞等。
[页面]
Rt-2：视觉-语言-动作模型将网络知识迁移到机器人控制中, 机器人学习会议，2023年。
齐特科维奇、布里安娜、田和、俞、西春、徐、彭、徐、泰德、肖、费伊、夏、贾琳、吴、保罗、沃尔哈特、斯特凡、韦尔克、艾扎安、瓦希德等。
[页面]
Open x-embodiment：机器人学习数据集及rt-x模型, arXiv, 2023.
帕达尔卡尔及其他贡献者。
[页面]
视觉-语言基础模型作为高效的机器人模仿者, arXiv, 2023.
李兴航、刘明焕、张汉博、于存军、于洁、徐洪涛、吴赤蓝、张雅、景、魏楠、张华平等。
[页面]
Rt-1：用于大规模真实世界控制的机器人Transformer, ArXiv, 2022.
布罗汉、安东尼、诺亚·布朗、贾斯蒂斯、卡巴哈尔、叶夫根·切博塔尔、约瑟夫·达比斯、切尔西·芬恩、基尔塔娜·戈帕拉克里希南、卡罗尔·豪斯曼、亚历克斯·赫尔佐格、茉莉·许等。
[页面]

具身操控与控制

扩散策略：基于动作扩散的视觉运动策略学习, RSS, 2023.
程驰、许振佳、冯思远、埃里克·库赞诺、杜一伦、本杰明·伯奇菲尔、拉斯·特德拉克、宋舒然。
[页面] [项目]
ManipTrans：通过残差学习实现高效灵巧双臂操作迁移, CVPR, 2025.
李凯琳、李普浩、刘腾宇、李宇阳、黄思远。
[页面]
KStar Diffuser：具有运动学建模的时空图扩散策略，用于双臂机器人操作, CVPR, 2025.
吕琪、李浩、邓翔、邵锐、李银川、郝建业、高隆祥、王宇迈克尔、聂立强。
[页面]
AgiBot World Colosseo：用于规模化与智能化具身系统的大型操控平台, IROS, 2025.
AgiBot-World-Contributors、毕青文、蔡继松、陈丽、崔秀琪、丁燕、冯思远、高深源、何新东、胡轩、黄旭、姜书、姜宇欣、李宏洋、李嘉露、刘启明、刘毅、路宇翔、罗建兰、罗平、穆耀、牛月寒、潘一轩、庞江淼、乔宇等。
[页面] [项目]
仿真与现实协同训练：基于视觉的机器人操作简易方案, arXiv, 2025.
阿比拉姆·马杜库里、蒋振宇、陈永良劳伦斯、索鲁什·纳西里亚尼、谢宇琪、于芳、黄文琦、王祖、许振佳、切尔尼亚杰夫·尼基塔、里德·斯科特、肯·戈德堡、曼德尔卡尔·阿贾伊、樊林溪、朱玉珂等。
[页面]
PEAC：面向跨具身强化学习的无监督预训练，NeurIPS，2024年。
应承阳、郝中凯、周欣宁、徐学舟、苏航、张星星、朱俊。
[页面]
用于具身学习实时决策的傅里叶控制器网络，ICML，2024年。
谭恒凯、刘松明、马凯、应承阳、张星星、苏航、朱俊。
[页面]
RDT-1B：用于双手操作的扩散基础模型，ArXiv，2024年。
刘松明、吴凌轩、李邦国、谭恒凯、陈华宇、王正毅、许科、苏航、朱俊。
[页面]
ManiBox：通过可扩展的仿真数据生成提升空间抓取泛化能力，ArXiv，2024年。
谭恒凯、徐学舟、应承阳、毛新怡、刘松明、张星星、苏航、朱俊。
[页面]
RoboGSim：Real2Sim2Real 机器人高斯泼溅模拟器，ArXiv，2024年。
李新海、李嘉林、张子恒、张睿、贾凡、王天财、范浩强、曾国坤、王瑞平。
[页面]
SPIRE：协同规划、模仿与强化学习在长 horizon 操作中的应用，ArXiv，2024年。
周子涵、阿尼梅什·加格、迪特·福克斯、凯兰·加勒特、阿杰·曼德尔卡。
[页面]
扩散 Transformer 策略，ArXiv，2024年。
侯志、张天一、熊宇文、蒲恒军、赵承阳、佟荣磊、乔宇、戴继峰、陈云涛。
[页面]
Dexcap：用于灵巧操作的可扩展且便携的动作捕捉数据采集系统，ArXiv，2024年。
王晨、史浩辰、王伟卓、张若涵、李飞飞、C·卡伦·刘。
[页面]
Lota-bench：面向具身智能体的语言导向任务规划基准测试，ArXiv，2024年。
崔在宇、尹英佑、翁孝彬、金民洙、张。
[页面]
苏格拉底规划器：基于探究的零样本具身指令遵循规划，Arxiv，2024年。
申秀妍、全秀珍、金正贤、姜基千、张炳泽。
[页面]
大型语言模型作为大规模任务规划中的常识知识，NeurIPS，2024年。
赵子睿、李维孙、大卫·许。
[页面]
利用预训练大型语言模型在 PDDL 域中的通用规划，AAAI，2024年。
西尔弗、汤姆、索哈姆、丹、卡维塔、斯里尼瓦斯、约书亚·B、特南鲍姆、莱斯利·帕克、凯尔布林、迈克尔、卡茨。
[页面]
迈向具身多智能体协作的高效 LLM 对齐，arXiv，2024年。
张洋、杨世鑫、陈佳、白飞、吴秀、李雪龙、李振、王。
[页面]
未知环境下的具身指令遵循，arXiv，2024年。
吴振宇、王子威、徐秀伟、陆继文、颜海斌。
[页面]
长 horizon 机器人任务理解的骨干模型，arxiv，2024年。
陈晓帅、陈伟、李东明、葛玉坤、尼古拉斯·罗哈斯和彼得·科尔穆舍夫。
[页面]
RoboMamba：用于高效机器人推理与操作的多模态状态空间模型，arXiv，2024年。
刘家铭、孟真、刘振宇、王莉莉、李凯臣、周鹏举、安森桥、杨仁锐、张燕东、郭尚航、张。
[页面]
按分而行：阶段引导的动态多感官融合在机器人操作中的应用，arxiv，2024年。
冯若萱、胡迪1、马文珂、李雪龙。
[页面]
自我中心视觉语言规划，arxiv，2024年。
方志睿、杨明、曾伟帅、李博宇、岳俊鹏、丁子洛、李秀、陆宗庆。
[页面]
Polaris：通过 Syn2Real 视觉对齐和大型语言模型实现开放式交互式机器人操作，IROS，2024年。
王天宇、林海涛、于俊秋、傅延伟。
[页面]
LLM-SAP：基于大型语言模型的情境感知规划，ICME 2024 MML4SG 工作坊。
王立敏、钟汉阳。
[页面]
FMB：面向可泛化机器人学习的功能性操作基准测试，ArXiv，2024年。
罗建兰、徐查尔斯、刘芳晨、谭利亚姆、林子鹏、吴杰弗里、皮特·阿贝尔和谢尔盖·列文。
[页面]
ManipVQA：将机器人操作可能性与物理 grounded 信息注入多模态大型语言模型，IROS，2024年。
黄思远、伊万·波诺马连科、蒋正凯、李小琪、胡晓彬、高鹏、李洪生和董浩。
[页面]
A3VLM：可行动的关节感知视觉语言模型，ArXiv，2024年。
黄思远、常浩楠、刘宇涵、朱依梦、董浩、高鹏、阿卜杜斯拉姆·布拉里亚斯和李洪生。
[页面]
由 LLM 从 Parallel TextWorld 训练的具身多模态智能体，CVPR，2024年。
杨义君、周天一、李侃雪、陶大鹏、李路松、沈丽、何晓东、江静、施雨辉。
[页面]
检索增强型具身智能体，CVPR，2024年。
朱一辰、欧志才、牟晓峰、唐健。
[页面]
基于运动感知的鲁棒通信网络的多智能体协作感知，CVPR，2024年。
洪世鑫、刘宇、李志、李绍辉、何友。
[页面]
LLM-规划器：基于大型语言模型的具身智能体少样本 grounded 规划，ICCV，2023年。
宋灿熙、吴嘉满、克莱·华盛顿、布莱恩·M·萨德勒、魏伦·曹、苏宇。
[[页面](LLM-规划器：基于大型语言模型的具身智能体少样本 grounded 规划)]
具有记忆增强型大语言模型的开放式指令式具身智能体 EMNLP, 2023.
Sarch, Gabriel, Yue, Wu, Michael J., Tarr, Katerina, Fragkiadaki.
[页面]
Voyager：基于大语言模型的开放式具身智能体, TMLR, 2023.
Wang, Guanzhi, Yuqi, Xie, Yunfan, Jiang, Ajay, Mandlekar, Chaowei, Xiao, Yuke, Zhu, Linxi, Fan, Anima, Anandkumar.
[页面]
ReAct：在语言模型中协同推理与行动, ICLR, 2023.
Yao, Shunyu, Jeffrey, Zhao, Dian, Yu, Nan, Du, Izhak, Shafran, Karthik, Narasimhan, Yuan, Cao.
[页面]
ProgPrompt：利用大语言模型生成情境化的机器人任务规划, ICRA, 2023.
Singh, Ishika, Valts, Blukis, Arsalan, Mousavian, Ankit, Goyal, Danfei, Xu, Jonathan, Tremblay, Dieter, Fox, Jesse, Thomason, Animesh, Garg.
[页面]
ChatGPT用于机器人技术：设计原则与模型能力, IEEE Access 12. (2023): 55682-55696.
Sai Vemprala, Rogerio Bonatti, Arthur Fender C. Bucker, Ashish Kapoor.
[页面]
代码即策略：用于具身控制的语言模型程序, ICRA, 2023.
Jacky Liang, , Wenlong Huang, F. Xia, Peng Xu, Karol Hausman, Brian Ichter, Peter R. Florence, Andy Zeng.
[页面]
用语言模型进行推理就是使用世界模型进行规划, Arxiv, 2023.
Hao, Shibo, Yi, Gu, Haodi, Ma, Joshua Jiahua, Hong, Zhen, Wang, Daisy Zhe, Wang, Zhiting, Hu.
[页面]
LGMCTS：面向可执行语义对象重排的语言引导蒙特卡洛树搜索, arXiv, 2023.
Haonan Chang, Kai Gao, Kowndinya Boyalakuntla, Alex Lee, Baichuan Huang, Harish Udhaya Kumar, Jinjin Yu, Abdeslam Boularias.
[页面]
利用大语言模型将自然语言翻译为规划目标, arXiv, 2023.
Xie, Yaqi, Chen, Yu, Tongyao, Zhu, Jinbin, Bai, Ze, Gong, Harold, Soh.
[页面]
LLM+P：赋予大语言模型最优的规划能力, arXiv, 2023.
Liu, Bo, Yuqian, Jiang, Xiaohan, Zhang, Qiang, Liu, Shiqi, Zhang, Joydeep, Biswas, Peter, Stone.
[页面]
使用LLM进行动态规划, arXiv, 2023.
Dagan, Gautier, Frank, Keller, Alex, Lascarides.
[页面]
利用大语言模型进行具身任务规划, arXiv, 2023.
Wu, Zhenyu, Ziwei, Wang, Xiuwei, Xu, Jiwen, Lu, Haibin, Yan.
[页面]
SayPlan：利用3D场景图使大语言模型具身化，实现可扩展的任务规划, 机器人学习会议。2023年.
Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian D. Reid, Niko Sunderhauf.
[页面]
ConceptGraphs：用于感知和规划的开放词汇3D场景图, ArXiv, 2023.
Qiao Gu, Ali Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Ramalingam Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull.
[页面]
RoboGPT：一种能够为日常指令任务做出具身长期决策的智能体, arXiv, 2023.
Yaran Chen, Wenbo Cui, Yuanwen Chen, Mining Tan, Xinyao Zhang, Dong Zhao, He Wang.
[页面]
与环境对话：利用大语言模型进行交互式多模态感知, IROS, 2023.
Zhao, Xufeng, Mengdi, Li, Cornelius, Weber, Muhammad Burhan, Hafez, Stefan, Wermter.
[页面]
视频语言规划, arxiv, 2023.
Du, Yilun, Mengjiao, Yang, Pete, Florence, Fei, Xia, Ayzaan, Wahid, Brian, Ichter, Pierre, Sermanet, Tianhe, Yu, Pieter, Abbeel, Joshua B., Tenenbaum, Leslie, Kaelbling, Andy, Zeng, Jonathan, Tompson.
[页面]
代码即策略：用于具身控制的语言模型程序, ICRA, 2023,
Jacky Liang, Wenlong Huang, F. Xia, Peng Xu, Karol Hausman, Brian Ichter, Peter R. Florence, Andy Zeng.
[页面]
Reflexion：一个具有动态记忆和自我反思能力的自主智能体, ArXiv, 2023.
Noah Shinn, Beck Labash, A. Gopinath.
[页面]
描述、解释、规划与选择：利用大语言模型的交互式规划赋能开放世界多任务智能体, 第37届国际神经信息处理系统大会论文集，2023年.
Zihao Wang, Shaofei Cai, Anji Liu, Xiaojian Ma, Yitao Liang.
[页面]
Instruct2Act：利用大语言模型将多模态指令映射为机器人动作, ArXiv, 2023.
Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, and Hongsheng Li.
[页面]
Cliport：用于机器人操作的“什么”和“哪里”路径, 机器人学习会议，2022年.
Shridhar, Mohit, Lucas, Manuelli, Dieter, Fox.
[页面]
语言模型作为零样本规划者：为具身智能体提取可行动知识, ICML, 2022.
Huang, Wenlong, Pieter, Abbeel, Deepak, Pathak, Igor, Mordatch.
[页面]
内心独白：通过语言模型进行规划的具身推理, 机器人学习会议，2022年.
Huang, Wenlong, Fei, Xia, Ted, Xiao, Harris, Chan, Jacky, Liang, Pete, Florence, Andy, Zeng, Jonathan, Tompson, Igor, Mordatch, Yevgen, Chebotar, Pierre, Sermanet, Noah, Brown, Tomas, Jackson, Linda, Luu, Sergey, Levine, Karol, Hausman, Brian, Ichter.
[页面]
语言模型作为零样本规划者：为具身智能体提取可行动知识, ICML, 2022.
Huang, Wenlong, Pieter, Abbeel, Deepak, Pathak, Igor, Mordatch.
[页面]
苏格拉底模型：用语言构建零样本多模态推理, ICLR, 2022.
Zeng, Andy, Maria, Attarian, Brian, Ichter, Krzysztof, Choromanski, Adrian, Wong, Stefan, Welker, Federico, Tombari, Aveek, Purohit, Michael, Ryoo, Vikas, Sindhwani, Johnny, Lee, Vincent, Vanhoucke, Pete, Florence.
[页面]
基于潜在语言的技能诱导与规划, ACL, 2021.
普拉蒂尤莎·夏尔马、安东尼奥·托拉尔巴、雅各布·安德烈亚斯.
[页面]
PDDL：规划领域定义语言, 技术报告。1998年.
德鲁·麦克德莫特、马利克·加拉卜、阿黛尔·E·豪、克雷格·A·诺克洛克、阿什温·拉姆、曼努埃拉·M·韦洛索、丹尼尔·S·韦尔德、大卫·E·威尔金斯.
[页面]
STRIPS：将定理证明应用于问题求解的新方法, 人工智能2. 3(1971): 189-208.
理查德·E·菲克斯、尼尔斯·J·尼尔森.
[页面]
启发式确定最小代价路径的正式基础, IEEE系统科学与控制论汇刊4. (1968): 100-107.
彼得·E·哈特、尼尔斯·J·尼尔森、伯特伦·拉斐尔.
[页面]
蒙特卡洛方法, 美国统计协会期刊44 247. (1949): 335-41.
尼古拉斯·C·梅特ropolis、S. M. 乌兰.
[页面]

仿真到现实的适应 🔝

Phantom：仅使用人类视频即可在无需机器人的情况下训练机器人, arXiv, 2025
玛丽昂·勒佩尔特、方嘉颖、珍妮特·博格.
[页面]
基于3D扩散策略的可泛化人形机器人操作, arXiv, 2025
严杰泽、陈子轩、王文浩、陈天一、何夏林、袁莹、彭学斌、吴佳俊.
[页面]
VLABench：一个大规模基准，用于具有长 horizon 推理任务的语言条件机器人操作, arXiv, 2024
张世铎、徐哲、刘培菊、俞晓鹏、李源、高青辉、费兆业、尹章悦、吴祖轩、蒋宇刚、邱锡鹏
[页面]
PIVOT-R：面向机器人操作的原语驱动、航点感知世界模型, NeurIPS, 2024
张凯东、任鹏振、林冰倩、林俊凡、马士奎、许航、梁晓丹
[页面]
机器人操作模仿学习中的数据缩放定律, arXiv, 2024
林凡奇、胡英东、盛平岳、温川、游家成、高洋
[页面]
在仿真中评估真实世界机器人操作策略, arXiv, 2024
李玄林、许凯、顾嘉元、珀茨先生、梅斯先生、里克·沃尔克先生、傅楚渊、卢纳瓦特小姐、西赫女士、基尔马尼先生、莱文先生、吴佳俊先生、芬恩女士、苏浩先生、武权先生、肖泰德先生
[页面]
身体转换器：利用机器人具身性进行策略学习, arXiv, 2024
萨弗拉扎神父、黄敦明、刘芳晨、李钟敏、皮特·阿贝尔
[页面]
通过 grounded 语言模型实现人形机器人移动操作的自主行为规划, arXiv, 2024
王进、劳伦齐神父、尼科斯·察加拉基斯
[页面]
稳健智能体学习因果世界模型, ICLR, 2024
里琴斯、乔纳森和汤姆·埃弗里特
[页面]
通用操作接口：无需野外机器人的野外机器人教学, arXiv， 2024
池先生、潘振佳先生、潘秋儿女士、库辛诺先生、伯奇菲尔先生、冯思远先生、特德拉克先生、宋书然先生
[页面]
Mobile ALOHA：通过低成本全身遥操作学习双臂移动操作, arXiv, 2024
傅子鹏先生和赵托尼Z先生以及切尔西·芬恩女士
[页面]
人机联合学习以高效获取机器人操作技能, arXiv, 2024
罗圣成先生、彭泉泉先生、吕军先生、洪凯文先生、德里格斯-坎贝尔女士、陆策吾先生、李永禄先生
[页面]
通过仿真弥合现实差距：一种从现实到仿真再到现实的稳健操作方法, arXiv, 2024
托恩先生、西梅诺夫先生、李泽初先生、陈艾普丽尔女士、陈涛先生、阿比谢克·古普塔先生、普尔基特·阿格拉瓦尔先生
[页面]
TRANSIC：通过在线纠正学习实现仿真到现实的策略迁移, arXiv, 2024
姜云帆先生、王辰先生、张若涵先生、吴佳俊先生、李飞飞女士
[页面]
自然语言可以帮助弥合Sim2Real鸿沟, arXiv, 2024
余阿尔伯特先生、富特阿德琳女士、穆尼雷蒙德先生、马丁-马丁罗伯托先生
[页面]
用于足式移动操作的视觉全身控制, arXiv, 2024
刘明焕先生、陈子轩先生、程旭欣先生、季延东先生、杨瑞涵先生、王小龙先生
[页面]
用于人形机器人的富有表现力的全身控制, arXiv, 2024
程旭欣先生、季延东先生、陈俊明先生、杨瑞涵先生、杨戈先生、王小龙先生
[页面]
Pandora：迈向具有自然语言动作和视频状态的通用世界模型, arXiv, 2024
向建楠先生、刘广义先生、顾毅先生、高琪玥先生、宁玉婷先生、查宇恒先生、冯泽宇先生、陶天华先生、郝世博先生、史叶民先生等
[页面]
3D-VLA：一种3D视觉-语言-动作生成式世界模型, ICML, 2024
甄浩宇先生、邱晓雯女士、陈沛浩先生、杨锦程先生、颜鑫先生、杜逸伦先生、洪怡宁女士、甘创先生
[页面]
扩散世界模型：超越逐步展开的未来建模，用于离线强化学习, arXiv, 2024
丁子涵先生、张艾米女士、田元东先生、郑沁清女士
[页面]
MC-JEPA：一种用于运动和内容特征自监督学习的联合嵌入预测架构, ICLR, 2024
巴尔德斯先生、庞塞先生、勒丘恩先生
[页面]
在视觉表征学习中学习和利用世界模型, arXiv, 2024
加里多先生、阿斯兰先生、巴拉斯先生、巴尔德斯先生、纳吉曼先生、勒丘恩先生
[页面]
iVideoGPT：交互式 VideoGPT 是可扩展的世界模型，arXiv，2024
吴嘉龙、尹绍峰、冯宁雅、何旭、李栋、郝建业、龙明生
[页面]
用于机器人运动控制的时空预测性预训练，arXiv，2024
杨建格、刘贝、傅建龙、潘博成、吴刚山、王利民
[页面]
LEGENT：具身智能体开放平台，arXiv，2024
程志立、王志通、胡金毅、胡圣鼎、刘安、涂宇歌、李鹏凯、史磊、刘志远、孙茂松
[页面]
Point-JEPA：面向点云自监督学习的联合嵌入预测架构，arXiv，2024
Saito, Ayumu 和 Poovvancheri, Jiju
[页面]
MuDreamer：无需重建即可学习预测性世界模型，ICLR，2024
Burchi, Maxime 和 Timofte, Radu
[页面]
从词模型到世界模型：将自然语言转化为概率化的思维语言，arXiv，2024
Wong, Lionel、Grand, Gabriel、Lew, Alexander K、Goodman, Noah D、Mansinghka, Vikash K、Andreas, Jacob 和 Tenenbaum, Joshua B
[页面]
ElastoGen：4D 生成式弹性动力学，arXiv，2024
冯宇涛、尚银童、冯翔、兰雷、哲闪电、邵天嘉、吴洪志、周坤、苏浩、蒋晨帆等
[页面]
利用强化学习和生成式预训练模型实现四足机器人的逼真敏捷性和玩耍行为，Nature Machine Intelligence，2024。
韩雷、朱庆旭、盛家鹏、张冲、李廷光、张义正、张鹤等
[页面]
面向时间约束具身控制的模型适应，CVPR，2024。
宋在贤、柳敏钟、禹洪郁。
[页面]
ManipLLM：面向以物体为中心的机器人操作的具身多模态大型语言模型，CVPR，2024。
李晓琪、张明旭、耿怡然、耿浩然、龙宇星、沈燕、张仁睿、刘佳明、董浩。
[页面]
ManipLLM：面向以物体为中心的机器人操作的具身多模态大型语言模型，CVPR，2024。
李晓琪、张明旭、耿怡然、耿浩然、龙宇星、沈燕、张仁睿、刘佳明、董浩。
[页面]
GenH2R：通过可扩展的仿真、演示和模仿学习通用的人机交接技能，CVPR，2024。
王子凡、陈俊宇、陈子清、谢鹏威、陈瑞、李毅。
[页面]
SAGE：连接语义与可操作部件，实现铰接式物体的通用操作，RSS，2024。
耿浩然、魏松林、邓聪悦、申博魁、王鹤、Leonidas Guibas。
[页面]
GAMMA：基于在线抓取姿态融合的可抓取性感知移动操作策略学习，ICRA，2024。
张嘉钊、Nandiraju Gireesh、王继龙、方晓梦、徐超逸、陈伟光、戴刘、王鹤。
[页面]
ReALFRED：真实感环境中的具身指令遵循基准测试，ECCV，2024。
金泰雄、闵哲弘、金炳辉、金珍妍、郑元杰、崔宗贤。
[页面]
DISCO：基于可微场景语义与双层控制的具身导航与交互，ECCV，2024。
许新宇、罗圣诚、杨延超、李永禄、陆策吾。
[页面]
DynSyn：面向过驱动具身系统的高效学习与控制的动力协同表征，ICML，2024。
何凯波、左晨辉、马承天、隋亚楠。
[页面]
A-JEPA：联合嵌入预测架构能够“倾听”，arXiv，2023
费正聪、范明远、黄俊石
[页面]
One-2-3-45：无需逐形状优化，任何单张图像均可在45秒内转换为3D网格，NeurIPS，2023
刘明华、徐超、金海安、陈凌浩、Varma T, Mukund、徐泽翔、苏浩
[页面]
潜在变量能量模型导论：迈向自主机器智能之路，arXiv，2023
Dawid, Anna 和 LeCun, Yann
[页面]
GAPartNet：通过通用且可操作的部件实现跨类别领域通用的对象感知与操作，CVPR，2023
耿浩然、许赫林、赵成阳、徐超、李毅、黄思源、王鹤
[页面]
奖励自适应强化学习：用于双足行走的动态策略梯度优化，IEEE TPAMI，2023
黄昌鑫、王广润、周志博、张荣辉、林亮
[页面]
使用低成本硬件学习精细的双手操作，ICML，2023
Zhao, Tony Z、Kumar, Vikash、Levine, Sergey、Finn, Chelsea
[页面]
Surfer：结合世界模型的渐进式推理用于机器人操作，arXiv，2023。
任鹏振、张凯东、郑和涛、李子轩、温宇航、朱凤达、马斯马、梁晓丹。
[页面]
PartManip：从点云观测中学习跨类别通用的部件操作策略，CVPR，2023。
耿浩然、李子铭、耿怡然、陈佳依、董浩、王鹤。
[页面]
迈向自主机器智能之路版本 0.9.2，2022年6月27日，Open Review，2022
Yann LeCun
[页面]
Real2Sim2Real：用于平面机器人投掷的物理单步动态动作自监督学习，ICRA，2022
Lim, Vincent、Huang, Huang、Chen, Lawrence Yunliang、Wang, Jonathan、Ichnowski, Jeffrey、Seita, Daniel、Laskey, Michael 和 Goldberg, Ken
[页面]
基于轨迹优化与模型预测控制的足式机器人在踏脚石上的连续跳跃，IEEE CDC，2022
Nguyen, Chuong、Bao, Lingfan 和 Nguyen, Quan
[页面]
奖励自适应强化学习：双足行走的动态策略梯度优化，TPAMI，2022。
Changxin Huang、Guangrun Wang、Zhibo Zhou、Ronghui Zhang、Liang Lin。
[页面]
搬运网络：为机器人操作重新组织视觉世界，CoRL，2021
Zeng, Andy、Florence, Pete、Tompson, Jonathan、Welker, Stefan、Chien, Jonathan、Attarian, Maria、Armstrong, Travis、Krasin, Ivan、Duong, Dan、Sindhwani, Vikas 等
[页面]
MIT 人形机器人：特技行为的设计、运动规划与控制，IEEE-RAS 第20届国际人形机器人会议（Humanoids），2021
Chignoli, Matthew、Kim, Donghyun、Stanger-Jones, Elijah 和 Kim, Sangbae
[页面]
无需动力学随机化的强化学习Sim2Real迁移，IROS，2020
Kaspar, Manuel、Osorio, Juan D Mu{~n}oz 和 Bock, Jurgen
[页面]
学习灵巧的手部操作，国际机器人研究杂志，2020
Andrychowicz，OpenAI：Marcin、Baker，Bowen、Chociej，Maciek、Jozefowicz，Rafal、McGrew，Bob、Pachocki，Jakub、Petron，Arthur、Plappert，Matthias、Powell，Glenn、Ray，Alex 等
[页面]
DeepGait：利用深度强化学习规划与控制四足步态，IEEE机器人与自动化快报，2020
Tsounis, Vassilios、Alge, Mitja、Lee, Joonho、Farshidian, Farbod 和 Hutter, Marco
[页面]
MIT Cheetah 3 机器人的优化跳跃，ICRA，2019
Nguyen, Quan、Powell, Matthew J、Katz, Benjamin、Di Carlo, Jared 和 Kim, Sangbae
[页面]
世界模型，NIPS，2018
Ha, David 和 Schmidhuber, Jurgen
[页面]
MIT Cheetah 3：一款鲁棒、动态的四足机器人设计与控制，IEEE/RSJ 智能机器人与系统国际会议（IROS），2018
Bledt, Gerardo、Powell, Matthew J、Katz, Benjamin、Di Carlo, Jared、Wensing, Patrick M 和 Kim, Sangbae
[页面]
可变形物体操作的模拟到现实强化学习，CoRL，2018
Matas, Jan、James, Stephen 和 Davison, Andrew J
[页面]
具有单步预览功能的随机变化离散地形上的动态行走，机器人：科学与系统，2017
Nguyen, Quan、Agrawal, Ayush、Da, Xingye、Martin, William C、Geyer, Hartmut、Grizzle, Jessy W 和 Sreenath, Koushil
[页面]
用于优化运动控制器的深度核方法，CoRL，2017
Antonova, Rika、Rai, Akshara 和 Atkeson, Christopher G
[页面]
为未知做好准备：通过在线系统辨识学习通用策略，RSS，2017
Yu, Wenhao、Tan, Jie、Liu, C Karen 和 Turk, Greg
[页面]
领域随机化：将深度神经网络从仿真迁移到现实世界，IROS，2017
Tobin, Josh、Fong, Rachel、Ray, Alex、Schneider, Jonas、Zaremba, Wojciech 和 Abbeel, Pieter
[页面]
熟能生巧：基于优化的方法控制四足机器人的敏捷运动，IEEE机器人与自动化杂志，2016
Gehring, Christian、Coros, Stelian、Hutter, Marco、Bellicoso, Carmine Dario、Heijnen, Huub、Diethelm, Remo、Bloesch, Michael、Fankhauser, P{'e}ter、Hwangbo, Jemin 和 Hoepflinger, Mark 等
[页面]
ANYmal——一款高度机动且动态的四足机器人，IEEE/RSJ 智能机器人与系统国际会议（IROS），2016
Hutter, Marco、Gehring, Christian、Jud, Dominic、Lauber, Andreas、Bellicoso, C Dario、Tsounis, Vassilios、Hwangbo, Jemin、Bodie, Karen、Fankhauser, Peter 和 Bloesch, Michael 等
[页面]
基于优化的Atlas机器人全身控制，IEEE-RAS 国际人形机器人会议，2014
Feng, Siyuan、Whitman, Eric、Xinjilefu、X 和 Atkeson, Christopher G
[页面]
适用于MABEL的柔顺混合零动力学控制器：实现稳定、高效且快速的双足行走，国际机器人研究杂志，2011
Sreenath, Koushil、Park, Hae-Won、Poulakakis, Ioannis 和 Grizzle, Jessy W
[页面]
双足机器人的动态行走，国际机器人研究杂志，1984年
Miura, Hirofumi 和 Shimoyama, Isao
[页面]

数据集 🔝

待更新...

AgiBot World, 2025年。[链接]
RoboVerse, 2025年。[链接]
RefSpatial, 2025年。[链接]
VisualAgentBench, 2023年。链接
Open X-Embodiment, 2023年。链接
RH20T-P, 2024年。链接
ALOHA 2, 2024年。链接
GRUtopia, 2024年。链接
ARIO (All Robots In One), 2024年。链接
VLABench, 2024年。链接
Matterport3D, 2017年。[链接]
RoboMIND, 2025年。[链接]

身体化感知

视觉

BEHAVIOR Vision Suite, 2024年。[链接]
SpatialQA, 2024年。[链接]
SpatialBench, 2024年。[链接]
Uni3DScenes, 2024年。[链接]
Active Recognition Dataset, 2023年。[链接]
Baxter_UR5_95_Objects_Dataset, 2023年。[链接]
Caltech-256, 2022年。[链接]
DIDI Dataset, 2020年。[链接]
Replica, 2019年。[链接]
ScanObjectNN, 2019年。[链接]
OCID Dataset, 2019年。[链接]
L3RScan, 2019年。[链接]
EmbodiedScan, 2019年。[链接]
UZH-FPV Dataset, 2019年。[链接]
LM Data, 2019年。[链接]
TUM Visual-Inertial Dataset, 2018年。[链接]
ScanNet, 2017年。[链接]
SUNCG, 2017年。[链接]
Semantic 3D, 2017年。[链接]
ScanNet v2, 2017年。[链接]
S3DIS, 2016年。[链接]
Synthia, 2016年。[链接]
ModelNet, 2015年。[链接]
ORBvoc, 2015年。[链接]
Sketch dataset, 2015年。[链接]
SUN RGBD, 2015年。[链接]
ShapeNet, 2015年。[链接]
MVS Dataset, 2014年。[链接]
SUOD, 2013年。[链接]
SUN360, 2012年。[链接]
NYU Depth Dataset V2, 2012年。[链接]
TUM-RGBD, 2012年。[链接]
EuRoC MAV Dataset, 2012年。[链接]
Semantic KITTI, 2012年。[链接]
KITTI Object Recognition, 2012年。[链接]
Stanford Track Collection, 2011年。[链接]

触觉

Touch100k, 2024年。[链接]
ARIO (All Robots In One), 2024年。[链接]
TaRF, 2024年。[链接]
TVL, 2024年。[链接]
YCB-Slide, 2022年。[链接]
Touch and Go, 2022年。[链接]
SSVTP, 2022年。[链接]
ObjectFolder, 2021-2023年。[链接]
Decoding the BioTac, 2020年。[链接]
SynTouch, 2019年。[链接]
The Feeling of Success, 2017年。[链接]

身体化导航

ALFRED, 2020年。[链接]
REVERIE, 2020年。[链接]
CVDN, 2019年。[链接]
Room to Room (R2R), 2017年。[链接]
DivScene, 2024年。[链接]
LH-VLN, 2025年。[链接]

身体化问答

SpatialQA, 2024年。[链接]
S-EQA, 2024年。[链接]
HM-EQA, 2024年。[链接]
K-EQA, 2023年。[链接]
SQA3D, 2023年。[链接]
VideoNavQA, 2019年。[链接]
MP3D-EQA, 2019年。[链接]
MT-EQA, 2019年。[链接]
IQUAD V1, 2018年。[链接]
EQA, 2018年。[链接]

身体化操作

OAKINK2, 2024年。[链接]

其他有用的身体化项目与工具

资源

Awesome-Embodied-Agent-with-LLMs
Awesome Embodied Vision
Awesome Touch
Awesome VLA Study

模拟平台与环境

Habitat-Lab
Habitat-Sim
GibsonEnv
LEGENT
MetaUrban
GRUtopia
GenH2R
演示 HumanTHOR
BestMan
InfiniteWorld
Genesis
Cosmos

项目

操控

RoboMamba
MANIPULATE-ANYTHING
DexGraspNet
UniDexGrasp
UniDexGrasp++
OAKINK2
AgiBot-World

身体化交互

EmbodiedQA

身体化感知

EmbodiedScan

模型与工具

Octopus
Holodeck
AllenAct

代理

LEO
Voyager

:newspaper: 引用

如果您认为本综述有所帮助，请随时点个赞 ⭐️ 并引用我们的论文：

@article{liu2024aligning,
  title={将网络空间与物理世界对齐：身体化人工智能的全面综述},
  author={刘洋、陈伟星、白永杰、梁晓丹、李冠斌、高文、林亮},
  journal={arXiv 预印本 arXiv:2407.06886},
  year={2024}
}

@article{liu2025aligning,
  title={将网络空间与物理世界对齐：身体化人工智能的全面综述},
  author={刘洋、陈伟星、白永杰、梁晓丹、李冠斌、高文、林亮},
  journal={IEEE/ASME 机电一体化汇刊},
  year={2025}
}

👏 致谢

我们衷心感谢罗景洲、宋新帅、蒋凯旋、林俊毅、李志达和赵甘龙的贡献。

Embodied_AI_Paper_List 快速上手指南

Embodied_AI_Paper_List 并非一个需要编译安装的软件工具，而是一个由中山大学 HCPLab 维护的具身智能（Embodied AI）领域论文与资源汇总仓库。它主要作为研究文献库、综述参考及数据集索引使用。开发者无需复杂的环境配置，即可通过浏览器或 Git 直接获取资源。

环境准备

本项目无特殊的系统或依赖要求，仅需具备以下基础环境之一：

操作系统：Windows / macOS / Linux 均可。
必备工具：
- Web 浏览器：用于直接在线浏览分类列表和下载论文（推荐 Chrome 或 Edge）。
- Git（可选）：用于克隆仓库到本地，方便离线查阅或贡献代码。
- PDF 阅读器：用于阅读下载的综述论文和数据集文档。

国内访问建议：由于项目托管在 GitHub 上，国内用户若遇到访问速度慢或图片加载失败的问题，建议使用 Gitee 镜像（如有）或通过 GitHub 加速代理 进行克隆。在线阅读时，可直接访问提供的 arXiv 链接或国内学术镜像站获取论文全文。

安装步骤（获取资源）

你可以通过以下两种方式获取该资源列表：

方式一：在线浏览（推荐）

直接访问 GitHub 项目页面，查看实时更新的 README.md 文件，其中包含了按类别整理的最新论文列表。

项目地址：https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

方式二：克隆到本地

如果你希望离线查阅或通过 Pull Request 贡献新的论文条目，请使用以下命令克隆仓库：

git clone https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.git
cd Embodied_AI_Paper_List

国内加速命令（如果原生克隆失败）：
git clone https://ghp.ci/https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List.git

基本使用

本项目的核心用途是检索文献和下载报告。以下是两种最常用的使用场景：

1. 检索特定领域的论文

打开项目根目录下的 README.md 文件（或在 GitHub 网页端查看），利用目录导航快速定位到你感兴趣的研究方向。主要分类包括：

Books & Surveys：书籍与综述文章（适合入门和了解前沿）。
Embodied Simulators：具身仿真器（如 Isaac Sim, MuJoCo, Habitat 等）。
Embodied Perception：具身感知。
Embodied Interaction：具身交互。
Embodied Agent：具身智能体。
Sim-to-Real Adaptation：仿真到现实的迁移。
Datasets：相关数据集汇总。

示例：若想查找关于“世界模型（World Models）”的综述，可在 Books & Surveys 章节找到标题为 "A Comprehensive Survey on World Models for Embodied AI" 的条目，点击 [Paper] 链接即可跳转至 arXiv 下载 PDF。

2. 下载核心综述报告

该项目配套了一篇发表在 IEEE/ASME Transactions on Mechatronics 2025 上的深度综述论文，是理解该领域的绝佳起点。

论文标题：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
下载方式：直接在浏览器打开以下链接获取完整版 PDF：
```
https://arxiv.org/pdf/2407.06886
```
或者在克隆后的本地仓库中查找 EmbodiedAI_Review.pdf 文件（如果仓库包含该附件）。

3. 贡献新论文（进阶）

如果你发现了最新的相关论文并希望收录其中，可以 Fork 该项目，修改 README.md 文件添加条目，然后发起 Pull Request。

* **论文标题**, arXiv:编号, 年份
作者列表.
[[Paper](论文链接)]

常见问题

如何向该论文列表项目推荐或添加新的相关论文？

如果发现列表中某篇论文的引用链接错误，该如何反馈？

项目中的论文是按什么顺序排列的？未来会如何更新？

是否接受特定细分领域（如扩散策略 Diffusion Policy）的论文推荐？

提交的论文推荐会被立即处理吗？

我可以一次性推荐多篇不同任务类型（如操作和导航）的论文吗？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架