Awesome-Embodied-Robotics-and-Agent

1.8k 91 非常简单 1 次阅读今天Apache-2.0语言模型Agent其他

AI 解读由 AI 自动生成，仅供参考

Awesome-Embodied-Robotics-and-Agent 是一个精心整理的开源资源库，专注于汇聚“具身智能”领域的前沿研究，特别是结合大语言模型（LLM）和视觉 - 语言模型（VLM）的机器人与智能体技术。它旨在解决该领域论文爆发式增长导致的信息分散问题，为研究者提供一站式的高质量文献导航，涵盖从基础理论综述、视觉 - 语言 - 动作模型（VLA）、智能体自我进化，到多智能体协作及各类仿真基准测试等全方位内容。

该资源库特别适合人工智能研究人员、机器人开发者以及高校师生使用。无论是希望快速把握行业趋势的初学者，还是需要追踪最新算法（如 π-0.5 轻量级框架、Mobile-Agent-v2 等）的资深专家，都能从中高效获取关键信息。其独特亮点在于不仅收录了经典的学术论文，还持续更新包括 ICLR、CVPR 等顶级会议的最新成果，甚至涵盖了智能体在电子游戏中的创新应用案例。通过清晰的分类目录和及时的动态维护，Awesome-Embodied-Robotics-and-Agent 成为了连接理论研究与实际落地的重要桥梁，助力社区共同推动具身智能技术的发展。

使用场景

某高校具身智能实验室的研究团队正致力于开发一款能理解自然语言指令并执行复杂家务操作的机器人，急需整合视觉 - 语言 - 动作（VLA）模型与多智能体协作技术。

没有 Awesome-Embodied-Robotics-and-Agent 时

文献检索效率低下：研究人员需在 arXiv、GitHub 和各大会议网站间手动穿梭，耗费数周才能拼凑出关于"Self-Evolving Agents"或"Efficient VLA"的零散论文，极易遗漏如 ICLR 2024 获奖论文等关键成果。
技术选型盲目试错：面对层出不穷的新框架（如 π-0.5 或 Mobile-Agent-v2），团队缺乏系统性的对比视角，往往花费大量时间复现过时或不适合物理系统的模型，导致项目进度严重滞后。
前沿动态感知滞后：由于缺乏统一的更新源，团队难以及时获取如"CRADLE 在游戏中的智能体应用”或最新的多智能体协同导航方案，导致研究思路局限于旧有范式，创新性不足。
基准测试标准混乱：在评估机器人性能时，找不到权威且最新的 Benchmark 列表，不同组员使用不同的评测数据集，导致实验结果无法横向对比，验证周期被无限拉长。

使用 Awesome-Embodied-Robotics-and-Agent 后

一站式资源聚合：团队直接利用该仓库分类清晰的目录（如 Vision-Language-Action Model、Simulator），几分钟内即可锁定 2025 年最新的高效 VLA 综述及相关代码库，文献调研时间缩短 80%。
精准技术落地：通过查看仓库中关于 π-0.5 轻量化框架和 Mobile-Agent-v2 的具体介绍，团队迅速确定了适合嵌入式设备的感知控制方案，避免了在非模块化架构上的无效投入。
实时追踪前沿突破：订阅仓库更新后，团队第一时间掌握了代理自进化（Self-Evolution）和多智能体协作的最新进展，迅速将"Learning Interactive Real-World Simulators"的思路引入仿真训练，显著提升了算法泛化能力。
统一评测体系：依据仓库推荐的 Benchmark 和 Simulator 列表，团队建立了标准化的评估流程，确保了实验数据的可比性，加速了从仿真到真机部署的迭代闭环。

Awesome-Embodied-Robotics-and-Agent 将原本分散杂乱的具身智能研究资源转化为结构化的知识图谱，成为研发团队加速技术落地与创新的核心引擎。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个精选的论文和资源列表（Awesome List），而非一个可直接运行的单一软件工具。它汇集了多个独立的开源项目（如 OpenVLA, π0, Mobile-Agent 等），每个子项目都有各自独立的运行环境、依赖库和硬件需求。用户需根据列表中感兴趣的具体论文或项目，访问其提供的 GitHub 链接或项目主页以获取详细的安装和运行说明。

python未说明

Awesome-Embodied-Robotics-and-Agent hero image

快速开始

🤖 令人惊叹的具身机器人与智能体

这是一个由haonan维护的精选列表，专注于“结合视觉-语言模型（VLMs）和大型语言模型（LLMs）的具身机器人或智能体”相关研究。

请关注本仓库以获取最新动态，并如果您发现一些有趣的论文，欢迎随时提交Pull Request！

新闻🔥

[2025/10/30] 🎉 我们的综述论文“高效视觉-语言-行动模型综述”[arXiv]已发布！
[2025/04/23] 增加了π-0.5，这是一个轻量级且模块化的框架，旨在将感知、控制和学习直接集成到物理系统中。
[2025/03/18] 添加了一些流行的视觉-语言-行动（VLA）模型。🦾
[2024/06/28] 创建了一个关于智能体自我进化研究的新板块。🤖
[2024/06/07] 添加了Mobile-Agent-v2，这是一款通过多智能体协作实现高效导航的移动设备操作助手。🚀
[2024/05/13] 添加了“学习交互式真实世界模拟器”——该论文荣获ICLR 2024杰出论文奖🥇。
[2024/04/24] 添加了“大型语言模型的自我进化综述”，这是一篇系统性地探讨LLM自我进化的综述！💥
[2024/04/16] 添加了一些CVPR 2024的论文。
[2024/04/15] 添加了MetaGPT，该论文被ICLR 2024接受为口头报告（排名前1.2%），并在基于LLM的智能体类别中位居#1。🚀
[2024/03/13] 添加了CRADLE，一篇有趣的研究论文，探讨了在《荒野大镖客2》中使用LLM驱动的智能体！🎮

具身机器人发展与基准测试

π0-video-1

π0-video-2

π0-video-3

视频演示及图片来自[1]和[2]。

方法

综述

高效视觉-语言-行动模型综述 [arXiv 2025.10] [Github] [项目页面]
余照书¹, 王博¹, 曾鹏鹏¹, 张浩楠¹, 张继¹, 高莲莉³, 宋京宽¹, 尼库·塞贝⁴, 沈恒涛¹

¹同济大学， ²西南交通大学， ³电子科技大学， ⁴特伦托大学

面向具身AI的视觉-语言-行动模型综述 [arXiv 2024.03]
香港中文大学、华为诺亚方舟实验室
大型多模态智能体：综述 [arXiv 2024.02] [Github]
谢俊林^♣♡ 陈志宏^♣♡ 张瑞飞^♣♡ 向万^♣ 李冠斌^♠

^♡香港中文大学深圳分校，^♣深圳大数据研究院，^♠中山大学

大型语言模型的自我进化综述 [arXiv 2024.01]
HCST重点实验室（北大）、教育部；北京大学计算机学院、阿里巴巴集团、南洋理工大学
智能体AI：探索多模态交互的边界 [arXiv 2024.01]
斯坦福大学、微软研究院（雷德蒙德）、加州大学洛杉矶分校、华盛顿大学、微软游戏部门
点燃语言智能：从思维链推理到语言智能体的指南 [arXiv 2023.11]
上海交通大学、亚马逊云服务、耶鲁大学
基于大型语言模型的智能体崛起与潜力：综述 [arXiv 2023.09]
复旦NLP小组、米哈游公司
基于LLM的自主智能体综述 [arXiv 2023.08]
高瓴人工智能学院、中国人民大学

视觉-语言-行动模型

D2E：在桌面数据上扩展视觉-行动预训练，以迁移到具身AI [ICLR 2026] [Github][项目页面][HuggingFace🤗]
斯坦福大学、首尔国立大学、MAUM.AI
基于具身思维链推理的机器人控制 [CoRL 2024] [Github][项目页面][HuggingFace🤗]
米哈尔·扎瓦尔斯基^∗1,2, 威廉·陈^∗1, 卡尔·佩尔奇^1,3 奥耶尔·梅斯¹, 切尔西·芬恩³, 谢尔盖·莱文¹

¹加州大学伯克利分校，²华沙大学，³斯坦福大学

π0.5：具有开放世界泛化能力的VLA [arXiv 2025.04] [项目页面]
物理智能
π0：用于通用机器人控制的视觉-语言-动作流模型 [arXiv 2024.10] [项目页面]
物理智能
Hi Robot：基于层次化视觉-语言-动作模型的开放式指令遵循 [arXiv 2025.02] [项目页面]
物理智能
OpenVLA：开源视觉-语言-动作模型 [arXiv 2024.01] [Github][项目页面][HuggingFace🤗]
斯坦福大学、加州大学伯克利分校、丰田研究院、谷歌DeepMind、物理智能、麻省理工学院
FAST：视觉-语言-动作模型的高效动作标记化 [arXiv 2025.01] [项目页面][HuggingFace🤗]
物理智能
RT-2：将网络知识迁移到机器人控制中的视觉-语言-动作模型 [arXiv 2024.07] [项目页面]
谷歌DeepMind
Embodied-Reasoner：为具身交互任务协同视觉搜索、推理与行动 [arXiv 2025.03] [Github] [项目页面] [HuggingFace🤗]
浙江大学；中国科学院软件研究所；阿里巴巴集团

自我进化的智能体

Meta-Control：面向异构机器人技能的自动模型基控制系统合成 [CoRL 2024] [项目页面]
Tianhao Wei^1*, Liqian Ma^12*, Rui Chen¹, Weiye Zhao¹, Changliu Liu¹

¹卡内基梅隆大学 ²清华大学

AGENTGYM：在多样化环境中进化大型语言模型驱动的智能体 [arXiv 2024.06] [Github] [项目页面]
复旦NLP实验室及复旦视觉与学习实验室
交互式进化：大型语言模型的神经符号自训练框架 [arXiv 2024.06] [Github]
Fangzhi Xu^♢♡, Qiushi Sun^{2, ♡}, Kanzhi Cheng¹, Jun Liu^♢, Yu Qiao♡, Zhiyong Wu^♡

^♢西安交通大学，^♡上海人工智能实验室，¹香港大学，²南京大学

符号学习赋能自我进化的智能体 [arXiv 2024.06] [Github]
Wangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang
AIWaves公司 https://meta-control-paper.github.io/

高级智能体应用

Meta-Control：面向异构机器人技能的自动模型基控制系统合成 [CoRL 2024] [项目页面]
Tianhao Wei^1*, Liqian Ma^12*, Rui Chen¹, Weiye Zhao¹, Changliu Liu¹

^*共同第一作者 ¹卡内基梅隆大学 ²清华大学

[Embodied-agents] [Github]
无缝集成最先进的Transformer模型到机器人系统中。
Mobile-Agent-v2：通过多智能体协作实现高效导航的移动设备操作助手 [arXiv 2024] [Github]
Junyang Wang¹, Haiyang Xu², Haitao Jia¹, Xi Zhang², Ming Yan², Weizhou Shen², Ji Zhang², Fei Huang², Jitao Sang¹

¹北京交通大学 ²阿里巴巴集团

Mobile-Agent：强大的移动设备操作助手家族 [ICLR 2024 LLM智能体研讨会] [Github]
Junyang Wang¹, Haiyang Xu², Jiabo Ye², Ming Yan², Weizhou Shen², Ji Zhang², Fei Huang², Jitao Sang¹

¹北京交通大学 ²阿里巴巴集团

[Machinascript-for-robots] [Github]
使用MachinaScript For Robots，在自家车库就能打造LLM驱动的机器人！
[ros2_medkit] [Github] [MCP服务器]
基于LLM的ROS 2机器人诊断——故障检测、根本原因分析，并通过MCP实现自我修复。
DiffAgent：利用大型语言模型快速准确地选择文生图API [CVPR 2024] [Github]
Lirui Zhao^1,2 Yue Yang^2,4 Kaipeng Zhang² Wenqi Shao², Yuxin Zhang¹, Yu Qiao², Ping Luo^2,3 Rongrong Ji¹

¹厦门大学，²OpenGVLab、上海人工智能实验室，³香港大学，⁴上海交通大学

MetaGPT：用于多智能体协作框架的元编程 [ICLR 2024（口头报告）]
DeepWisdom、AI Initiative、阿卜杜拉国王科技大学、厦门大学、香港中文大学、深圳、南京大学、宾夕法尼亚大学、加州大学伯克利分校、瑞士AI实验室IDSIA/USI/SUPSI
AppAgent：作为智能手机用户的多模态智能体 [项目页面] [Github]
张驰∗ 赵阳∗ 刘家轩∗ 韩宇成陈鑫黄泽彪付斌于刚†
腾讯

结合强化学习或世界模型的大型语言模型

KALM：基于大型语言模型回放的离线强化学习构建的知识型智能体 [NeurIPS 2024] [项目页面]
庞景程、杨思航、李凯源、张嘉吉、陈雄辉、唐楠、余洋

¹南京大学，²Polixir.ai

学习交互式真实世界模拟器 [ICLR 2024（杰出论文）] [项目页面]
杨雪莉^1,2、杜一伦³、加米亚尔·卡塞米普尔²、乔纳森·汤普森²、莱斯利·凯尔布林³、戴尔·舒尔曼斯²、皮特·阿贝尔¹

¹UC伯克利，²谷歌DeepMind，³MIT

鲁棒智能体学习因果世界模型 [ICLR 2024]
乔纳森·里琴斯*、汤姆·埃弗里特
谷歌DeepMind
由大型语言模型从平行TextWorld训练的具身多模态智能体 [CVPR 2024] [Github]
杨义军¹⁵⁴、周天翼²、李侃学³、陶大鹏³、李路松⁴、沈力⁴、何晓东⁴、蒋静⁵、史宇辉¹

¹南方科技大学，²马里兰大学帕克分校，³云南大学，⁴京东探索研究院，⁵悉尼科技大学

利用预训练大型语言模型构建并使用基于模型的任务规划世界模型 [NeurIPS 2023] [项目页面][Github]
关琳¹、卡尔蒂克·瓦尔米坎¹、萨拉特·斯里德哈兰²、苏巴拉奥·坎巴帕蒂¹

¹亚利桑那州立大学坦佩校区计算与人工智能学院，²科罗拉多州立大学计算机科学系

Eureka：通过编码大型语言模型实现人类水平的奖励设计 [NeurIPS 2023 ALOE研讨会亮点] [项目页面] [Github]
贾森·马^1,2、威廉·梁²、王冠志^1,3、黄德安¹，奥斯伯特·巴斯塔尼²、迪内什·贾亚拉曼²、朱玉科^1,4、范林希“吉姆”¹、阿尼玛·阿南德库马尔^1,3

¹NVIDIA；²宾夕法尼亚大学；³加州理工学院；⁴德州大学奥斯汀分校

RLAdapter：在开放世界中将大型语言模型与强化学习连接起来 [arXiv 2023]
语言智能体能否替代PPO？关于OpenAI Gym的初步实证研究 [arXiv 2023]
RoboGPT：用于日常指令任务的具身长期决策智能体 [arXiv 2023]
像大型语言模型一样对齐智能体 [arXiv 2023]
AMAGO：面向自适应智能体的可扩展上下文强化学习 [ICLR 2024亮点]
STARLING：利用大型语言模型进行文本强化学习智能体的自监督训练 [arXiv 2023]
Text2Reward：利用语言模型为强化学习生成密集奖励 [ICLR 2024亮点]
在文本多智能体强化学习中利用大型语言模型优化协作 [arXiv 2023]
面向交互式指令跟随智能体的在线持续学习 [ICLR 2024]
ADAPTER-RL：利用强化学习适配任意智能体 [arXiv 2023]
用于强化学习预训练的语言奖励调制 [arXiv 2023]
通过将自然语言映射到马尔可夫决策过程来指导强化学习智能体 [arXiv 2023]
用语言学习建模世界 [arXiv 2023]
MAMBA：一种用于元强化学习的有效世界模型方法 [ICLR 2024]
用于强化学习预训练的语言奖励调制 [arXiv 2023] [Github]
阿德米·阿德尼吉、安珀·谢、卡梅洛·斯费拉扎、徐永教、斯蒂芬·詹姆斯、皮特·阿贝尔

¹UC伯克利

用大型语言模型指导强化学习的预训练 [ICML 2023]
杜雨晴^1*、奥利维娅·沃特金斯^1*、王子涵²、塞德里克·科拉斯^3,4、特雷弗·达雷尔¹、皮特·阿贝尔¹、阿比舍克·古普塔²、雅各布·安德烈亚斯³

¹美国加州大学伯克利分校电气工程与计算机科学系，²华盛顿大学西雅图分校，³麻省理工学院计算机科学与人工智能实验室，⁴Inria花卉实验室。

规划与操作或预训练

RoboRefer：迈向机器人视觉—语言模型中的推理空间指代 [Arxiv 2025] [项目页面] [代码]
周恩深^1,2,、安京坤^1,、迟诚^2,*

¹北京航空航天大学，²北京人工智能研究院

RoboSpatial：为机器人2D和3D视觉-语言模型教授空间理解能力 [CVPR 2025（口头报告）] [项目页面] [代码]
宋灿熙¹、瓦尔茨·布卢基斯²、乔纳森·特伦布雷²、斯蒂芬·泰里²、苏宇¹、斯坦·伯奇菲尔德²

¹俄亥俄州立大学，²NVIDIA

基于多模态接地的规划与高效重规划：通过少量示例学习具身智能体 [AAAI 2025] [项目页面]
金泰雄、金炳辉、崔钟贤^†
首尔国立大学
具身指令遵循智能体的环境反馈驱动式抢先行动修正 [CoRL 2024] [项目页面]
金珍妍^1,2,、闵哲洪^1,、金炳辉¹、崔钟贤¹

¹首尔国立大学 ²延世大学

元控制：面向异构机器人技能的自动模型基控制系统综合 [CoRL 2024] [项目页面]
魏天浩^1*、马丽倩^12*、陈睿¹、赵伟业¹、刘长流¹

^*共同第一作者 ¹卡内基梅隆大学 ²清华大学

Voyager：基于大型语言模型的开放式具身智能体 [NeurIPS 2023研讨会 ALOE Spotlight] [项目页面] [Github]
王冠志^1,2、谢宇奇³、蒋云帆⁴、曼德尔卡尔¹、肖超伟^1,5、朱玉科^1,3、范林溪¹、安南德库马尔^1,2

¹NVIDIA，²加州理工学院，³得克萨斯大学奥斯汀分校，⁴斯坦福大学，⁵威斯康星大学麦迪逊分校

Agent-Pro：通过策略级反思与优化实现自我进化学习 [ACL 2024][Github]
张文琪、唐科、吴海、王梦娜、沈永亮、侯贵阳、谭泽奇、李鹏、庄雨婷、陆伟明
自我对比：通过不一致的解题视角促进更佳的反思 [ACL 2024]
张文琪、沈永亮、吴琳娟、彭秋英、王军、庄雨婷、陆伟明
MineDreamer：通过想象链式推理学习指令跟随，用于模拟世界控制 [arXiv 2024] [项目页面]
周恩深^1,2、秦怡然^1,3、尹振飞^1,4、黄宇洲³、张瑞茂³、盛路²、乔宇¹、邵静¹

¹上海人工智能实验室，²香港中文大学深圳校区，³北京航空航天大学，⁴悉尼大学

MP5：基于主动感知的Minecraft多模态开放式具身系统 [CVPR 2024] [项目页面]
秦怡然^1,2、周恩深^1,3、刘启昌^1,4、尹振飞^1,5、盛路³、张瑞茂²、乔宇¹、邵静¹

¹上海人工智能实验室，²香港中文大学深圳校区，³北京航空航天大学，⁴清华大学，⁵悉尼大学

代码即监控：面向反应式与主动式的机器人故障检测的约束感知型可视化编程 [CVPR 2025] [项目页面]
周恩深^1*、苏琪^2*、池成^3*；、张志正⁴、王中源³、黄铁军^2,3、盛路^1；、汪鹤^2,3,4；

¹北京航空航天大学，²北京大学，³北京智源人工智能研究院，⁴GalBot

RILA：零样本语义视听导航的反思性与想象力语言智能体 [CVPR 2024]
杨泽远¹、刘嘉庚、陈培豪²、阿努普·切里安³、蒂姆·马克斯、乔纳森·勒鲁⁴、甘创⁵

¹清华大学，²华南理工大学，³三菱电机研究实验室（MERL），⁴三菱电机研究实验室，⁵MIT-IBM 沃森人工智能实验室

迈向通用计算机控制：以《荒野大镖客2》为例的多模态智能体 [arXiv 2024] [项目页面] [代码]
谭伟浩²、丁子洛¹、张文涛²、李博宇¹、周博文³、岳俊鹏³、夏浩冲²、蒋杰川³、郑龙涛²、徐欣润¹、毕一飞¹、顾鹏杰²,

¹中国北京智源人工智能研究院；²新加坡南洋理工大学；³中国北京大学计算机学院

看见并思考：虚拟环境中的具身智能体 [arXiv 2023]
赵仲涵^1*、柴文浩^2*、王轩^1*、李博毅¹、郝圣宇¹、曹士东¹、田叶³、黄景能²、王高昂¹

¹浙江大学 ¹华盛顿大学 ¹香港科技大学（广州）

智能体指导大型语言模型成为通用零样本推理者 [arXiv 2023]
尼古拉斯·克里斯皮诺¹、凯尔·蒙哥马利¹、曾凡坤¹、邓恩·宋²、王晨光¹

¹圣路易斯华盛顿大学，²加州大学伯克利分校

JARVIS-1：具有记忆增强型多模态语言模型的开放世界多任务智能体 [NeurIPS 2023] [项目页面]
王子豪^1,2 蔡绍飞^1,2 刘安吉³ 金永刚⁴ 侯金兵⁴ 张博伟⁵ 林浩伟^1,2 何兆峰⁴ 郑子龙⁶ 杨耀东¹ 马晓健^6† 梁义涛^1†
¹北京大学人工智能研究院，²北京大学智能科学与技术学院，³加州大学洛杉矶分校计算机科学系，⁴北京邮电大学，⁵北京大学电子工程与计算机科学学院，⁶北京通用人工智能研究院（BIGAI）
描述、解释、规划与选择：基于大型语言模型的交互式规划赋能开放世界多任务智能体 [NeurIPS 2023]
王子豪^1,2 蔡绍飞^1,2 陈冠州³ 刘安吉⁴ 马晓健⁴ 梁义涛^1,5†
¹北京大学人工智能研究院，²北京大学智能科学与技术学院，³北京邮电大学计算机学院，⁴加州大学洛杉矶分校计算机科学系，⁵北京通用人工智能研究院（BIGAI）
CAMEL：用于大规模语言模型社会“心智”探索的沟通型智能体 [NeurIPS 2023] [Github] [项目页面]
李国豪、哈桑·阿贝德·阿尔·卡德尔·哈穆德、哈尼·伊塔尼、德米特里·希兹布林、伯纳德·加内姆

¹阿卜杜拉国王科技大学（KAUST）

语言模型作为零样本规划器：为具身智能体提取可操作知识 [arXiv 2022] [Github] [项目页面]
黄文龙¹, 彼得·阿贝尔¹, 迪帕克·帕塔克², 伊戈尔·莫达奇³

¹UC伯克利，²卡内基梅隆大学，³谷歌

FILM：通过模块化方法遵循语言指令 [ICLR 2022] [Github] [项目页面]
闵素妍¹, 查普洛特·德文德拉², 拉维库马尔·普拉迪普¹, 比斯克·约纳坦¹, 萨拉胡丁诺夫·鲁斯兰¹

¹卡内基梅隆大学，²Facebook AI Research

基于大型语言模型的具身任务规划 [arXiv 2023] [Github] [项目页面] [演示] [Huggingface模型]
吴振宇¹, 王子威^2,3, 徐秀伟^2,3, 卢继文^2,3, 闫海斌^1*

¹北京邮电大学自动化学院， ²清华大学自动化系， ³北京国家信息科学技术研究中心

SPRING：通过研读论文和推理，GPT-4的表现超越强化学习算法 [arXiv 2023]
吴悦^1,4* , 普拉布莫耶·施里迈² , 闵素妍¹ , 比斯克·约纳坦¹ , 萨拉胡丁诺夫·鲁斯兰¹ , 阿扎里亚·阿莫斯³ , 米切尔·汤姆¹ , 李元智^1,4

¹卡内基梅隆大学，²NVIDIA，³阿里埃尔大学，⁴微软研究

PONI：用于ObjectGoal导航的势能函数，无需交互式学习 [CVPR 2022（口头报告）] [项目页面] [Github]
桑托什·库马尔·拉马克里希南^1,2, 查普洛特·德文德拉¹, 扎伊德·阿尔-哈拉赫² 贾廷德拉·马利克^1,3, 克里斯汀·格劳曼^1,2

¹Facebook AI Research，²UT奥斯汀，³UC伯克利

向后而行以向前迈进：将动作影响嵌入到动作语义中 [ICLR 2023] [项目页面] [Github]
曾国豪¹, 卢卡·魏斯², 鲁兹贝·莫塔吉¹, 阿里·法拉希¹

¹华盛顿大学保罗·G·艾伦计算机科学与工程学院， ²PRIOR @ Allen Institute for AI

用场景图记忆建模动态环境 [ICML 2023]
安德烈·库伦科夫¹, 迈克尔·林格尔巴赫¹, 坦迈·阿加瓦尔¹, 艾米丽·金¹, 李成书¹, 张若涵¹, 李飞飞¹, 吴家俊¹, 萨瓦雷斯·西尔维奥², 马丁-马丁·罗伯托³

¹斯坦福大学计算机科学系 ²Salesforce AI Research ³德克萨斯大学奥斯汀分校计算机科学系。

利用语言模型进行推理即是在使用世界模型进行规划 [arXiv 2023]
郝世博^∗♣, 顾毅^∗♣, 马浩迪^♢, 洪嘉华·乔舒亚^♣, 王振^{♣ ♠}, 王哲·黛西^♢, 胡志婷^♣

^♣UC圣地亚哥，^♢佛罗里达大学， ^♠穆罕默德·本·扎耶德人工智能大学

做我能做到的，而不是我说的：将语言与机器人可用性相结合 [arXiv 2022]
谷歌机器人团队，Everyday Robots
具身智能体是否会梦见像素化的羊？：基于语言引导的世界建模的具身决策 [ICML 2023]
科尔比·诺丁汉¹ 普里特维拉吉·阿曼纳布罗卢² 阿兰·苏尔² 耶金·乔伊^3,2 哈娜内·哈吉希尔齐^3,2 萨米尔·辛格^1,2 罗伊·福克斯¹

¹加州大学欧文分校计算机科学系 ²艾伦人工智能研究所 ³保罗·G·艾伦计算机科学学院

面向指令遵循的具身智能体的上下文感知规划与环境感知记忆 [ICCV 2023] [项目页面]
金炳辉金珍妍金有英^1,* 闵哲洪崔钟贤^†
延世大学 ¹光州科学技术院
内心独白：通过语言模型规划实现具身推理 [CoRL 2022] [项目页面]
谷歌机器人实验室
语言模型邂逅世界模型：具身经验增强语言模型 [arXiv 2023] [Twitter]
向建南^∗♠, 陶天华^∗♠, 顾毅^♠, 舒天敏^♢, 王子睿^♠, 杨子超^♡, 胡志廷^♠

^♠加州大学圣地亚哥分校, ^♣伊利诺伊大学厄巴纳-香槟分校, ^♢麻省理工学院, ^♡卡内基梅隆大学

AlphaBlock：用于机器人操作中视觉-语言推理的具身微调 [arXiv 2023] [视频]
金初浩^1* , 谭文辉^1* , 杨建阁^2* , 刘贝3^† , 宋瑞华¹ , 王利民² , 傅建龙^3†

¹中国人民大学, ²南京大学, ³微软研究院

用于高层自然语言指令执行的持久化空间语义表示 [CoRL 2021] [项目页面] [海报]
瓦尔茨·布鲁基斯^1,2, 克里斯·帕克斯顿¹, 迪特·福克斯^1,3, 阿尼梅什·加格^1,4, 约阿夫·阿策²

¹NVIDIA ²康奈尔大学 ³华盛顿大学 ⁴多伦多大学，Vector Institute

LLM-Planner：利用大型语言模型为具身智能体进行少样本接地规划 [ICCV 2023] [项目页面] [Github]
宋灿熙¹, 吴佳曼¹, 克莱顿·华盛顿¹, 布赖恩·M·萨德勒², 曹伟伦¹, 苏宇¹

¹俄亥俄州立大学, ²DEVCOM ARL

代码即策略：用于具身控制的语言模型程序 [arXiv 2023] [项目页面] [Github] [博客] [Colab]
杰基·梁、黄文龙、夏飞、徐鹏、卡罗尔·豪斯曼、布莱恩·伊克特、皮特·弗洛伦斯、安迪·曾
谷歌机器人实验室
3D-LLM：将三维世界注入大型语言模型 [arXiv 2023]

¹洪怡宁, ²甄浩宇, ³陈培浩, ⁴郑书红, ⁵杜一伦, ⁶陈振芳, ^6,7甘创
¹加州大学洛杉矶分校 ²上海交通大学 ³华南理工大学 ⁴伊利诺伊大学厄巴纳-香槟分校 ⁵麻省理工学院 ⁶MIT-IBM沃森人工智能实验室 ⁷马萨诸塞大学阿默斯特分校

VoxPoser：结合语言模型的可组合3D价值图用于机器人操作 [arXiv 2023] [项目页面] [在线演示]
黄文龙¹, 王晨¹, 张若涵¹, 李云珠^1,2, 吴家俊¹, 李飞飞¹

¹斯坦福大学 ²伊利诺伊大学厄巴纳-香槟分校

Palm-e：一种具身多模态语言模型 [ICML 2023] [项目页面]

¹谷歌机器人实验室 ²柏林工业大学 3谷歌研究

大型语言模型作为大规模任务规划中的常识知识 [arXiv 2023]
赵子睿李伟孙大卫·许
新加坡国立大学计算机学院
三维世界中的具身通用智能体 [ICML 2024]
黄江勇、雍思龙、马晓健、凌虎雄坤、李普浩、王燕、李青、朱松春、贾宝雄、黄思远北京通用人工智能研究院 (BIGAI)

多智能体学习与协作

利用大型语言模型模块化构建合作型具身智能体 [ICLR 2024] [项目页面] [Github]
张宏鑫^1*, 杜伟华^2*, 山嘉明³, 周勤洪¹, 杜一伦⁴, 乔舒亚·B·特南鲍姆⁴, 舒天敏⁴, 甘创^1,5

¹马萨诸塞大学阿默斯特分校, ²清华大学, ³上海交通大学, ⁴MIT, ⁵MIT-IBM沃森人工智能实验室

战争与和平（WarAgent）：基于大型语言模型的世界大战多智能体仿真 [arXiv 2023]
华文悦^1*，范立洲^2*，李凌瑶²，梅凯¹，季建超¹，葛英强¹，利比·亨菲尔²，张永峰¹

¹罗格斯大学，²密歇根大学

MindAgent：涌现式游戏交互 [arXiv 2023]
龚然^*1† 黄秋源^*2‡ 马晓健^*1 霍伊·沃³ 泽恩·杜兰特^†4 野田悠介³ 郑子龙⁵ 朱松纯¹⁵⁶⁷⁸ 德米特里·特尔佐波洛斯¹ 李飞飞⁴ 高剑锋²
¹加州大学洛杉矶分校；²微软雷德蒙德研究院；³微软Xbox团队；⁴斯坦福大学；⁵BIGAI；⁶北京大学；⁷清华大学；⁸加州大学洛杉矶分校
通过隐式与双向课程实现无需演示的自主强化学习 [ICML 2023]
金志刚^*1,2 曹大瑟^*1,2 金洪镇^1,3

¹首尔国立大学，²首尔国立大学人工智能研究所（AIIS），³自动化与系统研究所有限公司（ASRI）。
注：本文主要关注具身人工智能中的强化学习。

社交具身重组中的适应性协调 [ICML 2023]
安德鲁·索特^1,2 安纳特·贾因¹ 德鲁夫·巴特拉^1,2 兹索特·基拉² 鲁塔·戴赛¹ 阿克沙拉·赖¹

¹Meta AI ²佐治亚理工学院。

视觉与语言导航

CANVAS：面向直观人机交互的常识感知导航系统 [ICRA 2025]
崔秀焕¹ 曹勇俊¹ 金珉灿¹ 郑在允¹ 赵民哲¹ 朴有彬¹ 金敏书² 金成雄² 李成宰² 朴辉成¹ 钟智完² 柳英载²

¹MAUM.AI ²延世大学

IndoorSim-to-OutdoorReal：无需任何户外经验即可学会户外导航 [arXiv 2023]
乔安妮·庄^1,2, 四月·齐特科维奇¹, 索尼娅·切尔诺娃², 德鲁夫·巴特拉^2,3, 张婷楠¹, 谭杰¹, 于文浩¹

¹谷歌机器人部门 ²佐治亚理工学院 ³Meta AI

DivScene：用于对象导航的多样化场景与物体基准测试 [arXiv 2024] [项目页面]
王兆伟¹, 张宏明², 方天青^1,2, 田烨³, 杨悦⁴, 马凯欣², 潘小曼², 宋阳秋¹, 于东²

¹香港科技大学计算机科学与工程系 ²腾讯AI实验室，美国贝尔维尤 ³腾讯Robotics X ⁴宾夕法尼亚大学

ESC：带有软性常识约束的零样本对象导航探索 [ICML 2023]
周凯文¹, 郑凯志¹, 康纳·普赖尔¹, 沈怡琳², 金红霞², 利斯·吉托尔¹, 王新埃里克¹

¹加州大学圣克鲁斯分校 ²Samsung Research America.

NavGPT：利用大型语言模型进行视觉-语言导航中的显式推理 [arXiv 2023]
周耿泽¹ 洪一聪² 吴奇¹

¹阿德莱德大学 ²澳大利亚国立大学

Instruct2Act：利用大型语言模型将多模态指令映射为机器人动作 [arXiv 2023] [Github]
黄思远^1,2 姜正凯⁴ 董浩³ 乔宇² 高鹏² 李洪生⁵

¹上海交通大学，²上海人工智能实验室，³北京大学计算机学院CFCS， ⁴中国科学院大学，⁵香港中文大学

检测

DetGPT：通过推理检测所需内容 [arXiv 2023]
皮仁杰^1∗ 高佳慧^2* 迪奥世哲^1∗ 潘锐¹ 董汉泽¹ 张继鹏¹ 姚乐威¹ 韩建华³ 徐航² 孔令鹏² 张彤¹

¹香港科技大学 ²香港大学 3上海交通大学

3D定位

LLM-Grounder：以大型语言模型为代理的开放词汇3D视觉定位 [arXiv 2023]
杨嘉宁^1,, 陈旭伟^1,, 钱盛义¹, 尼基尔·马丹，艾扬格尔¹, 大卫·F·福黑^1,2, 乔伊斯·柴¹

¹密歇根大学，²纽约大学

3D-VisTA：用于3D视觉与文本对齐的预训练Transformer [ICCV 2023]
朱子宇、马晓健、陈一鑫、邓志东、黄思远、李青
北京通用人工智能研究院（BIGAI）

交互式具身学习

CombatVLA：用于3D动作角色扮演游戏战斗任务的高效视觉-语言-行动模型 [ICCV 2025] [项目页面]
陈鹏*，卜丕*，王英耀，王心怡，王子铭，郭杰，赵英秀，朱琪，宋军†，王思然，王家猛，郑博
阿里巴巴集团
元控制：针对异构机器人技能的自动基于模型控制系统合成 [CoRL 2024] [项目页面]
魏天昊^1*, 马丽倩^12*, 陈瑞¹, 赵伟业¹, 刘昌柳¹

^*贡献相等 ¹卡内基梅隆大学 ²清华大学

基于在线强化学习的交互环境中大型语言模型接地 [ICML 2023]
托马斯·卡尔塔^1*, 克莱芒·罗马克^1,2, 托马斯·沃尔夫², 西尔万·朗普里耶³, 奥利维埃·西戈⁴, 皮埃尔-伊夫·乌代耶¹

¹法国国家信息与自动化研究所（Flowers），波尔多大学，²Hugging Face，³昂热大学，LERIA，SFR MATHSTIC， F-49000，⁴索邦大学，ISIR

在3D环境中学习用于交互探索的可供性景观 [NeurIPS 2020] [项目页面]
图沙尔·纳加拉詹，克里斯汀·格劳曼
德克萨斯大学奥斯汀分校和Facebook AI Research，德克萨斯大学奥斯汀分校和Facebook AI Research
基于点云感知的真实感环境中具身问答 [CVPR 2019（口头报告）] [幻灯片]
埃里克·维杰曼斯^1†, 萨米亚克·达塔¹, 奥列克桑德尔·马克西梅茨^2†, 阿比谢克·达斯¹, 乔治娅·吉科扎里², 斯蒂芬·李¹, 伊尔凡·埃萨¹, 德维·帕里克^1,2, 德鲁夫·巴特拉^1,2

¹佐治亚理工学院，²Facebook AI Research

多目标具身问答 [CVPR 2019]
李成宇¹, 辛雷·陈³, 乔治娅·吉科扎里³, 莫希特·班萨尔¹, 塔玛拉·L·伯格^1,3, 德鲁夫·巴特拉^2,3

¹北卡罗来纳大学教堂山分校 ²佐治亚理工学院 3Facebook AI

用于具身问答的神经模块化控制 [CoRL 2018（亮点论文）] [项目页面] [Github]
阿比谢克·达斯¹, 乔治娅·吉科扎里², 斯蒂芬·李¹, 德维·帕里克^1,2, 德鲁夫·巴特拉^1,2

¹佐治亚理工学院 ²Facebook AI Research

具身问答 [CVPR 2018（口头报告）] [项目页面] [Github]
阿比谢克·达斯¹, 萨米亚克·达塔¹, 乔治娅·吉科扎里², 斯蒂芬·李¹, 德维·帕里克^2,1, 德鲁夫·巴特拉²

¹佐治亚理工学院，²Facebook AI Research

重新布置

一种简单的视觉房间重新布置方法：3D建图与语义搜索 [ICLR 2023]

¹布兰登·特拉布科，²冈纳尔·A·西古尔德森，²罗宾逊·皮拉穆图，^2,3高拉夫·S·苏卡特梅，¹鲁斯兰·萨拉胡丁诺夫
¹卡内基梅隆大学，²亚马逊Alexa AI，³南加州大学

基准测试

RoboRefer：面向机器人技术的视觉-语言模型推理空间指代 [Arxiv 2025] [项目页面]
恩申·周^1,2,, 景坤·安^1,, 成驰^2,*

¹北京航空航天大学，²北京人工智能研究院

DivScene：针对多样化场景与物体的对象导航的LVLM基准测试 [arXiv 2024] [项目页面]
赵伟王¹, 洪明张², 天青方^1,2, 叶田³, 岳阳⁴, 凯欣马², 小满潘², 杨秋宋¹, 东宇²

¹香港科技大学计算机科学与工程系 ²Tencent AI Lab，贝尔维尤，美国 ³腾讯Robotics X ⁴宾夕法尼亚大学

ReALFRED：真实感环境中的具身指令遵循基准测试 [ECCV 2024] [项目页面]
泰雄金^1*, 哲洪闵^1*, 别亨辉金¹, 珍妍金¹², 愿济郑¹, 宗贤崔¹

^*同等贡献 ¹首尔国立大学 ²延世大学

交互式指令遵循智能体的在线持续学习 [ICLR 2024] [项目页面]
别亨辉金^1*, 敏赫徐^1*, 宗贤崔²

^*同等贡献 ¹延世大学 ²首尔国立大学

SmartPlay：作为智能代理的LLM基准测试 [ICLR 2024] [Github]
岳吴^1,2, 玄唐¹, 汤姆·米切尔¹, 元志李^1,2

¹卡内基梅隆大学，²微软研究

RoboGen：通过生成式仿真释放无限数据以实现机器人自动化学习 [arXiv 2023] [项目页面] [Github]
玉飞王¹, 周贤¹, 冯晨², 恒轩王³, 亦安王⁴, 卡特琳娜·弗拉吉亚达基¹, 扎科里·埃里克森¹, 大卫·赫尔德¹, 创甘^4,5

¹卡内基梅隆大学，²清华大学IIIS，³MIT CSAIL，⁴马萨诸塞大学阿默斯特分校，⁵MIT-IBM AI实验室

ALFWorld：对齐文本与具身环境以进行交互式学习 [ICLR 2021] [项目页面] [Github]
莫希特·施里达尔^† 星迪袁^♡ 马克-亚历山大·科特^♡ 约纳坦·比斯克^‡ 亚当·特里施勒^♡ 马修·豪斯克内希特^♣

^‡华盛顿大学 ^♡Microsoft Research，蒙特利尔 ^‡卡内基梅隆大学 ^♣Microsoft Research

ALFRED：面向日常任务的具身指令理解基准 [CVPR 2020] [项目页面] [Github]
Mohit Shridhar¹ Jesse Thomason¹ Daniel Gordon¹ Yonatan Bisk^1,2,3 Winson Han³ Roozbeh Mottaghi^1,3 Luke Zettlemoyer¹ Dieter Fox^1,4

¹华盛顿大学保罗·G·艾伦计算机科学与工程学院， ²卡内基梅隆大学语言技术研究所， ³艾伦人工智能研究所， ⁴NVIDIA

VIMA：多模态提示下的机器人操作 [ICML 2023] [项目页面] [Github] [VIMA-Bench]
Yunfan Jiang¹ Agrim Gupta^1† Zichen Zhang^2† Guanzhi Wang^3,4† Yongqiang Dou⁵ Yanjun Chen¹ Li Fei-Fei¹ Anima Anandkumar^3,4 Yuke Zhu^3,6‡ Linxi Fan^3‡
SQA3D：三维场景中的情境问答 [ICLR 2023] [项目页面] [幻灯片] [Github]
Xiaojian Ma² Silong Yong^1,3* Zilong Zheng¹ Qing Li¹ Yitao Liang^1,4 Song-Chun Zhu^1,2,3,4 Siyuan Huang¹

¹北京通用人工智能研究院（BIGAI） ²加州大学洛杉矶分校 ³清华大学 ⁴北京大学

IQA：交互式环境中的视觉问答 [CVPR 2018] [Github] [演示视频（YouTube）]
Danie¹ Gordon1 Aniruddha Kembhavi² Mohammad Rastegari^2,4 Joseph Redmon¹ Dieter Fox^1,3 Ali Farhadi^1,2

¹华盛顿大学保罗·G·艾伦计算机科学学院 ²艾伦人工智能研究所 ³Nvidia ⁴Xnor.ai

Env-QA：用于全面理解动态环境的视频问答基准 [ICCV 2021] [项目页面] [Github]
Difei Gao^1,2, Ruiping Wang^1,2,3, Ziyi Bai^1,2, Xilin Chen¹,

¹中国科学院智能信息处理重点实验室，中国科学院计算技术研究所， ²中国科学院大学， ³北京人工智能研究院

模拟器

LEGENT：具身智能体开放平台 [ACL 2024] [项目页面] [Github]
清华大学
AI2-THOR：用于视觉人工智能的交互式3D环境 [arXiv 2022] [项目页面] [Github]
艾伦人工智能研究所、华盛顿大学、斯坦福大学、卡内基梅隆大学
iGibson：大型真实场景中交互任务的仿真环境 [IROS 2021] [项目页面] [Github]
Bokui Shen*, Fei Xia* 等人
Habitat：具身人工智能研究平台 [ICCV 2019] [项目页面] [Habitat-Sim] [Habitat-Lab] [Habitat挑战赛]
Facebook AI Research、Facebook Reality Labs、佐治亚理工学院、西蒙弗雷泽大学、英特尔实验室、加州大学伯克利分校
Habitat 2.0：训练家庭助手重新整理其居住环境 [NeurIPS 2021] [项目页面]
Facebook AI Research、佐治亚理工学院、英特尔研究、西蒙弗雷泽大学、加州大学伯克利分校

其他

从简到繁提示法赋能大型语言模型进行复杂推理 [ICLR 2023]
谷歌研究院，大脑团队
React：在语言模型中协同推理与行动 [ICLR 2023]
Shunyu Yao^1∗, Jeffrey Zhao², Dian Yu², Nan Du², Izhak Shafran², Karthik Narasimhan¹, Yuan Cao²

¹普林斯顿大学计算机科学系 ², 谷歌研究院，大脑团队

思维算法：增强大型语言模型中的思路探索 [arXiv 2023]
弗吉尼亚理工大学、微软
思维图谱：利用大型语言模型解决复杂问题 [arXiv 2023]
苏黎世联邦理工学院、Cledar公司、华沙理工大学
思维树：利用大型语言模型进行审慎的问题解决 [arXiv 2023]
Shunyu Yao¹, Dian Yu², Jeffrey Zhao², Izhak Shafran², Thomas L. Griffiths¹, Yuan Cao², Karthik Narasimhan¹

¹普林斯顿大学， ²谷歌DeepMind

思维链提示在大型语言模型中激发推理能力 [NeurIPS 2022]
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
谷歌研究院，大脑团队
MINEDOJO：利用互联网规模知识构建开放式具身智能体 [NeurIPS 2022] [Github] [项目页面] [知识库]
Linxi Fan¹ , Guanzhi Wang^2∗ , Yunfan Jiang^3* , Ajay Mandlekar¹ , Yuncong Yang⁴ , Haoyi Zhu⁵ , Andrew Tang⁴ , De-An Huang¹ , Yuke Zhu^1,6† , Anima Anandkumar^1,2†

¹NVIDIA, ²加州理工学院, ³斯坦福大学, ⁴哥伦比亚大学, ⁵上海交通大学, ⁶德克萨斯大学奥斯汀分校

将互联网规模的视觉-语言模型蒸馏为具身智能体 [ICML 2023]
Theodore Sumers^1∗ Kenneth Marino² Arun Ahuja² Rob Fergus² Ishita Dasgupta²
LISA：基于大型语言模型的推理分割 [arXiv 2023] [Github] [Huggingface模型] [数据集] [在线演示]
TXin Lai¹ Zhuotao Tian² Yukang Chen¹ Yanwei Li¹ Yuhui Yuan³ Shu Liu² Jiaya Jia^1,2

¹香港中文大学 ²SmartMore ³MSRA

元控制：用于异构机器人技能的自动模型基控制系统合成 [CoRL 2024] [项目页面]
Tianhao Wei^1*, Liqian Ma^12*, Rui Chen¹, Weiye Zhao¹, Changliu Liu¹

^*贡献相等 ¹卡内基梅隆大学 ²清华大学

致谢

[1] 来自此项目的视频演示
[2] 来自此[项目][https://robotics-transformer-x.github.io/)的图片

Awesome-Embodied-Robotics-and-Agent 快速上手指南

本项目是一个精选的“具身机器人与智能体（结合视觉 - 语言模型 VLMs 和大语言模型 LLMs）”研究列表，并非单一的可执行软件包。本指南将指导开发者如何获取该资源库，并快速运行其中代表性的开源模型（以 OpenVLA 为例）。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS。
硬件要求:
- GPU: 建议配备 NVIDIA GPU (显存 ≥ 24GB 用于训练或大模型推理，≥ 16GB 可尝试量化版本)。
- CPU: 多核处理器 (8 核以上推荐)。
- 内存: ≥ 32GB RAM。
前置依赖:
- Python 3.9 或更高版本。
- Git。
- CUDA Toolkit (版本需与 PyTorch 匹配，通常推荐 11.8 或 12.1)。
- Conda 或 Mamba (推荐用于环境管理)。

国内加速建议:

使用清华源或中科大源配置 pip 和 conda，以加快依赖下载速度。

访问 Hugging Face 模型时，建议配置 HF_ENDPOINT 环境变量指向国内镜像。

# 配置 pip 国内源 (临时生效示例)
export PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

# 配置 Hugging Face 国内镜像
export HF_ENDPOINT=https://hf-mirror.com

安装步骤

由于本项目是论文和代码的集合，以下步骤以克隆仓库并安装代表性项目 OpenVLA 的环境为例。

1. 克隆项目仓库

获取最新的研究列表和资源链接：

git clone https://github.com/YuZhaoshu/Awesome-Embodied-Robotics-and-Agent.git
cd Awesome-Embodied-Robotics-and-Agent

2. 创建并激活虚拟环境

推荐使用 Conda 创建隔离环境：

conda create -n embodied-agent python=3.10 -y
conda activate embodied-agent

3. 安装代表性模型 (以 OpenVLA 为例)

OpenVLA 是一个开源的视觉 - 语言 - 动作模型，适合作为入门实践。

# 克隆 OpenVLA 官方仓库
git clone https://github.com/openvla/openvla.git
cd openvla

# 安装核心依赖 (建议使用国内源加速)
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118

# 安装额外的训练/推理依赖
pip install wandb tensorboard imageio av

注意: 如果您想尝试列表中其他模型（如 $\pi_0$, RT-2, MetaGPT 等），请访问仓库中对应的 Methods 章节，点击各项目的 [Github] 链接，遵循其独立的 README 进行安装。

基本使用

以下示例展示如何加载预训练的 OpenVLA 模型并进行简单的推理（模拟机器人动作预测）。

1. 下载预训练模型

首次运行时，脚本会自动从 Hugging Face 下载模型权重。若网络受限，请提前手动下载并放置到本地目录。

2. 运行推理示例

创建一个名为 run_inference.py 的文件，或直接使用官方提供的示例脚本：

import torch
from openvla import OpenVLA

# 加载预训练模型 (自动利用 HF_ENDPOINT 环境变量)
model = OpenVLA.load_pretrained(
    "openvla/openvla-7b", 
    load_in_4bit=True  # 显存有限时开启 4-bit 量化
)

# 准备输入数据 (示例：图像张量和语言指令)
# 实际使用中需替换为真实的摄像头图像和任务指令
dummy_image = torch.rand(1, 3, 224, 224).cuda()
instruction = "pick up the red block"

# 将模型移至 GPU
model = model.cuda()

# 执行推理，预测动作
with torch.inference_mode():
    action = model.predict_action(dummy_image, instruction)

print(f"Predicted Action: {action}")

3. 运行脚本

在终端执行：

python run_inference.py

若成功，您将看到模型输出的动作向量（通常包含机械臂的位移、旋转及夹爪开合状态）。

提示: 本仓库持续更新，更多前沿模型（如 $\pi_0.5$, D2E 等）的使用方式请参考仓库内对应论文的 Project Page 或 Github 链接获取最新文档。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent