Awesome-Embodied-Robotics-and-Agent

GitHub
1.8k 91 非常简单 1 次阅读 今天Apache-2.0语言模型Agent其他
AI 解读 由 AI 自动生成,仅供参考

Awesome-Embodied-Robotics-and-Agent 是一个精心整理的开源资源库,专注于汇聚“具身智能”领域的前沿研究,特别是结合大语言模型(LLM)和视觉 - 语言模型(VLM)的机器人与智能体技术。它旨在解决该领域论文爆发式增长导致的信息分散问题,为研究者提供一站式的高质量文献导航,涵盖从基础理论综述、视觉 - 语言 - 动作模型(VLA)、智能体自我进化,到多智能体协作及各类仿真基准测试等全方位内容。

该资源库特别适合人工智能研究人员、机器人开发者以及高校师生使用。无论是希望快速把握行业趋势的初学者,还是需要追踪最新算法(如 π-0.5 轻量级框架、Mobile-Agent-v2 等)的资深专家,都能从中高效获取关键信息。其独特亮点在于不仅收录了经典的学术论文,还持续更新包括 ICLR、CVPR 等顶级会议的最新成果,甚至涵盖了智能体在电子游戏中的创新应用案例。通过清晰的分类目录和及时的动态维护,Awesome-Embodied-Robotics-and-Agent 成为了连接理论研究与实际落地的重要桥梁,助力社区共同推动具身智能技术的发展。

使用场景

某高校具身智能实验室的研究团队正致力于开发一款能理解自然语言指令并执行复杂家务操作的机器人,急需整合视觉 - 语言 - 动作(VLA)模型与多智能体协作技术。

没有 Awesome-Embodied-Robotics-and-Agent 时

  • 文献检索效率低下:研究人员需在 arXiv、GitHub 和各大会议网站间手动穿梭,耗费数周才能拼凑出关于"Self-Evolving Agents"或"Efficient VLA"的零散论文,极易遗漏如 ICLR 2024 获奖论文等关键成果。
  • 技术选型盲目试错:面对层出不穷的新框架(如 π-0.5 或 Mobile-Agent-v2),团队缺乏系统性的对比视角,往往花费大量时间复现过时或不适合物理系统的模型,导致项目进度严重滞后。
  • 前沿动态感知滞后:由于缺乏统一的更新源,团队难以及时获取如"CRADLE 在游戏中的智能体应用”或最新的多智能体协同导航方案,导致研究思路局限于旧有范式,创新性不足。
  • 基准测试标准混乱:在评估机器人性能时,找不到权威且最新的 Benchmark 列表,不同组员使用不同的评测数据集,导致实验结果无法横向对比,验证周期被无限拉长。

使用 Awesome-Embodied-Robotics-and-Agent 后

  • 一站式资源聚合:团队直接利用该仓库分类清晰的目录(如 Vision-Language-Action Model、Simulator),几分钟内即可锁定 2025 年最新的高效 VLA 综述及相关代码库,文献调研时间缩短 80%。
  • 精准技术落地:通过查看仓库中关于 π-0.5 轻量化框架和 Mobile-Agent-v2 的具体介绍,团队迅速确定了适合嵌入式设备的感知控制方案,避免了在非模块化架构上的无效投入。
  • 实时追踪前沿突破:订阅仓库更新后,团队第一时间掌握了代理自进化(Self-Evolution)和多智能体协作的最新进展,迅速将"Learning Interactive Real-World Simulators"的思路引入仿真训练,显著提升了算法泛化能力。
  • 统一评测体系:依据仓库推荐的 Benchmark 和 Simulator 列表,团队建立了标准化的评估流程,确保了实验数据的可比性,加速了从仿真到真机部署的迭代闭环。

Awesome-Embodied-Robotics-and-Agent 将原本分散杂乱的具身智能研究资源转化为结构化的知识图谱,成为研发团队加速技术落地与创新的核心引擎。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个精选的论文和资源列表(Awesome List),而非一个可直接运行的单一软件工具。它汇集了多个独立的开源项目(如 OpenVLA, π0, Mobile-Agent 等),每个子项目都有各自独立的运行环境、依赖库和硬件需求。用户需根据列表中感兴趣的具体论文或项目,访问其提供的 GitHub 链接或项目主页以获取详细的安装和运行说明。
python未说明
Awesome-Embodied-Robotics-and-Agent hero image

快速开始

🤖 令人惊叹的具身机器人与智能体 Awesome

这是一个由haonan维护的精选列表,专注于“结合视觉-语言模型(VLMs)和大型语言模型(LLMs)的具身机器人或智能体”相关研究。

请关注本仓库以获取最新动态,并如果您发现一些有趣的论文,欢迎随时提交Pull Request

新闻🔥

[2025/10/30] 🎉 我们的综述论文“高效视觉-语言-行动模型综述”[arXiv]已发布!
[2025/04/23] 增加了π-0.5,这是一个轻量级且模块化的框架,旨在将感知、控制和学习直接集成到物理系统中。
[2025/03/18] 添加了一些流行的视觉-语言-行动(VLA)模型。🦾
[2024/06/28] 创建了一个关于智能体自我进化研究的新板块。🤖
[2024/06/07] 添加了Mobile-Agent-v2,这是一款通过多智能体协作实现高效导航的移动设备操作助手。🚀
[2024/05/13] 添加了“学习交互式真实世界模拟器”——该论文荣获ICLR 2024杰出论文奖🥇。
[2024/04/24] 添加了“大型语言模型的自我进化综述”,这是一篇系统性地探讨LLM自我进化的综述!💥
[2024/04/16] 添加了一些CVPR 2024的论文。
[2024/04/15] 添加了MetaGPT,该论文被ICLR 2024接受为口头报告(排名前1.2%),并在基于LLM的智能体类别中位居#1。🚀
[2024/03/13] 添加了CRADLE,一篇有趣的研究论文,探讨了在《荒野大镖客2》中使用LLM驱动的智能体!🎮

具身机器人发展与基准测试

π0-video-1

π0-video-2

π0-video-3

image

  • 视频演示及图片来自[1]和[2]。

目录 🍃

方法

综述

1同济大学, 2西南交通大学, 3电子科技大学, 4特伦托大学

香港中文大学深圳分校,深圳大数据研究院,中山大学

视觉-语言-行动模型

1加州大学伯克利分校,2华沙大学,3斯坦福大学

自我进化的智能体

1卡内基梅隆大学 2清华大学

西安交通大学,上海人工智能实验室,1香港大学,2南京大学

高级智能体应用

*共同第一作者 1卡内基梅隆大学 2清华大学

1北京交通大学 2阿里巴巴集团

1北京交通大学 2阿里巴巴集团

1厦门大学,2OpenGVLab、上海人工智能实验室,3香港大学,4上海交通大学

结合强化学习或世界模型的大型语言模型

1南京大学,2Polixir.ai

1UC伯克利,2谷歌DeepMind,3MIT

1南方科技大学,2马里兰大学帕克分校,3云南大学,4京东探索研究院,5悉尼科技大学

1亚利桑那州立大学坦佩校区计算与人工智能学院,2科罗拉多州立大学计算机科学系

1NVIDIA;2宾夕法尼亚大学;3加州理工学院;4德州大学奥斯汀分校

1UC伯克利

1美国加州大学伯克利分校电气工程与计算机科学系,2华盛顿大学西雅图分校,3麻省理工学院计算机科学与人工智能实验室,4Inria花卉实验室。

规划与操作或预训练

1北京航空航天大学,2北京人工智能研究院

1俄亥俄州立大学,2NVIDIA

1首尔国立大学 2延世大学

*共同第一作者 1卡内基梅隆大学 2清华大学

1NVIDIA,2加州理工学院,3得克萨斯大学奥斯汀分校,4斯坦福大学,5威斯康星大学麦迪逊分校

1上海人工智能实验室,2香港中文大学深圳校区,3北京航空航天大学,4悉尼大学

1上海人工智能实验室,2香港中文大学深圳校区,3北京航空航天大学,4清华大学,5悉尼大学

1北京航空航天大学,2北京大学,3北京智源人工智能研究院,4GalBot

1清华大学,2华南理工大学,3三菱电机研究实验室(MERL),4三菱电机研究实验室,5MIT-IBM 沃森人工智能实验室

1中国北京智源人工智能研究院;2新加坡南洋理工大学;3中国北京大学计算机学院

1浙江大学 1华盛顿大学 1香港科技大学(广州)

1圣路易斯华盛顿大学,2加州大学伯克利分校

1阿卜杜拉国王科技大学(KAUST)

1UC伯克利,2卡内基梅隆大学,3谷歌

1卡内基梅隆大学,2Facebook AI Research

1北京邮电大学自动化学院, 2清华大学自动化系, 3北京国家信息科学技术研究中心

1卡内基梅隆大学,2NVIDIA,3阿里埃尔大学,4微软研究

1Facebook AI Research,2UT奥斯汀,3UC伯克利

1华盛顿大学保罗·G·艾伦计算机科学与工程学院, 2PRIOR @ Allen Institute for AI

  • 用场景图记忆建模动态环境 [ICML 2023]
    安德烈·库伦科夫1, 迈克尔·林格尔巴赫1, 坦迈·阿加瓦尔1, 艾米丽·金1, 李成书1, 张若涵1, 李飞飞1, 吴家俊1, 萨瓦雷斯·西尔维奥2, 马丁-马丁·罗伯托3

1斯坦福大学计算机科学系 2Salesforce AI Research 3德克萨斯大学奥斯汀分校计算机科学系。

UC圣地亚哥,佛罗里达大学, 穆罕默德·本·扎耶德人工智能大学

1加州大学欧文分校计算机科学系 2艾伦人工智能研究所 3保罗·G·艾伦计算机科学学院

加州大学圣地亚哥分校, 伊利诺伊大学厄巴纳-香槟分校, 麻省理工学院, 卡内基梅隆大学

1中国人民大学, 2南京大学, 3微软研究院

1NVIDIA 2康奈尔大学 3华盛顿大学 4多伦多大学,Vector Institute

1俄亥俄州立大学, 2DEVCOM ARL

1洪怡宁, 2甄浩宇, 3陈培浩, 4郑书红, 5杜一伦, 6陈振芳, 6,7甘创
1加州大学洛杉矶分校 2上海交通大学 3华南理工大学 4伊利诺伊大学厄巴纳-香槟分校 5麻省理工学院 6MIT-IBM沃森人工智能实验室 7马萨诸塞大学阿默斯特分校

1斯坦福大学 2伊利诺伊大学厄巴纳-香槟分校

1谷歌机器人实验室 2柏林工业大学 3谷歌研究

多智能体学习与协作

1马萨诸塞大学阿默斯特分校, 2清华大学, 3上海交通大学, 4MIT, 5MIT-IBM沃森人工智能实验室

1罗格斯大学,2密歇根大学

  • MindAgent:涌现式游戏交互 [arXiv 2023]
    龚然*1† 黄秋源*2‡ 马晓健*1 霍伊·沃3 泽恩·杜兰特†4 野田悠介3 郑子龙5 朱松纯15678 德米特里·特尔佐波洛斯1 李飞飞4 高剑锋2
    1加州大学洛杉矶分校;2微软雷德蒙德研究院;3微软Xbox团队;4斯坦福大学;5BIGAI;6北京大学;7清华大学;8加州大学洛杉矶分校

  • 通过隐式与双向课程实现无需演示的自主强化学习 [ICML 2023]
    金志刚*1,2 曹大瑟*1,2 金洪镇1,3

1首尔国立大学,2首尔国立大学人工智能研究所(AIIS),3自动化与系统研究所有限公司(ASRI)。
注:本文主要关注具身人工智能中的强化学习。

1Meta AI 2佐治亚理工学院。

视觉与语言导航

1MAUM.AI 2延世大学

1谷歌机器人部门 2佐治亚理工学院 3Meta AI

1香港科技大学计算机科学与工程系  2腾讯AI实验室,美国贝尔维尤  3腾讯Robotics X  4宾夕法尼亚大学

1加州大学圣克鲁斯分校 2Samsung Research America.

1阿德莱德大学 2澳大利亚国立大学

1上海交通大学,2上海人工智能实验室,3北京大学计算机学院CFCS, 4中国科学院大学,5香港中文大学

检测

1香港科技大学 2香港大学 3上海交通大学

3D定位

1密歇根大学,2纽约大学

交互式具身学习

*贡献相等 1卡内基梅隆大学 2清华大学

1法国国家信息与自动化研究所(Flowers),波尔多大学,2Hugging Face,3昂热大学,LERIA,SFR MATHSTIC, F-49000,4索邦大学,ISIR

1佐治亚理工学院,2Facebook AI Research

  • 多目标具身问答 [CVPR 2019]
    李成宇1, 辛雷·陈3, 乔治娅·吉科扎里3, 莫希特·班萨尔1, 塔玛拉·L·伯格1,3, 德鲁夫·巴特拉2,3

1北卡罗来纳大学教堂山分校 2佐治亚理工学院 3Facebook AI

1佐治亚理工学院 2Facebook AI Research

  • 具身问答 [CVPR 2018(口头报告)] [项目页面] [Github]
    阿比谢克·达斯1, 萨米亚克·达塔1, 乔治娅·吉科扎里2, 斯蒂芬·李1, 德维·帕里克2,1, 德鲁夫·巴特拉2

1佐治亚理工学院,2Facebook AI Research

重新布置

1布兰登·特拉布科,2冈纳尔·A·西古尔德森,2罗宾逊·皮拉穆图,2,3高拉夫·S·苏卡特梅,1鲁斯兰·萨拉胡丁诺夫
1卡内基梅隆大学,2亚马逊Alexa AI,3南加州大学

基准测试

1北京航空航天大学,2北京人工智能研究院

1香港科技大学计算机科学与工程系  2Tencent AI Lab,贝尔维尤,美国  3腾讯Robotics X  4宾夕法尼亚大学

*同等贡献 1首尔国立大学 2延世大学

*同等贡献 1延世大学 2首尔国立大学

1卡内基梅隆大学,2微软研究

1卡内基梅隆大学,2清华大学IIIS,3MIT CSAIL,4马萨诸塞大学阿默斯特分校,5MIT-IBM AI实验室

华盛顿大学 Microsoft Research,蒙特利尔 卡内基梅隆大学 Microsoft Research

1华盛顿大学保罗·G·艾伦计算机科学与工程学院, 2卡内基梅隆大学语言技术研究所, 3艾伦人工智能研究所, 4NVIDIA

1北京通用人工智能研究院(BIGAI) 2加州大学洛杉矶分校 3清华大学 4北京大学

1华盛顿大学保罗·G·艾伦计算机科学学院 2艾伦人工智能研究所 3Nvidia 4Xnor.ai

1中国科学院智能信息处理重点实验室,中国科学院计算技术研究所, 2中国科学院大学, 3北京人工智能研究院

模拟器

其他

1普林斯顿大学计算机科学系 2, 谷歌研究院,大脑团队

1普林斯顿大学, 2谷歌DeepMind

1NVIDIA, 2加州理工学院, 3斯坦福大学, 4哥伦比亚大学, 5上海交通大学, 6德克萨斯大学奥斯汀分校

1香港中文大学 2SmartMore 3MSRA

*贡献相等 1卡内基梅隆大学 2清华大学

致谢

[1] 来自此项目的视频演示
[2] 来自此[项目][https://robotics-transformer-x.github.io/)的图片

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

143.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|2天前
开发框架图像Agent