Embodied-AI-Paper-TopConf

GitHub
529 12 非常简单 1 次阅读 昨天MIT其他
AI 解读 由 AI 自动生成,仅供参考

Embodied-AI-Paper-TopConf 是一个持续维护的开源项目,专门汇总了被顶级学术会议(如 ICLR、NeurIPS、CVPR、ICRA 等)录用的具身智能(Embodied AI)领域论文。在具身智能研究飞速发展的今天,相关文献散落在各个会议中,研究人员往往难以高效追踪最新进展。该项目通过系统性地整理和分类这些高质量论文,解决了信息碎片化和检索困难的问题。

无论是高校研究员、企业算法工程师,还是对机器人学习感兴趣的学生,都能从中快速定位到所需的前沿成果。项目不仅按会议年份归档,还细致地将论文划分为“视觉 - 语言 - 动作模型”、“世界模型”、“规划与推理”、“灵巧操作”及“仿真到现实迁移”等多个子方向,极大提升了查阅效率。其独特的亮点在于更新频率高且覆盖范围广,从 2025 年的各大会议一直延续至 2026 年的 ICLR 录用论文,确保用户能第一时间获取学界最新动态。如果你希望紧跟具身智能领域的技术脉搏,Embodied-AI-Paper-TopConf 将是你不可或缺的学术导航助手。

使用场景

某具身智能实验室的算法团队正筹备新一代人形机器人抓取项目,急需调研 2025 至 2026 年间顶级会议(如 ICLR、CoRL、RSS)中关于“视觉 - 语言 - 动作模型”与“灵巧操作”的最新突破。

没有 Embodied-AI-Paper-TopConf 时

  • 检索效率极低:研究人员需逐个访问 CVPR、ICRA、NeurIPS 等十个不同会议的官网,在海量论文中手动筛选与具身智能相关的条目,耗时数天。
  • 细分领域难定位:即使找到会议列表,也难以快速区分哪些论文专攻“触觉反馈”或"Sim2Real 迁移”,往往需要下载摘要甚至全文才能确认相关性。
  • 前沿动态滞后:由于缺乏统一的更新机制,团队容易错过刚刚录用的 ICLR 2026 或 RSS 2025 最新成果,导致技术选型基于过时的 SOTA(当前最佳)基准。
  • 分类标准混乱:不同会议对同一技术方向(如规划与推理)的归类不一致,增加了整理文献综述和对比实验的难度。

使用 Embodied-AI-Paper-TopConf 后

  • 一站式聚合获取:团队直接查看该仓库,即可在一个页面内获取从 ICLR 2026 到 ICRA 2025 所有顶会录用的具身 AI 论文清单,将调研时间从数天缩短至几小时。
  • 精准子领域导航:利用仓库细致的分类标签(如"Dexterous Manipulation"、"Tactile"),研究员能瞬间锁定与人形机器人抓取直接相关的核心论文,如 MemoryVLA 等最新工作。
  • 实时同步前沿:得益于仓库的主动维护(Active Maintenance),团队能第一时间发现并研读 2025 下半年及 2026 年初的最新录用论文,确保技术路线始终对标最前沿。
  • 结构化知识梳理:统一的分类体系帮助团队快速构建技术地图,清晰地对比不同会议在“世界模型”或“策略学习”上的研究侧重,加速了实验方案的设计。

Embodied-AI-Paper-TopConf 通过高度结构化的顶会论文聚合,将繁琐的文献大海捞针转变为精准的技术情报获取,极大提升了具身智能研发的迭代速度。

运行环境要求

依赖
notes该项目仅为顶级会议(如 NeurIPS, CVPR, ICLR 等)具身智能(Embodied AI)论文的汇总列表和资源索引,并非可执行的软件工具或代码库。因此,它没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户只需通过浏览器访问提供的论文链接即可阅读相关内容。
Embodied-AI-Paper-TopConf hero image

快速开始

身体智能论文顶级会议

🔥 NeuIPS2025 & CORL2025 & ICCV2025 & ICML2025 & RSS2025 & CVPR2025 & ICLR2025 & ICLR2026 身体智能论文列表 资源。

[2025年3月22日] 我们计划在未来整理更多来自顶级会议的身体智能相关论文,并构建一个更加全面的论文列表。如果您有想浏览的会议论文,或者有任何其他建议,请随时提交 issue。

[2025年4月12日] 我们正在更新被 RSS2025(机器人顶级会议)接收的身体智能论文!

[2025年5月21日] 我们正在更新被 ICML2025 接收的身体智能论文!

[2025年8月5日] 我们正在更新被 ICCV2025 接收的身体智能论文!

[2025年9月30日] 我们正在更新被 CORL2025 接收的身体智能论文!

[2025年11月30日] 我们正在更新被 NeuIPS2025 接收的身体智能论文!

[2026年3月12日] 我们正在更新被 ICLR2026 接收的身体智能论文!(📖 ICLR2026

📖 论文列表

ICLR2026

📄 完整列表

视觉-语言-行动模型

  • 通过经验检索扩展机器人控制的记忆规模 论文
  • MemoryVLA:用于机器人操作的视觉-语言-行动模型中的感知-认知记忆 论文
  • PixelVLA:推进视觉-语言-行动模型中的像素级理解 论文
  • Vlaser:具有协同具身推理能力的视觉-语言-行动模型 论文
  • 通过分离的前向和逆动力学预训练实现解耦的机器人学习 论文
  • MetaVLA:统一的元联合训练以实现高效的具身适应 论文
  • 统一扩散与自回归以构建可泛化的视觉-语言-行动模型 论文
  • 视觉-语言-行动模型的混合训练 论文
  • 端到端的听、看、说与行动 论文
  • WholeBodyVLA:迈向用于全身运动-操作控制的统一潜在视觉-语言-行动模型 论文
  • RoboOmni:全模态情境下的主动式机器人操作 论文
  • 统一的视觉-语言-行动模型 论文
  • SP-VLA:一种联合模型调度与标记剪枝的方法,用于加速视觉-语言-行动模型 论文
  • Align-Then-stEer:通过统一的潜在指导调整视觉-语言-行动模型 论文
  • AutoQVLA:并非所有通道在视觉-语言-行动模型量化中都同等重要 论文
  • 无需验证器的测试时采样方法,适用于视觉-语言-行动模型 论文
  • Interleave-VLA:利用图像-文本交错指令提升机器人操作能力 论文
  • 统一扩散VLA:通过联合离散扩散过程构建视觉-语言-行动模型 论文
  • 赋予GPT-4类人身体:搭建现成视觉-语言模型与物理世界之间的桥梁 论文
  • 关于视觉-语言-行动模型对多模态扰动的鲁棒性 论文
  • 针对视觉-语言-行动模型的空间引导训练 论文
  • 借助残差强化学习生成数据,实现自我改进的视觉-语言-行动模型 论文
  • 面向高效视觉-语言-行动操作的动作感知动态剪枝 论文
  • 空间强制:为视觉-语言-行动模型提供隐式空间表征对齐 论文
  • Genie Envisioner:一个用于机器人操作的统一世界基础平台 论文
  • 从空间到动作:将视觉-语言-行动模型锚定于空间基础先验 论文
  • TwinVLA:利用双单臂视觉-语言-行动模型实现数据高效的双手操作 论文
  • FASTer:面向强大且高效的自回归视觉-语言-行动模型,采用可学习的动作分词器与分块解码 论文
  • 具身导航基础模型 论文
  • X-VLA:软提示Transformer作为可扩展的跨具身视觉-语言-行动模型 论文
  • 动作即语言:在不发生灾难性遗忘的情况下将视觉-语言模型微调为视觉-语言-行动模型 论文
  • OneTwoVLA:一种具有适应性推理能力的统一视觉-语言-行动模型 论文
  • VLM4VLA:在视觉-语言-行动模型中重新审视视觉-语言模型 论文
  • 视觉-语言-行动指令微调:从理解到操作 论文
  • villa-X:增强视觉-语言-行动模型中的潜在动作建模 论文
  • 从看见到行动:弥合机器人操作中的推理与决策 论文

视觉-语言-导航模型

  • AutoFly:用于无人机在野外自主导航的视觉-语言-行动模型 论文
  • 慢行于地,快行于空:一种用于可泛化视觉-语言导航的双系统基础模型 论文
  • 向可物理执行的3D高斯分布迈进,以支持具身导航 论文
  • 面向视觉-语言导航的不确定性感知高斯地图 论文
  • OpenFly:一个全面的空中视觉-语言导航平台 论文
  • JanusVLN:通过双重隐式记忆解耦语义与空间性,用于视觉-语言导航 论文
  • CompassNav:从路径模仿转向导航中的决策理解 论文
  • M$^3$E:通过宏观与微观专家的混合实现持续的视觉-语言导航 论文
  • 全天候多场景终身视觉-语言导航,结合Tucker分解适应 论文
  • OmniNav:一个用于前瞻性探索与视觉-语言导航的统一框架 论文

世界模型

  • Ctrl-World: 用于机器人操作的可控制生成式世界模型 论文
  • 上下文与多样性至关重要: 世界模型中上下文学习的涌现 论文
  • FantasyWorld: 通过统一的视频和3D预测实现几何一致性世界建模 论文
  • NeMo-map: 用于时空运动映射的神经隐式流场 论文
  • Astra: 具有自回归去噪机制的通用交互式世界模型 论文
  • 通过序列化世界模型赋能多机器人协作 论文
  • 面向动态环境中具身智能体的世界模型测试时混合 论文
  • RIG: 在端到端通才策略中协同推理与想象力 论文
  • 学习大规模多任务世界模型以实现连续控制 论文
  • 通过物理世界建模实现统一的3D场景理解 论文
  • ExoPredicator: 为机器人规划学习动态世界的抽象模型 论文
  • 利用非精选数据引导世界模型进行高效强化学习 论文
  • Vid2World: 构建视频扩散模型至交互式世界模型 论文
  • WMPO: 基于世界模型的视觉-语言-动作模型策略优化 论文
  • 基于少量样本标注的对象中心世界模型,用于样本高效的强化学习 论文
  • 从稀疏的过渡性情景记忆构建空间世界模型 论文
  • Cosmos Policy: 针对视觉运动控制与规划微调视频模型 论文
  • WoW!: 封闭环世界中的世界模型 论文

规划与推理

  • VLMgineer: 视觉-语言模型作为机器人工具专家 论文
  • MomaGraph: 具备状态感知的统一场景图,结合视觉-语言模型用于具身任务规划 论文
  • 基于具身可学习记忆的规划 论文
  • 空间理论: 基础模型能否通过主动探索构建空间信念? 论文
  • 基于推理时扩散缩放的组合式视觉规划 论文
  • 基于经验的知识修正,用于Minecraft中的鲁棒规划 论文
  • 面向视觉机器人规划的自我改进循环 论文
  • BOLT: 与决策对齐的蒸馏及预算感知路由,用于受限的多模态QA机器人系统 论文
  • ReCAPA: 分层预测校正以缓解级联失效 论文
  • 只需一次演示即可: 基于LLM从单个演示中推导规划域 论文
  • EVLP: 通过强化监督微调学习统一的具身视觉-语言规划器 论文
  • 迈向即兴TAMP: 在抽象规划图中学习低层级捷径 论文
  • Embodied-R1: 面向通用机器人操作的强化具身推理 论文
  • 用于机器人故障检测与推理的自我精炼视觉语言模型 论文
  • 面向具身AI开放世界目标导向常识回归规划的自然语言PDDL (NL-PDDL) 论文
  • SafeFlowMatcher: 使用带有控制屏障函数的流匹配进行安全快速规划 论文
  • OmniEVA: 基于任务自适应3D接地与具身感知推理的具身多功能规划器 论文

导航

  • 从看见到体验: 通过强化学习扩展导航基础模型 论文
  • 终身具身导航学习 论文
  • CE-Nav: 基于流引导的强化精炼,用于跨具身局部导航 论文
  • 演员-评论家智能体中受海马体启发的序列生成器所催生的空间表征 论文

类人机器人

  • HWC-Loco: 一种分层全身控制方法,用于稳健的类人机器人行走 论文
  • 任务令牌: 一种灵活的方法来适配行为基础模型 论文
  • BFM-Zero: 一种可提示的行为基础模型,用于利用无监督强化学习进行类人机器人控制 论文
  • 从语言到行走: 通过运动潜在指导实现无需重定向的类人机器人控制 论文

3D视觉

  • 用于机器人操作的几何感知4D视频生成 论文
  • PD$^{2}$GS: 基于高斯泼溅实现关节物体的部件级解耦与连续变形 论文
  • 如仿真般操作: 使机器人具备精确的几何感知能力 论文

策略

  • 基于大语言模型奖励塑造与探索的策略驱动协同,掌握技能学习 论文
  • 视觉-本体感知策略在机器人操作中何时会失效?论文
  • ManipEvalAgent:可提示且高效的机器人操作策略评估框架 论文
  • 可远程检测的机器人策略水印技术 论文
  • 面向模仿学习的差异感知检索策略 论文
  • 捕捉视觉环境结构与控制性能相关 论文
  • VITA:从视觉到动作的流匹配策略 论文
  • DemoGrasp:仅需一次示范即可实现通用灵巧抓取 论文
  • 当机器人比人类更胜任时:从受限演示者处学习 论文
  • 基于对应关系驱动的轨迹扭曲的自主游戏 论文
  • 面向异构机器人数据集的跨具身离线强化学习 论文
  • 通过语义势场揭示机器人漏洞 论文
  • 超过示范速度的动作块策略的时间最优执行 论文
  • 基于策略似然的查询采样与批评家利用重置,用于高效偏好型强化学习 论文
  • 用于学习机器人动作的罗德里格斯网络 论文
  • 参考引导的技能发现 论文
  • 用于机器人控制的掩码生成式策略 论文
  • GRL-SNAM:基于微分哈密顿量的几何强化学习,用于未知环境中的导航与地图构建 论文
  • HAMLET:将你的视觉-语言-动作模型切换为历史感知策略 论文
  • 努力弥合人形机器人控制中大规模预训练与高效微调之间的差距 论文
  • 通过协作轨迹控制学习机器人操作的视频生成 论文
  • 面向机器人基础模型的策略对比解码 论文
  • 揭秘机器人扩散策略:动作记忆与简单的查找表替代方案 论文
  • H$^3$DP:用于视觉运动学习的三重层次扩散策略 论文
  • SimpleVLA-RL:通过强化学习扩展VLA训练规模 论文
  • 组合你的策略!通过测试时分布级组合改进基于扩散或基于流的机器人策略 论文
  • 通过专家混合扩散策略抽象机器人操作技能 论文
  • 通过形态学预训练加速机器人协同设计 论文
  • 基于语言对齐的3D关键点实现可泛化的由粗到细的机器人操作 论文
  • VER:用于机器人学习的基础蒸馏与动态路由的视觉专家Transformer 论文
  • SpikePingpong:基于脉冲视觉的快慢结合乒乓球机器人系统 论文
  • EquAct:一种SE(3)等变的多任务Transformer,用于3D机器人操作 论文
  • 通过事后在线模仿将流转换为策略 论文
  • 面向全身控制的层次化价值分解离线强化学习 论文
  • 皮层策略:一种双流视图Transformer,用于机器人操作 论文
  • 几何感知的策略模仿 论文
  • 收缩性扩散策略:通过基于得分的收缩采样和微分方程实现稳健的动作扩散 论文
  • 基于价值引导的流,实现高维连续控制的可扩展探索 论文
  • 具有瞬时速度约束的平均流策略,用于单步动作生成 论文
  • 通过多样化重置和大规模强化学习涌现灵巧性 论文
  • 学习零件感知的密集3D特征场,用于可泛化的铰接物体操作 论文
  • 带有掩码动作分块的实时机器人执行 论文
  • 通过参数合并实现视觉-语言-动作机器人策略的稳健微调 论文
  • ViPRA:用于机器人动作的视频预测 论文
  • RAVEN:使用RGB摄像头进行端到端等变机器人学习 论文

灵巧操作

  • DexNDM: 通过关节级神经动力学模型弥合灵巧手中旋转的现实差距 论文
  • EgoDex: 从大规模第一人称视频中学习灵巧操作 论文
  • RFS: 基于残差流引导的强化学习用于灵巧操作 论文
  • 通过玩随机玩具学习抓取任何物体 论文
  • SARM: 面向长 horizon 机器人操作的阶段感知奖励建模 论文
  • UniHM: 基于视觉语言模型的统一灵巧手操作 论文
  • DexMove: 学习基于触觉引导的非抓握式灵巧手操作 论文
  • VLBiMan: 视觉-语言锚定的一次性演示实现可泛化的双臂机器人操作 论文
  • 灵巧手的跨具身协同设计 论文
  • 无需物理演示,通过模仿生成视频进行机器人操作 论文
  • 机器人模仿中的动作生成:主次解耦 论文

触觉

  • AnyTouch 2: 用于动态触觉感知的通用光学触觉表征学习 论文
  • APPLE: 通过强化学习迈向通用主动感知 论文

Sim2real 和 Real2sim

  • D-REX: 用于学习灵巧抓取的可微分实转虚转实引擎 论文
  • DemoGrasp: 仅需一次演示即可实现通用灵巧抓取 论文
  • Sim2Real VLA: 将合成技能零样本泛化到真实操作中 论文
  • Exo-Plore: 通过与人类对齐的仿真探索外骨骼控制空间 论文
  • 多样化重置与大规模强化学习催生的涌现灵巧性 论文
  • 模拟中的操作: 在机器人中实现精确的几何感知 论文
  • 面向虚实迁移的基础策略潜在适应 论文
  • RobotArena ∞: 通过实转虚转换实现无限机器人基准测试 论文
  • PD$^{2}$GS: 基于高斯泼溅的关节物体零件级解耦与连续变形 论文
  • 基于单目视频和平面场景基元的接触引导型实转虚 论文

基准与数据集

  • D2E: 在桌面数据上扩展视觉-动作预训练,以迁移到具身 AI 论文
  • Memory, Benchmark & Robots: 一个用于强化学习解决复杂任务的基准 论文
  • DataMIL: 使用数据模型选择机器人模仿学习的数据 论文
  • MIMIC: 带有交互控制的掩码注入式操作视频生成 论文
  • LeRobot: 一个用于端到端机器人学习的开源库 论文
  • RobotArena ∞: 通过实转虚转换实现无限机器人基准测试 论文
  • RoboInter: 一个面向机器人操作的整体中间表示套件 论文
  • ENACT: 通过自我中心交互的世界建模评估具身认知 论文
  • AutoBio: 一个用于数字生物实验室中机器人自动化的仿真和基准 论文
  • 用于具身 AI 的图像质量评估 论文
  • MoMaGen: 在软硬约束下生成多步双臂移动操作的演示 论文
  • CoNavBench: 协作式长 horizon 视觉-语言导航基准 论文
  • World2Minecraft: 基于占用率驱动的仿真场景构建 论文
  • CitySeeker: VLM 如何在隐含人类需求的情况下探索具身城市导航? 论文
  • 跨视角观察: 在机器人场景中基准测试视觉-语言模型的空间推理能力 论文
  • RoboCasa365: 一个用于训练和基准测试通用机器人的大规模仿真框架 论文
  • REI-Bench: 具身智能体能否在任务规划中理解模糊的人类指令? 论文

其他

  • 关于 MLLM 在空间智能方面的泛化能力 论文
  • 具身智能体与个性化: 通过记忆利用的视角探讨挑战与解决方案 论文
  • 基于共现一致性的交互感知表征建模,用于自我中心的手物解析 论文
  • PhyScensis: 用于复杂物理场景布置的物理增强 LLM 智能体 论文
  • OmniActor: 一个适用于 2D 和 3D 世界的通用 GUI 和具身智能体 论文
  • EgoWorld: 利用丰富的外在视角观测将外在视角转换为自我中心视角 论文
  • 基于单目视频和平面场景基元的接触引导型实转虚 论文

NeuIPS2025

视觉-语言-行动模型

  • Fast-in-Slow: 一种将快速操作统一到慢速推理中的双系统VLA模型 论文 页面
  • AC-DiT: 用于移动操作的自适应协调扩散Transformer 论文 页面
  • BridgeVLA: 基于输入输出对齐的高效3D操作学习,利用视觉-语言模型 论文 页面
  • CogVLA: 通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-行动模型 论文 页面
  • VideoVLA: 视频生成器可以作为具有泛化能力的机器人操作器
  • ChatVLA-2: 具有开放世界推理能力的视觉-语言-行动模型 论文 页面
  • 探索跨任务泛化中视觉-语言-行动操作的极限 论文 页面
  • BadVLA: 通过目标解耦优化实现对视觉-语言-行动模型的后门攻击 论文 页面
  • 柔性残差DAgger: 通过人类纠正改进现实世界中的接触密集型操作 论文 页面
  • VLA-OS: 在视觉-语言-行动模型中构建和剖析规划表示与范式 论文 页面
  • ThinkAct: 通过强化视觉潜在规划进行视觉-语言-行动推理 论文 页面
  • 自我改进的具身基础模型 论文 页面
  • Robo2VLM: 利用大规模机器人操作数据改进视觉问答 论文 页面
  • EnerVerse: 构想机器人操作的具身未来空间 论文
  • 学习空间感知的操作排序 论文
  • PRIMT: 基于偏好、多模态反馈以及来自基础模型的轨迹合成的强化学习 论文
  • BEAST: 针对模仿学习,高效编码B样条动作序列的分词方法 论文
  • PointMapPolicy: 面向多模态模仿学习的结构化点云处理 论文
  • 动作分块流策略的实时执行 论文 页面
  • Action链: 面向机器人操作的轨迹自回归建模 论文 页面
  • 4D-VLA: 具有跨场景校准的时空视觉-语言-行动预训练
  • SAFE: 视觉-语言-行动模型的多任务故障检测 论文 页面
  • 蒙眼专家泛化能力更强:来自机器人操作和电子游戏的洞见 论文 页面
  • HiMaCon: 从无标签多模态数据中发现层次化操作概念 论文
  • 知识隔离型视觉-语言-行动模型:快速训练、快速运行、更好泛化 论文
  • 可证明的顺序性和连续性:面向可泛化具身智能体的视觉-语言预训练 论文 页面
  • DreamVLA: 一个基于全面世界知识的梦想视觉-语言-行动模型 论文 页面

数据

  • EgoBridge: 基于第一人称视角的人类数据实现泛化模仿的领域适应 论文 页面
  • RobotSmith: 面向复杂操作技能获取的生成式机器人工具设计 论文 页面
  • URDF-Anything: 利用3D多模态语言模型构建关节物体 论文
  • DEAL: 扩散进化对抗学习用于模拟到真实的迁移
  • 面向模拟与真实策略协同训练的泛化领域适应 论文 页面

世界模型

  • SAMPO: 基于尺度自回归与运动提示的生成式世界模型 论文
  • 学习3D持久性具身世界模型 论文
  • OSVI-WM: 使用世界模型引导的轨迹生成,实现针对未见任务的一次性视觉模仿 论文

规划与推理

  • 通过联合不确定性估计迈向可靠的LLM驱动机器人规划 论文
  • 迈向可靠的代码即策略: 一种面向具身任务规划的神经符号框架 论文
  • RDD: 面向长时程任务规划对齐的基于检索的演示分解器 论文 页面
  • UniDomain: 从真实世界演示中预训练统一PDDL域,用于可泛化的机器人任务规划 论文
  • InstructFlow: 面向长时程规划的自适应符号约束引导代码生成

导航

  • C-NAV: 朝着开放世界中自我演进的持续性目标导航 论文 主页
  • 在目标导向导航中,将大语言模型先验蒸馏至流模型以实现可泛化的智能体想象力 论文
  • TP-MDDN: 具有自主决策能力的任务偏好型多需求驱动导航
  • 主动测试时视觉-语言导航 论文
  • Aux-Think: 探索数据高效型视觉-语言导航的推理策略
  • EfficientNav: 基于导航地图缓存与检索的端侧目标导向导航 论文
  • 透过不确定性看世界: 视觉导航中的鲁棒任务导向优化 论文 主页

类人机器人

  • 面向类人机器人策略学习的对抗性运动与动作模仿 论文 主页
  • 从专家到通用:迈向类人机器人的全身控制 论文 主页
  • KungfuBot: 基于物理的类人机器人全身控制,用于学习高度动态技能 论文 主页

3D视觉

  • DynaRend: 通过掩码未来渲染学习3D动力学,用于机器人操作 论文
  • 通过视频生成从单张图像构建3D表征并生成运动 论文

政策

  • 身体化AI带来的新兴风险需要紧急政策行动
  • 通过动作偏好优化进行人类辅助的机器人策略改进 论文 主页
  • Hyper-GoalNet: 基于超网络的目标条件操作策略学习
  • ReinFlow: 使用在线强化学习微调流匹配策略 论文 主页
  • 多样化并行遍历搜索:一种标志性的核进化策略
  • FreqPolicy: 基于频率一致性的高效流式视觉-运动策略 论文
  • 将对称性融入扩散策略的实用指南 论文
  • 潜在策略屏障: 通过保持分布内来学习鲁棒的视觉-运动策略 论文 主页
  • 无量化自回归动作Transformer 论文
  • 现实世界中主动感知行为的强化学习
  • 针对生成式机器人策略的运行时故障预测 论文
  • 行动以观,观而行之: 扩散驱动的感知-行动交互以实现适应性策略 论文 主页
  • 控制策略中的动态测试时计算缩放: 基于难度感知的随机插值策略 论文
  • DynaGuide: 通过主动动态引导来指导扩散策略 论文 主页
  • 具备世界意识的规划叙事增强了大型视觉-语言模型规划器 论文

加速与部署

  • 通过并行可微仿真加速视觉策略学习 论文 主页
  • EfficientVLA: 无需训练即可加速和压缩视觉-语言-动作模型 论文
  • 平静的海面从未造就过熟练的航海家:通过学习搜索实现稳健的模仿 论文 主页
  • VLA-Cache: 通过自适应标记缓存实现高效的视觉-语言-动作操作 论文 主页

触觉

  • 面向具身交互的通用视觉-触觉视频理解 论文
  • 提升基于触觉的强化学习在机器人控制中的应用 论文 主页
  • Taccel: 通过高性能GPU仿真扩大基于视觉的触觉机器人规模 论文 主页
  • 迈向人工触诊: 软体上的触觉表征学习 论文 主页
  • 野外触感: 使用便携式视觉-触觉夹持器学习精细操作 论文 主页

灵巧操作

  • 基于条件扩散模型的接触图迁移,用于生成可泛化的灵巧抓取 论文 主页
  • HumanoidGen: 基于LLM推理生成双手灵巧操作的数据 论文 主页
  • Grasp2Grasp: 基于薛定谔桥梁的视觉灵巧抓取转换 论文 主页
  • 使用视觉-语言模型搭建灵巧操作框架 论文 主页
  • DexFlyWheel: 一个可扩展且自我改进的灵巧操作数据生成框架 论文 主页
  • DexGarmentLab: 具有可泛化策略的灵巧服装操作环境 论文 主页

基准与数据集

  • RoboCerebra: 用于长 horizon 机器人操作评估的大规模基准 论文 页面
  • SutureBot: 用于自主端到端缝合的高精度框架及基准 论文 页面
  • 为多模态机器人导航与协作合成照片级逼真的动态城市环境
  • LabUtopia: 面向科学具身智能体的高保真仿真与分层基准 论文 页面
  • SonoGym: 面向具有挑战性的机器人超声手术任务的高性能仿真 论文 页面
  • 具身人群计数
  • PAC Bench: 基础模型是否理解执行操作策略的前提条件?论文

CORL2025

视觉-语言-动作模型

  • $\pi_{0.5}$: 具有开放世界泛化能力的视觉-语言-动作模型 论文 页面
  • 面向高效具身推理的训练策略 论文 页面
  • Long-VLA: 解放视觉语言动作模型在机器人操作中的长 horizon 能力 论文 页面
  • RoboMonkey: 扩展视觉语言动作模型的测试时采样与验证 论文 页面
  • RoboChemist: 长 horizon 且符合安全规范的机器人化学实验 论文 页面
  • TA-VLA: 阐明扭矩感知型视觉语言动作模型的设计空间 论文 页面
  • 聚焦于关键点: 面向视觉语言动作模型的对象-智能体中心化标记化 论文
  • FLOWER: 通过高效的视觉语言动作流策略 democratize 通用型机器人策略 论文 页面
  • 用于引导视觉语言动作模型的机制性可解释性 论文
  • RICL: 为预训练的视觉语言动作模型添加上下文适应能力 论文 页面
  • DexVLA: 具有插件式扩散专家的视觉语言模型,用于通用机器人控制 论文 页面
  • FLARE: 基于隐式世界建模的机器人学习 论文 页面
  • 3DS-VLA: 一种具备 3D 空间感知能力的视觉语言动作模型,用于鲁棒的多任务操作 论文
  • GraspVLA: 在数十亿规模的合成动作数据上预训练的抓取基础模型 论文 页面
  • EndoVLA: 双阶段视觉语言动作模型,用于内窥镜检查中的精确自主跟踪 论文
  • MoTo: 一种零样本插件式交互感知导航,适用于通用移动操作 论文 页面
  • ControlVLA: 针对预训练视觉语言动作模型的少样本对象中心适应 论文 页面
  • TrackVLA: 野外具身视觉跟踪 论文 页面
  • AnyPlace: 学习可泛化的机器人操作中物体放置 论文 页面
  • 不依赖动作标注数据的通用型机器人操作 论文 页面
  • LaVA-Man: 学习用于机器人操作的视觉动作表征 论文 页面

导航

  • MoTo: 一种零样本插件式交互感知导航,适用于通用移动操作
  • 使用语言模型进行元优化与程序搜索,用于任务与运动规划
  • ObjectReact: 学习基于对象相对关系的视觉导航控制
  • HALO: 与人类偏好一致的离线奖励学习,用于机器人导航
  • 想象、验证、执行:基于记忆引导的视觉语言模型代理式探索
  • 长距离导航器 (LRN): 将机器人规划视野扩展至度量地图之外
  • Search-TTA: 一种多模态测试时适应框架,用于野外视觉搜索
  • ActLoc: 通过主动视点选择学习移动中的定位
  • 类似人类的导航,在专为人类设计的世界中
  • GC-VLN: 将指令作为图约束,用于免训练的视觉与语言导航
  • GraspMolmo: 通过大规模合成数据生成实现可泛化的任务导向抓取
  • 信念条件单步扩散: 仅需足够感知即可进行实时轨迹规划

政策

  • ImMimic: 通过映射和插值从人类视频中进行跨域模仿 论文 页面
  • ReWiND: 语言引导的奖励无需新演示即可教授机器人策略 论文 页面
  • 使用潜在空间强化学习引导扩散策略 论文 页面
  • Streaming Flow Policy: 通过将动作轨迹视为流轨迹来简化扩散/流匹配策略 论文 页面
  • SAIL: 比演示更快地执行模仿学习策略 论文 页面
  • 基于置信度感知的密集对应和视觉触觉效用的反应式空中衣物操作 论文 页面
  • 基于重要性权重的数据检索用于少样本模仿学习 论文 页面
  • X-Sim: 通过真实到仿真再到真实的跨化身学习 论文
  • DemoSpeedup: 通过熵引导的演示加速来提升视觉运动策略的速度 论文 页面
  • ManiFlow: 通过一致性流训练的通用机器人操作策略 论文 页面
  • Text2Touch: 基于LLM设计的奖励函数的触觉手中操作 论文 页面
  • Multi-Loco: 通过增强型扩散的强化学习统一多化身足式运动 论文 页面
  • $\texttt{SPIN}$: 将$\texttt{Skill-RRT}$提炼用于长 horizon 的抓取与非抓取操作 论文
  • 基于行为特征解耦表征学习的模仿学习 论文
  • 用于一次性视觉运动策略泛化的保约束数据生成 论文 页面
  • CLASS: 通过动作序列监督进行机器人操作的对比学习 论文 页面
  • MirrorDuo: 从镜像演示对中进行反射一致的视觉运动学习 页面
  • 动力学兼容的轨迹扩散用于超额定负载操作 论文
  • Eye, Robot: 通过BC-RL感知-行动环路学习看以行动 论文 页面
  • ARCH: 用于长 horizon 富接触机器人装配的分层混合学习 论文 页面
  • KDPE: 用于扩散策略轨迹选择的核密度估计策略 论文 页面
  • AimBot: 一个简单的辅助视觉提示,用于增强视觉运动策略的空间意识 论文 页面
  • 通过建模子目标转换,为操作任务实现更长的模仿 horizon
  • Mobi-$\pi$: 使您的机器人学习策略移动化 论文 页面
  • 用于策略泛化的无动作推理 论文 页面
  • Learn from What We HAVE: 一种在线推理过去交互的历史感知验证器 论文 页面
  • D-CODA: 用于协调双臂数据增强的扩散 论文 页面
  • ATK: 用于稳健策略学习的自动任务驱动关键点选择 论文 页面
  • Poke and Strike: 学习任务导向的探索策略 论文 页面
  • SafeBimanual: 基于扩散的轨迹优化用于安全的双手操作 论文 页面
  • COMBO-Grasp: 学习基于约束的手动遮挡抓取操作 论文
  • Phantom: 仅使用人类视频在没有机器人的情况下训练机器人 论文 页面
  • 通过预测过去 token 学习长上下文扩散策略 论文
  • VT-Refine: 通过仿真微调,利用视觉-触觉反馈学习双手装配 论文
  • COLLAGE: 用于增强型策略学习的自适应融合检索 论文 页面
  • CDP: 通过因果扩散迈向稳健的自回归视觉运动策略学习 论文 页面
  • 对一般物体的稳健灵巧抓握 论文 页面
  • Point Policy: 通过关键点统一观察与动作,用于机器人操作 论文 页面

基准与数据集

  • RoboArena: 分布式通用机器人策略的真实世界评估
  • GraspVLA: 在数十亿规模的合成动作数据上预训练的抓取基础模型
  • CUPID: 用影响力策划您的机器人喜爱的数据
  • AutoEval: 真实世界中通用机器人操作策略的自主评估
  • ManipBench: 针对低级机器人操作功能的视觉-语言模型基准测试
  • 通过隐式触觉校准确保视觉引导机器人操作中的力安全性
  • 仅用一次人类演示,通过仿真到现实的强化学习跨越人机化身差距
  • UniSkill: 通过跨化身技能表示模仿人类视频

类人机器人

  • HuB: 学习极端的类人机器人平衡
  • 通过灵活的肢体间协调实现多功能的移动与操作
  • 视觉模仿实现情境感知的类人机器人控制
  • 手眼自主配送:学习类人机器人的导航、行走和抓取
  • CLONE: 面向长期任务的闭环全身类人机器人遥操作
  • 拥抱接触:全身与地面接触的类人机器人跟随
  • 帮我拿啤酒:学习柔和的类人机器人行走及末端执行器稳定控制
  • SLAC: 用于全身现实世界强化学习的仿真预训练潜在动作空间
  • 机器人训练机器人:类人机器人的自动现实世界策略适应与学习
  • 类人机器人策略 ~ 人类策略

世界模型

  • Real2Render2Real: 在无需动力学仿真或机器人硬件的情况下扩展机器人数据
  • 跨传感器触觉生成
  • WoMAP: 面向具身开放词汇物体定位的世界模型
  • DreamGen: 通过视频世界模型解锁机器人学习中的泛化能力
  • 工具即接口: 通过观察人类使用工具来学习机器人策略
  • 野外关节型物体估计
  • DiWA: 基于扩散的世界模型进行策略适应
  • 可引导场景生成结合训练后与推理时搜索
  • 生成式视觉预见结合任务无关姿态估计在机器人桌面操作中的应用
  • Gen2Act: 在新场景中生成人类视频以实现可泛化的机器人操作
  • 反思式规划: 用于多阶段长期机器人操作的视觉-语言模型
  • LaDi-WM: 基于潜在扩散的世界模型用于预测性操作

灵巧操作

  • DexUMI: 将人手用作灵巧操作的通用操作接口 页面
  • Dexplore: 基于参考范围探索的可扩展神经网络控制用于灵巧操作
  • FFHFlow: 通过流变分推断生成多样化且考虑不确定性的灵巧抓握
  • GraspQP: 针对多样化和鲁棒灵巧抓握的力闭合可微优化 页面
  • 形态对称的强化学习用于双手灵巧操作
  • KineDex: 通过动觉教学学习触觉感知的视觉运动策略,用于灵巧操作
  • D-Cubed: 基于潜在扩散的轨迹优化用于灵巧变形体操作
  • LodeStar: 通过来自人类演示的合成数据增强实现长期灵巧操作

仿真到现实

  • 模拟的声音: 使用生成式音频学习多模态仿真到现实机器人策略
  • FetchBot: 通过零样本仿真到现实学习杂乱场景中的通用物体抓取
  • ClutterDexGrasp: 一种用于杂乱场景中通用灵巧抓握的仿真到现实系统
  • SimShear: 基于剪切的触觉伺服的仿真到现实
  • 轮式实验室: 面向低成本、开源轮式机器人的现代仿真到现实技术
  • Articulate AnyMesh: 开放词汇3D关节型物体建模
  • AgentWorld: 用于场景构建和移动机器人操作的交互式仿真平台
  • 从任意图像中学习机器人

ICCV2025

视觉-语言-行动模型

  • 探索机器人领域中视觉-语言-行动模型的对抗脆弱性 论文 页面
  • VQ-VLA: 通过扩展向量量化动作标记器改进视觉-语言-行动模型 论文 页面
  • Dita: 扩展扩散Transformer以实现通用视觉-语言-行动策略 论文 页面
  • Moto: 潜在运动标记作为连接语言,用于从视频中学习机器人操作 论文 页面
  • A0: 一种面向通用机器人操作的 affordance感知层次模型 论文 页面
  • 具身视频代理: 来自第一视角视频和具身传感器的持久记忆能够实现动态场景理解 论文 页面
  • CoA-VLA: 通过视觉-文本affordance链改进视觉-语言-行动模型 论文
  • FedVLA: 基于双门控专家混合的联邦视觉-语言-行动学习用于机器人操作 论文
  • 朝向长期视觉-语言-行动系统:推理、行动与记忆 论文
  • PASG: 用于机器人操作中自动化几何基元提取和语义锚定的闭环框架 论文
  • SD2Actor: 通过扩散嵌入进行连续状态分解以支持机器人操作 论文

视觉-语言-导航模型

  • 移动以理解3D场景: 桥接视觉接地与探索,实现高效且多功能的具身导航 论文 页面
  • 重新思考视觉与语言导航中的具身差距:对物理与视觉差异的整体研究 论文 页面
  • P3Nav: 一个整合感知、规划与预测的统一具身导航框架 论文
  • SAME: 学习基于状态自适应专家混合的通用语言引导视觉导航 论文 页面
  • NavMorph: 一个自我演化的世界模型,用于连续环境中的视觉与语言导航 论文 页面
  • 利用输入自适应推理实现高效的VLN 论文
  • 具身导航结合动作描述预测辅助任务 论文
  • 具有开放集语义分组的3D高斯地图用于视觉与语言导航 论文
  • NavQ: 学习用于前瞻性视觉与语言导航的Q模型 论文
  • monoVLN: 桥接单目与全景视觉与语言导航之间的观测差距 论文

分层规划

  • 基于基础模型推理与部件接地的自适应关节物体即时操作 论文
  • CogNav:利用大语言模型进行目标物体导航的认知过程建模 论文 页面
  • RoBridge:一种连接认知与执行的分层架构,用于通用机器人操作 论文 页面

世界模型

  • IRASim:用于机器人操作的细粒度世界模型 论文 页面
  • GWM:迈向可扩展的高斯世界模型,用于机器人操作 论文 页面
  • DyWA:适用于泛化非抓取式操作的动力学自适应世界动作模型 论文 页面
  • 基于扩散的双臂操作想象协调 论文
  • 学习4D具身世界模型 论文

策略

  • 重新思考双臂机器人操作:基于解耦交互框架的学习 论文
  • EC-Flow:通过以具身为中心的流体方法,从无动作标注视频中实现多功能机器人操作 论文 页面
  • Dense Policy:双向自回归动作学习 论文 页面
  • AnyBimanual:将单臂策略迁移至通用双臂操作 论文 页面
  • 从第一人称视频中学习精确的可供性,用于机器人操作 论文 页面
  • iManip:面向机器人操作的技能增量式学习 论文
  • 具有时空感知的视觉-运动扩散策略学习 论文 页面
  • Wavelet Policy:用于长 horizon 任务的策略学习提升方案 论文 页面
  • 面向机器人学习的4D视觉预训练 论文

加速与部署

  • 基于显著性感知的量化模仿学习,用于高效机器人控制 论文
  • 设备端扩散 Transformer 策略,用于高效机器人操作 论文
  • COSMO:结合选择性记忆的低成本视觉-语言导航 论文
  • CARP:用于视觉-运动策略学习的粗到细自回归预测 论文 页面

感知

  • EmbodiedOcc:基于视觉的在线场景理解中的具身3D占用预测 论文 页面
  • Embodied Image Captioning:用于空间连贯图像描述的自监督学习智能体 论文 页面

基准与数据集

  • VLABench:一个大规模的、包含长 horizon 推理任务的语言条件机器人操作基准 论文 页面
  • RoboFactory:探索具有组合约束的具身智能体协作 论文 页面
  • HUMOTO:一个包含动作捕捉的人类物体交互的4D数据集 论文 页面
  • RoboMM:用于机器人操作的一体化多模态大型模型 论文
  • MoMa-Kitchen:一个超过10万条的基准,用于移动操作中基于可供性的最后一公里导航 论文 页面
  • RoboPearls:用于机器人操作的可编辑视频仿真 论文 页面
  • DexH2R:一个人机交接中动态灵巧抓握的基准 论文 页面
  • 超越目的地:一个新颖的、面向探索的具身问答基准 论文 页面
  • RobAVA:一个大规模的数据集和基线,旨在实现基于视频的机械臂动作理解 论文
  • RoboAnnotatorX:一个全面且通用的标注框架,用于准确理解长 horizon 的机器人演示 论文

ICML2025

视觉-语言-行动模型

  • Hi Robot:使用分层视觉-语言-行动模型进行开放式指令遵循 论文
  • OTTER:一种具有文本感知视觉特征提取的视觉-语言-行动模型 论文 页面
  • UP-VLA:一个用于具身智能体的统一理解和预测模型 论文
  • ELEMENTAL:通过演示和视觉-语言模型进行交互式学习,用于机器人奖励设计 论文
  • ReinboT:利用强化学习增强机器人视觉-语言操作 论文
  • 一个大型循环行动模型:xLSTM 使机器人任务能够快速推理 论文 页面

计划与推理

  • 通过潜在空间逆向规划进行高效的机器人策略学习 论文 页面
  • 通过平衡序列建模进行闭环长 horizon 机器人规划 论文 页面

政策

  • SAM2Act:将视觉基础模型与记忆架构集成用于机器人操作 论文
  • 使用4D表示进行自回归机器人模型的预训练 论文 页面
  • 基于流的领域随机化用于学习和编排机器人技能 论文
  • EmbodiedBench:面向视觉驱动具身智能体的多模态大型语言模型综合基准测试 论文 页面
  • 在具有多样化任务的MDP中学习策略委员会以实现有效个性化 论文
  • 视频预测策略:一种具有预测性视觉表征的通用机器人策略 论文 页面
  • STAR:通过旋转增强学习多样化的机器人技能抽象 论文 页面

3D视觉

  • 统一2D和3D视觉-语言理解 论文 页面
  • GAPrompt:面向3D视觉模型的几何感知点云提示 论文 页面

数据集

  • WOMD-Reasoning:用于驾驶中交互推理的大规模数据集 论文 页面

RSS2025

  • 统一世界模型:将视频和动作扩散耦合用于大型机器人数据集上的预训练 论文 页面
  • CordViP:基于对应关系的视动策略,用于现实世界中的灵巧操作 论文 页面
  • 反应式扩散策略:用于接触密集型操作的慢速-快速视觉-触觉策略学习 论文 页面
  • 扩散策略中动态排名调整,用于高效灵活的训练 论文
  • SpatialVLA:探索用于视觉-语言-行动模型的空间表征 论文
  • 草图转技能:利用人类绘制的轨迹草图启动机器人学习 论文
  • NaVILA:用于导航的足式机器人视觉-语言-行动模型 论文 页面
  • ConRFT:通过一致性策略对VLA模型进行强化微调的方法 论文 页面
  • 你只教一次:从视频演示中学习一次性双臂机器人操作 论文 页面
  • ASAP:对齐仿真与真实物理环境,以学习敏捷人形机器人全身技能 论文 页面
  • 飞行之手:以末端执行器为中心的框架,用于多功能空中操作的遥操作和策略学习 论文 页面
  • DemoGen:用于数据高效视动策略学习的合成演示生成 论文 页面
  • DOGlove:使用低成本开源触觉力反馈手套进行灵巧操作 论文 页面
  • RoboSplat:采用高斯泼溅技术的新颖演示生成方法,可实现稳健的一次性操作 论文 页面
  • 利用车载部署的大语言模型增强自动驾驶系统 论文
  • SATA:受动物学习启发的安全且自适应的基于扭矩的运动策略 论文 视频
  • FACTR:面向接触密集型策略学习的力量导向课程训练 论文 页面
  • RoboVerse:迈向可扩展且通用的机器人学习统一平台、数据集和基准测试 论文 页面
  • STDArm:将视动策略从静态数据训练转移到动态机器人操作 论文

CVPR2025

视觉-语言-行动模型

  • UniAct:增强具身基础模型的通用行动 论文 页面
  • MoManipVLA:用于通用移动操作的视觉-语言-行动模型迁移 论文 页面
  • CoT-VLA:用于视觉-语言-行动模型的视觉思维链推理 论文
  • SOLAMI:用于与3D自主角色沉浸式互动的社会视觉-语言-行动建模 论文 页面
  • 以数据为中心重新审视用于机器人学习的预训练视觉模型 论文 页面
  • 从小思考,大处行动:用于终身机器人操作的原始提示学习
  • 凤凰:一种基于运动的自我反思框架,用于精细的机器人动作修正 论文
  • OmniManip:通过以物体为中心的交互原语作为空间约束,迈向通用机器人操作 论文 页面
  • 缓解机器人操作视觉预训练中的“人-机器人”领域差异 论文
  • 以物体为中心的提示驱动视觉-语言-行动模型,用于机器人操作 摘要
  • 机器人视觉指令
  • RoboGround:基于 grounded 视觉-语言先验的机器人操作

策略

  • KStar Diffuser: 基于运动学建模的时空图扩散策略,用于双臂机器人操作 论文
  • RoboPEPP: 通过嵌入式预测性预训练进行基于视觉的机器人位姿与关节角估计 论文
  • Lift3D Policy: 将2D基础模型提升至鲁棒的3D机器人操作 论文 页面
  • PDFactor: 学习多任务机器人操作的三视角视图策略扩散场 摘要
  • Two by Two: 学习跨任务的成对物体装配,以实现可泛化的机器人操作
  • FlowRAM: 基于区域感知Mamba框架的流匹配策略,用于机器人操作 摘要
  • G3Flow: 用于姿态感知且可泛化的物体操作的生成式3D语义流 论文 页面
  • DexHandDiff: 面向自适应灵巧操作的交互感知扩散规划 论文 页面
  • Tra-MoE: 从多个领域学习轨迹预测模型,用于自适应策略条件化 论文
  • AffordDP: 具有可迁移效用性的可泛化扩散策略 论文 页面
  • Tra-MoE: 从多个领域学习轨迹预测模型,用于自适应策略条件化 论文 页面

抓取

  • UniGraspTransformer: 面向可扩展灵巧机器人抓取的简化策略蒸馏 论文 页面
  • DexGrasp Anything: 基于物理感知的通用灵巧机器人抓取 论文 页面
  • ZeroGrasp: 支持零样本形状重建的机器人抓取 论文

类人机器人

  • 让类人机器人去徒步旅行!复杂地形下的综合技能开发 论文 页面
  • MobileH2R: 仅利用可扩展且多样化的合成数据学习可泛化的从人类到移动机器人的交接 论文

3D视觉

  • 3D-MVP: 用于机器人操作的3D多视角预训练 论文 页面
  • VidBot: 从野外2D人体视频中学习可泛化的3D动作,用于零样本机器人操作 论文 页面
  • Touch2Shape: 基于触觉条件的3D扩散,用于形状探索与重建 摘要

规划与推理

  • RoboBrain: 从抽象到具体的一体化机器人操作大脑模型 论文
  • PhysVLM: 使视觉语言模型能够理解机器人物理可达性 论文
  • RoboSpatial: 向2D和3D视觉-语言模型教授空间理解能力,用于机器人技术 论文
  • Tartan IMU: 用于机器人惯性定位的轻量级基础模型 摘要
  • 代码即监控器: 面向反应式与主动式机器人故障检测的约束感知视觉编程 论文 页面

视频

  • TASTE-Rob: 推进面向任务的手物交互视频生成,以实现可泛化的机器人操作 论文
  • GraphMimic: 基于视频的图到图生成建模,用于策略学习 论文

模拟转真实与真实转模拟

  • Prof. Robot: 无静态与自碰撞的可微分机器人渲染 论文 页面
  • AutoURDF: 使用聚类配准从点云帧中进行无监督的机器人建模 论文 页面

基准与数据集

  • RoboTwin: 具有生成式数字孪生的双臂机器人基准(早期版本)论文 页面
  • 用于机器人视觉的像素对齐RGB-NIR立体成像及数据集 论文
  • RoboSense: 大规模数据集与基准,用于拥挤且非结构化环境中的自我中心式机器人感知与导航 论文 页面

ICLR2025

视觉-语言-行动模型

  • LLaRA: 为视觉-语言策略增强机器人学习数据 论文 页面
  • VLAS: 带有语音指令的视觉-语言-行动模型,用于定制化机器人操作 论文 页面
  • TraceVLA: 视觉追踪提示增强了通用机器人策略的空间-时间意识 论文 页面
  • 机器人预训练机器人: 基于大规模机器人数据集的操作导向型机器人表征 论文 页面
  • PIDM: 预测性逆动力学模型是可扩展的机器人操作学习者 论文 页面

政策

  • GravMAD: 基于地面空间值图引导的动作扩散模型,用于通用3D操作 论文 主页
  • ReViWo: 面向视觉机器人操作的视不变世界模型学习 论文 知乎
  • HAMSTER: 用于开放世界机器人操作的层次化动作模型 论文 主页
  • BadRobot: 在物理世界中越狱具身大语言模型 论文 主页
  • STRAP: 用于增强型策略学习的机器人子轨迹检索 论文 主页
  • SRSA: 用于机器人装配任务的技能检索与适应 论文 主页
  • 机器人操作模仿学习中的数据规模法则 论文 主页
  • Stem-OB: 基于茎状收敛观测与扩散反演的可泛化视觉模仿学习 论文 主页

3D视觉

  • Dream to Manipulate: 组合式世界模型通过想象力赋能机器人模仿学习 论文 主页
  • SPA*: 3D空间感知能力实现有效的具身表征 论文 主页

规划与推理

  • LASeR: 基于大型语言模型实现多样化和可泛化的机器人设计 论文 主页
  • 面向机器人运动规划的物理信息约束时序差分度量学习 论文 主页
  • AHA: 用于检测和推理机器人操作失败的视觉-语言模型 论文 主页
  • EMOS: 具身感知的异构多机器人操作系统,配备LLM智能体 论文 主页
  • VisualPredicator: 利用神经符号谓词学习抽象世界模型,用于机器人规划 论文 主页
  • DenseMatcher: 从单个演示中学习类别级操作的3D语义对应关系 论文 主页
  • 面向机器人操作的互联网视频中6D物体位姿跟踪 论文 主页

规划与推理

  • 基于扩散模型的多机器人运动规划 论文 主页

视频

  • GEVRM: 面向鲁棒视觉操作的目标表达型视频生成模型 论文

Sim2real与Real2sim

  • ReGen: 通过逆向设计实现的生成式机器人仿真 论文 主页

ICRA2025

  • MoRE: 解锁四足视觉-语言-动作模型强化学习的可扩展性 论文
  • QUART-Online: 无延迟的大型多模态语言模型,用于四足机器人学习 论文 主页
  • SpatialBot: 基于视觉语言模型的精确空间理解 论文 主页

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|1周前
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|1周前
语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。

79.8k|★☆☆☆☆|1周前
其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2周前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

75.8k|★★★☆☆|今天
语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。

72.1k|★☆☆☆☆|2周前
开发框架其他