Awesome-Robotics-3D
Awesome-Robotics-3D 是一个专注于大模型时代机器人 3D 视觉领域的精选资源库。它系统性地整理了与机器人技术密切相关的 3D 视觉学术论文、开源代码实现及相关网站,旨在填补该细分领域高质量资料聚合的空白。
随着大型语言模型(LLM)和视觉 - 语言模型(VLM)的兴起,如何让机器人更好地理解和操作三维世界成为研究热点,但相关成果分散且难以追踪。Awesome-Robotics-3D 通过分类梳理,有效解决了研究人员查找前沿文献和技术复现困难的问题。其内容涵盖策略学习(Policy Learning)、预训练方法、多模态大模型应用、3D 表征技术以及仿真数据集等多个核心板块,并收录了如 SAM2Act、3D Diffuser Actor 等结合扩散模型与 3D 场景表示的最新突破性工作。
这份资源特别适合机器人学、计算机视觉领域的研究人员、算法工程师及高校学生使用。无论是希望快速把握"3D 高斯泼溅在机器人中的应用”等新兴趋势,还是寻找具体的代码基线进行二次开发,用户都能在此获得极具价值的指引。作为一个由社区共同维护的开放项目,它持续更新,是探索智能机器人 3D 感知与决策技术不可或缺的导航图。
使用场景
某机器人初创公司的算法团队正致力于开发一款能理解自然语言指令并执行复杂抓取任务的智能机械臂,急需整合最新的 3D 视觉与大模型技术。
没有 Awesome-Robotics-3D 时
- 文献检索如大海捞针:研究人员需在 arXiv、GitHub 和各类会议网站间手动穿梭,难以区分哪些论文真正结合了 LLM/VLM 与 3D 机器人任务,耗时数周仍可能遗漏关键成果。
- 代码复现门槛极高:找到论文后,往往发现官方代码未开源或链接失效,缺乏统一入口验证算法的可用性,导致大量时间浪费在寻找可运行代码上。
- 技术选型盲目试错:面对分散的策略学习(Policy Learning)和预训练(Pretraining)方法,团队难以快速对比如"3D Diffuser Actor"与"ManiCM"等方案的优劣,容易选错技术路线。
- 前沿动态更新滞后:大模型领域迭代极快,人工追踪难以实时获取如"Neural Fields in Robotics"等最新综述,导致研发方案刚起步就已落后于社区主流。
使用 Awesome-Robotics-3D 后
- 一站式精准定位资源:团队直接通过分类目录(如 VLM and LLM、Representations)锁定目标,瞬间获取包含论文、网页演示及代码链接的完整清单,调研效率提升十倍。
- 即拿即用的代码生态:每个条目均附带经过验证的代码仓库链接(如 SAM2Act、HDP),工程师可立即克隆并测试基线模型,大幅缩短从理论到原型的周期。
- 科学决策技术路线:借助 curated list 中对不同策略学习方法的系统梳理,团队快速对比出适合自身场景的“分层扩散策略”,避免了盲目的重复造轮子。
- 同步全球最新进展:依托社区的持续维护,团队能第一时间掌握 2024-2025 年的最新突破(如 ICML 2025 的新作),确保产品架构始终处于行业前沿。
Awesome-Robotics-3D 将原本碎片化、高成本的科研探索过程,转化为高效、结构化的技术落地流程,是连接学术前沿与机器人工程实践的关键桥梁。
运行环境要求
未说明
未说明

快速开始
Awesome-Robotics-3D
✨ 关于
本仓库收录了一份精心整理的与机器人领域相关的3D视觉论文清单,聚焦于大模型时代(即LLMs/VLMs),灵感来源于awesome-computer-vision。
欢迎随时向我发送拉取请求或邮件,以添加新的论文!
如果您觉得本仓库有所帮助,请考虑引用并为这份列表点个赞⭐。
也欢迎您将此列表分享给他人! 该列表由Zubair Irshad整理并维护。 如有任何问题,欢迎随时联系!
:fire: 其他相关综述论文:
“机器人中的神经场”,arXiv,2024年10月。[论文]
“当LLM步入3D世界:基于多模态大型语言模型的3D任务综述与元分析”,arXiv,2024年5月。[论文]
“机器人领域的3D高斯泼溅技术综述”,arXiv,2024年10月。[论文]
“基于3D视觉的机器人操作综合研究”,TCYB 2021。[论文]
🏠 概览
策略学习
3D Diffuser Actor: “基于3D场景表示的策略扩散”,arXiv 2024年2月。[论文] [网页] [代码]
3D Diffusion Policy: “通过简单的3D表示实现可泛化的视觉—运动策略学习”,RSS 2024。[论文] [网页] [代码]
ManiCM: “基于一致性模型的实时3D扩散策略,用于机器人操作”,arXiv 2024年6月。[论文] [网页] [代码]
Imagination Policy: “利用生成式点云模型学习操作策略”,arXiv 2024年6月。[论文] [网页]
VIHE: “基于Transformer的虚拟手内视角3D物体操作”,arXiv 2024年3月。[论文] [网页] [代码]
Sigma-Agent: “面向语言指导的多任务机器人操作的对比模仿学习”,arXiv 2024年6月。[论文]
Chaineddiffuser: “统一轨迹扩散与关键姿态预测用于机器人操作”,CORL 2023。[论文] [网页] [代码]
Perceiver-Actor: “用于机器人操作的多任务Transformer”,CORL 2022。[论文] [网页] [代码]
预训练
RoboUniView: “具有统一视图表示的视觉—语言模型用于机器人操作”,arXiv 2023年6月。[论文] [网站] [代码]
DPR: “带有深度感知预训练的视觉机器人操作”,arXiv 2024年1月。[论文]
Point Cloud Matters: “重新思考不同观测空间对机器人学习的影响”,arXiv 2024年2月。[论文] [代码]
视觉语言模型与大语言模型
RoboTracer:“在机器人领域,通过视觉-语言模型中的推理掌握空间轨迹”,ArXiv 2025。[论文] [网站]
ShapeLLM:“ShapeLLM:面向具身交互的通用3D物体理解”,ECCV 2024。[论文/PDF] [代码] [网站]
Open6DOR:“开放指令下6自由度物体重排的基准测试及基于VLM的方法”,IROS 2024。[论文] [网站] [代码]
ReasoningGrasp:“通过多模态大语言模型进行推理抓取”,CORL 2024。[论文]
Scene-LLM:“扩展语言模型以实现3D视觉理解和推理”,arXiv,2024年3月。[论文]
ManipLLM:“面向以物体为中心的机器人操作的具身多模态大语言模型”,CVPR 2024。[论文] [网站] [代码]
Manipulate-Anything:“Manipulate-Anything:利用视觉-语言模型自动化现实世界机器人”,CoRL,2024年。[论文] [网站]
SpatialPIN:“通过提示和交互式3D先验增强视觉-语言模型的空间推理能力”,arXiv,2024年3月。[论文] [网站]
3D-LLM:“通过基于标记的视觉提示实现开放词汇的机器人操作”,NeurIPS 2023。[论文] [网站] [代码]
MoMa-LLM:“基于语言的动态场景图,用于移动操作中的交互式物体搜索”,RA-L 2024。[论文] [网站] [代码]
表示方法
Splat-MOVER:“通过可编辑的高斯泼溅实现多阶段、开放词汇的机器人操作”,arXiv 2024年5月。[论文] [网页]
GaussianGrasper:“用于开放词汇机器人抓取的3D语言高斯泼溅”,arXiv 2024年3月。[论文] [网页] [代码]
OVMM:“在未见的动态环境中,利用3D语义地图实现开放词汇的移动操作”,arXiv,2024年6月。[论文]
D3Fields:“用于零样本可泛化机器人操作的动态3D描述子场”,arXiv,2023年9月。[论文] [网页] [代码]
模拟环境、数据集和基准测试
BEHAVIOR Vision Suite:“通过仿真实现可定制的数据集生成”,CVPR 2024。[论文] [官网] [代码]
ARNOLD:“ARNOLD:在真实3D场景中基于连续状态的语言接地任务学习基准”,ICCV 2023。[论文] [网页] [代码]
Robo360:“包含多种材质的3D全方位机器人操作数据集”,arxiv,2023年12月。[论文]
VL-Grasp:“针对杂乱室内场景中以语言为导向物体的6自由度交互式抓取策略”,IROS 2023。[论文] [代码]
OCID-Ref:“包含具身语言的3D机器人数据集,用于杂乱场景中的对象定位”,NAACL 2021。[论文] [代码]
HabiCrowd:“HabiCrowd:用于人群感知视觉导航的高性能仿真器”,IROS 2024。[论文] [官网] [代码]
引用
如果您觉得本仓库有用,请考虑引用此列表:
@misc{irshad2024roboticd3D,
title = {Awesome Robotics 3D - 关于机器人相关3D视觉论文的精选资源列表},
author = {Muhammad Zubair Irshad},
journal = {GitHub仓库},
url = {https://github.com/zubair-irshad/Awesome-Robotics-3D},
year = {2024},
}
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
