Awesome-LLM-3D
Awesome-LLM-3D 是一个专注于整理“多模态大语言模型在 3D 世界应用”的精选资源库。随着人工智能从二维图像向三维空间延伸,研究人员面临着论文分散、技术路线繁杂的挑战。Awesome-LLM-3D 旨在解决这一痛点,它系统性地汇聚了全球前沿学术成果,涵盖 3D 理解、逻辑推理、内容生成以及具身智能代理等核心任务,同时也收录了 CLIP、SAM 等相关基础模型的重要研究,为从业者提供了一张清晰的领域全景图。
该资源库特别适合 AI 研究人员、开发者以及对空间智能感兴趣的技术探索者使用。无论是希望快速追踪最新算法进展的学者,还是正在寻找 3D 项目灵感的工程师,都能在此高效获取经过筛选的高质量论文、代码链接及基准测试数据。其独特亮点在于不仅提供了静态列表,还持续更新包括综述论文和真实 3D 空间理解基准(如 Real-3DQA)在内的深度内容,并按时间顺序梳理技术演进脉络。通过 Awesome-LLM-3D,用户可以轻松把握大模型如何“步入”三维世界的前沿动态,加速相关技术的研发与创新。
使用场景
某自动驾驶初创公司的感知算法团队,正致力于研发能够理解复杂三维空间并执行推理任务的具身智能代理(Embodied Agent)。
没有 Awesome-LLM-3D 时
- 文献检索如大海捞针:研究人员需在 arXiv、GitHub 和各类会议网站间反复切换,手动筛选"3D 理解”、“空间推理”等关键词,耗时数周仍难以覆盖最新成果。
- 技术选型缺乏全局视野:由于缺少统一的分类索引,团队难以区分哪些模型专注于纯几何理解,哪些具备多模态生成能力,导致技术路线规划盲目。
- 复现成本高昂且易错:找到的论文往往缺失官方代码链接或基准测试数据,工程师需花费大量时间验证论文的可复现性,甚至因信息滞后而重复造轮子。
- 前沿动态跟进滞后:面对该领域每周涌现的新论文,团队无法及时获取如 Real-3DQA 等最新基准测试信息,导致研发进度落后于学术界前沿。
使用 Awesome-LLM-3D 后
- 一站式精准获取资源:团队直接利用其 curated list,按"3D Embodied Agent"或"3D Reasoning"分类快速锁定目标论文,将调研周期从数周缩短至几天。
- 清晰的技术地图指引:通过明确的表格分类(如统一理解与生成、基础模型对比),团队迅速明确了基于几何 - 语义编码的 UniUGG 等模型最适合当前场景。
- 高效落地与复现:列表中每条记录均附带最新的 GitHub 仓库链接和发表会议信息,工程师能直接拉取代码进行微调,大幅降低试错成本。
- 实时同步顶尖进展:借助其活跃的维护机制,团队第一时间掌握了 ICLR 2026 上的最新基准测试方法,确保算法评估标准始终处于行业领先地位。
Awesome-LLM-3D 将分散的 3D-LLM 学术资源转化为结构化的工程导航图,让研发团队能从繁琐的信息搜集解放出来,专注于核心算法的突破与创新。
运行环境要求
未说明
未说明

快速开始
Awesome-LLM-3D

🏠 关于
这里是一个精心整理的清单,收录了由大型语言模型(LLMs)赋能的3D相关任务的相关论文。内容涵盖3D理解、推理、生成以及具身智能体等多个方向。此外,我们还纳入了其他基础模型(如CLIP、SAM),以全面展示该领域的研究现状。
本仓库处于持续更新状态,欢迎关注以获取最新进展。如果您觉得这份资源有用,请为本仓库点个赞⭐,并引用我们的论文(见#citation)。
🔥 最新动态
- [2026-03-20] 我们的基准评测论文Real-3DQA现已发表于ICLR 2026!继我们的综述论文之后,我们又发布了关于真正3D空间理解的基准评测论文。项目主页
- [2025-10-21] 📢 我们发布了综述的第二版,更新至2025年7月的文献:
👉 当LLMs走进3D世界:基于多模态大型语言模型的3D任务综述与元分析 - [2024-05-16] 查看3D-LLM领域首篇综述论文:当LLMs走进3D世界:基于多模态大型语言模型的3D任务综述与元分析
- [2024-01-06] Runsen Xu 添加了时间顺序信息,而Xianzheng Ma则按Z-A顺序重新整理,以便更好地追踪最新进展。
- [2023-12-16] Xianzheng Ma 和Yash Bhalgat共同整理了这份清单,并发布了第一版;
目录
通过LLM实现的3D统一理解与生成
| 日期 | 关键词 | 首发机构 | 论文 | 发表期刊 | 其他 |
|---|---|---|---|---|---|
| 2025-11-07 | Omni-View | 北京大学 | Omni-View:基于多视角图像的统一3D模型如何通过生成促进理解 | ICLR 2026 | github |
| 2025-08-16 | UniUGG | 复旦大学 | UniUGG:基于几何-语义编码的统一3D理解和生成 | ICLR 2026 | github |
通过LLM进行3D理解
| 日期 | 关键词 | 机构(第一) | 论文 | 发表平台 | 其他 |
|---|---|---|---|---|---|
| 2026-03-07 | 3D-RFT | BIGAI | 3D-RFT: 基于视频的3D场景理解的强化微调 | Arxiv | github |
| 2025-12-05 | Fast Scenescript | Qualcomm / UvA | Fast SceneScript: 通过多令牌预测实现快速准确的语言驱动3D场景理解 | CVPR '26 | - |
| 2025-11-27 | G2VLM | 上海人工智能实验室 | G2VLM: 具有统一3D重建和空间推理能力的几何基础视觉语言模型 | Arxiv | github |
| 2025-11-07 | Omni-View | 北京大学 | Omni-View: 解锁生成如何促进基于多视角图像的统一3D模型中的理解 | ICLR 2026 | github |
| 2025-08-16 | UniUGG | 福建大学 | UniUGG: 通过几何语义编码实现统一的3D理解和生成 | ICLR 2026 | github |
| 2025-07-31 | 3D-R1 | 北京大学 | 3D-R1: 增强3D VLM中的推理能力以实现统一场景理解 | Arxiv | 项目 |
| 2025-06-11 | LEO-VL | BIGAI | LEO-VL: 面向可扩展3D视觉-语言学习的高效场景表示 | Arxiv | 项目 |
| 2025-06-09 | SpatialLM | Manycore Tech / 香港科技大学 | SpatialLM: 训练大型语言模型进行结构化室内建模 | NeurIPS '25 | 项目 |
| 2025-06-02 | 3DRS | 香港大学 | MLLMs需要3D感知表示监督来进行场景理解 | Arxiv | 项目 |
| 2025-05-30 | VG LLM | 香港中文大学 | 从视频中学习3D世界:利用3D视觉几何先验增强MLLMs | Arxiv | 项目 |
| 2025-05-29 | Spatial-MLLM | 清华大学 | Spatial-MLLM: 提升MLLM在视觉驱动的空间智能方面的能力 | Arxiv | 项目 |
| 2025-05-28 | SeeGround | 香港科技大学(广州) | 基于视觉-语言模型的零样本3D视觉接地 | CVPRW'25 | 项目 |
| 2025-05-28 | 3DLLM-Mem | UCLA/Google | 3DLLM-Mem: 面向具身3D大型语言模型的长期时空记忆 | NeurIPS'25 | 项目 |
| 2025-04-24 | 3D-LLaVA | 阿德莱德大学 | 3D-LLaVA: 借助全能超点Transformer迈向通用3D LMMs | CVPR '25 | github |
| 2025-04-03 | Ross3D | 中科院自动化所 | Ross3D: 具有3D意识的重建式视觉指令微调 | Arxiv | 项目 |
| 2025-03-08 | SplatTalk | GIT | SplatTalk: 基于高斯泼溅的3D VQA | Arxiv | github |
| 2025-03-01 | Inst3D-LMM | 浙江大学 | Inst3D-LMM: 基于多模态指令微调的实例感知3D场景理解 | CVPR '25 | github |
| 2025-02-13 | ENEL | SH AILab | ENEL: 探索无编码器架构在3D LMMs中的潜力 | Arxiv | 项目 |
| 2025-02-02 | LSceneLLM | 华南理工大学 | LSceneLLM: 利用自适应视觉偏好提升大型3D场景理解能力 | CVPR '25 | 项目 |
| 2025-01-02 | GPT4Scene | 香港大学 | GPT4Scene: 利用视觉-语言模型从视频中理解3D场景 | Arxiv | 项目 |
| 2024-12-05 | SeeGround | 香港科技大学(广州) | SeeGround: 观察并接地,实现零样本开放词汇3D视觉接地 | CVPR '25 | 项目 |
| 2024-12-03 | Video-3D LLM | 香港中文大学 | Video-3D LLM: 学习位置感知视频表示以用于3D场景理解 | CVPR '25 | 项目 |
| 2024-11-29 | PerLA | 布鲁诺·凯斯勒基金会 | PerLA: 感知型3D语言助手 | CVPR '25 | 项目 |
| 2024-10-12 | Situation3D | 伊利诺伊大学厄巴纳-香槟分校 | 情境感知在3D视觉语言推理中的重要性 | CVPR '24 | 项目 |
| 2024-09-30 | Robin3D | 香港大学 | Robin3D: 通过稳健的指令微调改进3D大型语言模型 | ICCV '25 | github |
| 2024-09-28 | LLaVA-3D | 香港大学 | LLaVA-3D: 一条简单而有效的途径,使LMMs具备3D感知能力 | Arxiv | 项目 |
| 2024-09-08 | MSR3D | BIGAI | 3D场景中的多模态情境推理 | NeurIPS '24 | 项目 |
| 2024-08-28 | GreenPLM | 华中科技大学 | 更多文本,更少点云:迈向3D数据高效的点云-语言理解 | Arxiv | github |
| 2024-06-17 | LLaNA | 博洛尼亚大学 | LLaNA: 大型语言与NeRF助手 | NeurIPS '24 | 项目 |
| 2024-06-07 | SpatialPIN | 牛津大学 | SpatialPIN: 通过提示和交互式3D先验增强视觉-语言模型的空间推理能力 | NeurIPS '24 | 项目 |
| 2024-06-03 | SpatialRGPT | 加州大学圣地亚哥分校 | SpatialRGPT: 在视觉语言模型中实现 grounded空间推理 | NeurIPS '24 | github |
| 2024-05-02 | MiniGPT-3D | 华中科技大学 | MiniGPT-3D: 利用2D先验高效对齐3D点云与大型语言模型 | ACM MM '24 | 项目 |
| 2024-03-19 | Scenescript | Meta | SceneScript: 使用自回归结构化语言模型重建场景 | ECCV '24 | 项目 |
| 2024-02-27 | ShapeLLM | 西安交通大学 | ShapeLLM: 面向具身交互的通用3D对象理解 | Arxiv | 项目 |
| 2024-01-22 | SpatialVLM | Google DeepMind | SpatialVLM: 为视觉-语言模型赋予空间推理能力 | CVPR '24 | 项目 |
| 2023-12-21 | LiDAR-LLM | 北京大学 | LiDAR-LLM: 探索大型语言模型在3D激光雷达理解方面的潜力 | Arxiv | 项目 |
| 2023-12-15 | 3DAP | 上海人工智能实验室 | 3DAxiesPrompts: 释放GPT-4V的3D空间任务能力 | Arxiv | 项目 |
| 2023-12-13 | Chat-Scene | 浙江大学 | Chat-Scene: 通过对象标识符连接3D场景和大型语言模型 | NeurIPS '24 | github |
| 2023-12-5 | GPT4Point | 香港大学 | GPT4Point: 一个统一的框架,用于点云-语言的理解和生成 | Arxiv | github |
| 2023-11-30 | LL3DA | 复旦大学 | LL3DA: 面向全方位3D理解、推理和规划的视觉交互式指令微调 | Arxiv | github |
| 2023-11-26 | ZSVG3D | 香港中文大学(深圳) | 面向零样本开放词汇3D视觉接地的可视化编程 | Arxiv | 项目 |
| 2023-11-18 | LEO | BIGAI | 3D世界中的具身通才代理 | ICML '24 | github |
| 2023-10-14 | JM3D-LLM | 厦门大学 | JM3D & JM3D-LLM: 通过联合多模态线索提升3D表示 | ACM MM '23 | github |
| 2023-10-10 | Uni3D | BAAI | Uni3D: 探索大规模统一3D表示 | ICLR '24 | 项目 |
| 2023-9-27 | - | KAUST | 零样本3D形状对应 | Siggraph Asia '23 | - |
| 2023-9-21 | LLM-Grounder | 密歇根大学 | LLM-Grounder: 以大型语言模型为代理实现开放词汇3D视觉接地 | ICRA '24 | github |
| 2023-9-1 | Point-Bind | 香港中文大学 | Point-Bind & Point-LLM: 通过多模态对齐点云,实现3D理解、生成和指令遵循 | Arxiv | github |
| 2023-8-31 | PointLLM | 香港中文大学 | PointLLM: 赋能大型语言模型理解点云 | ECCV '24 | github |
| 2023-8-17 | Chat-3D | 浙江大学 | Chat-3D: 以数据高效的方式微调大型语言模型,使其能够进行3D场景的通用对话 | Arxiv | github |
| 2023-8-8 | 3D-VisTA | BIGAI | 3D-VisTA: 预训练的Transformer,用于3D视觉与文本对齐 | ICCV '23 | github |
| 2023-7-24 | 3D-LLM | UCLA | 3D-LLM: 将3D世界注入大型语言模型 | NeurIPS '23 | github |
| 2023-3-29 | ViewRefer | 香港中文大学 | ViewRefer: 抓住多视角知识,用于3D视觉接地 | ICCV '23 | github |
| 2022-9-12 | - | MIT | 利用大型(视觉)语言模型进行机器人3D场景理解 | Arxiv | github |
通过其他基础模型进行3D理解
| 编号 | 关键词 | 机构(第一作者单位) | 论文 | 发表时间 | 其他 |
|---|---|---|---|---|---|
| 2026-03-21 | OV3D-CG | ICT, CAS | OV3D-CG:基于上下文引导的开放词汇3D实例分割 | ICCV '2025 | github |
| 2025-11-20 | POMA-3D | Imperial | POMA-3D:点云地图驱动的3D场景理解方法 | Arxiv | 项目 |
| 2025-07-26 | OV-3DDet | HKUST | CoDAv2:面向开放词汇3D目标检测的协作式新物体发现与框引导跨模态对齐 | TPAMI '25 | github |
| 2025-02-20 | CrossOver | Stanford | CrossOver:3D场景跨模态对齐 | CVPR '25 | 项目 |
| 2025-02-05 | SAGA | SJTU | Segment Any 3D Gaussians:任意3D高斯场的分割 | AAAI '25 | 项目 |
| 2024-10-12 | Lexicon3D | UIUC | Lexicon3D:探索单纯视觉基础模型在复杂3D场景理解中的能力 | NeurIPS '24 | 项目 |
| 2024-10-07 | Diff2Scene | CMU | 利用文本到图像扩散模型实现开放词汇3D语义分割 | ECCV'24 | 项目 |
| 2024-07-19 | OpenSU3D | TUM | OpenSU3D:使用基础模型进行开放世界3D场景理解 | ICRA '25 | 项目 |
| 2024-04-07 | Any2Point | 上海人工智能实验室 | Any2Point:赋能任意模态大模型实现高效3D理解 | ECCV'24 | github |
| 2024-03-16 | N2F2 | 牛津大学VGG实验室 | N2F2:基于嵌套神经特征场的层次化场景理解 | Arxiv | - |
| 2023-12-17 | SAI3D | 北京大学 | SAI3D:分割3D场景中的任意实例 | Arxiv | 项目 |
| 2023-12-17 | Open3DIS | VinAI | Open3DIS:基于2D掩码引导的开放词汇3D实例分割 | Arxiv | 项目 |
| 2023-11-6 | OVIR-3D | 罗格斯大学 | OVIR-3D:无需3D数据训练的开放词汇3D实例检索 | CoRL '23 | github |
| 2023-10-29 | OpenMask3D | ETH | OpenMask3D:开放词汇3D实例分割 | NeurIPS '23 | 项目 |
| 2023-10-5 | Open-Fusion | - | Open-Fusion:实时开放词汇3D建图与可查询场景表示 | Arxiv | github |
| 2023-9-22 | OV-3DDet | HKUST | CoDA:面向开放词汇3D目标检测的协作式新框发现与跨模态对齐 | NeurIPS '23 | github |
| 2023-9-19 | LAMP | - | 从语言到3D世界:将语言模型适配用于点云感知 | OpenReview | - |
| 2023-9-15 | OpenNerf | - | OpenNerf:基于像素级特征和渲染新视角的开放集3D神经场景分割 | OpenReview | github |
| 2023-9-1 | OpenIns3D | 剑桥大学 | OpenIns3D:针对开放词汇3D实例分割的抓拍与查找 | Arxiv | 项目 |
| 2023-6-7 | Contrastive Lift | 牛津大学VGG实验室 | Contrastive Lift:通过慢速-快速对比融合实现3D目标实例分割 | NeurIPS '23 | github |
| 2023-6-4 | Multi-CLIP | ETH | Multi-CLIP:面向3D场景问答任务的对比视觉-语言预训练 | Arxiv | - |
| 2023-5-23 | 3D-OVS | 国立台湾大学 | 弱监督下的3D开放词汇分割 | NeurIPS '23 | github |
| 2023-5-21 | VL-Fields | 爱丁堡大学 | VL-Fields:迈向语言接地的神经隐式空间表示 | ICRA '23 | 项目 |
| 2023-5-8 | CLIP-FO3D | 清华大学 | CLIP-FO3D:从2D密集CLIP中学习自由开放世界的3D场景表示 | ICCVW '23 | - |
| 2023-4-12 | 3D-VQA | ETH | CLIP引导的面向3D场景问答任务的视觉-语言预训练 | CVPRW '23 | github |
| 2023-4-3 | RegionPLC | 香港大学 | RegionPLC:面向开放世界3D场景理解的区域点-语言对比学习 | Arxiv | 项目 |
| 2023-3-20 | CG3D | 约翰霍普金斯大学 | CLIP走进3D:利用提示调优实现语言接地的3D识别 | Arxiv | github |
| 2023-3-16 | LERF | 加州大学伯克利分校 | LERF:语言嵌入辐射场 | ICCV '23 | github |
| 2023-2-14 | ConceptFusion | MIT | ConceptFusion:开放集多模态3D映射 | RSS '23 | 项目 |
| 2023-1-12 | CLIP2Scene | 香港大学 | CLIP2Scene:通过CLIP实现标签高效的3D场景理解 | CVPR '23 | github |
| 2022-12-1 | UniT3D | TUM | UniT3D:用于3D密集字幕生成和视觉定位的统一Transformer | ICCV '23 | github |
| 2022-11-29 | PLA | 香港大学 | PLA:语言驱动的开放词汇3D场景理解 | CVPR '23 | github |
| 2022-11-28 | OpenScene | ETHz | OpenScene:使用开放词汇进行3D场景理解 | CVPR '23 | github |
| 2022-10-11 | CLIP-Fields | NYU | CLIP-Fields:用于机器人记忆的弱监督语义场 | Arxiv | 项目 |
| 2022-7-23 | Semantic Abstraction | 哥伦比亚大学 | Semantic Abstraction:从2D视觉-语言模型出发的开放世界3D场景理解 | CoRL '22 | 项目 |
| 2022-4-26 | ScanNet200 | TUM | 语言接地的室内3D语义分割(野外场景) | ECCV '22 | 项目 |
3D推理
| 日期 | 关键词 | 机构(第一) | 论文 | 发表平台 | 其他 |
|---|---|---|---|---|---|
| 2025-12-15 | RoboTracer | 北航 | RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人领域的空间轨迹 | Arxiv | 项目 |
| 2025-06-11 | SceneCOT | BIGAI | SceneCOT: 在3D场景中激发思维链式推理 | Arxiv | 项目 |
| 2025-06-04 | RoboRefer | 北航 | RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代 | Arxiv | 项目 |
| 2024-09-08 | MSR3D | BIGAI | 3D场景中的多模态情境推理 | NeurIPS '24 | 项目 |
| 2023-5-20 | 3D-CLR | UCLA | 基于多视角图像的3D概念学习与推理 | CVPR '23 | github |
| - | Transcribe3D | TTI, Chicago | Transcribe3D: 利用转录信息对齐大语言模型,实现自纠正微调下的3D指代推理 | CoRL '23 | github |
3D生成
| 日期 | 关键词 | 机构 | 论文 | 发表平台 | 其他 |
|---|---|---|---|---|---|
| 2025-11-07 | Omni-View | 北大 | Omni-View: 解锁多视角图像统一3D模型中生成如何促进理解 | ICLR 2026 | github |
| 2025-08-16 | UniUGG | 南大 | UniUGG: 基于几何-语义编码的统一3D理解和生成 | ICLR 2026 | github |
| 2024-11-14 | LLaMA-Mesh | 清华大学 | LLaMA-Mesh: 将语言模型与3D网格生成统一起来 | Arxiv | 项目 |
| 2023-11-29 | ShapeGPT | 复旦大学 | ShapeGPT: 基于统一多模态语言模型的3D形状生成 | Arxiv | github |
| 2023-11-27 | MeshGPT | 慕尼黑工业大学 | MeshGPT: 使用仅解码器型Transformer生成三角形网格 | Arxiv | 项目 |
| 2023-10-19 | 3D-GPT | ANU | 3D-GPT: 利用大型语言模型进行程序化3D建模 | Arxiv | github |
| 2023-9-21 | LLMR | MIT | LLMR: 利用大型语言模型实时提示交互式世界 | Arxiv | - |
| 2023-9-20 | DreamLLM | 美格维 | DreamLLM: 协同的多模态理解与创造 | Arxiv | github |
| 2023-4-1 | ChatAvatar | Deemos Tech | DreamFace: 在文本指导下逐步生成可动画3D人脸 | ACM TOG | 网站 |
3D 身体化智能体
| 日期 | 关键词 | 研究机构 | 论文 | 发表平台 | 其他 |
|---|---|---|---|---|---|
| 2025-12-15 | RoboTracer | 北航 | RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人空间轨迹 | Arxiv | 项目 |
| 2025-06-04 | RoboRefer | 北航 | RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代 | Arxiv | 项目 |
| 2025-05-30 | VeBrain | 上海人工智能实验室 | 视觉具身大脑:让多模态大语言模型在空间中看、思考并控制 | Arxiv | 项目 |
| 2025-05-28 | 3DLLM-Mem | UCLA | 3DLLM-Mem: 面向具身3D大语言模型的长期时空记忆 | Arxiv | 项目 |
| 2024-01-22 | SpatialVLM | Deepmind | SpatialVLM: 为视觉-语言模型赋予空间推理能力 | CVPR '24 | 项目 |
| 2023-12-05 | NaviLLM | 香港中文大学 | 迈向学习一种用于具身导航的通用模型 | CVPR '24 | 项目 |
| 2023-11-27 | Dobb-E | NYU | 关于将机器人带回家 | Arxiv | github |
| 2023-11-26 | STEVE | 浙江大学 | 看见并思考:虚拟环境中的具身智能体 | Arxiv | github |
| 2023-11-18 | LEO | BIGAI | 3D世界中的具身通用智能体 | ICML '24 | github |
| 2023-9-14 | UniHSI | 上海人工智能实验室 | 通过提示式接触链实现统一的人与场景交互 | Arxiv | github |
| 2023-7-28 | RT-2 | Google-DeepMind | RT-2: 视觉-语言-动作模型将网络知识迁移到机器人控制中 | Arxiv | github |
| 2023-7-12 | SayPlan | QUT机器人中心 | SayPlan: 使用3D场景图接地大语言模型,实现可扩展的机器人任务规划 | CoRL '23 | github |
| 2023-7-12 | VoxPoser | 斯坦福 | VoxPoser: 可组合的3D价值地图,用于结合语言模型的机器人操作 | Arxiv | github |
| 2022-12-13 | RT-1 | RT-1: 用于大规模真实世界控制的机器人Transformer | Arxiv | github | |
| 2022-12-8 | LLM-Planner | 俄亥俄州立大学 | LLM-Planner: 基于少量示例的大语言模型具身智能体接地规划 | ICCV '23 | github |
| 2022-10-11 | CLIP-Fields | NYU, Meta | CLIP-Fields: 用于机器人记忆的弱监督语义场 | RSS '23 | github |
| 2022-09-20 | NLMap-SayCan | 面向现实世界规划的开放词汇可查询场景表示 | ICRA '23 | github |
3D 基准测试
| 日期 | 关键词 | 机构 | 论文 | 发表平台 | 其他 |
|---|---|---|---|---|---|
| 2026-01-22 | Real-3DQA | VGG, 牛津大学 | 3D 大型语言模型真的理解 3D 空间关系吗? | ICLR 2026 | 项目 |
| 2025-12-15 | RoboTracer | 北航 | RoboTracer:通过视觉-语言模型中的推理掌握机器人领域的空间轨迹 | Arxiv | 项目 |
| :-----: | :------------------: | :--------------: | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------: | :---------: |
| 2025-11-28 | ORS3D | 华中科技大学 | 一起烹饪与清洁:教导具身智能体进行并行任务执行 | AAAI ‘26 | 项目 |
| 2025-06-04 | RoboRefer | 北航 | RoboRefer:面向机器人领域的视觉-语言模型中的空间指代推理 | Arxiv | 项目 |
| 2025-06-09 | SpaCE-10 | 上海交通大学 | SpaCE-10:多模态大型语言模型在组合式空间智能方面的综合基准测试 | Arxiv | 项目 |
| 2025-05-01 | Hypo3D | 帝国理工学院 | Hypo3D:探索 3D 中的假设性推理 | ICML'25 | 项目 |
| 2025-06-04 | Anywhere3D | BIGAI | 从物体到任何地方:3D 场景中多层次视觉接地的整体基准测试 | NeurIPS '25 | 项目 |
| 2025-05-01 | SpatialVQA | 约翰霍普金斯大学 | SpatialLLM:一种复合的 3D 信息设计,旨在构建具有空间智能的大型多模态模型 | CVPR'25 | 项目 |
| 2025-04-03 | SPAR | 复旦大学 | 从平面世界到空间:教导视觉-语言模型在 3D 中感知和推理 | Arxiv | 项目 |
| 2025-03-28 | Beacon3D | BIGAI | 揭开 3D 视觉-语言理解上的迷雾:以对象为中心的链式分析评估 | CVPR '25 | 项目 |
| 2025-03-08 | 3D-CoT | 香港理工大学、香港浸会大学 | 整合思维链实现多模态对齐:关于 3D 视觉-语言学习的研究 | Arxiv | 数据集 |
| 2024-09-08 | MSQA / MSNN | BIGAI | 3D 场景中的多模态情境推理 | NeurIPS '24 | 项目 |
| 2024-08-29 | Space3D-Bench | 苏黎世联邦理工学院 | Space3D-Bench:空间 3D 问答基准测试 | Arxiv | 项目 |
| 2024-07-24 | City-3DQA | 香港科技大学 | 用于城市场景理解的 3D 问答 | ACM MM'24 | 项目 |
| 2024-06-13 | MMScan | 上海人工智能实验室 | MMScan:带有分层接地语言标注的多模态 3D 场景数据集 | Arxiv | GitHub |
| 2024-06-10 | 3D-GRAND / 3D-POPE | 密歇根大学 | 3D-GRAND:为 3D-LLM 提供更好接地且更少幻觉的大规模数据集(百万级) | Arxiv | 项目 |
| 2024-06-03 | SpatialRGPT-Bench | 加州大学圣地亚哥分校 | SpatialRGPT:视觉语言模型中的接地空间推理 | NeurIPS '24 | GitHub |
| 2024-05-27 | Reason3D | 加州大学默塞德分校 | Reason3D:利用大型语言模型进行 3D 分割的搜索与推理 | 3DV'25 | 项目 |
| 2024-1-18 | SceneVerse | BIGAI | SceneVerse:扩展 3D 视觉-语言学习,用于接地场景理解 | ECCV '24 | GitHub |
| 2023-12-26 | EmbodiedScan | 上海人工智能实验室 | EmbodiedScan:迈向具身 AI 的整体多模态 3D 感知套件 | Arxiv | GitHub |
| 2023-12-17 | M3DBench | 复旦大学 | M3DBench:用多模态 3D 提示指导大型模型 | Arxiv | GitHub |
| 2023-11-29 | - | DeepMind | 利用基于 VLM 的流水线标注 3D 对象 | ICML '24 | GitHub |
| 2023-09-14 | CrossCoherence | UniBO | 用注意力同时关注文字与点云:文本到形状一致性的基准测试 | ICCV '23 | GitHub |
| 2022-10-14 | SQA3D | BIGAI | SQA3D:3D 场景中的情境问答 | ICLR '23 | GitHub |
| 2022-09-24 | FE-3DGQA | 北京航空航天大学 | 迈向可解释的 3D 接地视觉问答:一个新的基准测试和强大的基线 | TCSVT | GitHub |
| 2021-12-20 | ScanQA | RIKEN AIP | ScanQA:用于空间场景理解的 3D 问答 | CVPR '23 | GitHub |
| 2020-12-3 | Scan2Cap | TUM | Scan2Cap:RGB-D 扫描中的上下文感知密集字幕 | CVPR '21 | GitHub |
| 2020-8-23 | ReferIt3D | 斯坦福大学 | ReferIt3D:用于在现实场景中精细识别 3D 对象的神经听者 | ECCV '20 | GitHub |
| 2019-12-18 | ScanRefer | TUM | ScanRefer:使用自然语言在 RGB-D 扫描中定位 3D 对象 | ECCV '20 | GitHub |
贡献
您的贡献始终受到欢迎!
如果我对某些拉取请求是否适合 3D LLMs 还不确定,我会暂时保持它们开放。您可以通过给这些请求点赞 👍 来表达您的支持。
如果您对这份带有明确观点的列表有任何疑问,请通过 xianzheng@robots.ox.ac.uk 或微信 ID: mxz1997112 与我们联系。
星标历史
引用
如果您觉得本仓库有用,请考虑引用以下论文:
@misc{ma2024llmsstep3dworld,
title={当大语言模型走进 3D 世界:基于多模态大语言模型的 3D 任务综述与元分析},
author={马贤正、Yash Bhalgat、Brandon Smart、陈帅、李兴辉、丁健、顾金东、陈振宇、彭松友、卞家旺、Philip H Torr、Marc Pollefeys、Matthias Nießner、Ian D Reid、Angel X. Chang、Iro Laina、Victor Adrian Prisacariu},
year={2024},
journal={arXiv 预印本 arXiv:2405.10255},
}
致谢
本仓库的灵感来源于 Awesome-LLM。
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
