Awesome-LLM-3D

GitHub
2.2k 140 非常简单 1 次阅读 今天MIT语言模型其他
AI 解读 由 AI 自动生成,仅供参考

Awesome-LLM-3D 是一个专注于整理“多模态大语言模型在 3D 世界应用”的精选资源库。随着人工智能从二维图像向三维空间延伸,研究人员面临着论文分散、技术路线繁杂的挑战。Awesome-LLM-3D 旨在解决这一痛点,它系统性地汇聚了全球前沿学术成果,涵盖 3D 理解、逻辑推理、内容生成以及具身智能代理等核心任务,同时也收录了 CLIP、SAM 等相关基础模型的重要研究,为从业者提供了一张清晰的领域全景图。

该资源库特别适合 AI 研究人员、开发者以及对空间智能感兴趣的技术探索者使用。无论是希望快速追踪最新算法进展的学者,还是正在寻找 3D 项目灵感的工程师,都能在此高效获取经过筛选的高质量论文、代码链接及基准测试数据。其独特亮点在于不仅提供了静态列表,还持续更新包括综述论文和真实 3D 空间理解基准(如 Real-3DQA)在内的深度内容,并按时间顺序梳理技术演进脉络。通过 Awesome-LLM-3D,用户可以轻松把握大模型如何“步入”三维世界的前沿动态,加速相关技术的研发与创新。

使用场景

某自动驾驶初创公司的感知算法团队,正致力于研发能够理解复杂三维空间并执行推理任务的具身智能代理(Embodied Agent)。

没有 Awesome-LLM-3D 时

  • 文献检索如大海捞针:研究人员需在 arXiv、GitHub 和各类会议网站间反复切换,手动筛选"3D 理解”、“空间推理”等关键词,耗时数周仍难以覆盖最新成果。
  • 技术选型缺乏全局视野:由于缺少统一的分类索引,团队难以区分哪些模型专注于纯几何理解,哪些具备多模态生成能力,导致技术路线规划盲目。
  • 复现成本高昂且易错:找到的论文往往缺失官方代码链接或基准测试数据,工程师需花费大量时间验证论文的可复现性,甚至因信息滞后而重复造轮子。
  • 前沿动态跟进滞后:面对该领域每周涌现的新论文,团队无法及时获取如 Real-3DQA 等最新基准测试信息,导致研发进度落后于学术界前沿。

使用 Awesome-LLM-3D 后

  • 一站式精准获取资源:团队直接利用其 curated list,按"3D Embodied Agent"或"3D Reasoning"分类快速锁定目标论文,将调研周期从数周缩短至几天。
  • 清晰的技术地图指引:通过明确的表格分类(如统一理解与生成、基础模型对比),团队迅速明确了基于几何 - 语义编码的 UniUGG 等模型最适合当前场景。
  • 高效落地与复现:列表中每条记录均附带最新的 GitHub 仓库链接和发表会议信息,工程师能直接拉取代码进行微调,大幅降低试错成本。
  • 实时同步顶尖进展:借助其活跃的维护机制,团队第一时间掌握了 ICLR 2026 上的最新基准测试方法,确保算法评估标准始终处于行业领先地位。

Awesome-LLM-3D 将分散的 3D-LLM 学术资源转化为结构化的工程导航图,让研发团队能从繁琐的信息搜集解放出来,专注于核心算法的突破与创新。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesAwesome-LLM-3D 是一个论文和资源列表(Survey/Collection),而非单一的开源软件工具。README 中列出了多个独立的研究项目(如 Omni-View, UniUGG, 3D-RFT 等),每个项目都有独立的代码仓库和特定的环境需求。用户需访问列表中具体项目的 GitHub 链接以获取相应的运行环境配置。
python未说明
Awesome-LLM-3D hero image

快速开始

Awesome-LLM-3D Awesome Maintenance PR's Welcome arXiv

🏠 关于

这里是一个精心整理的清单,收录了由大型语言模型(LLMs)赋能的3D相关任务的相关论文。内容涵盖3D理解、推理、生成以及具身智能体等多个方向。此外,我们还纳入了其他基础模型(如CLIP、SAM),以全面展示该领域的研究现状。

本仓库处于持续更新状态,欢迎关注以获取最新进展。如果您觉得这份资源有用,请为本仓库点个赞⭐,并引用我们的论文(见#citation)。

🔥 最新动态

目录

通过LLM实现的3D统一理解与生成

日期 关键词 首发机构 论文 发表期刊 其他
2025-11-07 Omni-View 北京大学 Omni-View:基于多视角图像的统一3D模型如何通过生成促进理解 ICLR 2026 github
2025-08-16 UniUGG 复旦大学 UniUGG:基于几何-语义编码的统一3D理解和生成 ICLR 2026 github

通过LLM进行3D理解

日期 关键词 机构(第一) 论文 发表平台 其他
2026-03-07 3D-RFT BIGAI 3D-RFT: 基于视频的3D场景理解的强化微调 Arxiv github
2025-12-05 Fast Scenescript Qualcomm / UvA Fast SceneScript: 通过多令牌预测实现快速准确的语言驱动3D场景理解 CVPR '26 -
2025-11-27 G2VLM 上海人工智能实验室 G2VLM: 具有统一3D重建和空间推理能力的几何基础视觉语言模型 Arxiv github
2025-11-07 Omni-View 北京大学 Omni-View: 解锁生成如何促进基于多视角图像的统一3D模型中的理解 ICLR 2026 github
2025-08-16 UniUGG 福建大学 UniUGG: 通过几何语义编码实现统一的3D理解和生成 ICLR 2026 github
2025-07-31 3D-R1 北京大学 3D-R1: 增强3D VLM中的推理能力以实现统一场景理解 Arxiv 项目
2025-06-11 LEO-VL BIGAI LEO-VL: 面向可扩展3D视觉-语言学习的高效场景表示 Arxiv 项目
2025-06-09 SpatialLM Manycore Tech / 香港科技大学 SpatialLM: 训练大型语言模型进行结构化室内建模 NeurIPS '25 项目
2025-06-02 3DRS 香港大学 MLLMs需要3D感知表示监督来进行场景理解 Arxiv 项目
2025-05-30 VG LLM 香港中文大学 从视频中学习3D世界:利用3D视觉几何先验增强MLLMs Arxiv 项目
2025-05-29 Spatial-MLLM 清华大学 Spatial-MLLM: 提升MLLM在视觉驱动的空间智能方面的能力 Arxiv 项目
2025-05-28 SeeGround 香港科技大学(广州) 基于视觉-语言模型的零样本3D视觉接地 CVPRW'25 项目
2025-05-28 3DLLM-Mem UCLA/Google 3DLLM-Mem: 面向具身3D大型语言模型的长期时空记忆 NeurIPS'25 项目
2025-04-24 3D-LLaVA 阿德莱德大学 3D-LLaVA: 借助全能超点Transformer迈向通用3D LMMs CVPR '25 github
2025-04-03 Ross3D 中科院自动化所 Ross3D: 具有3D意识的重建式视觉指令微调 Arxiv 项目
2025-03-08 SplatTalk GIT SplatTalk: 基于高斯泼溅的3D VQA Arxiv github
2025-03-01 Inst3D-LMM 浙江大学 Inst3D-LMM: 基于多模态指令微调的实例感知3D场景理解 CVPR '25 github
2025-02-13 ENEL SH AILab ENEL: 探索无编码器架构在3D LMMs中的潜力 Arxiv 项目
2025-02-02 LSceneLLM 华南理工大学 LSceneLLM: 利用自适应视觉偏好提升大型3D场景理解能力 CVPR '25 项目
2025-01-02 GPT4Scene 香港大学 GPT4Scene: 利用视觉-语言模型从视频中理解3D场景 Arxiv 项目
2024-12-05 SeeGround 香港科技大学(广州) SeeGround: 观察并接地,实现零样本开放词汇3D视觉接地 CVPR '25 项目
2024-12-03 Video-3D LLM 香港中文大学 Video-3D LLM: 学习位置感知视频表示以用于3D场景理解 CVPR '25 项目
2024-11-29 PerLA 布鲁诺·凯斯勒基金会 PerLA: 感知型3D语言助手 CVPR '25 项目
2024-10-12 Situation3D 伊利诺伊大学厄巴纳-香槟分校 情境感知在3D视觉语言推理中的重要性 CVPR '24 项目
2024-09-30 Robin3D 香港大学 Robin3D: 通过稳健的指令微调改进3D大型语言模型 ICCV '25 github
2024-09-28 LLaVA-3D 香港大学 LLaVA-3D: 一条简单而有效的途径,使LMMs具备3D感知能力 Arxiv 项目
2024-09-08 MSR3D BIGAI 3D场景中的多模态情境推理 NeurIPS '24 项目
2024-08-28 GreenPLM 华中科技大学 更多文本,更少点云:迈向3D数据高效的点云-语言理解 Arxiv github
2024-06-17 LLaNA 博洛尼亚大学 LLaNA: 大型语言与NeRF助手 NeurIPS '24 项目
2024-06-07 SpatialPIN 牛津大学 SpatialPIN: 通过提示和交互式3D先验增强视觉-语言模型的空间推理能力 NeurIPS '24 项目
2024-06-03 SpatialRGPT 加州大学圣地亚哥分校 SpatialRGPT: 在视觉语言模型中实现 grounded空间推理 NeurIPS '24 github
2024-05-02 MiniGPT-3D 华中科技大学 MiniGPT-3D: 利用2D先验高效对齐3D点云与大型语言模型 ACM MM '24 项目
2024-03-19 Scenescript Meta SceneScript: 使用自回归结构化语言模型重建场景 ECCV '24 项目
2024-02-27 ShapeLLM 西安交通大学 ShapeLLM: 面向具身交互的通用3D对象理解 Arxiv 项目
2024-01-22 SpatialVLM Google DeepMind SpatialVLM: 为视觉-语言模型赋予空间推理能力 CVPR '24 项目
2023-12-21 LiDAR-LLM 北京大学 LiDAR-LLM: 探索大型语言模型在3D激光雷达理解方面的潜力 Arxiv 项目
2023-12-15 3DAP 上海人工智能实验室 3DAxiesPrompts: 释放GPT-4V的3D空间任务能力 Arxiv 项目
2023-12-13 Chat-Scene 浙江大学 Chat-Scene: 通过对象标识符连接3D场景和大型语言模型 NeurIPS '24 github
2023-12-5 GPT4Point 香港大学 GPT4Point: 一个统一的框架,用于点云-语言的理解和生成 Arxiv github
2023-11-30 LL3DA 复旦大学 LL3DA: 面向全方位3D理解、推理和规划的视觉交互式指令微调 Arxiv github
2023-11-26 ZSVG3D 香港中文大学(深圳) 面向零样本开放词汇3D视觉接地的可视化编程 Arxiv 项目
2023-11-18 LEO BIGAI 3D世界中的具身通才代理 ICML '24 github
2023-10-14 JM3D-LLM 厦门大学 JM3D & JM3D-LLM: 通过联合多模态线索提升3D表示 ACM MM '23 github
2023-10-10 Uni3D BAAI Uni3D: 探索大规模统一3D表示 ICLR '24 项目
2023-9-27 - KAUST 零样本3D形状对应 Siggraph Asia '23 -
2023-9-21 LLM-Grounder 密歇根大学 LLM-Grounder: 以大型语言模型为代理实现开放词汇3D视觉接地 ICRA '24 github
2023-9-1 Point-Bind 香港中文大学 Point-Bind & Point-LLM: 通过多模态对齐点云,实现3D理解、生成和指令遵循 Arxiv github
2023-8-31 PointLLM 香港中文大学 PointLLM: 赋能大型语言模型理解点云 ECCV '24 github
2023-8-17 Chat-3D 浙江大学 Chat-3D: 以数据高效的方式微调大型语言模型,使其能够进行3D场景的通用对话 Arxiv github
2023-8-8 3D-VisTA BIGAI 3D-VisTA: 预训练的Transformer,用于3D视觉与文本对齐 ICCV '23 github
2023-7-24 3D-LLM UCLA 3D-LLM: 将3D世界注入大型语言模型 NeurIPS '23 github
2023-3-29 ViewRefer 香港中文大学 ViewRefer: 抓住多视角知识,用于3D视觉接地 ICCV '23 github
2022-9-12 - MIT 利用大型(视觉)语言模型进行机器人3D场景理解 Arxiv github

通过其他基础模型进行3D理解

编号 关键词 机构(第一作者单位) 论文 发表时间 其他
2026-03-21 OV3D-CG ICT, CAS OV3D-CG:基于上下文引导的开放词汇3D实例分割 ICCV '2025 github
2025-11-20 POMA-3D Imperial POMA-3D:点云地图驱动的3D场景理解方法 Arxiv 项目
2025-07-26 OV-3DDet HKUST CoDAv2:面向开放词汇3D目标检测的协作式新物体发现与框引导跨模态对齐 TPAMI '25 github
2025-02-20 CrossOver Stanford CrossOver:3D场景跨模态对齐 CVPR '25 项目
2025-02-05 SAGA SJTU Segment Any 3D Gaussians:任意3D高斯场的分割 AAAI '25 项目
2024-10-12 Lexicon3D UIUC Lexicon3D:探索单纯视觉基础模型在复杂3D场景理解中的能力 NeurIPS '24 项目
2024-10-07 Diff2Scene CMU 利用文本到图像扩散模型实现开放词汇3D语义分割 ECCV'24 项目
2024-07-19 OpenSU3D TUM OpenSU3D:使用基础模型进行开放世界3D场景理解 ICRA '25 项目
2024-04-07 Any2Point 上海人工智能实验室 Any2Point:赋能任意模态大模型实现高效3D理解 ECCV'24 github
2024-03-16 N2F2 牛津大学VGG实验室 N2F2:基于嵌套神经特征场的层次化场景理解 Arxiv -
2023-12-17 SAI3D 北京大学 SAI3D:分割3D场景中的任意实例 Arxiv 项目
2023-12-17 Open3DIS VinAI Open3DIS:基于2D掩码引导的开放词汇3D实例分割 Arxiv 项目
2023-11-6 OVIR-3D 罗格斯大学 OVIR-3D:无需3D数据训练的开放词汇3D实例检索 CoRL '23 github
2023-10-29 OpenMask3D ETH OpenMask3D:开放词汇3D实例分割 NeurIPS '23 项目
2023-10-5 Open-Fusion - Open-Fusion:实时开放词汇3D建图与可查询场景表示 Arxiv github
2023-9-22 OV-3DDet HKUST CoDA:面向开放词汇3D目标检测的协作式新框发现与跨模态对齐 NeurIPS '23 github
2023-9-19 LAMP - 从语言到3D世界:将语言模型适配用于点云感知 OpenReview -
2023-9-15 OpenNerf - OpenNerf:基于像素级特征和渲染新视角的开放集3D神经场景分割 OpenReview github
2023-9-1 OpenIns3D 剑桥大学 OpenIns3D:针对开放词汇3D实例分割的抓拍与查找 Arxiv 项目
2023-6-7 Contrastive Lift 牛津大学VGG实验室 Contrastive Lift:通过慢速-快速对比融合实现3D目标实例分割 NeurIPS '23 github
2023-6-4 Multi-CLIP ETH Multi-CLIP:面向3D场景问答任务的对比视觉-语言预训练 Arxiv -
2023-5-23 3D-OVS 国立台湾大学 弱监督下的3D开放词汇分割 NeurIPS '23 github
2023-5-21 VL-Fields 爱丁堡大学 VL-Fields:迈向语言接地的神经隐式空间表示 ICRA '23 项目
2023-5-8 CLIP-FO3D 清华大学 CLIP-FO3D:从2D密集CLIP中学习自由开放世界的3D场景表示 ICCVW '23 -
2023-4-12 3D-VQA ETH CLIP引导的面向3D场景问答任务的视觉-语言预训练 CVPRW '23 github
2023-4-3 RegionPLC 香港大学 RegionPLC:面向开放世界3D场景理解的区域点-语言对比学习 Arxiv 项目
2023-3-20 CG3D 约翰霍普金斯大学 CLIP走进3D:利用提示调优实现语言接地的3D识别 Arxiv github
2023-3-16 LERF 加州大学伯克利分校 LERF:语言嵌入辐射场 ICCV '23 github
2023-2-14 ConceptFusion MIT ConceptFusion:开放集多模态3D映射 RSS '23 项目
2023-1-12 CLIP2Scene 香港大学 CLIP2Scene:通过CLIP实现标签高效的3D场景理解 CVPR '23 github
2022-12-1 UniT3D TUM UniT3D:用于3D密集字幕生成和视觉定位的统一Transformer ICCV '23 github
2022-11-29 PLA 香港大学 PLA:语言驱动的开放词汇3D场景理解 CVPR '23 github
2022-11-28 OpenScene ETHz OpenScene:使用开放词汇进行3D场景理解 CVPR '23 github
2022-10-11 CLIP-Fields NYU CLIP-Fields:用于机器人记忆的弱监督语义场 Arxiv 项目
2022-7-23 Semantic Abstraction 哥伦比亚大学 Semantic Abstraction:从2D视觉-语言模型出发的开放世界3D场景理解 CoRL '22 项目
2022-4-26 ScanNet200 TUM 语言接地的室内3D语义分割(野外场景) ECCV '22 项目

3D推理

日期 关键词 机构(第一) 论文 发表平台 其他
2025-12-15 RoboTracer 北航 RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人领域的空间轨迹 Arxiv 项目
2025-06-11 SceneCOT BIGAI SceneCOT: 在3D场景中激发思维链式推理 Arxiv 项目
2025-06-04 RoboRefer 北航 RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代 Arxiv 项目
2024-09-08 MSR3D BIGAI 3D场景中的多模态情境推理 NeurIPS '24 项目
2023-5-20 3D-CLR UCLA 基于多视角图像的3D概念学习与推理 CVPR '23 github
- Transcribe3D TTI, Chicago Transcribe3D: 利用转录信息对齐大语言模型,实现自纠正微调下的3D指代推理 CoRL '23 github

3D生成

日期 关键词 机构 论文 发表平台 其他
2025-11-07 Omni-View 北大 Omni-View: 解锁多视角图像统一3D模型中生成如何促进理解 ICLR 2026 github
2025-08-16 UniUGG 南大 UniUGG: 基于几何-语义编码的统一3D理解和生成 ICLR 2026 github
2024-11-14 LLaMA-Mesh 清华大学 LLaMA-Mesh: 将语言模型与3D网格生成统一起来 Arxiv 项目
2023-11-29 ShapeGPT 复旦大学 ShapeGPT: 基于统一多模态语言模型的3D形状生成 Arxiv github
2023-11-27 MeshGPT 慕尼黑工业大学 MeshGPT: 使用仅解码器型Transformer生成三角形网格 Arxiv 项目
2023-10-19 3D-GPT ANU 3D-GPT: 利用大型语言模型进行程序化3D建模 Arxiv github
2023-9-21 LLMR MIT LLMR: 利用大型语言模型实时提示交互式世界 Arxiv -
2023-9-20 DreamLLM 美格维 DreamLLM: 协同的多模态理解与创造 Arxiv github
2023-4-1 ChatAvatar Deemos Tech DreamFace: 在文本指导下逐步生成可动画3D人脸 ACM TOG 网站

3D 身体化智能体

日期 关键词 研究机构 论文 发表平台 其他
2025-12-15 RoboTracer 北航 RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人空间轨迹 Arxiv 项目
2025-06-04 RoboRefer 北航 RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代 Arxiv 项目
2025-05-30 VeBrain 上海人工智能实验室 视觉具身大脑:让多模态大语言模型在空间中看、思考并控制 Arxiv 项目
2025-05-28 3DLLM-Mem UCLA 3DLLM-Mem: 面向具身3D大语言模型的长期时空记忆 Arxiv 项目
2024-01-22 SpatialVLM Deepmind SpatialVLM: 为视觉-语言模型赋予空间推理能力 CVPR '24 项目
2023-12-05 NaviLLM 香港中文大学 迈向学习一种用于具身导航的通用模型 CVPR '24 项目
2023-11-27 Dobb-E NYU 关于将机器人带回家 Arxiv github
2023-11-26 STEVE 浙江大学 看见并思考:虚拟环境中的具身智能体 Arxiv github
2023-11-18 LEO BIGAI 3D世界中的具身通用智能体 ICML '24 github
2023-9-14 UniHSI 上海人工智能实验室 通过提示式接触链实现统一的人与场景交互 Arxiv github
2023-7-28 RT-2 Google-DeepMind RT-2: 视觉-语言-动作模型将网络知识迁移到机器人控制中 Arxiv github
2023-7-12 SayPlan QUT机器人中心 SayPlan: 使用3D场景图接地大语言模型,实现可扩展的机器人任务规划 CoRL '23 github
2023-7-12 VoxPoser 斯坦福 VoxPoser: 可组合的3D价值地图,用于结合语言模型的机器人操作 Arxiv github
2022-12-13 RT-1 Google RT-1: 用于大规模真实世界控制的机器人Transformer Arxiv github
2022-12-8 LLM-Planner 俄亥俄州立大学 LLM-Planner: 基于少量示例的大语言模型具身智能体接地规划 ICCV '23 github
2022-10-11 CLIP-Fields NYU, Meta CLIP-Fields: 用于机器人记忆的弱监督语义场 RSS '23 github
2022-09-20 NLMap-SayCan Google 面向现实世界规划的开放词汇可查询场景表示 ICRA '23 github

3D 基准测试

日期 关键词 机构 论文 发表平台 其他
2026-01-22 Real-3DQA VGG, 牛津大学 3D 大型语言模型真的理解 3D 空间关系吗? ICLR 2026 项目
2025-12-15 RoboTracer 北航 RoboTracer:通过视觉-语言模型中的推理掌握机器人领域的空间轨迹 Arxiv 项目
:-----: :------------------: :--------------: :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- :---------: :---------:
2025-11-28 ORS3D 华中科技大学 一起烹饪与清洁:教导具身智能体进行并行任务执行 AAAI ‘26 项目
2025-06-04 RoboRefer 北航 RoboRefer:面向机器人领域的视觉-语言模型中的空间指代推理 Arxiv 项目
2025-06-09 SpaCE-10 上海交通大学 SpaCE-10:多模态大型语言模型在组合式空间智能方面的综合基准测试 Arxiv 项目
2025-05-01 Hypo3D 帝国理工学院 Hypo3D:探索 3D 中的假设性推理 ICML'25 项目
2025-06-04 Anywhere3D BIGAI 从物体到任何地方:3D 场景中多层次视觉接地的整体基准测试 NeurIPS '25 项目
2025-05-01 SpatialVQA 约翰霍普金斯大学 SpatialLLM:一种复合的 3D 信息设计,旨在构建具有空间智能的大型多模态模型 CVPR'25 项目
2025-04-03 SPAR 复旦大学 从平面世界到空间:教导视觉-语言模型在 3D 中感知和推理 Arxiv 项目
2025-03-28 Beacon3D BIGAI 揭开 3D 视觉-语言理解上的迷雾:以对象为中心的链式分析评估 CVPR '25 项目
2025-03-08 3D-CoT 香港理工大学、香港浸会大学 整合思维链实现多模态对齐:关于 3D 视觉-语言学习的研究 Arxiv 数据集
2024-09-08 MSQA / MSNN BIGAI 3D 场景中的多模态情境推理 NeurIPS '24 项目
2024-08-29 Space3D-Bench 苏黎世联邦理工学院 Space3D-Bench:空间 3D 问答基准测试 Arxiv 项目
2024-07-24 City-3DQA 香港科技大学 用于城市场景理解的 3D 问答 ACM MM'24 项目
2024-06-13 MMScan 上海人工智能实验室 MMScan:带有分层接地语言标注的多模态 3D 场景数据集 Arxiv GitHub
2024-06-10 3D-GRAND / 3D-POPE 密歇根大学 3D-GRAND:为 3D-LLM 提供更好接地且更少幻觉的大规模数据集(百万级) Arxiv 项目
2024-06-03 SpatialRGPT-Bench 加州大学圣地亚哥分校 SpatialRGPT:视觉语言模型中的接地空间推理 NeurIPS '24 GitHub
2024-05-27 Reason3D 加州大学默塞德分校 Reason3D:利用大型语言模型进行 3D 分割的搜索与推理 3DV'25 项目
2024-1-18 SceneVerse BIGAI SceneVerse:扩展 3D 视觉-语言学习,用于接地场景理解 ECCV '24 GitHub
2023-12-26 EmbodiedScan 上海人工智能实验室 EmbodiedScan:迈向具身 AI 的整体多模态 3D 感知套件 Arxiv GitHub
2023-12-17 M3DBench 复旦大学 M3DBench:用多模态 3D 提示指导大型模型 Arxiv GitHub
2023-11-29 - DeepMind 利用基于 VLM 的流水线标注 3D 对象 ICML '24 GitHub
2023-09-14 CrossCoherence UniBO 用注意力同时关注文字与点云:文本到形状一致性的基准测试 ICCV '23 GitHub
2022-10-14 SQA3D BIGAI SQA3D:3D 场景中的情境问答 ICLR '23 GitHub
2022-09-24 FE-3DGQA 北京航空航天大学 迈向可解释的 3D 接地视觉问答:一个新的基准测试和强大的基线 TCSVT GitHub
2021-12-20 ScanQA RIKEN AIP ScanQA:用于空间场景理解的 3D 问答 CVPR '23 GitHub
2020-12-3 Scan2Cap TUM Scan2Cap:RGB-D 扫描中的上下文感知密集字幕 CVPR '21 GitHub
2020-8-23 ReferIt3D 斯坦福大学 ReferIt3D:用于在现实场景中精细识别 3D 对象的神经听者 ECCV '20 GitHub
2019-12-18 ScanRefer TUM ScanRefer:使用自然语言在 RGB-D 扫描中定位 3D 对象 ECCV '20 GitHub

贡献

您的贡献始终受到欢迎!

如果我对某些拉取请求是否适合 3D LLMs 还不确定,我会暂时保持它们开放。您可以通过给这些请求点赞 👍 来表达您的支持。


如果您对这份带有明确观点的列表有任何疑问,请通过 xianzheng@robots.ox.ac.uk 或微信 ID: mxz1997112 与我们联系。

星标历史

星标历史图表

引用

如果您觉得本仓库有用,请考虑引用以下论文:

@misc{ma2024llmsstep3dworld,
      title={当大语言模型走进 3D 世界:基于多模态大语言模型的 3D 任务综述与元分析}, 
      author={马贤正、Yash Bhalgat、Brandon Smart、陈帅、李兴辉、丁健、顾金东、陈振宇、彭松友、卞家旺、Philip H Torr、Marc Pollefeys、Matthias Nießner、Ian D Reid、Angel X. Chang、Iro Laina、Victor Adrian Prisacariu},
      year={2024},
      journal={arXiv 预印本 arXiv:2405.10255},
}

致谢

本仓库的灵感来源于 Awesome-LLM

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.6k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。

88.7k|★★☆☆☆|昨天
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|1周前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|1周前
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|1周前
语言模型数据工具其他