Awesome-LLM-3D

2.2k 140 非常简单 1 次阅读今天MIT语言模型其他

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-3D 是一个专注于整理“多模态大语言模型在 3D 世界应用”的精选资源库。随着人工智能从二维图像向三维空间延伸，研究人员面临着论文分散、技术路线繁杂的挑战。Awesome-LLM-3D 旨在解决这一痛点，它系统性地汇聚了全球前沿学术成果，涵盖 3D 理解、逻辑推理、内容生成以及具身智能代理等核心任务，同时也收录了 CLIP、SAM 等相关基础模型的重要研究，为从业者提供了一张清晰的领域全景图。

该资源库特别适合 AI 研究人员、开发者以及对空间智能感兴趣的技术探索者使用。无论是希望快速追踪最新算法进展的学者，还是正在寻找 3D 项目灵感的工程师，都能在此高效获取经过筛选的高质量论文、代码链接及基准测试数据。其独特亮点在于不仅提供了静态列表，还持续更新包括综述论文和真实 3D 空间理解基准（如 Real-3DQA）在内的深度内容，并按时间顺序梳理技术演进脉络。通过 Awesome-LLM-3D，用户可以轻松把握大模型如何“步入”三维世界的前沿动态，加速相关技术的研发与创新。

使用场景

某自动驾驶初创公司的感知算法团队，正致力于研发能够理解复杂三维空间并执行推理任务的具身智能代理（Embodied Agent）。

没有 Awesome-LLM-3D 时

文献检索如大海捞针：研究人员需在 arXiv、GitHub 和各类会议网站间反复切换，手动筛选"3D 理解”、“空间推理”等关键词，耗时数周仍难以覆盖最新成果。
技术选型缺乏全局视野：由于缺少统一的分类索引，团队难以区分哪些模型专注于纯几何理解，哪些具备多模态生成能力，导致技术路线规划盲目。
复现成本高昂且易错：找到的论文往往缺失官方代码链接或基准测试数据，工程师需花费大量时间验证论文的可复现性，甚至因信息滞后而重复造轮子。
前沿动态跟进滞后：面对该领域每周涌现的新论文，团队无法及时获取如 Real-3DQA 等最新基准测试信息，导致研发进度落后于学术界前沿。

使用 Awesome-LLM-3D 后

一站式精准获取资源：团队直接利用其 curated list，按"3D Embodied Agent"或"3D Reasoning"分类快速锁定目标论文，将调研周期从数周缩短至几天。
清晰的技术地图指引：通过明确的表格分类（如统一理解与生成、基础模型对比），团队迅速明确了基于几何 - 语义编码的 UniUGG 等模型最适合当前场景。
高效落地与复现：列表中每条记录均附带最新的 GitHub 仓库链接和发表会议信息，工程师能直接拉取代码进行微调，大幅降低试错成本。
实时同步顶尖进展：借助其活跃的维护机制，团队第一时间掌握了 ICLR 2026 上的最新基准测试方法，确保算法评估标准始终处于行业领先地位。

Awesome-LLM-3D 将分散的 3D-LLM 学术资源转化为结构化的工程导航图，让研发团队能从繁琐的信息搜集解放出来，专注于核心算法的突破与创新。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesAwesome-LLM-3D 是一个论文和资源列表（Survey/Collection），而非单一的开源软件工具。README 中列出了多个独立的研究项目（如 Omni-View, UniUGG, 3D-RFT 等），每个项目都有独立的代码仓库和特定的环境需求。用户需访问列表中具体项目的 GitHub 链接以获取相应的运行环境配置。

python未说明

快速开始

Awesome-LLM-3D

🏠 关于

这里是一个精心整理的清单，收录了由大型语言模型（LLMs）赋能的3D相关任务的相关论文。内容涵盖3D理解、推理、生成以及具身智能体等多个方向。此外，我们还纳入了其他基础模型（如CLIP、SAM），以全面展示该领域的研究现状。

本仓库处于持续更新状态，欢迎关注以获取最新进展。如果您觉得这份资源有用，请为本仓库点个赞⭐，并引用我们的论文（见#citation）。

🔥 最新动态

[2026-03-20] 我们的基准评测论文Real-3DQA现已发表于ICLR 2026！继我们的综述论文之后，我们又发布了关于真正3D空间理解的基准评测论文。项目主页
[2025-10-21] 📢 我们发布了综述的第二版，更新至2025年7月的文献：
👉 当LLMs走进3D世界：基于多模态大型语言模型的3D任务综述与元分析
[2024-05-16] 查看3D-LLM领域首篇综述论文：当LLMs走进3D世界：基于多模态大型语言模型的3D任务综述与元分析
[2024-01-06] Runsen Xu 添加了时间顺序信息，而Xianzheng Ma则按Z-A顺序重新整理，以便更好地追踪最新进展。
[2023-12-16] Xianzheng Ma 和Yash Bhalgat共同整理了这份清单，并发布了第一版；

通过LLM实现的3D统一理解与生成

日期	关键词	首发机构	论文	发表期刊	其他
2025-11-07	Omni-View	北京大学	Omni-View：基于多视角图像的统一3D模型如何通过生成促进理解	ICLR 2026	github
2025-08-16	UniUGG	复旦大学	UniUGG：基于几何-语义编码的统一3D理解和生成	ICLR 2026	github

通过LLM进行3D理解

日期	关键词	机构（第一）	论文	发表平台	其他
2026-03-07	3D-RFT	BIGAI	3D-RFT: 基于视频的3D场景理解的强化微调	Arxiv	github
2025-12-05	Fast Scenescript	Qualcomm / UvA	Fast SceneScript: 通过多令牌预测实现快速准确的语言驱动3D场景理解	CVPR '26	-
2025-11-27	G²VLM	上海人工智能实验室	G²VLM: 具有统一3D重建和空间推理能力的几何基础视觉语言模型	Arxiv	github
2025-11-07	Omni-View	北京大学	Omni-View: 解锁生成如何促进基于多视角图像的统一3D模型中的理解	ICLR 2026	github
2025-08-16	UniUGG	福建大学	UniUGG: 通过几何语义编码实现统一的3D理解和生成	ICLR 2026	github
2025-07-31	3D-R1	北京大学	3D-R1: 增强3D VLM中的推理能力以实现统一场景理解	Arxiv	项目
2025-06-11	LEO-VL	BIGAI	LEO-VL: 面向可扩展3D视觉-语言学习的高效场景表示	Arxiv	项目
2025-06-09	SpatialLM	Manycore Tech / 香港科技大学	SpatialLM: 训练大型语言模型进行结构化室内建模	NeurIPS '25	项目
2025-06-02	3DRS	香港大学	MLLMs需要3D感知表示监督来进行场景理解	Arxiv	项目
2025-05-30	VG LLM	香港中文大学	从视频中学习3D世界：利用3D视觉几何先验增强MLLMs	Arxiv	项目
2025-05-29	Spatial-MLLM	清华大学	Spatial-MLLM: 提升MLLM在视觉驱动的空间智能方面的能力	Arxiv	项目
2025-05-28	SeeGround	香港科技大学（广州）	基于视觉-语言模型的零样本3D视觉接地	CVPRW'25	项目
2025-05-28	3DLLM-Mem	UCLA/Google	3DLLM-Mem: 面向具身3D大型语言模型的长期时空记忆	NeurIPS'25	项目
2025-04-24	3D-LLaVA	阿德莱德大学	3D-LLaVA: 借助全能超点Transformer迈向通用3D LMMs	CVPR '25	github
2025-04-03	Ross3D	中科院自动化所	Ross3D: 具有3D意识的重建式视觉指令微调	Arxiv	项目
2025-03-08	SplatTalk	GIT	SplatTalk: 基于高斯泼溅的3D VQA	Arxiv	github
2025-03-01	Inst3D-LMM	浙江大学	Inst3D-LMM: 基于多模态指令微调的实例感知3D场景理解	CVPR '25	github
2025-02-13	ENEL	SH AILab	ENEL: 探索无编码器架构在3D LMMs中的潜力	Arxiv	项目
2025-02-02	LSceneLLM	华南理工大学	LSceneLLM: 利用自适应视觉偏好提升大型3D场景理解能力	CVPR '25	项目
2025-01-02	GPT4Scene	香港大学	GPT4Scene: 利用视觉-语言模型从视频中理解3D场景	Arxiv	项目
2024-12-05	SeeGround	香港科技大学（广州）	SeeGround: 观察并接地，实现零样本开放词汇3D视觉接地	CVPR '25	项目
2024-12-03	Video-3D LLM	香港中文大学	Video-3D LLM: 学习位置感知视频表示以用于3D场景理解	CVPR '25	项目
2024-11-29	PerLA	布鲁诺·凯斯勒基金会	PerLA: 感知型3D语言助手	CVPR '25	项目
2024-10-12	Situation3D	伊利诺伊大学厄巴纳-香槟分校	情境感知在3D视觉语言推理中的重要性	CVPR '24	项目
2024-09-30	Robin3D	香港大学	Robin3D: 通过稳健的指令微调改进3D大型语言模型	ICCV '25	github
2024-09-28	LLaVA-3D	香港大学	LLaVA-3D: 一条简单而有效的途径，使LMMs具备3D感知能力	Arxiv	项目
2024-09-08	MSR3D	BIGAI	3D场景中的多模态情境推理	NeurIPS '24	项目
2024-08-28	GreenPLM	华中科技大学	更多文本，更少点云：迈向3D数据高效的点云-语言理解	Arxiv	github
2024-06-17	LLaNA	博洛尼亚大学	LLaNA: 大型语言与NeRF助手	NeurIPS '24	项目
2024-06-07	SpatialPIN	牛津大学	SpatialPIN: 通过提示和交互式3D先验增强视觉-语言模型的空间推理能力	NeurIPS '24	项目
2024-06-03	SpatialRGPT	加州大学圣地亚哥分校	SpatialRGPT: 在视觉语言模型中实现 grounded空间推理	NeurIPS '24	github
2024-05-02	MiniGPT-3D	华中科技大学	MiniGPT-3D: 利用2D先验高效对齐3D点云与大型语言模型	ACM MM '24	项目
2024-03-19	Scenescript	Meta	SceneScript: 使用自回归结构化语言模型重建场景	ECCV '24	项目
2024-02-27	ShapeLLM	西安交通大学	ShapeLLM: 面向具身交互的通用3D对象理解	Arxiv	项目
2024-01-22	SpatialVLM	Google DeepMind	SpatialVLM: 为视觉-语言模型赋予空间推理能力	CVPR '24	项目
2023-12-21	LiDAR-LLM	北京大学	LiDAR-LLM: 探索大型语言模型在3D激光雷达理解方面的潜力	Arxiv	项目
2023-12-15	3DAP	上海人工智能实验室	3DAxiesPrompts: 释放GPT-4V的3D空间任务能力	Arxiv	项目
2023-12-13	Chat-Scene	浙江大学	Chat-Scene: 通过对象标识符连接3D场景和大型语言模型	NeurIPS '24	github
2023-12-5	GPT4Point	香港大学	GPT4Point: 一个统一的框架，用于点云-语言的理解和生成	Arxiv	github
2023-11-30	LL3DA	复旦大学	LL3DA: 面向全方位3D理解、推理和规划的视觉交互式指令微调	Arxiv	github
2023-11-26	ZSVG3D	香港中文大学（深圳）	面向零样本开放词汇3D视觉接地的可视化编程	Arxiv	项目
2023-11-18	LEO	BIGAI	3D世界中的具身通才代理	ICML '24	github
2023-10-14	JM3D-LLM	厦门大学	JM3D & JM3D-LLM: 通过联合多模态线索提升3D表示	ACM MM '23	github
2023-10-10	Uni3D	BAAI	Uni3D: 探索大规模统一3D表示	ICLR '24	项目
2023-9-27	-	KAUST	零样本3D形状对应	Siggraph Asia '23	-
2023-9-21	LLM-Grounder	密歇根大学	LLM-Grounder: 以大型语言模型为代理实现开放词汇3D视觉接地	ICRA '24	github
2023-9-1	Point-Bind	香港中文大学	Point-Bind & Point-LLM: 通过多模态对齐点云，实现3D理解、生成和指令遵循	Arxiv	github
2023-8-31	PointLLM	香港中文大学	PointLLM: 赋能大型语言模型理解点云	ECCV '24	github
2023-8-17	Chat-3D	浙江大学	Chat-3D: 以数据高效的方式微调大型语言模型，使其能够进行3D场景的通用对话	Arxiv	github
2023-8-8	3D-VisTA	BIGAI	3D-VisTA: 预训练的Transformer，用于3D视觉与文本对齐	ICCV '23	github
2023-7-24	3D-LLM	UCLA	3D-LLM: 将3D世界注入大型语言模型	NeurIPS '23	github
2023-3-29	ViewRefer	香港中文大学	ViewRefer: 抓住多视角知识，用于3D视觉接地	ICCV '23	github
2022-9-12	-	MIT	利用大型（视觉）语言模型进行机器人3D场景理解	Arxiv	github

通过其他基础模型进行3D理解

编号	关键词	机构（第一作者单位）	论文	发表时间	其他
2026-03-21	OV3D-CG	ICT, CAS	OV3D-CG：基于上下文引导的开放词汇3D实例分割	ICCV '2025	github
2025-11-20	POMA-3D	Imperial	POMA-3D：点云地图驱动的3D场景理解方法	Arxiv	项目
2025-07-26	OV-3DDet	HKUST	CoDAv2：面向开放词汇3D目标检测的协作式新物体发现与框引导跨模态对齐	TPAMI '25	github
2025-02-20	CrossOver	Stanford	CrossOver：3D场景跨模态对齐	CVPR '25	项目
2025-02-05	SAGA	SJTU	Segment Any 3D Gaussians：任意3D高斯场的分割	AAAI '25	项目
2024-10-12	Lexicon3D	UIUC	Lexicon3D：探索单纯视觉基础模型在复杂3D场景理解中的能力	NeurIPS '24	项目
2024-10-07	Diff2Scene	CMU	利用文本到图像扩散模型实现开放词汇3D语义分割	ECCV'24	项目
2024-07-19	OpenSU3D	TUM	OpenSU3D：使用基础模型进行开放世界3D场景理解	ICRA '25	项目
2024-04-07	Any2Point	上海人工智能实验室	Any2Point：赋能任意模态大模型实现高效3D理解	ECCV'24	github
2024-03-16	N2F2	牛津大学VGG实验室	N2F2：基于嵌套神经特征场的层次化场景理解	Arxiv	-
2023-12-17	SAI3D	北京大学	SAI3D：分割3D场景中的任意实例	Arxiv	项目
2023-12-17	Open3DIS	VinAI	Open3DIS：基于2D掩码引导的开放词汇3D实例分割	Arxiv	项目
2023-11-6	OVIR-3D	罗格斯大学	OVIR-3D：无需3D数据训练的开放词汇3D实例检索	CoRL '23	github
2023-10-29	OpenMask3D	ETH	OpenMask3D：开放词汇3D实例分割	NeurIPS '23	项目
2023-10-5	Open-Fusion	-	Open-Fusion：实时开放词汇3D建图与可查询场景表示	Arxiv	github
2023-9-22	OV-3DDet	HKUST	CoDA：面向开放词汇3D目标检测的协作式新框发现与跨模态对齐	NeurIPS '23	github
2023-9-19	LAMP	-	从语言到3D世界：将语言模型适配用于点云感知	OpenReview	-
2023-9-15	OpenNerf	-	OpenNerf：基于像素级特征和渲染新视角的开放集3D神经场景分割	OpenReview	github
2023-9-1	OpenIns3D	剑桥大学	OpenIns3D：针对开放词汇3D实例分割的抓拍与查找	Arxiv	项目
2023-6-7	Contrastive Lift	牛津大学VGG实验室	Contrastive Lift：通过慢速-快速对比融合实现3D目标实例分割	NeurIPS '23	github
2023-6-4	Multi-CLIP	ETH	Multi-CLIP：面向3D场景问答任务的对比视觉-语言预训练	Arxiv	-
2023-5-23	3D-OVS	国立台湾大学	弱监督下的3D开放词汇分割	NeurIPS '23	github
2023-5-21	VL-Fields	爱丁堡大学	VL-Fields：迈向语言接地的神经隐式空间表示	ICRA '23	项目
2023-5-8	CLIP-FO3D	清华大学	CLIP-FO3D：从2D密集CLIP中学习自由开放世界的3D场景表示	ICCVW '23	-
2023-4-12	3D-VQA	ETH	CLIP引导的面向3D场景问答任务的视觉-语言预训练	CVPRW '23	github
2023-4-3	RegionPLC	香港大学	RegionPLC：面向开放世界3D场景理解的区域点-语言对比学习	Arxiv	项目
2023-3-20	CG3D	约翰霍普金斯大学	CLIP走进3D：利用提示调优实现语言接地的3D识别	Arxiv	github
2023-3-16	LERF	加州大学伯克利分校	LERF：语言嵌入辐射场	ICCV '23	github
2023-2-14	ConceptFusion	MIT	ConceptFusion：开放集多模态3D映射	RSS '23	项目
2023-1-12	CLIP2Scene	香港大学	CLIP2Scene：通过CLIP实现标签高效的3D场景理解	CVPR '23	github
2022-12-1	UniT3D	TUM	UniT3D：用于3D密集字幕生成和视觉定位的统一Transformer	ICCV '23	github
2022-11-29	PLA	香港大学	PLA：语言驱动的开放词汇3D场景理解	CVPR '23	github
2022-11-28	OpenScene	ETHz	OpenScene：使用开放词汇进行3D场景理解	CVPR '23	github
2022-10-11	CLIP-Fields	NYU	CLIP-Fields：用于机器人记忆的弱监督语义场	Arxiv	项目
2022-7-23	Semantic Abstraction	哥伦比亚大学	Semantic Abstraction：从2D视觉-语言模型出发的开放世界3D场景理解	CoRL '22	项目
2022-4-26	ScanNet200	TUM	语言接地的室内3D语义分割（野外场景)	ECCV '22	项目

3D推理

日期	关键词	机构（第一）	论文	发表平台	其他
2025-12-15	RoboTracer	北航	RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人领域的空间轨迹	Arxiv	项目
2025-06-11	SceneCOT	BIGAI	SceneCOT: 在3D场景中激发思维链式推理	Arxiv	项目
2025-06-04	RoboRefer	北航	RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代	Arxiv	项目
2024-09-08	MSR3D	BIGAI	3D场景中的多模态情境推理	NeurIPS '24	项目
2023-5-20	3D-CLR	UCLA	基于多视角图像的3D概念学习与推理	CVPR '23	github
-	Transcribe3D	TTI, Chicago	Transcribe3D: 利用转录信息对齐大语言模型，实现自纠正微调下的3D指代推理	CoRL '23	github

3D生成

日期	关键词	机构	论文	发表平台	其他
2025-11-07	Omni-View	北大	Omni-View: 解锁多视角图像统一3D模型中生成如何促进理解	ICLR 2026	github
2025-08-16	UniUGG	南大	UniUGG: 基于几何-语义编码的统一3D理解和生成	ICLR 2026	github
2024-11-14	LLaMA-Mesh	清华大学	LLaMA-Mesh: 将语言模型与3D网格生成统一起来	Arxiv	项目
2023-11-29	ShapeGPT	复旦大学	ShapeGPT: 基于统一多模态语言模型的3D形状生成	Arxiv	github
2023-11-27	MeshGPT	慕尼黑工业大学	MeshGPT: 使用仅解码器型Transformer生成三角形网格	Arxiv	项目
2023-10-19	3D-GPT	ANU	3D-GPT: 利用大型语言模型进行程序化3D建模	Arxiv	github
2023-9-21	LLMR	MIT	LLMR: 利用大型语言模型实时提示交互式世界	Arxiv	-
2023-9-20	DreamLLM	美格维	DreamLLM: 协同的多模态理解与创造	Arxiv	github
2023-4-1	ChatAvatar	Deemos Tech	DreamFace: 在文本指导下逐步生成可动画3D人脸	ACM TOG	网站

3D 身体化智能体

日期	关键词	研究机构	论文	发表平台	其他
2025-12-15	RoboTracer	北航	RoboTracer: 利用视觉-语言模型中的推理能力掌握机器人空间轨迹	Arxiv	项目
2025-06-04	RoboRefer	北航	RoboRefer: 面向机器人的视觉-语言模型中基于推理的空间指代	Arxiv	项目
2025-05-30	VeBrain	上海人工智能实验室	视觉具身大脑：让多模态大语言模型在空间中看、思考并控制	Arxiv	项目
2025-05-28	3DLLM-Mem	UCLA	3DLLM-Mem: 面向具身3D大语言模型的长期时空记忆	Arxiv	项目
2024-01-22	SpatialVLM	Deepmind	SpatialVLM: 为视觉-语言模型赋予空间推理能力	CVPR '24	项目
2023-12-05	NaviLLM	香港中文大学	迈向学习一种用于具身导航的通用模型	CVPR '24	项目
2023-11-27	Dobb-E	NYU	关于将机器人带回家	Arxiv	github
2023-11-26	STEVE	浙江大学	看见并思考：虚拟环境中的具身智能体	Arxiv	github
2023-11-18	LEO	BIGAI	3D世界中的具身通用智能体	ICML '24	github
2023-9-14	UniHSI	上海人工智能实验室	通过提示式接触链实现统一的人与场景交互	Arxiv	github
2023-7-28	RT-2	Google-DeepMind	RT-2: 视觉-语言-动作模型将网络知识迁移到机器人控制中	Arxiv	github
2023-7-12	SayPlan	QUT机器人中心	SayPlan: 使用3D场景图接地大语言模型，实现可扩展的机器人任务规划	CoRL '23	github
2023-7-12	VoxPoser	斯坦福	VoxPoser: 可组合的3D价值地图，用于结合语言模型的机器人操作	Arxiv	github
2022-12-13	RT-1	Google	RT-1: 用于大规模真实世界控制的机器人Transformer	Arxiv	github
2022-12-8	LLM-Planner	俄亥俄州立大学	LLM-Planner: 基于少量示例的大语言模型具身智能体接地规划	ICCV '23	github
2022-10-11	CLIP-Fields	NYU, Meta	CLIP-Fields: 用于机器人记忆的弱监督语义场	RSS '23	github
2022-09-20	NLMap-SayCan	Google	面向现实世界规划的开放词汇可查询场景表示	ICRA '23	github

3D 基准测试

日期	关键词	机构	论文	发表平台	其他
2026-01-22	Real-3DQA	VGG, 牛津大学	3D 大型语言模型真的理解 3D 空间关系吗？	ICLR 2026	项目
2025-12-15	RoboTracer	北航	RoboTracer：通过视觉-语言模型中的推理掌握机器人领域的空间轨迹	Arxiv	项目
:-----:	:------------------:	:--------------:	:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------	:---------:	:---------:
2025-11-28	ORS3D	华中科技大学	一起烹饪与清洁：教导具身智能体进行并行任务执行	AAAI ‘26	项目
2025-06-04	RoboRefer	北航	RoboRefer：面向机器人领域的视觉-语言模型中的空间指代推理	Arxiv	项目
2025-06-09	SpaCE-10	上海交通大学	SpaCE-10：多模态大型语言模型在组合式空间智能方面的综合基准测试	Arxiv	项目
2025-05-01	Hypo3D	帝国理工学院	Hypo3D：探索 3D 中的假设性推理	ICML'25	项目
2025-06-04	Anywhere3D	BIGAI	从物体到任何地方：3D 场景中多层次视觉接地的整体基准测试	NeurIPS '25	项目
2025-05-01	SpatialVQA	约翰霍普金斯大学	SpatialLLM：一种复合的 3D 信息设计，旨在构建具有空间智能的大型多模态模型	CVPR'25	项目
2025-04-03	SPAR	复旦大学	从平面世界到空间：教导视觉-语言模型在 3D 中感知和推理	Arxiv	项目
2025-03-28	Beacon3D	BIGAI	揭开 3D 视觉-语言理解上的迷雾：以对象为中心的链式分析评估	CVPR '25	项目
2025-03-08	3D-CoT	香港理工大学、香港浸会大学	整合思维链实现多模态对齐：关于 3D 视觉-语言学习的研究	Arxiv	数据集
2024-09-08	MSQA / MSNN	BIGAI	3D 场景中的多模态情境推理	NeurIPS '24	项目
2024-08-29	Space3D-Bench	苏黎世联邦理工学院	Space3D-Bench：空间 3D 问答基准测试	Arxiv	项目
2024-07-24	City-3DQA	香港科技大学	用于城市场景理解的 3D 问答	ACM MM'24	项目
2024-06-13	MMScan	上海人工智能实验室	MMScan：带有分层接地语言标注的多模态 3D 场景数据集	Arxiv	GitHub
2024-06-10	3D-GRAND / 3D-POPE	密歇根大学	3D-GRAND：为 3D-LLM 提供更好接地且更少幻觉的大规模数据集（百万级）	Arxiv	项目
2024-06-03	SpatialRGPT-Bench	加州大学圣地亚哥分校	SpatialRGPT：视觉语言模型中的接地空间推理	NeurIPS '24	GitHub
2024-05-27	Reason3D	加州大学默塞德分校	Reason3D：利用大型语言模型进行 3D 分割的搜索与推理	3DV'25	项目
2024-1-18	SceneVerse	BIGAI	SceneVerse：扩展 3D 视觉-语言学习，用于接地场景理解	ECCV '24	GitHub
2023-12-26	EmbodiedScan	上海人工智能实验室	EmbodiedScan：迈向具身 AI 的整体多模态 3D 感知套件	Arxiv	GitHub
2023-12-17	M3DBench	复旦大学	M3DBench：用多模态 3D 提示指导大型模型	Arxiv	GitHub
2023-11-29	-	DeepMind	利用基于 VLM 的流水线标注 3D 对象	ICML '24	GitHub
2023-09-14	CrossCoherence	UniBO	用注意力同时关注文字与点云：文本到形状一致性的基准测试	ICCV '23	GitHub
2022-10-14	SQA3D	BIGAI	SQA3D：3D 场景中的情境问答	ICLR '23	GitHub
2022-09-24	FE-3DGQA	北京航空航天大学	迈向可解释的 3D 接地视觉问答：一个新的基准测试和强大的基线	TCSVT	GitHub
2021-12-20	ScanQA	RIKEN AIP	ScanQA：用于空间场景理解的 3D 问答	CVPR '23	GitHub
2020-12-3	Scan2Cap	TUM	Scan2Cap：RGB-D 扫描中的上下文感知密集字幕	CVPR '21	GitHub
2020-8-23	ReferIt3D	斯坦福大学	ReferIt3D：用于在现实场景中精细识别 3D 对象的神经听者	ECCV '20	GitHub
2019-12-18	ScanRefer	TUM	ScanRefer：使用自然语言在 RGB-D 扫描中定位 3D 对象	ECCV '20	GitHub

贡献

您的贡献始终受到欢迎！

如果我对某些拉取请求是否适合 3D LLMs 还不确定，我会暂时保持它们开放。您可以通过给这些请求点赞 👍 来表达您的支持。

如果您对这份带有明确观点的列表有任何疑问，请通过 xianzheng@robots.ox.ac.uk 或微信 ID: mxz1997112 与我们联系。

星标历史

引用

如果您觉得本仓库有用，请考虑引用以下论文：

@misc{ma2024llmsstep3dworld,
      title={当大语言模型走进 3D 世界：基于多模态大语言模型的 3D 任务综述与元分析}, 
      author={马贤正、Yash Bhalgat、Brandon Smart、陈帅、李兴辉、丁健、顾金东、陈振宇、彭松友、卞家旺、Philip H Torr、Marc Pollefeys、Matthias Nießner、Ian D Reid、Angel X. Chang、Iro Laina、Victor Adrian Prisacariu},
      year={2024},
      journal={arXiv 预印本 arXiv:2405.10255},
}

致谢

本仓库的灵感来源于 Awesome-LLM。

Awesome-LLM-3D 快速上手指南

Awesome-LLM-3D 并非一个可直接安装的单一软件工具，而是一个由社区维护的精选论文与开源项目列表。它汇集了利用大语言模型（LLM）进行 3D 理解、推理、生成及具身智能任务的前沿研究。

本指南将帮助开发者快速浏览该资源库，并选取列表中具体的开源项目（如 LLaVA-3D, SpatialVLM, MiniGPT-3D 等）进行本地部署和使用。

1. 环境准备

由于列表中包含多个不同的项目，每个项目的具体依赖略有不同，但大多数基于 PyTorch 和 Hugging Face Transformers 生态。建议先准备以下通用开发环境：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS
Python: 3.8 - 3.10 (具体版本需参考选定项目的要求)
GPU: 支持 CUDA 的 NVIDIA 显卡 (显存建议 16GB 以上以运行大型多模态模型)
前置依赖:
- Git
- Conda 或 Mamba (推荐用于环境管理)
- CUDA Toolkit (版本需与 PyTorch 匹配)

国内加速建议：在克隆仓库或下载模型时，推荐使用国内镜像源以提升速度：

代码托管: 使用 Gitee 镜像（若项目有同步）或通过 git clone https://ghproxy.com/https://github.com/... 加速 GitHub 克隆。
模型下载: 配置 HF_ENDPOINT 使用 Hugging Face 国内镜像。
```
export HF_ENDPOINT=https://hf-mirror.com
```

PyPI 源: 使用清华或阿里源安装 Python 包。

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

2. 获取资源列表

首先，克隆 Awesome-LLM-3D 仓库以获取最新的论文列表和项目链接：

git clone https://github.com/OpenGVLab/Awesome-LLM-3D.git
cd Awesome-LLM-3D

注意：请根据实际仓库地址调整 URL，若上述地址不可用，请在 GitHub 搜索 "Awesome-LLM-3D" 获取最新源地址。

3. 基本使用流程

由于这是一个索引列表，"使用"的核心步骤是从列表中选择一个感兴趣的项目，然后进入该项目仓库进行部署。以下以列表中典型的 LLaVA-3D 为例演示完整流程：

第一步：选择并进入目标项目

在 README.md 的表格中找到目标项目（例如 LLaVA-3D），点击其 "github" 链接或直接克隆：

# 示例：克隆 LLaVA-3D 项目
git clone https://github.com/djiajunustc/3D-LLaVA.git
cd 3D-LLaVA

第二步：创建虚拟环境并安装依赖

大多数项目会提供 requirements.txt 或 environment.yml。

# 创建 conda 环境
conda create -n llm3d python=3.10 -y
conda activate llm3d

# 安装 PyTorch (根据 CUDA 版本选择，此处以 CUDA 11.8 为例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目特定依赖
pip install -r requirements.txt

第三步：下载预训练模型

根据项目文档下载权重文件。利用之前设置的国内镜像加速：

# 设置 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com

# 使用 huggingface-cli 下载 (具体模型名称参考项目文档)
huggingface-cli download --resume-download <model_owner>/<model_name> --local-dir ./weights

第四步：运行推理示例

大多数项目提供简单的推理脚本。以下是一个通用的运行示例结构：

python inference.py \
    --model_path ./weights \
    --input_3d data/sample.ply \
    --prompt "Describe the spatial relationship between objects in this scene."

4. 探索更多方向

回到 Awesome-LLM-3D 的主目录，你可以查阅 README.md 中的分类表格，快速定位其他方向的项目：

3D 统一理解与生成: 查看 3D Unified Understanding and Generation 章节。
3D 推理: 查看 3D Reasoning 章节，寻找具备空间推理能力的模型。
具身智能: 查看 3D Embodied Agent 章节，适用于机器人交互任务。
基准测试: 查看 3D Benchmarks 章节，获取如 Real-3DQA 等评测数据集。

通过这种方式，你可以利用 Awesome-LLM-3D 作为导航图，快速接入全球最新的 3D+LLM 开源生态。

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他