awesome-3d-reconstruction-papers
awesome-3d-reconstruction-papers 是一个专注于深度学习时代 3D 重建领域的论文精选合集。它致力于解决研究人员和开发者在面对海量学术文献时,难以快速定位高质量、分类清晰的研究成果的痛点。
该资源将复杂的 3D 重建技术体系化地梳理为对象级(单视图、多视图、无监督)、场景级、神经表面表示以及综述等多个维度。其独特亮点在于不仅罗列论文标题,还详细标注了每篇研究采用的几何表示方法(如点云、网格、体素等)、发表会议(如 CVPR、ICCV、NeurIPS)以及对应的项目主页或开源代码链接。这种结构化的整理方式,极大地降低了追踪前沿算法复现细节的门槛。
无论是希望快速了解领域全貌的初学者,还是需要寻找特定技术路线参考的资深研究员,亦或是正在探索 3D 视觉落地的工程师,都能从中高效获取所需信息。通过持续更新的社区贡献,awesome-3d-reconstruction-papers 已成为连接理论与工程实践的重要桥梁,帮助用户在 3D 重建的探索之路上少走弯路。
使用场景
某自动驾驶初创公司的算法团队正致力于提升车辆对道路障碍物的感知能力,计划引入最新的单目 3D 重建技术,以便仅通过车载摄像头就能精准还原前方车辆的立体结构。
没有 awesome-3d-reconstruction-papers 时
- 文献检索如大海捞针:研究人员需在 Google Scholar 和 arXiv 上手动筛选海量论文,难以区分哪些是真正针对“单视图物体级重建”的前沿成果,极易遗漏关键研究。
- 复现成本高昂且盲目:找到论文后,往往发现官方未开源代码或链接失效,团队不得不花费数周时间尝试复现基础模型,却不知已有成熟的开源项目(如 PointSetGeneration 或 AtlasNet)可直接参考。
- 技术选型缺乏全局视野:由于缺乏系统分类,团队难以快速对比体素(Voxel)、点云(Point Cloud)和网格(Mesh)等不同表示方法在特定场景下的优劣,导致技术路线决策缓慢且可能存在偏差。
- 前沿动态跟进滞后:深度学习领域迭代极快,人工追踪最新会议(如 CVPR、ICCV)的 3D 重建论文效率低下,容易错失能显著提升精度的新架构。
使用 awesome-3d-reconstruction-papers 后
- 精准定位核心资源:团队直接查阅"Object-level -> Single-view"分类表,瞬间锁定近五年顶会中所有相关论文,并一键获取对应的代码仓库或项目主页,将调研时间从数周缩短至数小时。
- 高效验证与复用:借助列表中提供的成熟代码链接(如 SurfNet 或 Image2Mesh),工程师能快速搭建基线系统进行测试,避免了重复造轮子,将精力集中在针对驾驶场景的优化上。
- 科学决策技术路线:通过表格清晰对比不同论文的“表示类型”和“发表 venue",团队迅速评估出适合实时性要求的点云生成方案,制定了更稳健的开发路径。
- 同步学术最前沿:依托该清单的持续更新机制,团队能即时掌握神经表面重建等新兴方向,确保技术方案始终处于行业领先地位。
awesome-3d-reconstruction-papers 将分散的学术成果转化为结构化的工程资产,极大降低了 3D 视觉技术的落地门槛与研发周期。
运行环境要求
未说明
未说明

快速开始
优秀的3D重建论文
深度学习时代下的3D重建论文合集。欢迎贡献 :)
目录
对象级
单视角
多视角
| 论文 | 表示方式 | 会议/期刊 | 项目/代码 |
|---|---|---|---|
| 3D-R2N2:单视角与多视角三维物体重建的统一方法 | 体素 | ECCV 2016 | 代码 |
| 基于多物体二维视图的三维形状推断 | 体素 | 3DV 2017 | 代码 |
| 用于密集三维物体重建的高效点云生成学习 | 点云 | AAAI 2018 | 项目 |
| 面向多视角立体重建的条件式单视角形状生成 | 点云 | CVPR 2019 | 代码 |
| Pixel2Mesh++:通过形变实现多视角三维网格生成 | 网格 | ICCV 2019 | 项目 |
| 用于学习特定类别形状重建的多视角聚合 | 点云 | NIPS 2019 | 代码 |
| Pix2Surf:从图像中学习物体的参数化三维曲面模型 | 片段 | ECCV 2020 | 项目 |
| 基于Transformer的多视角三维重建 | 体素 | ICCV 2021 | / |
| 3D-C2FT:用于多视角三维重建的粗细结合Transformer | 体素 | ACCV 2022 | / |
| FvOR:针对少视角物体重建的鲁棒联合形状与姿态优化 | 隐式表示 | CVPR 2022 | 代码 |
| FOUND:利用合成数据进行表面形变时具有不确定法线的足部优化 | 网格 | WACV 2024 | 代码 |
无监督
场景级
单视角
| 论文 | 表征方式 | 发表会议 | 项目/代码 |
|---|---|---|---|
| IM2CAD | CAD | CVPR 2017 | 代码 |
| 3D-RCNN: 基于渲染与比较的实例级3D物体重建 | 先验 | CVPR 2018 | 项目 |
| 从3D场景的2D图像中分解形状、姿态和布局 | 体素 | CVPR 2018 | 项目 |
| 基于单张RGB图像的整体3D场景解析与重建 | 网格 | ECCV 2018 | 项目 |
| Mesh R-CNN | 网格 | ICCV 2019 | 代码 |
| 基于多层深度和极线变换器的3D场景重建 | 网格 | ICCV 2019 | 项目 |
| 3D-RelNet: 用于3D预测的联合对象与关系网络 | 体素 | ICCV 2019 | 项目 |
| Total3DUnderstanding: 基于单张图像对室内场景的布局、物体姿态及网格重建进行联合建模 | 网格 | CVPR 2020 | 项目 |
| 基于单视口的3D场景重建 | 体素 | ECCV 2020 | 代码 |
| CoReNet: 基于单张RGB图像的一致性3D场景重建 | 体素+隐式表示 | ECCV 2020 | 代码 |
| 用于3D场景重建与分割的图像到体素模型转换 | 体素 | ECCV 2020 | 代码 |
| 基于隐式表示的单张图像整体3D场景理解 | 隐式 | CVPR 2021 | 项目 |
| 从点云到多物体3D重建 | 隐式 | CVPR 2021 | 项目 |
| 学习从单张图像恢复3D场景形状 | 点云 | CVPR 2021 | 代码 |
| Patch2CAD: 基于补丁嵌入学习的野外场景形状检索 | 网格 | ICCV 2021 | / |
| 基于单张RGB图像的全景式3D场景重建 | 体素 | NIPS 2021 | 项目 |
| 基于体素的单张图像多物体3D检测与重建 | 隐式 | NIPS 2021 | 项目 |
| 迈向高保真度的室内场景单视角整体重建 | 隐式 | ECCV 2022 | 代码 |
| 3D-Former: 基于SDF的3D变换器的单目场景重建 | 隐式 | ICLR 2023 | 项目 |
| BUOL: 基于占用感知提升的自底向上框架,用于单张图像的全景式3D场景重建 | 隐式 | CVPR 2023 | 代码 |
多视角
| 论文 | 表示方式 | 会议/期刊 | 项目/代码 |
|---|---|---|---|
| MARMVS:减少匹配歧义的多视角立体视觉用于高效的大规模场景重建 | 点云 | CVPR 2020 | / |
| FroDO:从检测到3D物体 | 隐式表示 | CVPR 2020 | / |
| Associative3D:基于稀疏视图的体素重建 | 体素 | ECCV 2020 | 项目 |
| Atlas:从已知位姿图像端到端的3D场景重建 | 网格 | ECCV 2020 | 项目 |
| NeuralRecon:单目视频实时连贯的3D重建 | 网格 | CVPR 2021 | 项目 |
| TransformerFusion:使用Transformer的单目RGB场景重建 | 隐式表示 | NIPS 2021 | 项目 |
| 无需3D监督学习3D物体形状与布局 | 网格 | CVPR 2022 | 项目 |
| 用于3D场景重建的定向射线距离函数 | 隐式表示 | ECCV 2022 | 项目 |
| 通过2D监督学习3D场景先验 | 网格 | arXiv 2022 | 项目 |
| FineRecon:深度感知的前馈网络用于精细的3D重建 | 隐式表示 | arXiv 2023 | 代码 |
| CVRecon:重新思考神经网络重建中的3D几何特征学习 | 隐式表示 | arXiv 2023 | 项目 |
| VisFusion:基于视频的可见性感知在线3D场景重建 | 隐式表示 | CVPR 2023 | 项目 |
神经表面
多视角
点云
RGB-D
| 论文 | 表示方法 | 会议/期刊 | 项目/代码 |
|---|---|---|---|
| 神经RGB-D表面重建 | 隐式 | CVPR 2022 | 项目 |
| BNV-Fusion:基于双层神经体积融合的稠密3D重建 | 隐式 | CVPR 2022 | 代码 |
| NICE-SLAM:用于SLAM的神经隐式可扩展编码 | 隐式 | CVPR 2022 | 项目 |
| ShAPO:用于多物体形状、外观和姿态优化的隐式表示 | 隐式 | ECCV 2022 | 项目 |
| CIRCLE:面向大规模室内场景的卷积隐式重建与补全 | 隐式 | ECCV 2022 | 代码 |
| 单目RGB-D相机下动态场景的神经表面重建 | 隐式 | NIPS 2022 | 项目 |
| GO-Surf:用于快速、高保真RGB-D表面重建的神经特征网格优化 | 隐式 | 3DV 2022 | 项目 |
| FastSurf:利用逐帧内在精炼和TSDF融合先验学习的快速神经RGB-D表面重建 | 隐式 | arXiv 2023 | 项目 |
| 用于高保真RGB-D监督表面重建的动态体素网格优化 | 隐式 | arXiv 2023 | / |
| 用于3D重建的多视角压缩编码 | 隐式 | CVPR 2023 | 项目 |
| MobileBrick:在移动设备上进行3D重建的乐高搭建 | 隐式 | CVPR 2023 | 项目 |
| TMO:利用可微渲染通过移动设备获取物体的纹理网格 | 网格 | CVPR 2023 | 项目 |
综述
| 论文 | 会议/期刊 |
|---|---|
| 基于图像的3D物体重建:深度学习时代的现状与趋势 | TPAMI 2019 |
| 视觉计算及其他领域的神经场 | arXiv 2021 |
| 神经渲染的进展 | EUROGRAPHICS 2022 |
| 点云表面重建:综述与基准测试 | arXiv 2022 |
| NeRF:3D视觉中的神经辐射场,全面综述 | arXiv 2022 |
| 深度学习驱动的网格重建方法综述 | arXiv 2023 |
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。