awesome-state-of-depth-completion
awesome-state-of-depth-completion 是一个专注于“稀疏到稠密深度补全”技术的开源资源库,旨在系统梳理当前监督与无监督领域的前沿进展。在自动驾驶、机器人导航及增强现实等场景中,传感器(如激光雷达)获取的深度数据往往是稀疏且不完整的,而该工具正是为了解决如何结合 RGB 图像将这些稀疏点云高效转化为高精度稠密深度图这一核心难题。
它特别适合计算机视觉领域的研究人员、算法工程师及相关专业的学生使用。通过整合 VOID 和 KITTI 两大权威基准测试的最新成果,它不仅提供了清晰的技术演进脉络,还详细列出了包括 MAE、RMSE 在内的多项关键性能指标对比,帮助用户快速定位最优方案。此外,资源库收录了众多顶级会议论文及其对应的开源代码链接(涵盖 PyTorch 和 TensorFlow 框架),极大地降低了复现经典算法(如 KBNet、ScaffNet 及最新的 AugUndo)的门槛。无论是希望深入理解深度估计原理,还是寻求在实际项目中落地高效补全算法,这里都是极具价值的参考起点。
使用场景
某自动驾驶初创团队的感知算法工程师正在优化城市低速配送车的深度感知模块,急需从稀疏的激光雷达点云和单目摄像头数据中重建高精度的稠密深度图。
没有 awesome-state-of-depth-completion 时
- 选型迷茫:面对 GitHub 上数百个深度补全项目,难以区分哪些是仅支持监督学习,哪些适合无标签数据的自监督训练,浪费大量时间阅读无关代码。
- 基准混乱:缺乏统一的 VOID 或 KITTI 数据集性能对比,无法判断新发表的论文(如 ECCV 2024 的 AugUndo)是否真的比旧模型在 MAE 或 iRMSE 指标上有实质提升。
- 复现困难:找不到官方认可的代码实现链接,常下载到过时的非官方复现版本,导致模型在实车部署时出现严重的深度漂移。
- 指标片面:以往只关注 RMSE 单一指标,忽略了逆深度误差(iRMSE)等对近距离障碍物检测更关键的评价维度,导致算法在复杂场景下鲁棒性不足。
使用 awesome-state-of-depth-completion 后
- 精准定位:通过清晰的分类目录,工程师迅速锁定了适合当前无标签数据场景的“无监督 VOID 基准”榜单,直接聚焦于 AugUndo 等 SOTA 模型。
- 数据驱动决策:借助涵盖 MAE、RMSE、iMAE、iRMSE 四维度的详细对比表,团队量化评估出最新模型在近距离精度上提升了 15%,果断决定切换技术路线。
- 高效落地:利用列表中提供的官方 PyTorch/TensorFlow 代码链接,三天内即可完成环境搭建与模型微调,大幅缩短研发周期。
- 全面评估:依据多指标排名优化损失函数权重,显著改善了车辆在狭窄巷道中对近处行人与障碍物的深度估计准确性。
awesome-state-of-depth-completion 将分散的学术成果转化为可执行的工程指南,帮助开发者在纷繁的算法中快速找到最优解,让深度感知系统的迭代从“盲目试错”转向“精准打击”。
运行环境要求
未说明
未说明

快速开始
令人惊叹的深度补全
目录
关于稀疏到稠密的深度补全
在稀疏到稠密的深度补全问题中,目标是根据一张RGB图像及其对应的稀疏重建(以稀疏深度图的形式呈现),推断出三维场景的稠密深度图。这些稀疏重建数据可以通过诸如SfM(运动恢复结构)之类的计算方法,或通过激光雷达、结构光传感器等主动式传感器获取。
示例1:VOID数据集(室内视觉惯性里程计)
| 输入RGB图像 | 稀疏点云 | 来自KBNet的输出点云 |
|---|---|---|
![]() |
![]() |
![]() |
示例2:KITTI数据集(室外激光雷达)
| 输入RGB图像 | 来自ScaffNet的输出点云 |
|---|---|
![]() |
![]() |
当前深度补全方法现状
在此,我们汇总了近期会议和期刊上发表的无监督/自监督(单目和立体视觉)以及监督方法,这些方法均基于VOID(Wong等人,2020年)和KITTI(Uhrig等人,2017年)深度补全基准测试。我们的排名综合考虑了所有四项指标,而不仅仅是RMSE。
快速链接
无监督VOID深度补全基准测试
| 论文 | 发表刊物 | 代码 | MAE | RMSE | iMAE | iRMSE |
|---|---|---|---|---|---|---|
| AugUndo:扩展用于单目深度补全与估计的数据增强 | ECCV 2024 | PyTorch | 33.32 | 85.67 | 16.61 | 41.24 |
| 监督蒸馏用于正向一致性的深度补全 | ECCV 2022 | PyTorch | 36.42 | 87.78 | 19.18 | 43.83 |
| DesNet:分解尺度一致性网络用于无监督深度补全 | AAAI 2023 | 无 | 37.41 | 93.31 | 19.17 | 45.57 |
| 带校准反投影层的无监督深度补全 | ICCV 2021 | PyTorch | 39.80 | 95.86 | 21.16 | 49.72 |
| 从合成数据中学习拓扑结构用于无监督深度补全 | RA-L & ICRA 2021 | TensorFlow/PyTorch | 60.68 | 122.01 | 35.24 | 67.34 |
| 基于视觉惯性里程计的无监督深度补全 | RA-L & ICRA 2020 | TensorFlow/PyTorch | 85.05 | 169.79 | 48.92 | 104.02 |
| Struct-MDC:利用视觉SLAM中的结构规律进行网格优化的无监督深度补全 | RA-L & IROS 2022 | PyTorch | 111.33 | 216.50 | -- | -- |
| 单张图像和稀疏范围下的稠密深度后验(ddp) | CVPR 2019 | TensorFlow | 151.86 | 222.36 | 74.59 | 112.36 |
| 自监督稀疏到稠密:基于LiDAR和单目相机的自监督深度补全 | ICRA 2019 | PyTorch | 178.85 | 243.84 | 80.12 | 107.69 |
监督VOID深度补全基准测试
| 论文 | 发表刊物 | 代码 | MAE | RMSE | iMAE | iRMSE |
|---|---|---|---|---|---|---|
| CostDCNet:基于代价体积的单幅RGB-D图像深度补全 | ECCV 2022 | PyTorch | 25.84 | 76.28 | 12.19 | 32.13 |
| 非局部空间传播网络用于深度补全 | ECCV 2020 | PyTorch | 26.74 | 79.12 | 12.70 | 33.88 |
| 监督蒸馏用于正向一致性的深度补全 | ECCV 2022 | PyTorch | 29.67 | 79.78 | 14.84 | 37.88 |
| PENet:迈向精确高效的图像引导深度补全(PENet) | ICRA 2021 | PyTorch | 34.61 | 82.01 | 18.89 | 40.36 |
| 多尺度引导级联沙漏网络用于深度补全 | WACV 2020 | PyTorch | 43.57 | 109.94 | 23.44 | 52.09 |
| PENet:迈向精确高效的图像引导深度补全(ENet) | ICRA 2021 | PyTorch | 46.90 | 94.35 | 26.78 | 52.58 |
| 使用单张图像和稀疏LiDAR点云实现扫描线分辨率不变的深度补全 | RA-L & IROS 2021 | 无 | 59.40 | 181.42 | 19.37 | 46.56 |
无监督 KITTI 深度补全基准测试
| 论文 | 发表期刊 | 代码 | MAE | RMSE | iMAE | iRMSE |
|---|---|---|---|---|---|---|
| 基于监控蒸馏的正相关深度补全 | ECCV 2022 | PyTorch | 218.60 | 785.06 | 0.92 | 2.11 |
| 带校准反投影层的无监督深度补全 | ICCV 2021 | PyTorch | 256.76 | 1069.47 | 1.02 | 2.95 |
| 投影适应:基于噪声和稀疏传感器数据的深度补全领域自适应 | ACCV 2020 | PyTorch | 280.42 | 1095.26 | 1.19 | 3.53 |
| 从合成数据中学习拓扑结构以进行无监督深度补全 | RA-L & ICRA 2021 | TensorFlow | 280.76 | 1121.93 | 1.15 | 3.30 |
| 基于视觉惯性里程计的无监督深度补全 | RA-L & ICRA 2020 | TensorFlow | 299.41 | 1169.97 | 1.20 | 3.56 |
| 用于 LiDAR 深度补全的表面几何模型 | RA-L & ICRA 2021 | TensorFlow | 298.30 | 1239.84 | 1.21 | 3.76 |
| 为经典图像处理辩护:在 CPU 上实现快速深度补全 | CRV 2018 | Python | 302.60 | 1288.46 | 1.29 | 3.78 |
| 由单张图像和稀疏距离信息推导出的密集深度后验 (ddp) | CVPR 2019 | TensorFlow | 343.46 | 1263.19 | 1.32 | 3.58 |
| 自监督稀疏转稠密:基于 LiDAR 和单目相机的自监督深度补全 | ICRA 2019 | PyTorch | 350.32 | 1299.85 | 1.57 | 4.07 |
| DFuseNet:RGB 与稀疏深度信息的深度融合,用于图像引导的密集深度补全 | ITSC 2019 | PyTorch | 429.93 | 1206.66 | 1.79 | 3.62 |
| 语义引导的深度上采样 | GCPR 2016 | 无 | 605.47 | 2312.57 | 2.05 | 7.38 |
有监督 KITTI 深度补全基准
| 论文 | 发表期刊 | 代码 | MAE | RMSE | iMAE | iRMSE |
|---|---|---|---|---|---|---|
| CompletionFormer:结合卷积和视觉Transformer的深度补全(L1) | CVPR 2023 | PyTorch | 183.88 | 764.87 | 0.80 | 1.89 |
| 通过深度特征上采样提升深度补全性能 | CVPR 2024 | PyTorch | 187.95 | 686.46 | 0.81 | 1.83 |
| 用于几何感知深度补全的三视角分解 | CVPR 2024 | PyTorch | 188.60 | 693.97 | 0.81 | 1.82 |
| BEVDC:鸟瞰图辅助训练的深度补全 | CVPR 2023 | 无 | 189.44 | 697.44 | 0.82 | 1.83 |
| LRRU:长短程递归更新网络用于深度补全(L1+L2) | ICCV 2023 | PyTorch | 189.96 | 696.51 | 0.81 | 1.87 |
| 用于深度补全的动态空间传播网络 | AAAI 2022 | PyTorch | 192.71 | 709.12 | 0.82 | 1.88 |
| OGNI-DC:基于优化引导的神经迭代的鲁棒深度补全 | ECCV 2024 | PyTorch | 193.20 | 708.38 | 0.83 | 1.86 |
| 基于不确定性驱动损失函数的鲁棒深度补全 | AAAI 2022 | 无 | 190.88 | 795.61 | 0.83 | 1.98 |
| 用于深度补全的双边传播网络 | CVPR 2024 | PyTorch | 194.69 | 684.90 | 0.84 | 1.82 |
| LRRU:长短程递归更新网络用于深度补全(L2) | ICCV 2023 | PyTorch | 198.31 | 695.67 | 0.86 | 2.18 |
| 用于深度补全的非局部空间传播网络 | ECCV 2020 | PyTorch | 199.59 | 741.68 | 0.84 | 1.99 |
| RigNet:重复图像引导的深度补全网络 | ECCV 2022 | 无 | 203.25 | 712.66 | 0.90 | 2.08 |
| CompletionFormer:结合卷积和视觉Transformer的深度补全(L1+L2) | CVPR 2023 | PyTorch | 203.45 | 708.87 | 0.88 | 2.01 |
| 从单张图像和稀疏范围数据中推断出的密集深度后验(ddp) | CVPR 2019 | TensorFlow | 203.96 | 832.94 | 0.85 | 2.10 |
| SemAttNet:迈向基于注意力的语义感知引导深度补全 | IEEE Access 2022 | PyTorch | 205.49 | 709.41 | 0.90 | 2.03 |
| 自适应上下文感知多模态深度补全网络 | TIP 2021 | PyTorch | 206.80 | 732.99 | 0.90 | 2.08 |
| MFF-Net:迈向高效的单目深度补全——基于多模态特征融合 | RAL 2023 | 无 | 208.11 | 719.85 | 0.94 | 2.21 |
| CSPN++:学习上下文与资源感知的卷积空间传播网络用于深度补全 | AAAI 2020 | 无 | 209.28 | 743.69 | 0.90 | 2.07 |
| PENet:迈向精确高效的人工智能图像引导深度补全 | ICRA 2021 | PyTorch | 210.55 | 730.08 | 0.94 | 2.17 |
| DenseLiDAR:实时伪密集深度引导的深度补全网络 | ICRA 2021 | 无 | 214.13 | 755.41 | 0.96 | 2.25 |
| MDANet:多模态深度聚合网络用于深度补全 | ICRA 2021 | PyTorch | 214.99 | 738.23 | 0.99 | 2.12 |
| 基于RGB图像引导和不确定性的稀疏噪声LiDAR点云补全 | MVA 2019 | PyTorch | 215.02 | 772.87 | 0.93 | 2.19 |
| 用于深度补全的级联密集连接融合网络 | BMVC 2022 | 无 | 216.05 | 738.26 | 0.99 | 2.18 |
| FCFR-Net:基于特征融合的粗到细残差学习用于深度补全 | AAAI 2021 | 无 | 217.15 | 735.81 | 0.98 | 2.20 |
| 监控蒸馏用于正向一致性的深度补全 | ECCV 2022 | PyTorch | 218.60 | 785.06 | 0.92 | 2.11 |
| 学习引导的卷积网络用于深度补全 | TIP 2020 | PyTorch | 218.83 | 736.24 | 0.99 | 2.25 |
| 多尺度引导的级联沙漏网络用于深度补全 | WACV 2020 | PyTorch | 220.41 | 762.19 | 0.98 | 2.30 |
| 用于深度补全的2D-3D联合表示学习 | ICCV 2019 | 无 | 221.19 | 752.88 | 1.14 | 2.34 |
| DeepLiDAR:基于深层表面法线引导的户外场景深度预测,使用稀疏LiDAR数据和单色图像 | CVPR 2019 | PyTorch | 226.50 | 758.38 | 1.15 | 2.56 |
| 通过CNN进行置信度传播以指导稀疏深度回归 | PAMI 2019 | PyTorch | 233.26 | 829.98 | 1.03 | 2.60 |
| 使用单张图像和稀疏LiDAR点云实现扫描线分辨率不变的深度补全 | RA-L & IROS 2021 | 无 | 233.34 | 809.09 | 1.06 | 2.57 |
| CNN处理稀疏与密集数据:深度补全与语义分割 | 3DV 2019 | 无 | 234.81 | 917.64 | 0.95 | 2.17 |
| 基于深度-法线约束的稀疏LiDAR数据深度补全 | ICCV 2019 | 无 | 235.17 | 777.05 | 1.13 | 2.42 |
| 自监督稀疏转稠密:基于LiDAR和单目相机的自监督深度补全 | ICRA 2019 | PyTorch | 249.95 | 814.73 | 1.21 | 2.80 |
| 具有不确定性感知的CNN用于深度补全:从始至终的不确定性 | CVPR 2020 | PyTorch | 251.77 | 960.05 | 1.05 | 3.37 |
| 用于深度补全的深度系数 | CVPR 2019 | 无 | 252.21 | 988.38 | 1.13 | 2.87 |
| 基于亲和力学习的卷积空间传播网络进行深度估计 | ECCV 2018 | 无 | 279.46 | 1019.64 | 1.15 | 2.93 |
| 用于深度补全的形态学算子学习 | ACIVS 2019 | 无 | 310.49 | 1045.45 | 1.57 | 3.84 |
| 不受稀疏性影响的CNN | 3DV 2017 | TensorFlow | 416.14 | 1419.75 | 1.29 | 3.25 |
| 基于深度卷积压缩感知的LiDAR深度补全 | ACCV 2018 | TensorFlow | 439.48 | 1325.37 | 3.19 | 59.39 |
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器




