awesome-dust3r

789 26 较难 1 次阅读昨天MIT其他

AI 解读由 AI 自动生成，仅供参考

awesome-dust3r 是一个专注于 DUSt3R 及其衍生模型（如 MASt3R）的精选资源库，旨在汇集最新的论文、开源代码、教程视频及技术博客。它主要解决了传统三维重建任务中过度依赖相机参数（如内参和外参）的痛点。在传统流程中，获取这些参数往往繁琐且容易出错，而 DUSt3R 作为一种新兴的几何基础模型，开创了无需预先标定相机即可从任意图像集合中进行稠密三维重建的新范式。

该资源库特别适合计算机视觉领域的研究人员、AI 开发者以及三维技术爱好者使用。无论是希望快速跟进前沿算法的学者，还是寻求高效重建方案的工程师，都能在此找到从理论原理到落地应用的全方位指引。其核心亮点在于梳理了基于 Transformer 架构的创新技术，该技术通过将成对重建转化为点图回归问题，巧妙地统一了单目与双目重建场景，并提供了高效的全局对齐策略。此外，库中还涵盖了动态场景重建、高斯泼溅（Gaussian Splatting）、机器人导航及科学计算等多个扩展方向，持续更新的日志确保了用户能第一时间掌握社区的最新突破，是探索无约束三维视觉技术的理想入口。

使用场景

某文化遗产保护团队需要利用游客拍摄的非专业照片，快速重建一座古建筑的精细 3D 模型用于数字化归档。

没有 awesome-dust3r 时

相机参数依赖严重：传统多视图立体视觉（MVS）算法必须预先知道相机的内参和外参，而游客照片缺乏这些元数据，导致无法直接计算。
特征匹配失败率高：面对光照变化大、纹理重复或无特征的区域，传统基于特征点检测的方法极易丢失匹配点，重建模型出现大量空洞。
技术选型迷茫低效：开发者需在海量论文和代码库中盲目搜索最新进展，难以区分哪些方案支持“无标定”重建，耗费数周时间试错。
动态场景处理棘手：若照片中包含移动的游客或车辆，传统静态场景假设会导致模型产生严重的伪影和拉伸变形。

使用 awesome-dust3r 后

零标定直接重建：借助列表中集成的 DUSt3R 核心算法，团队直接输入任意图片集即可回归出点云图，完全无需相机校准信息。
鲁棒的几何理解：利用列表推荐的 MASt3R 等进阶模型，即使在弱纹理或动态干扰下，也能通过几何基础模型的特性获得稠密且一致的 3D 结构。
一站式资源导航：通过 awesome-dust3r 整理的分类清单，团队迅速定位到针对动态场景（如 Geo4D）和快速重建（如 Fast3R）的最优开源代码，将调研周期缩短至几天。
生态扩展便捷：依据列表指引，轻松接入 Gaussian Splatting 相关工具（如 Splatt3R），将重建结果快速转化为可实时渲染的高保真场景。

awesome-dust3r 通过聚合前沿几何基础模型生态，让非专家团队也能在无标定条件下高效完成高质量的 3D 重建任务。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes提供的 README 内容仅为 DUSt3R/MASt3R 相关论文、代码库和资源的项目列表（Awesome List），不包含具体的安装指南、环境配置要求或依赖版本信息。如需获取运行环境需求，请访问文中列出的具体项目代码库链接（如 github.com/naver/dust3r 或 github.com/naver/mast3r）。

python未说明

快速开始

超棒的 DUSt3R 资源

这是一份精心整理的论文和开源资源列表，涵盖了 DUSt3R/MASt3R 相关内容。DUSt3R 和 MASt3R 是新兴的几何基础模型，能够支持广泛的 3D 几何任务与应用。欢迎提交 PR 请求，包括论文、开源库、博客文章、视频等。本仓库由 @Rui Li 维护，敬请关注后续更新！

2025年10月25日: 新增 Human3R、Rig3R、SegMASt3R、PLANA3R、TTT3R。
2025年9月6日: 新增 SAIL-Recon、FastVGGT、HAMSt3R、Vista-SLAM。
2025年8月16日: 新增 Test3R。
2025年8月15日: 新增 MoGe-2、S3PO-GS、π^3、LONG3R、VGGT-Long、STream3R、Dens3R、StreamVGG-T、Back-on-Track 和 ViPE。
2025年7月9日: 新增 Point3R、GeometryCrafter、CryoFastAR。
2025年6月19日: 新增 RaySt3R、Amodal3R、Styl3R。
2025年5月6日: 新增 LaRI。
2025年4月29日: 新增 Pow3R、Mono3R、Easi3R、FlowR、ODHSR、DPM、Geo4D、POMATO、DAS3R。
2025年3月20日: 新增 Reloc3r、Pos3R、MASt3R-SLAM、Light3R-SfM、VGGT。
2025年3月16日: 新增 MUSt3R、PE3R。
2025年1月24日: 新增 CUT3R、Fast3R、EasySplat、MEt3R、Dust-to-Tower。新年快乐！
2024年12月20日: 新增 Align3R、PeRF3R、MV-DUSt3R+、Stereo4D、SLAM3R、LoRA3D。
2024年11月15日: 新增 MoGe、LSM。
2024年10月10日: 新增 MASt3R-SfM、MonST3R。
2024年8月31日: 新增 Spurfies、Spann3R 和 ReconX。
2024年8月29日: 新增 Splatt3R，更新 InstantSplat 的代码等。
2024年6月21日: 新增最新发布的 MASt3R。
2024年5月31日: 新增一项无需检测器的 SfM 研究，以及一个 Mini-DUSt3R 代码库。
2024年4月27日: 新增多项同期工作，包括 FlowMap、ACE0、MicKey 和 VGGSfM。
2024年4月9日: 初始列表，包含前三篇论文、博客和视频。

DUSt3R 的开创性论文：

1. DUSt3R：让几何 3D 视觉变得简单！

作者: Shuzhe Wang、Vincent Leroy、Yohann Cabon、Boris Chidlovskii、Jerome Revaud

摘要

在野外进行多视图立体重建（MVS）时，通常需要先估计相机参数，例如内参和外参。这些参数的获取往往繁琐且耗时，但却是将对应像素三角化到三维空间的关键步骤——这也是所有高性能 MVS 算法的核心所在。在本工作中，我们提出了截然不同的方法，推出了 DUSt3R，这是一种全新的密集且无约束的立体 3D 重建范式，可处理任意图像集，无需事先了解相机标定或视角姿态信息。我们将成对重建问题转化为点映射回归问题，从而放宽了传统投影相机模型的严格约束。我们证明了这种形式可以无缝统一单目和双目重建场景。当提供超过两张图像时，我们进一步提出了一种简单而有效的全局对齐策略，将所有成对点映射表达在一个共同的参考框架中。我们的网络架构基于标准的 Transformer 编码器和解码器，使我们能够利用强大的预训练模型。我们的方法不仅可以直接生成场景的 3D 模型和深度信息，还可以轻松地从中恢复像素匹配关系、相对和绝对相机位姿。我们在这些任务上的全面实验表明，DUSt3R 可以统一多种 3D 视觉任务，并在单目/多视图深度估计以及相对位姿估计方面创下新的 SOTA 记录。总之，DUSt3R 让许多几何 3D 视觉任务变得简单易行。

📃 论文 | 🌐 项目页面 | ⌨️ 代码 | 🎥 解说视频

2024年：

1. FlowMap：通过梯度下降获取高质量相机位姿、内参与深度

作者: 卡梅伦·史密斯、大卫·查拉坦、阿尤什·特瓦里、文森特·西茨曼

摘要

本文介绍了一种端到端可微分的方法——FlowMap，用于求解视频序列中精确的相机位姿、相机内参以及每帧的稠密深度。我们的方法针对每个视频执行梯度下降优化，最小化一个简单的最小二乘目标函数，该函数比较由深度、内参和位姿所诱导的光流与通过现成光流算法和点跟踪获得的对应关系。除了利用点轨迹来促进长期几何一致性外，我们还引入了深度、内参和位姿的可微重参数化方式，使其更易于一阶优化。实验表明，我们方法恢复的相机参数和稠密深度能够支持在360°轨迹上使用高斯泼溅技术进行照片级真实感的新视角合成。我们的方法不仅显著优于以往基于梯度下降的束调整方法，而且令人惊讶的是，在360°新视角合成这一下游任务上，其性能甚至可以与当前最先进的SfM方法COLMAP相媲美——尽管我们的方法完全基于梯度下降、全程可微，并且与传统SfM方法有着本质上的区别。这一成果为自监督训练用于相机参数估计、三维重建和新视角合成的神经网络打开了新的大门。

📃 论文 | 🌐 项目页面 | ⌨️ 代码

2. 场景坐标重建：通过增量学习重定位器实现图像集合的位姿估计

作者: 埃里克·布拉赫曼、杰米·温、陈帅、托马索·卡瓦拉里、阿龙·蒙斯帕特、达尼娅尔·图尔穆坎贝托夫、维克多·艾德里安·普里萨卡里乌

摘要

我们研究从一组描绘同一场景的图像中估计相机参数的任务。目前流行的基于特征的运动恢复结构（SfM）工具通常采用增量式重建的方式解决这一问题：它们反复进行稀疏3D点的三角测量，并将更多相机视图注册到稀疏点云中。我们将增量式运动恢复结构重新解释为对视觉重定位器的迭代应用与精炼，即一种将新视图注册到当前重建状态的方法。这种视角使我们能够探索不依赖局部特征匹配的替代性视觉重定位器。我们证明，基于学习的场景坐标回归方法能够从无位姿约束的图像中构建隐式的神经场景表示。与其他基于学习的重建方法不同，我们既不需要位姿先验，也不需要顺序输入，并且能够在数千张图像上高效地进行优化。我们的方法ACE0（ACE Zero）能够以与基于特征的SfM相当的精度估计相机位姿，这一点已通过新视角合成任务得到验证。

📃 论文 | 🌐 项目页面 | ⌨️ 代码

3. 在3D空间中匹配2D图像：基于度量对应关系的度量相对位姿

作者: 阿克塞尔·巴罗索-拉古纳、索米娅·穆努库特拉、维克多·艾德里安·普里萨卡里乌、埃里克·布拉赫曼

摘要

给定两张图像，我们可以通过建立图像间的对应关系来估计它们之间的相对相机位姿。通常，这些对应关系是2D到2D的，因此我们估计的位姿仅在尺度上是不确定的。然而，一些旨在实现随时随地即时增强现实的应用则需要尺度确定的位姿估计，为此它们往往依赖外部深度估计算法来恢复尺度信息。我们提出了MicKey关键点匹配流水线，它能够预测3D相机空间中的度量对应关系。通过学习跨图像匹配3D坐标，我们可以无需深度测量即可推断出度量相对位姿。此外，训练过程中也无需深度数据、场景重建或图像重叠信息，MicKey仅需图像及其相对位姿的配对作为监督信号。在无地图重定位基准测试中，MicKey取得了当前最佳性能，且所需的监督信息少于其他竞争方法。

📃 论文 | 🌐 项目页面 | ⌨️ 代码

4. VGGSfM：视觉几何驱动的深度运动恢复结构

作者: 王建元、尼基塔·卡拉耶夫、克里斯蒂安·鲁普雷希特、大卫·诺沃特尼

摘要

运动恢复结构（SfM）是计算机视觉领域的一个长期难题，其目标是从一组无约束的2D图像中重建场景的相机位姿和3D结构。传统的框架通常采用增量式方法来解决这一问题：检测并匹配关键点、注册图像、三角测量3D点，并进行束调整。近年来的研究主要集中在利用深度学习技术来提升特定环节（如关键点匹配），但这些方法仍然基于原始的不可微流程。与此不同，我们提出了一种全新的深度SfM流水线VGGSfM，其中每个组件都完全可微，因此可以进行端到端的训练。为此，我们引入了若干新机制和简化措施。首先，我们基于深度2D点跟踪的最新进展，提取可靠的像素级点轨迹，从而无需再进行两两匹配的链式操作。其次，我们不再逐步注册相机，而是基于图像和轨迹特征同时恢复所有相机的位姿。最后，我们通过一个可微的束调整层来优化相机位姿并三角测量3D点。我们在三个流行的数据集CO3D、IMC Phototourism和ETH3D上均达到了当前最先进的水平。

📃 论文 | 🌐 项目页面 | ⌨️ 代码

5. 无检测器的运动恢复结构

作者: 贺兴义、孙嘉铭、王一凡、彭思达、黄启星、鲍虎军、周小伟

摘要

我们提出了一种新的运动恢复结构框架，用于从无序图像中恢复精确的相机位姿和点云。传统的SfM系统通常依赖于在多视图中成功检测可重复的关键点作为第一步，但这对于纹理稀少的场景来说非常困难，而关键点检测不佳可能会导致整个SfM系统崩溃。为此，我们提出了一种新的无检测器SfM框架，利用近期无检测器匹配方法的成功成果，避免了早期确定关键点的需求，同时解决了无检测器匹配方法中存在的多视图不一致性问题。具体而言，我们的框架首先基于量化后的无检测器匹配重建一个粗略的SfM模型。然后，通过一种新颖的迭代优化流程对该模型进行精炼：该流程在基于注意力的多视图匹配模块与几何精炼模块之间交替运行，前者用于细化特征轨迹，后者则用于提高重建精度。实验表明，所提出的框架在常用基准数据集上优于现有的基于检测器的SfM系统。此外，我们还收集了一个纹理稀少的SfM数据集，以展示我们的框架在重建纹理稀少场景方面的能力。基于该框架，我们在2023年图像匹配挑战赛中获得了第一名。

📃 论文 | 🌐 项目页面 | ⌨️ 代码

3D重建:

2025:

1. SLAM3R: 基于单目RGB视频的实时稠密场景重建

作者: Ruicheng Wang, Sicheng Xu, Yue Dong, Yu Deng, Jianfeng Xiang, Zelong Lv, Guangzhong Sun, Xin Tong, Jiaolong Yang

摘要

我们提出了MoGe-2，一种先进的开放域几何估计模型，能够从单张图像中恢复场景的度量尺度3D点云。我们的方法建立在近期的单目几何估计方法MoGe之上，后者可预测具有未知尺度但保持仿射不变性的点云。我们探索了有效策略，以在不牺牲仿射不变性点表示所提供的相对几何精度的前提下，将MoGe扩展用于度量几何预测。此外，我们发现真实数据中的噪声和误差会削弱预测几何的细粒度细节。为此，我们开发了一套统一的数据精炼方法，利用清晰的合成标签对来自不同来源的真实数据进行过滤和补全，从而显著提升重建几何的精细程度，同时保持整体精度。我们使用混合数据集的大规模语料库训练了该模型，并进行了全面评估，结果表明其在实现精确的相对几何、准确的度量尺度以及细粒度细节恢复等方面表现卓越——这些能力是此前任何方法都无法同时达到的。

📄 论文 | 🌐 项目页面 | 💻 代码 | 🤗 演示

12. 基于全局尺度一致3D高斯点云的地图构建的户外单目SLAM

作者: 陈星宇、陈悦、修玉良、安德烈亚斯·盖格、陈安培

2025年：

1. 具有持久状态的连续3D感知模型！

作者: 王倩倩、张一飞、亚历山大·霍林斯基、阿列克谢·埃夫罗斯、安朱·卡纳扎瓦

摘要

我们提出了一套统一的框架，能够解决广泛的3D任务。我们的方法采用一种带有状态的循环模型，能够随着每一次新的观测不断更新其状态表示。给定一个图像流，这个不断演化的状态可以在线方式为每一个新输入生成度量尺度的点云图（即每像素的3D点）。这些点云图位于同一个坐标系中，可以累积成一个连贯、密集的场景重建，并随着新图像的到来持续更新。我们的模型称为CUT3R（用于3D重建的连续更新Transformer），它捕捉了真实世界场景的丰富先验：不仅能从图像观测中预测准确的点云图，还能通过探测虚拟的未观测视角来推断场景中未被观察到的部分。我们的方法简单而高度灵活，能够自然地接受长度不一的图像序列，无论是视频流还是无序的照片集合，其中既包含静态内容也包含动态内容。我们在多种3D/4D任务上评估了该方法，并在每一项任务中都展示了具有竞争力或最先进的性能。

📄 论文 | 🌐 项目页面 | 💻 代码（即将发布）

2. Easi3R: 无需训练即可从DUSt3R中估计解耦的运动！

作者: 陈星宇、陈岳、修玉良、安德烈亚斯·盖格、陈安培

摘要

DUSt3R的最新进展使得基于Transformer网络架构和大规模3D数据的直接监督，能够稳健地估计静态场景的密集点云和相机参数。相比之下，现有的4D数据集规模有限且多样性不足，这成为训练高度通用的4D模型的主要瓶颈。这一限制促使传统的4D方法通过在可扩展的动态视频数据上微调3D模型，并结合光流和深度等额外几何先验来实现。而在本工作中，我们采取了相反的路径，提出Easi3R——一种简单却高效的无训练4D重建方法。我们的方法在推理过程中应用注意力机制的适配，从而无需从头开始预训练或对网络进行微调。我们发现，DUSt3R中的注意力层本身就蕴含着关于相机和物体运动的丰富信息。通过仔细解耦这些注意力图，我们实现了精确的动态区域分割、相机位姿估计以及4D密集点云重建。对真实世界动态视频的广泛实验表明，我们轻量级的注意力适配显著优于那些在大量动态数据上训练或微调的现有最先进方法。

📄 论文 | 🌐 项目页面 | 💻 代码

3. ODHSR：基于单目视频的人与场景在线稠密3D重建

📄 论文 | 🌐 项目页面 | 💻 代码（即将上线） | 🤗 演示

高斯泼溅：

从稀疏视角、未经标定的图像中实现逼真场景重建在实际应用中有着迫切需求。尽管目前已有一些成功案例，但现有方法要么依赖于精确的相机参数（内参和外参），要么要求密集采集的图像。为了结合两者的优点并克服各自的不足，我们提出了Dust to Tower（D2T）框架——一个高效且准确的粗细结合流程，可同时优化3D高斯溅射模型及图像的相机位姿，且仅需稀疏、未标定的图像作为输入。我们的核心思想是先快速构建一个粗略的3D模型，然后利用在新视角下经过扭曲和修复后的图像对其进行精细化优化。为此，我们首先设计了一个粗建模块（CCM），该模块利用快速多视图立体匹配模型初始化3D高斯溅射，并恢复初始的相机位姿。随后，我们提出了一种置信度感知深度对齐模块（CADA），用于将粗略深度图中置信度较高的区域与单目深度模型估计的深度进行对齐，从而细化深度信息。接着，我们又引入了一个扭曲图像引导修复模块（WIGI），利用细化后的深度图将训练图像扭曲到新视角，并对因视角变化而产生的“空洞”区域进行修复，以此提供高质量的监督信号，进一步优化3D模型和相机位姿。大量实验及消融研究证实了D2T及其设计选择的有效性，在新视角合成和位姿估计两个任务上均达到了当前最优水平，同时保持了较高的效率。相关代码将公开发布。

📄 论文 | 💻 代码（待发布）

场景理解：

📄 论文 | 💻 代码 | 🌐 项目页面 | 🎮 演示

机器人学：

2024年：

1. 利用3D基础模型统一场景表示与手眼标定

作者: 魏明志、唐浩瞻、张天一、马修·约翰逊-罗伯森

摘要

环境表示是机器人学中的核心挑战之一，也是有效决策的基础。传统上，在使用机械臂搭载的摄像头采集图像之前，用户需要借助特定的外部标记（如棋盘格或AprilTag）对摄像头进行标定。然而，近年来计算机视觉领域的进步催生了3D基础模型。这些大型预训练神经网络能够在极少图像的情况下，即使缺乏丰富的视觉特征，也能快速且准确地建立多视角对应关系。本文主张将3D基础模型整合到配备机械臂搭载RGB摄像头的机器人系统的场景表示方法中。具体而言，我们提出了联合标定与表示方法（JCR）。JCR利用机械臂搭载的RGB摄像头拍摄的图像，无需特定的标定标记，即可同时构建环境表示，并将摄像头相对于机器人末端执行器进行标定。由此生成的3D环境表示与机器人的坐标系对齐，且保持物理尺度的准确性。我们证明了JCR可以仅使用低成本的RGB摄像头连接到机械臂，便能在无需事先标定的情况下构建有效的场景表示。

📄 论文 | 💻 代码（即将发布）

2. 3D 基础模型实现抓取物体的几何与位姿同步估计

作者: 智伟明、唐浩展、张天一、马修·约翰逊-罗伯森

摘要

人类具有非凡的能力，能够将手中的物体用作工具来与环境互动。为了实现这一点，人类会在内部估算手部动作如何影响物体的运动。我们希望赋予机器人这种能力。为此，我们提出了一种方法，可以从外部相机拍摄的 RGB 图像中联合估计机器人抓取的物体的几何形状和位姿。值得注意的是，我们的方法会将估计的几何形状转换到机器人的坐标系中，而无需对外部相机的外参进行标定。我们的方法利用 3D 基础模型——即在海量 3D 视觉数据集上预训练的大规模模型——来生成手中物体的初始估计。这些初始估计不具备物理上正确的尺度，并且处于相机坐标系中。随后，我们构建并高效求解一个坐标对齐问题，以恢复准确的尺度，并将物体的坐标变换到机器人的坐标系中。之后，可以定义从机械臂关节角度到物体上指定点的正向运动学映射。这些映射使得能够在任意配置下估计被抓取物体上的点，从而可以根据抓取物体上的坐标来设计机器人的运动。我们在一台机械臂上持握多种真实世界物体的情况下，对我们的方法进行了实证评估。

📄 论文

位姿估计：

2025：

1. Reloc3r：用于通用、快速且精确视觉定位的相对相机位姿回归大规模训练

作者: 董思言、王树哲、刘绍辉、蔡露露、范庆楠、尤霍·坎纳拉、杨燕超

摘要

视觉定位旨在确定查询图像相对于已知位姿图像数据库的相机位姿。近年来，直接回归相机位姿的深度神经网络因其快速推理能力而日益流行。然而，现有方法要么难以泛化到新场景，要么无法提供准确的位姿估计。为解决这些问题，我们提出了 Reloc3r，这是一个简单而有效的视觉定位框架。它由一个设计精巧的相对位姿回归网络和一个用于绝对位姿估计的极简运动平均模块组成。Reloc3r 在约八百万个已知位姿图像对上进行训练，取得了令人惊讶的好性能和泛化能力。我们在六个公开数据集上进行了大量实验，持续证明了该方法的有效性和效率。它可以实时提供高质量的相机位姿估计，并能泛化到新场景。[代码](https://github.com/ffrivera0/reloc3r)。

📄 论文 | 💻 代码

2. Pos3R：轻松实现未知物体的 6D 位姿估计

作者: 邓伟健、迪伦·坎贝尔、孙春义、张嘉豪、舒巴姆·卡尼特卡尔、马修·沙弗、斯蒂芬·古尔德

摘要

基础模型显著减少了任务特定训练的需求，同时提升了泛化能力。然而，目前最先进的 6D 位姿估计算法要么需要额外的带位姿监督的训练，要么忽视了利用 3D 基础模型所能带来的进步。后者实际上错失了一个重要机会，因为这类模型更擅长预测 3D 一致性的特征，而这些特征对于位姿估计任务至关重要。为弥补这一差距，我们提出了 Pos3R，这是一种仅需一张 RGB 图像即可估计任意物体 6D 位姿的方法，它充分利用了 3D 重建基础模型，无需任何额外训练。我们发现，模板选择是现有方法中的一个关键瓶颈，而使用 3D 模型可以显著缓解这一问题，因为相比 2D 模型，3D 模型更容易区分不同的模板位姿。尽管方法简单，Pos3R 在 BOP 基准测试的七个不同数据集中仍取得了具有竞争力的成绩，其表现可与现有的无微调方法相媲美甚至超越。此外，Pos3R 还能无缝集成渲染对比微调技术，展现出适用于高精度应用的适应性。

📄 论文 | 💻 代码

DUSt3R 用于科学：

2025：

1. CryoFastAR：轻松实现快速冷冻电镜从头重建

作者: 张佳凯、周守臣、戴海钊、刘欣航、王培浩、范志文、裴源、于静怡

摘要

从无序图像中进行位姿估计是 3D 重建、机器人技术和科学成像的基础。最近出现的几何基础模型，如 DUSt3R，能够实现端到端的密集 3D 重建，但在科学成像领域，例如用于近原子级蛋白质重构的冷冻电子显微镜（cryo-EM）中，这些模型尚未得到充分探索。在 cryo-EM 中，从无序粒子图像进行位姿估计和 3D 重建仍然依赖于耗时的迭代优化，这主要是由于低信噪比（SNR）以及对比度传递函数（CTF）引起的畸变等挑战所致。我们推出了 CryoFastAR，这是首个可以直接从 cryo-EM 噪声图像中预测位姿，从而实现快速从头重建的几何基础模型。通过整合多视角特征，并在包含真实噪声和 CTF 调制的大规模模拟 cryo-EM 数据上进行训练，CryoFastAR 提升了位姿估计的准确性和泛化能力。为提高训练稳定性，我们提出了一种渐进式训练策略，先让模型在较简单的条件下提取关键特征，再逐步增加难度以提升鲁棒性。实验表明，CryoFastAR 在合成和真实数据集上均实现了与传统迭代方法相当的质量，同时显著加快了推理速度。

📄 论文

博文

教程视频

致谢

感谢Janusch提供的精彩论文清单awesome-3D-gaussian-splatting，以及Chao Wen提供的Awesome-MVS。本列表在编写过程中参考了这两份资源。

Awesome DUSt3R 快速上手指南

本指南基于 awesome-dust3r 资源列表中的核心项目（DUSt3R 和 MASt3R），帮助开发者快速搭建环境并运行基础的 3D 几何重建任务。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 Windows (WSL2)。macOS 支持有限，主要依赖 Metal 后端，建议优先使用 Linux。
Python 版本: Python 3.8 - 3.10。
GPU: 推荐使用 NVIDIA GPU (显存建议 8GB 以上，处理高分辨率或多视图建议 16GB+)，需安装对应的 CUDA 驱动。
前置依赖:
- Git
- Conda (推荐用于环境管理) 或 venv
- PyTorch (需匹配您的 CUDA 版本)

国内加速提示：建议使用清华源或阿里源加速 Python 包和模型下载。

Pip 镜像：https://pypi.tuna.tsinghua.edu.cn/simple

HuggingFace 镜像：设置环境变量 HF_ENDPOINT=https://hf-mirror.com

安装步骤

以下以官方核心库 DUSt3R 为例进行安装（MASt3R 安装流程类似）。

1. 创建并激活虚拟环境

conda create -n dust3r python=3.9 -y
conda activate dust3r

2. 安装 PyTorch

请根据您的 CUDA 版本选择对应的安装命令（以下为 CUDA 11.8 示例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 若使用国内镜像加速：
# pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

3. 克隆代码库

git clone https://github.com/naver/dust3r.git
cd dust3r

4. 安装项目依赖

pip install -e .

注意：如果在国内网络环境下安装 git+ 开头的依赖失败，建议手动克隆相关子模块或使用镜像源替换 requirements.txt 中的源地址后执行 pip install -r requirements.txt。

5. 配置模型下载加速 (可选但推荐)

首次运行时会自动从 HuggingFace 下载预训练模型。为避免超时，请设置镜像环境变量：

export HF_ENDPOINT=https://hf-mirror.com

基本使用

DUSt3R 的核心功能是从任意图像集合中恢复 3D 点云和相机姿态，无需预先知道相机参数。

最简单的使用示例 (Python API)

创建一个名为 demo.py 的文件，运行以下代码即可对两张图片进行 3D 重建：

import torch
from dust3r.inference import inference
from dust3r.model import AsymmetricCroCo3DStereo
from dust3r.utils.image import load_images

# 1. 加载图片 (替换为您本地的图片路径)
image_paths = ['assets/dust3r_logo.png', 'assets/example2.jpg'] 
images = load_images(image_paths, size=512)

# 2. 加载预训练模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = AsymmetricCroCo3DStereo.from_pretrained("naver/DUSt3R_ViTLarge_BaseDecoder_512_dpt").to(device)

# 3. 执行推理
output = inference([tuple(images)], model, device, batch_size=1, verbose=False)

# 4. 获取结果
# output 是一个字典列表，包含 pointmap (3D 点云), confidence, camera poses 等信息
print("Reconstruction done!")
print(f"Pointmap shape: {output['pointmap'].shape}")
print(f"Confidence map shape: {output['conf'].shape}")

# 如需保存点云为 PLY 文件供可视化软件查看
from dust3r.cloud_opt import global_aligner
from dust3r.post_process import estimate_focal_length

# 简单的全局对齐示例 (针对多视图)
if len(images) > 1:
    scene = global_aligner(output, device=device, mode='global')
    pts3d = scene.get_pts3d()
    # 此处可添加代码将 pts3d 导出为 .ply 文件

命令行快速测试 (如果库支持 CLI)

部分版本提供了简单的脚本入口，可直接运行：

python demo.py --model_name DUSt3R_ViTLarge_BaseDecoder_512_dpt --images assets/dust3r_logo.png assets/example2.jpg --output_dir output_demo

结果查看

运行成功后，您可以在输出目录中找到生成的深度图、点云数据或相机轨迹信息。推荐使用 CloudCompare 或 MeshLab 打开生成的 .ply 文件查看 3D 重建效果。

注：对于 MASt3R (匹配与重建) 或其他衍生项目（如 Fast3R, Light3R-SfM），请参考其各自 GitHub 仓库的 README.md 获取特定的模型权重和微调指令，基础环境配置与上述步骤一致。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|昨天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|2天前

开发框架数据工具其他