[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-facebookresearch--mvdust3r":3,"similar-facebookresearch--mvdust3r":99},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":19,"owner_email":19,"owner_twitter":19,"owner_website":20,"owner_url":21,"languages":22,"stars":39,"forks":40,"last_commit_at":41,"license":42,"difficulty_score":43,"env_os":44,"env_gpu":45,"env_ram":46,"env_deps":47,"category_tags":55,"github_topics":19,"view_count":58,"oss_zip_url":19,"oss_zip_packed_at":19,"status":59,"created_at":60,"updated_at":61,"faqs":62,"releases":98},10193,"facebookresearch\u002Fmvdust3r","mvdust3r","Open source impl of **MV-DUSt3R+ Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds** from Meta Reality Labs. Project page https:\u002F\u002Fmv-dust3rp.github.io\u002F","mvdust3r 是由 Meta Reality Labs 开源的先进三维重建工具，源自 CVPR 2025 口头报告论文。它能在短短 2 秒内，仅凭少量稀疏视角的 RGB 图片，一步完成高质量的多视图三维场景重建。\n\n传统三维重建往往需要复杂的相机姿态预校准或多阶段处理，流程繁琐且耗时。mvdust3r 彻底解决了这一痛点，实现了“无姿态”（Pose-free）的单阶段重建。用户无需提供相机位置信息，只需输入多张图片或一段视频，系统即可自动推算出相对相机姿态并生成稠密点云。此外，它还支持新视角合成，为后续应用提供更多可能。\n\n这款工具特别适合计算机视觉研究人员、3D 开发者以及需要快速构建数字孪生场景的设计师使用。对于希望探索前沿几何深度学习技术的极客，mvdust3r 也提供了完整的训练与评估代码。\n\n其核心技术亮点在于基于 DUSt3R 架构的深度优化，通过混合多阶段训练策略，显著提升了对复杂多房间场景的理解能力。虽然官方演示界面因加载开销略慢于理论速度，但其底层推理效率极高，代表了当前稀疏视图重建领域的顶尖水平。无论是学术研究还是原型开发，mvdust3r 都能为用户提供高效、","mvdust3r 是由 Meta Reality Labs 开源的先进三维重建工具，源自 CVPR 2025 口头报告论文。它能在短短 2 秒内，仅凭少量稀疏视角的 RGB 图片，一步完成高质量的多视图三维场景重建。\n\n传统三维重建往往需要复杂的相机姿态预校准或多阶段处理，流程繁琐且耗时。mvdust3r 彻底解决了这一痛点，实现了“无姿态”（Pose-free）的单阶段重建。用户无需提供相机位置信息，只需输入多张图片或一段视频，系统即可自动推算出相对相机姿态并生成稠密点云。此外，它还支持新视角合成，为后续应用提供更多可能。\n\n这款工具特别适合计算机视觉研究人员、3D 开发者以及需要快速构建数字孪生场景的设计师使用。对于希望探索前沿几何深度学习技术的极客，mvdust3r 也提供了完整的训练与评估代码。\n\n其核心技术亮点在于基于 DUSt3R 架构的深度优化，通过混合多阶段训练策略，显著提升了对复杂多房间场景的理解能力。虽然官方演示界面因加载开销略慢于理论速度，但其底层推理效率极高，代表了当前稀疏视图重建领域的顶尖水平。无论是学术研究还是原型开发，mvdust3r 都能为用户提供高效、便捷的三维感知解决方案。","\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Ch1>[CVPR 2025 \u003Cspan style=\"color:red\">Oral\u003C\u002Fspan>] MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds\u003C\u002Fh1>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06974\">Paper\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fmv-dust3rp.github.io\u002F\">Website\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=LBvnuKQ8Rso\">Video\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Ftrajectories\"> Data \u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Fcheckpoints\"> Checkpoints \u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n[Zhenggang Tang](https:\u002F\u002Frecordmp3.github.io), [Yuchen Fan](https:\u002F\u002Fychfan.github.io\u002F), [Dilin Wang](https:\u002F\u002Fwdilin.github.io\u002F), [Hongyu Xu](https:\u002F\u002Fhyxu2006.github.io\u002F),[Rakesh Ranjan](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Frakesh-r-3848538), [Alexander Schwing](https:\u002F\u002Fwww.alexander-schwing.de\u002F), [Zhicheng Yan](https:\u002F\u002Fsites.google.com\u002Fview\u002Fzhicheng-yan)\n\n\u003Cdiv class=\"content has-text-centered\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_mvdust3r_readme_4245f180da93.png\" class=\"interpolation-image\"\u002F> \u003C\u002Fdiv>\n\n## TL;DR\n\nMulti-view Pose-free RGB-only 3D reconstruction in one step.\nAlso supports for new view synthesis and relative pose estimation.\n\nPlease see more visual results and video on our [website](https:\u002F\u002Fmv-dust3rp.github.io\u002F)!\n\n## Update Logs\n\n- 2025-5-10: data generation code for Habitat-Sim (HM3D, Gibson, MP3D).\n- 2025-1-30: data generation code of ScanNet.\n- 2025-1-1: A gradio demo, all checkpoints, training\u002Fevaluation code and training\u002Fevaluation trajectories of ScanNet.\n- 2025-1-8: demo view selection improved, better quality for multiple rooms.\n\n## Installation\n\nWe only test this on a linux server and CUDA=12.4\n\n1. Clone MV-DUSt3R+\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r.git\ncd mvdust3r\n```\n\n2. Install the virtual environment under anaconda.\n\n```bash\n.\u002Finstall.sh\n```\n\n(version of pytorch and pytorch3d should be changed if you need other CUDA version.)\n\n3. (Optional for faster runtime) Compile the cuda kernels for RoPE (the same as [DUSt3R and Croco](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r?tab=readme-ov-file#installation))\n\n```bash\ncd croco\u002Fmodels\u002Fcurope\u002F\npython setup.py build_ext --inplace\ncd ..\u002F..\u002F..\u002F\n```\n\n## Checkpoints\n\nPlease download checkpoints [here](https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Fcheckpoints) to the folder [checkpoints](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fcheckpoints) before trying demo and evaluation.\n\n|     Name    | Description |\n|-------------|-------------|\n| MVD.pth | MV-DUSt3R |\n| MVDp_s1.pth | MV-DUSt3R+ trained on stage 1 (8 views) |\n| MVDp_s2.pth | MV-DUSt3R+ trained on stage 1 then stage 2 (mixed 4~12 views) |\n|DUSt3R_ViTLarge_BaseDecoder_224_linear.pth | the pretrained [DUSt3R model](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r?tab=readme-ov-file#checkpoints). Our training is finetuned upon it |\n\n## Gradio Demo\n\n```bash\npython demo.py --weights .\u002Fcheckpoints\u002F{CHECKPOINT}\n```\n\nYou will see the UI like this:\n\n\u003Cdiv class=\"content has-text-centered\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_mvdust3r_readme_b4a26778bded.png\" class=\"interpolation-image\"\u002F> \u003C\u002Fdiv>\n\nThe input can be multiple images (we do not support a single image) or a video.\nYou will see the pointcloud along with predicted camera poses (3DGS visualization as future work).\n\nThe `confidence threshold` controls how many low confidence points should be filtered.\nThe `No. of video frames` is only valid when the input is a video and controls how many frames are uniformly selected from the video for reconstruction.\n\nNote that the demo's inference is slower than what claimed in the paper due to overheads of gradio and model loading. If you need faster runtime, please use our evaluation code.\n\nsome [tips](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F5#issuecomment-2578380545) to improve quality especially for multiple rooms.\n\n\n\n## Data\n\nWe use five data for training and test: [ScanNet](https:\u002F\u002Fgithub.com\u002FScanNet\u002FScanNet), [ScanNet++](https:\u002F\u002Fkaldir.vc.in.tum.de\u002Fscannetpp\u002F), [HM3D](https:\u002F\u002Faihabitat.org\u002Fdatasets\u002Fhm3d\u002F), [Gibson](https:\u002F\u002Fgithub.com\u002FStanfordVL\u002FGibsonEnv\u002Fblob\u002Fmaster\u002Fgibson\u002Fdata\u002FREADME.md), [MP3D](https:\u002F\u002Fniessner.github.io\u002FMatterport\u002F). Please go to their website to sign contract, download and extract them in the folder [data](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fdata). [Here](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fdata) are more instructions.\n\nCurrently we released the [trajectories](https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Ftrajectories) of ScanNet for evaluation. Please download it to the folder [trajectories](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Ftrajectories).\n\nWe also open-sourced the code to generate train and evaluation trajectories for ScanNet and all datasets in Habitat-Sim (HM3D, Gibson, MP3D). please check [here]. (https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts\u002Ftuple_gen)\n\n## Evaluation\n\nHere we have the following scripts for evaluation on ScanNet in the folder [scripts](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts):\n\n\n|     Name    | Description |\n|-------------|-------------|\n| test_mvd.sh | MV-DUSt3R |\n| test_mvdp_stage1.sh | MV-DUSt3R+ trained on stage 1 (8 views) |\n| test_mvdp_stage2.sh | MV-DUSt3R+ trained on stage 1 then stage 2 (mixed 4~12 views) |\n\nThey should reproduce the [paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.06974)'s result on ScanNet (Tab. 2, 3, 4, S2, S3, and S5).\n\n## Training\n\nWe are still preparing for the releasing of trajectories of training data and code of trajectory generation. Here we also put training scripts in the folder [scripts](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts), which can provide more information about our training.\n\n\n|     Name    | Description |\n|-------------|-------------|\n| train_mvd.sh | MV-DUSt3R, loaded from DUSt3R to finetune |\n| train_mvdp_stage1.sh | MV-DUSt3R+ training on stage 1 (8 views), loaded from DUSt3R to finetune |\n| train_mvdp_stage2.sh | MV-DUSt3R+ trained on stage 1 finetuning on stage 2 (mixed 4~12 views) |\n\n## Citation\n\n```bibtex\n@article{tang2024mv,\n  title={MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds},\n  author={Tang, Zhenggang and Fan, Yuchen and Wang, Dilin and Xu, Hongyu and Ranjan, Rakesh and Schwing, Alexander and Yan, Zhicheng},\n  journal={arXiv preprint arXiv:2412.06974},\n  year={2024}\n}\n```\n\n## License\n\nWe use [CC BY-NC 4.0](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002FLICENSE)\n\n## Acknowledgement\n\nMany thanks to:\n- [DUSt3R](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r) for the codebase.\n","\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n  \u003Ch1>[CVPR 2025 \u003Cspan style=\"color:red\">Oral\u003C\u002Fspan>] MV-DUSt3R+: 基于稀疏视角的单阶段场景重建，2秒内完成\u003C\u002Fh1>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06974\">论文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fmv-dust3rp.github.io\u002F\">官网\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=LBvnuKQ8Rso\">视频\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Ftrajectories\"> 数据 \u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Fcheckpoints\"> 检查点 \u003C\u002Fa>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n[唐正刚](https:\u002F\u002Frecordmp3.github.io), [范宇辰](https:\u002F\u002Fychfan.github.io\u002F), [王迪林](https:\u002F\u002Fwdilin.github.io\u002F), [徐宏宇](https:\u002F\u002Fhyxu2006.github.io\u002F),[拉凯什·兰詹](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Frakesh-r-3848538), [亚历山大·施温格](https:\u002F\u002Fwww.alexander-schwing.de\u002F), [严志成](https:\u002F\u002Fsites.google.com\u002Fview\u002Fzhicheng-yan)\n\n\u003Cdiv class=\"content has-text-centered\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_mvdust3r_readme_4245f180da93.png\" class=\"interpolation-image\"\u002F> \u003C\u002Fdiv>\n\n## 简要概述\n\n多视角、无姿态约束的纯RGB图像单步3D重建。同时支持新视图合成和相对位姿估计。\n\n更多可视化结果和视频请访问我们的[官网](https:\u002F\u002Fmv-dust3rp.github.io\u002F)！\n\n## 更新日志\n\n- 2025-5-10: Habitat-Sim（HM3D、Gibson、MP3D）的数据生成代码。\n- 2025-1-30: ScanNet的数据生成代码。\n- 2025-1-1: ScanNet的Gradio演示、所有检查点、训练\u002F评估代码以及训练\u002F评估轨迹。\n- 2025-1-8: 改进了演示中的视图选择，提升了多房间场景的质量。\n\n## 安装\n\n我们仅在Linux服务器上进行了测试，CUDA版本为12.4。\n\n1. 克隆MV-DUSt3R+\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r.git\ncd mvdust3r\n```\n\n2. 在Anaconda环境下安装虚拟环境。\n\n```bash\n.\u002Finstall.sh\n```\n\n（如果你需要其他CUDA版本，请相应调整PyTorch和PyTorch3D的版本。）\n\n3. （可选，以提升运行速度）编译RoPE的CUDA核函数（与[DUSt3R和Croco](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r?tab=readme-ov-file#installation)相同）。\n\n```bash\ncd croco\u002Fmodels\u002Fcurope\u002F\npython setup.py build_ext --inplace\ncd ..\u002F..\u002F..\u002F\n```\n\n## 检查点\n\n请先将检查点[下载到这里](https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Fcheckpoints)，并放置到文件夹[checkpoints](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fcheckpoints)，然后再尝试演示和评估。\n\n|     名称    | 描述 |\n|-------------|-------------|\n| MVD.pth | MV-DUSt3R |\n| MVDp_s1.pth | 在第一阶段（8个视角）训练的MV-DUSt3R+ |\n| MVDp_s2.pth | 先在第一阶段、再在第二阶段（混合4~12个视角）训练的MV-DUSt3R+ |\n|DUSt3R_ViTLarge_BaseDecoder_224_linear.pth | 预训练的[DUSt3R模型](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r?tab=readme-ov-file#checkpoints)。我们的训练是在其基础上进行微调的 |\n\n## Gradio演示\n\n```bash\npython demo.py --weights .\u002Fcheckpoints\u002F{CHECKPOINT}\n```\n\n你将会看到如下界面：\n\n\u003Cdiv class=\"content has-text-centered\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_mvdust3r_readme_b4a26778bded.png\" class=\"interpolation-image\"\u002F> \u003C\u002Fdiv>\n\n输入可以是多张图片（不支持单张图片）或视频。\n你将看到点云以及预测的相机位姿（未来计划实现3DGS可视化）。\n\n`置信度阈值`用于控制过滤掉多少低置信度的点。\n`视频帧数`仅在输入为视频时有效，它决定了从视频中均匀选取多少帧来进行重建。\n\n请注意，由于Gradio和模型加载的开销，演示的推理速度会比论文中声称的慢。如果需要更快的运行速度，请使用我们的评估代码。\n\n一些[技巧](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F5#issuecomment-2578380545)可以帮助提升质量，尤其是在处理多房间场景时。\n\n\n\n## 数据\n\n我们用于训练和测试的数据有五种：[ScanNet](https:\u002F\u002Fgithub.com\u002FScanNet\u002FScanNet), [ScanNet++](https:\u002F\u002Fkaldir.vc.in.tum.de\u002Fscannetpp\u002F), [HM3D](https:\u002F\u002Faihabitat.org\u002Fdatasets\u002Fhm3d\u002F), [Gibson](https:\u002F\u002Fgithub.com\u002FStanfordVL\u002FGibsonEnv\u002Fblob\u002Fmaster\u002Fgibson\u002Fdata\u002FREADME.md), [MP3D](https:\u002F\u002Fniessner.github.io\u002FMatterport\u002F)。请前往各自官网签订合同、下载并解压到文件夹[data](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fdata)中。[这里](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fdata)有更详细的说明。\n\n目前我们发布了ScanNet的[轨迹](https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Ftrajectories)，可用于评估。请将其下载到文件夹[trajectories](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Ftrajectories)中。\n\n我们还开源了用于生成ScanNet以及Habitat-Sim中所有数据集（HM3D、Gibson、MP3D）的训练和评估轨迹的代码，请查看[这里]。（https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts\u002Ftuple_gen）\n\n## 评估\n\n我们在文件夹[scripts](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts)中提供了以下用于在ScanNet上进行评估的脚本：\n\n\n|     名称    | 描述 |\n|-------------|-------------|\n| test_mvd.sh | MV-DUSt3R |\n| test_mvdp_stage1.sh | 在第一阶段（8个视角）训练的MV-DUSt3R+ |\n| test_mvdp_stage2.sh | 先在第一阶段、再在第二阶段（混合4~12个视角）训练的MV-DUSt3R+ |\n\n这些脚本应该能够复现论文（https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.06974）在ScanNet上的结果（表2、3、4、S2、S3和S5）。\n\n## 训练\n\n我们仍在准备发布训练数据的轨迹以及轨迹生成代码。在此我们也把训练脚本放在了文件夹[scripts](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002Fscripts)中，它们可以提供更多关于我们的训练过程的信息。\n\n\n|     名称    | 描述 |\n|-------------|-------------|\n| train_mvd.sh | MV-DUSt3R，从DUSt3R加载后进行微调 |\n| train_mvdp_stage1.sh | MV-DUSt3R+在第一阶段（8个视角）训练，从DUSt3R加载后进行微调 |\n| train_mvdp_stage2.sh | MV-DUSt3R+先在第一阶段微调，再在第二阶段（混合4~12个视角）训练 |\n\n## 引用\n\n```bibtex\n@article{tang2024mv,\n  title={MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds},\n  author={Tang, Zhenggang and Fan, Yuchen and Wang, Dilin and Xu, Hongyu and Ranjan, Rakesh and Schwing, Alexander and Yan, Zhicheng},\n  journal={arXiv preprint arXiv:2412.06974},\n  year={2024}\n}\n```\n\n## 许可证\n\n我们采用[CC BY-NC 4.0](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Ftree\u002Fmain\u002FLICENSE)\n\n## 致谢\n\n非常感谢：\n- [DUSt3R](https:\u002F\u002Fgithub.com\u002Fnaver\u002Fdust3r) 提供的代码库。","# MV-DUSt3R+ 快速上手指南\n\nMV-DUSt3R+ 是一个基于单阶段的稀疏视图 3D 场景重建工具，仅需 2 秒即可从多视角 RGB 图像中重建出带相机位姿的点云，并支持新视角合成。\n\n## 环境准备\n\n- **操作系统**: Linux (仅在 Linux 服务器上测试通过)\n- **GPU**: NVIDIA GPU，支持 CUDA 12.4\n- **依赖管理**: Anaconda\n- **前置知识**: 熟悉 Python 虚拟环境管理与 Git 操作\n\n> **注意**：若需使用其他 CUDA 版本，请自行调整 `install.sh` 中的 PyTorch 和 PyTorch3D 版本。\n\n## 安装步骤\n\n### 1. 克隆项目代码\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r.git\ncd mvdust3r\n```\n\n### 2. 创建并激活虚拟环境\n\n```bash\n.\u002Finstall.sh\n```\n\n该脚本会自动创建 Conda 环境并安装所需依赖。\n\n### 3. （可选）编译 CUDA 内核以加速推理\n\n为提升运行速度，可编译 RoPE 相关的 CUDA 内核（参考 DUSt3R 项目）：\n\n```bash\ncd croco\u002Fmodels\u002Fcurope\u002F\npython setup.py build_ext --inplace\ncd ..\u002F..\u002F..\u002F\n```\n\n### 4. 下载预训练模型\n\n从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FZhenggang\u002FMV-DUSt3R\u002Ftree\u002Fmain\u002Fcheckpoints) 下载以下检查点文件，并放入项目根目录的 `checkpoints\u002F` 文件夹中：\n\n- `MVD.pth`：MV-DUSt3R 模型\n- `MVDp_s1.pth`：MV-DUSt3R+ Stage 1（8 视图）\n- `MVDp_s2.pth`：MV-DUSt3R+ Stage 2（4~12 混合视图）\n- `DUSt3R_ViTLarge_BaseDecoder_224_linear.pth`：基础预训练模型（用于微调）\n\n## 基本使用\n\n启动 Gradio 交互式演示界面：\n\n```bash\npython demo.py --weights .\u002Fcheckpoints\u002FMVDp_s2.pth\n```\n\n启动后将在浏览器中打开 UI 界面，支持以下输入：\n\n- 多张 RGB 图像（不支持单图）\n- 视频文件（将自动均匀采样指定帧数）\n\n界面功能说明：\n\n- **Confidence threshold**：过滤低置信度点云点的阈值\n- **No. of video frames**：仅对视频输入有效，控制用于重建的采样帧数\n\n输出结果包括：\n\n- 重建的 3D 点云\n- 预测的相机位姿\n\n> **提示**：Gradio 演示因加载开销较大，推理速度慢于论文声称的 2 秒。如需高性能推理，请使用官方评估脚本。","某建筑科技公司的现场工程师正急需将一套手持相机拍摄的稀疏房间视频，快速转化为可用于虚拟现实（VR）看房的高精度 3D 场景模型。\n\n### 没有 mvdust3r 时\n- **流程繁琐耗时**：传统方案需先运行 SfM 算法估算相机位姿，再单独进行稠密重建，整个流水线往往需要数小时甚至更久才能出结果。\n- **对数据要求苛刻**：必须保证拍摄视频有极高的重叠率和稳定的运动轨迹，一旦画面模糊或视角跨度大，位姿估计极易失败导致重建中断。\n- **多房间处理困难**：面对包含多个连通房间的复杂户型，现有工具常因全局优化失败而产生严重的“漂移”或模型断裂，需人工反复干预修复。\n- **硬件门槛高**：为了在可接受时间内完成计算，通常依赖昂贵的高性能图形工作站，难以在普通笔记本或边缘设备上部署。\n\n### 使用 mvdust3r 后\n- **单阶段秒级重建**：mvdust3r 实现了端到端的单阶段重建，无需预计算相机位姿，仅用 2 秒即可从稀疏视角直接生成完整点云，效率提升百倍。\n- **鲁棒性极强**：即使输入的是手持拍摄的非专业视频，存在快速移动或视角稀疏的情况，mvdust3r 也能凭借强大的几何先验稳定输出高质量模型。\n- **复杂场景自适应**：针对多房间户型，mvdust3r 能自动处理大范围视角变化，保持全局结构一致性，彻底消除了模型拼接错位的问题。\n- **部署灵活轻量**：得益于高效的推理架构，mvdust3r 可在标配 CUDA 环境的普通服务器上流畅运行，大幅降低了现场即时建模的算力成本。\n\nmvdust3r 通过将复杂的三维重建压缩为单次推理，让实时、高精度的稀疏视角场景数字化真正成为了可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_mvdust3r_426e8c3a.png","facebookresearch","Meta Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffacebookresearch_449342bd.png","",null,"https:\u002F\u002Fopensource.fb.com","https:\u002F\u002Fgithub.com\u002Ffacebookresearch",[23,27,31,35],{"name":24,"color":25,"percentage":26},"Python","#3572A5",94.4,{"name":28,"color":29,"percentage":30},"Shell","#89e051",4.8,{"name":32,"color":33,"percentage":34},"Cuda","#3A4E3A",0.5,{"name":36,"color":37,"percentage":38},"C++","#f34b7d",0.3,585,24,"2026-04-20T03:43:37","NOASSERTION",4,"Linux","必需 NVIDIA GPU，CUDA 12.4（官方仅在此版本测试），需支持编译 CUDA 内核以加速运行","未说明",{"notes":48,"python":49,"dependencies":50},"官方仅在 Linux 服务器和 CUDA 12.4 环境下测试。若使用其他 CUDA 版本，需手动调整 PyTorch 和 PyTorch3D 的版本。可选步骤：编译 RoPE 的 CUDA 内核以提升推理速度。输入不支持单张图片，需多张图像或视频。演示程序因 Gradio 开销推理速度慢于论文宣称，追求速度请使用评估代码。","未说明 (需通过 Anaconda 安装)",[51,52,53,54],"torch","pytorch3d","gradio","croco",[56,57],"图像","其他",2,"ready","2026-03-27T02:49:30.150509","2026-04-20T21:05:55.909768",[63,68,73,78,83,88,93],{"id":64,"question_zh":65,"answer_zh":66,"source_url":67},45745,"在多房间场景或长序列图像中，重建质量下降（后半部分点云混乱）怎么办？","这是由误差累积导致的。建议采取以下策略优化：\n1. **选择中心视角作为参考帧**：默认使用第一帧作为参考，建议将覆盖区域最广或位于场景中心的图像移至首位作为参考视图。\n2. **分布式选择参考视图**：不要仅依赖单一参考路径，尝试将其他路径的参考视图均匀分布在场景周围。\n3. **结合全局优化**：虽然本方法速度快但可能存在抖动，若对精度要求高，可结合 COLMAP 等进行全局光束法平差（Bundle Adjustment），或者顺序结合 Dust3R\u002FMast3R 使用以获得更好结果。\n4. **自定义启发式选择**：可根据置信度图（confidence map）设计自己的视图选择逻辑，修改 demo.py 来选择置信度最高的几个视图作为参考。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F5",{"id":69,"question_zh":70,"answer_zh":71,"source_url":72},45746,"如何将生成的点云和相机参数导出为 COLMAP 格式以供其他工具（如 3DGS, Instant-NGP）使用？","MV-DUSt3R 生成的相机参数本质上已经是 COLMAP 格式（无需像某些方法那样对 c2w[:3, 1:3] 乘以 -1 进行翻转）。\n导出方法有两种：\n1. **直接读取保存的参数**：在 3DGS 的 dataset_readers 中修改 `readCamerasFromTransforms` 函数，直接读取保存的 `c2ws` (相机外参) 和 `f` (焦距)。\n2. **转换二进制文件**：利用网络上的工具函数将内外参转换为 COLMAP 所需的 binary bin 文件。\n注意：如果在 Instant-NGP 中发现相机方向反转，请检查是否错误地应用了坐标轴翻转操作，原始输出通常不需要此操作。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F32",{"id":74,"question_zh":75,"answer_zh":76,"source_url":77},45747,"为什么在某些场景（如户外、物体中心、人体）下，MV-DUSt3R 的点云效果不如原版 Dust3R？","这是因为当前的 MV-DUSt3R 模型仅在**合成室内数据集**上进行了训练，导致其在户外、以物体为中心或人体等场景下的泛化能力不足。原版 Dust3R 可能在这些领域有更广泛的数据训练。开发团队计划在未来使用更多数据训练新模型以提升这些场景的表现，目前建议在上述非室内场景优先使用原版 Dust3R 或 Mast3R。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F38",{"id":79,"question_zh":80,"answer_zh":81,"source_url":82},45748,"如何为自定义数据集（如 ScanNet）生成训练所需的轨迹（trajectories）？","可以参考官方提供的预处理脚本 `datasets_preprocess\u002Fscannet_traj_gen.py` 来了解轨迹生成逻辑。\n关于关键参数：\n1. **距离阈值 (t_c)**：单位为**米 (meter)**。例如论文推荐的 0.0015 即指 0.0015 米。\n2. **重叠率**：连续视图之间通常有较大的重叠。\n3. **加速计算**：如果生成过程太慢，可以使用较低分辨率的点云进行最近邻搜索，或者采用深度投影再反投影的方法代替直接的点云最近邻计算。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F18",{"id":84,"question_zh":85,"answer_zh":86,"source_url":87},45749,"该方法是否支持人体数据集或高分辨率输入？","目前主要瓶颈在于**低分辨率**限制，导致在人体等细节丰富或非刚性物体上表现不佳。虽然有用户询问是否可以通过减少参考视图数量来重新训练以支持 512 分辨率，但目前官方尚未发布专门针对人体数据集训练的模型版本。如有后续进展，维护者表示会另行通知。当前建议谨慎用于人体场景。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F24",{"id":89,"question_zh":90,"answer_zh":91,"source_url":92},45750,"是否支持导出 Gaussian Splatting (GS) 格式的文件？","目前官方演示版本主要支持导出点云 (.glb) 文件。维护者表示由于带宽限制，暂时无法提供官方的 GS 格式导出功能，但欢迎社区贡献。\n**替代方案**：用户可以参考类似项目（如 splat3r）的导出代码，自行编写脚本提取高斯参数并保存为 .ply 文件。具体可参考 `splat3r` 仓库中的 `utils\u002Fexport.py` 实现逻辑，提取所有高斯球参数并格式化输出。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F27",{"id":94,"question_zh":95,"answer_zh":96,"source_url":97},45751,"如果已知相机参数（如稀疏静态相机设置），应该如何运行 MV-DUSt3R+？","目前 MV-DUSt3R+ 的设计重点在于无需已知相机参数的端到端重建，并未内置直接利用已知相机参数跳过姿态估计的流程。若要利用已知参数，可能需要对代码进行非平凡的设计修改或重新训练以适应预设相机参数的输入。对于已知相机参数的场景，建议评估是否直接使用传统的 SfM 流程或其他支持已知内参的模型更为合适。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmvdust3r\u002Fissues\u002F8",[],[100,112,121,130,138,146],{"id":101,"name":102,"github_repo":103,"description_zh":104,"stars":105,"difficulty_score":106,"last_commit_at":107,"category_tags":108,"status":59},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[109,110,56,111],"Agent","开发框架","数据工具",{"id":113,"name":114,"github_repo":115,"description_zh":116,"stars":117,"difficulty_score":58,"last_commit_at":118,"category_tags":119,"status":59},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,"2026-04-19T23:22:26",[111,110,109,56,120],"插件",{"id":122,"name":123,"github_repo":124,"description_zh":125,"stars":126,"difficulty_score":106,"last_commit_at":127,"category_tags":128,"status":59},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[109,129,120,110,56],"语言模型",{"id":131,"name":132,"github_repo":133,"description_zh":134,"stars":135,"difficulty_score":106,"last_commit_at":136,"category_tags":137,"status":59},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[110,56,109],{"id":139,"name":140,"github_repo":141,"description_zh":142,"stars":143,"difficulty_score":58,"last_commit_at":144,"category_tags":145,"status":59},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[110,56,109],{"id":147,"name":148,"github_repo":149,"description_zh":150,"stars":151,"difficulty_score":58,"last_commit_at":152,"category_tags":153,"status":59},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[120,109,56,110]]