Matterport

1.2k 156 较难 1 次阅读 2天前MIT其他

AI 解读由 AI 自动生成，仅供参考

Matterport3D 是一个专为室内环境机器学习任务打造的高质量三维数据集。它利用 Matterport Pro 相机采集了 90 处真实房产的丰富数据，旨在解决算法在复杂室内场景中理解空间结构、识别物体及定位导航的难题。

该数据集不仅提供原始的彩色与深度图像（RGB-D），还包含了高精度的纹理化 3D 网格、建筑平面图、区域划分标注以及详细的物体实例语义标注。基于这些多模态数据，Matterport3D 支持多种基准测试任务，如图像关键点匹配、视角重叠预测、表面法线估计、区域类型分类和语义体素标记，为验证算法性能提供了统一标准。

Matterport3D 特别适合计算机视觉研究人员、AI 开发者以及从事机器人导航、增强现实（AR）和室内设计智能化的专业人士使用。其独特的技术亮点在于将大规模真实世界的扫描数据与精细的语义标注相结合，填补了高质量室内三维训练数据的空白，极大地推动了场景理解技术的发展。需要注意的是，使用该数据需签署协议并通过机构邮箱申请，代码部分则遵循宽松的 MIT 许可证开放共享。

使用场景

某智能家居初创团队正在研发一款能自动识别房间布局并规划扫地机器人路径的 AI 系统，需要大量高质量的室内三维数据来训练算法。

没有 Matterport 时

团队需耗费数周时间实地扫描不同户型，或使用合成数据，导致数据多样性不足且采集成本极高。
缺乏统一的深度图（Depth）与语义标注（如墙体、家具类别），开发人员需手动编写脚本进行繁琐的数据对齐和清洗。
由于缺少精确的相机位姿和纹理网格，训练出的模型在预测表面法线或区域分类时误差较大，机器人常撞墙或迷路。
难以复现学术界的前沿基准测试，无法量化评估算法在“关键点匹配”或“视图重叠预测”等任务上的真实性能。

使用 Matterport 后

直接调用涵盖 90 处真实房产的现成数据集，瞬间获得包含 RGB 图像、深度信息及纹理网格的丰富样本，大幅缩短研发周期。
利用官方提供的预标注数据（如物体实例语义、建筑平面图），团队可跳过数据清洗阶段，直接投入模型训练与调优。
基于高精度的三维场景理解基准任务，算法能快速学会区分地板、墙壁与障碍物，显著提升了机器人在复杂室内的导航鲁棒性。
借助标准化的评测脚本，团队能迅速将自身模型与全球顶尖方案在同一维度下对比，明确优化方向并加速迭代。

Matterport 通过提供大规模、高保真的室内三维实景数据，彻底解决了 AI 空间感知算法从“实验室理论”走向“真实落地”的数据瓶颈。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 中未提供具体的代码运行环境配置（如操作系统、GPU、Python 版本或依赖库）。该仓库主要包含数据集描述、基准任务说明以及用于加载和查看数据的工具代码。获取数据需要签署使用协议并通过机构邮箱发送邮件申请。具体运行需求需查阅仓库内 'code' 目录下的详细文档或脚本。

python未说明

快速开始

Matterport3D

Matterport3d

Matterport3D V1.0 数据集包含使用 Matterport Pro 相机在 90 处房产中采集的数据。

本仓库包含该数据集的原始数据、衍生数据、标注数据，以及用于多种场景理解任务的脚本和模型。

请访问主网站以获取最新信息并浏览数据。

论文

Matterport3D：基于室内环境中的 RGB-D 数据学习

如果您使用了 Matterport3D 的数据或代码，请引用以下文献：

@article{Matterport3D,
  title={{Matterport3D}: Learning from {RGB-D} Data in Indoor Environments},
  author={Chang, Angel and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda},
  journal={International Conference on 3D Vision (3DV)},
  year={2017}
}

数据

该数据集包含多种类型的标注：彩色图像和深度图像、相机位姿、带纹理的 3D 网格、建筑平面图及区域标注、物体实例语义标注。详细信息请参阅数据组织文档。

要下载该数据集，您必须通过签署使用条款协议，并使用您的机构邮箱将其发送至：matterport3d@googlegroups.com，以表示您同意相关条款。随后我们将为您提供数据集的下载权限。

基准任务

我们利用 Matterport3D 数据提出了多项基准任务：图像关键点匹配、视图重叠预测、表面法线估计、区域类型分类以及语义体素标记。详情请参阅 tasks 目录。

工具

我们提供了用于加载和查看数据的代码。详细信息请参阅 code 目录。

许可证

数据根据 Matterport3D 使用条款发布，代码则采用 MIT 许可证发布。

Matterport3D 快速上手指南

Matterport3D 是一个大规模室内场景数据集，包含通过 Matterport Pro 相机捕获的 90 处房产数据。它提供了 RGB-D 图像、相机位姿、纹理 3D 网格、建筑平面图及语义标注等丰富信息，广泛应用于三维视觉、场景理解和机器人导航等研究任务。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：推荐 Linux (Ubuntu 16.04/18.04) 或 macOS。Windows 用户建议使用 WSL2 或 Docker。
Python 版本：Python 3.6 或更高版本。
前置依赖：
- numpy
- scipy
- Pillow (PIL)
- matplotlib
- trimesh (用于加载和查看 3D 网格)
- opencv-python (可选，用于图像处理)

您可以使用 pip 安装基础依赖：

pip install numpy scipy Pillow matplotlib trimesh opencv-python

安装步骤

由于 Matterport3D 主要是一个数据集仓库，"安装"过程主要涉及获取数据访问权限和克隆代码库。

1. 申请数据访问权限

下载数据集前必须签署使用协议：

下载并填写 Terms of Use 表格。
重要：必须使用机构邮箱（如 .edu 或公司域名邮箱）发送签署后的表格至 matterport3d@googlegroups.com。
等待团队回复，您将收到包含下载链接的邮件。
- 注：目前官方未提供公开的中国镜像源，请下载后自行搭建本地存储或使用高速网络环境。

2. 克隆代码库

获取用于加载数据和运行基准任务的工具代码：

git clone https://github.com/niessner/Matterport.git
cd Matterport

3. 配置数据路径

收到下载链接后，下载所需的数据包（通常分为原始数据、标注数据等）。将解压后的数据文件夹放置在项目目录中，或在代码中配置相应的数据路径。建议目录结构如下：

Matterport/
├── code/           # 官方提供的工具代码
├── data/           # 您下载并解压的数据集根目录
│   ├── v1/
│   │   ├── scans/
│   │   └── ...
└── tasks/          # 基准任务脚本

基本使用

以下示例展示如何使用官方提供的 Python 脚本加载并可视化一个简单的 3D 场景网格。

加载并查看 3D 网格

进入 code 目录，使用提供的查看器脚本。假设您已经下载了某个扫描片段（例如 17DRP5sb8fy）：

cd code
python load_mesh.py --path ../data/v1/scans/17DRP5sb8fy/17DRP5sb8fy.obj

注意：具体的脚本文件名可能随仓库更新而变化，请查阅 code 目录下的实际文件列表。如果 load_mesh.py 不存在，通常可以使用 trimesh 库直接在任何 Python 环境中加载：

import trimesh

# 替换为您的实际数据路径
mesh_path = '../data/v1/scans/17DRP5sb8fy/17DRP5sb8fy.obj'

# 加载网格
mesh = trimesh.load(mesh_path)

# 显示网格窗口
mesh.show()

读取深度图与相机位姿

数据集包含每个视角的 RGB 图像、深度图及对应的相机姿态。您可以使用标准的图像库读取图片，并使用 numpy 加载相机参数（通常存储在 .txt 或 .json 文件中）：

import numpy as np
from PIL import Image

# 示例路径
rgb_path = '../data/v1/scans/17DRP5sb8fy/color/1.png'
depth_path = '../data/v1/scans/17DRP5sb8fy/depth/1.png'
pose_path = '../data/v1/scans/17DRP5sb8fy/pose/1.txt'

# 加载图像
rgb_image = Image.open(rgb_path)
depth_image = Image.open(depth_path)

# 加载相机位姿 (4x4 矩阵)
camera_pose = np.loadtxt(pose_path)

print(f"Camera Position: {camera_pose[:3, 3]}")

现在您已经成功配置好环境并可以开始探索 Matterport3D 数据，进行三维重建、语义分割或导航策略的训练与研究。

常见问题

如何获取 Matterport3D 数据集的访问权限或下载脚本？

发送给官方邮箱 (matterport3d@googlegroups.com) 的邮件被退回怎么办？

.house 文件中区域行（'R' 行）末尾的零的数量与文档描述不符（4 个而不是 5 个），这是错误吗？

panorama_to_region.txt 和 .house 文件中的区域分类不一致怎么办？

提供的相机姿态（Camera Pose）文件是基于什么坐标系的？

如何使用 mpview 工具生成分割图像（segmentation image）？

Skybox 的相机姿态文件在哪里可以找到？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|5天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.6k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|1周前

开发框架其他