MVDiffusion

562 29 中等 1 次阅读 2周前图像其他

AI 解读由 AI 自动生成，仅供参考

MVDiffusion 是一款基于扩散模型的开源 AI 工具，专注于生成高质量、视角一致的多视图图像。它核心解决了传统生成模型在创建多张关联图片时，容易出现物体结构变形、视角逻辑混乱或细节不连贯的难题。通过引入独特的“对应感知扩散”（Correspondence-Aware Diffusion）技术，MVDiffusion 能够深刻理解不同视角间的空间对应关系，从而确保生成的图像序列在几何结构和纹理细节上保持高度一致。

该工具功能强大，不仅支持根据文本描述直接生成全景图，还能将单张视角图片智能扩展为 360 度全景视图，甚至能依据深度图条件生成精确的多视角序列。这一特性使其在虚拟现实内容创作、三维场景重建以及游戏资产生成等领域具有极高的应用价值。

MVDiffusion 非常适合计算机视觉研究人员、AI 开发者以及需要高效构建 3D 内容的数字艺术家使用。对于研究者，其开源代码和预训练模型为探索多视图生成机制提供了坚实基础；对于创作者，它能大幅降低从 2D 概念到 3D 全景内容的制作门槛。作为 NeurIPS 2023 的亮点论文成果，MVDiffusion 以严谨的技术创新，为用户提供了可靠且高效的多视图图像生成解决方案。

使用场景

某独立游戏开发者正在为一款第一人称探索游戏快速构建一个风格统一的复古厨房场景，需要生成包含前后左右及角落视角的完整 360 度环境贴图。

没有 MVDiffusion 时

视角一致性差：手动绘制或分次生成不同角度的图片时，家具位置、纹理细节在各视图间无法对齐，导致玩家转动视角时物体“跳跃”或变形。
制作成本高昂：美术人员需反复调整每张图的边缘拼接处，或使用昂贵的 3D 建模软件搭建白模再渲染，耗时数天才能完成一组全景图。
缺乏深度控制：仅凭文本描述难以精确控制场景的空间结构，生成的图像往往透视关系混乱，无法直接用于游戏引擎中的天空盒（Skybox）。
扩展性受限：若需基于某一张现有概念图扩展出其余视角，传统方法几乎无法保持原有画风和几何结构的连贯性。

使用 MVDiffusion 后

原生多视图对应：MVDiffusion 利用对应感知扩散机制，一次性生成 8 张几何结构严格对齐的多视角图像，确保冰箱、岛台等物体在所有角度中位置精准一致。
单图全景外推：开发者只需提供一张厨房草图，MVDiffusion 即可将其智能外推为完整的 360 度全景图，将原本数天的工作量压缩至几分钟。
深度条件约束：通过输入深度图作为条件，MVDiffusion 能生成符合真实透视关系的场景，直接输出可用于 Unity 或 Unreal 引擎的高质量天空盒素材。
无缝插值补全：对于关键帧之间的过渡视角，MVDiffusion 支持基于深度的序列生成与插值，轻松填补视角盲区，保证漫游体验流畅自然。

MVDiffusion 通过解决多视图几何一致性的核心难题，将高保真 3D 场景素材的生产效率提升了数量级。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（基于 Diffusion 模型及 TSDF Fusion 3D 重建需求推断），具体型号和显存大小未说明，需支持 CUDA

内存

未说明

依赖

notes1. 安装依赖需运行 'pip install -r requirements.txt'，具体版本列表未在 README 中直接列出。 2. 需手动下载预训练模型文件（.ckpt）并放置于 'MVDiffusion/weights' 目录。 3. 训练或测试全景生成需下载 Matterport3D 数据集；深度条件生成需下载 ScanNet 数据集。 4. 自定义数据处理涉及将全景图转换为天空盒或透视图像，并使用 BLIP2 生成提示词。 5. 生成深度条件图像序列后，可使用 TSDF Fusion 工具生成带纹理的 3D 网格。

python未说明

torch

transformers

diffusers

accelerate

opencv-python

numpy

Pillow

BLIP2 (LAVIS)

TSDF Fusion

快速开始

MVDiffusion：基于对应感知扩散模型的全息多视角图像生成，（NeurIPS2023，亮点论文）

项目主页 | 论文 | 演示

引用

如果您在研究中使用了我们的工作，请按以下方式引用：

@article{tang2023MVDiffusion,
  title={MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion},
  author={Tang, Shitao and Zhang, Fuayng and Chen, Jiacheng and Wang, Peng and Yasutaka, Furukawa},
  journal={arXiv preprint 2307.01097},
  year={2023}
}

更新：MVDiffusion 现已能够将单视角图像外延生成 360 度全景视图。论文已更新。

安装

通过运行以下命令安装必要的包：

pip install -r requirements.txt

模型库

我们提供了以下基准结果和模型：

请将这些文件放置在 'MVDiffusion/weights' 目录下。

演示

运行以下命令测试演示：

文本条件生成

python demo.py --text "这间厨房是乡村风格与现代设计的迷人融合，中央设有一座由回收木材制成的大岛台，台面为大理石材质，水槽四周环绕着橱柜。岛台左侧矗立着一台不锈钢冰箱，右侧则是一排涂成柔和色调的木质嵌入式橱柜。"

双重条件生成

python demo.py --text_path assets/prompts.txt --image_path assets/outpaint_example.png

数据

全景生成：请从 matterport3D 下载天空盒数据及标签链接。

├── data
    ├── mp3d_skybox
      ├── train.npy
      ├── test.npy
      ├── 5q7pvUzZiYa
        ├──blip3
        ├──matterport_skybox_images
      ├── 1LXtFkjw3qL
      ├── ....

多视角深度条件生成：请从 scannet 下载数据、训练标签以及测试标签。

├── data
    ├── scannet
      ├── train
        ├── scene0435_01
          ├── color
          ├── depth
          ├── intrinsic
          ├── pose
          ├── prompt
          ├── key_frame_0.6.txt
          ├── valid_frames.npy
      ├── test

测试

执行以下脚本进行测试：

sh test_pano.sh: 在 Matterport3D 测试集中生成 8 张多视角全景图像。
sh test_pano_outpaint.sh: 在 Matterport3D 测试集中生成 8 张基于单张图像条件的多视角外延图像。
sh test_depth_fix_frames.sh: 在 ScanNet 测试集中生成 12 张深度条件图像。
sh test_depth_fix_interval.sh: 在 ScanNet 测试集中生成一系列深度条件图像（每 20 帧一张）。
sh test_depth_two_stage.sh: 在 ScanNet 测试集中生成一系列深度条件图像（关键帧），并插值中间帧。

运行 sh test_depth_fix_interval.sh 或 sh test_depth_two_stage.sh 后，您可以使用 TSDF 融合来获取带纹理的网格模型。

训练

执行以下脚本进行训练：

sh train_pano.sh: 训练全景图像生成模型。
sh train_pano_outpaint.sh: 训练全景图像外延模型。
sh train_depth.sh: 训练深度条件生成模型。

自定义数据

全景生成：

使用提供的工具 Equirec2Perspec，将全景图转换为 6 张天空盒图像。您将得到左、右、前、后、上、下六张图像。
将全景图进一步转换为 8 张透视图像，每张图像捕捉 45 度水平视角。其中四张图像将与天空盒图像重叠，分别是左、右、前、后视图。
获取透视图像后，可使用 BLIP2 为其生成提示词。

多视角深度到图像生成：

使用 Scannet 格式：通常应遵循 Scannet 数据集的结构和格式。
使用 BLIP2 为每张透视图像生成提示词。

许可证

本项目采用 MIT 许可证条款授权。

联系方式

如有任何问题，请随时联系 shitaot@sfu.ca。

MVDiffusion 快速上手指南

MVDiffusion 是一个基于扩散模型的多视图图像生成工具，支持从文本生成全景图、单图扩展为 360 度全景，以及基于深度图生成多视角图像。

环境准备

操作系统: Linux (推荐 Ubuntu 18.04+)
Python: 3.8 或更高版本
GPU: 建议使用支持 CUDA 的 NVIDIA 显卡（显存建议 16GB+ 以运行全景生成任务）
依赖管理: pip

安装步骤

克隆项目代码（假设已获取源码目录）：
```
cd MVDiffusion
```

安装 Python 依赖包：

pip install -r requirements.txt

提示：国内用户可使用清华源加速安装：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

下载预训练模型：根据需求从 Model Zoo 下载对应的 .ckpt 文件（如 pano.ckpt, depth_gen.ckpt 等），并将其放入项目根目录下的 MVDiffusion/weights 文件夹中。若该文件夹不存在，请手动创建。

基本使用

1. 文本生成全景图 (Text-conditioned Generation)

运行以下命令，根据文本描述生成 8 张不同视角的全景图像：

python demo.py --text "This kitchen is a charming blend of rustic and modern, featuring a large reclaimed wood island with marble countertop, a sink surrounded by cabinets. To the left of the island, a stainless-steel refrigerator stands tall. To the right of the sink, built-in wooden cabinets painted in a muted."

2. 单图扩展全景 (Dual-conditioned Outpainting)

如果你有一张参考图片并希望将其扩展为 360 度全景，可以使用双条件生成模式：

python demo.py --text_path assets/prompts.txt --image_path assets/outpaint_example.png

注：需确保 assets/prompts.txt 中包含对应的文本提示，且 assets/outpaint_example.png 为输入图像。

3. 基于深度图生成 (Depth-conditioned Generation)

若需利用深度信息控制生成过程，请确保已下载深度相关模型及 ScanNet 格式数据，并运行相应的测试脚本（如 sh test_depth_fix_frames.sh）。

生成结果将保存在默认输出目录中，后续可结合 TSDF fusion 工具重建带纹理的 3D 网格。

常见问题

推理时全景图生成的帧间对应关系（correspondence）是如何获取的？

模型是否支持以图像作为提示（Image Prompt）进行生成？

是否计划发布基于 Stable Diffusion v1.5 的 MVDiffusion 检查点？

基线 Stable Diffusion（全景/透视）的训练代码是否已发布？

如何将生成的多张图像拼接成 360 度全景图？最少需要多少张图像？

将输出结果输入 TSDF 进行网格重建时出现对齐问题，如何解决？

全景单应性矩阵（Homography Matrix）的计算公式是否有误？

评估代码是否发布？如何复现论文中的评价指标（FID, IS, CS）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像