[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-Tangshitao--MVDiffusion":3,"similar-Tangshitao--MVDiffusion":99},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":20,"owner_email":21,"owner_twitter":18,"owner_website":18,"owner_url":22,"languages":23,"stars":32,"forks":33,"last_commit_at":34,"license":18,"difficulty_score":35,"env_os":36,"env_gpu":37,"env_ram":36,"env_deps":38,"category_tags":50,"github_topics":18,"view_count":53,"oss_zip_url":18,"oss_zip_packed_at":18,"status":54,"created_at":55,"updated_at":56,"faqs":57,"releases":98},3705,"Tangshitao\u002FMVDiffusion","MVDiffusion","MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion, NeurIPS 2023 (spotlight)","MVDiffusion 是一款基于扩散模型的开源 AI 工具，专注于生成高质量、视角一致的多视图图像。它核心解决了传统生成模型在创建多张关联图片时，容易出现物体结构变形、视角逻辑混乱或细节不连贯的难题。通过引入独特的“对应感知扩散”（Correspondence-Aware Diffusion）技术，MVDiffusion 能够深刻理解不同视角间的空间对应关系，从而确保生成的图像序列在几何结构和纹理细节上保持高度一致。\n\n该工具功能强大，不仅支持根据文本描述直接生成全景图，还能将单张视角图片智能扩展为 360 度全景视图，甚至能依据深度图条件生成精确的多视角序列。这一特性使其在虚拟现实内容创作、三维场景重建以及游戏资产生成等领域具有极高的应用价值。\n\nMVDiffusion 非常适合计算机视觉研究人员、AI 开发者以及需要高效构建 3D 内容的数字艺术家使用。对于研究者，其开源代码和预训练模型为探索多视图生成机制提供了坚实基础；对于创作者，它能大幅降低从 2D 概念到 3D 全景内容的制作门槛。作为 NeurIPS 2023 的亮点论文成果，MVDiffusion 以严谨的技术创新，为","MVDiffusion 是一款基于扩散模型的开源 AI 工具，专注于生成高质量、视角一致的多视图图像。它核心解决了传统生成模型在创建多张关联图片时，容易出现物体结构变形、视角逻辑混乱或细节不连贯的难题。通过引入独特的“对应感知扩散”（Correspondence-Aware Diffusion）技术，MVDiffusion 能够深刻理解不同视角间的空间对应关系，从而确保生成的图像序列在几何结构和纹理细节上保持高度一致。\n\n该工具功能强大，不仅支持根据文本描述直接生成全景图，还能将单张视角图片智能扩展为 360 度全景视图，甚至能依据深度图条件生成精确的多视角序列。这一特性使其在虚拟现实内容创作、三维场景重建以及游戏资产生成等领域具有极高的应用价值。\n\nMVDiffusion 非常适合计算机视觉研究人员、AI 开发者以及需要高效构建 3D 内容的数字艺术家使用。对于研究者，其开源代码和预训练模型为探索多视图生成机制提供了坚实基础；对于创作者，它能大幅降低从 2D 概念到 3D 全景内容的制作门槛。作为 NeurIPS 2023 的亮点论文成果，MVDiffusion 以严谨的技术创新，为用户提供了可靠且高效的多视图图像生成解决方案。","# MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion, (NeurIPS2023, spotlight)\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"800\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTangshitao_MVDiffusion_readme_f05170de4b45.gif\">\n\u003C\u002Fdiv>\n\n# [Project page](https:\u002F\u002Fmvdiffusion.github.io\u002F) |  [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01097) | [Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ftangshitao\u002FMVDiffusion)\n\n## Citation\n\nIf you use our work in your research, please cite it as follows:\n\n```bibtex\n@article{tang2023MVDiffusion,\n  title={MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion},\n  author={Tang, Shitao and Zhang, Fuayng and Chen, Jiacheng and Wang, Peng and Yasutaka, Furukawa},\n  journal={arXiv preprint 2307.01097},\n  year={2023}\n}\n```\n\n### Updates: MVDiffusion is able to extrapolate a single perspective image into a 360-degree view panorama. The paper has been updated. \n\n## Installation\n\nInstall the necessary packages by running the following command:\n\n```bash\npip install -r requirements.txt\n```\n\n## Model Zoo\n\nWe provide baseline results and models for the following:\n\n- [Panorama model](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Fyx9e0lj4fwtm9xh2wlhhg\u002Fpano.ckpt?rlkey=kowqygw7vt64r3maijk8klfl0&dl=0)\n- [Panorama outpainting model](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002F3mtj06qx6mxt4eme1oz2r\u002Fpano_outpaint.ckpt?rlkey=xat6cwt47lzfjawum05xa5ftq&dl=0)\n- [Depth-conditioned generation model](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002F56hcmoj0tx7lza7s2m0jq\u002Fdepth_gen.ckpt?rlkey=upcdbd4kxd9zwms78dssm3gh7&dl=0)\n- [Depth pretrained model](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Fi1u8jzadcq1mx23aef7s6\u002Fdepth_single_view.ckpt?rlkey=4in8g1g8vxrbx21o7do4hqy3c&dl=0)\n\nPlease put those files in 'MVDiffusion\u002Fweights'.\n\n## Demo\n\nTest the demo by running:\n- Text conditioned generation\n```bash\npython demo.py --text \"This kitchen is a charming blend of rustic and modern, featuring a large reclaimed wood island with marble countertop, a sink surrounded by cabinets. To the left of the island, a stainless-steel refrigerator stands tall. To the right of the sink, built-in wooden cabinets painted in a muted.\"\n```\n- Dual contioned generation\n```bash\npython demo.py --text_path assets\u002Fprompts.txt --image_path assets\u002Foutpaint_example.png\n```\n\n## Data\n\n- Panorama generation, please download data from [matterport3D](https:\u002F\u002Fniessner.github.io\u002FMatterport\u002F) skybox data and [labels](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Frecc3utsvmkbgc2vjqxur\u002Fmp3d_skybox.tar?rlkey=ywlz7zvyu25ovccacmc3iifwe&dl=0).\n```\n├── data\n    ├── mp3d_skybox\n      ├── train.npy\n      ├── test.npy\n      ├── 5q7pvUzZiYa\n        ├──blip3\n        ├──matterport_skybox_images\n      ├── 1LXtFkjw3qL\n      ├── ....\n```\n- Depth conditioned generation, please download data from [scannet](http:\u002F\u002Fwww.scan-net.org\u002F), [training labels](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Flwgcnrxfaiwic3kuqrwh4\u002Fscannet_train.tar?rlkey=dom83ygwvnjkyuog3y8wue30j&dl=0), and [testing labels](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Flzh6vrj4ck37t7efymxar\u002Fscannet_test.tar?rlkey=cr1k0d06941qusgan6t6ks863&dl=0).\n```\n├── data\n    ├── scannet\n      ├── train\n        ├── scene0435_01\n          ├── color\n          ├── depth\n          ├── intrinsic\n          ├── pose\n          ├── prompt\n          ├── key_frame_0.6.txt\n          ├── valid_frames.npy\n      ├── test\n```\n\n## Testing\n\nExecute the following scripts for testing:\n\n- ```sh test_pano.sh```: Generate 8 multi-view panoramic images in the Matterport3D testing dataset.\n- ```sh test_pano_outpaint.sh```: Generate 8 multi-view images conditioned on a single view image (outpaint) in the Matterport3D testing dataset.\n- ```sh test_depth_fix_frames.sh```: Generate 12 depth-conditioned images in the ScanNet testing dataset.\n- ```sh test_depth_fix_interval.sh```: Generate a sequence of depth-conditioned images (every 20 frames) in the ScanNet testing dataset.\n- ```sh test_depth_two_stage.sh```: Generate a sequence of depth-conditioned images (key frames), and interpolate the in-between images, in the ScanNet testing dataset.\n\nAfter running either ```sh test_depth_fix_interval.sh``` or ```sh test_depth_two_stage.sh```, you can use [TSDF fusion](https:\u002F\u002Fgithub.com\u002Fandyzeng\u002Ftsdf-fusion-python) to get textured mesh.\n\n## Training\n\nExecute the following scripts for training:\n\n- ```sh train_pano.sh```: Train the panoramic image generation model.\n- ```sh train_pano_outpaint.sh```: Train the panoramic image outpaint model.\n- ```sh train_depth.sh```: Train the depth conditioned generation model.\n\n# Custom data\nPanorama generation: \n\n1. Convert the panorama into 6 skybox images using the provided tool, [Equirec2Perspec](https:\u002F\u002Fgithub.com\u002Ffuenwang\u002FEquirec2Perspec). You will get left, right, front, back, up, and down images. \n2. Convert the panorama to 8 perspective images. Each image will capture a 45-degree horizontal view. Four of these images will overlap with the skybox images, specifically the left, right, front, and back views. \n3. Once you have the perspective images, you can use [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS) to generate prompts from them.\n\nMulti-view Depth-to-Image Generation: \n\n1. Using Scannet Format: For this, you would typically follow the structure and format of the Scannet dataset.\n2. use [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS) to generate prompts from each perspective image.\n\n\n## License\n\nThis project is licensed under the terms of the MIT license.\n\n## Contact\n\nFor any questions, feel free to contact us at [shitaot@sfu.ca].\n","# MVDiffusion：基于对应感知扩散模型的全息多视角图像生成，（NeurIPS2023，亮点论文）\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"800\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTangshitao_MVDiffusion_readme_f05170de4b45.gif\">\n\u003C\u002Fdiv>\n\n## [项目主页](https:\u002F\u002Fmvdiffusion.github.io\u002F) |  [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01097) | [演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Ftangshitao\u002FMVDiffusion)\n\n## 引用\n\n如果您在研究中使用了我们的工作，请按以下方式引用：\n\n```bibtex\n@article{tang2023MVDiffusion,\n  title={MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion},\n  author={Tang, Shitao and Zhang, Fuayng and Chen, Jiacheng and Wang, Peng and Yasutaka, Furukawa},\n  journal={arXiv preprint 2307.01097},\n  year={2023}\n}\n```\n\n### 更新：MVDiffusion 现已能够将单视角图像外延生成 360 度全景视图。论文已更新。\n\n## 安装\n\n通过运行以下命令安装必要的包：\n\n```bash\npip install -r requirements.txt\n```\n\n## 模型库\n\n我们提供了以下基准结果和模型：\n\n- [全景模型](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Fyx9e0lj4fwtm9xh2wlhhg\u002Fpano.ckpt?rlkey=kowqygw7vt64r3maijk8klfl0&dl=0)\n- [全景外延模型](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002F3mtj06qx6mxt4eme1oz2r\u002Fpano_outpaint.ckpt?rlkey=xat6cwt47lzfjawum05xa5ftq&dl=0)\n- [深度条件生成模型](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002F56hcmoj0tx7lza7s2m0jq\u002Fdepth_gen.ckpt?rlkey=upcdbd4kxd9zwms78dssm3gh7&dl=0)\n- [深度预训练模型](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Fi1u8jzadcq1mx23aef7s6\u002Fdepth_single_view.ckpt?rlkey=4in8g1g8vxrbx21o7do4hqy3c&dl=0)\n\n请将这些文件放置在 'MVDiffusion\u002Fweights' 目录下。\n\n## 演示\n\n运行以下命令测试演示：\n- 文本条件生成\n```bash\npython demo.py --text \"这间厨房是乡村风格与现代设计的迷人融合，中央设有一座由回收木材制成的大岛台，台面为大理石材质，水槽四周环绕着橱柜。岛台左侧矗立着一台不锈钢冰箱，右侧则是一排涂成柔和色调的木质嵌入式橱柜。\"\n```\n- 双重条件生成\n```bash\npython demo.py --text_path assets\u002Fprompts.txt --image_path assets\u002Foutpaint_example.png\n```\n\n## 数据\n\n- 全景生成：请从 [matterport3D](https:\u002F\u002Fniessner.github.io\u002FMatterport\u002F) 下载天空盒数据及标签[链接](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Frecc3utsvmkbgc2vjqxur\u002Fmp3d_skybox.tar?rlkey=ywlz7zvyu25ovccacmc3iifwe&dl=0)。\n```\n├── data\n    ├── mp3d_skybox\n      ├── train.npy\n      ├── test.npy\n      ├── 5q7pvUzZiYa\n        ├──blip3\n        ├──matterport_skybox_images\n      ├── 1LXtFkjw3qL\n      ├── ....\n```\n- 多视角深度条件生成：请从 [scannet](http:\u002F\u002Fwww.scan-net.org\u002F) 下载数据、[训练标签](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Flwgcnrxfaiwic3kuqrwh4\u002Fscannet_train.tar?rlkey=dom83ygwvnjkyuog3y8wue30j&dl=0)以及[测试标签](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Flzh6vrj4ck37t7efymxar\u002Fscannet_test.tar?rlkey=cr1k0d06941qusgan6t6ks863&dl=0)。\n```\n├── data\n    ├── scannet\n      ├── train\n        ├── scene0435_01\n          ├── color\n          ├── depth\n          ├── intrinsic\n          ├── pose\n          ├── prompt\n          ├── key_frame_0.6.txt\n          ├── valid_frames.npy\n      ├── test\n```\n\n## 测试\n\n执行以下脚本进行测试：\n\n- ```sh test_pano.sh```: 在 Matterport3D 测试集中生成 8 张多视角全景图像。\n- ```sh test_pano_outpaint.sh```: 在 Matterport3D 测试集中生成 8 张基于单张图像条件的多视角外延图像。\n- ```sh test_depth_fix_frames.sh```: 在 ScanNet 测试集中生成 12 张深度条件图像。\n- ```sh test_depth_fix_interval.sh```: 在 ScanNet 测试集中生成一系列深度条件图像（每 20 帧一张）。\n- ```sh test_depth_two_stage.sh```: 在 ScanNet 测试集中生成一系列深度条件图像（关键帧），并插值中间帧。\n\n运行 ```sh test_depth_fix_interval.sh``` 或 ```sh test_depth_two_stage.sh``` 后，您可以使用 [TSDF 融合](https:\u002F\u002Fgithub.com\u002Fandyzeng\u002Ftsdf-fusion-python)来获取带纹理的网格模型。\n\n## 训练\n\n执行以下脚本进行训练：\n\n- ```sh train_pano.sh```: 训练全景图像生成模型。\n- ```sh train_pano_outpaint.sh```: 训练全景图像外延模型。\n- ```sh train_depth.sh```: 训练深度条件生成模型。\n\n## 自定义数据\n全景生成：\n\n1. 使用提供的工具 [Equirec2Perspec](https:\u002F\u002Fgithub.com\u002Ffuenwang\u002FEquirec2Perspec)，将全景图转换为 6 张天空盒图像。您将得到左、右、前、后、上、下六张图像。\n2. 将全景图进一步转换为 8 张透视图像，每张图像捕捉 45 度水平视角。其中四张图像将与天空盒图像重叠，分别是左、右、前、后视图。\n3. 获取透视图像后，可使用 [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS) 为其生成提示词。\n\n多视角深度到图像生成：\n\n1. 使用 Scannet 格式：通常应遵循 Scannet 数据集的结构和格式。\n2. 使用 [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS) 为每张透视图像生成提示词。\n\n## 许可证\n\n本项目采用 MIT 许可证条款授权。\n\n## 联系方式\n\n如有任何问题，请随时联系 shitaot@sfu.ca。","# MVDiffusion 快速上手指南\n\nMVDiffusion 是一个基于扩散模型的多视图图像生成工具，支持从文本生成全景图、单图扩展为 360 度全景，以及基于深度图生成多视角图像。\n\n## 环境准备\n\n- **操作系统**: Linux (推荐 Ubuntu 18.04+)\n- **Python**: 3.8 或更高版本\n- **GPU**: 建议使用支持 CUDA 的 NVIDIA 显卡（显存建议 16GB+ 以运行全景生成任务）\n- **依赖管理**: pip\n\n## 安装步骤\n\n1. 克隆项目代码（假设已获取源码目录）：\n   ```bash\n   cd MVDiffusion\n   ```\n\n2. 安装 Python 依赖包：\n   ```bash\n   pip install -r requirements.txt\n   ```\n   > **提示**：国内用户可使用清华源加速安装：\n   > ```bash\n   > pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   > ```\n\n3. 下载预训练模型：\n   根据需求从 [Model Zoo](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002F...) 下载对应的 `.ckpt` 文件（如 `pano.ckpt`, `depth_gen.ckpt` 等），并将其放入项目根目录下的 `MVDiffusion\u002Fweights` 文件夹中。若该文件夹不存在，请手动创建。\n\n## 基本使用\n\n### 1. 文本生成全景图 (Text-conditioned Generation)\n\n运行以下命令，根据文本描述生成 8 张不同视角的全景图像：\n\n```bash\npython demo.py --text \"This kitchen is a charming blend of rustic and modern, featuring a large reclaimed wood island with marble countertop, a sink surrounded by cabinets. To the left of the island, a stainless-steel refrigerator stands tall. To the right of the sink, built-in wooden cabinets painted in a muted.\"\n```\n\n### 2. 单图扩展全景 (Dual-conditioned Outpainting)\n\n如果你有一张参考图片并希望将其扩展为 360 度全景，可以使用双条件生成模式：\n\n```bash\npython demo.py --text_path assets\u002Fprompts.txt --image_path assets\u002Foutpaint_example.png\n```\n*注：需确保 `assets\u002Fprompts.txt` 中包含对应的文本提示，且 `assets\u002Foutpaint_example.png` 为输入图像。*\n\n### 3. 基于深度图生成 (Depth-conditioned Generation)\n\n若需利用深度信息控制生成过程，请确保已下载深度相关模型及 ScanNet 格式数据，并运行相应的测试脚本（如 `sh test_depth_fix_frames.sh`）。\n\n生成结果将保存在默认输出目录中，后续可结合 [TSDF fusion](https:\u002F\u002Fgithub.com\u002Fandyzeng\u002Ftsdf-fusion-python) 工具重建带纹理的 3D 网格。","某独立游戏开发者正在为一款第一人称探索游戏快速构建一个风格统一的复古厨房场景，需要生成包含前后左右及角落视角的完整 360 度环境贴图。\n\n### 没有 MVDiffusion 时\n- **视角一致性差**：手动绘制或分次生成不同角度的图片时，家具位置、纹理细节在各视图间无法对齐，导致玩家转动视角时物体“跳跃”或变形。\n- **制作成本高昂**：美术人员需反复调整每张图的边缘拼接处，或使用昂贵的 3D 建模软件搭建白模再渲染，耗时数天才能完成一组全景图。\n- **缺乏深度控制**：仅凭文本描述难以精确控制场景的空间结构，生成的图像往往透视关系混乱，无法直接用于游戏引擎中的天空盒（Skybox）。\n- **扩展性受限**：若需基于某一张现有概念图扩展出其余视角，传统方法几乎无法保持原有画风和几何结构的连贯性。\n\n### 使用 MVDiffusion 后\n- **原生多视图对应**：MVDiffusion 利用对应感知扩散机制，一次性生成 8 张几何结构严格对齐的多视角图像，确保冰箱、岛台等物体在所有角度中位置精准一致。\n- **单图全景外推**：开发者只需提供一张厨房草图，MVDiffusion 即可将其智能外推为完整的 360 度全景图，将原本数天的工作量压缩至几分钟。\n- **深度条件约束**：通过输入深度图作为条件，MVDiffusion 能生成符合真实透视关系的场景，直接输出可用于 Unity 或 Unreal 引擎的高质量天空盒素材。\n- **无缝插值补全**：对于关键帧之间的过渡视角，MVDiffusion 支持基于深度的序列生成与插值，轻松填补视角盲区，保证漫游体验流畅自然。\n\nMVDiffusion 通过解决多视图几何一致性的核心难题，将高保真 3D 场景素材的生产效率提升了数量级。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTangshitao_MVDiffusion_f47734fa.png","Tangshitao","tangshitao","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTangshitao_7088c705.png",null,"Simon Fraser University","Vancouver","shitaot@gmail.com","https:\u002F\u002Fgithub.com\u002FTangshitao",[24,28],{"name":25,"color":26,"percentage":27},"Python","#3572A5",95.1,{"name":29,"color":30,"percentage":31},"Shell","#89e051",4.9,562,29,"2026-03-19T03:54:36",3,"未说明","需要 NVIDIA GPU（基于 Diffusion 模型及 TSDF Fusion 3D 重建需求推断），具体型号和显存大小未说明，需支持 CUDA",{"notes":39,"python":36,"dependencies":40},"1. 安装依赖需运行 'pip install -r requirements.txt'，具体版本列表未在 README 中直接列出。\n2. 需手动下载预训练模型文件（.ckpt）并放置于 'MVDiffusion\u002Fweights' 目录。\n3. 训练或测试全景生成需下载 Matterport3D 数据集；深度条件生成需下载 ScanNet 数据集。\n4. 自定义数据处理涉及将全景图转换为天空盒或透视图像，并使用 BLIP2 生成提示词。\n5. 生成深度条件图像序列后，可使用 TSDF Fusion 工具生成带纹理的 3D 网格。",[41,42,43,44,45,46,47,48,49],"torch","transformers","diffusers","accelerate","opencv-python","numpy","Pillow","BLIP2 (LAVIS)","TSDF Fusion",[51,52],"图像","其他",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T08:46:19.334860",[58,63,68,73,78,83,88,93],{"id":59,"question_zh":60,"answer_zh":61,"source_url":62},16978,"推理时全景图生成的帧间对应关系（correspondence）是如何获取的？","是的，对应关系是在推理\u002F测试时计算的。具体流程通常包括：1. 将现有全景图投影为 8 张图像；2. 计算这 8 张图像之间的对应关系；3. 利用这些对应关系，从随机噪声开始生成新的 8 张图像。对应关系 `t^l` 会在每个去噪步骤中作为输入使用。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F3",{"id":64,"question_zh":65,"answer_zh":66,"source_url":67},16979,"模型是否支持以图像作为提示（Image Prompt）进行生成？","是的，该模型支持图像条件生成（image conditioned generation），不仅可以接受文本提示，也可以接受图像作为输入提示。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F2",{"id":69,"question_zh":70,"answer_zh":71,"source_url":72},16980,"是否计划发布基于 Stable Diffusion v1.5 的 MVDiffusion 检查点？","是的，维护者确认有计划发布基于 `runwayml\u002Fstable-diffusion-v1-5` 的检查点。在此之前，用户也可以尝试自行使用 SD v1.5 进行重新训练。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F18",{"id":74,"question_zh":75,"answer_zh":76,"source_url":77},16981,"基线 Stable Diffusion（全景\u002F透视）的训练代码是否已发布？","是的，维护者确认所有代码（包括用于全景和透视生成的基线 Stable Diffusion 训练代码）均已发布。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F6",{"id":79,"question_zh":80,"answer_zh":81,"source_url":82},16982,"如何将生成的多张图像拼接成 360 度全景图？最少需要多少张图像？","项目先生成 8 张全景图像，然后可以将它们拼接成一个完整的全景图。拼接代码已在此处发布：https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fblob\u002Fmain\u002Fgenerate_video_tool\u002Fpano_video_generation.py。如果您是想将普通透视图像转换为全景图，可以参考其他专用仓库（如 Perspective-and-Equirectangular）。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F25",{"id":84,"question_zh":85,"answer_zh":86,"source_url":87},16983,"将输出结果输入 TSDF 进行网格重建时出现对齐问题，如何解决？","这通常是因为相机坐标系与数据集（如 ScanNet）的坐标系不一致导致的。解决方法是需要微调内参矩阵（intrinsic matrix），使其匹配。请确保相机的坐标系设置正确，可能需要逐字调整内参矩阵以使网格对齐。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F32",{"id":89,"question_zh":90,"answer_zh":91,"source_url":92},16984,"全景单应性矩阵（Homography Matrix）的计算公式是否有误？","是的，维护者确认这是一个笔误。正确的计算公式应为 `homo_l = (K_right @ R_right @ torch.inverse(R_left) @ torch.inverse(K_left))`。其中 R 指的是从相机到世界的变换矩阵（camera-to-world transformation）。推导逻辑为：像素反投影到射线 -> 转换到另一相机坐标系 -> 投影回像素。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F37",{"id":94,"question_zh":95,"answer_zh":96,"source_url":97},16985,"评估代码是否发布？如何复现论文中的评价指标（FID, IS, CS）？","维护者已确认相关代码片段可用。在复现时需注意 CLIP Score 的具体实现细节：如果使用 `openai\u002Fclip-vit-base-patch16` 模型，CLIP Score 约为 31.68；不同的实现或模型版本可能导致结果差异（例如有的结果为 29.93 或 24.70）。建议使用标准的 torchmetrics 库进行计算，并确认使用的预训练模型版本与作者一致。","https:\u002F\u002Fgithub.com\u002FTangshitao\u002FMVDiffusion\u002Fissues\u002F17",[],[100,110,118,131,139,147],{"id":101,"name":102,"github_repo":103,"description_zh":104,"stars":105,"difficulty_score":35,"last_commit_at":106,"category_tags":107,"status":54},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[108,51,109],"开发框架","Agent",{"id":111,"name":112,"github_repo":113,"description_zh":114,"stars":115,"difficulty_score":53,"last_commit_at":116,"category_tags":117,"status":54},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[108,51,109],{"id":119,"name":120,"github_repo":121,"description_zh":122,"stars":123,"difficulty_score":53,"last_commit_at":124,"category_tags":125,"status":54},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[51,126,127,128,109,52,129,108,130],"数据工具","视频","插件","语言模型","音频",{"id":132,"name":133,"github_repo":134,"description_zh":135,"stars":136,"difficulty_score":35,"last_commit_at":137,"category_tags":138,"status":54},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[109,51,108,129,52],{"id":140,"name":141,"github_repo":142,"description_zh":143,"stars":144,"difficulty_score":35,"last_commit_at":145,"category_tags":146,"status":54},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[129,51,108,52],{"id":148,"name":149,"github_repo":150,"description_zh":151,"stars":152,"difficulty_score":53,"last_commit_at":153,"category_tags":154,"status":54},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[108,51]]