[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ZiYang-xie--WorldGen":3,"tool-ZiYang-xie--WorldGen":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":91,"env_os":92,"env_gpu":93,"env_ram":92,"env_deps":94,"category_tags":106,"github_topics":108,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":118,"updated_at":119,"faqs":120,"releases":150},8369,"ZiYang-xie\u002FWorldGen","WorldGen","🌍 WorldGen - Generate Any 3D Scene in Seconds","WorldGen 是一款强大的开源 AI 工具，旨在几秒钟内根据文本描述或单张图片生成完整的 3D 场景。它主要解决了传统 3D 建模耗时费力、门槛高的问题，让创作者无需具备专业建模技能，也能快速构建用于游戏开发、仿真模拟、机器人训练及虚拟现实应用的高质量三维环境。\n\n无论是室内房间还是户外街道，写实风格还是奇幻场景，WorldGen 都能轻松驾驭。其核心技术亮点在于支持生成具有“闭环”特性的 360°一致场景，用户可以在其中自由漫游而无视觉断裂。此外，它还支持实时灵活渲染，允许用户自定义相机参数、轨迹及输出分辨率。技术层面，WorldGen 集成了先进的深度估计模型（如 DA-2）与改进的高斯泼溅（Gaussian Splatting）流程，显著提升了全局一致性，并优化了显存占用，使低配置显卡也能运行。\n\n这款工具非常适合游戏开发者、科研人员、3D 设计师以及希望快速原型验证的普通用户。只需两行代码，即可将创意瞬间转化为可交互的 3D 世界，极大地加速了从概念到落地的创作流程。","# WorldGen: Generate Any 3D Scene in Seconds \n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_c62ada68075b.png\" alt=\"logo\" width=\"300\" style=\"margin-bottom: 210px;\"\u002F>  \n\u003C\u002Fdiv>\n\n\n\u003Cdiv align=\"center\">\n\n[![📄 Project Page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄-Project_Page-orange)](https:\u002F\u002Fworldgen.github.io\u002F)\n[![Hugging Face Model](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-blue?style=flat)](https:\u002F\u002Fhuggingface.co\u002FLeoXie\u002FWorldGen)\n![Badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fversion-v0.2.0-green)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FZiYang-xie\u002FWorldGen)](https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fstargazers\u002F)\n\n\u003C\u002Fdiv>\n\n> Author 👨‍💻: [Ziyang Xie](https:\u002F\u002Fziyangxie.site\u002F)\n> Contact Email 📧: [ziyangxie01@gmail.com](mailto:ziyangxie01@gmail.com)  \n> Feel free to contact me for any questions or collaborations!\n\n## 🌟 Introduction\n🌏 **WorldGen** can generate 3D scenes in seconds from text prompts and images.  It is a powerful tool for creating 3D environments and scenes for games, simulations, robotics, and virtual reality applications.  \n- **Instant 3D Generation** ⚡️ : Create full 3D scenes from input data in seconds\n- **360° Free Exploration** 🧭 : WorldGen supports free 360° consistent exploration of the generated 3D scene with loop closure.\n- **Diverse Scenes Support** 🌈 : WorldGen supports both indoor and outdoor scenes, both realistic and unrealistic scenes in any style.\n- **Flexible Rendering** 📸 : WorldGen supports rendering at any resolution with any camera setting and trajectory in real-time.\n\nTwo lines of code to generate a 3D scene in seconds\n```python\n# Use our API to generate a 3D scene\nworldgen = WorldGen()\nworldgen.generate_world(\"\u003CTEXT PROMPT to describe the scene>\")\n```\n\n## Text-to-Scene Generation\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_cc0bd826eba7.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_18d5e1314da7.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cbr>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_62dcaca138ff.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_b55c0c590f63.gif\" alt=\"demo\" width=\"400\"\u002F>  \n\u003C\u002Fdiv>\n\n## Image-to-Scene Generation\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_6af6245634c7.png\" alt=\"demo\" width=300 height=200 \u002F> &nbsp;\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_a5db5920a3b4.gif\" alt=\"demo\" width=350 height=200\u002F>  \n  \u003Cbr>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_1f26d5f6d662.png\" alt=\"demo\" width=\"300\" height=200 \u002F> &nbsp;\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_80c18bb62fc1.gif\" alt=\"demo\" width=350 height=200\u002F>  \n\u003C\u002Fdiv>\n\n---\n\n## News and TODOs\n- [x] `04.12.2026` 🔧 **[Improved Sharp]** Rework ml-sharp pipeline: use cubemap depth to align Sharp's per-face gaussians for better global consistency. Reduced from 8+ views to 6 cubemap faces.\n- [x] `04.11.2026` 🔄 **[Updated Depth]** Replace UniK3D with [DA-2](https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2) for better 360° depth estimation.\n- [x] `03.17.2026` 🔧 **[Improved Quality]** Improve the GS quality by fixing the project scale issue. Make ml-sharp dependency optional.\n- [x] `01.10.2026` 🔥 **[New feature]** Add support for ml-sharp (modified to work on 360 images) for better GS generation (Currently in experimental mode)\n- [x] `05.10.2025` 🤖 Add support for low-vram generation (Only use ~10GB VRAM for generation).\n- [x] `04.26.2025` 📄 **New** Relase a project page for WorldGen\n- [x] `04.22.2025` 🏡 Add support for mesh scene generation (Should give better results than splat)\n- [x] `04.21.2025` 🎉 Opensource the WorldGen codebase \n- [x] `04.19.2025` 🖼️ Add support for image-to-scene generation\n- [x] `04.17.2025` 📝 Add support for text-to-scene generation\n- [ ] Release technical report and video\n- [ ] Support better background inpainting (Invisible region inpainting)\n\n## 📦 Installation\n\nGetting started with WorldGen is simple!\n\n```bash\n# Clone the repository \ngit clone --recursive https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen.git \ncd WorldGen\n\n# Create a new conda environment\nconda create -n worldgen python=3.11\nconda activate worldgen\n\n# Install torch and torchvision (with GPU support)\npip3 install torch torchvision\n\n# Install worldgen\npip install .\n\n# Install DA-2 (360 depth estimation) -- use --no-deps to avoid version conflicts\npip install git+https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2.git#subdirectory=src --no-deps\n\n# Install pytorch3d dependencies\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorch3d.git --no-build-isolation\n\n# 🔥 [New feature]: If you want to use the ml-sharp experimental feature, you need to install the ml-sharp dependencies\npip install -e submodules\u002Fml-sharp\n\n# You should also accept the license of the gated model (FLUX.1-dev).\n# https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev\n# Login to Hugging Face and accept the license.\n# huggingface-cli login\n```\n\n## 🕹️ Quick Start \u002F Demos\nWe provide a demo script to help you quickly get started and visualize the 3D scene in a web browser. The script is powered by [Viser](https:\u002F\u002Fgithub.com\u002Fnerfstudio-project\u002Fviser).\n```bash\n# Generate a 3D scene from a text prompt\npython demo.py -p \"A beautiful landscape with a river and mountains\"\n# Indoor scene example\npython demo.py -p \"A well-designed cozy bedroom\"\n\n# 🔥 New feature: Generate a 3D scene using the ml-sharp experimental feature (It may produce better results than the default mode)\npython demo.py -p \"\u003CTEXT PROMPT to describe the scene>\" --use_sharp\n\n# Generate a 3D scene from an image\npython demo.py -i \"path\u002Fto\u002Fyour\u002Fimage.jpg\" -p \"\u003COptional: TEXT PROMPT to describe the scene>\" --use_sharp\n\n# Generate a 3D scene in mesh mode\n# Make sure you installed my customized viser to correctly visualize the mesh without backface culling\n# pip install git+https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002Fviser.git\n\npython demo.py -p \"A beautiful landscape with a river and mountains\" --return_mesh\n```\n\nAfter running the demo script, A local viser server will be launched at `http:\u002F\u002Flocalhost:8080`, where you can explore the generated 3D scene in real-time.\n\n\n## 🎮 Advanced Usage\n\n### WorldGen API\nQuick start with WorldGen (mode in `t2s` or `i2s`) and generate your first 3D scene in seconds:  \n- 📝 **Text to Scene:** Generate a 3D scene from a text prompt\n```python\n# Example using the Python API\nfrom worldgen import WorldGen\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n\nworldgen = WorldGen(mode=\"t2s\", device=device, low_vram=False) # Set low_vram to True if your GPU VRAM is less than 24GB.\nsplat = worldgen.generate_world(\"\u003CTEXT PROMPT to describe the scene>\")\nsplat.save(\"path\u002Fto\u002Fyour\u002Foutput.ply\") # Save splat file as a .ply file, which can be loaded and visualized using a standard gaussian splatting viewer\n```\n\n- 🖼️ **Image to Scene:** Generate a 3D scene from an image\n```python\nworldgen = WorldGen(mode=\"i2s\", device=device, low_vram=False) # Set low_vram to True if your GPU VRAM is less than 24GB.\nimage = Image.open(\"path\u002Fto\u002Fyour\u002Fimage.jpg\")\nsplat = worldgen.generate_world(\n    image=image,\n    prompt=\"\u003COptional: TEXT PROMPT to describe the image and the scene>\",\n)\n```\n\n- 🏡 Generate a 3D scene in mesh mode\n```python\nmesh = worldgen.generate_world(\"\u003CTEXT PROMPT to describe the scene>\", return_mesh=True)\no3d.io.write_triangle_mesh(\"path\u002Fto\u002Fyour\u002Foutput.ply\", mesh) # Save mesh as a .ply file\n```\n\n> [!Tip]\n> We also support background inpainting for better scene generation, but it's currently an experimental feature, which may not work for all scenes.  \n> It can be enabled by setting `WorldGen(inpaint_bg=True)`.\n```bash\n# If want to use background inpainting feature, install iopaint\npip install iopaint --no-dependencies\n```\n\n### Free-viewpoint Exploration in 3D Scene\n\u003Cdiv align=\"center\" style=\"margin-bottom: 15px;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_9c5f25def76e.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_99fc692c5daa.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cbr>\n\u003C\u002Fdiv>\n\n---\n\n> [!Note]\n> **WorldGen** internally support generating a 3D scene from a 360° panorama image 📸, which related to how WorldGen works:\n> You can try it out if you happen to have a 360° panorama (equirectangular) image. Aspect ratio of the panorama image should be 2:1.\n```python\n pano_image = Image.open(\"path\u002Fto\u002Fyour\u002Fpano_image.jpg\")\n splat = worldgen._generate_world(pano_image=pano_image)\n```\n\n## ⭐️ Star History\nGive a star to WorldGen if you like it!\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_e9a56225796b.png)](https:\u002F\u002Fwww.star-history.com\u002F#ZiYang-xie\u002FWorldGen&Date)\n\n## 📚 Citation\nIf you find this project useful, please consider citing it as follows:\n```bibtex\n@misc{worldgen2025ziyangxie,\n  author = {Ziyang Xie},\n  title = {WorldGen: Generate Any 3D Scene in Seconds},\n  year = {2025},\n  publisher = {GitHub},\n  journal = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen}},\n}\n```\n\n---\n\n## 🤝 Acknowledgements\nThis project is built on top of the follows, please consider citing them if you find them useful:\n- [DA-2](https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2)\n- [UniK3D](https:\u002F\u002Fgithub.com\u002Flpiccinelli-eth\u002FUniK3D)\n- [Layerpano3D](https:\u002F\u002Fgithub.com\u002F3DTopia\u002FLayerPano3D)\n- [Viser](https:\u002F\u002Fgithub.com\u002Fnerfstudio-project\u002Fviser)\n- [FLUX.1](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev)\n- [OneFormer](https:\u002F\u002Fgithub.com\u002FSHI-Labs\u002FOneFormer)\n- [LaMa](https:\u002F\u002Fgithub.com\u002Fsaic-mdal\u002Flama)\n- [ml-sharp](https:\u002F\u002Fgithub.com\u002Fapple\u002Fml-sharp)\n\nSome of the core methods and ideas in this project are inspired by the following projects, special thanks to them:\n- [WonderWorld](https:\u002F\u002Fkovenyu.com\u002Fwonderworld\u002F) [RGBD to GS conversion]\n- [WorldSheet](https:\u002F\u002Fworldsheet.github.io\u002F) [Mesh Generation]\n","# WorldGen：几秒钟内生成任意3D场景\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_c62ada68075b.png\" alt=\"logo\" width=\"300\" style=\"margin-bottom: 210px;\"\u002F>  \n\u003C\u002Fdiv>\n\n\n\u003Cdiv align=\"center\">\n\n[![📄 项目页面](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄-Project_Page-orange)](https:\u002F\u002Fworldgen.github.io\u002F)\n[![Hugging Face模型](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-blue?style=flat)](https:\u002F\u002Fhuggingface.co\u002FLeoXie\u002FWorldGen)\n![徽章](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fversion-v0.2.0-green)\n[![GitHub星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FZiYang-xie\u002FWorldGen)](https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fstargazers\u002F)\n\n\u003C\u002Fdiv>\n\n> 作者 👨‍💻：[Ziyang Xie](https:\u002F\u002Fziyangxie.site\u002F)\n> 联系邮箱 📧：[ziyangxie01@gmail.com](mailto:ziyangxie01@gmail.com)  \n> 如有任何问题或合作需求，欢迎随时联系我！\n\n## 🌟 简介\n🌏 **WorldGen** 可以根据文本提示和图像在几秒钟内生成3D场景。它是一款功能强大的工具，适用于为游戏、模拟、机器人技术和虚拟现实应用创建3D环境和场景。\n- **即时3D生成** ⚡️ ：只需几秒钟即可从输入数据中创建完整的3D场景\n- **360°自由探索** 🧭 ：WorldGen支持对生成的3D场景进行自由的360°一致探索，并实现闭环闭合。\n- **多样场景支持** 🌈 ：WorldGen支持室内和室外场景，以及任何风格的真实与非真实场景。\n- **灵活渲染** 📸 ：WorldGen支持以任意分辨率、任意相机设置和轨迹进行实时渲染。\n\n只需两行代码，即可在几秒钟内生成一个3D场景\n```python\n# 使用我们的API生成3D场景\nworldgen = WorldGen()\nworldgen.generate_world(\"\u003C描述场景的文本提示>\")\n```\n\n## 文本到场景生成\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_cc0bd826eba7.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_18d5e1314da7.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cbr>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_62dcaca138ff.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_b55c0c590f63.gif\" alt=\"demo\" width=\"400\"\u002F>  \n\u003C\u002Fdiv>\n\n## 图像到场景生成\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_6af6245634c7.png\" alt=\"demo\" width=300 height=200 \u002F> &nbsp;\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_a5db5920a3b4.gif\" alt=\"demo\" width=350 height=200\u002F>  \n  \u003Cbr>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_1f26d5f6d662.png\" alt=\"demo\" width=\"300\" height=200 \u002F> &nbsp;\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_80c18bb62fc1.gif\" alt=\"demo\" width=350 height=200\u002F>  \n\u003C\u002Fdiv>\n\n---\n\n## 最新消息与待办事项\n- [x] `04.12.2026` 🔧 **[改进Sharp]** 重构ml-sharp流程：使用立方体贴图深度来对齐Sharp的每面高斯分布，以获得更好的全局一致性。将视图数量从8个以上减少到6个立方体面。\n- [x] `04.11.2026` 🔄 **[更新深度]** 用[DA-2](https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2)替换UniK3D，以实现更优质的360°深度估计。\n- [x] `03.17.2026` 🔧 **[提升质量]** 通过修复投影尺度问题来提高GS质量。使ml-sharp依赖项变为可选。\n- [x] `01.10.2026` 🔥 **[新功能]** 添加对ml-sharp的支持（已修改为可在360度图像上运行），以更好地生成GS（目前处于实验模式）。\n- [x] `05.10.2025` 🤖 添加对低显存生成的支持（仅需约10GB显存即可完成生成）。\n- [x] `04.26.2025` 📄 **新增** 发布WorldGen项目页面。\n- [x] `04.22.2025` 🏡 添加对网格场景生成的支持（预计将比点云渲染效果更好）。\n- [x] `04.21.2025` 🎉 开源WorldGen代码库。\n- [x] `04.19.2025` 🖼️ 添加对图像到场景生成的支持。\n- [x] `04.17.2025` 📝 添加对文本到场景生成的支持。\n- [ ] 发布技术报告和视频。\n- [ ] 支持更优秀的背景修复（不可见区域修复）。\n\n## 📦 安装\n\n开始使用WorldGen非常简单！\n\n```bash\n# 克隆仓库 \ngit clone --recursive https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen.git \ncd WorldGen\n\n# 创建一个新的conda环境\nconda create -n worldgen python=3.11\nconda activate worldgen\n\n# 安装torch和torchvision（支持GPU）\npip3 install torch torchvision\n\n# 安装WorldGen\npip install .\n\n# 安装DA-2（360度深度估计）——使用--no-deps选项以避免版本冲突\npip install git+https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2.git#subdirectory=src --no-deps\n\n# 安装pytorch3d的依赖项\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorch3d.git --no-build-isolation\n\n# 🔥 [新功能]：如果想使用ml-sharp的实验性功能，需要安装ml-sharp的相关依赖\npip install -e submodules\u002Fml-sharp\n\n# 此外，您还需要接受受限制模型（FLUX.1-dev）的许可协议。\n# https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev\n# 登录Hugging Face并接受许可协议。\n# huggingface-cli login\n```\n\n## 🕹️ 快速入门 \u002F 演示\n我们提供了一个演示脚本，帮助您快速入门并在网页浏览器中可视化3D场景。该脚本由[Viser](https:\u002F\u002Fgithub.com\u002Fnerfstudio-project\u002Fviser)驱动。\n```bash\n# 根据文本提示生成3D场景\npython demo.py -p \"一片美丽的风景，有河流和山脉\"\n# 室内场景示例\npython demo.py -p \"一间设计精美的舒适卧室\"\n\n# 🔥 新功能：使用ml-sharp实验性功能生成3D场景（可能比默认模式效果更好）\npython demo.py -p \"\u003C描述场景的文本提示>\" --use_sharp\n\n# 根据图像生成3D场景\npython demo.py -i \"您图片的路径.jpg\" -p \"\u003C可选：描述场景的文本提示>\" --use_sharp\n\n# 在网格模式下生成3D场景\n# 请确保您已安装我定制的viser，以便正确显示网格而不会出现背面剔除问题\n# pip install git+https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002Fviser.git\n\npython demo.py -p \"一片美丽的风景，有河流和山脉\" --return_mesh\n```\n\n运行演示脚本后，本地Viser服务器将在`http:\u002F\u002Flocalhost:8080`启动，您可以在其中实时探索生成的3D场景。\n\n\n## 🎮 高级用法\n\n### WorldGen API\n快速开始使用WorldGen（模式为`t2s`或`i2s`），并在几秒钟内生成您的第一个3D场景：\n- 📝 **文本到场景**：根据文本提示生成3D场景\n```python\n\n# 使用 Python API 的示例\nfrom worldgen import WorldGen\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n\nworldgen = WorldGen(mode=\"t2s\", device=device, low_vram=False) # 如果你的 GPU 显存小于 24GB，请将 low_vram 设置为 True。\nsplat = worldgen.generate_world(\"\u003C描述场景的文本提示>\")\nsplat.save(\"输出文件路径.ply\") # 将点云文件保存为 .ply 格式，可以使用标准的高斯点云查看器加载和可视化\n```\n\n- 🖼️ **图像转场景**：从图像生成 3D 场景\n```python\nworldgen = WorldGen(mode=\"i2s\", device=device, low_vram=False) # 如果你的 GPU 显存小于 24GB，请将 low_vram 设置为 True。\nimage = Image.open(\"你的图像路径.jpg\")\nsplat = worldgen.generate_world(\n    image=image,\n    prompt=\"\u003C可选：用于描述图像和场景的文本提示>\",\n)\n```\n\n- 🏡 以网格模式生成 3D 场景\n```python\nmesh = worldgen.generate_world(\"\u003C描述场景的文本提示>\", return_mesh=True)\no3d.io.write_triangle_mesh(\"输出文件路径.ply\", mesh) # 将网格保存为 .ply 文件\n```\n\n> [!Tip]\n> 我们还支持背景修复功能，以提升场景生成效果，但目前该功能仍处于实验阶段，可能并非适用于所有场景。  \n> 可通过设置 `WorldGen(inpaint_bg=True)` 来启用此功能。\n```bash\n# 如果需要使用背景修复功能，请安装 iopaint\npip install iopaint --no-dependencies\n```\n\n### 3D 场景中的自由视角探索\n\u003Cdiv align=\"center\" style=\"margin-bottom: 15px;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_9c5f25def76e.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_99fc692c5daa.gif\" alt=\"demo\" width=\"400\"\u002F>  \n  \u003Cbr>\n\u003C\u002Fdiv>\n\n---\n\n> [!Note]\n> **WorldGen** 内部支持从 360° 全景图像生成 3D 场景 📸，这与 WorldGen 的工作原理有关：\n> 如果你恰好拥有一张 360° 全景（等距柱状投影）图像，可以尝试一下。全景图像的宽高比应为 2:1。\n```python\npano_image = Image.open(\"你的全景图像路径.jpg\")\nsplat = worldgen._generate_world(pano_image=pano_image)\n```\n\n## ⭐️ 星标历史\n如果你喜欢 WorldGen，请给它点个星吧！\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_readme_e9a56225796b.png)](https:\u002F\u002Fwww.star-history.com\u002F#ZiYang-xie\u002FWorldGen&Date)\n\n## 📚 引用\n如果你觉得这个项目有用，请参考以下引用格式：\n```bibtex\n@misc{worldgen2025ziyangxie,\n  author = {Ziyang Xie},\n  title = {WorldGen：几秒钟内生成任意 3D 场景},\n  year = {2025},\n  publisher = {GitHub},\n  journal = {GitHub 仓库},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen}},\n}\n```\n\n---\n\n## 🤝 致谢\n本项目基于以下开源项目构建，如果你觉得它们有用，请一并引用：\n- [DA-2](https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2)\n- [UniK3D](https:\u002F\u002Fgithub.com\u002Flpiccinelli-eth\u002FUniK3D)\n- [Layerpano3D](https:\u002F\u002Fgithub.com\u002F3DTopia\u002FLayerPano3D)\n- [Viser](https:\u002F\u002Fgithub.com\u002Fnerfstudio-project\u002Fviser)\n- [FLUX.1](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev)\n- [OneFormer](https:\u002F\u002Fgithub.com\u002FSHI-Labs\u002FOneFormer)\n- [LaMa](https:\u002F\u002Fgithub.com\u002Fsaic-mdal\u002Flama)\n- [ml-sharp](https:\u002F\u002Fgithub.com\u002Fapple\u002Fml-sharp)\n\n本项目中的一些核心方法和思路受到以下项目的启发，特此致谢：\n- [WonderWorld](https:\u002F\u002Fkovenyu.com\u002Fwonderworld\u002F) [RGBD 到高斯点云的转换]\n- [WorldSheet](https:\u002F\u002Fworldsheet.github.io\u002F) [网格生成]","# WorldGen 快速上手指南\n\nWorldGen 是一个强大的开源工具，能够在几秒钟内根据文本提示或图片生成完整的 3D 场景。它支持室内外多种风格，并允许用户在生成的场景中进行 360° 自由探索和实时渲染。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python 版本**: 3.11\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡\n    *   标准模式：建议显存 ≥ 24GB\n    *   低显存模式：仅需约 10GB 显存（启动时设置 `low_vram=True`）\n*   **前置依赖**:\n    *   Git\n    *   Conda (推荐使用 Miniconda 或 Anaconda)\n    *   Hugging Face 账号 (需接受 `FLUX.1-dev` 模型许可)\n\n## 2. 安装步骤\n\n请按顺序执行以下命令来配置环境和安装依赖。\n\n### 第一步：克隆项目并创建环境\n```bash\n# 克隆仓库（包含子模块）\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen.git \ncd WorldGen\n\n# 创建并激活 Python 3.11 虚拟环境\nconda create -n worldgen python=3.11\nconda activate worldgen\n```\n\n### 第二步：安装核心依赖\n```bash\n# 安装 PyTorch 和 torchvision (请根据您的 CUDA 版本调整，此处为通用命令)\npip3 install torch torchvision\n\n# 安装 WorldGen 主程序\npip install .\n```\n\n### 第三步：安装特定组件\n```bash\n# 安装 DA-2 (用于 360° 深度估计)，使用 --no-deps 避免版本冲突\npip install git+https:\u002F\u002Fgithub.com\u002FEnVision-Research\u002FDA-2.git#subdirectory=src --no-deps\n\n# 安装 PyTorch3D 依赖\npip install git+https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fpytorch3d.git --no-build-isolation\n```\n\n### 第四步：可选功能安装\n*   **实验性功能 (ml-sharp)**: 如果需要更高质量的生成效果，可安装此模块。\n    ```bash\n    pip install -e submodules\u002Fml-sharp\n    ```\n*   **背景修复功能**: 如果需要启用背景补全（实验性），需安装 iopaint。\n    ```bash\n    pip install iopaint --no-dependencies\n    ```\n\n### 第五步：模型授权登录\n本项目依赖 gated model `FLUX.1-dev`，必须先登录 Hugging Face 并接受许可协议。\n```bash\nhuggingface-cli login\n# 按提示输入您的 Access Token (可在 Hugging Face 设置中获取)\n```\n\n## 3. 基本使用\n\n安装完成后，您可以通过命令行脚本快速生成并预览 3D 场景，或使用 Python API 进行集成开发。\n\n### 方式一：命令行快速演示 (推荐)\n\n运行以下命令将启动一个本地 Web 服务器 (`http:\u002F\u002Flocalhost:8080`)，您可以在浏览器中实时查看和探索生成的 3D 场景。\n\n**从文本生成场景：**\n```bash\n# 生成户外风景\npython demo.py -p \"A beautiful landscape with a river and mountains\"\n\n# 生成室内卧室\npython demo.py -p \"A well-designed cozy bedroom\"\n\n# [可选] 使用 ml-sharp 实验模式以获得更好效果\npython demo.py -p \"A futuristic city street\" --use_sharp\n```\n\n**从图片生成场景：**\n```bash\npython demo.py -i \"path\u002Fto\u002Fyour\u002Fimage.jpg\" -p \"Optional description of the scene\"\n```\n\n**生成网格模型 (Mesh) 而非高斯泼溅 (Splat)：**\n```bash\n# 注意：可能需要安装定制版的 viser: pip install git+https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002Fviser.git\npython demo.py -p \"A beautiful landscape with a river and mountains\" --return_mesh\n```\n\n### 方式二：Python API 调用\n\n您可以在自己的代码中直接调用 WorldGen 生成场景并保存文件。\n\n**文本转 3D 场景 (Text-to-Scene):**\n```python\nimport torch\nfrom worldgen import WorldGen\n\n# 初始化设备\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n\n# 初始化 WorldGen\n# 如果显存小于 24GB，请将 low_vram 设置为 True\nworldgen = WorldGen(mode=\"t2s\", device=device, low_vram=False)\n\n# 生成场景\nsplat = worldgen.generate_world(\"A magical forest with glowing mushrooms\")\n\n# 保存为 .ply 文件 (可用于其他高斯泼溅查看器)\nsplat.save(\"output_scene.ply\")\n```\n\n**图片转 3D 场景 (Image-to-Scene):**\n```python\nfrom PIL import Image\nfrom worldgen import WorldGen\nimport torch\n\ndevice = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\nworldgen = WorldGen(mode=\"i2s\", device=device, low_vram=False)\n\nimage = Image.open(\"input_image.jpg\")\nsplat = worldgen.generate_world(\n    image=image,\n    prompt=\"A cyberpunk street view based on the image\", # 可选的描述提示词\n)\nsplat.save(\"output_from_image.ply\")\n```\n\n**生成网格模型 (Mesh Mode):**\n```python\n# 需要安装 open3d: pip install open3d\nimport open3d as o3d\n\nmesh = worldgen.generate_world(\"A simple wooden house\", return_mesh=True)\no3d.io.write_triangle_mesh(\"output_mesh.ply\", mesh)\n```","一家独立游戏开发团队正在为一款开放世界冒险游戏快速构建原型，急需在两天内验证多种不同风格关卡的可行性。\n\n### 没有 WorldGen 时\n- **建模周期漫长**：美术人员需手动使用 Blender 或 Maya 从零搭建房屋、街道等基础场景，单个室内场景耗时至少 2-3 天。\n- **全景一致性难保**：尝试用多张 2D 概念图拼接 360°环境时，经常出现接缝错位、光影不连贯，导致玩家旋转视角时产生强烈的割裂感。\n- **迭代成本高昂**：策划提出“把白天改成赛博朋克夜景”或“增加废墟风格”的需求时，意味着需要重新调整大量资产和光照，几乎等于重做。\n- **硬件门槛限制**：高精度场景渲染对显存要求极高，团队普通开发机无法实时预览高质量效果，必须依赖云端渲染农场排队。\n\n### 使用 WorldGen 后\n- **秒级场景生成**：设计师只需输入“一个充满霓虹灯的雨夜赛博朋克街道”或上传一张手绘草图，WorldGen 即可在几秒钟内生成完整的 3D 场景。\n- **360°无缝探索**：生成的场景天然支持闭环探索，无论玩家如何旋转视角，建筑结构和纹理都保持高度一致，彻底消除了视觉接缝。\n- **风格灵活切换**：通过修改文本提示词，团队能在几分钟内将同一布局从“写实森林”切换为“卡通奇幻城堡”，极大加速了玩法验证过程。\n- **低显存实时渲染**：得益于优化的低显存模式，开发者在仅配备 10GB 显存的普通工作站上也能实时调整相机轨迹并预览高分辨率渲染结果。\n\nWorldGen 将原本以“天”为单位的场景制作流程压缩至“秒”级，让创意验证不再受限于繁琐的建模工序。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZiYang-xie_WorldGen_c62ada68.png","ZiYang-xie","Zyan","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FZiYang-xie_5b3f6499.jpg","AI Researcher\r\nCS PhD @ UCLA \r\nprev MSCS @ UIUC | BS @ FDU","University of California, Los Angeles","Los Angeles",null,"https:\u002F\u002Fziyangxie.site\u002F","https:\u002F\u002Fgithub.com\u002FZiYang-xie",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,1868,175,"2026-04-16T16:31:31","Apache-2.0",4,"未说明","必需 NVIDIA GPU。标准模式推荐显存 24GB+；支持低显存模式（low_vram=True），仅需约 10GB 显存。",{"notes":95,"python":96,"dependencies":97},"1. 需通过 Hugging Face 登录并接受 FLUX.1-dev 模型的许可协议方可运行。\n2. 安装 pytorch3d 时需添加 --no-build-isolation 参数。\n3. 若使用实验性功能 ml-sharp，需单独安装其子模块依赖。\n4. 若启用背景修复功能，需安装 iopaint。\n5. 若需生成网格（Mesh）模式，建议安装作者定制版的 viser 库以正确可视化。","3.11",[98,99,100,101,102,103,104,105],"torch","torchvision","DA-2","pytorch3d","ml-sharp (可选)","viser","FLUX.1-dev","iopaint (可选)",[15,107],"其他",[109,110,111,112,113,114,115,116,117],"3d-generation","3d-reconstruction","generative-ai","scene-generation","worldgen","worldmodel","graphics","image-to-3d","text-to-3d","2026-03-27T02:49:30.150509","2026-04-17T10:20:42.143497",[121,126,131,136,141,146],{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},37459,"为什么生成的全景图存在明显的拼接痕迹且光照不一致？","这是当前模型版本的已知局限性。维护者表示正在扩大训练规模，即将发布一个质量更好的版本来解决细节不佳和边缘拼接问题。在更新发布前，生成结果中出现的左侧边缘或光照不一致属于正常现象。","https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fissues\u002F11",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},37460,"如何提升生成图像的分辨率和视觉质量？","由于计算资源限制，目前官方不支持更高分辨率的训练。建议的解决方案是：使用现有的超分辨率模型（Super Resolution Model）对生成的全景图进行后期放大处理。虽然该功能未直接集成到管道中以保持简洁快速，但用户可以自行添加此步骤作为可选功能。","https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fissues\u002F24",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},37461,"运行 demo.py 时遇到 'TypeError: UniK3D.__init__() missing 1 required positional argument: config' 错误怎么办？","需要手动修改 `pano_depth.py` 文件中的 `build_depth_model` 函数，显式加载配置文件。请参考以下代码修复：\n```python\ndef build_depth_model(device: torch.device = 'cuda'):\n    import json\n    with open(\".\u002Fsubmodules\u002FUniK3D\u002Fconfigs\u002Feval\u002Fvitl.json\", \"r\") as read_dict:\n        config = json.load(read_dict)\n    model = UniK3D.from_pretrained(\"lpiccinelli\u002Funik3d-vitl\", config=config)\n    model.eval()\n    model = model.to(device)\n    return model\n```","https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fissues\u002F18",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},37462,"运行生成命令后浏览器显示空白或进程被 'Killed' 是什么原因？","这通常是由于 CPU 内存不足（OOM, Out Of Memory）导致的。解决方法是在运行命令时通过 `--resolution` 参数降低生成分辨率，以减少内存占用。例如：`python demo.py -p \"提示词\" --resolution 512`。","https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fissues\u002F16",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},37463,"遇到 'ModuleNotFoundError: No module named pytorch3d.transforms' 错误如何解决？","该错误通常与 PyTorch3D 安装不完整或版本不兼容有关。请确保已正确安装 PyTorch3D，并且其版本与当前的 PyTorch 版本匹配。如果使用的是 conda 环境，建议重新按照官方文档严格安装 torch 和 pytorch3d，有时可能需要从源码编译安装特定版本的 pytorch3d 以包含 transforms 模块。","https:\u002F\u002Fgithub.com\u002FZiYang-xie\u002FWorldGen\u002Fissues\u002F14",{"id":147,"question_zh":148,"answer_zh":149,"source_url":135},37464,"运行评估或深度估计时出现关于 KNN 编译的警告怎么办？","如果要运行评估功能，需要编译 KNN 算子。请进入子模块目录并执行编译脚本：\n```bash\ncd unik3d\u002Fops\u002Fknn && bash compile.sh\n```\n如果不进行此步骤，部分评估功能可能无法正常运行，但基础生成功能通常不受影响。",[]]