[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thu-ml--prolificdreamer":3,"tool-thu-ml--prolificdreamer":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":102,"forks":103,"last_commit_at":104,"license":105,"difficulty_score":106,"env_os":107,"env_gpu":108,"env_ram":109,"env_deps":110,"category_tags":116,"github_topics":118,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":157},7517,"thu-ml\u002Fprolificdreamer","prolificdreamer","ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation (NeurIPS 2023 Spotlight)","ProlificDreamer 是一款专注于高保真度与多样化生成的开源 AI 工具，能够直接将文字描述转化为高质量的 3D 模型。作为 NeurIPS 2023 的亮点研究成果，它主要解决了现有文生 3D 技术中常见的图像模糊、细节丢失以及生成结果单一等痛点，显著提升了模型的几何精度和纹理丰富度。\n\n该工具的核心技术亮点在于引入了“变分分数蒸馏”（Variational Score Distillation, VSD）算法。不同于传统方法，ProlificDreamer 通过三个阶段的精细化流程——从基于神经辐射场（NeRF）的初步构建，到几何结构的深度优化，再到高分辨率的纹理渲染——逐步打磨模型细节。这种分阶段策略使其能够在无需额外 3D 训练数据的情况下，利用现有的 Stable Diffusion 模型生成极具真实感的 3D 资产。\n\nProlificDreamer 非常适合从事计算机图形学、人工智能研究的研究人员，以及需要快速原型设计的 3D 开发者使用。虽然其功能强大，但目前仍需通过命令行配置参数进行训练，对用户的编程基础和 GPU 硬件资源有一定要求，因此暂时不太适合完全零","ProlificDreamer 是一款专注于高保真度与多样化生成的开源 AI 工具，能够直接将文字描述转化为高质量的 3D 模型。作为 NeurIPS 2023 的亮点研究成果，它主要解决了现有文生 3D 技术中常见的图像模糊、细节丢失以及生成结果单一等痛点，显著提升了模型的几何精度和纹理丰富度。\n\n该工具的核心技术亮点在于引入了“变分分数蒸馏”（Variational Score Distillation, VSD）算法。不同于传统方法，ProlificDreamer 通过三个阶段的精细化流程——从基于神经辐射场（NeRF）的初步构建，到几何结构的深度优化，再到高分辨率的纹理渲染——逐步打磨模型细节。这种分阶段策略使其能够在无需额外 3D 训练数据的情况下，利用现有的 Stable Diffusion 模型生成极具真实感的 3D 资产。\n\nProlificDreamer 非常适合从事计算机图形学、人工智能研究的研究人员，以及需要快速原型设计的 3D 开发者使用。虽然其功能强大，但目前仍需通过命令行配置参数进行训练，对用户的编程基础和 GPU 硬件资源有一定要求，因此暂时不太适合完全零技术的普通大众用户。对于希望探索前沿文生 3D 技术或需要高质量自定义 3D 内容的专业团队而言，这是一个极具价值的开源项目。","# ProlificDreamer\n\nOfficial implementation of *[ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16213)*, published in NeurIPS 2023 (Spotlight).\n\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_prolificdreamer_readme_32c69c5c6e80.png\">\n\u003C\u002Fp>\n\n## Installation\n\nThe codebase is built on [stable-dreamfusion](https:\u002F\u002Fgithub.com\u002Fashawkey\u002Fstable-dreamfusion). For installation, \n```\npip install -r requirements.txt\n```\n\n## Training\nProlificDreamer includes 3 stages for high-fidelity text-to-3d generation.\n```\n# --------- Stage 1 (NeRF, VSD guidance) --------- #\n# This costs approximately 27GB GPU memory, with rendering resolution of 512x512\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 25000 --lambda_entropy 10 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1\u002F\n# If you find the result is foggy, you can increase the --lambda_entropy. For example\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 25000 --lambda_entropy 100 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1\u002F\n# Generate with multiple particles. Notice that generating with multiple particles is only supported in Stage 1.\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 100000 --lambda_entropy 10 --scale 7.5 --n_particles 4 --h 512  --w 512 --t5_iters 20000 --workspace exp-nerf-stage1\u002F\n\n# --------- Stage 2 (Geometry Refinement) --------- #\n# This costs \u003C20GB GPU memory\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage1\u002Fckpt --normal True --sds True --density_thresh 0.1 --lambda_normal 5000 --workspace exp-dmtet-stage2\u002F\n# If the results are with maney floaters, you can increase --density_thresh. Notice that the value of --density_thresh must be consistent in stage2 and stage3.\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage1\u002Fckpt --normal True --sds True --density_thresh 0.4 --lambda_normal 5000 --workspace exp-dmtet-stage2\u002F\n\n# --------- Stage 3 (Texturing, VSD guidance) --------- #\n# texturing with 512x512 rasterization\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 30000 --scale 7.5 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage2\u002Fckpt --density_thresh 0.1 --finetune True --workspace exp-dmtet-stage3\u002F\n```\n\nWe also provide a script that can automatically run these 3 stages.\n```\nbash run.sh gpu_id text_prompt\n```\n\nFor example, \n```\nbash run.sh 0 \"A pineapple.\"\n```\n\n**Limitations:** (1) Our work ultilizes the original Stable Diffusion without any 3D data, thus the multi-face Janus problem is prevalent in the results. Ultilizing text-to-image diffusion which has been finetuned on multi-view images will alleviate this problem.\n(2) If the results are not satisfactory, try different seeds. This is helpful if the results have a good quality but suffer from the multi-face Janus problem.\n\n## TODO List\n- [x] Release our code.\n- [ ] Combine MVDream with VSD to alleviate the multi-face problem.\n\n## Related Links\n- ProlificDreamer is also integrated in [Threestudio](https:\u002F\u002Fgithub.com\u002Fthreestudio-project\u002Fthreestudio) library ❤️.\n- [DreamCraft3D](https:\u002F\u002Fmrtornado24.github.io\u002FDreamCraft3D\u002F)\n- [Fantasia3D](https:\u002F\u002Ffantasia3d.github.io\u002F)\n- [Magic3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fmagic3d\u002F)\n- [DreamFusion](https:\u002F\u002Fdreamfusion3d.github.io\u002F)\n- [SJC](https:\u002F\u002Fpals.ttic.edu\u002Fp\u002Fscore-jacobian-chaining)\n- [Latent-NeRF](https:\u002F\u002Fgithub.com\u002Feladrich\u002Flatent-nerf)\n\n## BibTeX\nIf you find our work useful for your project, please consider citing the following paper.\n\n```\n@inproceedings{wang2023prolificdreamer,\n  title={ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation},\n  author={Zhengyi Wang and Cheng Lu and Yikai Wang and Fan Bao and Chongxuan Li and Hang Su and Jun Zhu},\n  booktitle={Advances in Neural Information Processing Systems (NeurIPS)},\n  year={2023}\n}\n```\n","# 多产梦者\n\n官方实现 *[ProlificDreamer：基于变分分数蒸馏的高保真度与多样化文本到3D生成]*，发表于 NeurIPS 2023（亮点论文）。\n\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_prolificdreamer_readme_32c69c5c6e80.png\">\n\u003C\u002Fp>\n\n## 安装\n\n该代码库基于 [stable-dreamfusion](https:\u002F\u002Fgithub.com\u002Fashawkey\u002Fstable-dreamfusion) 构建。安装步骤如下：\n```\npip install -r requirements.txt\n```\n\n## 训练\nProlificDreamer 包含三个阶段，用于实现高保真度的文本到3D生成。\n```\n# --------- 第一阶段（NeRF，VSD 引导） --------- #\n# 此阶段约需 27GB 显存，渲染分辨率为 512x512\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 25000 --lambda_entropy 10 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1\u002F\n# 如果发现结果模糊，可以增大 --lambda_entropy 参数值。例如：\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 25000 --lambda_entropy 100 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1\u002F\n# 使用多个粒子进行生成。请注意，多粒子生成仅在第一阶段支持。\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 100000 --lambda_entropy 10 --scale 7.5 --n_particles 4 --h 512  --w 512 --t5_iters 20000 --workspace exp-nerf-stage1\u002F\n\n# --------- 第二阶段（几何精炼） --------- #\n# 此阶段所需显存小于 20GB\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage1\u002Fckpt --normal True --sds True --density_thresh 0.1 --lambda_normal 5000 --workspace exp-dmtet-stage2\u002F\n# 若生成结果中存在大量浮动面片，可适当提高 --density_thresh 的值。请注意，--density_thresh 的值在第二、第三阶段必须保持一致。\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage1\u002Fckpt --normal True --sds True --density_thresh 0.4 --lambda_normal 5000 --workspace exp-dmtet-stage2\u002F\n\n# --------- 第三阶段（纹理化，VSD 引导） --------- #\n# 使用 512x512 分辨率的光栅化进行纹理化\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"一个菠萝。\" --iters 30000 --scale 7.5 --dmtet --mesh_idx 0  --init_ckpt \u002Fpath\u002Fto\u002Fstage2\u002Fckpt --density_thresh 0.1 --finetune True --workspace exp-dmtet-stage3\u002F\n```\n\n我们还提供了一个脚本，可自动运行这三个阶段。\n```\nbash run.sh gpu_id text_prompt\n```\n\n例如：\n```\nbash run.sh 0 \"一个菠萝。\"\n```\n\n**局限性：** (1) 我们的工作使用了原始的 Stable Diffusion 模型，未引入任何3D数据，因此生成结果中普遍存在多面性问题。若采用经过多视角图像微调的文本到图像扩散模型，则可有效缓解这一问题。\n(2) 若生成效果不理想，请尝试更换不同的随机种子。当生成质量较好但存在多面性问题时，此方法尤为有效。\n\n## 待办事项\n- [x] 发布我们的代码。\n- [ ] 将 MVDream 与 VSD 结合，以缓解多面性问题。\n\n## 相关链接\n- ProlificDreamer 已集成至 [Threestudio](https:\u002F\u002Fgithub.com\u002Fthreestudio-project\u002Fthreestudio) 库 ❤️。\n- [DreamCraft3D](https:\u002F\u002Fmrtornado24.github.io\u002FDreamCraft3D\u002F)\n- [Fantasia3D](https:\u002F\u002Ffantasia3d.github.io\u002F)\n- [Magic3D](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fdir\u002Fmagic3d\u002F)\n- [DreamFusion](https:\u002F\u002Fdreamfusion3d.github.io\u002F)\n- [SJC](https:\u002F\u002Fpals.ttic.edu\u002Fp\u002Fscore-jacobian-chaining)\n- [Latent-NeRF](https:\u002F\u002Fgithub.com\u002Feladrich\u002Flatent-nerf)\n\n## BibTeX\n若您认为我们的工作对您的项目有所帮助，请考虑引用以下论文：\n\n```\n@inproceedings{wang2023prolificdreamer,\n  title={ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation},\n  author={Zhengyi Wang and Cheng Lu and Yikai Wang and Fan Bao and Chongxuan Li and Hang Su and Jun Zhu},\n  booktitle={Advances in Neural Information Processing Systems (NeurIPS)},\n  year={2023}\n}\n```","# ProlificDreamer 快速上手指南\n\nProlificDreamer 是一个基于变分分数蒸馏（VSD）的高保真、多样化文本生成 3D 模型开源项目，发表于 NeurIPS 2023。本指南将帮助你快速在本地部署并运行该工具。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **GPU**: 需要 NVIDIA GPU\n    *   **阶段 1 (NeRF)**: 约需 27GB 显存 (渲染分辨率 512x512)\n    *   **阶段 2 & 3**: 约需 \u003C20GB 显存\n*   **软件依赖**:\n    *   Python 3.x\n    *   CUDA Toolkit (版本需与 PyTorch 匹配)\n    *   Git\n\n> **注意**: 该项目基于 `stable-dreamfusion` 构建，请确保你的驱动和 CUDA 环境已正确配置以支持深度学习训练。\n\n## 安装步骤\n\n克隆代码库后，使用 pip 安装所需依赖。国内用户建议使用清华或阿里镜像源加速安装。\n\n```bash\n# 克隆仓库 (如果尚未克隆)\ngit clone https:\u002F\u002Fgithub.com\u002Fashawkey\u002Fprolificdreamer.git\ncd prolificdreamer\n\n# 安装依赖 (推荐使用国内镜像源)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\nProlificDreamer 的生成过程分为三个阶段：**阶段 1 (NeRF 初始化)**、**阶段 2 (几何细化)** 和 **阶段 3 (纹理优化)**。\n\n### 方式一：一键自动运行（推荐）\n\n项目提供了脚本自动依次执行上述三个阶段，最适合快速上手。\n\n```bash\n# 用法：bash run.sh [GPU ID] \"[文本提示词]\"\n# 示例：在 GPU 0 上生成一个菠萝\nbash run.sh 0 \"A pineapple.\"\n```\n\n### 方式二：分阶段手动运行\n\n如果你需要自定义参数或调试特定阶段，可以按以下步骤手动执行。请将 `\u002Fpath\u002Fto\u002FstageX\u002Fckpt` 替换为上一阶段实际生成的检查点路径。\n\n#### 阶段 1：NeRF 初始化 (VSD 引导)\n此阶段消耗显存较大，生成基础 NeRF 表示。\n```bash\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 25000 --lambda_entropy 10 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1\u002F\n```\n*提示：如果结果模糊，可尝试增加 `--lambda_entropy` (例如设为 100)。*\n\n#### 阶段 2：几何细化\n基于阶段 1 的结果提取并优化网格几何。\n```bash\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt exp-nerf-stage1\u002Fcheckpoints\u002Fxxx.ckpt --normal True --sds True --density_thresh 0.1 --lambda_normal 5000 --workspace exp-dmtet-stage2\u002F\n```\n*提示：如果结果包含过多漂浮物，可增加 `--density_thresh` (例如设为 0.4)，且该值需在阶段 2 和 3 保持一致。*\n\n#### 阶段 3：纹理优化 (VSD 引导)\n对网格进行高分辨率纹理渲染和微调。\n```bash\nCUDA_VISIBLE_DEVICES=0 python main.py --text \"A pineapple.\" --iters 30000 --scale 7.5 --dmtet --mesh_idx 0  --init_ckpt exp-dmtet-stage2\u002Fcheckpoints\u002Fxxx.ckpt --density_thresh 0.1 --finetune True --workspace exp-dmtet-stage3\u002F\n```\n\n生成完成后，结果将保存在对应的 `workspace` 目录中。","一家独立游戏工作室的美术设计师正急需为即将上线的奇幻 RPG 项目批量制作高保真的 3D 道具资产，如“发光的魔法菠萝”或“古老的机械罗盘”，以填充游戏场景。\n\n### 没有 prolificdreamer 时\n- **模型细节模糊**：使用早期 Text-to-3D 工具生成的模型表面往往充满噪点或呈雾状，缺乏清晰的纹理细节，无法直接用于近景展示。\n- **几何结构粗糙**：生成的网格拓扑结构混乱，边缘锯齿严重，后续需要人工花费数小时进行重拓扑和修复才能导入游戏引擎。\n- **多样性匮乏**：多次尝试生成同一提示词时，结果高度雷同，难以获得风格迥异的变体供策划团队挑选。\n- **渲染资源消耗大**：为了勉强提升画质，不得不极大幅度增加迭代次数，导致单张卡片生成耗时过长，严重拖慢迭代节奏。\n\n### 使用 prolificdreamer 后\n- **高保真纹理呈现**：借助变分分数蒸馏（VSD）技术，prolificdreamer 能直接生成具有锐利细节和丰富色彩的高分辨率纹理，无需后期手绘修补。\n- **精准几何细化**：其特有的三阶段训练流程（特别是几何细化阶段）能自动构建平滑且结构合理的网格，大幅减少人工修模工作量。\n- **多样化产出能力**：通过调整粒子数量（n_particles）和随机种子，prolificdreamer 能基于同一描述快速产出多种形态各异的高质量模型，激发创意灵感。\n- **高效显存管理**：在保持 512x512 高分辨率渲染的同时，prolificdreamer 优化了显存占用，使得在单张消费级显卡上也能流畅完成复杂资产的生成。\n\nprolificdreamer 将原本需要数天手工建模的 3D 资产创作过程缩短至小时级，同时确保了影视级的视觉 fidelity，真正实现了文本到 3D 的高效工业化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthu-ml_prolificdreamer_32c69c5c.png","thu-ml","TSAIL group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthu-ml_852ca511.jpg","Tsinghua Statistical Artificial Intelligence & Learning Group",null,"https:\u002F\u002Fml.cs.tsinghua.edu.cn","https:\u002F\u002Fgithub.com\u002Fthu-ml",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"Python","#3572A5",79.5,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",18.4,{"name":91,"color":92,"percentage":93},"C","#555555",1.3,{"name":95,"color":96,"percentage":97},"C++","#f34b7d",0.5,{"name":99,"color":100,"percentage":101},"Shell","#89e051",0.3,1565,47,"2026-03-23T02:12:06","Apache-2.0",4,"Linux","必需 NVIDIA GPU。阶段 1 需要约 27GB 显存（渲染分辨率 512x512）；阶段 2 需要小于 20GB 显存。命令中使用了 CUDA_VISIBLE_DEVICES，暗示需要 CUDA 环境。","未说明",{"notes":111,"python":109,"dependencies":112},"该工具基于 stable-dreamfusion 构建。训练分为三个阶段：阶段 1（NeRF, VSD 引导）显存需求最高（约 27GB），支持多粒子生成；阶段 2（几何细化）显存需求\u003C20GB；阶段 3（纹理化）。若结果出现雾气可增加 lambda_entropy，若出现漂浮物可增加 density_thresh。目前存在多面 Janus 问题（物体多个面相同），建议使用不同种子重试或等待后续结合 MVDream 的更新。提供了自动运行三个阶段的脚本 run.sh。",[113,114,115],"stable-dreamfusion (基础代码库)","torch (隐含)","CUDA (隐含)",[15,117],"其他",[119,120,121,122,65,123],"diffusion-model","dreamfusion","nerf","text-to-3d","stablediffusion","2026-03-27T02:49:30.150509","2026-04-15T06:08:27.254396",[127,132,137,142,147,152],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},33691,"代码何时发布？","项目代码已经发布。如果您看到此类提问，通常是因为时间较早或网络延迟。请检查仓库的主页或 README 文件以获取最新的代码和安装说明。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F1",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},33692,"构建时遇到 'ninja: build stopped: subcommand failed' 错误如何解决？","该错误通常由 PyTorch 版本不兼容引起。解决方案是将 torch 版本降级至 1.13.0。您可以使用以下命令进行安装：\npip install torch==1.13.0","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F13",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},33693,"是否可以使用稀疏的多视角图像来训练 NeRF 或 3D GS 模型？","可以。维护者表示这个想法是合理的，VSD（Variational Score Distillation）方法特别有助于提升未见过的视角（如俯视角度）的生成质量。您可以尝试使用该方法来处理稀疏视角下的完整 3D 模型重建。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F22",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},33694,"UNet 的学习率调度器（lr_scheduler）对 LoRA 训练重要吗？","根据维护者的回复，目前尚未针对此进行专门的消融实验。因此，不同的学习率调度器选择可能都能正常工作，您可以根据具体实验效果进行调整，不必过于拘泥于特定配置。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F24",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},33695,"如何复现论文中的 2D 实验结果？有官方代码吗？","官方暂未直接提供 2D 实验的代码，但社区已经有一个高质量的非官方实现可供参考和使用。您可以访问以下仓库获取代码：\nhttps:\u002F\u002Fgithub.com\u002Fyuanzhi-zhu\u002Fprolific_dreamer2d","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F14",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},33696,"项目主页链接显示 '502 Bad Gateway' 无法访问怎么办？","该问题已被修复。如果您仍遇到无法访问的情况，可能是暂时的网络波动，请稍后重试或直接访问 GitHub 仓库页面获取最新信息。","https:\u002F\u002Fgithub.com\u002Fthu-ml\u002Fprolificdreamer\u002Fissues\u002F3",[]]