prolificdreamer

1.6k 47 较难 1 次阅读 3周前Apache-2.0图像其他

AI 解读由 AI 自动生成，仅供参考

ProlificDreamer 是一款专注于高保真度与多样化生成的开源 AI 工具，能够直接将文字描述转化为高质量的 3D 模型。作为 NeurIPS 2023 的亮点研究成果，它主要解决了现有文生 3D 技术中常见的图像模糊、细节丢失以及生成结果单一等痛点，显著提升了模型的几何精度和纹理丰富度。

该工具的核心技术亮点在于引入了“变分分数蒸馏”（Variational Score Distillation, VSD）算法。不同于传统方法，ProlificDreamer 通过三个阶段的精细化流程——从基于神经辐射场（NeRF）的初步构建，到几何结构的深度优化，再到高分辨率的纹理渲染——逐步打磨模型细节。这种分阶段策略使其能够在无需额外 3D 训练数据的情况下，利用现有的 Stable Diffusion 模型生成极具真实感的 3D 资产。

ProlificDreamer 非常适合从事计算机图形学、人工智能研究的研究人员，以及需要快速原型设计的 3D 开发者使用。虽然其功能强大，但目前仍需通过命令行配置参数进行训练，对用户的编程基础和 GPU 硬件资源有一定要求，因此暂时不太适合完全零技术的普通大众用户。对于希望探索前沿文生 3D 技术或需要高质量自定义 3D 内容的专业团队而言，这是一个极具价值的开源项目。

使用场景

一家独立游戏工作室的美术设计师正急需为即将上线的奇幻 RPG 项目批量制作高保真的 3D 道具资产，如“发光的魔法菠萝”或“古老的机械罗盘”，以填充游戏场景。

没有 prolificdreamer 时

模型细节模糊：使用早期 Text-to-3D 工具生成的模型表面往往充满噪点或呈雾状，缺乏清晰的纹理细节，无法直接用于近景展示。
几何结构粗糙：生成的网格拓扑结构混乱，边缘锯齿严重，后续需要人工花费数小时进行重拓扑和修复才能导入游戏引擎。
多样性匮乏：多次尝试生成同一提示词时，结果高度雷同，难以获得风格迥异的变体供策划团队挑选。
渲染资源消耗大：为了勉强提升画质，不得不极大幅度增加迭代次数，导致单张卡片生成耗时过长，严重拖慢迭代节奏。

使用 prolificdreamer 后

高保真纹理呈现：借助变分分数蒸馏（VSD）技术，prolificdreamer 能直接生成具有锐利细节和丰富色彩的高分辨率纹理，无需后期手绘修补。
精准几何细化：其特有的三阶段训练流程（特别是几何细化阶段）能自动构建平滑且结构合理的网格，大幅减少人工修模工作量。
多样化产出能力：通过调整粒子数量（n_particles）和随机种子，prolificdreamer 能基于同一描述快速产出多种形态各异的高质量模型，激发创意灵感。
高效显存管理：在保持 512x512 高分辨率渲染的同时，prolificdreamer 优化了显存占用，使得在单张消费级显卡上也能流畅完成复杂资产的生成。

prolificdreamer 将原本需要数天手工建模的 3D 资产创作过程缩短至小时级，同时确保了影视级的视觉 fidelity，真正实现了文本到 3D 的高效工业化落地。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
阶段 1 需要约 27GB 显存（渲染分辨率 512x512）
阶段 2 需要小于 20GB 显存
命令中使用了 CUDA_VISIBLE_DEVICES，暗示需要 CUDA 环境

内存

未说明

依赖

notes该工具基于 stable-dreamfusion 构建。训练分为三个阶段：阶段 1（NeRF, VSD 引导）显存需求最高（约 27GB），支持多粒子生成；阶段 2（几何细化）显存需求<20GB；阶段 3（纹理化）。若结果出现雾气可增加 lambda_entropy，若出现漂浮物可增加 density_thresh。目前存在多面 Janus 问题（物体多个面相同），建议使用不同种子重试或等待后续结合 MVDream 的更新。提供了自动运行三个阶段的脚本 run.sh。

python未说明

stable-dreamfusion (基础代码库)

torch (隐含)

CUDA (隐含)

快速开始

多产梦者

官方实现 [ProlificDreamer：基于变分分数蒸馏的高保真度与多样化文本到3D生成]，发表于 NeurIPS 2023（亮点论文）。

安装

该代码库基于 stable-dreamfusion 构建。安装步骤如下：

pip install -r requirements.txt

训练

ProlificDreamer 包含三个阶段，用于实现高保真度的文本到3D生成。

# --------- 第一阶段（NeRF，VSD 引导） --------- #
# 此阶段约需 27GB 显存，渲染分辨率为 512x512
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 25000 --lambda_entropy 10 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1/
# 如果发现结果模糊，可以增大 --lambda_entropy 参数值。例如：
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 25000 --lambda_entropy 100 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1/
# 使用多个粒子进行生成。请注意，多粒子生成仅在第一阶段支持。
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 100000 --lambda_entropy 10 --scale 7.5 --n_particles 4 --h 512  --w 512 --t5_iters 20000 --workspace exp-nerf-stage1/

# --------- 第二阶段（几何精炼） --------- #
# 此阶段所需显存小于 20GB
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt /path/to/stage1/ckpt --normal True --sds True --density_thresh 0.1 --lambda_normal 5000 --workspace exp-dmtet-stage2/
# 若生成结果中存在大量浮动面片，可适当提高 --density_thresh 的值。请注意，--density_thresh 的值在第二、第三阶段必须保持一致。
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt /path/to/stage1/ckpt --normal True --sds True --density_thresh 0.4 --lambda_normal 5000 --workspace exp-dmtet-stage2/

# --------- 第三阶段（纹理化，VSD 引导） --------- #
# 使用 512x512 分辨率的光栅化进行纹理化
CUDA_VISIBLE_DEVICES=0 python main.py --text "一个菠萝。" --iters 30000 --scale 7.5 --dmtet --mesh_idx 0  --init_ckpt /path/to/stage2/ckpt --density_thresh 0.1 --finetune True --workspace exp-dmtet-stage3/

我们还提供了一个脚本，可自动运行这三个阶段。

bash run.sh gpu_id text_prompt

例如：

bash run.sh 0 "一个菠萝。"

局限性： (1) 我们的工作使用了原始的 Stable Diffusion 模型，未引入任何3D数据，因此生成结果中普遍存在多面性问题。若采用经过多视角图像微调的文本到图像扩散模型，则可有效缓解这一问题。 (2) 若生成效果不理想，请尝试更换不同的随机种子。当生成质量较好但存在多面性问题时，此方法尤为有效。

待办事项

发布我们的代码。
将 MVDream 与 VSD 结合，以缓解多面性问题。

BibTeX

若您认为我们的工作对您的项目有所帮助，请考虑引用以下论文：

@inproceedings{wang2023prolificdreamer,
  title={ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation},
  author={Zhengyi Wang and Cheng Lu and Yikai Wang and Fan Bao and Chongxuan Li and Hang Su and Jun Zhu},
  booktitle={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2023}
}

ProlificDreamer 快速上手指南

ProlificDreamer 是一个基于变分分数蒸馏（VSD）的高保真、多样化文本生成 3D 模型开源项目，发表于 NeurIPS 2023。本指南将帮助你快速在本地部署并运行该工具。

环境准备

操作系统: Linux (推荐 Ubuntu)
GPU: 需要 NVIDIA GPU
- 阶段 1 (NeRF): 约需 27GB 显存 (渲染分辨率 512x512)
- 阶段 2 & 3: 约需 <20GB 显存
软件依赖:
- Python 3.x
- CUDA Toolkit (版本需与 PyTorch 匹配)
- Git

注意: 该项目基于 stable-dreamfusion 构建，请确保你的驱动和 CUDA 环境已正确配置以支持深度学习训练。

安装步骤

克隆代码库后，使用 pip 安装所需依赖。国内用户建议使用清华或阿里镜像源加速安装。

# 克隆仓库 (如果尚未克隆)
git clone https://github.com/ashawkey/prolificdreamer.git
cd prolificdreamer

# 安装依赖 (推荐使用国内镜像源)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

ProlificDreamer 的生成过程分为三个阶段：阶段 1 (NeRF 初始化)、阶段 2 (几何细化) 和 阶段 3 (纹理优化)。

方式一：一键自动运行（推荐）

项目提供了脚本自动依次执行上述三个阶段，最适合快速上手。

# 用法：bash run.sh [GPU ID] "[文本提示词]"
# 示例：在 GPU 0 上生成一个菠萝
bash run.sh 0 "A pineapple."

方式二：分阶段手动运行

如果你需要自定义参数或调试特定阶段，可以按以下步骤手动执行。请将 /path/to/stageX/ckpt 替换为上一阶段实际生成的检查点路径。

阶段 1：NeRF 初始化 (VSD 引导)

此阶段消耗显存较大，生成基础 NeRF 表示。

CUDA_VISIBLE_DEVICES=0 python main.py --text "A pineapple." --iters 25000 --lambda_entropy 10 --scale 7.5 --n_particles 1 --h 512  --w 512 --workspace exp-nerf-stage1/

提示：如果结果模糊，可尝试增加 --lambda_entropy (例如设为 100)。

阶段 2：几何细化

基于阶段 1 的结果提取并优化网格几何。

CUDA_VISIBLE_DEVICES=0 python main.py --text "A pineapple." --iters 15000 --scale 100 --dmtet --mesh_idx 0  --init_ckpt exp-nerf-stage1/checkpoints/xxx.ckpt --normal True --sds True --density_thresh 0.1 --lambda_normal 5000 --workspace exp-dmtet-stage2/

提示：如果结果包含过多漂浮物，可增加 --density_thresh (例如设为 0.4)，且该值需在阶段 2 和 3 保持一致。

阶段 3：纹理优化 (VSD 引导)

对网格进行高分辨率纹理渲染和微调。

CUDA_VISIBLE_DEVICES=0 python main.py --text "A pineapple." --iters 30000 --scale 7.5 --dmtet --mesh_idx 0  --init_ckpt exp-dmtet-stage2/checkpoints/xxx.ckpt --density_thresh 0.1 --finetune True --workspace exp-dmtet-stage3/

生成完成后，结果将保存在对应的 workspace 目录中。

常见问题

代码何时发布？

构建时遇到 'ninja: build stopped: subcommand failed' 错误如何解决？

是否可以使用稀疏的多视角图像来训练 NeRF 或 3D GS 模型？

UNet 的学习率调度器（lr_scheduler）对 LoRA 训练重要吗？

如何复现论文中的 2D 实验结果？有官方代码吗？

项目主页链接显示 '502 Bad Gateway' 无法访问怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

使用场景

没有 prolificdreamer 时

使用 prolificdreamer 后

运行环境要求

快速开始

多产梦者

安装

训练

待办事项

相关链接

BibTeX

ProlificDreamer 快速上手指南

环境准备

安装步骤

基本使用

方式一：一键自动运行（推荐）

方式二：分阶段手动运行

阶段 1：NeRF 初始化 (VSD 引导)

阶段 2：几何细化

阶段 3：纹理优化 (VSD 引导)

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

ComfyUI

gemini-cli

LLMs-from-scratch

Deep-Live-Cam