ngp_pl

1.3k 152 困难 1 次阅读 6天前MIT开发框架其他

AI 解读由 AI 自动生成，仅供参考

ngp_pl 是一个基于 PyTorch 和 CUDA 实现的开源项目，旨在复现并优化著名的 Instant-NGP（即时神经辐射场）算法。它利用 PyTorch Lightning 框架进行训练管理，核心目标是在保持极高渲染质量的同时，实现分钟级甚至秒级的快速训练速度，且代码结构简洁易读，便于理解与二次开发。

该工具主要解决了传统 NeRF 技术训练耗时过长、代码实现复杂难以复现的痛点。通过集成高效的 CUDA 算子，ngp_pl 大幅降低了神经辐射场的计算门槛，让研究人员能够快速验证新想法，无需在底层优化上耗费过多精力。

ngp_pl 特别适合计算机视觉领域的研究人员、AI 开发者以及对 3D 重建技术有深入需求的技术人员使用。对于希望快速上手 NeRF 相关研究或需要处理自定义数据集（支持 Colmap、NSVF 等多种格式）的团队，这是一个理想的基准代码库。

其技术亮点在于将原本复杂的 C++/CUDA 实现封装为清晰的 PyTorch 接口，不仅支持多 GPU 并行训练以进一步加速，还提供了良好的扩展性。虽然项目对硬件环境（如 NVIDIA 显卡算力及显存）有特定要求，但其高效的性能表现使其成为探索高质量 3D 场景重建的有力工具。

使用场景

某数字孪生团队需要为大型工业厂房快速构建高保真 3D 导航模型，以便在网页端进行沉浸式巡检演示。

没有 ngp_pl 时

训练周期漫长：使用传统 NeRF 实现渲染一张高清图需数秒，完成整个场景训练往往耗时数天甚至数周，严重拖慢项目交付进度。
代码复用困难：官方 Instant-NGP 基于 CUDA/C++ 编写，逻辑复杂且难以修改，算法研究人员想尝试改进网络结构时往往无从下手。
硬件门槛极高：为了在可接受时间内完成训练，必须依赖多张顶级显卡并行计算，导致云算力成本居高不下。
自定义数据适配难：面对现场采集的非标准 Colmap 格式数据，缺乏灵活的接口进行快速预处理和微调，数据清洗占用大量人力。

使用 ngp_pl 后

分钟级极速训练：借助 PyTorch+CUDA 的高效实现，利用单张 RTX 2080 Ti 即可在几分钟内完成高质量模型训练，实现“当天采集、当天交付”。
科研友好架构：基于 PyTorch-Lightning 封装，核心代码简洁可读，开发人员仅需几行代码即可调整超参数或嵌入新模块，极大加速算法迭代。
单卡高效运行：优化的显存管理使得中端显卡也能胜任复杂场景重建，显著降低了硬件投入和云端租赁费用。
灵活数据支持：原生支持 Colmap 及多种自定义数据集格式，团队可直接导入现场拍摄的厂房照片序列，无需繁琐的数据转换流程。

ngp_pl 通过将工业级渲染速度与研究级代码灵活性完美结合，让高保真 3D 重建从“昂贵实验”变成了“日常工具”。

运行环境要求

操作系统

Linux (Ubuntu 20.04)

GPU

必需 NVIDIA GPU，计算能力 >= 7.5，显存 > 6GB (测试于 RTX 2080 Ti)，CUDA 11.3

内存

32GB

依赖

notes该项目对依赖库有严格要求，作者明确表示无意支持硬件/软件不匹配的其他平台（如非 Ubuntu 系统）。安装 CUDA 扩展前需将 pip 升级至 22.1 以上。自定义数据需使用 Colmap 格式。每次拉取代码后需重新编译安装 CUDA 扩展。

python>=3.8

torch==1.11.0

torch-scatter

tinycudann

apex

pytorch-lightning

快速开始

ngp_pl

广告：快来了解一下最新的集成项目 nerfstudio 吧！最近在 NeRF 相关方法上有很多改进，其中就包括 Instant-NGP！

Instant-NGP（仅适用于 NeRF）基于 PyTorch 和 CUDA，并使用 PyTorch Lightning 进行训练（高质量且速度快）。本仓库旨在提供一个简洁的 PyTorch 接口，以促进未来的研究。如果你能分享这个项目，我将不胜感激；同时，也欢迎引用！

官方 CUDA 实现
torch-ngp，另一个我高度参考的 PyTorch 实现。

:paintbrush: 作品集

https://user-images.githubusercontent.com/11364490/181671484-d5e154c8-6cea-4d52-94b5-1e5dd92955f2.mp4

其他代表性视频请参阅 GALLERY.md。

:computer: 安装

由于依赖于其他库，本实现对环境有严格的要求。如果因硬件或软件不兼容导致安装问题，很抱歉我们无意支持不同的平台（欢迎贡献）。

硬件

操作系统：Ubuntu 20.04
NVIDIA GPU，计算能力 ≥ 75，显存 > 6GB（已测试 RTX 2080 Ti），CUDA 11.3（较旧版本也可能适用）
32GB 内存（以便加载全尺寸图像）

软件

克隆本仓库：git clone https://github.com/kwea123/ngp_pl
Python≥3.8（推荐使用 Anaconda 安装，可执行 conda create -n ngp_pl python=3.8 创建 Conda 环境，并用 conda activate ngp_pl 激活）
Python 库
- 使用 pip install torch==1.11.0 --extra-index-url https://download.pytorch.org/whl/cu113 安装 PyTorch
- 按照 torch-scatter 的说明安装 torch-scatter
- 按照 tiny-cuda-nn 的说明安装 tinycudann（PyTorch 扩展）
- 按照 NVIDIA Apex 的说明安装 apex
- 使用 pip install -r requirements.txt 安装核心依赖项
CUDA 扩展：将 pip 升级到 ≥ 22.1，并运行 pip install models/csrc/（每次拉取代码后请重新运行此命令）

:books: 支持的数据集

NSVF 数据

从 NSVF 下载预处理好的数据集（Synthetic_NeRF、Synthetic_NSVF、BlendedMVS、TanksAndTemples）。请勿更改文件夹名称，因为我的数据加载器中有一些硬编码的修复。

NeRF++ 数据

从这里下载数据。

Colmap 数据

对于自定义数据，运行 Colmap 并生成 sparse/0 文件夹，其中包含 cameras.bin、images.bin 和 points3D.bin。以下具有 Colmap 格式的数据也被支持：

nerf_llff_data
mipnerf360 数据
HDR-NeRF 数据。此外，请从这里下载我的 Colmap 姿态估计文件，并解压到相同位置。

RTMV 数据

从这里下载数据。为了将 HDR 图像转换为 LDR 图像用于训练，运行 python misc/prepare_rtmv.py <path/to/RTMV>，它会在每个场景文件夹下创建 images/ 文件夹，并使用这些图像进行训练（以及测试）。

:key: 训练

快速入门：python train.py --root_dir <path/to/lego> --exp_name Lego

这将对乐高场景进行 30,000 步训练（每步 8,192 条光线），并在最后进行一次测试。整个训练过程大约需要 5 分钟完成（保存测试图像较慢，可添加 --no_save_test 来禁用）。最后会显示测试 PSNR。

更多选项请参阅 opt.py。

对于其他公开数据集的训练，请参考 benchmarking 目录下的脚本。

:mag_right: 测试

使用 test.ipynb 生成图像。乐高预训练模型可在这里获取。

GUI 使用方法：运行 python show_gui.py，并输入与训练时 完全相同 的超参数（dataset_name、root_dir 等），然后通过 --ckpt_path <path/to/.ckpt> 添加检查点路径。

与 torch-ngp 及论文的对比

我将质量（在 Synthetic-NeRF 上的平均测试 PSNR）和推理速度（在 Lego 场景上）与同期工作 torch-ngp（默认设置）以及论文中的方法进行了比较，所有实验均训练约 5 分钟：

方法	平均 PSNR	FPS	GPU
torch-ngp	31.46	18.2	2080 Ti
我的方法	32.96	36.2	2080 Ti
instant-ngp 论文	33.18	60	3090

在质量方面，我的方法略优于 torch-ngp，但结果可能会因不同运行而有所波动。

在速度方面，我的方法比 torch-ngp 快，但仍仅为 instant-ngp 的一半。速度取决于场景（如果场景大部分为空，则速度会更快）。

^{左：torch-ngp。右：我的方法。}

：图表：基准测试

要运行基准测试，请使用 benchmarking 目录下的脚本。

以下是我使用 1 张 RTX 2080 Ti 显卡训练得到的结果（定性结果见这里）：

合成-NeRF

	微型场景	榕树	椅子	热狗	材质	鼓	船	乐高	平均
PSNR	35.59	34.13	35.28	37.35	29.46	25.81	30.32	35.76	32.96
SSIM	0.988	0.982	0.984	0.980	0.944	0.933	0.890	0.979	0.960
LPIPS	0.017	0.024	0.025	0.038	0.070	0.076	0.133	0.022	0.051
FPS	40.81	34.02	49.80	25.06	20.08	37.77	15.77	36.20	32.44
训练时间	3分9秒	3分12秒	4分17秒	5分53秒	4分55秒	4分7秒	9分20秒	5分5秒	5分00秒

合成-NSVF

	酒架	蒸汽火车	牛蛙	机器人	自行车	宫殿	宇宙飞船	生活方式	平均
PSNR	31.64	36.47	35.57	37.10	37.87	37.41	35.58	34.76	35.80
SSIM	0.962	0.987	0.980	0.994	0.990	0.977	0.980	0.967	0.980
LPIPS	0.047	0.023	0.024	0.010	0.015	0.021	0.029	0.044	0.027
FPS	47.07	75.17	50.42	64.87	66.88	28.62	35.55	22.84	48.93
训练时间	3分58秒	3分44秒	7分22秒	3分25秒	3分11秒	6分45秒	3分25秒	4分56秒	4分36秒

坦克与寺庙

	伊格纳修斯	卡车	谷仓	毛毛虫	家庭	平均
PSNR	28.30	27.67	28.00	26.16	34.27	28.78
*FPS	10.04	7.99	16.14	10.91	6.16	10.25

*在 test-traj 上评估

BlendedMVS

	*玉器	*喷泉	角色	雕像	平均
PSNR	25.43	26.82	30.43	26.79	27.38
**FPS	26.02	21.24	35.99	19.22	25.61
训练时间	6分31秒	7分15秒	4分50秒	5分57秒	6分48秒

*我手动将背景从黑色改为白色，因此该数值无法直接与论文中的数据进行比较。

**在 test-traj 上评估

#待办事项

在 GUI 中使用超分辨率技术以提升 FPS
使用多球面图像作为背景

ngp_pl 快速上手指南

ngp_pl 是一个基于 PyTorch + CUDA 实现的 Instant-NGP（NeRF）项目，旨在提供简洁的接口以实现高质量与高速度的训练。本指南将帮助你快速在本地部署并运行该工具。

1. 环境准备

本项目对硬件和软件版本有严格要求，请确保满足以下条件以避免兼容性问题。

硬件要求

操作系统: Ubuntu 20.04 (其他平台未官方支持)
GPU: NVIDIA GPU，计算能力 (Compute Capability) >= 7.5，显存 > 6GB (推荐 RTX 2080 Ti 或更高)
内存: 32GB RAM (用于加载全尺寸图像)
CUDA 版本: 11.3

软件依赖

Python >= 3.8
Git

2. 安装步骤

建议使用 Conda 创建独立的虚拟环境。

第一步：克隆代码与创建环境

git clone https://github.com/kwea123/ngp_pl
cd ngp_pl

# 创建并激活 conda 环境
conda create -n ngp_pl python=3.8
conda activate ngp_pl

第二步：安装核心依赖

按顺序安装以下组件，注意 PyTorch 版本必须匹配 CUDA 11.3。

安装 PyTorch:
```
pip install torch==1.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
```
(国内用户可使用清华源加速：pip install torch==1.11.0 --extra-index-url https://download.pytorch.org/whl/cu113 -i https://pypi.tuna.tsinghua.edu.cn/simple)
安装 torch-scatter: 请参考官方安装指令，通常命令如下（需根据具体环境调整 wheel 地址）：
```
pip install torch-scatter -f https://data.pyg.org/whl/torch-1.11.0+cu113.html
```

安装 tinycudann (PyTorch 扩展): 请参考官方安装指令。

pip install git+https://github.com/NVlabs/tiny-cuda-nn/#subdirectory=bindings/torch

安装 apex: 请参考官方安装指令。通常需要源码安装：

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./
cd ..

安装项目其余依赖:
```
pip install -r requirements.txt
```

第三步：编译 CUDA 扩展

重要：每次拉取（pull）新代码后，都必须重新执行此步骤。请先升级 pip 至 22.1 以上。

pip install --upgrade pip "pip>=22.1"
pip install models/csrc/

3. 基本使用

数据准备

本项目支持多种数据集格式（NSVF, NeRF++, Colmap, RTMV）。以经典的 Lego 场景为例，你需要先下载预处理好的 NSVF 数据集（包含 Synthetic_NeRF 等），并确保文件夹名称未被修改。

开始训练

使用以下命令快速启动训练。以下示例将训练 Lego 场景 30k 步（约 5 分钟），并在结束时进行一次测试。

python train.py --root_dir <path/to/lego> --exp_name Lego

<path/to/lego>: 替换为你本地数据集的实际路径。
训练结束后会显示测试 PSNR。若不想保存测试图像以加快速度，可添加 --no_save_test 参数。

推理与可视化

训练完成后，你可以使用 Jupyter Notebook 生成图像，或使用 GUI 进行交互式查看。

方式一：使用 Notebook 生成图像 运行 test.ipynb，加载预训练模型或你刚刚训练的 checkpoint。 Lego 预训练模型下载地址: Releases v1.0

方式二：使用 GUI 交互查看 运行以下命令启动图形界面。注意：必须传入与训练时完全相同的超参数（如 dataset_name, root_dir 等），并指定检查点路径。

python show_gui.py --dataset_name synthetic_nerf --root_dir <path/to/lego> --ckpt_path <path/to/your_model.ckpt>

性能参考

在单张 RTX 2080 Ti 上，Lego 场景的训练时间约为 5 分钟，推理速度可达 36 FPS 左右，质量略优于同类的 torch-ngp 实现。

版本历史

v2.02022/12/25

v1.02022/07/04

常见问题

训练过程中进程被杀死（Killed）或遇到内存不足（OOM）错误怎么办？

如何在合成场景（如 Lego 数据集）中获得最佳的复现结果和 PSNR？

遇到 'ValueError' 或与 GPU 架构相关的警告（FullyFusedMLP not supported）导致训练失败如何解决？

验证阶段（Validation DataLoader）内存占用过高（如超过 29GB）如何解决？

基准测试表中的 FPS 是什么意思？它是基于什么条件测得的？

该项目是否支持多 GPU（Multi-GPU）分布式训练？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent