taichi_3d_gaussian_splatting

747 72 中等 1 次阅读今天Apache-2.0图像开发框架其他

AI 解读由 AI 自动生成，仅供参考

taichi_3d_gaussian_splatting 是一个基于 Taichi 语言开发的开源项目，旨在复现"3D 高斯泼溅（3D Gaussian Splatting）”这一前沿技术。它能够将多视角照片和稀疏点云转化为包含丰富特征的高密度点云，从而实现高质量的实时辐射场渲染。无论是从新角度生成逼真图像，还是合并多个场景对象，它都能轻松胜任，有效解决了传统神经辐射场（NeRF）类算法在场景融合与渲染效率上的痛点。

该项目特别适合计算机视觉研究人员、图形学开发者以及对高性能渲染感兴趣的技术爱好者使用。其核心亮点在于利用 Taichi 语言 bridging Python 的开发效率与 C++/CUDA 的运行性能，使得整个代码库纯由 Python 编写，既易读易维护，又在部分测试中以更少的点数实现了比官方版本更高的图像重建精度（PSNR）。虽然目前主要支持 CUDA 后端且训练速度略逊于官方实现，但其跨平台潜力和自动微分特性为未来扩展留下了广阔空间。如果你希望在不深入底层 CUDA 编程的前提下探索实时 3D 渲染的前沿方案，这是一个值得尝试的工具。

使用场景

某自动驾驶仿真团队需要基于实车采集的多视角视频，快速构建高保真、可实时渲染的城市路口三维场景，用于测试感知算法在极端视角下的表现。

没有 taichi_3d_gaussian_splatting 时

渲染速度慢：传统 NeRF 类方法推理耗时严重，无法在仿真引擎中实现实时的自由视角漫游，导致测试迭代效率极低。
场景融合困难：当需要将不同时间段采集的“路口”与“车辆”模型合并时，神经辐射场往往出现伪影或边界融合不自然，难以动态编辑。
开发门槛高：官方高性能实现依赖复杂的 CUDA 代码，算法工程师若想调整光栅化逻辑或添加新特征，必须精通底层 GPU 编程，维护成本巨大。
显存占用过大：为了达到较高的图像重建质量（PSNR），通常需要数百万个高斯点，对仿真集群的显存资源造成极大压力。

使用 taichi_3d_gaussian_splatting 后

实时渲染流畅：利用可微分光栅化技术，实现了毫秒级的图像合成，仿真器能以高帧率流畅回放任意相机位姿的视角，大幅提升测试覆盖率。
对象合并灵活：得益于点云表示的天然优势，团队轻松将独立训练的车辆与路口高斯模型无缝拼接，且无明显的视觉伪影，支持动态场景构建。
纯 Python 高效开发：基于 Taichi 语言，核心算法完全用 Python 编写却拥有接近 CUDA 的性能，研究人员可直接修改训练逻辑，无需触碰底层 C++/CUDA 代码。
稀疏高效存储：在 Truck 数据集测试中，仅用官方实现约 1/5 的点数（约 43 万点）就达到了更高的 PSNR（25.21 vs 24.88），显著降低了显存占用。

taichi_3d_gaussian_splatting 通过纯 Python 的高性能实现，让开发者在保持实时渲染与高质量重建的同时，极大地降低了三维场景生成的工程门槛与资源成本。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，测试环境为 RTX 3090，需支持 CUDA 12.1（目前仅支持 CUDA 后端）

内存

未说明

依赖

notes代码已在 Ubuntu 20.04.2 LTS 上测试通过。虽然 Taichi 语言理论上支持多后端，但目前该仓库仅支持 CUDA 后端。其他平台可能需要少量修改才能运行。数据集准备需要额外步骤（如使用 COLMAP 或 BlenderNeRF 生成点云和相机参数）。

python3.10.10

torch

torchvision

taichi

pyarrow

pyyaml

tqdm

opencv-python

pillow

numpy

快速开始

taichi_3d_gaussian_splatting

由 Taichi 语言实现的论文《用于实时辐射场渲染的 3D 高斯泼溅》（3D Gaussian Splatting for Real-Time Radiance Field Rendering）的非官方版本。

3D 高斯泼溅的作用是什么？

训练：

该算法以多视角图像、稀疏点云和相机位姿作为输入，利用可微分光栅化器对点云进行训练，最终输出带有额外特征（协方差、颜色信息等）的稠密点云。

drawing
如果将训练过程视为一个模块，可以这样描述：

graph LR
    A[多视角图像] --> B((训练))
    C[稀疏点云] --> B
    D[相机位姿] --> B
    B --> E[带额外特征的稠密点云]

推理：

该算法以带额外特征的稠密点云和任意相机位姿作为输入，使用相同的光栅化器从给定的相机位姿渲染出图像。

graph LR
    C[带额外特征的稠密点云] --> B((推理))
    D[新相机位姿] --> B
    B --> E[图像]

推理结果示例：

https://github.com/wanmeihuali/taichi_3d_gaussian_splatting/assets/18469933/cc760693-636b-4157-ae85-33813f3da54d

由于点云的良好特性，与其他类似 NeRF 的算法相比，该算法在处理场景或物体合并时更加容易。

https://github.com/wanmeihuali/taichi_3d_gaussian_splatting/assets/18469933/bc38a103-e435-4d35-9239-940e605b4552

其他示例结果

左上：本仓库的结果（3万次迭代），右上：真实标签，左下：归一化深度，右下：每像素点数的归一化值

为什么选择 Taichi？

Taichi 是一种用于高性能计算的语言。它旨在弥合以生产力为导向的 Python 语言与以性能和并行性为导向的 C++/CUDA 语言之间的差距。通过使用 Taichi，本项目完全基于 Python 实现，却能达到与 CUDA 实现相当甚至更好的性能。此外，代码也更容易阅读和维护。
Taichi 提供多种后端，包括 CUDA、OpenGL、Metal 等。我们计划未来切换后端以支持更多平台，但目前该项目仅支持 CUDA 后端。
Taichi 提供自动微分功能，尽管当前项目尚未使用，但这对于未来的开发来说是一个非常有用的功能。

当前状态

目前，该项目已在官方实现提供的数据集上进行了测试。对于卡车数据集，本项目仅使用官方实现 1/5 到 1/4 的点数，便能获得略高于官方实现的 PSNR 值。然而，训练和推理的速度仍然慢于官方实现。

官方实现和本实现的结果均在同一数据集上测试。我注意到官方实现的结果与其论文中的结果略有不同，这可能是由于测试分辨率的差异所致。

数据集	来源	PSNR	SSIM	点数
卡车（7k）	论文	23.51	0.840	-
卡车（7k）	官方实现	23.22	-	173万
卡车（7k）	本实现	23.762359619140625	0.835700511932373	约23万
卡车（30k）	论文	25.187	0.879	-
卡车（30k）	官方实现	24.88	-	210万
卡车（30k）	本实现	25.21463966369629	0.8645088076591492	428,687.0

卡车（3万）最新最佳结果：

训练：迭代次数	训练：L1 损失	训练：损失	训练：有效点数	训练：PSNR	训练：SSIM	训练：SSIM 损失	验证：损失	验证：PSNR	验证：SSIM
30000.0	0.02784738875925541	0.04742341861128807	428687.0	25.662137985229492	0.8742724657058716	0.12572753429412842	0.05369199812412262	25.21463966369629	0.8645088076591492

安装

准备包含 PyTorch 和 torchvision 的环境。
克隆本仓库并进入目录。
运行以下命令：

pip install -r requirements.txt
pip install -e .

所有依赖项均可通过 pip 安装。PyTorch/Torchvision 也可以通过 conda 安装。代码已在 Ubuntu 20.04.2 LTS 上使用 Python 3.10.10 测试过。硬件配置为 RTX 3090 显卡和 CUDA 12.1。虽然尚未在其他平台上测试，但经过少量修改后应该也能在其他平台上运行。

数据集

该算法需要整个场景的点云、相机参数以及真实标签图像。点云以 parquet 格式存储，相机参数和真实标签图像以 JSON 格式存储。运行配置则以 YAML 格式存储。我们提供了一个从 Colmap 输出构建数据集的脚本，也可以直接从原始数据构建数据集。

在 Tank and Temple 卡车场景上训练

点击我

**免责声明**：用户需事先获得原始数据集提供者的许可。任何数据的使用都必须遵守数据集所有者的许可协议。

Tank and Temple 数据集中卡车场景是本项目开发的主要数据集。我们在大多数实验中都使用了图像的下采样版本。相机位姿和稀疏点云可以通过 Colmap 轻松生成。预处理后的图像、预生成的相机位姿和点云可用于卡车场景，可从此链接下载。

请将图像下载到名为 image 的文件夹中，并将其放置在本项目的根目录下。相机位姿和稀疏点云应放在 data/tat_truck_every_8_test 目录下。文件夹结构应如下所示：

├── data
│   ├── tat_truck_every_8_test
│   │   ├── train.json
│   │   ├── val.json
│   │   ├── point_cloud.parquet
├── image
│   ├── 000000.png
│   ├── 000001.png

同时提供了配置文件 config/tat_truck_every_8_test.yaml。该配置文件用于指定数据集路径、训练参数和网络参数。配置文件内容清晰易懂。可通过以下命令开始训练：

python gaussian_point_train.py --train_config config/tat_truck_every_8_test.yaml

在示例物体（靴子）上训练

点击我

实际上，这是一个来自互联网的随机免费网格模型，我认为可以免费使用。数据集是使用BlenderNerf生成的。经过预处理的图像、预先生成的相机位姿以及靴子场景的点云可以从这个链接下载。请将图像下载到名为image的文件夹中，并将其放置在本仓库的根目录下。相机位姿和稀疏点云应放在data/boots_super_sparse目录下。文件夹结构应如下所示：

├── data
│   ├── boots_super_sparse
│   │   ├── boots_train.json
│   │   ├── boots_val.json
│   │   ├── point_cloud.parquet
├── image
│   ├── images_train
│   │   ├── COS_Camera.001.png
│   │   ├── COS_Camera.002.png
|   |   ├── ...

请注意，由于该数据集中的图像分辨率较高（1920x1080），因此在其上进行训练的速度实际上比在卡车场景上训练要慢。

使用Colmap生成的数据集进行训练

点击我

使用Colmap进行重建：参见https://colmap.github.io/tutorial.html。图像应进行去畸变处理。通常稀疏重建就足够了。
保存为txt格式：标准的Colmap txt输出包含三个文件，即cameras.txt、images.txt和points3D.txt。
将txt文件转换为json和parquet格式：请参阅此文件，了解如何准备这些文件。
准备配置yaml文件：以此文件为例。
使用该配置运行。

使用带有额外网格的Instant-NGP格式数据集进行训练

点击我

提供了一个脚本，用于将Instant-NGP格式的数据集转换为所需的两个JSON文件。然而，该算法需要一个额外的点云作为输入，而Instant-NGP格式的数据集通常不包含这一点。该脚本接受一个网格文件作为输入，并通过在网格上采样点来生成点云。该脚本位于这里。
用户可以使用以下命令运行该脚本：

python tools/prepare_InstantNGP_with_mesh.py \
    --transforms_train {训练变换文件路径} \
    --transforms_test {验证变换文件路径，若未提供，则从训练集中采样验证集} \
    --mesh_path {网格文件路径} \
    --mesh_sample_points {在网格上采样的点数} \
    --val_sample {若从训练集中采样验证集，则每隔n帧采样一次} \
    --image_path_prefix {图像路径前缀，通常是包含图像文件夹的目录路径} \
    --output_path {输出文件夹路径}

运行后，在输出文件夹中将生成两个JSON文件，即train.json和val.json，以及一个点云文件point_cloud.parquet。
创建一个类似于test_sagemaker.yaml的配置yaml文件，将train-dataset-json-path修改为train.json的路径，val-dataset-json-path修改为val.json的路径，pointcloud-parquet-path修改为point_cloud.parquet的路径。同时，将summary-writer-log-dir和output-model-dir修改为你希望保存模型和TensorBoard日志的路径。
使用该配置运行：

python gaussian_point_train.py --train_config {配置yaml文件路径}

使用BlenderNerf生成的数据集进行训练

点击我

BlenderNerf是一个用于为NeRF生成数据集的Blender插件。BlenderNerf生成的数据集可以是Instant-NGP格式，我们可以使用脚本将其转换为所需格式。此外，网格文件可以很容易地从Blender中导出。要生成数据集：

安装Blender。
将你想要的网格或场景导入Blender。
按照BlenderNerf中的README安装BlenderNerf。
配置BlenderNerf：确保选择“Train”选项，而不选择“Test”选项（“Test”选项似乎存在一些问题），并将文件格式设置为NGP，并填写保存路径。
配置BlenderNerf Camera on Sphere：按照BlenderNerf README中的说明配置相机（默认设置在大多数情况下已经足够）。然后点击PLAY COS。
保存路径下会生成一个zip文件。解压后，应该会有一个名为train的文件夹和一个名为transforms_train.json的文件。
在Blender中，选择File->Export->Stl(.stl)，将网格导出为stl文件。
可以使用以下命令运行脚本：

python tools/prepare_InstantNGP_with_mesh.py \
    --transforms_train {transform_train.json文件路径} \
    --mesh_path {stl文件路径} \
    --mesh_sample_points {在网格上采样的点数，默认为500} \
    --val_sample {若从训练集中采样验证集，则每隔n帧采样一次，默认为8} \
    --image_path_prefix {包含train文件夹的目录的绝对路径} \
    --output_path {任意你希望的路径}

运行后，在输出文件夹中将生成两个JSON文件，即train.json和val.json，以及一个点云文件point_cloud.parquet。
创建一个类似于test_sagemaker.yaml的配置yaml文件，将train-dataset-json-path修改为train.json的路径，val-dataset-json-path修改为val.json的路径，pointcloud-parquet-path修改为point_cloud.parquet的路径。同时，将summary-writer-log-dir和output-model-dir修改为你希望保存模型和TensorBoard日志的路径。
使用该配置运行：

python gaussian_point_train.py --train_config {配置yaml文件路径}

使用其他方法生成的数据集进行训练

点击我

请参阅此文件，了解如何准备数据集。

运行

python gaussian_point_train.py --train_config {配置文件路径}

训练过程的工作流程如下：

stateDiagram-v2
    state WeightToTrain {
        sparsePointCloud
        pointCloudExtraFeatures
    }
    WeightToTrain --> Rasterizer: 输入
    cameraPose --> Rasterizer: 输入
    Rasterizer --> Loss: 光栅化后的图像
    ImageFromMultiViews --> Loss
    Loss --> Rasterizer: 梯度
    Rasterizer --> WeightToTrain: 梯度

结果会在TensorBoard中可视化。TensorBoard日志存储在配置文件中指定的输出目录中。训练后的带特征点云也会以parquet格式存储，其输出目录同样由配置文件指定。

在 Colab 上运行（以利用 Google 提供的 GPU 加速器）

相关笔记本可在以下链接找到：/tools/run_3d_gaussian_splatting_on_colab.ipynb

在 Colab 中设置硬件加速器：“Runtime->Change Runtime Type->Hardware accelerator->选择 GPU->选择 T4”
将此仓库上传至您的 Google Drive 的相应文件夹。
将您的 Google Drive 挂载到笔记本中（参见笔记本）。
安装 condacolab（参见笔记本）。
使用 pip 安装 requirement.txt 中的依赖项（参见笔记本）。
使用 conda 安装 PyTorch、torchvision、pytorch-cuda 等（参见笔记本）。
按照 https://github.com/wanmeihuali/taichi_3d_gaussian_splatting#dataset 中的说明准备数据集。
使用正确的配置运行训练器（参见笔记本）。
通过 TensorBoard 查看训练过程（参见笔记本）。

可视化

提供了一个简单的可视化工具。该工具由 Taichi GUI 实现，帧率被限制在 60 FPS（如果有人知道如何解除这一限制，请联系我）。该可视化工具可以接收一个或多个 Parquet 格式的输出结果。示例 Parquet 文件可在此下载：https://drive.google.com/file/d/12-kZZay8RFlDk7hJQysG_Cr4-oxDp37l/view?usp=sharing。

python3 visualizer --parquet_path_list <parquet_path_0> <parquet_path_1> ...

该可视化工具会将多个点云合并，并在同一场景中显示。

按 0 键选择所有点云（默认状态）。
按 1 到 9 键选择其中一个点云。
当所有点云都被选中时，使用 WASD 和 - 键移动相机，使用 QE 键绕 Y 轴旋转，或直接拖动鼠标进行自由旋转。
当仅选择一个点云时，使用 WASD 和 - 键移动对象或场景，使用 QE 键绕 Y 轴旋转对象或场景，或直接拖动鼠标以对象中心为轴进行自由旋转。

如何贡献/使用 CI 在云端训练

我现在已经启用了 CI 和基于云的训练功能。该功能目前还不太稳定，但它允许即使没有 GPU 的人也能为这个仓库做出贡献。通常的工作流程如下：

对于任何算法改进，请创建一个新的分支并提交拉取请求。
请在拉取请求中 @wanmeihuali，我会检查代码并为拉取请求添加 need_experiment、need_experiment_garden 或 need_experiment_tat_truck 标签。
CI 会自动构建 Docker 镜像并将其上传到 AWS ECR，随后触发云端训练。训练结果会以评论的形式上传到拉取请求中，例如 this PR。数据集是使用 colmap 的默认配置生成的。训练在 g4dn.xlarge Spot 实例（NVIDIA T4，性能弱于 3090/A6000）上进行，通常需要 2-3 小时。
目前 README.md 中的最佳训练结果是由人工更新的。未来我会尝试自动化这一过程。

当前的实现基于我对论文的理解，与论文或官方实现可能会存在一些差异（他们计划在七月发布代码）。作为一个个人项目，参数尚未经过充分调优。我将在未来继续改进性能。如果您有任何问题，欢迎随时提出 issue；也欢迎提交 PR，尤其是针对性能提升的贡献。

待办事项

算法部分

修复自适应控制器部分，目前致密化过程存在问题，且论文中的描述非常模糊。需要进一步实验来确定正确或更好的实现方式。
- 确定致密化是否应应用于所有点，还是仅限于当前帧中的点。
- 弄清楚“视空间位置梯度的平均 magnitude”具体指什么，是跨帧平均，还是跨像素平均？
- ~~确定正确的分割策略。新点的位置应该放在哪里？目前的位置是优化前的位置。是否应该将其放置在原始椭球体的焦点上更好？~~ 对于过度重建的情况，使用概率密度函数采样；对于欠重建的情况，则使用优化前的位置。
在 README.md 中添加结果评分和图像
- 尝试使用论文中相同的数据集。
- 修复当前 Blender 插件中的问题，并将插件开源。
相机位姿优化：获取相机位姿的梯度，并在训练过程中对其进行优化。
支持动态刚体对象。目前的实现已经支持在一个场景中使用多个相机位姿，因此刚体对象的运动可以转换为相机的运动。需要寻找一种能够为不同物体提供 6 自由度位姿估计的 SfM 解决方案，并修改数据集代码以进行测试。

工程部分

修复 bug：当相机中没有点时程序会崩溃。
添加仅推理框架，以支持在场景中添加/移动物体、场景合并、场景编辑等功能。
添加安装脚本/Docker 镜像。
支持批量训练。目前代码仅支持单张图像训练，且只使用了 GPU 内存的一小部分。
使用 Taichi 实现基数排序/Cumsum，而不是依赖 PyTorch。PyTorch-Taichi 的张量转换似乎仅在 CUDA 设备上可用。如果要切换到其他设备，就需要摆脱 PyTorch。
实现仅使用 Taichi 场的纯 Taichi 推理光栅化器，并迁移到 macOS、Android 和 iOS 平台。

taichi_3d_gaussian_splatting 快速上手指南

taichi_3d_gaussian_splatting 是一个基于 Taichi Lang 实现的 3D Gaussian Splatting 非官方版本。它利用纯 Python 代码实现了高性能的可微分光栅化，用于从多视角图像训练稠密点云并进行实时渲染。相比官方 CUDA 实现，该版本代码更易读且易于维护，同时在部分场景下能以更少的点数量达到更高的 PSNR。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: 推荐 Ubuntu 20.04.2 LTS (其他 Linux 发行版或 Windows 可能需要微调)。
Python 版本: 推荐 Python 3.10.10。
硬件要求: NVIDIA GPU (测试环境为 RTX 3090)，需安装对应的 CUDA 驱动 (测试环境为 CUDA 12.1)。
- 注意：目前主要支持 CUDA 后端。
前置依赖:
- PyTorch
- TorchVision

建议先通过 Conda 创建虚拟环境并安装 PyTorch：

conda create -n taichi_splatting python=3.10
conda activate taichi_splatting
# 请访问 pytorch.org 获取适合你 CUDA 版本的安装命令，例如：
# pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

国内加速提示：如果下载 PyTorch 或 pip 包速度较慢，推荐使用清华源或阿里源。
export PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆仓库并安装项目依赖：

克隆代码库并进入目录：

git clone https://github.com/wanmeihuali/taichi_3d_gaussian_splatting.git
cd taichi_3d_gaussian_splatting

安装 Python 依赖包及项目本身：

pip install -r requirements.txt
pip install -e .

基本使用

本项目最核心的功能是训练和推理。以下以官方提供的 Tank and Temple Truck 数据集为例，展示最简单的训练流程。

1. 准备数据

你需要准备图像、相机姿态（JSON 格式）和稀疏点云（Parquet 格式）。

下载预处理数据：可以从 Google Drive 链接下载预处理的 Truck 场景数据。
目录结构：将下载的图片放入根目录下的 image 文件夹，将相机姿态和点云文件放入 data/tat_truck_every_8_test 文件夹。最终结构应如下所示：
```
├── data
│   ├── tat_truck_every_8_test
│   │   ├── train.json
│   │   ├── val.json
│   │   ├── point_cloud.parquet
├── image
│   ├── 000000.png
│   ├── 000001.png
│   └── ...
```
(注：如果你有自己的 COLMAP 输出数据，可以使用 tools/prepare_colmap.py 脚本转换为上述格式)

2. 开始训练

使用提供的配置文件启动训练过程。该配置文件已预设好数据集路径和网络参数。

python gaussian_point_train.py --train_config config/tat_truck_every_8_test.yaml

训练过程中，程序会读取多视角图像和稀疏点云，通过可微分光栅器优化点云属性（协方差、颜色等），最终输出带有额外特征的稠密点云。

3. 推理与渲染

训练完成后，模型会自动保存（具体路径在 yaml 配置中指定，通常在 output-model-dir）。推理阶段只需加载训练好的稠密点云和新的相机姿态即可渲染图像。具体的推理脚本逻辑包含在训练代码的验证环节中，或者你可以参考仓库中的测试脚本来加载模型并生成新视角的图像。

提示：对于其他数据集（如 BlenderNerf 生成的数据或 Instant-NGP 格式数据），请参考仓库 tools 目录下的转换脚本进行数据预处理，并修改对应的 yaml 配置文件路径后运行相同的训练命令。

常见问题

为什么可视化时会出现类似瓷砖的伪影（Tiles-like artifacts）或颜色填充整个图块？

如何将 .parquet 格式的文件转换为网格（Mesh）或其他点云格式？

如何在 Web 端或使用 CPU 本地机器可视化 .parquet 文件？

训练高分辨率视频时出现崩溃或不理想的结果，如何解决？

如何实现相机姿态优化？梯度如何从 3D 高斯协方差传递到视角？

遇到与数据类型相关的错误（如 tensorboard 绘图报错），该如何排查？

官方代码中 2D 高斯卷积的归一化因子为什么包含 sqrt(|Σ|)？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent