U-ViT

1.1k 78 中等 1 次阅读 3天前MIT图像其他

AI 解读由 AI 自动生成，仅供参考

U-ViT 是一个基于 PyTorch 实现的开源项目，旨在为扩散模型提供一种全新的视觉变换器（ViT）骨干网络架构。传统扩散模型多依赖基于卷积神经网络（CNN）的 U-Net 结构，而 U-ViT 创新地将时间步、条件信息和噪声图像块等所有输入统一视为"Token"进行处理，并引入了浅层与深层之间的“长跳跃连接”机制。

这一设计有效解决了传统架构在生成高质量图像时的局限性。研究表明，长跳跃连接对提升模型性能和收敛速度至关重要，而 CNN U-Net 中常见的下采样和上采样操作并非总是必要。凭借这一架构，U-ViT 在无条件、类条件及文本到图像生成任务中表现卓越，甚至在 ImageNet 和 MS-COCO 数据集上刷新了多项纪录，其生成质量可媲美或超越同等规模的 CNN 模型。

U-ViT 特别适合人工智能研究人员、深度学习开发者以及对生成式模型感兴趣的技术爱好者使用。代码库不仅提供了优化的注意力计算实现和多个预训练模型，还集成了混合精度训练、梯度检查点等高效技术，使得在有限算力（如仅用两张 A100 显卡）下训练高分辨率大模型成为可能。无论是用于学术探索还是构建多模态应用，U-ViT 都为扩散模型的骨干网络研究提供了极具价值的参考与实践工具。

使用场景

某 AI 实验室团队正致力于构建一个高质量的电商商品图生成系统，需要在有限的算力资源下训练出高分辨率、高保真的扩散模型。

没有 U-ViT 时

架构瓶颈明显：依赖传统 CNN 基础的 U-Net 架构，难以有效捕捉图像全局语义信息，导致生成的商品细节（如纹理、Logo）经常模糊或变形。
硬件门槛过高：若要训练 256x256 或更高分辨率的模型，通常需要耗费数张高端 GPU（如 8 张 A100），中小团队难以承担昂贵的算力成本。
收敛速度慢：模型训练周期漫长，且浅层与深层特征交互不足，导致生成图像的 FID 分数（衡量图像质量指标）迟迟无法突破 3.0，达不到商用标准。
显存占用巨大：未采用高效的梯度检查点技术，大批次训练时显存极易溢出，迫使开发人员不断缩小 Batch Size，进一步拖慢训练效率。

使用 U-ViT 后

全局感知增强：U-ViT 将时间、条件及噪声图像块统一视为 Token，并利用长跳跃连接（Long Skip Connections），显著提升了商品细节的清晰度和结构一致性。
算力成本骤降：凭借混合精度训练和梯度检查点优化，仅需 2 张 A100 显卡即可支撑 1024 的大批次高分辨率训练，大幅降低了硬件投入。
生成质量破纪录：在 ImageNet 256x256 任务上实现了 2.29 的超低 FID 分数，生成的商品图逼真度媲美甚至超越大型卷积模型，直接满足上线需求。
训练效率飞跃：优化的注意力计算机制加速了模型收敛，让团队能在更短时间内完成多轮迭代，快速验证新的创意提示词（Prompt）。

U-ViT 通过革新性的 Transformer 架构与极致的工程优化，让中小团队也能以低成本打造出业界顶尖的图像生成能力。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
官方测试基于 A100，支持混合精度训练和梯度检查点以优化显存
训练大型模型（如 ImageNet 256x256 U-ViT-H）在开启优化后仅需 2 张 A100
未开启优化时显存需求极高（>78GB）
需安装 CUDA 11.6 (cu116)

内存

未说明

依赖

notes1. 必须安装特定版本的 PyTorch (1.13.1 + cu116)。2. 强烈建议安装 xformers 库以大幅加速注意力计算并降低显存占用。3. 代码基于 timm==0.3.2，在 PyTorch 1.8.1+ 环境下可能需要应用特定修复补丁。4. 训练前需手动下载 Stable Diffusion 的自动编码器权重、ImageNet/COCO 数据集特征文件以及 FID 评估所需的参考统计数据，并放置于指定目录。5. 使用 HuggingFace Accelerate 进行分布式训练和混合精度控制。

python未说明 (依赖 PyTorch 1.13.1)

torch==1.13.1

torchvision

accelerate==0.12.0

xformers (可选但强烈推荐)

triton

transformers==4.23.1

timm==0.3.2

absl-py

ml_collections

einops

快速开始

U-ViT
_{All are Worth Words: A ViT Backbone for Diffusion Models（CVPR 2023）的官方 PyTorch 实现}

💡使用 U-ViT 的项目：

UniDiffuser，一个基于 1B 参数 U-ViT 的多模态大规模扩散模型，已开源
DPT，代码，演示，是一种仅使用 1 个标签/类训练的条件扩散模型，在 ImageNet 上实现了 SOTA 的自监督学习生成与分类效果

视觉Transformer（ViT）在各类视觉任务中展现出巨大潜力，而基于卷积神经网络（CNN）的 U-Net 仍然在扩散模型领域占据主导地位。
我们设计了一种简单通用的基于 ViT 的架构（命名为 U-ViT），用于扩散模型的图像生成。
U-ViT 的特点在于将所有输入，包括时间、条件信息以及噪声图像块，都视为 token，并在浅层和深层之间采用长跳跃连接。
我们在无条件和类别条件图像生成以及文本到图像生成任务中对 U-ViT 进行了评估，结果表明，U-ViT 在性能上不逊于甚至优于同等规模的基于 CNN 的 U-Net。
尤其值得注意的是，使用 U-ViT 的潜在空间扩散模型在 ImageNet 256x256 上的类别条件图像生成任务中取得了创纪录的 FID 分数 2.29，在 MS-COCO 数据集上的文本到图像生成任务中则达到了 5.48，且这些方法在生成模型训练过程中并未使用大型外部数据集。

我们的研究结果表明，对于基于扩散的图像建模而言，长跳跃连接至关重要，而 CNN 基础 U-Net 中的下采样和上采样操作并非总是必要的。我们相信，U-ViT 可以为未来扩散模型骨干网络的研究提供新的思路，并有助于大规模跨模态数据集上的生成建模任务。

本代码库实现了扩散模型中的 Transformer 骨干 📌U-ViT📌，如论文所介绍。U-ViT 将所有输入视为 token，并采用长跳跃连接。长跳跃连接极大地提升了性能和收敛速度。

💡本代码库包含：

经优化注意力计算的 U-ViT 实现
在常见图像生成基准数据集上预训练的 U-ViT 模型（CIFAR10、CelebA 64x64、ImageNet 64x64、ImageNet 256x256、ImageNet 512x512）
针对像素空间扩散模型、潜在空间扩散模型和文本到图像扩散模型的高效训练脚本
针对像素空间扩散模型、潜在空间扩散模型和文本到图像扩散模型的高效评估脚本
一个 Colab 笔记本演示，用于从 U-ViT 生成 ImageNet 样本（FID=2.29）

💡本代码库支持多种用于高效训练和采样的扩散模型技术：

使用 huggingface accelerate 库进行混合精度训练（🥰自动开启）
使用 facebook xformers 库实现高效的注意力计算（需额外安装）
梯度检查点技术，可减少约 65% 的显存占用（🥰自动开启）
结合这些技术，我们能够在仅配备 2 张 A100 显卡的情况下，以 1024 的大批次训练最大规模的 U-ViT-H 模型，分辨率高达 256x256 和 512x512❗

使用一张 A100 显卡，在 ImageNet 256x256 上以 128 的批次训练 U-ViT-H/2 时的训练速度和显存消耗：

混合精度训练	xformers	梯度检查点	训练速度	显存
❌	❌	❌	-	显存不足
✔	❌	❌	0.97 步/秒	78852 MB
✔	✔	❌	1.14 步/秒	54324 MB
✔	✔	✔	0.87 步/秒	18858 MB

依赖项

pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu116  # 安装 torch-1.13.1
pip install accelerate==0.12.0 absl-py ml_collections einops wandb ftfy==6.1.1 transformers==4.23.1

# xformers 是可选的，但能显著加速注意力计算。
pip install -U xformers
pip install -U --pre triton

本仓库基于 timm==0.3.2，该版本需要应用一个修复，才能与 PyTorch 1.8.1+ 兼容。（其他版本或许也能工作，但我尚未测试过。）
我们强烈建议安装 xformers，它能极大提升 训练和推理 过程中的注意力计算速度。

预训练模型

模型	FID	训练迭代次数	批量大小
CIFAR10 (U-ViT-S/2)	3.11	50万	128
CelebA 64x64 (U-ViT-S/4)	2.87	50万	128
ImageNet 64x64 (U-ViT-M/4)	5.85	30万	1024
ImageNet 64x64 (U-ViT-L/4)	4.26	30万	1024
ImageNet 256x256 (U-ViT-L/2)	3.40	30万	1024
ImageNet 256x256 (U-ViT-H/2)	2.29	50万	1024
ImageNet 512x512 (U-ViT-L/4)	4.67	50万	1024
ImageNet 512x512 (U-ViT-H/4)	4.05	50万	1024
MS-COCO (U-ViT-S/2)	5.95	100万	256
MS-COCO (U-ViT-S/2, Deep)	5.48	100万	256

训练与评估前的准备

自编码器

从该链接下载 stable-diffusion 目录（其中包含由 Stable Diffusion 转换而来的图像自编码器）。将下载的目录放置到本代码库中的 assets/stable-diffusion 文件夹下。这些自编码器用于潜在扩散模型中。

数据

ImageNet 64x64：将标准 ImageNet 数据集（包含 train 和 val 目录）放入 assets/datasets/ImageNet。
ImageNet 256x256 和 ImageNet 512x512：根据 scripts/extract_imagenet_feature.py 提取 ImageNet 特征。
MS-COCO：下载 COCO 2014 训练、验证数据以及标注。然后分别使用 scripts/extract_mscoco_feature.py、scripts/extract_test_prompt_feature.py 和 scripts/extract_empty_feature.py 提取相关特征。

FID 参考统计

从该链接下载 fid_stats 目录（其中包含 FID 的参考统计信息）。将下载的目录放置到本代码库中的 assets/fid_stats 文件夹下。除了用于评估外，这些参考统计信息还用于在训练过程中监控 FID。

训练

我们使用 huggingface accelerate 库来支持分布式数据并行和混合精度训练。以下是训练命令：

# 训练设置
num_processes=2  # 你拥有的 GPU 数量，例如 2
train_script=train.py  # 训练脚本，可选 <train.py|train_ldm.py|train_ldm_discrete.py|train_t2i_discrete.py>
                       # train.py：在像素空间进行训练
                       # train_ldm.py：在潜在空间使用连续时间步长进行训练
                       # train_ldm_discrete.py：在潜在空间使用离散时间步长进行训练
                       # train_t2i_discrete.py：在潜在空间进行文本到图像的训练
config=configs/cifar10_uvit_small.py  # 训练配置文件
                                      # 你可以通过修改配置文件来调整其他超参数

# 启动训练
accelerate launch --multi_gpu --num_processes $num_processes --mixed_precision fp16 $train_script --config=$config

我们提供了论文中复现 U-ViT 训练的所有命令：

# CIFAR10 (U-ViT-S/2)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 train.py --config=configs/cifar10_uvit_small.py

# CelebA 64x64 (U-ViT-S/4)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 train.py --config=configs/celeba64_uvit_small.py 

# ImageNet 64x64 (U-ViT-M/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train.py --config=configs/imagenet64_uvit_mid.py

# ImageNet 64x64 (U-ViT-L/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train.py --config=configs/imagenet64_uvit_large.py

# ImageNet 256x256 (U-ViT-L/2)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train_ldm.py --config=configs/imagenet256_uvit_large.py

# ImageNet 256x256 (U-ViT-H/2)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train_ldm_discrete.py --config=configs/imagenet256_uvit_huge.py

# ImageNet 512x512 (U-ViT-L/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train_ldm.py --config=configs/imagenet512_uvit_large.py

# ImageNet 512x512 (U-ViT-H/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train_ldm_discrete.py --config=configs/imagenet512_uvit_huge.py

# MS-COCO (U-ViT-S/2)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 train_t2i_discrete.py --config=configs/mscoco_uvit_small.py

# MS-COCO (U-ViT-S/2, Deep)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 train_t2i_discrete.py --config=configs/mscoco_uvit_small.py --config.nnet.depth=16

评估（计算 FID）

我们使用 huggingface accelerate 库来进行高效的混合精度和多 GPU 推理。以下是评估命令：


# 评估设置
num_processes=2  # 您拥有的 GPU 数量，例如 2
eval_script=eval.py  # 评估脚本，可选 <eval.py|eval_ldm.py|eval_ldm_discrete.py|eval_t2i_discrete.py>
                     # eval.py: 用于使用 train.py 训练的模型（即像素空间模型）
                     # eval_ldm.py: 用于使用 train_ldm.py 训练的模型（即具有连续时间步的潜在空间模型）
                     # eval_ldm_discrete.py: 用于使用 train_ldm_discrete.py 训练的模型（即具有离散时间步的潜在空间模型）
                     # eval_t2i_discrete.py: 用于使用 train_t2i_discrete.py 训练的模型（即潜在空间上的文本到图像模型）
config=configs/cifar10_uvit_small.py  # 训练配置

# 启动评估
accelerate launch --multi_gpu --num_processes $num_processes --mixed_precision fp16 eval_script --config=$config

生成的图片会存储在一个临时目录中，评估结束后会被删除。如果您想保留这些图片，请设置 --config.sample.path=/save/dir。

我们提供了复现论文中 FID 结果的所有命令：

# CIFAR10 (U-ViT-S/2)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 eval.py --config=configs/cifar10_uvit_small.py --nnet_path=cifar10_uvit_small.pth

# CelebA 64x64 (U-ViT-S/4)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 eval.py --config=configs/celeba64_uvit_small.py --nnet_path=celeba64_uvit_small.pth

# ImageNet 64x64 (U-ViT-M/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval.py --config=configs/imagenet64_uvit_mid.py --nnet_path=imagenet64_uvit_mid.pth

# ImageNet 64x64 (U-ViT-L/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval.py --config=configs/imagenet64_uvit_large.py --nnet_path=imagenet64_uvit_large.pth

# ImageNet 256x256 (U-ViT-L/2)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval_ldm.py --config=configs/imagenet256_uvit_large.py --nnet_path=imagenet256_uvit_large.pth

# ImageNet 256x256 (U-ViT-H/2)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval_ldm_discrete.py --config=configs/imagenet256_uvit_huge.py --nnet_path=imagenet256_uvit_huge.pth

# ImageNet 512x512 (U-ViT-L/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval_ldm.py --config=configs/imagenet512_uvit_large.py --nnet_path=imagenet512_uvit_large.pth

# ImageNet 512x512 (U-ViT-H/4)
accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 eval_ldm_discrete.py --config=configs/imagenet512_uvit_huge.py --nnet_path=imagenet512_uvit_huge.pth

# MS-COCO (U-ViT-S/2)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 eval_t2i_discrete.py --config=configs/mscoco_uvit_small.py --nnet_path=mscoco_uvit_small.pth

# MS-COCO (U-ViT-S/2, Deep)
accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 eval_t2i_discrete.py --config=configs/mscoco_uvit_small.py --config.nnet.depth=16 --nnet_path=mscoco_uvit_small_deep.pth

参考文献

如果您觉得该代码对您的研究有帮助，请考虑引用以下文献：

@inproceedings{bao2022all,
  title={All are Worth Words: A ViT Backbone for Diffusion Models},
  author={Bao, Fan and Nie, Shen and Xue, Kaiwen and Cao, Yue and Li, Chongxuan and Su, Hang and Zhu, Jun},
  booktitle = {CVPR},
  year={2023}
}

本实现基于以下项目：

Extended Analytic-DPM（提供 CIFAR10 和 CelebA 64x64 的 FID 参考统计数据）
guided-diffusion（提供 ImageNet 的 FID 参考统计数据）
pytorch-fid（提供 FID 的 PyTorch 官方实现）
dpm-solver（提供采样器）

U-ViT 快速上手指南

U-ViT 是一个基于 Vision Transformer (ViT) 的扩散模型骨干网络架构。它将时间、条件和噪声图像块均视为 Token，并采用长跳跃连接（Long Skip Connections），在图像生成任务中表现优异，尤其在 ImageNet 和 MS-COCO 数据集上取得了领先的 FID 分数。

1. 环境准备

操作系统: Linux (推荐)
Python: 3.8+
GPU: 支持 CUDA 的 NVIDIA GPU (训练高分辨率模型如 ImageNet 256x256+ 建议使用 A100 或多卡环境)
PyTorch: 1.13.1+ (需匹配 CUDA 版本，官方示例基于 cu116)

2. 安装步骤

2.1 安装基础依赖

首先安装 PyTorch 及核心依赖库。国内用户可使用清华或阿里镜像加速下载。

# 安装 PyTorch (以 CUDA 11.6 为例，其他版本请参照 pytorch 官网)
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu116

# 安装其他核心依赖
pip install accelerate==0.12.0 absl-py ml_collections einops wandb ftfy==6.1.1 transformers==4.23.1 timm==0.3.2

注意: timm 库可能需要应用一个补丁以兼容 PyTorch 1.8.1+，如遇报错请参考原仓库 issue #420。

2.2 安装加速组件（强烈推荐）

安装 xformers 可显著加速注意力计算并降低显存占用，是训练大模型的关键。

# 安装 xformers 和 triton
pip install -U xformers
pip install -U --pre triton

2.3 准备预训练资源与数据

在运行训练或评估前，需下载以下资源并放置于项目根目录的 assets/ 文件夹下：

自编码器 (Autoencoder): 用于潜在空间扩散模型 (LDM)。
- 下载 stable-diffusion 目录，重命名为 assets/stable-diffusion。
FID 统计参考值: 用于评估和训练监控。
- 下载 fid_stats 目录，重命名为 assets/fid_stats。
数据集:
- ImageNet 64x64: 放入 assets/datasets/ImageNet。
- ImageNet 256/512 & MS-COCO: 需先下载原始数据，然后运行 scripts/ 下的特征提取脚本预处理。

3. 基本使用

本项目使用 Hugging Face accelerate 库进行分布式训练和混合精度推理。

3.1 启动训练

以下命令展示了如何启动一个典型的训练任务（以 CIFAR10 为例）。你可以根据需求更换配置文件 (--config) 和训练脚本。

# 设置 GPU 数量 (例如 4 卡)
num_processes=4

# 启动训练 (CIFAR10, U-ViT-S/2)
# train.py 用于像素空间训练
# train_ldm_discrete.py 用于潜在空间离散时间步训练
# train_t2i_discrete.py 用于文生图训练
accelerate launch --multi_gpu --num_processes $num_processes --mixed_precision fp16 train.py --config=configs/cifar10_uvit_small.py

常用训练配置示例：

ImageNet 256x256 (U-ViT-H/2):

accelerate launch --multi_gpu --num_processes 8 --mixed_precision fp16 train_ldm_discrete.py --config=configs/imagenet256_uvit_huge.py

MS-COCO 文生图:

accelerate launch --multi_gpu --num_processes 4 --mixed_precision fp16 train_t2i_discrete.py --config=configs/mscoco_uvit_small.py

3.2 模型评估 (计算 FID)

使用提供的评估脚本计算生成图像的 FID 分数。

# 设置 GPU 数量
num_processes=2

# 评估像素空间模型
accelerate launch --multi_gpu --num_processes $num_processes --mixed_precision fp16 eval.py --config=configs/cifar10_uvit_small.py --ckpt_path=<路径到检查点文件>

# 评估潜在空间模型 (LDM)
accelerate launch --multi_gpu --num_processes $num_processes --mixed_precision fp16 eval_ldm_discrete.py --config=configs/imagenet256_uvit_huge.py --ckpt_path=<路径到检查点文件>

3.3 快速体验 (Colab)

如果你没有本地 GPU 环境，可以直接使用官方提供的 Colab Notebook 在云端采样 ImageNet 图像 (FID=2.29 模型)：

常见问题

如何复现论文中的 FID 分数？为什么我得到的结果比论文差？

评估模型时应该使用 `nnet.pth` 还是 `nnet_ema.pth`？

如何将配置从 'noise_pred' 改为 'x0_pred' 时修复维度不匹配的错误？

运行 `extract_test_prompt_feature.py` 脚本报错 'ValueError: setting an array element with a sequence' 如何解决？

训练初期 Loss 没有下降甚至波动，这是正常现象吗？

如何计算 U-ViT 模型的 GFLOPs？

如何运行文本生成图像（Text-to-Image）的演示？

运行训练脚本时报错 'AttributeError: GradientState object has no attribute _iterate_samples_seen' 怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|4天前

开发框架图像Agent

使用场景

没有 U-ViT 时

使用 U-ViT 后

运行环境要求

快速开始

U-ViT All are Worth Words: A ViT Backbone for Diffusion Models（CVPR 2023）的官方 PyTorch 实现

依赖项

预训练模型

训练与评估前的准备

自编码器

数据

FID 参考统计

训练

评估（计算 FID）

参考文献

U-ViT 快速上手指南

1. 环境准备

2. 安装步骤

2.1 安装基础依赖

2.2 安装加速组件（强烈推荐）

2.3 准备预训练资源与数据

3. 基本使用

3.1 启动训练

3.2 模型评估 (计算 FID)

3.3 快速体验 (Colab)

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

ComfyUI

gemini-cli

LLMs-from-scratch

Deep-Live-Cam

U-ViT
_{All are Worth Words: A ViT Backbone for Diffusion Models（CVPR 2023）的官方 PyTorch 实现}