latent-diffusion

14k 1.7k 中等 1 次阅读今天MIT图像

AI 解读由 AI 自动生成，仅供参考

latent-diffusion 是一个专注于高分辨率图像生成的开源深度学习框架，其核心基于潜在扩散模型（Latent Diffusion Models, LDM）。它主要解决了传统扩散模型在生成高清图像时计算成本极高、推理速度慢的难题。通过在压缩的潜在空间而非原始像素空间进行扩散过程，latent-diffusion 在大幅降低显存需求和提升运算效率的同时，依然能保持卓越的图像生成质量。

该项目不仅提供了强大的文生图能力，还支持类条件生成及检索增强生成等多种模式。其独特的技术亮点在于高效的潜在空间操作机制，以及后来集成的无分类器引导（classifier-free guidance）和 PLMS 采样器，这些改进进一步提升了生成速度与效果可控性。此外，项目开源了多个预训练模型，包括在大规模 LAION 数据集上训练的 14.5 亿参数模型，方便用户直接调用或微调。

latent-diffusion 非常适合 AI 研究人员探索生成模型架构，开发者构建自定义图像应用，以及设计师寻找高效的创意辅助工具。对于希望深入理解扩散模型原理并动手实践的技术爱好者来说，这也是一个极具价值的学习资源。通过简洁的环境配置和丰富的示例代码，用户可以快速上手体验前沿的图像合成技术。

使用场景

一家独立游戏工作室的美术团队正急需为奇幻题材的新项目批量生成高分辨率的概念原画，以加速前期视觉探索。

没有 latent-diffusion 时

显存门槛极高：直接生成高分辨率图像需要巨大的 GPU 显存，团队昂贵的计算资源经常因内存溢出而崩溃，无法流畅运行大模型。
细节模糊失真：受限于算力，只能先生成小图再强行放大，导致画面出现严重的伪影和模糊，无法满足专业美术标准。
创作效率低下：手动绘制多版草图耗时数天，且难以快速响应策划对“特定风格（如油画质感）”的反复修改需求。
风格迁移困难：缺乏有效的检索增强机制，难以精准参考现有素材库中的构图或色调，导致产出风格不统一。

使用 latent-diffusion 后

低显存高效运行：通过在潜在空间（Latent Space）而非像素空间进行扩散计算，显著降低了显存占用，使普通显卡也能生成高清大图。
原生高清画质：直接合成高分辨率图像，保留了丰富的纹理细节和清晰的边缘，无需后期超分处理即可用于概念设计。
文本精准控制：利用强大的文本到图像能力，输入如“一只读报纸的快乐熊，油画风格”即可秒级生成多版高质量方案，大幅缩短迭代周期。
检索增强生成：借助检索增强扩散模型（RDM）功能，可结合 CLIP 嵌入检索相似参考图，确保生成内容在构图和风格上与项目设定高度一致。

latent-diffusion 通过将扩散过程压缩至潜在空间，彻底打破了高分辨率图像生成的算力瓶颈，让中小团队也能以低成本实现电影级的视觉创作。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU (通过 CUDA_VISIBLE_DEVICES 环境变量控制)，具体显存大小未说明（大模型如 1.45B 参数及高分辨率生成通常建议 8GB+），CUDA 版本未说明

内存

未说明 (检索数据库下载需额外磁盘空间，OpenImages 索引约 21GB)

依赖

notes1. 必须使用 conda 创建名为 'ldm' 的环境并安装 environment.yaml 中的依赖。2. 针对不同功能（如检索增强扩散模型 RDM），需额外安装特定版本的 Python 包。3. 首次运行需手动下载预训练权重文件（文生图模型约 5.7GB，修复模型及其他变体大小不一）。4. 若使用 OpenImages 数据库进行检索，需预先运行脚本构建搜索索引（约 21GB）。5. 代码主要通过命令行脚本（如 txt2img.py, inpaint.py）运行。

python未说明 (依赖 conda 环境配置文件 environment.yaml)

torch

transformers==4.19.2

scann

kornia==0.6.4

torchmetrics==0.6.0

einops

pytorch-lightning

omegaconf

taming-transformers-rom1504

clip

快速开始

潜扩散模型

arXiv | BibTeX

高分辨率图像合成中的潜扩散模型
Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer
* 等贡献

新闻

2022年7月

用于运行我们检索增强扩散模型的推理代码和模型权重现已可用。请参阅本节。

2022年4月

感谢Katherine Crowson，无分类器指导获得了约2倍的速度提升，且PLMS采样器现已可用。另请参阅此PR。
我们的14.5亿参数潜扩散LAION模型已通过Gradio集成到Huggingface Spaces 🤗中。试用Web演示：
更多预训练的LDMs现已可用：
- 一个在LAION-400M数据库上训练的14.5亿参数模型。
- 一个基于ImageNet的类别条件模型，在使用无分类器指导时达到了3.6的FID值。可通过Colab笔记本获取。

要求

可以创建并激活一个名为ldm的合适conda环境，方法如下：

conda env create -f environment.yaml
conda activate ldm

预训练模型

所有可用检查点的通用列表可通过我们的模型库获得。如果您在工作中使用了这些模型之一，我们非常乐意收到您的引用。

检索增强扩散模型

rdm-figure 我们包含了用于运行我们在https://arxiv.org/abs/2204.11824中描述的检索增强扩散模型（RDMs）的推理代码。

要开始使用，请将额外需要的Python包安装到您的ldm环境中：

pip install transformers==4.19.2 scann kornia==0.6.4 torchmetrics==0.6.0
pip install git+https://github.com/arogozhnikov/einops.git

并下载训练好的权重（初步检查点）：

mkdir -p models/rdm/rdm768x768/
wget -O models/rdm/rdm768x768/model.ckpt https://ommer-lab.com/files/rdm/model.ckpt

由于这些模型是基于一组CLIP图像嵌入进行条件化的，因此我们的RDMs支持不同的推理模式，具体说明如下。

仅使用文本提示的RDM（无需显式检索）

由于CLIP提供共享的图像/文本特征空间，且RDMs在训练过程中学会覆盖给定示例的邻域，我们可以直接采用给定提示的CLIP文本嵌入作为条件。通过以下命令运行此模式：

python scripts/knn2img.py  --prompt "一只快乐的熊正在读报纸，油画"

基于文本到图像检索的RDM

要运行一个既基于文本提示又结合从该提示中检索到的图像的RDM，您还需要下载相应的检索数据库。我们提供了两个不同的数据库，分别提取自Openimages-和ArtBench-数据集。切换数据库会导致模型表现出不同的能力，如下所示，尽管两种情况下的学习权重是相同的。

下载包含检索数据集（Openimages (~11GB)和ArtBench (~82MB)）并压缩为CLIP图像嵌入的检索数据库：

mkdir -p data/rdm/retrieval_databases
wget -O data/rdm/retrieval_databases/artbench.zip https://ommer-lab.com/files/rdm/artbench_databases.zip
wget -O data/rdm/retrieval_databases/openimages.zip https://ommer-lab.com/files/rdm/openimages_database.zip
unzip data/rdm/retrieval_databases/artbench.zip -d data/rdm/retrieval_databases/
unzip data/rdm/retrieval_databases/openimages.zip -d data/rdm/retrieval_databases/

我们还提供了针对ArtBench的训练好的ScaNN搜索索引。通过以下命令下载并解压：

mkdir -p data/rdm/searchers
wget -O data/rdm/searchers/artbench.zip https://ommer-lab.com/files/rdm/artbench_searchers.zip
unzip data/rdm/searchers/artbench.zip -d data/rdm/searchers

由于OpenImages的索引较大（~21 GB），我们提供了一个脚本用于创建并保存它，以便在采样时使用。请注意，如果没有这个索引，将无法使用OpenImages数据库进行采样。通过以下命令运行该脚本：

python scripts/train_searcher.py

基于检索的文本引导采样，结合视觉最近邻，可以通过以下命令启动：

python scripts/knn2img.py  --prompt "一颗快乐的菠萝" --use_neighbors --knn <邻居数量>

请注意，支持的最大邻居数为20。数据库可以通过cmd参数--database更改，可选值为 [openimages, artbench-art_nouveau, artbench-baroque, artbench-expressionism, artbench-impressionism, artbench-post_impressionism, artbench-realism, artbench-renaissance, artbench-romanticism, artbench-surrealism, artbench-ukiyo_e]。若要使用--database openimages，必须先执行上述脚本（scripts/train_searcher.py）。由于ArtBench数据集规模相对较小，它们最适合用于生成更抽象的概念，而不适用于精细的文本控制。

即将推出

更好的模型
更多分辨率
图像到图像检索

文本生成图像

text2img-figure

下载预训练权重（5.7GB）

mkdir -p models/ldm/text2img-large/
wget -O models/ldm/text2img-large/model.ckpt https://ommer-lab.com/files/latent-diffusion/nitro/txt2img-f8-large/model.ckpt

并使用以下命令进行采样：

python scripts/txt2img.py --prompt "一个病毒怪物正在弹吉他，油画布" --ddim_eta 0.0 --n_samples 4 --n_iter 4 --scale 5.0  --ddim_steps 50

这将会在指定的输出目录（默认为outputs/txt2img-samples）下，分别保存每个样本以及一个大小为n_iter x n_samples的网格图。质量、采样速度和多样性主要通过scale、ddim_steps和ddim_eta参数来控制。一般来说，较高的scale值会生成更好的样本，但会降低输出的多样性。
此外，增加ddim_steps通常也会提高样本的质量，但对于超过250步的情况，收益会逐渐递减。若想在保持良好质量的同时加快采样速度（即减少ddim_steps），可以使用--ddim_eta 0.0。
如果希望进一步加快采样速度（即更低的ddim_steps），则可以在使用--ddim_eta 0.0的基础上再添加--plms选项（参见流形上的扩散模型伪数值方法)。

超过256²

对于某些输入，直接以卷积方式在比模型训练时更大的特征图上运行该模型，有时也能得到有趣的结果。要尝试这一点，可以调整H和W参数（它们会被整除8以计算对应的潜在尺寸），例如运行：

python scripts/txt2img.py --prompt "山峦后的日落，矢量图" --ddim_eta 1.0 --n_samples 1 --n_iter 1 --H 384 --W 1024 --scale 5.0

以生成384x1024大小的样本。需要注意的是，与256x256的设置相比，可控性会有所降低。

下面的例子就是使用上述命令生成的。 text2img-figure-conv

图像修复

inpainting

下载预训练权重

wget -O models/ldm/inpainting_big/last.ckpt https://heibox.uni-heidelberg.de/f/4d9ac7ea40c64582b7c9/?dl=1

并使用以下命令进行采样：

python scripts/inpaint.py --indir data/inpainting_examples/ --outdir outputs/inpainting_results

indir目录应包含*.png格式的图片及其对应的掩码文件<image_fname>_mask.png，如data/inpainting_examples中提供的示例所示。

类条件ImageNet

可通过笔记本访问。 class-conditional

无条件模型

我们还提供了一个用于从无条件LDMs（如LSUN、FFHQ等）中采样的脚本。可以通过以下命令启动：

CUDA_VISIBLE_DEVICES=<GPU_ID> python scripts/sample_diffusion.py -r models/ldm/<model_spec>/model.ckpt -l <logdir> -n <\#samples> --batch_size <batch_size> -c <\#ddim steps> -e <\#eta>

训练您自己的LDMs

数据准备

人脸

要下载CelebA-HQ和FFHQ数据集，请按照taming-transformers仓库中的说明操作。

LSUN

LSUN数据集可以通过此处提供的脚本方便地下载：https://github.com/fyu/lsun。
我们对数据进行了自定义划分，分为训练集和验证集，并将相应的文件名列表放在https://ommer-lab.com/files/lsun.zip。
下载后，请将其解压到./data/lsun目录下。其中的bedrooms/cats/churches子集也应分别放置或创建符号链接至./data/lsun/bedrooms/./data/lsun/cats/./data/lsun/churches目录。

ImageNet

代码首次使用时会尝试通过Academic Torrents下载并准备ImageNet数据。然而，由于ImageNet数据量较大，这需要大量的磁盘空间和时间。
如果您已经拥有ImageNet数据，则可以通过将其放入${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/（默认路径为~/.cache/autoencoders/data/ILSVRC2012_{split}/data/）来加速流程，其中{split}可取train或validation。
其目录结构应如下所示：

${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/
├── n01440764
│   ├── n01440764_10026.JPEG
│   ├── n01440764_10027.JPEG
│   ├── ...
├── n01443537
│   ├── n01443537_10007.JPEG
│   ├── n01443537_10014.JPEG
│   ├── ...
├── ...

如果您尚未解压数据，也可以将ILSVRC2012_img_train.tar/ILSVRC2012_img_val.tar（或它们的符号链接）放入${XDG_CACHE}/autoencoders/data/ILSVRC2012_train/ / ${XDG_CACHE}/autoencoders/data/ILSVRC2012_validation/，系统会自动解压成上述结构，而无需再次下载。
请注意，只有当不存在${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/data/文件夹或${XDG_CACHE}/autoencoders/data/ILSVRC2012_{split}/.ready文件时，才会执行此操作。若要强制重新运行数据准备流程，需删除这些文件。

模型训练

已训练模型的日志和检查点将保存到logs/<START_DATE_AND_TIME>_<config_spec>目录下。

自编码器模型的训练

我们在configs/autoencoder中提供了用于在ImageNet上训练KL正则化自编码器的配置文件。
训练可以通过以下命令开始：

CUDA_VISIBLE_DEVICES=<GPU_ID> python main.py --base configs/autoencoder/<config_spec>.yaml -t --gpus 0,

其中config_spec可取{autoencoder_kl_8x8x64(f=32, d=64), autoencoder_kl_16x16x16(f=16, d=16), autoencoder_kl_32x32x4(f=8, d=4), autoencoder_kl_64x64x3(f=4, d=3)}。

有关VQ正则化的模型训练，请参阅taming-transformers仓库。

LDMs的训练

在configs/latent-diffusion/中，我们提供了针对LSUN、CelebA-HQ、FFHQ和ImageNet数据集训练LDMs的配置文件。
训练可以通过以下命令开始：

CUDA_VISIBLE_DEVICES=<GPU_ID> python main.py --base configs/latent-diffusion/<config_spec>.yaml -t --gpus 0,

其中<config_spec>可取{celebahq-ldm-vq-4(f=4，VQ正则化自编码器，空间尺寸64x64x3)，ffhq-ldm-vq-4(f=4，VQ正则化自编码器，空间尺寸64x64x3), lsun_bedrooms-ldm-vq-4(f=4，VQ正则化自编码器，空间尺寸64x64x3), lsun_churches-ldm-vq-4(f=8，KL正则化自编码器，空间尺寸32x32x4)，cin-ldm-vq-8(f=8，VQ正则化自编码器，空间尺寸32x32x4)}。

模型库

预训练自编码模型

rec2

所有模型均训练至收敛（rFID不再有显著提升）。

模型	rFID vs val	训练步数	PSNR	PSIM	链接	备注
f=4, VQ (Z=8192, d=3)	0.58	533066	27.43 +/- 4.26	0.53 +/- 0.21	https://ommer-lab.com/files/latent-diffusion/vq-f4.zip
f=4, VQ (Z=8192, d=3)	1.06	658131	25.21 +/- 4.17	0.72 +/- 0.26	https://heibox.uni-heidelberg.de/f/9c6681f64bb94338a069/?dl=1	无注意力机制
f=8, VQ (Z=16384, d=4)	1.14	971043	23.07 +/- 3.99	1.17 +/- 0.36	https://ommer-lab.com/files/latent-diffusion/vq-f8.zip
f=8, VQ (Z=256, d=4)	1.49	1608649	22.35 +/- 3.81	1.26 +/- 0.37	https://ommer-lab.com/files/latent-diffusion/vq-f8-n256.zip
f=16, VQ (Z=16384, d=8)	5.15	1101166	20.83 +/- 3.61	1.73 +/- 0.43	https://heibox.uni-heidelberg.de/f/0e42b04e2e904890a9b6/?dl=1

f=4, KL	0.27	176991	27.53 +/- 4.54	0.55 +/- 0.24	https://ommer-lab.com/files/latent-diffusion/kl-f4.zip
f=8, KL	0.90	246803	24.19 +/- 4.19	1.02 +/- 0.35	https://ommer-lab.com/files/latent-diffusion/kl-f8.zip
f=16, KL (d=16)	0.87	442998	24.08 +/- 4.22	1.07 +/- 0.36	https://ommer-lab.com/files/latent-diffusion/kl-f16.zip
f=32, KL (d=64)	2.04	406763	22.27 +/- 3.93	1.41 +/- 0.40	https://ommer-lab.com/files/latent-diffusion/kl-f32.zip

获取模型

运行以下脚本可下载并解压所有可用的预训练自编码模型。

bash scripts/download_first_stages.sh

第一阶段模型随后可在 models/first_stage_models/<model_spec> 中找到。

预训练 LDMs

数据集	任务	模型	FID	IS	精确率	召回率	链接	备注
CelebA-HQ	无条件图像合成	LDM-VQ-4 (200 步 DDIM，eta=0)	5.11 (5.11)	3.29	0.72	0.49	https://ommer-lab.com/files/latent-diffusion/celeba.zip
FFHQ	无条件图像合成	LDM-VQ-4 (200 步 DDIM，eta=1)	4.98 (4.98)	4.50 (4.50)	0.73	0.50	https://ommer-lab.com/files/latent-diffusion/ffhq.zip
LSUN-Churches	无条件图像合成	LDM-KL-8 (400 步 DDIM，eta=0)	4.02 (4.02)	2.72	0.64	0.52	https://ommer-lab.com/files/latent-diffusion/lsun_churches.zip
LSUN-Bedrooms	无条件图像合成	LDM-VQ-4 (200 步 DDIM，eta=1)	2.95 (3.0)	2.22 (2.23)	0.66	0.48	https://ommer-lab.com/files/latent-diffusion/lsun_bedrooms.zip
ImageNet	类别条件图像合成	LDM-VQ-8 (200 步 DDIM，eta=1)	7.77(7.76)* /15.82**	201.56(209.52)* /78.82**	0.84* / 0.65**	0.35* / 0.63**	https://ommer-lab.com/files/latent-diffusion/cin.zip	: 使用引导，classifier_scale 10 *: 无引导，括号内分数由 ADM 提供的脚本计算
Conceptual Captions	文本条件图像合成	LDM-VQ-f4 (100 步 DDIM，eta=0)	16.79	13.89	N/A	N/A	https://ommer-lab.com/files/latent-diffusion/text2img.zip	基于 LAION 微调
OpenImages	超分辨率	LDM-VQ-4	N/A	N/A	N/A	N/A	https://ommer-lab.com/files/latent-diffusion/sr_bsr.zip	BSR 图像退化
OpenImages	布局到图像合成	LDM-VQ-4 (200 步 DDIM，eta=0)	32.02	15.92	N/A	N/A	https://ommer-lab.com/files/latent-diffusion/layout2img_model.zip
Landscapes	语义图像合成	LDM-VQ-4	N/A	N/A	N/A	N/A	https://ommer-lab.com/files/latent-diffusion/semantic_synthesis256.zip
Landscapes	语义图像合成	LDM-VQ-4	N/A	N/A	N/A	N/A	https://ommer-lab.com/files/latent-diffusion/semantic_synthesis.zip	在 512x512 分辨率下微调

获取模型

可通过以下命令联合下载并解压上述 LDMs：

bash scripts/download_models.sh

模型随后可在 models/ldm/<model_spec> 中找到。

即将推出...

更多用于条件扩散模型的推理脚本。
同时，您也可以试用我们的 Colab 笔记本：https://colab.research.google.com/drive/1xqzUi2iXQXDqXBHQGP9Mqt2YrYW6cx-J?usp=sharing

注释

我们的扩散模型代码库大量借鉴了 OpenAI 的 ADM 代码库和 https://github.com/lucidrains/denoising-diffusion-pytorch。感谢开源！
变换器编码器的实现来自 x-transformers，由 lucidrains 提供。

BibTeX

@misc{rombach2021highresolution,
      title={高分辨率图像生成与潜在扩散模型}, 
      author={Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer},
      year={2021},
      eprint={2112.10752},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@misc{https://doi.org/10.48550/arxiv.2204.11824,
  doi = {10.48550/ARXIV.2204.11824},
  url = {https://arxiv.org/abs/2204.11824},
  author = {Blattmann, Andreas、Rombach, Robin、Oktay, Kaan 和 Ommer, Björn},
  keywords = {计算机视觉与模式识别（cs.CV）、FOS：计算机与信息科学、FOS：计算机与信息科学},
  title = {检索增强型扩散模型},
  publisher = {arXiv},
  year = {2022},  
  copyright = {arXiv.org 永久、非独占许可}
}

Latent Diffusion Models 快速上手指南

Latent Diffusion Models (LDM) 是一种高效的图像生成模型，支持文生图、图像修复、类条件生成等多种任务。本指南将帮助你快速搭建环境并运行预训练模型。

环境准备

系统要求

操作系统: Linux (推荐) 或 macOS
GPU: 支持 CUDA 的 NVIDIA 显卡（建议显存 ≥ 8GB）
Python: 3.8+
包管理器: Conda (推荐)

前置依赖

确保已安装 Conda。国内用户建议使用清华镜像源加速下载。

安装步骤

克隆仓库

git clone https://github.com/CompVis/latent-diffusion.git
cd latent-diffusion

创建并激活 Conda 环境
```
conda env create -f environment.yaml
conda activate ldm
```
提示: 若 environment.yaml 下载缓慢，可手动编辑该文件，将 pip 源替换为国内镜像（如 https://pypi.tuna.tsinghua.edu.cn/simple）。
下载预训练模型权重

以文生图 (Text-to-Image) 模型为例：
```
mkdir -p models/ldm/text2img-large/
wget -O models/ldm/text2img-large/model.ckpt https://ommer-lab.com/files/latent-diffusion/nitro/txt2img-f8-large/model.ckpt
```
注意: 其他任务（如图像修复 Inpainting、检索增强 RDM）需下载对应的权重文件，请参考原文档 "Pretrained Models" 章节获取相应链接。

基本使用

文生图 (Text-to-Image)

运行以下命令，根据文本提示生成图像：

python scripts/txt2img.py --prompt "a virus monster is playing guitar, oil on canvas" --ddim_eta 0.0 --n_samples 4 --n_iter 4 --scale 5.0 --ddim_steps 50

参数说明：

--prompt: 生成图像的文本描述。
--n_samples: 每次迭代生成的样本数。
--n_iter: 迭代次数。
--scale: 引导尺度（越高越符合提示词，但多样性降低，推荐值 5.0-7.5）。
--ddim_steps: 采样步数（越高质量越好，>250 后提升不明显，推荐 50）。
--ddim_eta 0.0: 启用快速采样模式。

生成结果默认保存在 outputs/txt2img-samples 目录下，包含单张图片和拼接网格图。

进阶技巧：高分辨率生成

尝试生成非标准分辨率（如 384x1024）：

python scripts/txt2img.py --prompt "a sunset behind a mountain range, vector image" --ddim_eta 1.0 --n_samples 1 --n_iter 1 --H 384 --W 1024 --scale 5.0

注：H 和 W 必须是 8 的倍数。

图像修复 (Inpainting)

准备图片 image.png 和对应的掩码 image_mask.png（白色区域为重绘区），放入 data/inpainting_examples/。

运行：

python scripts/inpaint.py --indir data/inpainting_examples/ --outdir outputs/inpainting_results

常见问题

从头训练自编码器（AE）并与 UNet 结合进行超分辨率任务时效果不佳，可能是什么原因？

训练图像修复（Inpainting）模型时损失收敛过快且生成质量差，如何解决？

在使用 Classifier-Free Guidance 进行采样时，如何正确设置 `unconditional_conditioning` 参数？

为什么使用提供的预训练模型复现 LSUN-Churches 或 CelebA 数据集的 FID 分数时，结果远低于论文报告值？

计算 FID 分数时，生成图像的数量和格式有什么具体要求？

如何在有限的显存下训练 3D 数据的潜扩散模型（LDM）和自编码器（AE）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架