PixArt-alpha

GitHub
3.3k 202 中等 1 次阅读 昨天Apache-2.0图像
AI 解读 由 AI 自动生成,仅供参考

PixArt-α 是一款专注于快速训练扩散 Transformer 模型的开源工具,旨在实现高质量的写实风格“文生图”合成。作为 ICLR 2024 的焦点论文成果,它主要解决了传统扩散模型训练成本高昂、收敛速度慢以及对计算资源要求极高的问题。通过引入高效的架构设计与数据策略,PixArt-α 能够在显著减少训练时间和算力的前提下,生成细节丰富、逼真度极高的图像。

该工具特别适合 AI 研究人员探索高效的模型训练范式,同时也为开发者提供了灵活的 PyTorch 代码库和预训练权重,便于进行二次开发或集成到如 ComfyUI 等工作流中。对于希望低成本部署高性能生成模型的企业或技术团队,PixArt-α 也是一个极具价值的选择。其核心技术亮点在于创新性地结合了 Transformer 架构与扩散模型,并利用了大规模高质量数据集(如 SAM-LLaVA-Captions10M)进行优化,从而在保持生成质量的同时大幅提升了训练效率。目前,项目已开放完整的推理代码、模型权重及在线演示,社区支持活跃,方便各类用户快速上手体验。

使用场景

一家独立游戏开发团队正在为即将上线的奇幻 RPG 项目紧急制作大量高分辨率概念图,以统一美术风格并加速资产生产。

没有 PixArt-alpha 时

  • 训练成本高昂:团队若想微调模型以匹配独特画风,需耗费数周时间在昂贵 GPU 集群上训练传统扩散模型。
  • 生成速度缓慢:使用现有开源模型生成单张 1024x1024 高清图需数十秒,难以满足快速迭代需求。
  • 细节表现不足:生成的复杂场景(如光影交错的城堡)常出现结构扭曲或纹理模糊,缺乏照片级真实感。
  • 资源门槛过高:高性能推理依赖顶级显卡,导致普通开发者的本地机器无法流畅运行。

使用 PixArt-alpha 后

  • 训练效率飞跃:借助 Diffusion Transformer 架构,团队仅需少量数据和数天即可在单卡上完成特定风格的高效微调。
  • 极速高清输出:利用其优化的采样策略,生成同等分辨率图像的时间缩短至几秒,大幅提升了试错频率。
  • 画质显著提升:模型对文本提示的理解更精准,能稳定输出光影自然、细节丰富的照片级奇幻场景。
  • 部署更加灵活:得益于高效的推理性能,美术人员可直接在配置普通的 workstation 上实时预览和修改生成结果。

PixArt-alpha 通过突破性的训练速度与卓越的成像质量,让中小团队也能以低成本实现电影级的视觉资产创作。

运行环境要求

操作系统
  • Linux
  • Windows
GPU
  • 需要 NVIDIA GPU
  • 官方支持在 8GB 显存下运行(通过 Diffusers),推荐更高显存以支持高分辨率生成或训练
内存

未说明

依赖
notes该工具基于 PyTorch 和 Diffusers 库。支持多种运行方式:包括原生 PyTorch 代码、Hugging Face Diffusers 管道、ComfyUI 插件以及 Google Colab 免费试用。官方文档特别指出,使用 Diffusers 集成可在 8GB 显存的 GPU 上运行推理。训练和高分辨率生成可能需要更多显存。项目提供了预训练权重、ControlNet 扩展及 LCM 加速版本。
python未说明
torch
diffusers
transformers
accelerate
gradio
ComfyUI (可选)
PixArt-alpha hero image

快速开始

👉 PixArt-α:用于照片级逼真文生图的扩散Transformer快速训练

ICLR 2024 Spotlight


本仓库包含我们论文中探索的使用Transformer进行快速训练扩散模型的PyTorch模型定义、预训练权重以及推理/采样代码。您可以在我们的项目页面上找到更多可视化内容。

PixArt-α 社区:欢迎加入我们的PixArt-α Discord频道 ,参与讨论。欢迎各位开发者贡献代码。

PixArt-α:用于照片级逼真文生图的扩散Transformer快速训练
陈俊松*于锦程*葛崇健*姚雷威*谢恩泽†、 吴岳王仲道郭志伟罗平陆虎川李振国
华为诺亚方舟实验室、大连理工大学、香港大学、香港科技大学

PIXART-δ:基于潜在一致性模型的快速可控图像生成
陈俊松吴岳罗思敏谢恩泽†、 萨亚克·保罗罗平赵航李振国
华为诺亚方舟实验室、大连理工大学、清华大学、香港大学、Hugging Face


最新消息 🔥🔥!!

  • (🔥 新) 2024年4月12日。💥 更优秀的PixArt-Σ训练与推理代码及检查点已全部发布!!! 欢迎大家合作与贡献。如果您觉得有用,请为我们点亮🌟!

  • (🔥 新) 2024年1月19日。💥 PixArt-δ ControlNet app_controlnet.py检查点已发布!!!

  • (🔥 新) 2024年1月16日。💥 恭喜宣布,PixArt-α已被ICLR 2024接受(Spotlight)。

  • (🔥 新) 2023年12月17日。💥 PixArt现已支持ComfyUI。感谢@city96的杰出工作。

  • (🔥 新) 2023年11月30日。💥 PixArt与LCMs团队合作,打造了最快文生图训练与推理系统。 在此,训练代码推理代码权重以及Hugging Face演示OpenXLab演示均已发布,我们希望用户能够喜欢。详细的推理速度代码指南可在文档中找到。同时,我们还更新了代码库以提升用户体验,并修复了最新版本中的若干Bug。


🚩 新功能/更新

  • ✅ 2024年1月11日。💥 PixArt-δ:我们非常高兴地宣布发布 PixArt-δ 技术报告!!! 该报告深入探讨了Transformer模型中LCM和ControlNet类似模块的训练方法。同时,我们也在此仓库中发布了LCM与ControlNet的所有训练和推理代码 在此仓库。 我们鼓励大家尝试使用这些代码,并热烈欢迎用户的Pull Request。您的贡献和反馈对我们非常重要!
  • ✅ 2024年2月7日。train_diffusers.py 可以直接使用diffusers模型进行训练,并在训练过程中进行可视化。
  • ✅ 2024年1月26日。💥 PixArt-α 的所有检查点,包括256px分辨率的检查点,现在都可以在这里下载 下载模型
  • ✅ 2024年1月19日。💥 PixArt-δ 的ControlNet app_controlnet.py检查点 已发布!!!
  • ✅ 2024年1月12日。💥 我们发布了用于PixArt-α训练的 SAM-LLaVA-Captions 数据集。
  • ✅ 2023年12月27日。PixArt-α 已集成到 ControlLLM 中!
  • ✅ 2023年12月17日。以Hugging Face风格发布的 PixArt-LCM-LoraPixArt-Lora 训练脚本已发布。
  • ✅ 2023年12月13日。在 tools/extract_features.py 中添加了多尺度VAE特征提取功能。
  • ✅ 2023年12月1日。新增了一个 Notebook文件夹,帮助用户快速上手PixArt!感谢 @kopyl 的贡献!
  • ✅ 2023年11月27日。💥 PixArt-α社区:加入我们的PixArt-α Discord频道

进行讨论。欢迎各位开发者参与贡献。

  • ✅ 2023年11月21日。💥 SA-Sovler 官方代码首次发布 此处
  • ✅ 2023年11月19日。发布 PixArt + Dreambooth 训练脚本。
  • ✅ 2023年11月16日。Diffusers 现在支持 随机分辨率批量生成图片 功能。此外, 在低于8GB显存的GPU上运行 Pixart 也已成为可能,在 🧨 diffusers 中有相关说明。
  • ✅ 2023年11月10日。在 🧨 diffusers 中支持 DALL-E 3 Consistency Decoder。
  • ✅ 2023年11月6日。发布预训练权重,并集成 🧨 diffusers、Hugging Face演示以及Google Colab示例。
  • ✅ 2023年11月3日。发布 LLaVA 字幕生成推理代码。
  • ✅ 2023年10月27日。发布训练及特征提取代码。
  • ✅ 2023年10月20日。与 Hugging Face 和 Diffusers 团队合作,共同发布代码和权重。(请继续关注。)
  • ✅ 2023年10月15日。发布推理代码。

目录


🐱 摘要

TL; DR: PixArt-α 是一种基于Transformer的T2I扩散模型,其图像生成质量可与当前最先进的图像生成器(如Imagen、SDXL,甚至Midjourney)相媲美,而训练速度则显著超越现有的大型T2I模型。例如,PixArt-α仅需675天的A100 GPU时间,而Stable Diffusion v1.5则需要6,250天。

点击展开完整摘要 目前最先进的文本到图像(T2I)模型通常需要高昂的训练成本(例如数百万小时的GPU时间),这不仅严重阻碍了AIGC社区的基础创新,还增加了二氧化碳排放。本文介绍了一种名为PixArt-α的基于Transformer的T2I扩散模型,其图像生成质量可与当前最先进的图像生成器(如Imagen、SDXL,甚至Midjourney)相媲美,几乎达到了商业应用的标准。此外,它还支持高达1024px分辨率的高分辨率图像合成,且训练成本较低。为实现这一目标,我们提出了三个核心设计: (1) 训练策略分解:我们设计了三个独立的训练步骤,分别优化像素依赖性、文本与图像的对齐以及图像的美学质量; (2) 高效的T2I Transformer:我们在扩散Transformer(DiT)中引入了交叉注意力模块,以注入文本条件并简化计算密集型的类别条件分支; (3) 高信息量的数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉-语言模型自动标注密集的伪字幕,以辅助文本-图像对齐的学习。因此,PixArt-α的训练速度显著优于现有的大型T2I模型,例如,PixArt-α仅需675天的A100 GPU时间,而Stable Diffusion v1.5则需要6,250天,从而节省了近30万美元(26,000美元 vs. 320,000美元)的成本,并减少了90%的二氧化碳排放。此外,与更大的SOTA模型RAPHAEL相比,我们的训练成本仅为它的1%。大量实验表明,PixArt-α在图像质量、艺术性和语义控制方面表现出色。我们希望PixArt-α能为AIGC社区和初创企业带来新的启示,帮助他们从零开始快速构建高质量且低成本的生成模型。

撒哈拉沙漠中一棵带着笑脸的小仙人掌。


🔥🔥🔥 为什么选择PixArt-α?

训练效率

PixArt-α 仅需 Stable Diffusion v1.5 训练时间的 12%(753 天 vs. 6,250 天 A100 GPU),节省近 30 万美元(2.8 万美元 vs. 32 万美元),并减少 90% 的二氧化碳排放。此外,与更大的 SOTA 模型 RAPHAEL 相比,我们的训练成本仅为后者的 1%。 训练效率。

方法 类型 参数量 图像数量 FID-30K ↓ A100 GPU 天数
DALL·E 扩散 12.0B 250M 27.50
GLIDE 扩散 5.0B 250M 12.24
LDM 扩散 1.4B 400M 12.64
DALL·E 2 扩散 6.5B 650M 10.39 41,66
SDv1.5 扩散 0.9B 2000M 9.62 6,250
GigaGAN GAN 0.9B 2700M 9.09 4,783
Imagen 扩散 3.0B 860M 7.27 7,132
RAPHAEL 扩散 3.0B 5000M+ 6.61 60,000
PixArt-α 扩散 0.6B 25M 7.32(零样本) 753
PixArt-α 扩散 0.6B 25M 5.51(COCO 微调) 753

推理效率

PIXART-δ 在 A100 上成功生成 1024×1024 高分辨率 图像,耗时仅 0.5 秒。通过实施 8 位推理技术,PIXART-δ 仅需 不到 8GB 的 GPU 显存

让我们再次强调,使用 PixArt-LCM 如此轻松地探索图像生成是多么令人解放。

硬件 PIXART-δ (4 步) SDXL LoRA LCM (4 步) PixArt-α (14 步) SDXL 标准版 (25 步)
T4(Google Colab 免费层) 3.3s 8.4s 16.0s 26.5s
V100(32 GB) 0.8s 1.2s 5.5s 7.7s
A100(80 GB) 0.51s 1.2s 2.2s 3.8s

所有测试均以批大小为 1 运行。

对于像 A100 这样显存较大的显卡,在一次生成多张图像时性能会显著提升,而这通常是生产工作负载中的常见场景。

PixArt-α 的高质量生成

  • 更多样例

🔧 依赖与安装

conda create -n pixart python=3.9
conda activate pixart
pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu118

git clone https://github.com/PixArt-alpha/PixArt-alpha.git
cd PixArt-alpha
pip install -r requirements.txt

⏬ 下载模型

所有模型将自动下载。你也可以从这个 url 手动下载。

模型 参数量 url 在 OpenXLab 中下载
T5 4.3B T5 T5
VAE 80M VAE VAE
PixArt-α-SAM-256 0.6B PixArt-XL-2-SAM-256x256.pthdiffusers 版本 256-SAM
PixArt-α-256 0.6B PixArt-XL-2-256x256.pthdiffusers 版本 256
PixArt-α-256-MSCOCO-FID7.32 0.6B PixArt-XL-2-256x256.pth 256
PixArt-α-512 0.6B PixArt-XL-2-512x512.pthdiffusers 版本 512
PixArt-α-1024 0.6B PixArt-XL-2-1024-MS.pthdiffusers 版本 1024
PixArt-δ-1024-LCM 0.6B diffusers 版本
ControlNet-HED-Encoder 30M ControlNetHED.pth
PixArt-δ-512-ControlNet 0.9B PixArt-XL-2-512-ControlNet.pth 512
PixArt-δ-1024-ControlNet 0.9B PixArt-XL-2-1024-ControlNet.pth 1024

此外,你还可以在 OpenXLab_PixArt-alpha 中找到所有模型。

🔥 如何训练

1. PixArt 训练

首先。

感谢 @kopyl,您可以通过 HugginFace 上的笔记本重现 Pokemon 数据集 的完整微调训练流程:

  1. 使用 notebooks/train.ipynb 进行训练。
  2. 使用 notebooks/convert-checkpoint-to-diffusers.ipynb 转换为 Diffusers 格式。
  3. 使用步骤 2 中转换后的检查点,通过 notebooks/infer.ipynb 运行推理。

然后,更多细节。

这里我们以 SAM 数据集的训练配置为例,当然您也可以按照这种方法准备自己的数据集。

只需要 修改 config 中的 配置文件dataset 中的 数据加载器

python -m torch.distributed.launch --nproc_per_node=2 --master_port=12345 train_scripts/train.py configs/pixart_config/PixArt_xl2_img256_SAM.py --work-dir output/train_SAM_256

SAM 数据集的目录结构如下:

cd ./data

SA1B
├──images/  (图像保存在此处)
│  ├──sa_xxxxx.jpg
│  ├──sa_xxxxx.jpg
│  ├──......
├──captions/    (对应的标题保存在此处,与图像同名)
│  ├──sa_xxxxx.txt
│  ├──sa_xxxxx.txt
├──partition/   (所有图像名称存储在一个文本文件中,每行一个图像名称)
│  ├──part0.txt
│  ├──part1.txt
│  ├──......
├──caption_feature_wmask/   (运行 tools/extract_caption_feature.py 生成标题 T5 特征,与图像同名但扩展名为 .npz)
│  ├──sa_xxxxx.npz
│  ├──sa_xxxxx.npz
│  ├──......
├──img_vae_feature/  (运行 tools/extract_img_vae_feature.py 生成图像 VAE 特征,与图像同名但扩展名为 .npy)
│  ├──train_vae_256/
│  │  ├──noflip/
│  │  │  ├──sa_xxxxx.npy
│  │  │  ├──sa_xxxxx.npy
│  │  │  ├──......

为了更好地理解,我们准备了 data_toy 数据集

cd ./data

git lfs install
git clone https://huggingface.co/datasets/PixArt-alpha/data_toy

然后, 这里 是 partition/part0.txt 文件的一个示例。


此外,对于基于 JSON 文件指导的 训练, 这里 是一个用于更好理解的玩具 JSON 文件。


2. PixArt + DreamBooth 训练

请参考 Pixart + DreamBooth训练指南

3. PixArt + LCM / LCM-LoRA 训练

请参考 PixArt + LCM训练指南

4. PixArt + ControlNet 训练

请参考 PixArt + ControlNet训练指南

4. PixArt + LoRA 训练

pip install peft==0.6.2

accelerate launch --num_processes=1 --main_process_port=36667  train_scripts/train_pixart_lora_hf.py --mixed_precision="fp16" \
  --pretrained_model_name_or_path=PixArt-alpha/PixArt-XL-2-1024-MS \
  --dataset_name=lambdalabs/pokemon-blip-captions --caption_column="text" \
  --resolution=1024 --random_flip \
  --train_batch_size=16 \
  --num_train_epochs=200 --checkpointing_steps=100 \
  --learning_rate=1e-06 --lr_scheduler="constant" --lr_warmup_steps=0 \
  --seed=42 \
  --output_dir="pixart-pokemon-model" \
  --validation_prompt="cute dragon creature" --report_to="tensorboard" \
  --gradient_checkpointing --checkpoints_total_limit=10 --validation_epochs=5 \
  --rank=16

💻 如何测试

使用本仓库进行推理时,至少需要 23GB 的显存;而在 🧨 diffusers 中则只需 11GB8GB

目前支持:

1. 快速开始使用 Gradio

要开始使用,首先安装所需的依赖项。确保已将 模型 下载到 output/pretrained_models 文件夹中,然后在本地机器上运行:

DEMO_PORT=12345 python app/app.py

或者,您可以使用提供的示例 Dockerfile 来构建一个运行 Gradio 应用的容器。

docker build . -t pixart
docker run --gpus all -it -p 12345:12345 -v <path_to_huggingface_cache>:/root/.cache/huggingface pixart

或者使用 docker-compose。请注意,如果您想将上下文从 1024 更改为 512 或 LCM 版本的应用程序,只需更改 docker-compose.yml 文件中的 APP_CONTEXT 环境变量即可。默认值为 1024。

docker compose build
docker compose up

让我们通过 http://your-server-ip:12345 来看一个简单的例子。

2. 集成到 diffusers 中

1). 在 🧨 diffusers 中使用

请确保您已安装以下库的最新版本:

pip install -U transformers accelerate diffusers SentencePiece ftfy beautifulsoup4

然后:

import torch
from diffusers import PixArtAlphaPipeline, ConsistencyDecoderVAE, AutoencoderKL
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 您也可以将检查点 ID 替换为 "PixArt-alpha/PixArt-XL-2-512x512"。
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16, use_safetensors=True)

# 如果使用 DALL-E 3 一致性解码器
# pipe.vae = ConsistencyDecoderVAE.from_pretrained("openai/consistency-decoder", torch_dtype=torch.float16)

# 如果使用 SA-Solver 采样器
# from diffusion.sa_solver_diffusers import SASolverScheduler
# pipe.scheduler = SASolverScheduler.from_config(pipe.scheduler.config, algorithm_type='data_prediction')

# 如果加载 LoRA 模型
# transformer = Transformer2DModel.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", subfolder="transformer", torch_dtype=torch.float16)
# transformer = PeftModel.from_pretrained(transformer, "Your-LoRA-Model-Path")
# pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", transformer=transformer, torch_dtype=torch.float16, use_safetensors=True)
# del transformer

# 启用内存优化。

# pipe.enable_model_cpu_offload()

pipe.to(设备)

prompt = "撒哈拉沙漠中一棵长着笑脸的小仙人掌。"
image = pipe(prompt).images[0]
image.save("./catcus.png")

更多关于 SA-Solver 采样器的信息,请查看文档

通过此次集成,可以在 11GB 显存的 GPU 上以批量大小为 4 运行该流程。 如需了解更多信息,请参阅文档

2). 在低于 8GB 显存的 GPU 上运行 PixArtAlphaPipeline

现在已支持在 8GB 以下显存的 GPU 上运行,请参阅文档以获取更多信息。

3). 使用 diffusers 的 Gradio(更快速)

要开始使用,首先安装所需的依赖项,然后在本地机器上运行:

# diffusers 版本
DEMO_PORT=12345 python app/app.py

让我们来看一个简单的示例,访问 http://your-server-ip:12345

你也可以点击这里在 Google Colab 上免费试用。

4). 将 .pth 检查点转换为 diffusers 版本

python tools/convert_pixart_alpha_to_diffusers.py --image_size your_img_size --multi_scale_train (如果你使用 PixArtMS 则为 True,否则为 False) --orig_ckpt_path pth 文件路径 --dump_path diffusers 文件路径 --only_transformer=True

3. 在线演示 Hugging Face PixArt

在线演示示例

✏️ 如何使用 LLaVA 进行图像标注

感谢 LLaVA-Lightning-MPT 的代码库, 我们可以通过以下启动命令对 LAION 和 SAM 数据集进行标注:

python tools/VLM_caption_lightning.py --output 输出目录 --data-root 数据根路径 --index 数据 JSON 文件路径

我们展示了使用自定义提示词对 LAION(左)和 SAM(右)数据集进行自动标注的结果。绿色高亮的文字代表 LAION 中的原始描述,而红色标记的部分则是由 LLaVA 添加的详细描述。

与 LLaVA 的对话。

✏️ 如何提取 T5 和 VAE 特征

提前准备好 T5 文本特征和 VAE 图像特征,可以加快训练速度并节省显存。

python tools/extract_features.py --img_size=1024 \
    --json_path "data/data_info.json" \
    --t5_save_root "data/SA1B/caption_feature_wmask" \
    --vae_save_root "data/SA1B/img_vae_features" \
    --pretrained_models_dir "output/pretrained_models" \
    --dataset_root "data/SA1B/Images/"

💪 待办事项清单(恭喜🎉)

  • 推理代码
  • 训练代码
  • T5 & VAE 特征提取代码
  • LLaVA 标注代码
  • 模型库
  • diffusers 版本及 Hugging Face 演示
  • Google Colab 示例
  • DALLE3 VAE 集成
  • 在 8GB 以下显存的 GPU 上使用 diffusers 进行推理
  • Dreambooth 训练代码
  • SA-Solver 代码
  • PixArt-α-LCM 即将发布
  • 多尺度 VAE 特征提取代码
  • PixArt-α-LCM-LoRA 脚本即将发布
  • PixArt-α-LoRA 训练脚本即将发布
  • ControlNet 代码即将发布
  • SAM-LLaVA 标注数据集
  • ControlNet 检查点
  • 256px 预训练模型
  • PixArt-Σ:下一代性能更强的模型正在训练中!

其他资源

我们制作了一段视频,对比了 PixArt 与当前最强大的文生图模型。

观看视频

📖 BibTeX

@misc{chen2023pixartalpha,
      title={PixArt-$\alpha$: 快速训练扩散 Transformer 实现照片级真实感文生图}, 
      author={Junsong Chen、Jincheng Yu、Chongjian Ge、Lewei Yao、Enze Xie、Yue Wu、Zhongdao Wang、James Kwok、Ping Luo、Huchuan Lu、Zhenguo Li},
      year={2023},
      eprint={2310.00426},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
@misc{chen2024pixartdelta,
      title={PIXART-{\delta}: 基于潜在一致性模型的快速可控图像生成}, 
      author={Junsong Chen、Yue Wu、Simian Luo、Enze Xie、Sayak Paul、Ping Luo、Hang Zhao、Zhenguo Li},
      year={2024},
      eprint={2401.05252},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

🤗 致谢

  • 感谢 Diffusers 提供的卓越技术支持和精彩合作!
  • 感谢 Hugging Face 对精美演示的支持!
  • 感谢 DiT 的杰出工作和代码库!

星标历史

星标历史图表

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|1周前
开发框架图像Agent