flymyai-lora-trainer

726 63 中等 1 次阅读 2天前NOASSERTION图像开发框架

AI 解读由 AI 自动生成，仅供参考

flymyai-lora-trainer 是一款开源的 AI 模型微调工具，专为 Qwen-Image、Qwen-Image-Edit 及 FLUX.1-dev 等主流文生图模型设计。它核心解决了用户希望以低成本、高效率的方式定制专属图像生成风格或角色的难题。通过训练 LoRA（低秩适应）层，用户无需重新训练庞大的基础模型，仅需少量数据集即可让模型学会特定的画风、人物特征或编辑逻辑。

这款工具特别适合具备一定技术基础的开发者、AI 研究人员以及需要批量定制模型内容的设计团队使用。其技术亮点在于全面兼容 Hugging Face diffusers 生态，支持通过简单的 YAML 文件进行配置，大幅降低了操作门槛。此外，它针对显存资源有限的场景进行了优化，支持在小于 24GB 显存的 GPU 上运行训练流程，并提供了完善的数据集验证脚本，确保训练数据的规范性。对于需要进行可控图像编辑（如基于参考图修改）的用户，flymyai-lora-trainer 也提供了专门的支持路径，是实现高质量人像与角色定制的理想选择。

使用场景

一家独立游戏工作室急需为新作生成风格统一的角色立绘，但现有通用模型无法还原其独特的手绘美术风格。

没有 flymyai-lora-trainer 时

风格割裂严重：直接使用原生 Qwen-Image 或 FLUX.1-dev 模型生成的角色，虽然细节丰富，但完全丢失了工作室特有的笔触和上色风格，导致素材无法直接商用。
微调门槛极高：尝试自行编写训练代码时，面临显存优化难题，普通消费级显卡（<24GiB）频繁爆显存，且缺乏针对 Qwen-Image-Edit 的控制编辑支持。
数据整理繁琐：手动构建数据集极易出错，缺乏自动验证脚本，常因图片与文本标签不匹配导致训练中途失败，浪费数小时算力。
迭代周期漫长：每次调整风格都需要重新配置复杂的训练环境，从准备数据到产出可用模型往往耗时数天，严重拖慢美术迭代进度。

使用 flymyai-lora-trainer 后

风格完美复刻：利用其对 Qwen-Image 和 FLUX.1-dev 的全量训练支持，仅用少量样本即可训练出高度还原手绘质感的 LoRA 模型，生成图可直接融入游戏管线。
低显存友好：借助专为 <24GiB GPU 优化的训练管道，开发者在单张 RTX 3090 上也能流畅运行全流程，无需昂贵的高端集群。
流程自动化：通过内置的数据集验证脚本（validate_dataset.py）和清晰的 YAML 配置，自动检查图文对应关系，将数据准备时间从数小时缩短至几分钟。
高效可控迭代：支持基于控制图的图像编辑训练，美术人员可快速调整角色姿态或局部细节，实现“上午提需求，下午出成品”的敏捷开发。

flymyai-lora-trainer 将高门槛的模型定制化训练转化为标准化的工作流，让中小团队也能低成本拥有专属的 AI 美术资产生产线。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
支持显存小于 24GB 的显卡（如 RTX 4090），官方测试环境为 NVIDIA H200
需支持 CUDA（具体版本未说明，通常需配合 PyTorch 版本）

内存

未说明

依赖

notes1. 必须从 GitHub 安装最新版的 `diffusers` 库，而非 PyPI 版本。 2. 项目提供专门脚本 (`train_4090.py`) 以支持在显存小于 24GB 的 GPU 上进行训练。 3. 训练 Qwen-Image 全量模型时建议在高性能 GPU（如 H200）环境下运行。 4. 数据集准备需确保每张图像都有同名的文本描述文件，并提供了验证脚本。

python3.10

torch

diffusers (GitHub 最新版)

accelerate

omegaconf

Pillow

transformers

快速开始

LoRA 训练：适用于 Qwen-Image、Qwen-Image-Edit 和 FLUX.1-dev

由 FlyMy.AI 提供的开源实现，用于训练 Qwen/Qwen-Image、Qwen/Qwen-Image-Edit 以及 FLUX.1-dev 模型的 LoRA（低秩适应）层。

FlyMy.AI Logo

星标历史

🌟 关于 FlyMy.AI

面向生成式 AI 的代理基础设施。FlyMy.AI 是一家面向 B2B 的基础设施提供商，致力于构建和运行生成式 AI 媒体代理。

🔗 有用链接：

🚀 特性

基于 LoRA 的微调，实现高效训练
支持 Qwen-Image、Qwen-Image-Edit 和 FLUX.1-dev 模型
兼容 Hugging Face diffusers
通过 YAML 文件轻松配置
利用 LoRA 进行基于控制的图像编辑
LoRA 训练的开源实现
完整支持 Qwen-Image 的训练
高质量的人像与角色训练，适用于 FLUX 模型

📅 更新

2025年10月16日

✅ 添加了 FLUX.1-dev 的 LoRA 训练支持
✅ 添加了预训练的 FLUX LoRA 模型示例

2025年9月2日

✅ 添加了 Qwen-Image 和 Qwen-Image-Edit 的完整训练功能

2025年8月20日

✅ 添加了 Qwen-Image-Edit 的 LoRA 训练支持

2025年8月9日

✅ 添加了适用于显存小于 24GiB GPU 的训练流程

2025年8月8日

✅ 添加了全面的数据集准备说明
✅ 添加了数据集验证脚本 (utils/validate_dataset.py)
✅ 在训练过程中冻结模型权重

⚠️ 项目状态

🚧 开发中： 我们正在积极改进代码并增加测试覆盖率。该项目目前处于优化阶段，但已可投入使用。

📋 开发计划：

✅ 基础代码已可用
✅ 已实现训练功能
✅ 已添加 FLUX.1-dev 支持
🔄 正在进行性能优化
🔜 测试覆盖率即将推出

📦 安装

要求：

Python 3.10

克隆仓库并进入目录：

git clone https://github.com/FlyMyAI/flymyai-lora-trainer
cd flymyai-lora-trainer

安装所需依赖包：
```
pip install -r requirements.txt
```

从 GitHub 安装最新版 diffusers：

pip install git+https://github.com/huggingface/diffusers

下载预训练的 LoRA 权重（可选）：

# Qwen LoRA 权重
git clone https://huggingface.co/flymy-ai/qwen-image-realism-lora

# FLUX LoRA 权重
git clone https://huggingface.co/flymy-ai/flux-dev-anne-hathaway-lora

# 或者直接下载特定文件
wget https://huggingface.co/flymy-ai/qwen-image-realism-lora/resolve/main/flymy_realism.safetensors
wget https://huggingface.co/flymy-ai/flux-dev-anne-hathaway-lora/resolve/main/pytorch_lora_weights.safetensors

📁 数据准备

训练用数据集结构

无论是 Qwen 还是 FLUX 模型，训练数据都应遵循相同的格式：每张图片都对应一个同名的文本文件。

dataset/
├── img1.png
├── img1.txt
├── img2.jpg
├── img2.txt
├── img3.png
├── img3.txt
└── ...

Qwen-Image-Edit 训练用数据集结构

对于基于控制的图像编辑，数据集应分为目标图像及描述和控制图像两个独立目录：

dataset/
├── images/           # 目标图像及其描述
│   ├── image_001.jpg
│   ├── image_001.txt
│   ├── image_002.jpg
│   ├── image_002.txt
│   └── ...
└── control/          # 控制图像
    ├── image_001.jpg
    ├── image_002.jpg
    └── ...

数据格式要求

图像：支持常见格式（PNG、JPG、JPEG、WEBP）
文本文件：包含图像描述的纯文本文件
文件命名：每张图像必须有一个与其同名的文本文件

示例数据结构

my_training_data/
├── portrait_001.png
├── portrait_001.txt
├── landscape_042.jpg
├── landscape_042.txt
├── abstract_design.png
├── abstract_design.txt
└── style_reference.jpg
└── style_reference.txt

文本文件内容示例

针对 FLUX 角色训练（portrait_001.txt）：

ohwx 女性，专业人像照，影棚灯光，优雅姿势，直视镜头

针对 Qwen 风景训练（landscape_042.txt）：

日落时分的山地景观，壮丽云海，金色时刻的光线，广角视角

针对 FLUX 人像训练（abstract_design.txt）：

ohwx 女性，现代人像风格，柔和光线，艺术构图

数据准备提示

图像质量：使用高分辨率图像（建议 1024×1024 或更高）
描述质量：撰写详细且准确的图像描述
一致性：确保数据集中风格和质量的一致性
数据集规模：为获得良好效果，建议至少使用 10–50 组图像-文本对
触发词：
- 对于 FLUX 角色训练：使用“ohwx 女性”或“ohwx 男性”作为触发词
- 对于 Qwen 训练：无需特定触发词
自动生成描述：您可以使用 Florence-2 自动生成功能来生成图像描述。

快速数据验证

您可以使用附带的验证工具来检查数据结构：

python utils/validate_dataset.py --path path/to/your/dataset

该工具将检查：

每张图像是否都有对应的文本文件
所有文件是否遵循正确的命名规范
报告任何缺失的文件或不一致之处

🏁 在显存小于 24GB 的设备上开始训练

要使用您的配置文件（例如 train_lora_4090.yaml）开始训练，请运行：

accelerate launch train_4090.py --config ./train_configs/train_lora_4090.yaml

示例输出

🏁 训练

Qwen 模型训练

Qwen-Image LoRA 训练

要使用您的配置文件（例如 train_lora.yaml）开始训练，请运行：

accelerate launch train.py --config ./train_configs/train_lora.yaml

请确保 train_lora.yaml 已正确设置好数据集路径、模型路径、输出目录及其他参数。

Qwen-Image 全模型训练

要使用你的配置文件（例如 train_full_qwen_image.yaml）开始训练，请运行：

accelerate launch train_full_qwen_image.py --config ./train_configs/train_full_qwen_image.yaml

请确保 train_full_qwen_image.yaml 已正确设置，包含数据集、模型、输出目录及其他参数的路径。所提出的方法在 NVIDIA H200 GPU 环境上进行了测试。

加载训练好的全模型

训练完成后，你可以从检查点目录加载训练好的模型以进行推理。

简单示例：

from diffusers import QwenImagePipeline, QwenImageTransformer2DModel, AutoencoderKLQwenImage
import torch
from omegaconf import OmegaConf
import os

def load_trained_model(checkpoint_path):
    """从检查点加载训练好的模型"""
    print(f"从 {checkpoint_path} 加载训练好的模型")
    
    # 加载配置文件以获取原始模型路径
    config_path = os.path.join(checkpoint_path, "config.yaml")
    config = OmegaConf.load(config_path)
    original_model_path = config.pretrained_model_name_or_path
    
    # 加载训练好的 Transformer
    transformer_path = os.path.join(checkpoint_path, "transformer")
    transformer = QwenImageTransformer2DModel.from_pretrained(
        transformer_path,
        torch_dtype=torch.bfloat16,
        low_cpu_mem_usage=True
    )
    transformer.to("cuda")
    transformer.eval()
    
    # 从原始模型加载 VAE
    vae = AutoencoderKLQwenImage.from_pretrained(
        original_model_path,
        subfolder="vae",
        torch_dtype=torch.bfloat16
    )
    vae.to("cuda")
    vae.eval()
    
    # 创建管道
    pipe = QwenImagePipeline.from_pretrained(
        original_model_path,
        transformer=transformer,
        vae=vae,
        torch_dtype=torch.bfloat16
    )
    pipe.to("cuda")
    
    print("模型加载成功！")
    return pipe

# 使用方法
checkpoint_path = "/path/to/your/checkpoint"
pipe = load_trained_model(checkpoint_path)

# 生成图像
prompt = "一幅美丽的山水风景画"
image = pipe(
    prompt=prompt,
    width=768,
    height=768,
    num_inference_steps=30,
    true_cfg_scale=5,
    generator=torch.Generator(device="cuda").manual_seed(42)
)

# 保存结果
output_image = image.images[0]
output_image.save("generated_image.png")

完整示例脚本：

python inference_trained_model_gpu_optimized.py

检查点结构：

训练好的模型以如下结构保存：

checkpoint/
├── config.yaml          # 训练配置文件
└── transformer/         # 训练好的 Transformer 权重
    ├── config.json
    ├── diffusion_pytorch_model.safetensors.index.json
    └── diffusion_pytorch_model-00001-of-00005.safetensors
    └── ... (多个分片文件)

Qwen-Image-Edit LoRA 训练

对于基于控制的图像编辑训练，使用专门的训练脚本：

accelerate launch train_qwen_edit_lora.py --config ./train_configs/train_lora_qwen_edit.yaml

Qwen-Image-Edit 的配置

配置文件 train_lora_qwen_edit.yaml 应包含以下内容：

img_dir: 目标图像和说明文字目录的路径（例如 ./extracted_dataset/train/images）
control_dir: 控制图像目录的路径（例如 ./extracted_dataset/train/control）
其他标准的 LoRA 训练参数

🧪 使用方法

Qwen-Image-Edit 全模型训练

要使用你的配置文件（例如 train_full_qwen_edit.yaml）开始训练，请运行：

accelerate launch train_full_qwen_edit.py --config ./train_configs/train_full_qwen_edit.yaml

🔧 Qwen-Image 初始化

from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image"

# 加载管道
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

🔧 Qwen-Image-Edit 初始化

from diffusers import QwenImageEditPipeline
import torch
from PIL import Image

# 加载管道
pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")

🔌 加载 LoRA 权重

对于 Qwen-Image：

# 加载 LoRA 权重
pipe.load_lora_weights('flymy-ai/qwen-image-realism-lora', adapter_name="lora")

对于 Qwen-Image-Edit：

# 加载训练好的 LoRA 权重
pipeline.load_lora_weights("/path/to/your/trained/lora/pytorch_lora_weights.safetensors")

🎨 使用 Qwen-Image LoRA 生成图像

你可以在这里找到 LoRA 权重。

无需触发词

prompt = '''一位非洲裔青少年女性的超写实肖像，神情宁静安详，双臂交叉，被戏剧性的影棚灯光照亮，背景是阳光明媚的公园，佩戴精致的珠宝，四分之三侧面像，肌肤晒得健康自然，带有天然瑕疵，披散着及肩的卷发，眼睛微微眯起，环境为街头人像，T恤上印有“FLYMY AI”字样。'''
negative_prompt =  " "
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=1024,
    height=1024,
    num_inference_steps=50,
    true_cfg_scale=5,
    generator=torch.Generator(device="cuda").manual_seed(346346)
)

# 显示图像（在 Jupyter 中或保存到文件）
image.show()
# 或
image.save("output.png")

🎨 使用 Qwen-Image-Edit LoRA 编辑图像

# 加载输入图像
image = Image.open("/path/to/your/input/image.jpg").convert("RGB")

# 定义编辑提示
prompt = "在同一场景中拍摄一张画面，人物逐渐远离相机，保持相机稳定以聚焦于主体，同时镜头慢慢拉远，捕捉更多周围环境，远处的人物细节逐渐模糊。"

# 生成编辑后的图像
inputs = {
    "image": image,
    "prompt": prompt,
    "generator": torch.manual_seed(0),
    "true_cfg_scale": 4.0,
    "negative_prompt": " ",
    "num_inference_steps": 50,
}

with torch.inference_mode():
    output = pipeline(**inputs)
    output_image = output.images[0]
    output_image.save("edited_image.png")

🖼️ 示例输出 - Qwen-Image

示例输出

🖼️ 示例输出 - Qwen-Image-Edit

输入图像：

输入图像

提示： “在同一场景中拍摄一张画面，左手固定砧板边缘，右手倾斜砧板，使切碎的番茄滑入锅中，摄像机角度略微向左移动，以便更集中地拍摄锅中的食材。”

无 LoRA 输出：

无 LoRA 输出

LoRA 输出：

LoRA 输出

FLUX.1-dev 模型训练

FLUX.1-dev LoRA 训练

FLUX.1-dev 是一款功能强大的文生图模型，特别擅长生成高质量的人像和角色图像。我们的 LoRA 训练实现允许您针对特定角色或风格对 FLUX 进行微调。

开始 FLUX 训练

要使用您的配置文件开始 FLUX LoRA 训练，请运行：

accelerate launch train_flux_lora.py --config ./train_configs/train_flux_config.yaml

请确保 train_flux_config.yaml 已正确设置，包含数据集、模型、输出目录等路径及其他参数。

🔧 FLUX.1-dev 初始化

from diffusers import DiffusionPipeline
import torch

model_name = "black-forest-labs/FLUX.1-dev"

# 加载管道
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

🔌 加载 FLUX LoRA 权重

# 加载 LoRA 权重
pipe.load_lora_weights('flymy-ai/flux-dev-anne-hathaway-lora', adapter_name="lora")

🎨 使用 FLUX LoRA 生成图像

您可以在此处找到我们预训练的 FLUX LoRA 权重：https://huggingface.co/flymy-ai/flux-dev-anne-hathaway-lora

需要触发词：“ohwx woman”

prompt = '''ohwx 女性的肖像，专业头像，影棚灯光，优雅姿势，直视镜头，柔和阴影，高质量，细致面部特征，电影级灯光，85mm 镜头，浅景深'''
negative_prompt = "模糊，低质量，扭曲，解剖结构错误"
image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt，
    宽度=1024，
    高度=1024，
    推理步数=30，
    引导系数=3.5，
    生成器=torch.Generator(device="cuda").manual_seed(346346)
)

# 显示图像（在 Jupyter 中）或保存到文件
image.images[0].show()
# 或
image.images[0].save("output.png")

🖼️ FLUX 输出示例

FLUX 输出示例

🎨 FLUX 生成示例

以下是使用我们的 FLUX Anne Hathaway LoRA 模型生成的图像示例：

休闲人像自拍

提示词：“ohwx 女性肖像自拍”

休闲人像自拍

艺术双曝光

提示词：“ohwx 女性完美对称的年轻女性脸部特写，以双曝光叠加呈现，融合树叶和水等自然纹理”

艺术双曝光

黄金时段微距人像

提示词：“ohwx 女性微距摄影风格的女性脸部特写，化着淡妆，重点突出眼睛和嘴唇，在黄金时段阳光下呈现出温暖色调”

黄金时段微距人像

温馨熊猫人像

提示词：“ohwx 女性身穿棕色针织高领毛衣的特写。她与一只黑白相间的胖熊猫依偎在一起，抱着它，直视镜头”

温馨熊猫人像

🚀 训练您自己的 FLUX LoRA

想训练属于您自己的 FLUX LoRA 模型吗？请使用我们的在线训练平台：

🚀 在 FlyMy.AI 上训练您自己的 FLUX LoRA

特点：

✅ 简单易用的网页界面
✅ 无需本地 GPU
✅ 优化的训练流程
✅ 快速训练时间
✅ 专业级效果

🎛️ 与 ComfyUI 结合使用

我们提供了开箱即用的 ComfyUI 工作流，可同时用于我们训练的 Qwen 和 FLUX LoRA 模型。请按照以下步骤设置并使用这些工作流：

设置说明

下载最新版 ComfyUI：
- 访问 ComfyUI GitHub 仓库
- 克隆或下载最新版本
安装 ComfyUI：
- 按照 ComfyUI 仓库中的安装说明操作
- 确保所有依赖项均已正确安装
下载模型权重：

对于 Qwen-Image：
- 前往 Qwen-Image ComfyUI 权重
- 下载所有模型文件
对于 FLUX.1-dev：
- 前往 FLUX.1-dev 模型
- 下载所有模型文件
将模型权重放入 ComfyUI：
- 将下载的模型文件复制到 ComfyUI/models/ 中的相应文件夹
- 按照模型仓库中指定的文件夹结构进行操作
下载我们预训练的 LoRA 权重：
- Qwen LoRA： flymy-ai/qwen-image-realism-lora
- FLUX LoRA： flymy-ai/flux-dev-anne-hathaway-lora
- 下载 LoRA 的 .safetensors 文件
将 LoRA 权重放入 ComfyUI：
- 将 LoRA 文件复制到 ComfyUI/models/loras/ 目录中
加载工作流：
- 在浏览器中打开 ComfyUI
- 对于 Qwen： 加载 qwen_image_lora_example.json
- 对于 FLUX： 加载 flux_anne_hathaway_lora_example.json
- 这些工作流已预先配置好，可与我们的 LoRA 模型配合使用

工作流特点

✅ 预先配置用于 Qwen-Image + LoRA 推理
✅ 预先配置用于 FLUX.1-dev + LoRA 推理
✅ 优化的设置以获得最佳画质
✅ 方便调整提示词和参数
✅ 兼容我们训练的所有 LoRA 模型

ComfyUI 工作流提供了一个用户友好的界面，让您无需编写 Python 代码即可使用我们训练好的 LoRA 模型生成图像。

🖼️ 工作流截图

ComfyUI 工作流

🤝 支持

如果您有任何问题或建议，请加入我们的社区：

⭐ 如果您喜欢这个项目，请别忘了给仓库点个赞！

flymyai-lora-trainer 快速上手指南

flymyai-lora-trainer 是一个开源工具，支持对 Qwen-Image、Qwen-Image-Edit 和 FLUX.1-dev 模型进行 LoRA（低秩适应）微调训练。本指南将帮助你快速完成环境搭建并开始训练。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐) 或 Windows (需配置相应 CUDA 环境)
Python 版本: 3.10
GPU 显存:
- 标准训练：建议 24GB 及以上 (如 RTX 3090/4090, A10/A100)
- 低显存优化：支持 < 24GB 显存方案 (见训练章节)
依赖库: PyTorch (需支持 CUDA), diffusers (最新版)

安装步骤

1. 克隆项目

git clone https://github.com/FlyMyAI/flymyai-lora-trainer
cd flymyai-lora-trainer

2. 安装基础依赖

建议使用国内镜像源加速安装（如清华源）：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装最新版 diffusers

官方要求从 GitHub 安装最新的 diffusers 以支持新模型特性：

pip install git+https://github.com/huggingface/diffusers

4. (可选) 下载预训练权重

如果你只想测试推理或作为参考，可以下载官方提供的预训练 LoRA 权重：

# Qwen LoRA 权重
wget https://huggingface.co/flymy-ai/qwen-image-realism-lora/resolve/main/flymy_realism.safetensors

# FLUX LoRA 权重
wget https://huggingface.co/flymy-ai/flux-dev-anne-hathaway-lora/resolve/main/pytorch_lora_weights.safetensors

基本使用

第一步：准备数据集

训练数据需要成对的图像和文本描述文件，文件名必须一致（仅扩展名不同）。

目录结构示例：

dataset/
├── img1.png
├── img1.txt          # 内容：A beautiful portrait of a woman...
├── img2.jpg
├── img2.txt          # 内容：A landscape with mountains...
└── ...

针对 Qwen-Image-Edit (可控编辑) 的特殊结构：

dataset/
├── images/           # 目标图像及其描述
│   ├── image_001.jpg
│   ├── image_001.txt
│   └── ...
└── control/          # 控制图像 (无需 txt)
    ├── image_001.jpg
    └── ...

数据准备提示：

格式: 支持 PNG, JPG, WEBP。
分辨率: 推荐 1024x1024 或更高。
数量: 建议至少准备 10-50 张图片以获得良好效果。
触发词:
- FLUX 人物训练：建议在描述中加入 ohwx woman 或 ohwx man。
- Qwen 训练：无需特定触发词。

验证: 运行以下命令检查数据集格式是否正确：

python utils/validate_dataset.py --path path/to/your/dataset

第二步：配置训练参数

复制并修改配置文件（位于 train_configs/ 目录下），主要调整以下字段：

img_dir: 数据集路径
output_dir: 模型保存路径
pretrained_model_name_or_path: 基座模型路径或 HuggingFace ID
resolution: 训练分辨率

第三步：开始训练

根据显卡显存大小选择对应的启动脚本。

方案 A：显存 < 24GB (优化版)

适用于消费级显卡（如 3080, 4070 等）：

accelerate launch train_4090.py --config ./train_configs/train_lora_4090.yaml

方案 B：标准训练 (Qwen-Image LoRA)

适用于 24GB+ 显存：

accelerate launch train.py --config ./train_configs/train_lora.yaml

方案 C：Qwen-Image 全量微调

accelerate launch train_full_qwen_image.py --config ./train_configs/train_full_qwen_image.yaml

方案 D：Qwen-Image-Edit LoRA 训练

accelerate launch train_qwen_edit_lora.py --config ./train_configs/train_lora_qwen_edit.yaml

第四步：加载与推理 (Python 示例)

训练完成后，你可以使用以下代码加载生成的 LoRA 权重进行绘图（以 Qwen-Image 为例）：

from diffusers import DiffusionPipeline
import torch

# 1. 初始化基座模型
model_name = "Qwen/Qwen-Image"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch.bfloat16)
pipe.to("cuda")

# 2. 加载训练好的 LoRA 权重
# 替换为你的本地路径或 HF 仓库地址
pipe.load_lora_weights("./output_dir/checkpoint-1000", adapter_name="my_lora")
pipe.set_adapters(["my_lora"], [1.0]) # 设置权重比例

# 3. 生成图像
prompt = "A futuristic cityscape at night, cyberpunk style, neon lights"
image = pipe(
    prompt=prompt,
    width=1024,
    height=1024,
    num_inference_steps=30,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

# 4. 保存结果
image.save("result.png")

注意：对于 FLUX 模型，请使用 FluxPipeline 并加载 .safetensors 格式的 LoRA 文件；对于 Qwen-Image-Edit，请使用 QwenImageEditPipeline 并传入 control_image 参数。

版本历史

1.0.02025/08/09

常见问题

加载模型分片（shards）时出现内存溢出（OOM）错误，即使拥有大内存（如 32GB/64GB）也会失败，如何解决？

在 24GB 或 48GB 显存的机器上训练 qwen-image-edit LoRA 时报告 OOM，官方文档称 24GB 即可运行，该如何优化配置？

在 Windows 上安装依赖时，deepspeed 编译报错 "fatal error LNK1181: 无法打开输入文件'aio.lib'" 或 "No module named 'cpuinfo'"，如何解决？

训练时报错 `KeyError: '.txt'` 或 `RecursionError`，提示找不到文本嵌入或递归深度超限，原因是什么？

使用高分辨率图片（如 3000*2000）训练时直接发生内存溢出（Killed -9），即使拥有多张 4090 和大内存，该如何调整？

训练完成后，在 ComfyUI 中使用生成的 LoRA 模型，发现生成的图像效果不符合预期或与训练目标不一致，可能是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent