latent-consistency-model

4.6k 233 中等 2 次阅读今天MIT图像

AI 解读由 AI 自动生成，仅供参考

Latent Consistency Models（简称 LCM）致力于解决扩散模型生成速度慢的问题。它利用一致性蒸馏技术，仅需极少推理步骤即可合成高分辨率图像，将原本需要数十步的迭代过程压缩至 4 步以内，显著提升生成效率。

LCM 拥有多项独特优势。其推出的 LCM-LoRA 模块允许用户在不重新训练的情况下，轻松加速 Stable Diffusion XL、SD 1.5 等主流模型。LCM 生态完善，已集成至 Hugging Face Diffusers 库，并支持 SD-WebUI、ComfyUI 等流行界面，涵盖文生图、图生图及实时交互场景。

无论是希望快速落地的开发者、追求效率的设计师，还是关注算法优化的研究人员，都能从 LCM 中获益。官方提供了丰富的训练脚本与在线 Demo，社区氛围活跃，欢迎各方参与共建。

使用场景

电商运营团队需要为每日上百款新品快速生成营销海报，传统文生图流程的延迟严重拖慢了上线节奏。

没有 latent-consistency-model 时

生成一张高分辨率图片通常需要 20-50 步采样，单张耗时超过 10 秒，无法满足即时需求。
批量处理大量商品图时，GPU 显存占用大且计算队列拥堵，导致整体任务积压。
设计师微调提示词后需长时间等待渲染结果，无法进行快速的视觉风格试错与迭代。

使用 latent-consistency-model 后

latent-consistency-model 仅需 4-8 步推理即可输出高质量图像，单张生成速度提升至 1 秒以内。
兼容现有 Stable Diffusion 工作流，通过 LCM-LoRA 模块直接加速，无需重新训练底层模型。
实现近实时的图文交互体验，设计师调整参数后能立即预览效果，显著缩短创意验证周期。

latent-consistency-model 通过少步推理技术将图像生成从“分钟级”提升至“秒级”，极大释放了创意生产力。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需 (支持 CPU 运行)，推荐 NVIDIA GPU (CUDA)，MacOS 支持 MPS，Intel GPU 支持 XPU，具体显存要求未明确说明

内存

未说明

依赖

notes1. 本地部署需安装 PyTorch (支持 CUDA/MPS/XPU)；2. MacOS 用户需在 app.py 设置 device="mps"，Intel GPU 用户设置 device="xpu"；3. 需下载预训练模型 (如 LCM_Dreamshaper_v7)；4. 推荐使用 Hugging Face diffusers 官方库；5. 支持少步数快速推理 (1-8 步)。

python未说明

torch

diffusers>=0.22

transformers

accelerate

gradio==3.48.0

快速开始

潜在一致性模型 (Latent Consistency Models)

论文官方仓库：潜在一致性模型：使用少步推理合成高分辨率图像。

论文官方仓库：LCM-LoRA：一种通用的 Stable-Diffusion 加速模块。

项目页面：https://latent-consistency-models.github.io

尝试我们的演示：

🤗 Hugging Face 演示： 🔥🔥🔥

Replicate 演示：

OpenXLab 演示：

LCM 社区：加入我们的 LCM Discord 频道进行讨论。欢迎开发者贡献代码。

重磅新闻 🔥🔥!!

(🤖New) 2023/12/1 Pixart-α X LCM 已发布，这是一个高质量图像生成模型。请见此处。
(❤️New) 2023/11/10 训练脚本 已发布！！请查看此处。
(🤯New) 2023/11/10 无需训练的加速版 LCM-LoRA 诞生了！请查看我们的技术报告此处和 Hugging Face 博客此处。(注：LoRA 即 Low-Rank Adaptation)
(⚡️New) 2023/11/10 LCM 迎来重大更新！我们发布了 3 个 LCM-LoRA (SD-XL, SSD-1B, SD-V1.5)，请见此处。
(🚀New) 2023/11/10 LCM 迎来重大更新！我们发布了 2 个全参数微调的 LCM (SD-XL, SSD-1B)，请见此处。

新闻

(🔥New) 2023/11/10 我们现在支持使用 C# 和 ONNX Runtime 进行 LCM 推理！感谢 @saddam213! 请查看链接此处。
(🔥New) 2023/11/01 实时潜在一致性模型 (Real-Time Latent Consistency Models) 已发布！！Github 链接此处。感谢 @radames 提供的非常酷的 Huggingface🤗 演示实时图像到图像，实时文生图。Twitter/X 链接。
(🔥New) 2023/10/28 我们支持 LCM 的 Img2Img (图像到图像)！请参阅"🔥 图像到图像演示”。
(🔥New) 2023/10/25 我们在 🧨 Diffusers 库中现在有了官方的 LCM Pipeline (管道) 和 LCM Scheduler (调度器)！请查看新的“使用方法”。
(🔥New) 2023/10/24 简单的 Streamlit UI 用于本地使用：请见链接。感谢 @akx。
(🔥New) 2023/10/24 我们现在支持 SD-Webui 和 ComfyUI！！感谢 @0xbitches。请查看链接：SD-Webui 和 ComfyUI。
(🔥New) 2023/10/23 也支持在 Windows/Linux CPU 上运行！感谢 @rupeshs 请见链接。
(🔥New) 2023/10/22 现在支持 Google Colab。感谢 @camenduru 请查看链接：Colab
(🔥New) 2023/10/21 我们现在支持 本地 gradio 演示。LCM 可以在本地运行！！请参阅"本地 gradio 演示"。
(🔥New) 2023/10/19 我们在 🤗 Hugging Face Space 中提供了 LCM 的演示。在此尝试此处。
(🔥New) 2023/10/19 我们在 🤗 Hugging Face 上提供了 LCM 模型 (Dreamshaper_v7)。下载此处。
(🔥New) 2023/10/19 LCM 已集成到 🧨 Diffusers 库中。请参考“使用方法”。

🔥 图像到图像演示 (Image-to-Image):

我们现在支持 Img2Img (图像到图像)！在这里尝试令人印象深刻的 img2img 演示：Replicate, SD-webui, ComfyUI, Colab

本地 img2img 的 gradio 正在开发中！

🔥 本地 gradio 演示 (文生图):

要在本地运行模型，您可以下载 "local_gradio" 文件夹：

安装 Pytorch (CUDA)。MacOS 系统可以下载 Pytorch 的"MPS"版本。请参见：https://pytorch.org。如果您使用的是 Intel GPU，也请安装 Intel Extension for Pytorch。
安装主库：

pip install diffusers transformers accelerate gradio==3.48.0

启动 gradio：(对于 MacOS 用户，需要在 app.py 中设置 device="mps"；对于 Intel GPU 用户，在 app.py 中设置 device="xpu")

python app.py

已发布的演示与模型

我们的 Hugging Face 演示和模型已发布！潜在一致性模型 (Latent Consistency Models) 已在 🧨 diffusers 库中得到支持。

LCM 模型下载: LCM_Dreamshaper_v7

LCM 模型已上传到始智 AI(wisemodel)，中文用户可在此下载，下载链接。

中文用户可在此下载 LCM 模型：

Hugging Face 演示：

Replicate 演示：

OpenXLab 演示：

Tungsten 演示：

Novita.AI 演示：

通过将无分类器引导 (classifier-free guidance) 蒸馏到模型的输入中，LCM 可以在极短的推理时间内生成高质量图像。我们在 768 x 768 分辨率、CFG scale w=8、batchsize=4、使用 A800 GPU 的设置下比较了推理时间。

使用方法

我们现在在 🧨 Diffusers 库中拥有官方的 LCM Pipeline（LCM 管道）和 LCM Scheduler（LCM 调度器）！旧的使用方法将被弃用。

您可以直接在以下平台尝试潜在一致性模型 (Latent Consistency Models)：

若要自行运行模型，您可以利用 🧨 Diffusers 库：

安装库：

pip install --upgrade diffusers  # make sure to use at least diffusers >= 0.22
pip install transformers accelerate

运行模型：

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("SimianLuo/LCM_Dreamshaper_v7")

# To save GPU memory, torch.float16 can be used, but it may compromise image quality.
pipe.to(torch_device="cuda", torch_dtype=torch.float32)

prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"

# Can be set to 1~50 steps. LCM support fast inference even <= 4 steps. Recommend: 1~8 steps.
num_inference_steps = 4 

images = pipe(prompt=prompt, num_inference_steps=num_inference_steps, guidance_scale=8.0, lcm_origin_steps=50, output_type="pil").images

更多信息，请查看官方文档： 👉 https://huggingface.co/docs/diffusers/api/pipelines/latent_consistency_models#latent-consistency-models

使用方法（已弃用）

我们现在在 🧨 Diffusers 库中拥有官方的 LCM Pipeline（LCM 管道）和 LCM Scheduler（LCM 调度器）！旧的使用方法将被弃用。但你仍可通过在 from_pretrained(...) 中添加 revision="fb9c5d1" 来使用旧方法。

若要自行运行模型，您可以利用 🧨 Diffusers 库：

安装库：

pip install diffusers transformers accelerate

运行模型：

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("SimianLuo/LCM_Dreamshaper_v7", custom_pipeline="latent_consistency_txt2img", custom_revision="main", revision="fb9c5d")

# To save GPU memory, torch.float16 can be used, but it may compromise image quality.
pipe.to(torch_device="cuda", torch_dtype=torch.float32)

prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"

# Can be set to 1~50 steps. LCM support fast inference even <= 4 steps. Recommend: 1~8 steps.
num_inference_steps = 4 

images = pipe(prompt=prompt, num_inference_steps=num_inference_steps, guidance_scale=8.0, lcm_origin_steps=50, output_type="pil").images

我们的贡献者：

BibTeX

LCM:
@misc{luo2023latent,
      title={Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference}, 
      author={Simian Luo and Yiqin Tan and Longbo Huang and Jian Li and Hang Zhao},
      year={2023},
      eprint={2310.04378},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

LCM-LoRA:
@article{luo2023lcm,
  title={LCM-LoRA: A Universal Stable-Diffusion Acceleration Module},
  author={Luo, Simian and Tan, Yiqin and Patil, Suraj and Gu, Daniel and von Platen, Patrick and Passos, Apolin{\'a}rio and Huang, Longbo and Li, Jian and Zhao, Hang},
  journal={arXiv preprint arXiv:2311.05556},
  year={2023}
}

Latent Consistency Models (LCM) 快速上手指南

Latent Consistency Models (LCM) 是一种能够以极少推理步数（Few-Step）合成高分辨率图像的开源模型，显著提升了 Stable Diffusion 等模型的生成速度。

环境准备

操作系统：Linux / Windows / macOS
硬件要求：
- 推荐 NVIDIA GPU (CUDA)
- macOS 用户可使用 MPS (Metal Performance Shaders)
- Intel GPU 用户可使用 XPU
- 也支持 CPU 运行（速度较慢）
Python 版本：建议 Python 3.8+

安装步骤

安装核心依赖库 确保使用 diffusers >= 0.22 版本以支持官方 Pipeline。
```
pip install --upgrade diffusers
pip install transformers accelerate
```
（可选）安装本地 WebUI 如需运行本地 Gradio 界面，请额外安装：
```
pip install gradio==3.48.0
```
模型下载（国内加速） 由于 Hugging Face 访问可能受限，建议中国开发者优先从以下国内镜像源下载模型权重：
- 始智 AI (Wisemodel): LCM_Dreamshaper_v7
- OpenXLab: LCM_Dreamshaper_v7_4k.safetensors

基本使用

以下示例展示了如何使用 diffusers 库加载模型并进行文本生成图像（Text-to-Image）。

from diffusers import DiffusionPipeline
import torch

# 加载模型 (推荐使用官方仓库 ID，国内网络慢时可手动下载 .safetensors 文件后指定路径)
pipe = DiffusionPipeline.from_pretrained("SimianLuo/LCM_Dreamshaper_v7")

# 设置设备与精度 (cuda 为推荐，mps 用于 Mac，float16 可节省显存但可能影响画质)
pipe.to(torch_device="cuda", torch_dtype=torch.float32)

prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"

# 推理步数建议设置在 1~8 步之间，LCM 支持极低步数推理
num_inference_steps = 4 

images = pipe(prompt=prompt, num_inference_steps=num_inference_steps, guidance_scale=8.0, lcm_origin_steps=50, output_type="pil").images

关键参数说明

num_inference_steps: 推理步数，范围 1~~50，推荐 1~~8 步以获得极速生成。
guidance_scale: 引导系数，默认 8.0 左右效果较好。
lcm_origin_steps: 原始蒸馏步数，通常保持 50。

更多详细信息请参考官方文档：Hugging Face Diffusers Docs

常见问题

Replicate 版本中 NSFW 过滤器频繁误触且没有负面提示词输入选项怎么办？

为什么模型生成质量不高，如何调整参数优化？

结合 LCM LoRA 和常规 SDXL LoRA 时图像质量低的原因及解决方法？

本地运行 app.py 出现 TORCH_USE_CUDA_DSA 错误如何处理？

有没有推荐的 LCM 推理 Python 代码示例？

一致性模型中的 c_skip 和 c_out 参数在推理中是否有实际作用？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像