ComfyUI_IPAdapter_plus

GitHub
5.9k 453 中等 1 次阅读 2天前GPL-3.0图像插件
AI 解读 由 AI 自动生成,仅供参考

ComfyUI_IPAdapter_plus 是 ComfyUI 平台中用于集成 IP-Adapter 模型的核心插件,旨在实现强大的“图生图”条件控制。它解决了传统生成式 AI 难以精准参考特定图片主体特征或艺术风格的痛点,让用户仅需一张参考图,即可将画中的人物形象、构图甚至画风无缝迁移到新生成的图像中,效果常被形象地比喻为“单图版 LoRA"。

该工具特别适合设计师、数字艺术家以及希望深入探索可控图像生成的进阶用户。通过它,创作者可以快速进行风格化创作、角色一致性保持或肖像重绘,无需复杂的训练过程。其技术亮点在于提供了丰富的模型变体,包括针对轻量级影响的 Light 版本、强效控制的 Plus 版本,以及专门优化的人脸和全身肖像模型;同时支持注意力掩码(Attention Masking)和动画生成等高级功能。虽然目前项目已进入维护模式,但其稳定的工作流和详尽的示例教程,依然是 ComfyUI 生态中实现高质量图像参考生成的首选方案。

使用场景

一位独立游戏开发者需要为角色设计一套保持面部特征一致但风格各异的装备概念图。

没有 ComfyUI_IPAdapter_plus 时

  • 角色一致性极难维持:每次生成新装备,角色的五官、发型都会发生随机变化,不得不花费大量时间手动修图或反复重绘。
  • 训练成本高昂:若想固定角色形象,必须收集多张角度照片训练 LoRA 模型,耗时数小时且对显存要求高,不适合快速迭代。
  • 风格迁移生硬:尝试用图生图功能参考风格时,往往连角色的主体特征也被覆盖,导致“形似神不似”。
  • 工作流断裂:需要在不同软件间切换来拼凑参考图与生成结果,无法在一个流程中完成从参考到成图的闭环。

使用 ComfyUI_IPAdapter_plus 后

  • 单图锁定角色特征:仅需一张角色原画作为参考,即可在生成不同装备时完美保留面部细节和神态,实现“一图即洛拉”的效果。
  • 零训练即时生效:无需任何模型训练过程,加载预训练的 IPAdapter 模型后即可立即调整权重,灵活控制参考图对生成的影响强度。
  • 精准分离风格与内容:利用其高级功能,可单独提取参考图的画风或构图,让角色穿上赛博朋克或奇幻风格的装备而不改变长相。
  • 全流程节点化整合:在 ComfyUI 中通过可视化节点串联参考图输入与生成步骤,一键批量产出系列设定图,大幅提升创作效率。

ComfyUI_IPAdapter_plus 将原本繁琐的角色一致性控制转化为简单的单图参考操作,让创意构思不再受限于技术磨合成本。

运行环境要求

操作系统
  • 未说明
GPU

未说明(作为 ComfyUI 插件,依赖底层 ComfyUI 的 GPU 环境,通常需 NVIDIA GPU 以运行 SD/SDXL 模型)

内存

未说明

依赖
notes1. 必须安装最新版本的 ComfyUI,否则可能无法运行。 2. 若使用 FaceID 相关模型,必须在 ComfyUI 环境中手动安装 'insightface' 库。 3. 对于 Kolors 模型的 FaceID 功能,需额外下载 'antelopev2' 模型文件并放置于 models/insightface 目录。 4. 大多数 FaceID 模型需要搭配特定的 LoRA 文件才能正常工作。 5. 作者声明该仓库目前仅处于“维护模式”,不再进行功能性更新。
python未说明
ComfyUI (最新版)
insightface (FaceID 功能必需)
ComfyUI_IPAdapter_plus hero image

快速开始

ComfyUI IPAdapter plus

ComfyUIIPAdapter 模型的参考实现。

IPAdapter 是功能强大的图像条件生成模型。参考图像的主题,甚至仅仅是风格,都可以轻松地迁移到生成结果中。可以把它看作一种单张图像的 LoRA。

[!IMPORTANT]
2025年4月14日 - 由于我不再将 ComfyUI 作为与生成式 AI 交互的主要方式,因此我将此仓库设置为“仅维护”模式。如果有关键更新或拉取请求,我仍可能会考虑合并,但我不会再对此仓库进行持续性的开发工作。

示例工作流

examples 目录 中包含许多工作流,涵盖了 IPAdapter 的所有功能。

IPAdapter 示例工作流

视频教程

观看视频

以下视频介绍的是 IPAdapter 的旧版本,但仍然包含有价值的信息。

:nerd_face: 基础使用视频,:rocket: 高级特性视频,:japanese_goblin: 注意力掩码视频,:movie_camera: 动画特性视频

安装

将此仓库下载或通过 Git 克隆到 ComfyUI/custom_nodes/ 目录下,或者使用管理器进行安装。IPAdapter 始终需要最新版本的 ComfyUI。如果遇到问题,请务必升级。请注意,管理器的自动更新有时可能失效,您可能需要手动升级。

现在有一个 统一模型加载器,要使其正常工作,您需要按照以下说明精确命名文件。旧版加载器可以使用任意文件名,但需要手动选择。模型可以放置在子目录中。

请记住,您也可以通过在 extra_model_paths.yaml 文件中设置 ipadapter 条目来使用自定义路径。

FaceID 模型需要 insightface,您需要将其安装到您的 ComfyUI 环境中。有关帮助,请参阅 此问题。请记住,大多数 FaceID 模型还需要 LoRA。

为了使统一加载器正常工作,文件必须按照下面列出的名称精确命名。

大多数 FaceID 模型都需要 LoRA。如果您使用 IPAdapter 统一加载器 FaceID,只要遵循命名规范,LoRA 就会自动加载。否则,您需要手动加载,务必注意每种 FaceID 模型都必须与其特定的 LoRA 配对。

所有模型都可以在 huggingface 上找到。

社区模型

社区已经训练了一些有趣的 IPAdapter 模型。

如果您知道其他模型,请告知我,我会将其添加到统一加载器中。

通用建议

examples 目录中包含许多工作流。在寻求支持之前,请先查看这些示例。

通常,将 weight 至少降低到 0.8 并增加采样步数是一个不错的选择。为了更好地遵循提示词,您可以尝试在 IPAdapter Advanced 节点中更改 权重类型

故障排除

在提交新问题之前,请先查看 故障排除。同时,请务必检查之前的已关闭问题。

致谢

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像