comfyui-tooling-nodes
comfyui-tooling-nodes 是一套专为将 ComfyUI 打造为外部工具后端而设计的节点集合。它核心解决了传统工作流中依赖文件系统上传下载图片的痛点,通过内存缓存、Base64 编码及 WebSocket 技术,实现了图像数据在系统间的直接传输,不仅避免了繁琐的多步操作和临时文件清理难题,还显著提升了处理效率。
该工具特别适合开发者、研究人员以及需要构建自动化图像生成管线的高级用户。其独特亮点在于支持多种高效的数据交换模式:既可以直接在提示词中嵌入 Base64 图像,也能利用 HTTP API 将图片暂存于内存中进行快速读写;同时提供基于 WebSocket 的实时图像推送功能。此外,它还引入了创新的“区域注意力掩码”(Regions)机制,允许用户针对图像的不同区域应用独立的文本提示,从而生成更自然、可控的合成效果。对于希望摆脱文件 IO 瓶颈、追求低延迟集成或需要精细控制生成内容的团队而言,comfyui-tooling-nodes 提供了强大且灵活的技术支撑。
使用场景
某电商技术团队正在开发一个实时虚拟试衣系统,需要将用户上传的服装图与模特图在 ComfyUI 后端进行快速融合处理。
没有 comfyui-tooling-nodes 时
- 磁盘 I/O 瓶颈严重:每次请求都需将图片写入服务器硬盘再读取,高并发下磁盘读写成为性能短板,导致响应延迟高达数秒。
- 临时文件管理混乱:频繁的文件上传下载产生大量临时垃圾文件,若清理机制失效,极易占满服务器存储空间引发崩溃。
- 区域控制实现困难:想要仅对衣服区域重绘而保留背景,缺乏原生的注意力掩码(Attention Masking)节点,工作流逻辑极其复杂且效果生硬。
- 集成链路冗长:外部系统必须通过“上传 - 提示 - 轮询 - 下载”的多步 HTTP 交互,代码维护成本高且容易出错。
使用 comfyui-tooling-nodes 后
- 内存直传零延迟:利用
Load Image (Base64)和Send Image (WebSocket)节点,图片数据直接在内存中流转,彻底消除磁盘读写开销,生成速度提升显著。 - 自动缓存免清理:通过
Save Image to Cache将中间结果暂存于 RAM,无需关心文件系统清理问题,大幅降低运维风险。 - 自然区域重绘:借助
Define Region和Background Region节点,轻松定义服装与背景的独立提示词,实现过渡自然的局部重绘效果。 - 后端集成极简:外部工具只需通过 WebSocket 或简单的 HTTP 缓存接口即可完成全流程调用,将原本复杂的交互简化为单次请求。
comfyui-tooling-nodes 通过将 ComfyUI 从依赖文件系统的孤岛转变为高效的内存级后端服务,完美解决了高性能图像应用中的延迟与集成难题。
运行环境要求
- 未说明
未说明 (依赖 ComfyUI 主程序及具体工作流中使用的模型,如 NSFW Filter 需加载 Stable Diffusion Safety Checker)
未说明 (图片缓存节点使用 RAM 存储上传的图片,大图像处理建议充足内存)

快速开始
用于外部工具的 ComfyUI 节点
提供专为将 ComfyUI 用作外部工具后端而设计的节点和 API。
发送和接收图像
ComfyUI 通过文件系统交换图像。这需要一个多步骤流程(上传图像、提示、下载图像),容易引发一系列你可能不想处理的问题。此外,如果通过外部工具使用 ComfyUI,这些图像会在何时被清理也并不明确。
加载图像(Base64)
从嵌入在提示中的 Base64 编码 PNG 图像中加载图像。
- 输入:Base64 编码的 PNG 图像二进制数据
- 输出:图像(RGB)以及存在的遮罩(Alpha)
加载遮罩(Base64)
从嵌入在提示中的 Base64 编码 PNG 图像中加载单通道遮罩。
- 输入:Base64 编码的 PNG 图像二进制数据
- 输出:图像的第一个通道作为遮罩
通过 WebSocket 发送图像
通过客户端 WebSocket 连接以 PNG 二进制数据的形式发送输出图像。
- 输入:图像(RGB 或 RGBA),支持批量传输
首先会通过 WebSocket 发送每张图像的一条二进制消息:
12<PNG-data>
即两个大端序的 32 位整数,值分别为 1 和 2,后面跟着 PNG 的二进制数据。随后还会发送一条 JSON 消息:
{'type': 'executed', 'data': {'node': '<node ID>', 'output': {'images': [{'source': 'websocket', 'content-type': 'image/png', 'type': 'output'}, ...]}, 'prompt_id': '<prompt ID>}}
从缓存加载图像
加载之前已上传到工作流中的图像或遮罩。上传的图像暂时存储在内存中,而不是写入磁盘。与将图像以 Base64 形式嵌入提示相比,这种方法开销更小,但实现起来更为复杂。
- 输入:先前上传图像的 ID
- 输出:图像(RGB)以及遮罩(如果是 RGBA 输入,则为 Alpha 通道;若无 Alpha 通道,则为第一通道)。
要上传图像,需通过 HTTP PUT 请求将 PNG 的 字节 数据上传至 /api/etn/image/{id}。JPEG 或其他格式同样适用。选择一个不会与其他上传图像冲突的 id,并在节点中引用它。请求返回 201 表示图像已成功上传,返回 200 则表示该图像已在缓存中。
将图像保存到缓存
将输出图像临时存储在内存中,并可通过 HTTP 获取。通常比 WebSocket 更快,尤其是对于大图像。
- 输入:图像(RGB 或 RGBA)。支持批量处理。
当图像准备就绪时,此节点会通过 WebSocket 发送一条 JSON 消息:
{
"type": "executed",
"data": {
"node": "<node ID>",
"output": {
"images": [
{"source": "http", "id": "<image ID>", "content-type": "image/png", "type": "output"}
]
},
"prompt_id": "prompt ID"
}
}
要下载这些图像,可向 /api/etn/image/{id} 发送 HTTP GET 请求,提供消息中的图像 ID。图像将在缓存中保留几分钟。
区域
这些节点实现了对任意数量图像区域的注意力掩码功能。文本提示仅应用于被掩码覆盖的区域。与条件掩码相比,这种方法不那么“强制”,但能生成更自然的图像构图。
工作流:region_attention_mask.json
背景区域
此节点开始一个区域列表。它接受提示,但不接受遮罩。该提示将应用于列表中所有未被其他区域遮罩覆盖的图像区域。
定义区域
将新区域添加到区域列表中(或开始一个新的列表)。接受提示和遮罩,遮罩定义了提示将作用于图像中的区域。遮罩必须与图像尺寸相同,或者与潜在空间尺寸一致(潜在空间尺寸是图像的 1/8)。
列出区域遮罩
此节点接受区域列表并输出所有遮罩。可用于检查、调试,或重新利用计算出的背景遮罩。
区域注意力掩码
修改模型以使用提供的区域列表。这会替换传递给采样器的正面文本条件。仍然可以将 ControlNet 和其他条件传递给采样器。
将遮罩应用到图像
将遮罩复制到图像的 Alpha 通道中。
- 输入:图像和遮罩
- 输出:RGBA 图像,遮罩用作透明度
分块
将图像分割成多个小块分别处理是一种加快扩散速度并节省显存的有效方法。市面上已有许多提供固定流程的节点。相比之下,以下节点仅提供将图像分割成小块并重新拼接的功能。借助工具和脚本,可以为每个小块生成独立的工作流,从而实现最大的灵活性(不同的提示、区域、控制等)。
创建分块布局
此节点定义分块参数:
- min_tile_size:每个小块的最小分辨率(以像素为单位)。小块可能会更大,以便均匀地适应图像尺寸。
- padding:每个小块周围的填充区域(以像素为单位)。与相邻小块有重叠,但在图像边缘则没有填充。
- blending:用于平滑过渡以避免接缝的填充区域部分。会影响由此布局生成的遮罩。
小块的数量为:image_size // (min_tile_size + 2 * padding)
提取图像小块
从图像中提取一部分。小块索引范围从 0 到小块总数,按列优先顺序排列(小块 1 通常位于小块 0 的下方)。
提取遮罩小块
与“提取图像小块”相同,但针对遮罩。
合并图像小块
将一个小块合并回完整图像,通常是在采样之后。根据填充和混合值,在相邻小块之间使用平滑过渡重叠区。
生成小块遮罩
为特定的小块创建覆盖遮罩。遮罩的大小与图像小块的尺寸一致。图像区域将显示为白色(1),填充区域显示为黑色(0),并根据所选的混合大小进行平滑过渡。
此遮罩由“合并图像小块”内部使用,但也可作为输入用于放大工作流中的“设置潜在噪声遮罩”。
其他节点
文本翻译
用于将字符串翻译成英语的节点。源语言通过一个格式为 lang:xx 的 语言指令 指定,其中 xx 是两位字母的语言代码。允许使用多个指令,这些指令会改变其后所有文本的语言,直到遇到下一个指令为止。lang:en(默认值)会原样传递文本片段。此功能对关键字、标签等非常有用。
示例:
| 输入 | 输出 |
|---|---|
| lang:de eine modische handtasche aus grünem kunstleder | 一款时尚的绿色人造革手提包 |
| origami paperwork, lang:zh 狐狸和鹤, lang:en mountain view | 折纸文件,狐狸与鹤,山景 |
翻译完全在本地进行,由 argosopentech/argos-translate 提供支持:
- 可通过
pip install argostranslate或pip install -r requirements.txt进行安装。 - 模型会在首次使用时自动下载。
此外,还有一个 翻译 API,可在工具 UI 中提供即时反馈。
不适宜内容过滤器
使用 Safety-Checker 检测图像中是否存在不适宜内容。未通过检测的图像会被模糊处理以隐藏内容。模型会在首次使用时下载。
输入:图像和敏感度级别(0.5 仅针对明确的成人内容,0.7 及以上则包括部分裸露内容)。
重要提示: 此过滤器并不完美,仍有可能漏过一些成人内容。
API 扩展
GET /api/etn/model_info/{folder_name}
可以加载的模型类型多种多样,如检查点、LoRA、ControlNet 等,但它们不能互换使用。此端点有助于对这些模型进行分类和筛选。
参数
folder_name: ComfyUI 模型文件夹中的子目录。 支持的模型类型:checkpoints、diffusion_models、unet、unet_gguflimit=n:(查询参数,可选)检查前n个模型。offset=i:(查询参数,可选)从第i个模型开始检查。
输出
列出可用模型,并附带额外的分类信息:
{
"checkpoint_file.safetensors": {
"base_model": "sd15",
"is_inpaint": false,
"type": "eps"
},
...
}
基础模型的可能取值:sd15, sd20, sd21, sd3, sdxl, sdxl-refiner, ssd1b, svd, cascade-b, cascade-c, aura-flow, hunyuan-dit, flux, flux-schnell, flux2, lumina2, z-image, chroma, qwen-image
如果基础模型是 sdxl,则 type 属性的取值为:eps, edm, v-prediction, v-prediction-edm
检测还支持量化模型:
- GGUF:如果已安装
gguf模块,则会检测.gguf文件,并设置quant字段。 - Nunchaku:SVDQuant 模型会被检测到,并将
quant字段设置为svdq。
对于格式未知或不符合任何已知基础模型的文件,会返回条目 {"base_model": "unknown"}。
分页
通过 limit 和 offset 查询参数,每次请求可以检查一部分模型。通常检查速度很快(只需查看模型头信息),但在某些情况下可能会因杀毒软件或硬盘速度较慢而变慢。
GET /api/etn/model_info/checkpoints?limit=10&offset=20
这将最多返回 10 个模型,从列表中的第 20 个模型开始。输出 JSON 中还会包含一个特殊的 _meta 条目:
{
"checkpoint_20.safetensors": { ... },
"_meta": { "offset": 20, "count": 1, "total": 21 }
}
GET /api/etn/languages
返回可用于翻译的语言列表。
[
{ "name": "英语", "code": "en" },
{ ... }
]
GET /api/etn/translate/{lang}/{text}
将 text 翻译成英语。lang 是一个两位字母的代码,表示要翻译的源语言。text 中也可以包含 语言指令,以便只翻译其中的部分内容。详情请参阅 节点文档。
- 输出:JSON 字符串。
- 示例:
/api/etn/translate/de/eine%20modische%20Handtasche->"a fashionable handbag"
PUT /api/etn/upload/{folder_name}/{filename}
将模型上传到 ComfyUI 的本地模型文件夹。
参数
folder_name: 模型类型。必须与 ComfyUI 模型文件夹中现有的某个文件夹匹配。filename: 模型的目标文件名。不得包含任何(绝对或相对)路径。扩展名必须是.safetensors。
输出
- 上传成功后返回状态码
201和{ "status": "success" }。 - 如果文件已存在,则返回状态码
200和{ "status": "cached" }。 - 如果参数无效,则返回状态码
400和{ "error": "..." }。
安装
下载仓库并解压到 ComfyUI 安装目录下的 custom_nodes 文件夹中。
或者直接从 ComfyUI 安装目录克隆:
cd custom_nodes
git clone https://github.com/Acly/comfyui-tooling-nodes.git
重启 ComfyUI 后,节点即可正常使用。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。