ComfyUI-RMBG

GitHub
1.9k 109 中等 3 次阅读 昨天GPL-3.0图像
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-RMBG 是一个专为图像背景移除和精细分割设计的 ComfyUI 自定义节点工具,能够高效处理对象、人脸、服装及时尚元素的分割任务。它集成了多种先进模型,如 RMBG-2.0、SAM、SAM2、SAM3、GroundingDINO 等,支持实时背景替换与边缘检测优化,显著提升了分割精度和使用便捷性。

这款工具解决了传统图像分割中背景去除不彻底、边缘模糊、处理速度慢等问题,尤其适用于需要高质量图像处理的场景。无论是设计师在进行图像编辑,还是研究人员在开展视觉分析项目,都能从中受益。同时,开发者也可以借助其丰富的模型支持和灵活的工作流配置,快速构建复杂的图像处理流程。

ComfyUI-RMBG 的独特之处在于其多样化的模型集成和持续更新的特性,使其能适应不同需求,并通过不断迭代提升性能。适合对图像处理有较高要求的设计师、研究人员以及 AI 开发者使用。

使用场景

一个时尚电商公司的产品设计师正在为即将上线的新品服装系列制作高质量的产品展示图,需要从大量实拍照片中快速、精准地去除背景,并对衣物进行精细的分割,以便在不同背景下进行合成和展示。

没有 ComfyUI-RMBG 时

  • 手动使用 Photoshop 等工具进行背景去除和分割,耗时且效率低下,难以应对大批量图片处理需求。
  • 传统工具对复杂背景(如纹理布料、透明材质)或边缘细节(如衣服褶皱、发丝)处理不够精确,导致成品质量不稳定。
  • 缺乏统一的工作流程,需在多个软件之间频繁切换,增加了出错概率和后期调整成本。
  • 对于多角度拍摄的服装,无法实现一致的背景替换效果,影响整体视觉风格的统一性。

使用 ComfyUI-RMBG 后

  • 可通过集成多种先进模型(如 SAM2、RMBG-2.0)实现自动化背景移除与对象分割,大幅缩短图像处理时间,提升工作效率。
  • 支持实时背景替换和增强边缘检测功能,显著提升了衣物轮廓和细节的准确性,确保输出图像清晰自然。
  • 提供统一的节点化工作流,可在 ComfyUI 中一站式完成图像处理任务,减少跨软件操作带来的复杂性和错误率。
  • 利用 SAM3 和 GroundingDINO 等模型,可对多角度拍摄的服装进行一致性的背景替换,保证视觉呈现的专业性和一致性。

ComfyUI-RMBG 通过高效、精准的图像分割与背景处理能力,极大提升了电商产品图制作的效率与质量。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+

内存

16GB+

依赖
notes建议使用 conda 管理环境,首次运行需下载约 5GB 模型文件。部分功能可能需要安装额外的模型和依赖项,具体可参考项目文档。
python3.8+
torch>=2.0
transformers>=4.30
accelerate
diffusers
einops
pillow
numpy
tqdm
opencv-python
ComfyUI-RMBG hero image

快速开始

ComfyUI-RMBG

一款专为高级图像背景去除及对象、人脸、服饰与时尚元素的精准分割而打造的先进ComfyUI自定义节点。该工具整合了丰富多样的模型,包括RMBG-2.0、INSPYRENET、BEN、BEN2、BiRefNet、SDMatte模型、SAM、SAM2以及GroundingDINO,并新增实时背景替换功能与更优的边缘检测算法,以进一步提升处理精度。

新闻与更新

  • 2026年1月1日:将ComfyUI-RMBG更新至v3.0.0update.mdV3 0 0_nodes

  • 2025年12月9日:将ComfyUI-RMBG更新至v2.9.6update.md
    v2.9.6_Image Compare

  • 2025年11月25日:将ComfyUI-RMBG更新至v2.9.5,修复SAM3分割中的Bug(update.md

  • 2025年11月24日:将ComfyUI-RMBG更新至v2.9.4,新增SAM3分割功能(update.md
    v2.9.4_sam3

  • 2025年10月5日:将ComfyUI-RMBG更新至v2.9.3update.md
    v2.9._color

  • 2025年9月30日:将ComfyUI-RMBG更新至v2.9.2update.md

  • 新增BiRefNet_toonOut模型
    v2.9.2_BiRefNet_toonOut

  • 更新Imagestitch
    v2.9.2_imagestitch

  • 2025年9月12日:将ComfyUI-RMBG更新至v2.9.1update.md
    v2.9.1

  • 2025年8月18日:将ComfyUI-RMBG更新至v2.9.0update.md
    v2 9 0

  • 新增SDMatte Matting节点

  • 2025年8月11日:将ComfyUI-RMBG更新至v2.8.0update.md
    v2 8 0

  • 新增SAM2Segment节点,支持基于文本提示的分割,采用最新的Facebook Research SAM2技术。

  • 全面增强所有节点的颜色小部件支持。

  • 2025年8月6日:将ComfyUI-RMBG更新至v2.7.1update.md
    v2.7.0_ImageStitch

  • 增强LoadImage功能,将其拆分为三个独立节点以满足不同需求,均支持从本地路径或URL直接加载图像。

  • 完全重新设计ImageStitch节点,使其兼容ComfyUI的原生功能。

  • 修复了用户反馈的背景颜色处理问题。

  • 2025年7月15日:将ComfyUI-RMBG更新至v2.6.0update.md
    ReferenceLatentMaskr

  • 新增Kontext Refence latent Mask节点,利用参考潜伏和掩码实现精确的区域条件化。

  • 2025年7月11日:将ComfyUI-RMBG更新至v2.5.2update.md
    V 2 5 2

  • 2025年7月7日:将ComfyUI-RMBG更新至v2.5.1update.md

  • 2025年7月1日:将ComfyUI-RMBG更新至v2.5.0update.md
    mask_overlay

  • 新增MaskOverlayObjectRemoverImageMaskResize等新节点。

  • 新增两款BiRefNet模型:BiRefNet_lite-mattingBiRefNet_dynamic

  • Segment_v1Segment_V2节点添加批量图像支持。

  • 2025年6月1日:将ComfyUI-RMBG更新至v2.4.0update.md
    ComfyUI-RMBG_V2 4 0 new nodes

  • 新增CropObjectImageCompareColorInput节点,并推出新的Segment V2(详情见update.md)。

  • 2025年5月15日:将ComfyUI-RMBG更新至v2.3.2update.md
    v 2 3 2

  • 2025年5月2日:将ComfyUI-RMBG更新至v2.3.1update.md

  • 2025年5月1日:将ComfyUI-RMBG更新至v2.3.0update.md
    v2 3 0_node

  • 新增IC-LoRA Concat、Image Crop等新节点。

  • 为Load Image增加长边、短边、宽度和高度四种缩放选项,提升灵活性。

  • 2025年4月5日:将ComfyUI-RMBG更新至v2.2.1update.md

  • 2025年4月5日:将ComfyUI-RMBG更新至v2.2.0update.md
    Comfyu-rmbg_v2 2 1_node_sample

  • 新增Image Combiner、Image Stitch、Image/Mask Converter、Mask Enhancer、Mask Combiner和Mask Extractor等新节点。

  • 修复了与transformers v4.49+的兼容性问题。

  • 修复了i18n翻译错误。

  • 为分割节点新增了掩码图像输出。

  • 2025年3月21日:将ComfyUI-RMBG更新至v2.1.1update.md

  • 增强了与Transformers的兼容性。

  • 2025年3月19日:将ComfyUI-RMBG更新至v2.1.0update.md

  • 集成了多语言的国际化(i18n)支持。

  • 改进了用户界面,支持动态语言切换。

  • 提升了非英语用户的可访问性,实现了完全可翻译的功能。

https://github.com/user-attachments/assets/7faa00d3-bbe2-42b8-95ed-2c830a1ff04f

  • 2025年3月13日:将ComfyUI-RMBG更新至v2.0.0update.md
    image_mask_preview

  • 新增了Image和Mask Tools,功能得到进一步提升。

  • 优化了代码结构和文档,提升了易用性。

  • 新增了一个新的分类路径:🧪AILab/🛠️UTIL/🖼️IMAGE

  • 2025年2月24日:将ComfyUI-RMBG更新至v1.9.3,清理代码并修复问题(update.md

  • 2025年2月21日:将ComfyUI-RMBG更新至v1.9.2,新增快速前景颜色估计功能(update.md
    RMBG_V1 9 2

  • 新增了前景细化功能,更好地处理透明度问题。

  • 提升了边缘质量和细节保留。

  • 加强了内存优化。

  • 2025年2月20日:将ComfyUI-RMBG更新至v1.9.1update.md

  • 将模型管理的仓库迁移到新仓库,并重新组织了模型文件结构,以提高可维护性。

  • 2025年2月19日:将ComfyUI-RMBG更新至v1.9.0,改进了BiRefNet模型(update.md
    rmbg_v1 9 0

  • 提升了BiRefNet模型的性能和稳定性。

  • 改进了大图像的内存管理。

  • 2025年2月7日:将ComfyUI-RMBG更新至v1.8.0,新增BiRefNet-HR模型(update.md
    RMBG-v1 8 0

  • 新增了一个用于BiRefNet-HR模型的自定义节点。

  • 支持高分辨率图像处理(最高可达2048x2048)。

  • 2025年2月4日:将ComfyUI-RMBG更新至v1.7.0,新增BEN2模型(update.md
    rmbg_v1 7 0

  • 新增了一个用于BEN2模型的自定义节点。

  • 2025年1月22日:将ComfyUI-RMBG更新至v1.6.0,新增Face Segment自定义节点(update.md
    RMBG_v1 6 0

  • 新增了一个用于人脸解析和分割的自定义节点。

  • 支持19种面部特征类别(皮肤、鼻子、眼睛、眉毛等)。

  • 精确提取和分割面部特征。

  • 多种特征选择以实现组合分割。

  • 参数控制与其他RMBG节点相同。

  • 2025年1月5日:将ComfyUI-RMBG更新至v1.5.0,新增Fashion and accessories Segment自定义节点(update.md
    RMBGv_1 5 0

  • 新增了一个用于时尚分割的自定义节点。

  • 2025年1月2日:将ComfyUI-RMBG更新至v1.4.0,新增Clothes Segment节点(update.md
    rmbg_v1 4 0

  • 新增了智能衣物分割功能,涵盖18个不同类别。

  • 支持多件物品选择和组合分割。

  • 参数控制与其他RMBG节点相同。

  • 2024年12月29日:将ComfyUI-RMBG更新至v1.3.2,改进了背景处理(update.md

  • 增强了背景处理功能,支持在选择“Alpha”时输出RGBA。

  • 确保在其他背景颜色选择下仍输出RGB。

  • 2024年12月25日:将ComfyUI-RMBG更新至v1.3.1,修复了Bug(update.md

  • 修复了当模型返回多个掩码时的掩码处理问题。

  • 改进了图像格式的处理,避免了处理错误。

  • 2024年12月23日:将ComfyUI-RMBG更新至v1.3.0,新增Segment节点(update.md
    rmbg v1.3.0

  • 新增了基于文本提示的对象分割功能。

  • 同时支持标签式(“猫、狗”)和自然语言(“一个穿红夹克的人”)提示。

  • 多种模型:SAM(vit_h/l/b)和GroundingDINO(SwinT/B)(每次使用特定模型时,模型文件会自动下载)。

  • 此次更新需要安装requirements.txt。

  • 2024年12月12日:将Comfyui-RMBG ComfyUI自定义节点更新至v1.2.2update.md
    RMBG1 2 2

  • 2024年12月2日:将Comfyui-RMBG ComfyUI自定义节点更新至v1.2.1update.md
    GIF_TO_AWEBP

  • 2024年11月29日:将Comfyui-RMBG ComfyUI自定义节点更新至v1.2.0update.md
    RMBGv1 2 0

  • 2024年11月21日:将Comfyui-RMBG ComfyUI自定义节点更新至v1.1.0update.md
    comfyui-rmbg version compare

功能特性

  • 背景去除(RMBG节点)

    • 多种模型:RMBG-2.0、INSPYRENET、BEN、BEN2
    • 丰富的背景选项
    • 支持批量处理
  • 对象分割(Segment节点)

    • 文本提示式对象检测
    • 同时支持标签式与自然语言输入
    • 基于SAM的高精度分割
    • 灵活的参数控制
  • SAM2 分割

    • 使用最新SAM2模型(Tiny/Small/Base+/Large)进行文本提示式分割
    • 首次使用时自动下载模型,也可手动下载

RMBG演示

安装方法

方法1:通过ComfyUI-Manager安装

在ComfyUI-RMBG文件夹中运行install requirment.txt

./ComfyUI/python_embeded/python -m pip install -r requirements.txt

[!注意]
Windows桌面应用:若安装后程序崩溃,请在安装依赖前设置PYTHONUTF8=1,然后再重试。

[!注意]
YOLO节点需要可选的ultralytics包。仅在确实需要YOLO时才安装,以避免依赖冲突:./ComfyUI/python_embeded/python -m pip install ultralytics --no-deps

[!提示]
注意:如果您的环境无法使用系统Python安装依赖,可以改用ComfyUI自带的嵌入式Python。
示例(嵌入式Python):./ComfyUI/python_embeded/python.exe -m pip install --no-user --no-cache-dir -r requirements.txt

方法2:将本仓库克隆到您的ComfyUI custom_nodes文件夹

cd ComfyUI/custom_nodes
git clone https://github.com/1038lab/ComfyUI-RMBG

在ComfyUI-RMBG文件夹中运行install requirment.txt

./ComfyUI/python_embeded/python -m pip install -r requirements.txt

方法3:通过Comfy CLI安装

确保已安装pip install comfy-cli
先安装ComfyUI(如果您尚未安装ComfyUI):

comfy node install ComfyUI-RMBG

然后在ComfyUI-RMBG文件夹中运行install requirment.txt

./ComfyUI/python_embeded/python -m pip install -r requirements.txt

方法4:手动下载模型

  • 首次使用自定义节点时,模型会自动下载到ComfyUI/models/RMBG/目录。
  • 手动下载RMBG-2.0模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/RMBG-2.0文件夹。
  • 手动下载INSPYRENET模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/INSPYRENET文件夹。
  • 手动下载BEN模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/BEN文件夹。
  • 手动下载BEN2模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/BEN2文件夹。
  • 手动下载BiRefNet-HR模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/BiRefNet-HR文件夹。
  • 手动下载SAM模型:访问此链接,下载文件后将其放置于/ComfyUI/models/SAM文件夹。
  • 手动下载SAM2模型:访问此链接,下载文件(如sam2.1_hiera_tiny.safetensorssam2.1_hiera_small.safetensorssam2.1_hiera_base_plus.safetensorssam2.1_hiera_large.safetensors),并将它们放置于/ComfyUI/models/sam2文件夹。
  • 手动下载GroundingDINO模型:访问此链接,下载文件后将其放置于/ComfyUI/models/grounding-dino文件夹。
  • 手动下载Clothes Segment模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/segformer_clothes文件夹。
  • 手动下载Fashion Segment模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/segformer_fashion文件夹。
  • 手动下载BiRefNet模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/BiRefNet文件夹。
  • 手动下载SDMatte safetensors模型:访问此链接,下载文件后将其放置于/ComfyUI/models/RMBG/SDMatte文件夹。

使用方法

RMBG节点

RMBG

可选设置 :bulb: 小贴士

可选设置 :memo: 描述 :bulb: 小贴士
灵敏度 调整掩膜检测的强度。数值越高,检测越严格。 默认值为0.5。根据图像复杂程度调整;复杂图像可能需要更高的灵敏度。
处理分辨率 控制输入图像的处理分辨率,影响细节表现与内存占用。 选择256至2048之间的值,默认为1024。分辨率越高,细节越清晰,但内存消耗也越大。
掩膜模糊 控制掩膜边缘的模糊程度,减少锯齿效应。 默认值为0。尝试将该值设为1至5,以获得更平滑的边缘效果。
掩膜偏移 允许扩大或缩小掩膜边界。正值扩大边界,负值缩小边界。 默认值为0。根据具体图像调整,通常在-10至10之间微调。
背景 选择输出背景颜色 Alpha(透明背景)、黑色、白色、绿色、蓝色、红色
反向输出 翻转掩膜与图像输出 同时反转图像与掩膜输出
优化前景 使用快速前景颜色估计优化透明背景 开启后可提升边缘质量与透明度处理效果
性能优化 合理设置各项参数可在处理多张图像时提升性能。 若内存充足,可适当提高process_resmask_blur值以获得更好效果,但需注意内存占用。

基本使用

  1. 🧪AILab/🧽RMBG 类别中加载 RMBG(移除背景) 节点
  2. 将一张图像连接到输入端
  3. 从下拉菜单中选择一个模型
  4. 根据需要选择参数(可选)
  5. 获取两个输出:
    • IMAGE:处理后的图像,背景可为透明、黑色、白色、绿色、蓝色或红色
    • MASK:前景的二值掩码

参数

  • sensitivity:控制背景移除的灵敏度(0.0–1.0)
  • process_res:处理分辨率(512–2048,步长128)
  • mask_blur:掩码的模糊程度(0–64)
  • mask_offset:调整掩码边缘(-20至20)
  • background:选择输出背景颜色
  • invert_output:反转掩码与图像的输出
  • optimize:切换模型优化

分段节点

  1. 🧪AILab/🧽RMBG 类别中加载 分段(RMBG) 节点
  2. 将一张图像连接到输入端
  3. 输入文本提示(标签式或自然语言)
  4. 选择 SAM 和 GroundingDINO 模型
  5. 根据需要调整参数:
    • 阈值:0.25–0.35 用于宽泛检测,0.45–0.55 用于精确检测
    • 掩码模糊与偏移用于边缘细化
    • 背景颜色选项

关于模型

RMBG-2.0

RMBG-2.0 由 BRIA AI 开发,采用 BiRefNet 架构,具备以下特点:

  • 在复杂环境下具有高精度
  • 精确的边缘检测与保留
  • 对细节的出色处理能力
  • 支持单张图像中的多对象分割
  • 输出对比
  • 带背景的输出
  • 视频批量输出

该模型在超过 15,000 张高质量图像的多样化数据集上进行训练,确保:

  • 不同图像类型的均衡表现
  • 各种场景下的高准确率
  • 复杂背景下的稳健性能

INSPYRENET

INSPYRENET 专注于人像分割,具有以下优势:

  • 处理速度快
  • 边缘检测能力强
  • 非常适合人像照片与人物主体

BEN

BEN 在各类图像上表现稳健,具备:

  • 速度与精度的良好平衡
  • 对简单与复杂场景均有效
  • 适合批量处理

BEN2

BEN2 是 BEN 的升级版,具备:

  • 更高的精度与速度
  • 更强的复杂场景处理能力
  • 支持更多图像类型
  • 适合批量处理

BIREFNET 模型

BIREFNET 是一款强大的图像分割模型,提供多种版本:

  • BiRefNet-通用模型(性能均衡)
  • BiRefNet_512x512 模型(针对 512×512 分辨率优化)
  • BiRefNet_人像模型(针对人像/人体抠图优化)
  • BiRefNet_抠图模型(通用抠图)
  • BiRefNet-HR 模型(高分辨率,最高可达 2560×2560)
  • BiRefNet-HR_抠图模型(高分辨率抠图)
  • BiRefNet_lite 模型(轻量版,处理更快)
  • BiRefNet_lite-2K 模型(轻量版,支持 2K 分辨率)

SAM

SAM 是一款强大的目标检测与分割模型,具备:

  • 在复杂环境下的高精度
  • 精确的边缘检测与保留
  • 对细节的出色处理能力
  • 支持单张图像中的多对象分割
  • 输出对比
  • 带背景的输出
  • 视频批量输出

SAM2

SAM2 是最新的分割模型系列,专为高效、高质量的文本提示分割而设计:

  • 多种尺寸:Tiny、Small、Base+、Large
  • 推理优化,同时保持高精度
  • 首次使用时自动下载;也可手动放置于 ComfyUI/models/sam2

GroundingDINO

GroundingDINO 是一款基于文本提示的目标检测与分割模型,具备:

  • 在复杂环境下的高精度
  • 精确的边缘检测与保留
  • 对细节的出色处理能力
  • 支持单张图像中的多对象分割
  • 输出对比
  • 带背景的输出
  • 视频批量输出

BiRefNet 模型

  • BiRefNet-通用模型(性能均衡)
  • BiRefNet_512x512 模型(针对 512×512 分辨率优化)
  • BiRefNet_人像模型(针对人像/人体抠图优化)
  • BiRefNet_抠图模型(通用抠图)
  • BiRefNet-HR 模型(高分辨率,最高可达 2560×2560)
  • BiRefNet-HR_抠图模型(高分辨率抠图)
  • BiRefNet_lite 模型(轻量版,处理更快)
  • BiRefNet_lite-2K 模型(轻量版,支持 2K 分辨率)

需求

  • ComfyUI
  • Python 3.10 及以上
  • 必需包(自动安装):
    • huggingface-hub≥0.19.0
    • transparent-background≥1.1.2
    • segment-anything≥1.0
    • groundingdino-py≥0.4.0
    • opencv-python≥4.7.0
    • onnxruntime≥1.15.0
    • onnxruntime-gpu≥1.15.0
    • protobuf≥3.20.2,<6.0.0
    • hydra-core≥1.3.0
    • omegaconf≥2.3.0
    • iopath≥0.1.9

SDMatte 模型(手动下载)

  • 首次运行时自动下载至 models/RMBG/SDMatte/
  • 若网络受限,则需手动放置权重文件:
    • models/RMBG/SDMatte/SDMatte.safetensors(标准版)或 SDMatte_plus.safetensors(Plus 版)
    • 组件(配置文件)会自动下载;如有需要,可将 Hugging Face 仓库的结构镜像至 models/RMBG/SDMatte/(scheduler/、text_encoder/、tokenizer/、unet/、vae/)

故障排除(简要)

  • 初始化 GroundingDINO 时出现 401 错误或缺少 models/sam2
    • 删除 %USERPROFILE%\.cache\huggingface\token(若存在,也删除 %USERPROFILE%\.huggingface\token
    • 确保未设置 HF_TOKENHUGGINGFACE_TOKEN 环境变量
    • 重新运行;公共仓库会匿名下载(无需登录)
  • 预览显示“所需输入缺失:图像”:
    • 确保图像输出已连接,并且上游节点已成功运行

致谢

星标历史

星标历史图表

如果这个自定义节点对您有帮助,或者您喜欢我的工作,请为这个仓库点个 ⭐!这将是对我的努力的巨大鼓励!

许可证

GPL-3.0 许可证

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像