ComfyUI_Fill-Nodes

GitHub
583 51 简单 1 次阅读 3天前图像音频视频语言模型插件
AI 解读 由 AI 自动生成,仅供参考

ComfyUI_Fill-Nodes 是一套功能强大的 ComfyUI 自定义节点扩展包,旨在为用户提供从图像处理到 AI 模型调用的全方位工作流支持。它有效解决了用户在构建复杂生成式 AI 流程时,面临的功能碎片化问题,将图像特效、视频处理、音频可视化、文件管理(如 PDF 操作与谷歌云端集成)以及多平台 AI 接口(涵盖 GPT、DALL-E、Hugging Face 等)统一整合在一个工具集中。

无论是希望提升效率的专业设计师、需要灵活调用各类大模型的研究人员,还是热衷于探索前沿技术的开发者,都能从中找到实用的解决方案。其独特亮点在于极高的集成度与多样性:不仅提供如动漫线稿提取、智能黑帧过滤等专业图像算法,还内置了直接对接主流 AI 服务的 API 节点,让用户无需编写代码即可在可视化界面中串联起跨模态的复杂任务。通过这套工具,用户可以更专注于创意实现与逻辑构建,大幅降低技术门槛,轻松打造高效且富有创意的自动化工作流。

使用场景

一位独立游戏开发者正在为像素风格 RPG 批量处理上千张手绘素材,需要统一提取线稿、去除废稿并添加复古噪点特效。

没有 ComfyUI_Fill-Nodes 时

  • 开发者需分别在 Photoshop 中手动提取线稿,再导入 ComfyUI,流程割裂且无法自动化。
  • 面对大量测试生成的废图(如全黑渲染帧),只能人工肉眼筛选,耗时数小时且容易漏看。
  • 想要给图片添加统一的胶片噪点质感,必须编写复杂的自定义 Python 脚本或寻找多个分散的插件拼凑。
  • 调整批次图片的色调与对比度时,缺乏节点化控制,难以在生成工作流中动态微调参数。

使用 ComfyUI_Fill-Nodes 后

  • 直接调用 FL_AnimeLineExtractor 节点,在工作流内部一键从原画提取高质量线稿,无缝衔接后续上色步骤。
  • 利用 FL_BlackFrameReject 节点设定阈值,自动过滤掉渲染失败的全黑图像,瞬间完成千张图片的清洗。
  • 通过 FL_ImageAddNoise 节点精确控制高斯噪点强度与种子,轻松为所有素材赋予一致的复古视觉风格。
  • 借助 FL_ImageAdjuster 节点实时调节色相、饱和度及对比度,无需离开工作流即可实现批量色彩校正。

ComfyUI_Fill-Nodes 将原本琐碎断裂的图像处理工序整合进单一自动化流,让创作者从重复劳动中解放,专注于核心创意设计。

运行环境要求

操作系统
  • 未说明
GPU
  • 部分节点支持 GPU 加速(如 FL_PaddingRemover),但未明确指定必需显卡型号、显存大小或 CUDA 版本
  • 依赖 ComfyUI 基础环境
内存

未说明

依赖
notes该工具是 ComfyUI 的自定义节点包,需先安装 ComfyUI。功能高度依赖外部 API(如 GPT, DALL-E, Google Drive, Ollama 等)及本地服务,使用时需配置相应的 API 密钥或本地服务器地址。部分功能涉及 PDF 生成和视频编码,需确保系统已安装相关编解码器。
python未说明
torch
PIL (Pillow)
OpenCV
imageio
ffmpeg
ReportLab
matplotlib
ComfyUI_Fill-Nodes hero image

快速开始

🏵️ Fill-Nodes

如果你喜欢这个项目,请考虑在 Patreon 上支持我!

Patreon

Fill-Nodes 是一套功能强大的 ComfyUI 自定义节点集合,能够跨多个领域扩展工作流功能。其特性包括先进的图像处理、视觉特效生成、全面的文件管理(PDF 创建与提取、Google Drive 集成)、AI 模型接口(GPT、DALL-E、Hugging Face、Runway、Gemini、Fal.ai 等),以及用于优化工作流的实用工具节点、音频驱动的视觉特效,还有专门用于视频处理、字幕添加和批量操作的工具。这套节点包在一个统一的集合中提供了既实用又富有创意的工作流解决方案。

🔍 目录


🖼️ 图像节点

用于图像处理、分析及操作的节点。

节点 描述
FL_AnimeLineExtractor 使用 OpenCV 的自适应阈值和形态学操作从图像中提取线稿。提供线稿阈值、线条宽度、细节级别、通过高斯模糊进行降噪的控制选项,以及针对白色背景的可选输出反转功能。
FL_ApplyMask 根据提供的掩码,通过添加或修改图像的 Alpha 通道来应用掩码。自动处理图像和掩码之间的尺寸不匹配问题,采用插值方法,并支持批量处理。
FL_BlackFrameReject 根据黑色像素百分比,使用可配置的阈值和黑电平检测方法,从批次中过滤掉图像。支持多种检测方法(亮度、平均值、RGB、所有通道)及可选的反转逻辑,返回过滤后的图像并附带计数统计信息。
FL_ImageAddNoise 向图像中添加可控强度(0.0–1.0)和种子的随机高斯噪声,以实现结果的可重复性。使用 torch.randn 生成噪声,并将输出裁剪到有效的 0.0–1.0 范围内。
FL_ImageAddToBatch 通过拼接的方式将两个图像批次合并为一个批次。根据缩放方向,自动使用双三次或面积插值调整第二个批次的尺寸,使其与第一个批次的尺寸一致。
FL_ImageAdjuster 使用 PIL 的 ImageEnhance 模块调整图像属性,包括色相旋转(−180 至 180)、饱和度、亮度、对比度(均在 −100 至 100 范围内)以及锐度(0 至 100)。对于色相和饱和度调整,会先转换为 HSV 模式;锐度则应用 Unsharp Mask 滤波器,并将实时预览发送到前端。
FL_ImageAspectCropper 根据目标宽高比(以宽度:高度形式指定),通过居中裁剪宽度或高度来裁剪图像,确保裁剪后的尺寸为偶数,以兼容视频编解码器。
FL_ImageBatch 动态地将多个图像组合成一个批次,输入数量可配置(2–100)。内部使用 ComfyUI 的 ImageBatch 节点,并自动调整图像大小以匹配第一张图像的尺寸。
FL_ImageBatchToGrid 将一批图像排列成指定每行图像数量的网格布局。创建一张合成图像,用黑色背景填充任何空缺的网格位置。
FL_ImageBlank 创建具有指定宽度、高度和 RGB 颜色值的空白图像。生成适合在 ComfyUI 工作流中使用的纯色张量图像。
FL_ImageCrop 根据指定的方向(顶部、底部、左侧、右侧或组合)以及像素数量裁剪图像。自动验证裁剪量,防止超出图像边界。
FL_ImageDimensionDisplay 提取并返回输入图像的宽度和高度尺寸,格式化为字符串。支持张量和 PIL 图像格式。
FL_ImageListToImageBatch 将单个图像列表转换成一个批处理图像张量。如果需要,自动使用 Lanczos 插值调整图像大小,使其与第一张图像的尺寸一致。
FL_ImageNotes 在图像顶部或底部添加带有自定义文本的文本栏。支持可配置的文本栏高度、字体大小、边框,以及可选的自动换行功能,可根据换行后的内容自动调整高度。
FL_ImageRandomizer 根据种子值(使用模运算实现确定性选择),从指定目录中随机选择一张图像或一段视频。支持子目录搜索,并返回所选媒体及其文件路径和文件名。
FL_ImageSelector 使用逗号分隔的索引或“last”关键字从批次中选择特定图像。返回仅包含指定图像的新批次,顺序与列出的顺序一致。
FL_ImageSlicer 根据 x 和 y 方向的分割数量,将图像划分为等尺寸的矩形切片网格。按从左到右、从上到下的顺序,将所有切片作为一批图像返回。
FL_LoadImage 提供文件浏览器界面,用于从自定义目录结构加载图像,并配备服务器端 API 端点。将 RGBA 图像转换为 RGB 格式,同时进行白色背景合成,并支持多种图像格式。
FL_PaddingRemover 通过分析边缘颜色及其在行和列中的一致性,检测并移除图像中的均匀填充。支持 CPU 和 GPU 处理模式、可配置的容差范围、最小内容尺寸约束,以及额外的手动修剪选项,并可选择显示调试可视化结果。
FL_ReplaceColor 使用 RGB 空间中的欧氏距离和可配置的容差,将特定源颜色的像素替换为目标颜色。支持形态学操作(膨胀/收缩),利用圆形核扩展或侵蚀替换区域。
FL_SaveImages 将图像保存到自定义文件夹结构中,采用模板化文件名并自动递增索引,以避免覆盖。支持将元数据作为单独的文本文件与图像一起保存。
FL_SaveRGBAAnimatedWebP 根据可配置的 FPS、质量和编码方式,从独立的 RGB 和 Alpha 通道图像批次中保存动画 WebP 文件。创建带有棋盘格背景的预览图以展示透明效果,并导出 WebP 动画以及包含带 Alpha 通道的单帧 PNG 图像的 ZIP 文件。
FL_SaveWebM 使用 VP9 编解码器将图像批次导出为 WebM 视频文件,支持可配置的 FPS、质量以及可选的 Alpha 通道保留。基于 imageio 和 ffmpeg 后端实现,并包含编码错误的回退处理机制。

📷 截图与示例

🖼️ 图像节点示例


📝 字幕节点

用于生成、保存及操作图像和视频字幕的节点。

节点 描述
FL_CSVExtractor 使用基于种子的选择机制,从随机选取的 CSV 行中提取特定列的值,支持跳过表头,并返回提取的文本、行号以及整行数据。采用基于取模的伪随机选择方法,以确保结果可重复。
FL_CaptionSaver_V2 高级字幕保存节点,支持图像张量输入和目录输入两种模式,可选择单个或多个字幕选项,还可选择性保存掩码图像,并配置缩放因子。提供灵活的字幕分配功能,具备自动扩展/截断列表的能力,且在禁用覆盖时会自动生成唯一文件名。
FL_CaptionToCSV 扫描图像目录,创建内存中的 CSV 文件,将图像文件名与其对应的字幕文本文件进行映射。返回 UTF-8 编码的 CSV 数据,包含 image_file 和 caption 两列。
FL_ImageCaptionLayout 创建一个可视化网格布局,将目录中的图像与其字幕文件组合在一起,生成一张具有可配置行数、图像大小、内边距和字幕框的合成图像。返回适合在 ComfyUI 中显示的 PyTorch 张量。
FL_ImageCaptionLayoutPDF 生成 PDF 文档及图像预览,展示目录中图像及其字幕的网格布局,支持分页功能,可配置页面布局尺寸、方向和字体设置。使用 ReportLab 生成 PDF,PIL 生成图像预览。
FL_ImageCaptionSaver 将一批图像及其关联的字幕文本保存到指定文件夹中,通过移除特殊字符对字幕进行清理,并支持可选的防止文件覆盖功能。处理张量到图像的转换时,会自动将灰度图像转为 RGB 格式,并进行正确的数值归一化。
FL_LoadCSV 从磁盘加载 CSV 文件,并返回原始二进制数据和行数,供其他节点使用。验证文件是否存在、扩展名是否正确,并记录修改时间以便失效缓存。
FL_MirrorAndAppendCaptions 处理目录中的图像,在字幕中追加帧编号,并可选地创建水平镜像副本,同时为镜像帧重新编号。支持在字幕前或后添加自定义文本,并将原始图像和镜像图像都保存回原目录。
FL_OllamaCaptioner 使用 Ollama LLM 生成图像字幕,先将图像编码为 base64 格式,再发送至本地 Ollama 服务器进行描述生成。可选择保存 AI 生成的字幕或默认字幕,支持自定义模型选择和 URL 配置。
FL_SaveCSV 将接收到的 CSV 数据(以字节形式)写入指定文件路径,自动创建输出目录并确保文件扩展名为 .csv。提供带错误处理和控制台日志的文件写入功能,用于确认保存操作。
FL_VideoCaptionSaver 使用 OpenCV 将一系列图像张量转换为视频文件(MP4 或 AVI),可配置 FPS 和质量参数,同时保存关联的字幕文本文件。处理 RGB 到 BGR 的转换,逐帧处理并跟踪进度,支持防止文件覆盖功能。
FL_WordFrequencyGraph 分析目录中的所有文本文件,生成词频统计的横向条形图可视化效果,支持自定义配色方案、词语过滤选项以及可配置的输出尺寸。排除常见停用词,生成深色主题的 matplotlib 图表,并以 PyTorch 张量形式输出。

📷 截图与示例

📝 字幕节点示例


✨ 视觉特效节点

用于对图像应用视觉特效的节点。

节点 描述
FL_Ascii 通过以固定间隔采样像素并将它们映射到自定义字符集,将图像转换为 ASCII 艺术;支持按顺序或基于亮度选择字符,可配置间距、字体和字号。
FL_Dither 应用多种抖动算法(Floyd-Steinberg、随机、有序、Bayer),将图像减少到指定颜色数,创建复古风格的颜色量化效果;可配置调色板大小,范围从 2 到 256 种颜色。
FL_Glitch 使用 glitch_this 库创建数字故障效果,可控制故障强度并选择是否偏移 RGB 颜色通道;在处理过程中将图像旋转 90 度,从而在水平和垂直方向上同时应用效果。
FL_HalftonePattern 通过将图像转换为灰度,并根据区域亮度生成不同大小的圆形点来创建半色调点阵图案;可配置点的大小和间距参数,以实现类似报纸印刷的效果。
FL_HexagonalPattern 使用 PIL 的多边形绘制功能,通过拼贴输入图像的六边形裁剪块来创建马赛克风格的图像;可配置阴影效果、背景颜色、旋转角度和间距。
FL_ImageCollage 通过在基础图像上拼贴模板图像来生成照片马赛克;每个拼贴块会根据对应基础区域的平均颜色进行着色,可配置拼贴块的大小和间距。
FL_ImagePixelator 使用 Kornia 的形态学梯度边缘检测技术应用像素化效果;支持配置缩放因子、内核大小以及正弦波调制,以实现跨图像序列的动画化像素化强度变化。
FL_InfiniteZoom 使用 GLFW 和 OpenGL 着色器生成无限缩放/德罗斯特效应;支持配置缩放比例、镜像/漩涡参数、迭代次数和动画速度,以创建递归视觉图案。
FL_PaperDrawn 使用 OpenGL 片段着色器模拟手绘素描效果;通过可配置的角度数量、采样密度、线条宽度和暗角强度,对图像进行方向性梯度分析,从而营造铅笔素描般的美学效果。
FL_PixelArtShader 通过最近邻插值下采样图像、应用颜色量化,并可选地使用 K-means 聚类提取颜色调色板后进行映射,从而创建像素艺术效果。
FL_PixelSort 基于 HSV 饱和度值实现像素排序效果;可在检测到的边缘区间内按水平或垂直方向对像素进行排序,支持配置阈值、平滑度和旋转参数。
FL_RetroEffect 使用 PIL 图像处理技术,通过偏移 RGB 颜色通道、叠加扫描线、添加高斯模糊的径向暗角以及混合随机噪声,创建复古 CRT 显示器效果。
FL_Ripple 基于距可配置中心点的距离,使用正弦位移映射生成放射状涟漪/波纹扭曲效果;可调节振幅、频率、相位,并可选择是否应用正弦波调制。
FL_Shadertoy 使用 OpenGL 渲染与 Shadertoy 兼容的 GLSL 着色器,支持最多 4 个输入图像通道、iResolution/iTime/iFrame 均匀变量,以及可配置帧数/FPS,以实现基于着色器的生成式效果。
FL_TextOverlayNode 在图像上叠加自定义文本,支持 TrueType 字体(系统或本地字体)、RGB 颜色配置、基于百分比的定位方式、9 个锚点位置以及使用 PIL ImageDraw 进行多行文本渲染。

📷 截图与示例

✨ VFX 节点示例


🛠️ 工具节点

用于各种任务的通用工具节点。

节点 描述
FL_ClipScanner 使用 OpenCLIP 分词器对不同模型类型的文本提示进行分词(SDXL ViT-G/14、SD 1.5 ViT-L/14、FLUX ViT-L/14),并显示详细的分词分析,包括分词数量和解码后的输出。
FL_CodeNode 执行以字符串形式输入或从文件加载的任意 Python 代码,提供四个通用输出槽,并通过 inputs/outputs 字典支持动态输入,便于自定义算法集成。
FL_DirectoryCrawl 递归遍历目录,批量加载图像或文本文件,并跟踪进度;返回图像既可作为批处理张量(已填充),也可作为单独的图像列表,以实现灵活的处理方式。
FL_Float 输出四舍五入到小数点后两位的浮点数值,用作工作流中的简单浮点常量提供者。
FL_InpaintCrop 根据掩码边界框裁剪图像,支持多种尺寸调整模式(自由、强制、范围、长/短边),并可扩展上下文区域;可选地进行补洞操作(CPU/GPU),同时生成拼接数据以便重新组合。
FL_Inpaint_Stitch 使用 FL_InpaintCrop 生成的裁剪数据,将修复后的图像拼接回原始位置,处理缩放和 Alpha 混合,使处理区域无缝融合。
FL_JS 在 ComfyUI 工作流动态事件(before_queued、after_queued、executing、executed 等)触发时执行自定义 JavaScript 代码,用于客户端脚本集成。
FL_Math 使用安全的 AST 解析评估最多包含三个变量(A、B、C)的数学表达式,支持基本算术运算符(加、减、乘、除、幂),并返回整数和浮点结果。
FL_ModelInspector 检查 PyTorch 检查点文件(.ckpt、.safetensors),提取全面信息,包括参数数量、层形状、架构分析及模型结构,并支持多种加载方法和回退机制。
FL_Padding 在图像的四边添加可定制的填充,颜色可配置为 RGB,支持可选的 Alpha 通道,并正确处理张量以进行批处理。
FL_PasteByMask 将图像粘贴到基础图像的掩码位置,具备多项高级功能,包括多种缩放行为(缩放、保持比例填充/适应、源尺寸)、混合模式(正常、正片叠底、滤色、叠加等)、羽化效果以及掩码映射支持,适用于批量处理。
FL_PasteOnCanvas 将带掩码的图像粘贴并居中放置在指定尺寸的画布上,背景可选择颜色或图片,支持多种缩放算法(双线性、最近邻、双三次、Lanczos)、填充和 Alpha 通道处理。
FL_PathTypeChecker 分析文件路径字符串,判断其类型(绝对路径、相对路径、UNC 路径、URL 格式、驱动器特定路径),并进行验证和分类。
FL_RandomNumber 在指定范围内生成随机整数和浮点数,支持基于种子的可重复性;当种子为 0 时,会自动生成随机种子。
FL_SDUltimate_Slices 计算 SD Ultimate 超分辨率的切片尺寸,将图像划分为可配置的网格模式(1x1 至 4x4),并支持乘数调整切片大小。
FL_SeparateMaskComponents 使用 OpenCV 的连通组件标记算法,将多组件掩码分离为独立的连通组件,返回分离后的掩码及用于批量追踪的映射张量。
FL_Switch 实现惰性求值的布尔开关,根据开关值评估并返回 on_true 或 on_false 输入,从而在不评估未使用分支的情况下实现条件工作流执行。
FL_Switch_Big 实现惰性求值的多分支开关逻辑(5 个分支 + 默认分支),通过比较开关条件与各个分支字符串,仅评估匹配的输入路径,以实现条件工作流分支。
FL_SystemCheck 通过 HTTP 端点收集并暴露系统信息,包括 Python 版本、操作系统、CPU、内存、GPU、库版本(PyTorch、transformers 等)以及环境变量。
FL_UnloadModel 从 ComfyUI 的模型管理系统中卸载指定模型,释放内存并清空 CUDA 缓存,同时具备透传功能,以保证工作流的连续性。
FL_VideoCropMask 根据掩码边界框裁剪视频帧,并进行时间平滑处理,保持宽高比,可选地添加填充,返回每帧的裁剪视频、掩码及裁剪数据。
FL_VideoRecompose 使用 FL_VideoCropMask 生成的裁剪数据,将裁剪区域替换回原始视频帧中,调整处理后的帧大小以匹配原始裁剪尺寸。

📷 截图与示例

🛠️ 实用节点示例


🎲 KSamplers 节点

用于生成过程中采样的节点。

节点 描述
FL_KSamplerXYZPlot 网格比较采样器,通过遍历 X/Y 轴值(步数、CFG、去噪、采样器或调度器)生成参数扫描可视化效果,并可选择 Z 轴叠加(垂直/水平),最终输出带有轴标签和参数注释的图像网格,便于系统性地测试参数。
FL_KsamplerBasic 简化版采样器节点,接受潜在空间或图像输入(并进行 VAE 编码),执行标准的 KSampler 操作,支持自定义步数/CFG/采样器/调度器/去噪等参数,并同时输出潜在空间结果和解码后的图像结果。
FL_KsamplerPlus 高级分块采样器,将潜在空间或图像输入分割成重叠的网格切片(可配置 X/Y 切片数量及重叠区域),对每个切片进行处理,支持可选的区域特定条件控制(包括 ControlNet 裁剪),并通过余弦加权掩码融合结果以消除接缝。
FL_KsamplerPlusV2 FL_KsamplerPlus 的增强版本,新增用户可配置的条件强度倍增器、完整的条件拆分至各切片(包括池化输出和基于张量的条件)、针对切片条件的批量处理支持,以及可选的调试信息输出功能。
FL_KsamplerSettings 配置节点,输出采样参数,包括宽高比尺寸(SD/XL/SVD 预设,支持横竖屏切换)、批大小、两遍步骤数、CFG 比例、去噪强度、缩放因子,以及采样器和调度器的选择。
FL_SamplerStrings 字符串生成节点,提供 27 种采样器类型的布尔开关(euler、dpm、heun、ddim 等),输出所选采样器名称的逗号分隔字符串,适用于批量处理工作流。
FL_SchedulerStrings 字符串生成节点,提供 7 种调度器类型的布尔开关(normal、karras、exponential、sgm_uniform、simple、ddim_uniform、beta),输出所选调度器名称的逗号分隔字符串,用于批量处理工作流。

📷 截图与示例

🎲 KSamplers 节点示例


📄 PDF 节点

用于处理 PDF 文件的节点。

节点 描述
FL_BulkPDFLoader 加载指定目录路径下的所有 PDF 文件,并将其返回为包含文件元数据(路径、文件名、页数)和二进制内容的 PDF 数据对象列表。验证 PDF 是否存在且可读,收集加载失败的错误信息。
FL_ImagesToPDF 将 ComfyUI 图像张量转换为单个 PDF 文档,支持自定义 DPI 和页面尺寸(A4/Letter/Legal),自动缩放并居中每张图像以适应页面,同时保持宽高比。返回内存中的 PDF 数据对象。
FL_PDFEncryptor 使用 PyPDF2 对 PDF 进行加密,支持用户密码和所有者密码,提供 40 位或 128 位加密选项,并具备细粒度的权限控制(打印、复制、评论、填写表单、拼合、提取内容)。返回加密后的内存 PDF 数据对象。
FL_PDFImageExtractor 从 PDF 页面中提取符合最小宽高阈值的嵌入式图像,支持多种压缩格式(DCTDecode/JPEG、FlateDecode/PNG、JPXDecode/JPEG2000、LZWDecode)。返回提取的图像作为归一化的 PyTorch 张量,格式为 [B, H, W, C]。
FL_PDFLoader 从指定文件路径加载单个 PDF 文件,并将其返回为包含文件路径、页数和二进制内容的 PDF 数据对象。在加载前会验证文件是否存在及是否为有效 PDF 格式。
FL_PDFMerger 使用 PyPDF2 的 PdfMerger 将两个 PDF 数据对象合并为一个,将第二个 PDF 追加到第一个 PDF 之后。返回合并后的 PDF 内存数据对象及其总页数。
FL_PDFSaver 将 PDF 数据对象保存到指定目录路径下的给定文件名处,若输出目录不存在则自动创建,并在文件名后添加 '.pdf' 扩展名(如未包含)。返回完整的输出文件路径。
FL_PDFTextExtractor 使用 PyPDF2 的文本提取功能逐页遍历 PDF 文档,提取全部文本内容,并以双换行符作为页面分隔符将所有页面的文本合并为一个字符串。返回提取的文本。
FL_PDFToImages 使用 PyMuPDF (fitz) 将 PDF 页面转换为图像,支持自定义 DPI 分辨率,既可处理单个 PDF,也可处理 PDF 列表。返回所有页面的归一化 PyTorch 图像张量,拼接成一个批次。
FL_TextToPDF 使用 ReportLab 画布根据纯文本输入生成 PDF 文档,支持自定义页面尺寸、字体大小、页边距和标题,自动处理文本换行和分页。返回包含计算页数的内存 PDF 数据对象。

📷 截图与示例

📄 PDF 节点示例


🤖 GPT 节点

用于集成 GPT 和 OpenAI 模型的节点。

节点 描述
FL_Dalle3 使用 OpenAI 的 DALL-E 3 模型生成图像,支持异步批处理,并根据参数缓存结果以避免重复 API 调用;返回图像张量及修订后的提示词。支持自动保存功能,可生成包含元数据的 JSON 文件,并提供可配置的 API 失败重试逻辑。
FL_GPT_Image1 使用 OpenAI 的 gpt-image-1 模型生成或编辑图像,支持批量生成、带可选掩码的图像编辑以及全面的错误处理机制——在发生错误时会生成带有文字反馈的错误图像。实现了重试逻辑、针对编辑端点的 multipart form-data 请求,并能处理 base64 编码和 URL 格式的图像响应。
FL_GPT_Image1_ADV 高级多输入变体,利用 OpenAI 的 gpt-image-1 模型同时生成多张图像,可并行处理最多 100 个提示词及对应的待编辑图像,采用 async/await 和线程池执行方式。每个输入槽位可独立设置提示词和可选图像,所有输出合并为一个批次张量,并记录详细的每次调用响应日志。
FL_GPT_Text 对 OpenAI 的 GPT 模型(GPT-4、GPT-3.5-turbo)进行同步 API 调用,实现文本补全功能,提供对温度、top_p 以及频率/存在惩罚等参数的完全控制。可选择将响应保存到文件,若未提供 API 密钥,则回退使用环境变量中的密钥。
FL_GPT_Vision 使用 OpenAI 的 GPT-4 Vision 模型批量处理图像,异步生成描述文字,支持自定义批次大小,既可接收输入目录,也可直接处理图像张量,并将描述文字与图像一同保存到文本文件中。API 密钥从环境变量 OPENAI_API_KEY 中获取。
FL_SimpleGPTVision 将单张图像发送至 OpenAI 的 GPT-4 Vision API,根据可配置的系统和用户提示生成文本描述,并内置基于指数退避的限流重试逻辑。返回生成的描述文字作为字符串输出。

📷 截图与示例

🤖 GPT 节点示例


🧠 AI 节点

与各类AI模型及服务集成的节点。

节点 描述
FL_Fal_Gemini_ImageEdit 使用Fal AI Gemini 2.5 Flash Image Edit API编辑最多5张输入图像,支持多模态提示、异步处理以及自动图片URL生成。返回已编辑图片及其URL和描述。
FL_Fal_Kling_AIAvatar 利用Fal AI Kling Video API结合输入图像与音频张量或图像序列生成AI头像视频,可选文本提示优化。返回提取的视频帧及原始音频。
FL_Fal_Kontext 使用Fal AI Flux Pro Kontext API编辑图像,支持多张图像输入(批量处理)、异步并行处理,并可配置宽高比和安全容忍度。返回多次API调用后的批量编辑图像。
FL_Fal_Pixverse 使用Fal AI Pixverse v5 Image-to-Video API从单张图像生成视频,提供风格预设、摄像机运动效果及并行批量处理(最多5个)。返回生成视频中提取的帧作为张量。
FL_Fal_Pixverse_LipSync 使用Fal AI Pixverse LipSync API生成口型同步视频,支持音频输入和文本转语音模式,并可选择声音;对视频帧张量进行音频同步处理。返回口型同步的视频帧和音频。
FL_Fal_Pixverse_Transition 使用Fal AI Pixverse v5 Transition API在两张图像之间创建过渡视频,分辨率、宽高比和持续时间均可配置。返回生成过渡视频中提取的帧。
FL_Fal_Seedance_i2v 使用Fal AI ByteDance Seedance v1 Pro Image-to-Video API从单张图像生成视频,支持使用[cut]标记的多段提示、可配置的分辨率、时长和摄像机设置。返回生成视频中所有提取的帧。
FL_Fal_Seedream_Edit 使用Fal AI ByteDance Seedream v4 Edit API编辑最多10张图像,支持自定义或预设图像尺寸,自动缩放以满足最小尺寸要求同时保持宽高比。返回已编辑图像及其URL和种子信息。
FL_Fal_Sora 使用Fal AI Sora 2 API生成视频,支持文本到视频和图像到视频两种模式,可选OpenAI API密钥直通,根据PRO模式自动选择端点,并可提取音频。返回视频帧、音频波形、视频URL及状态消息。
FL_GeminiImageEditor 使用Google Gemini 2.5 Flash Image API生成或编辑图像,支持最多4张参考图像、批量生成与并行异步处理,以及可选的正方形填充。返回生成图像列表及详细的API响应日志。
FL_GeminiImageGenADV 利用Google Gemini进行高级多输入图像生成,输入数量动态可调(1–100),采用异步并行批量处理,并为每个输入单独配对提示/图像。根据可变的输入槽位数返回生成的图像列表。
FL_GeminiTextAPI 使用Google Gemini模型(2.5/2.0/1.5版本)生成文本回复,可配置温度、令牌限制及可选系统指令。返回未经额外格式化的原始文本输出。
FL_GeminiVideoCaptioner 使用Google Gemini API为视频或图像序列生成详细字幕,自动转换为WebM格式以兼容API,按可配置的FPS提取帧,并支持音频处理。返回字幕文本及视频中的示例帧。
FL_Hedra_API 使用Hedra API根据图像、音频文件和文本提示生成视频,可配置宽高比和分辨率,自动轮询以确认生成完成,并从下载的视频中提取帧。返回包含处理日志的视频帧张量。
FL_HunyuanDelight 通过Stable Diffusion InstructPix2Pix流程,利用Hunyuan3D-2模型处理图像,可配置CFG、步骤数及迭代优化循环。从HuggingFace下载模型,执行无文本提示的图像到图像转换。
FL_PixVerseAPI 使用PixVerse API从图像生成视频,支持标准图像转视频和过渡模式,可配置种子的并行批量处理,并自动从生成的MP4视频中提取帧。返回最多5批提取的帧作为张量。
FL_RunwayAct2 使用RunwayML Act Two API根据输入的人物图像/视频和参考视频生成角色表演视频,可控制身体动作和表情强度。返回提取的视频帧作为张量。
FL_RunwayImageAPI 使用RunwayML Gen4 Image API生成图像,支持最多3张带有自定义标签的参考图像、可配置的生成参数,并自动轮询任务完成情况。返回生成的图像张量及详细的状态日志。
FL_Veo3VideoGen 使用Google Vertex AI Veo 3.0模型生成视频,需使用服务账号认证,可选参考图像输入,分辨率/宽高比可配置,并自动轮询以提取帧。返回提取的视频帧、视频路径及处理日志。
FL_VertexGemini25FlashImage 使用Google Vertex AI Gemini 2.5 Flash Image模型生成图像,需服务账号认证,支持最多3张参考图像,并进行并行批量生成。返回生成图像的批次张量及详细的处理日志。

📷 截图与示例

🧠 AI节点示例


🔊 音频节点

用于音频分析、处理以及音频响应式视觉效果的节点。

节点 描述
FL_Audio_BPM_Analyzer 使用librosa分析音频以检测BPM和节拍位置,提供两种BPM计算方法(beat_intervals或onset_strength)、节拍偏移调整以及自动补全节拍以覆盖整个音频时长。输出包含可视化信息的JSON格式节拍位置。
FL_Audio_Beat_Visualizer 通过在节拍变化时交替显示黑/白帧,或循环播放提供的图像来生成可视化节拍模式的视频帧,可配置帧尺寸和起始颜色。
FL_Audio_Crop 使用MM:SS或秒格式裁剪音频波形至指定的开始和结束时间,并自动限制在有效音频边界内。
FL_Audio_Drum_Detector 利用librosa的节拍检测结合频段分析(底鼓:30-300Hz,军鼓:150-400Hz + 4-10kHz噪声,踩镲:6kHz+)检测音频中的底鼓、军鼓和踩镲,灵敏度阈值可调。
FL_Audio_Envelope_Visualizer 将音频包络可视化为灰度视频帧,像素强度对应包络值,可配置强度倍数及是否反转颜色。
FL_Audio_Music_Video_Sequencer 根据节拍位置,利用基于模式的编排(A/B/C/D模式,可配置节拍数量)生成完整的音乐视频镜头序列,确保帧边界无漂移,并为每段镜头生成详细元数据,包括时间、节拍及采样边界。
FL_Audio_Reactive_Brightness 根据音频包络计算出的亮度因子乘以帧像素值,可配置基础亮度、强度缩放、是否反转以及输出限幅。
FL_Audio_Reactive_Edge_Glow 使用Sobel算子进行音频响应式边缘检测(或接受预计算的边缘帧),并添加随包络值脉动的彩色光晕效果,支持多种混合模式(加法、屏幕、叠加)和光晕颜色。
FL_Audio_Reactive_Envelope 根据鼓检测时间(底鼓、军鼓、踩镲)生成逐帧的ADSR包络(攻击、衰减、维持、释放),每种鼓类型的包络参数均可独立配置。
FL_Audio_Reactive_Saturation 根据包络调制的饱和度值,在灰度图像(使用Rec. 709亮度系数)和原始帧之间进行混合,从而调整色彩饱和度,支持饱和与去饱和效果。
FL_Audio_Reactive_Scale 基于音频包络值对帧应用音频响应式缩放效果,可通过居中裁剪或填充保持尺寸不变,并可配置插值模式(双线性、双三次、最近邻)。
FL_Audio_Reactive_Speed 利用从音频包络中累积的速度倍数重新映射帧的时间,实现动态加速/减速效果,同时进行帧插值并可选择是否反转包络。
FL_Audio_Segment_Extractor 根据BPM分析器预先分析的节拍位置提取音频片段,通过累积时间映射实现无漂移的帧对齐,并输出精确的帧数以便视频同步。
FL_Audio_Separation 使用torchaudio中的Hybrid Demucs模型将音频分离为四个音轨(低音、鼓、其他、人声),采用分块处理以控制内存使用,并可配置重叠/淡入淡出参数。
FL_Audio_Shot_Iterator 根据音乐视频序列JSON中的镜头索引提取单个镜头的元数据(帧数、节拍范围、时间边界),专为视频序列的迭代处理设计。

📷 截图与示例

🔊 音频节点示例


🧪 实验性节点

具有各种功能的实验性节点。

节点 描述
FL_BatchAlign 通过共享注意力机制和归一化层应用风格对齐技术,修补模型以实现批次对齐生成。使用自适应实例归一化(AdaIN)作用于查询、键和值,可配置注意力共享和归一化策略(分组、层或两者)。
FL_ColorPicker 一个简单的实用节点,接收十六进制颜色字符串输入并原样输出,旨在方便工作流中的颜色选择。
FL_GradGenerator 根据JSON格式的颜色停止点规范(包含位置和颜色值)生成渐变图像。支持RGB/HSV颜色模式及多种插值曲线(线性、缓入、缓出、缓入缓出),可配置尺寸。
FL_NFTGenerator 根据文件名中编码的稀有度百分比(格式:名称-XXXper-val),从目录中随机选择图像,采用加权概率选择并可配置种子。返回所选图像及其对应的掩码文件(若未找到则返回空白掩码)。

📷 截图与示例

🧪 实验性节点示例


💬 提示词节点

用于生成和操作提示词的节点。

节点 描述
FL_MadLibGenerator 通过将模板中的最多5种不同分隔符模式替换为来自相应词表的随机单词来生成文本。使用MD5哈希对每个词表进行种子设定,以确保每次分隔符的随机化既可重复又相互独立。
FL_PromptBasic 将三个文本字符串(前置、提示、后置)拼接在一起,不添加任何空格,保留用户指定的格式用于构建提示词。
FL_PromptMulti 将多行正面和负面提示词处理成平行列表,自动通过重复最后一个提示或使用空字符串来平衡数量。生成带有可配置前缀的索引名称,并以列表形式输出以便批量处理。
FL_PromptSelector 从多行提示词字符串中按索引选择一行提示,可选择在前后添加文本并自动插入空格。

📷 截图与示例

💬 提示节点示例


📂 文件操作节点

用于文件操作的节点。

节点 描述
FL_ZipDirectory 使用 ZIP_DEFLATED 压缩算法,在内存中创建整个目录结构的 ZIP 压缩包,返回原始字节流,无需写入磁盘。
FL_ZipSave 将目录压缩为 ZIP 文件,并保存到指定输出路径,通过时间戳后缀自动处理文件名冲突问题。

📷 截图与示例

📂 文件操作节点示例


☁️ Google Drive 节点

用于集成 Google Cloud 服务的节点。

节点 描述
FL_GoogleCloudStorage 使用服务账号凭据将图像或合成视频上传至 Google Cloud Storage 存储桶。支持批量上传图像、自定义编解码器和帧率的视频合成、公私访问控制以及自定义元数据附加。
FL_GoogleDriveDownloader 使用共享链接从 Google Drive 下载文件,自动解压 ZIP 压缩包,并以有序的目录结构管理输出结果,同时清理临时文件。
FL_GoogleDriveImageDownloader 从 Google Drive 其他用户共享链接下载图像,可选使用 MD5 哈希索引的本地缓存系统。下载后的图像会被转换为归一化到 [0,1] 范围的 RGB 张量,且缓存行为可配置。

📷 截图与示例

☁️ Google Drive 节点示例


🔌 API 工具节点

用于 API 交互的节点。

节点 描述
FL_API_Base64_ImageLoader 解码 Base64 编码的图像(自动去除 Data URL 前缀),并将其转换为 ComfyUI 图像张量。支持按比例缩放并保持宽高比,返回包含尺寸、作业 ID、用户 ID 和类别的图像张量。
FL_API_ImageSaver 将图像保存到分类目录结构中(base/category/user_id/job_id.format),支持 PNG、JPG、JPEG 和 WebP 格式,并可配置质量设置。为 API 工作流返回完整路径、作业 ID、用户 ID 和类别。

📷 截图与示例

🔌 API 工具节点示例


🤗 Hugging Face 节点

用于与 Hugging Face 集成的节点。

节点 描述
FL_HFDatasetDownloader 使用 snapshot_download 下载 Hugging Face 仓库中的数据集、模型或 Spaces,可配置并行工作线程数及本地目录路径。
FL_HFHubModelUploader 将模型和资产上传至 Hugging Face Hub,自动生成 README 文件、支持模型卡片头部信息,并整理文件结构。能够处理图像、ZIP 文件和大型模型文件,具备多线程进度跟踪和重试逻辑。
FL_HF_Character 使用结构化路径格式(studio/project/character)将角色相关资源(LoRA、数据集、说明文字、CSV 文件等)上传至 Hugging Face Hub,便于管理角色库。
FL_HF_UploaderAbsolute 将各类文件(LoRA 文件、ZIP 数据集、图像、PDF、CSV 等)上传至 Hugging Face 仓库的指定路径,并跟踪上传进度。支持创建仓库,使用环境变量 HUGGINGFACE_API_KEY 进行身份验证。

📷 截图与示例

🤗 Hugging Face 节点示例


⏬ 加载节点

用于加载各种资源的节点。

节点 描述
FL_NodeLoader 一个直通节点,接收并返回 TRIGGER 类型,专为工作流中的节点依赖关系管理而设计。
FL_NodePackLoader 一个直通节点,其 IS_CHANGED 设置为 float('NaN'),确保每次触发时都会执行,适用于强制执行工作流。
FL_UpscaleModel 使用已加载的超分辨率模型,按批次对图像进行放大,可控制精度(auto/32/16/bfloat16),并可选择缩小倍数;支持多种重采样方法(nearest-exact、bilinear、area、bicubic、lanczos),同时提供 TQDM 进度条显示。

📷 截图与示例

⏬ 加载节点示例


💬 Discord 节点

用于 Discord 集成的节点。

节点 描述
FL_SendToDiscordWebhook 通过 Discord Webhook 发送单张图片或视频合集,可配置机器人用户名、自定义消息、提及特定用户(通过 Discord 用户 ID)、视频帧率控制,以及是否保留本地文件副本。

📷 截图与示例

💬 Discord 节点示例


🚧 进度未完成的节点

仍在开发中的节点。

节点 描述
FL_FractalKSampler 一种实验性的递归 K-Sampler,通过分形放大和切片生成图像。它会放大潜在空间,将其分为四个象限,递归地对每个象限进行降噪处理,并根据配置的混合因子合成最终结果。
FL_TimeLine 正在开发中的时间轴处理器节点,用于视频动画制作,支持 IPAdapter 预设选择、尺寸控制、插值模式以及帧率设置。该节点包含时间轴数据的 API 端点,但目前仍返回未修改的模型。
FL_WF_Agent 工作流代理节点,负责运行节点扫描程序,以生成用于 AI 辅助工作流操作的缓存节点定义。它作为子进程运行扫描程序,并反馈缓存文件的创建情况及状态。
FL_WanFirstLastFrameToVideo 基于首帧和末帧生成视频的增强版 WAN(Warp and Noise)实现,具备先进的定时控制功能。支持自定义关键帧位置、时间插值曲线(线性、缓动、弹跳)、区域遮罩以及 CLIP 视觉条件约束。

📷 截图与示例

🚧 进度未完成的节点示例


🎮 游戏节点

实现游戏功能的节点。

节点 描述
FL_BulletHellGame 即将实现的弹幕射击游戏节点,目前仅为占位符,未来将添加实际功能。
FL_TetrisGame 即将实现的俄罗斯方块游戏节点,目前仅为占位符,未来将添加实际功能。

📷 截图与示例

🎮 游戏节点示例


🎬 视频节点

用于视频处理和帧插值的节点。

节点 描述
FL_FILM 使用来自 Google Research 的 FILM(大运动帧插值)进行帧插值。首次使用时会从 HuggingFace 下载 TorchScript 模型,生成具有可配置倍数的中间帧,并采用基于时间步长的插值以实现平滑运动。
FL_ProResVideo 使用 FFmpeg 将图像批次转换为 ProRes 4444 视频文件,采用高质量编码(yuva444p10le 像素格式,8000 bits_per_mb)。自动处理临时文件的创建、带时间戳且避免冲突的唯一命名以及清理工作。
FL_RIFE 使用 RIFE(实时中间流估计)v4.7 架构进行帧插值。从 HuggingFace 下载模型权重,支持多个检查点(rife47、rife49)、可配置的倍数、可选的集成模式以提升质量,以及多尺度流估计。
FL_VideoBatchSplitter 将一个视频批次严格按帧数校验后拆分为恰好 N 个等大小的子批次。返回最多 20 个独立的批次输出,每批次的帧数可配置,要求能整除且无余数。
FL_VideoCadence 分析图像批次中的场景变化,并返回以逗号分隔的每个场景的帧数。支持可配置的检测方法(强度、直方图或混合),并提供 GPU 加速支持、下采样优化以及强制执行最小场景长度。
FL_VideoCadenceCompile 从目录中加载视频,将每段视频从中间裁剪至与节奏列表中指定的帧数一致,然后将所有帧拼接成一个单独的图像批次。对帧数和尺寸进行验证,并具备错误处理机制。
FL_VideoCrossfade 使用多种混合模式(正常、正片叠底、滤色、叠加、柔光、添加、减去)对两条视频序列进行可配置交叉淡入淡出混合。将两个输入调整为目标尺寸,并在序列之间生成平滑过渡。
FL_VideoCut 检测图像批次中的场景切换,并通过并行 FFmpeg 处理将每个场景导出为单独的 MP4 文件。具有优化的场景检测功能(强度/直方图/混合)、GPU 加速、下采样优化,以及直接将帧管道传输至 FFmpeg 以提升性能。
FL_VideoTrim 从图像批次的开头和结尾分别裁剪指定数量的帧,返回修剪后的视频以及分别包含被移除的起始和结束帧的输出。

📷 截图与示例

🎬 视频节点示例


常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

153.6k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|3天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|4天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架