ComfyUI-VideoHelperSuite

GitHub
1.6k 306 简单 1 次阅读 今天GPL-3.0视频图像
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-VideoHelperSuite 是专为 ComfyUI 设计的视频工作流增强插件,旨在简化视频与图像序列的导入、处理及导出流程。它有效解决了原生节点在处理视频素材时功能单一、缺乏灵活帧率控制及音频同步困难等痛点,让用户无需编写代码即可构建复杂的视频生成管线。

该工具非常适合使用 ComfyUI 进行 AI 视频创作的设计师、动画师及研究人员,尤其是需要结合 AnimateDiff 等模型制作动态内容的用户。其核心亮点在于提供了高度可定制的 I/O 节点:"Load Video"支持强制帧率匹配、智能尺寸调整及分批加载长视频;"Video Combine"不仅能将图像序列合成为视频并嵌入音频,还支持“乒乓循环”播放模式以制作无缝循环动画,并允许将完整工作流元数据保存至视频文件中,实现拖拽复用。此外,它还具备实时预览功能,能直观反映参数调整后的效果,大幅提升了视频创作的效率与可控性。

使用场景

一位独立动画师正尝试将一段 30 秒的实拍参考视频转化为风格化的 AI 动画,以便在 ComfyUI 中结合 AnimateDiff 模型进行创作。

没有 ComfyUI-VideoHelperSuite 时

  • 预处理繁琐:必须先用外部软件(如 FFmpeg 或 PR)将视频手动拆解为数千张序列帧图片,才能导入工作流,耗时且占用大量磁盘空间。
  • 帧率匹配困难:实拍视频通常是 24 或 30fps,而 AnimateDiff 最佳效果需 8fps,人工抽帧极易导致节奏错乱或画面卡顿。
  • 分辨率不统一:源视频尺寸若不符合模型要求,需单独编写脚本批量缩放,否则会导致生成报错或画面变形。
  • 音画分离痛苦:生成后的图像序列无法直接还原为带原声的视频,需再次借助第三方工具手动合成,严重打断创作心流。

使用 ComfyUI-VideoHelperSuite 后

  • 一键加载视频:通过 Load Video 节点直接读取 MP4 文件,自动在后台将其转换为图像张量流,彻底省去手动拆帧步骤。
  • 智能帧率调整:利用 force_rate 参数将输入视频自动重采样至 8fps,完美契合 AnimateDiff 需求,确保动作流畅自然。
  • 动态尺寸适配:设置 force_size 即可在加载时自动将画面调整至 512x768 等标准分辨率,无需额外预处理。
  • 无损音画合成:工作流末尾使用 Video Combine 节点,既能将生成序列打包成视频,又能自动挂载原始音频,实现“输入视频 - 输出视频”的闭环。

ComfyUI-VideoHelperSuite 将原本割裂的视频预处理与后期合成步骤无缝融入节点工作流,让视频生成创作真正实现了端到端的高效自动化。

运行环境要求

操作系统
  • 未说明
GPU

未说明 (依赖 FFmpeg,部分编码格式如 av1_nvenc 可能需要 NVIDIA GPU)

内存

未说明

依赖
notes该工具是 ComfyUI 的插件节点包,主要用于视频工作流。核心外部依赖为 FFmpeg,用于视频加载、预览生成及视频合成。支持通过 JSON 配置文件扩展输出格式(如 AV1)。若启用‘高级预览’功能,会在请求时调用 FFmpeg 转换视频以适配浏览器播放。未明确提及特定的 Python 版本、PyTorch 版本或显存需求,通常跟随主程序 ComfyUI 的环境要求。
python未说明
ffmpeg
ComfyUI-VideoHelperSuite hero image

快速开始

ComfyUI-VideoHelperSuite

与视频工作流相关的节点

I/O 节点

加载视频

将视频文件转换为一系列图像

  • video: 要加载的视频文件
  • force_rate: 根据需要丢弃或重复帧以达到目标帧率。设置为 0 时禁用此功能。这可用于快速匹配建议的帧率,例如 AnimateDiff 的 8 fps。
  • force_size: 允许快速调整到若干建议尺寸。多个选项允许仅设置宽度或高度,并根据宽高比自动确定另一维度。
  • frame_load_cap: 将返回的最大帧数。这也可视为最大批处理大小。
  • skip_first_frames: 在应用强制帧率后,从视频开头跳过多少帧。通过将此值增加 frame_load_cap 的数量,可以轻松地分段处理较长的输入视频。
  • select_every_nth: 允许跳过指定数量的帧,而不考虑基础帧率或导致帧重复。在处理动画 GIF 时通常很有用。 还存在一个路径版本的“加载视频”节点,可以从外部路径加载视频。 step resize 如果在 Web UI 的选项菜单中启用了高级预览,预览将反映节点上的当前设置。

加载图像序列

从子文件夹中加载所有图像文件。选项与“加载视频”类似。

  • image_load_cap: 将返回的最大图像数。这也可视为最大批处理大小。
  • skip_first_images: 跳过多少张图像。通过将此值增加 image_load_cap 的数量,可以轻松地将长序列的图像分成多个批次。
  • select_every_nth: 允许在每两张返回的图像之间跳过指定数量的图像。 同样存在“加载图像序列”的路径版本。

视频合并

将一系列图像合并为输出视频
如果提供了可选的音频输入,它也会被合并到输出视频中

  • frame_rate: 每秒显示的输入帧数。较高的帧率意味着输出视频播放得更快,持续时间更短。对于 AnimateDiff,通常应保持为 8,或与“加载视频”节点的 force_rate 匹配。
  • loop_count: 视频应重复播放的次数。
  • filename_prefix: 用于输出的基本文件名。
    • 可以将输出保存到子文件夹:subfolder/video
    • 类似于内置的“保存图像”节点,可以添加时间戳。%date:yyyy-MM-ddThh:mm:ss% 可能会变为 2023-10-31T6:45:25
  • format: 使用的文件格式。有关配置或添加其他视频格式的高级信息,请参阅视频格式部分。
  • pingpong: 使输入反向播放,以创建干净的循环。
  • save_output: 是否应将图像保存到输出目录或临时目录。 返回值:一个 VHS_FILENAMES,包含一个布尔值,指示是否启用 save_output,以及按创建顺序排列的所有生成输出的完整文件路径列表。因此,output[1][-1] 将是最完整的输出。 根据所选格式,可能会出现其他选项,包括:
  • crf: 描述输出视频的质量。数字越低,视频质量越高,文件越大;数字越高,视频质量越低,文件越小。具体比例因编解码器而异,但视觉上无损的输出通常在 20 左右。
  • save_metadata: 在输出视频中包含工作流副本,可通过拖放视频加载,就像处理图像一样。
  • pix_fmt: 改变像素数据的存储方式。yuv420p10le 具有更高的色彩质量,但并非所有设备都支持。

加载音频

提供一种加载独立音频文件的方式。

  • seek_seconds: 音频文件的可选起始时间(以秒为单位)。

隐变量/图像节点

存在一些用于管理隐变量的实用节点。每个节点都有一个等效的图像处理节点。

分割批次

将隐变量分为两组。前 split_index 个隐变量进入输出 A,其余进入输出 B。如果输入的隐变量少于 split_index,则全部传递到输出 A,输出 B 为空。

合并批次

将两组隐变量合并为一个输出。输出顺序是先 A 组的隐变量,再 B 组的隐变量。
如果输入组的大小不同,该节点提供在合并前缩放隐变量的选项。

每隔 N 个选择

select_every_nth 个输入中,只传递第一个,其余丢弃。

获取数量

复制批次

视频预览

“加载视频(上传)”、“加载视频(路径)”、“加载图像(上传)”、“加载图像(路径)”和“视频合并”均提供动画预览。
带有预览的节点在右键单击时提供更多功能:

  • 打开预览
  • 保存预览
  • 暂停预览:对于非常大的视频,可以提高性能
  • 隐藏预览:可以提高性能、节省空间
  • 同步预览:重新启动所有预览,以便进行并排比较

高级预览

高级预览必须手动启用,方法是点击队列提示旁边的设置齿轮,并勾选 VHS 高级预览复选框。
如果启用,UI 中显示的视频将按需使用 ffmpeg 进行转换。这具有多项优势:

  • “加载视频”节点的预览将反映节点上的设置,如 skip_first_frames 和 frame_load_cap。
    • 这使得选择输入视频的确切部分并与输出同步变得容易。
  • 如果远程运行服务器,可以显著减少带宽消耗。
  • 通过将视频缩小到 UI 分辨率,可以大大提升浏览器性能,尤其适用于动画 GIF。
  • 允许预览通常无法在浏览器中播放的视频。
  • 如果设置了环境变量 VHS_STRICT_PATHS,则可限制为 ComfyUI 的子目录。

不过,由于存在一些缺点,此功能默认处于禁用状态:

  • 视频在浏览器中显示会有延迟。如果输入视频较长,延迟可能会相当大。
  • 预览视频的质量较低(原始视频始终可以通过右键单击 -> 打开预览来查看)。

视频格式

熟悉 FFmpeg 的用户可以将 JSON 文件添加到 video_formats 文件夹中,从而为 Video Combine 添加新的输出类型。 以下以 AV1-WebM 格式为例:

{
    "main_pass":
    [
        "-n", "-c:v", "libsvtav1",
        "-pix_fmt", "yuv420p10le",
        "-crf", ["crf","INT", {"default": 23, "min": 0, "max": 100, "step": 1}]
    ],
    "audio_pass": ["-c:a", "libopus"],
     "extension": "webm",
     "environment": {"SVT_LOG": "1"}
}

大部分配置都在 main_pass 中进行,它是一个传递给 FFmpeg 的参数列表。

  • "-n" 表示如果目标文件已存在,则命令应失败。理论上这种情况不应发生,但若出现某种错误,此选项可确保不会覆盖其他文件。
  • "-c:v", "libsvtav1" 指定使用新的 SVT-AV1 编码器对视频进行 AV1 编码。SVT-AV1 的编码速度远快于 libaom-av1,但可能在较旧版本的 FFmpeg 中不存在。此外,对于配备较新 NVIDIA 显卡的设备,也可以使用 av1_nvenc 进行 GPU 编码。
  • "-pix_fmt", "yuv420p10le" 指定采用 10 位色深的标准像素格式。必须明确指定像素格式,以避免使用不可配置的输入像素格式。

audio_pass 包含一组参数,这些参数会在音频被传入 Video Combine 时传递给 FFmpeg。

extension 既指文件扩展名,也指所使用的容器格式。如果 main_pass 中省略了某些选项,可能会影响默认选项的选择。

environment 是可选字段,用于在执行过程中设置环境变量。对于 AV1 编码,此字段通常用于降低日志输出的详细程度,仅显示严重错误信息。

input_color_depth 决定像素以何种格式传递给 FFmpeg 子进程。当前有效的选项是 8bit16bit。后者虽然能生成更高品质的输出,但目前仍处于实验阶段。

字段可以通过类似于创建自定义节点的格式,在 Web UI 中以小部件的形式暴露出来。在上述示例中,-crf 参数将在 Web UI 中以格式小部件的形式呈现。格式小部件由最多三个部分组成:

  • 在 Web UI 中显示的小部件名称
  • 原始数据类型,如 “INT” 或 “BOOLEAN”,或字符串选项列表
  • 一个包含选项的字典

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|4天前
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|昨天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|3天前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|4天前
开发框架图像Agent

opencv

OpenCV 是一个功能强大的开源计算机视觉库,被誉为机器视觉领域的“瑞士军刀”。它主要解决让计算机“看懂”图像和视频的核心难题,提供了从基础的图像读取、色彩转换、边缘检测,到复杂的人脸识别、物体追踪、3D 重建及深度学习模型部署等全方位算法支持。无论是处理静态图片还是分析实时视频流,OpenCV 都能高效完成特征提取与模式识别任务。 这款工具特别适合计算机视觉开发者、人工智能研究人员以及机器人工程师使用。对于希望将视觉感知能力集成到应用中的软件工程师,或是需要快速验证算法原型的学术研究者,OpenCV 都是不可或缺的基础设施。虽然普通用户通常不会直接操作代码,但日常生活中使用的扫码支付、美颜相机和自动驾驶系统,背后往往都有它的身影。 OpenCV 的独特亮点在于其卓越的性能与广泛的兼容性。它采用 C++ 编写以确保高速运算,同时提供 Python、Java 等多种语言接口,极大降低了开发门槛。库中内置了数千种优化算法,并支持跨平台运行,能够无缝对接各类硬件加速器。作为社区驱动的项目,OpenCV 拥有活跃的生态系统和丰富的学习资源,持续推动着视觉技术的前沿发展。

87k|★☆☆☆☆|昨天
开发框架图像