ComfyUI_Yvann-Nodes

686 29 中等 1 次阅读昨天GPL-3.0音频图像

AI 解读由 AI 自动生成，仅供参考

ComfyUI_Yvann-Nodes 是一款专为 ComfyUI 设计的开源插件包，旨在让 AI 生成的视频画面能够实时响应音频节奏。它解决了传统 AI 视频生成中画面与声音难以自动同步的痛点，让用户无需编写复杂代码，即可轻松创作出随音乐律动、卡点精准的动态视觉作品。

该工具操作十分简便，用户只需导入预设的工作流文件，上传音频及相应的图片、视频或输入文字提示词，即可快速生成结果。其核心亮点在于极高的兼容性，能够无缝对接 ComfyUI 生态中现有的主流技术节点，如 IPAdapter、AnimateDiff 和 ControlNet 等。这意味着用户可以在保留原有风格控制能力的同时，为作品增添听觉维度的交互性。目前，它支持“图生视频”、“视频重绘”以及“文生视频”三种主要模式，满足从静态图像动起来到现有视频风格化等多种创作需求。

ComfyUI_Yvann-Nodes 非常适合数字艺术家、动态设计师、MV 制作人以及希望探索音画同步效果的 AI 爱好者使用。无论是制作音乐可视化背景、动感短视频，还是进行创意实验，它都能提供强大而灵活的支持，帮助创作者高效实现“音画合一”的创意构想。

使用场景

一位独立音乐人刚发布了一首电子单曲，急需制作一支能在社交媒体上病毒式传播的视觉化歌词 MV，以配合新歌宣发节奏。

没有 ComfyUI_Yvann-Nodes 时

音画割裂严重：传统视频编辑软件无法自动识别音频波形，必须手动逐帧打关键帧来匹配鼓点，耗时数小时且难以做到精准卡点。
动态效果僵硬：生成的 AI 视频往往只是静态画面的简单平移或缩放，缺乏随音乐节奏起伏的呼吸感和律动感，显得呆板无趣。
工作流断裂：若想结合 AnimateDiff 或 ControlNet 等高级节点实现风格化，需自行编写复杂的脚本来提取音频特征数据，技术门槛极高，普通创作者望而却步。
试错成本高昂：调整视觉节奏需要反复渲染预览，每次修改都意味着漫长的等待，严重拖慢了创意落地的效率。

使用 ComfyUI_Yvann-Nodes 后

全自动音画同步：只需拖入官方提供的 "ImagesToVideo" 工作流并加载音频文件，节点即可自动解析频谱，让画面中的光影、形变严格跟随音乐节拍实时跳动。
赋予画面生命力：利用其内置的音频反应控制，原本静止的赛博朋克城市插画能随低音轰鸣而震动，随高音旋律而流光溢彩，视觉效果极具冲击力。
无缝集成现有生态：该工具完美兼容 ComfyUI 原有的 IPAdapter 和 ControlNet 节点，用户可在保持角色一致性的同时，轻松叠加音频驱动的动态特效，无需额外编码。
即时迭代优化：调整音频敏感度或视觉风格后，可快速生成预览，让创作者能专注于艺术表达而非技术调试，将制作周期从几天缩短至几十分钟。

ComfyUI_Yvann-Nodes 将繁琐的手动对位转化为智能化的自动生成，让每一位创作者都能低成本打造出专业级的“听得见”的 AI 动态视觉作品。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

未说明（作为 ComfyUI 插件，通常依赖宿主环境的 GPU 配置以运行 AnimateDiff、ControlNet 等节点）

内存

未说明

依赖

notes该工具是 ComfyUI 的自定义节点包，需先安装 ComfyUI。核心功能依赖音频分离模型（如 HybridDemucs 或 OpenUnmix），首次运行时会自动下载。支持图像转视频、视频转视频和文本转视频工作流，并可结合 IPAdapter、AnimateDiff、ControlNet 等现有 ComfyUI 技术使用。用户需手动下载工作流 JSON 文件并加载到 ComfyUI 中，点击'Install All'安装缺失节点，并根据提示下载相关模型。

python未说明（跟随 ComfyUI 环境要求）

ComfyUI

HybridDemucs 或 OpenUnmix (音频分离模型)

快速开始

一套自定义节点，可在 ComfyUI 中实现音频响应功能，从而生成与音乐同步的 AI 驱动动画。

这个工具能做什么？

创建音频响应型 AI 视频，并通过任意音频控制 AI 生成的风格、内容和构图。
简单易用：只需将我们的其中一个工作流拖入 ComfyUI，指定音频和视觉输入即可。
灵活兼容：可与现有的 ComfyUI AI 技术和节点配合使用（例如：IPAdapter、AnimateDiff、ControlNet 等）。

快速设置

1. 安装 ComfyUI（支持 Mac、Windows 和 Linux）

2. 选择一个工作流 ⬇️

🖼️ 图片转视频

需要一组图片 + 音频

效果示例：

📺 观看教程

📥 下载图片转视频工作流

🎬 视频转视频

需要一段 源视频 + 音频

效果示例：

📺 观看教程

📥 下载视频转视频工作流

✍️ 文本转视频

需要一段 文本提示 + 音频

效果示例：

📥 下载文本转视频工作流

3. 加载并运行

将下载的 .json 文件拖入 ComfyUI 窗口。
在弹出窗口中 点击“安装全部”。
设置输入（图片/视频/文本 + 音频）。
根据提示 下载模型。
点击队列 即可生成你的音频响应动画！

就是这样！尽情享受吧！！就是这样！尽情享受吧！！

节点详情

点击查看：逐节点参考

音频分析 🔍

对音频进行分析，为每一帧生成响应权重。

节点参数

audio_sep_model: 来自“加载音频分离模型”的模型。
audio: 输入音频文件。
batch_size: 与音频权重关联的帧数。
fps: 分析使用的帧率。

参数：

analysis_mode: 例如，仅鼓声、人声或完整音频。
threshold: 最小权重通过值。
multiply: 放大系数。

输出：

graph_audio（图像预览）、
processed_audio、original_audio、
audio_weights（数值列表）。

加载音频分离模型 🎧

加载或下载音频分离模型（例如，HybridDemucs 或 OpenUnmix）。

节点参数

model: 可选择 HybridDemucs 或 OpenUnmix。
输出：audio_sep_model（可连接到音频分析或混音器）。

音频峰值检测 📈

识别音频权重中的峰值，以触发过渡或事件。

节点参数

peaks_threshold: 灵敏度。
min_peaks_distance: 峰值之间最小的帧间距。
输出：二进制峰值列表、备用列表、峰值索引/数量以及图表。

音频 IP Adapter 过渡 🔄

根据峰值管理图像之间的过渡，非常适合稳定或风格化过渡。

节点参数

images: 一批图像。
peaks_weights: 来自“音频峰值检测”。
blend_mode、过渡时长、最小 IPA 权重 等。

音频提示调度 📝

将文本提示与峰值索引关联起来。

节点参数

peaks_index: 来自峰值检测的索引。
prompts: 多行字符串。
输出：映射后的调度字符串。

音频混音器 🎛️

调整音轨中的音量级别（鼓、人声、贝斯、其他）。

节点参数

drums_volume（鼓音量）、vocals_volume（人声音量）、bass_volume（贝斯音量）、others_volume（其他音量）
输出：单个合并后的音频轨道。

图片重复至指定次数 🔁

将一组图片重复 N 次。

节点参数

mask：遮罩输入。
输出：重复后的图片。

反转浮点数 🔄

翻转浮点数值的符号。

节点参数

floats：浮点数列表。
输出：反转后的列表。

浮点数可视化 📈

将浮点数值绘制成图表。

节点参数

floats（以及可选的第二/第三个）。
输出：可视化图表图像。

遮罩转浮点数 🎭

将遮罩转换为单个浮点数值。

节点参数

mask：输入遮罩。
输出：浮点数。

浮点数转权重策略 🏋️

将浮点数列表转换为 IPAdapter 的“权重策略”。

节点参数

floats：浮点数列表。
输出：包含策略信息的字典。

请在 GitHub 上给个项目点个 star 吧！这有助于我们改进工具，而且它是免费的！！ (:

在 Lilien 的帮助下制作 😎

ComfyUI_Yvann-Nodes 快速上手指南

ComfyUI_Yvann-Nodes 是一套专为 ComfyUI 设计的自定义节点包，旨在实现**音频反应（Audio Reactivity）**功能。它允许用户根据音乐节奏生成同步的 AI 动画，支持从图像、视频或文本提示驱动的视频生成。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Windows, macOS 或 Linux。
核心软件: 已安装并配置好 ComfyUI。
- 建议更新到最新版本以兼容所有新节点。
硬件要求: 推荐配备 NVIDIA GPU（显存 8GB 以上为佳），以便流畅运行 AnimateDiff、ControlNet 等视频生成模型。
前置依赖:
- 确保已安装 ComfyUI-Manager（推荐），以便自动处理缺失节点的安装。
- 网络连接正常（首次运行时需下载音频分离模型）。

2. 安装步骤

方法一：使用 ComfyUI-Manager（推荐）

启动 ComfyUI。
点击右侧菜单的 "Manager" 按钮。
选择 "Install Custom Nodes"。
在搜索框中输入 Yvann 或 Audio Reactive。
找到 ComfyUI_Yvann-Nodes，点击 Install。
安装完成后，重启 ComfyUI。

方法二：手动安装

如果您未使用 Manager，可通过命令行手动安装：

cd ComfyUI/custom_nodes
git clone https://github.com/YvannD/ComfyUI_Yvann-Nodes.git

安装完成后重启 ComfyUI。首次加载工作流时，系统可能会提示安装额外的 Python 依赖（如 demucs），请按提示确认安装。

3. 基本使用

本工具的核心用法是加载预设的工作流（Workflow），只需几步即可生成随音乐律动的视频。

第一步：下载工作流

根据您的输入素材类型，选择并下载对应的 .json 工作流文件：

🖼️ 图生视频 (Images to Video): 适用于将一组静态图片转化为随音乐变化的视频。
- 下载链接
🎬 视频重绘 (Video to Video): 适用于对现有视频进行风格化重绘并同步音频。
- 下载链接
✍️ 文生视频 (Text to Video): 适用于仅通过提示词和音乐生成视频。
- 下载链接

第二步：加载与配置

导入工作流: 将下载的 .json 文件直接拖拽到 ComfyUI 的操作界面中。
安装缺失节点: 如果弹出提示框，点击 "Install All" 安装工作流所需的其他辅助节点，然后重启 ComfyUI。
设置输入素材:
- 找到对应的输入节点（如 Load Image, Load Video, CLIP Text Encode 或 Load Audio）。
- 上传您的音频文件（建议使用 MP3 或 WAV 格式）。
- 上传您的视觉素材（图片或视频）或填写提示词。
下载模型: 查看界面上的备注提示（Note 节点），下载所需的音频分离模型（如 HybridDemucs 或 OpenUnmix）及 AI 绘图大模型（Checkpoint/LoRA）。通常模型会自动下载到 ComfyUI/models/ 对应目录。

第三步：生成视频

调整参数（可选）:
- 在 Audio Analysis 节点中，可调整 analysis_mode（如仅鼓点、仅人声或全音频）来改变反应敏感度。
- 在 Audio Peaks Detection 中调整 peaks_threshold 以控制触发转场的频率。
执行队列: 点击 "Queue Prompt" 按钮。
查看结果: 等待生成完成，您将在输出节点看到与音乐节奏完美同步的 AI 动画。

核心节点功能简述

Audio Analysis 🔍: 分析音频并生成每帧的反应权重。
Load Audio Separation Model 🎧: 加载音频分离模型，用于提取鼓点、人声等特定轨道。
Audio Peaks Detection 📈: 检测音频峰值，用于触发画面切换或特效。
Audio IP Adapter Transitions 🔄: 基于音频峰值控制图像之间的平滑过渡。
Audio Prompt Schedule 📝: 将不同的文本提示词绑定到音乐的特定节拍点上。

版本历史

v2.02024/11/15

v1.1.22024/11/10

常见问题

如何批量生成长视频（如音乐视频）以避免显存溢出（OOM）错误？

生成的视频首帧在末尾重复出现（看起来像循环），如何解决？

遇到 'CUFFT_INTERNAL_ERROR' 或音频分析节点崩溃怎么办？

遇到 'Weights only load failed' 或 'Unsupported operand' 错误如何处理？

报错 'expected input to have X channels, but got Y channels' 是什么原因？

ComfyUI 频繁崩溃并显示 'Reconnecting'，但没有具体错误日志，如何排查？

如何计算或设置动画过渡（animation transition）的帧数？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

使用场景

没有 ComfyUI_Yvann-Nodes 时

使用 ComfyUI_Yvann-Nodes 后

运行环境要求

快速开始

一套自定义节点，可在 ComfyUI 中实现音频响应功能，从而生成与音乐同步的 AI 驱动动画。

这个工具能做什么？

快速设置

1. 安装 ComfyUI（支持 Mac、Windows 和 Linux）

2. 选择一个工作流 ⬇️

🖼️ 图片转视频

📺 观看教程

🎬 视频转视频

📺 观看教程

✍️ 文本转视频

3. 加载并运行

就是这样！ 尽情享受吧！！ 就是这样！ 尽情享受吧！！

节点详情

音频分析 🔍

加载音频分离模型 🎧

音频峰值检测 📈

音频 IP Adapter 过渡 🔄

音频提示调度 📝

音频混音器 🎛️

图片重复至指定次数 🔁

反转浮点数 🔄

浮点数可视化 📈

遮罩转浮点数 🎭

浮点数转权重策略 🏋️

请在 GitHub 上给个项目点个 star 吧！这有助于我们改进工具，而且它是免费的！！ (:

在 Lilien 的帮助下制作 😎

ComfyUI_Yvann-Nodes 快速上手指南

1. 环境准备

2. 安装步骤

方法一：使用 ComfyUI-Manager（推荐）

方法二：手动安装

3. 基本使用

第一步：下载工作流

第二步：加载与配置

第三步：生成视频

核心节点功能简述

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

ComfyUI

gemini-cli

LLMs-from-scratch

Deep-Live-Cam

就是这样！尽情享受吧！！就是这样！尽情享受吧！！