ComfyUI_Sonic

1.1k 106 较难 1 次阅读 4天前MIT图像音频视频其他

AI 解读由 AI 自动生成，仅供参考

ComfyUI_Sonic 是一款专为 ComfyUI 设计的开源节点插件，核心功能是将静态人像图片与音频驱动结合，生成自然流畅的说话视频。它基于前沿的"Sonic"算法，该技术的独特亮点在于“将焦点转移到全局音频感知”，这意味着它在生成过程中不仅关注口型匹配，更能综合理解音频的整体情感与节奏，从而让人物表情和头部动作更加生动逼真，避免了传统方法中常见的机械感。

这款工具主要解决了数字人动画制作中音画不同步、表情僵硬以及长音频驱动效果不佳的痛点。通过集成 Whisper 语音识别、人脸检测及 SVD 视频扩散模型，ComfyUI_Sonic 实现了从音频特征提取到高质量视频渲染的全流程自动化。近期更新还特别优化了显存管理，支持更多显卡配置（包括修复了 12G 显存溢出问题），并增加了对非正方形图像输出及 Mac MPS 设备的支持，显著提升了运行稳定性。

ComfyUI_Sonic 非常适合希望在工作流中整合 AI 视频生成能力的创作者使用。对于熟悉 ComfyUI 的操作的设计师、视频博主而言，它是制作虚拟主播、个性化问候视频的高效利器；对于 AI 研究人员和开发者，它则提供了一个验证全局音频感知算法的便捷实验平台。只需简单配置模型路径，用户即可在本地轻松部署，体验高质量的音频驱动人像动画生成。

使用场景

一位独立游戏开发者需要为游戏中的 NPC 角色快速生成大量匹配不同台词的口播视频，以丰富剧情表现。

没有 ComfyUI_Sonic 时

口型与语音割裂：传统方法往往只关注局部嘴型变化，导致角色说话时面部表情僵硬，缺乏整体情感共鸣，玩家极易出戏。
音频时长控制困难：难以精准根据音频振幅自动调整视频帧数，常出现视频结束而声音未停，或画面多余空转的尴尬情况。
硬件兼容性差：在显存有限（如 12GB）或使用 Mac M 系列芯片的设备上，模型加载极易报错（OOM）或不支持 MPS 加速，迫使开发者升级昂贵硬件。
非正方形素材受限：原有流程强制要求输入正方形图片，导致开发者必须额外花费时间裁剪或填充游戏立绘，破坏原始构图。

使用 ComfyUI_Sonic 后

全局感知自然生动：ComfyUI_Sonic 将焦点转移至“全局音频感知”，生成的角色不仅嘴型准确，更能随语调起伏呈现自然的头部微动和表情变化。
时长智能对齐：通过"duration"参数直接控制输出秒数，工具能依据音频振幅数组自动匹配帧数，实现音画完美同步。
低门槛广泛运行：修复了 bf16 精度错误并优化了显存占用，使得 12GB 显存显卡甚至 Mac MPS 设备也能流畅运行，大幅降低部署成本。
灵活适配任意构图：原生支持非正方形图片输出，开发者可直接导入原始游戏立绘，无需预处理即可生成符合游戏 UI 比例的视频资产。

ComfyUI_Sonic 通过全局音频感知技术，让低成本硬件也能高效产出情感饱满、音画同步的定制化角色动画。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

NVIDIA GPU 必需 (支持 CUDA:0)，推荐显存 12GB+ (12GB 首次运行可能 OOM)
macOS 支持 MPS 设备

内存

未说明 (建议 16GB+ 以防 OOM)

依赖

notes1. 修复了部分用户必须使用 cuda:0 否则报错的问题。2. 修复了 bf16 错误及 macOS MPS 支持。3. 12GB 显存用户首次运行时可能出现内存溢出 (OOM)，建议调小 image_size 参数。4. 需手动下载 Sonic 系列模型 (audio2bucket, unet 等)、whisper-tiny 以及 SVD 检查点 (svd_xt 或 svd_xt_1_1) 至指定目录。5. 支持非正方形图片输出，但容易 OOM。6. 使用 duration (秒) 而非帧数来控制输出长度。

python未说明

torch

transformers (whisper-tiny)

RIFE (flownet)

yoloface

stable-video-diffusion (SVD)

快速开始

ComfyUI_Sonic

Sonic 是一种关于“在人像动画中将注意力转移到全局音频感知”的方法，你可以在 ComfyUI 中使用它。

更新

有些人的 CUDA 设备必须使用 cuda:0，因此修复了这一问题，避免报错。
修复了 bf16 无法使用的错误，解决了 12GB 显存首次运行时容易出现 OOM 的问题，并修复了 macOS 上的 MPS 支持问题。

1. 安装

在 ./ComfyUI/custom_node 目录下，运行以下命令：

git clone https://github.com/smthemex/ComfyUI_Sonic.git

2. 依赖安装

pip install -r requirements.txt

3. 模型

3.1.1 从 Google Drive 下载必要的检查点文件。文件结构如下图所示。
3.1.2 下载 openai/whisper-tiny：

--  ComfyUI/models/sonic/
    |-- audio2bucket.pth
    |-- audio2token.pth
    |-- unet.pth
    |-- yoloface_v5m.pt
    |-- whisper-tiny/
        |--config.json
        |--model.safetensors
        |--preprocessor_config.json
    |-- RIFE/
        |--flownet.pkl

3.2 SVD 检查点：svd_xt.safetensors 或 svd_xt_1_1.safetensors：

--   ComfyUI/models/checkpoints
    ├── svd_xt.safetensors  或  svd_xt_1_1.safetensors

示例

新示例
旧示例
旧示例

之前的更新

将“帧数”替换为“持续时间”，现在可以用来调整输出音频的长度（单位为秒）。需要注意的是，实际对比长度是基于音频振幅数组，而非精确的百分比。
修复了当帧率不是 25 时出现的 batch 不匹配问题。
将模型加载方式改为单体 SVD 模型。
支持输出非正方形图片，但请注意，非正方形图片更容易导致显存溢出（OOM）。
image_size 参数用于控制输出图片的最小尺寸。如果出现 OOM，请适当降低该值。
感谢 @civen-cn 提交的 PR。

引用

@article{ji2024sonic,
  title={Sonic: Shifting Focus to Global Audio Perception in Portrait Animation},
  author={Ji, Xiaozhong and Hu, Xiaobin and Xu, Zhihong and Zhu, Junwei and Lin, Chuming and He, Qingdong and Zhang, Jiangning and Luo, Donghao and Chen, Yi and Lin, Qin and others},
  journal={arXiv preprint arXiv:2411.16331},
  year={2024}
}

@article{ji2024realtalk,
  title={Realtalk: Real-time and realistic audio-driven face generation with 3d facial prior-guided identity alignment network},
  author={Ji, Xiaozhong and Lin, Chuming and Ding, Zhonggan and Tai, Ying and Zhu, Junwei and Hu, Xiaobin and Luo, Donghao and Ge, Yanhao and Wang, Chengjie},
  journal={arXiv preprint arXiv:2406.18284},
  year={2024}
}

ComfyUI_Sonic 快速上手指南

ComfyUI_Sonic 是将 Sonic（一种专注于全局音频感知的人像动画方法）集成到 ComfyUI 中的自定义节点。它允许用户通过音频驱动静态人像生成逼真的说话视频。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Windows, Linux 或 macOS (已支持 MPS)。
基础环境: 已安装并配置好 ComfyUI。
Python 依赖: 需具备 pip 包管理工具。
硬件建议:
- 推荐 NVIDIA GPU (CUDA)。
- 显存建议：12GB 及以上（首次运行可能占用较高，若显存不足需调整图像尺寸）。
- Mac 用户已支持 MPS 加速。

2. 安装步骤

2.1 安装插件节点

进入 ComfyUI 的自定义节点目录，克隆本仓库：

cd ./ComfyUI/custom_nodes
git clone https://github.com/smthemex/ComfyUI_Sonic.git

2.2 安装 Python 依赖

进入插件目录并安装所需依赖：

cd ComfyUI_Sonic
pip install -r requirements.txt

提示: 国内用户若下载缓慢，可添加国内镜像源加速，例如： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 下载模型文件

本工具需要下载两类模型：Sonic 专用模型 和 SVD 基础模型。

A. Sonic 专用模型

请从 Google Drive 下载必要文件，并从 HuggingFace 下载 Whisper 模型。最终文件结构应如下所示：

目标路径: ComfyUI/models/sonic/

ComfyUI/models/sonic/
├── audio2bucket.pth
├── audio2token.pth
├── unet.pth
├── yoloface_v5m.pt
├── whisper-tiny/              # 从 openai/whisper-tiny 下载
│   ├── config.json
│   ├── model.safetensors
│   └── preprocessor_config.json
└── RIFE/
    └── flownet.pkl

Whisper-tiny 下载地址: HuggingFace - openai/whisper-tiny
其他模型下载地址: Google Drive 链接

B. SVD 基础模型

下载 Stable Video Diffusion 模型并放入 ComfyUI 的主检查点目录。

目标路径: ComfyUI/models/checkpoints/

可选模型（二选一即可）：

放置后结构如下：

ComfyUI/models/checkpoints/
├── svd_xt.safetensors  (或 svd_xt_1_1.safetensors)

3. 基本使用

启动 ComfyUI: 重启 ComfyUI 以加载新安装的节点。
加载工作流:
- 在 ComfyUI 界面中，将官方提供的示例工作流图片（如 example_0516.png）直接拖入画布。
- 或者手动构建流程：加载 Sonic 相关节点，连接人像图片、音频文件以及 SVD 模型。
关键参数设置:
- Duration: 用于控制输出视频的时长（单位：秒）。该值基于音频振幅数组计算，非绝对精准百分比。
- Image Size: 控制输出图像的最小尺寸。注意: 如果遇到 OOM (显存溢出) 错误，请调小此数值。
- Frame Rate: 默认适配 25fps，现已修复非 25fps 时的批次匹配问题。
运行: 点击 "Queue Prompt" 开始生成。

性能优化提示: 若显存为 12GB 且在首次运行时遇到 OOM，请尝试减小 image_size 参数或使用分辨率较小的输入图片。

常见问题

节点加载失败，提示 Import Failed 怎么办？

运行时报错 'Please download the model first' 如何解决？

遇到 'NoneType' object has no attribute 'encode_image' 错误怎么处理？

生成视频输出黑屏但有声音，是什么原因？

如何设置参数以支持超长音频或视频生成？

如何配置多张显卡并行推理以加快生成速度？

报错 'Invalid combination of format, subtype and endian' 是怎么回事？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像