ComfyUI-LatentSyncWrapper

GitHub
942 87 较难 1 次阅读 1周前视频音频
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-LatentSyncWrapper 是一款专为 ComfyUI 设计的开源节点,基于字节跳动的 LatentSync 模型,能够将视频中的唇形与输入音频精准同步。它主要解决了早期版本中常见的唇部及牙齿生成模糊、画质不清晰的问题,同时优化了长视频生成时的显存占用,有效避免内存溢出错误。

该工具特别适合需要在本地工作流中制作高质量对口型视频的设计师、内容创作者以及 AI 技术爱好者。其核心亮点在于升级至 LatentSync 1.6 版本,采用 512×512 分辨率训练数据,显著提升了面部细节的清晰度;支持中文语境下的更好表现;并通过原生 PyTorch FlashAttention-2 实现降低了对硬件的要求(仅需 20GB 显存即可运行),且不再依赖 xFormers。使用前需确保已安装 ComfyUI 和 FFmpeg,并按指引完成模型的手动下载与全新部署。

使用场景

一位独立游戏开发者正在为角色制作多语言宣传视频,需要将英文配音精准同步到已有的角色动画口型上。

没有 ComfyUI-LatentSyncWrapper 时

  • 口型模糊失真:使用旧版方案生成的唇部动作模糊不清,牙齿细节丢失,导致角色说话时像“嘴里含着东西”,严重破坏沉浸感。
  • 长视频生成失败:处理超过几秒的宣传片片段时,显存迅速爆满(OOM),导致生成过程频繁中断,无法完成完整镜头的制作。
  • 中文支持糟糕:当尝试合成中文配音时,由于训练数据偏差,口型节奏与发音严重脱节,完全无法直接使用。
  • 工作流割裂:需要在多个软件间反复导出导入素材进行后期修补,耗时耗力且难以在 ComfyUI 中实现自动化批量生产。

使用 ComfyUI-LatentSyncWrapper 后

  • 高清细节还原:依托 LatentSync 1.6 的 512×512 高分辨率训练,生成的唇齿动作清晰锐利,彻底解决了以往版本嘴部模糊的痛点。
  • 稳定生成长片:优化的内存管理机制将帧数据移至 CPU 处理,使得在 20GB 显存设备上也能流畅生成数十秒的高清同步视频,不再报错崩溃。
  • 多语言完美适配:增强的中文及多语言支持让口型与语调严丝合缝,无论是英文还是中文配音,都能呈现自然的说话状态。
  • 一站式高效流程:直接在 ComfyUI 节点中完成从音频输入到视频输出的全流程,无需切换软件,大幅提升了迭代效率。

ComfyUI-LatentSyncWrapper 通过提升画质清晰度与运行稳定性,让开发者能在本地高效产出电影级口型同步视频,彻底解放了多语言内容创作的瓶颈。

运行环境要求

操作系统
  • Windows
  • Linux (WSL 2.0)
GPU

需要 NVIDIA GPU,显存至少 20GB(兼容 RTX 3090),使用原生 PyTorch FlashAttention-2

内存

未说明

依赖
notes1. 必须预先安装 FFmpeg 并配置到系统环境变量。2. 升级至 1.6 版本前必须完全删除旧版本文件夹,不可直接更新。3. 模型文件需手动下载:包括来自 stabilityai 的 VAE 模型和来自 ByteDance 私有仓库的 LatentSync 1.6 主模型(含 UNET 和 SyncNet),无法自动下载。4. 仅支持真人正面视频,不支持动漫角色,输入视频建议为 25 FPS。
python未说明
diffusers>=0.32.2
transformers
huggingface-hub
omegaconf
einops
opencv-python
mediapipe
face-alignment
decord
DeepCache
ComfyUI-LatentSyncWrapper hero image

快速开始

ComfyUI-LatentSyncWrapper 1.6

支持我的工作

如果您觉得这个项目对您有帮助,请考虑请我喝杯咖啡:

Buy Me A Coffee

适用于 Windows 和 WSL 2.0 的 ComfyUI 非官方 LatentSync 1.6 实现。

此节点利用字节跳动的 LatentSync 1.6 模型,在 ComfyUI 中提供先进的口型同步功能。它允许您将视频中的嘴唇与音频输入进行同步,具有更高的清晰度和分辨率,解决了先前版本中存在的模糊问题。

⚠️ 重要升级通知 ⚠️

如果您已安装旧版本的 ComfyUI-LatentSyncWrapper,必须在安装 1.6 版本之前将其完全移除:

  1. 完全停止 ComfyUI
  2. 删除整个文件夹ComfyUI/custom_nodes/ComfyUI-LatentSyncWrapper/
  3. 全新安装:按照以下安装步骤进行 1.6 的全新安装
  4. 切勿尝试更新——由于重大更改,1.6 版本需要完全重新安装。

未移除旧版本会导致冲突,从而无法正常运行。

image

最新变更:

2025年6月14日——更新至 LatentSync 1.6,采用 512×512 分辨率训练,显著提升了牙齿和嘴唇生成的清晰度与细节。

2025年4月29日——为避免 GPU 内存分配问题,帧数据现在会在转换为 uint8 格式之前被移动到 CPU 上。这一改动使得生成更长视频时不会出现 OOM 错误。

LatentSync 1.6 有哪些新特性?

  1. 增强的分辨率训练:LatentSync 1.6 基于 512×512 分辨率的视频进行训练,以解决 LatentSync 1.5 中报告的模糊问题。
  2. 视觉质量提升:显著减少了 1.5 版本中常见的牙齿和嘴唇模糊现象。
  3. 向后兼容性:当前代码同时兼容 LatentSync 1.5 和 1.6,只需更换检查点即可。
  4. 模型架构不变:模型结构和训练策略未作更改,仅提升了训练数据的分辨率。
  5. 性能保持:1.5 版本的所有改进均得以保留:
    • 时间层改进:修正后的实现显著提升了时间一致性。
    • 更好的中文语言支持:通过额外的训练数据,提升了对中文视频的处理效果。
    • 降低显存需求:优化后可在 20GB 显存(RTX 3090 兼容)上运行。
    • 代码优化:原生 PyTorch FlashAttention-2 实现,无需 xFormers 依赖。

先决条件

在安装此节点之前,您必须按顺序安装以下内容:

  1. 已安装并可正常运行的 ComfyUI

  2. 系统中已安装 FFmpeg:

    • Windows:从 这里 下载,并将其添加到系统 PATH 中。

安装

注意:可通过 Google Drive 获取完整的预配置检查点包(推荐),或者您可以从 HuggingFace 仓库单独下载模型。

请务必确认所有先决条件均已安装并正常运行后再继续安装。

  1. 将此仓库克隆到您的 ComfyUI custom_nodes 目录中:
cd ComfyUI/custom_nodes
git clone https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper.git
cd ComfyUI-LatentSyncWrapper
pip install -r requirements.txt

必需依赖项

diffusers>=0.32.2
transformers
huggingface-hub
omegaconf
einops
opencv-python
mediapipe
face-alignment
decord
ffmpeg-python
safetensors
soundfile
DeepCache

需要手动下载模型

重要提示:LatentSync 1.6 需要手动下载模型,因为 LatentSync 1.6 模型托管在一个私有的 HuggingFace 仓库中,无法自动访问。您必须在首次使用前下载以下模型:

手动单独下载

1. VAE 模型下载

在您的 checkpoints 目录下创建一个 vae 文件夹,并下载 VAE 模型:

# 创建 vae 目录
mkdir checkpoints/vae

手动下载步骤:

  1. 访问:https://huggingface.co/stabilityai/sd-vae-ft-mse/tree/main
  2. 仅下载以下两个文件:
    • diffusion_pytorch_model.safetensors
    • config.json
  3. 将它们放入 checkpoints/vae/ 文件夹中(位于扩展目录内)。

2. LatentSync 1.6 检查点下载

下载主要的 LatentSync 1.6 模型:

# 从 HuggingFace 下载 LatentSync 1.6 模型
# 访问:https://huggingface.co/ByteDance/LatentSync-1.6/tree/main
# 将该仓库中的所有文件下载到 checkpoints/ 文件夹中

手动下载步骤:

  1. 确保您有权访问私有的 HuggingFace 仓库。
  2. 访问:https://huggingface.co/ByteDance/LatentSync-1.6/tree/main
  3. 下载该仓库中的所有文件。
  4. 将其直接放置在 checkpoints/ 文件夹中。

检查点目录结构

下载模型后(无论采用哪种方式),您的检查点目录结构应如下所示:

./checkpoints/
|-- .cache/
|-- auxiliary/
|-- vae/
|   |-- config.json
|   `-- diffusion_pytorch_model.safetensors
|-- whisper/
|   `-- tiny.pt
|-- config.json
|-- latentsync_unet.pt  (~5GB)
|-- stable_syncnet.pt   (~1.6GB)

请确保所有这些文件都存在,以保证正常运行。主要模型文件包括:

  • vae/diffusion_pytorch_model.safetensors:用于编码/解码的 Stable Diffusion VAE 模型。
  • vae/config.json:VAE 配置文件。
  • latentsync_unet.pt:在 512×512 分辨率下训练的主 LatentSync 1.6 模型。
  • stable_syncnet.pt:用于口型同步监督的 SyncNet 模型。
  • whisper/tiny.pt:用于音频处理的 Whisper 模型。

使用方法

  1. 使用 AceNodes 视频加载器选择输入视频文件。
  2. 使用 ComfyUI 音频加载器加载音频文件。
  3. (可选)设置种子值以获得可重复的结果。
  4. (可选)调整 lips_expression 参数以控制嘴唇运动的强度。
  5. (可选)修改 inference_steps 参数以平衡质量和速度。
  6. 连接到 LatentSync1.6 节点。
  7. 运行工作流。

处理后的视频将保存在 ComfyUI 的输出目录中。

节点参数:

  • video_path: 输入视频文件的路径
  • audio: 来自 AceNodes 音频加载器的音频输入
  • seed: 用于获得可复现结果的随机种子(默认值:1247)
  • lips_expression: 控制嘴唇动作的表现力(默认值:1.5)
    • 值较高(2.0–3.0):嘴唇动作更明显,更适合富有表现力的讲话
    • 值较低(1.0–1.5):嘴唇动作更细腻,更适合平静的讲话
    • 该参数会影响模型的指导尺度,在自然度和唇形同步精度之间取得平衡
  • inference_steps: 推理过程中去噪步骤的数量(默认值:20)
    • 值较高(30–50):生成结果质量更好,但处理速度较慢
    • 值较低(10–15):处理速度更快,但可能质量稍低
    • 默认值20通常能在质量和速度之间取得良好平衡

获得更好效果的建议:

  • 提升至 512×512 分辨率:与 1.5 版本相比,LatentSync 1.6 能提供更加清晰的牙齿和嘴唇细节
  • 对于需要清晰嘴唇动作的演讲或演示,可尝试将 lips_expression 参数调高至 2.0–2.5
  • 对于日常对话,使用默认值 1.5 通常效果不错
  • 如果发现嘴唇动作不自然或过于夸张,可适当降低 lips_expression 的值
  • 不同语言和说话习惯可能需要不同的参数设置才能达到最佳效果
  • 若追求更高质量且有充足时间,可将 inference_steps 提升至 30–50
  • 对于快速预览或非关键性应用,可将 inference_steps 降至 10–15

已知限制

  • 最适合清晰的正面人脸视频
  • 目前不支持动漫或卡通风格的人脸
  • 视频帧率应为 25 FPS(系统会自动转换)
  • 整个视频中必须始终可见人脸
  • 需手动下载模型:LatentSync 1.6 的模型托管在私有的 HuggingFace 仓库中,但也可通过 Google Drive 获取完整包
  • 单独下载模型需要访问 ByteDance/LatentSync-1.6 的 HuggingFace 仓库

致谢

本项目基于以下内容进行非官方实现:

许可证

本项目采用 Apache License 2.0 许可证授权——详情请参阅 LICENSE 文件。

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。

55k|★★★☆☆|今天
开发框架语言模型Agent

oh-my-openagent

oh-my-openagent(简称 omo)是一款强大的开源智能体编排框架,前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒,解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案,omo 倡导开放市场理念,支持灵活调度多种主流大模型:利用 Claude、Kimi 或 GLM 进行任务编排,调用 GPT 处理复杂推理,借助 Minimax 提升响应速度,或发挥 Gemini 的创意优势。 这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口,用户可以轻松组合不同模型的长处,构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构,让用户不再受制于某一家公司的策略变动或定价调整,真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手,还是开发多步骤任务处理流程,oh-my-openagent 都能提供灵活且稳健的基础设施支持,助力用户在快速演进的 AI 生态中保持技术主动权。

48.4k|★★☆☆☆|今天
视频语言模型开发框架

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|2天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|3天前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|2天前
音频