[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ShmuelRonen--ComfyUI-LatentSyncWrapper":3,"tool-ShmuelRonen--ComfyUI-LatentSyncWrapper":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,"2026-04-05T12:23:02",[20,19,17,15,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":22},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",48371,"2026-04-05T11:36:18",[15,19,20,13,17],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":78,"difficulty_score":92,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":109,"github_topics":78,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":22,"created_at":110,"updated_at":111,"faqs":112,"releases":143},2771,"ShmuelRonen\u002FComfyUI-LatentSyncWrapper","ComfyUI-LatentSyncWrapper","This node provides lip-sync capabilities in ComfyUI using ByteDance's LatentSync model. It allows you to synchronize video lips with audio input.","ComfyUI-LatentSyncWrapper 是一款专为 ComfyUI 设计的开源节点，基于字节跳动的 LatentSync 模型，能够将视频中的唇形与输入音频精准同步。它主要解决了早期版本中常见的唇部及牙齿生成模糊、画质不清晰的问题，同时优化了长视频生成时的显存占用，有效避免内存溢出错误。\n\n该工具特别适合需要在本地工作流中制作高质量对口型视频的设计师、内容创作者以及 AI 技术爱好者。其核心亮点在于升级至 LatentSync 1.6 版本，采用 512×512 分辨率训练数据，显著提升了面部细节的清晰度；支持中文语境下的更好表现；并通过原生 PyTorch FlashAttention-2 实现降低了对硬件的要求（仅需 20GB 显存即可运行），且不再依赖 xFormers。使用前需确保已安装 ComfyUI 和 FFmpeg，并按指引完成模型的手动下载与全新部署。","# ComfyUI-LatentSyncWrapper 1.6\n\n## Support My Work\nIf you find this project helpful, consider buying me a coffee:\n\n[![Buy Me A Coffee](https:\u002F\u002Fimg.buymeacoffee.com\u002Fbutton-api\u002F?text=Buy%20me%20a%20coffee&emoji=&slug=shmuelronen&button_colour=FFDD00&font_colour=000000&font_family=Cookie&outline_colour=000000&coffee_colour=ffffff)](https:\u002F\u002Fbuymeacoffee.com\u002Fshmuelronen)\n\nUnofficial [LatentSync 1.6](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FLatentSync) implementation for [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI) on Windows and WSL 2.0.\n\nThis node provides advanced lip-sync capabilities in ComfyUI using ByteDance's LatentSync 1.6 model. It allows you to synchronize video lips with audio input with enhanced clarity and resolution, addressing the blurriness issues found in previous versions.\n\n## ⚠️ IMPORTANT UPGRADE NOTICE ⚠️\n\n**If you have a previous version of ComfyUI-LatentSyncWrapper installed, you MUST completely remove it before installing version 1.6:**\n\n1. **Stop ComfyUI** completely\n2. **Delete the entire folder**: `ComfyUI\u002Fcustom_nodes\u002FComfyUI-LatentSyncWrapper\u002F`\n3. **Clean installation**: Follow the installation steps below for a fresh 1.6 installation\n4. **Do NOT try to update** - version 1.6 requires a complete reinstallation due to significant changes\n\n**Failure to remove the previous version will cause conflicts and prevent proper operation.**\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FShmuelRonen_ComfyUI-LatentSyncWrapper_readme_d28dc1c768c3.png)\n\n### Last Changes:\n#### June-14-25 - Updated to LatentSync 1.6 with 512×512 resolution training for significantly improved clarity and detail in teeth and lip generation.\n#### April-29-25 - To avoid GPU memory allocation issues, frames are now moved to CPU before uint8 conversion. This change enables generation of longer videos without OOM errors.\n\n## What's new in LatentSync 1.6?\n\n1. **Enhanced Resolution Training**: LatentSync 1.6 is trained on 512×512 resolution videos to address the blurriness issues reported in LatentSync 1.5\n2. **Improved Visual Quality**: Significantly reduces blurriness in teeth and lips that was common in version 1.5\n3. **Backward Compatibility**: The current code is compatible with both LatentSync 1.5 and 1.6, requiring only checkpoint changes\n4. **Same Model Architecture**: No changes to model structure or training strategy - only upgraded training dataset resolution\n5. **Maintained Performance**: All the improvements from version 1.5 are retained:\n   - **Temporal Layer Improvements**: Corrected implementation provides significantly improved temporal consistency\n   - **Better Chinese Language Support**: Enhanced performance on Chinese videos through additional training data\n   - **Reduced VRAM Requirements**: Optimized to run on 20GB VRAM (RTX 3090 compatible)\n   - **Code Optimizations**: Native PyTorch FlashAttention-2 implementation without xFormers dependency\n\n## Prerequisites\n\nBefore installing this node, you must install the following in order:\n\n1. [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI) installed and working\n\n2. FFmpeg installed on your system:\n   - Windows: Download from [here](https:\u002F\u002Fgithub.com\u002FBtbN\u002FFFmpeg-Builds\u002Freleases) and add to system PATH\n\n## Installation\n\n**Note**: A complete pre-configured checkpoints package is available via Google Drive (recommended), or you can download models individually from HuggingFace repositories.\n\nOnly proceed with installation after confirming all prerequisites are installed and working.\n\n1. Clone this repository into your ComfyUI custom_nodes directory:\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper.git\ncd ComfyUI-LatentSyncWrapper\npip install -r requirements.txt\n```\n\n## Required Dependencies\n```\ndiffusers>=0.32.2\ntransformers\nhuggingface-hub\nomegaconf\neinops\nopencv-python\nmediapipe\nface-alignment\ndecord\nffmpeg-python\nsafetensors\nsoundfile\nDeepCache\n```\n\n## Manual Model Download Required\n\n**Important**: LatentSync 1.6 requires manual model downloads because the LatentSync 1.6 models are hosted on a private HuggingFace repository that cannot be automatically accessed. You must download the following models before first use:\n\n### Manual Individual Downloads\n\n### 1. VAE Model Download\nCreate a `vae` folder inside your `checkpoints` directory and download the VAE model:\n\n```bash\n# Create the vae directory\nmkdir checkpoints\u002Fvae\n```\n\n**Manual download steps:**\n1. Visit: https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fsd-vae-ft-mse\u002Ftree\u002Fmain\n2. Download **only these 2 files**:\n   - `diffusion_pytorch_model.safetensors`\n   - `config.json`\n3. Place them in `checkpoints\u002Fvae\u002F` folder (inside the extension directory)\n\n### 2. LatentSync 1.6 Checkpoints Download\nDownload the main LatentSync 1.6 models:\n\n```bash\n# Download LatentSync 1.6 models from HuggingFace\n# Visit: https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FLatentSync-1.6\u002Ftree\u002Fmain\n# Download all files from the repository into checkpoints\u002F folder\n```\n\n**Manual download steps:**\n1. **Ensure you have access** to the private HuggingFace repository\n2. Visit: https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FLatentSync-1.6\u002Ftree\u002Fmain\n3. Download all files from the repository\n4. Place them directly in the `checkpoints\u002F` folder\n\n### Checkpoint Directory Structure\n\nAfter downloading models (using either option), your checkpoint directory structure should look like this:\n\n```\n.\u002Fcheckpoints\u002F\n|-- .cache\u002F\n|-- auxiliary\u002F\n|-- vae\u002F\n|   |-- config.json\n|   `-- diffusion_pytorch_model.safetensors\n|-- whisper\u002F\n|   `-- tiny.pt\n|-- config.json\n|-- latentsync_unet.pt  (~5GB)\n|-- stable_syncnet.pt   (~1.6GB)\n```\n\nMake sure all these files are present for proper functionality. The main model files are:\n- `vae\u002Fdiffusion_pytorch_model.safetensors`: The Stable Diffusion VAE model for encoding\u002Fdecoding\n- `vae\u002Fconfig.json`: VAE configuration file\n- `latentsync_unet.pt`: The primary LatentSync 1.6 model trained at 512×512 resolution\n- `stable_syncnet.pt`: The SyncNet model for lip-sync supervision\n- `whisper\u002Ftiny.pt`: The Whisper model for audio processing\n\n## Usage\n\n1. Select an input video file with AceNodes video loader\n2. Load an audio file using ComfyUI audio loader\n3. (Optional) Set a seed value for reproducible results\n4. (Optional) Adjust the lips_expression parameter to control lip movement intensity\n5. (Optional) Modify the inference_steps parameter to balance quality and speed\n6. Connect to the LatentSync1.6 node\n7. Run the workflow\n\nThe processed video will be saved in ComfyUI's output directory.\n\n### Node Parameters:\n- `video_path`: Path to input video file\n- `audio`: Audio input from AceNodes audio loader\n- `seed`: Random seed for reproducible results (default: 1247)\n- `lips_expression`: Controls the expressiveness of lip movements (default: 1.5)\n  - Higher values (2.0-3.0): More pronounced lip movements, better for expressive speech\n  - Lower values (1.0-1.5): Subtler lip movements, better for calm speech\n  - This parameter affects the model's guidance scale, balancing between natural movement and lip sync accuracy\n- `inference_steps`: Number of denoising steps during inference (default: 20)\n  - Higher values (30-50): Better quality results but slower processing\n  - Lower values (10-15): Faster processing but potentially lower quality\n  - The default of 20 usually provides a good balance between quality and speed\n\n### Tips for Better Results:\n- **Enhanced 512×512 Resolution**: LatentSync 1.6 provides significantly clearer teeth and lip details compared to version 1.5\n- For speeches or presentations where clear lip movements are important, try increasing the lips_expression value to 2.0-2.5\n- For casual conversations, the default value of 1.5 usually works well\n- If lip movements appear unnatural or exaggerated, try lowering the lips_expression value\n- Different values may work better for different languages and speech patterns\n- If you need higher quality results and have time to wait, increase inference_steps to 30-50\n- For quicker previews or less critical applications, reduce inference_steps to 10-15\n\n## Known Limitations\n\n- Works best with clear, frontal face videos\n- Currently does not support anime\u002Fcartoon faces\n- Video should be at 25 FPS (will be automatically converted)\n- Face should be visible throughout the video\n- **Requires manual model downloads** - LatentSync 1.6 models are hosted on a private HuggingFace repository, but a complete package is available via Google Drive\n- Individual model downloads require access to the ByteDance\u002FLatentSync-1.6 HuggingFace repository\n\n## Credits\n\nThis is an unofficial implementation based on:\n- [LatentSync 1.6](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FLatentSync) by ByteDance Research\n- [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)\n\n## License\n\nThis project is licensed under the Apache License 2.0 - see the LICENSE file for details.\n","# ComfyUI-LatentSyncWrapper 1.6\n\n## 支持我的工作\n如果您觉得这个项目对您有帮助，请考虑请我喝杯咖啡：\n\n[![Buy Me A Coffee](https:\u002F\u002Fimg.buymeacoffee.com\u002Fbutton-api\u002F?text=Buy%20me%20a%20coffee&emoji=&slug=shmuelronen&button_colour=FFDD00&font_colour=000000&font_family=Cookie&outline_colour=000000&coffee_colour=ffffff)](https:\u002F\u002Fbuymeacoffee.com\u002Fshmuelronen)\n\n适用于 Windows 和 WSL 2.0 的 [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI) 非官方 [LatentSync 1.6](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FLatentSync) 实现。\n\n此节点利用字节跳动的 LatentSync 1.6 模型，在 ComfyUI 中提供先进的口型同步功能。它允许您将视频中的嘴唇与音频输入进行同步，具有更高的清晰度和分辨率，解决了先前版本中存在的模糊问题。\n\n## ⚠️ 重要升级通知 ⚠️\n\n**如果您已安装旧版本的 ComfyUI-LatentSyncWrapper，必须在安装 1.6 版本之前将其完全移除：**\n\n1. **完全停止 ComfyUI**\n2. **删除整个文件夹**：`ComfyUI\u002Fcustom_nodes\u002FComfyUI-LatentSyncWrapper\u002F`\n3. **全新安装**：按照以下安装步骤进行 1.6 的全新安装\n4. **切勿尝试更新**——由于重大更改，1.6 版本需要完全重新安装。\n\n**未移除旧版本会导致冲突，从而无法正常运行。**\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FShmuelRonen_ComfyUI-LatentSyncWrapper_readme_d28dc1c768c3.png)\n\n### 最新变更：\n#### 2025年6月14日——更新至 LatentSync 1.6，采用 512×512 分辨率训练，显著提升了牙齿和嘴唇生成的清晰度与细节。\n#### 2025年4月29日——为避免 GPU 内存分配问题，帧数据现在会在转换为 uint8 格式之前被移动到 CPU 上。这一改动使得生成更长视频时不会出现 OOM 错误。\n\n## LatentSync 1.6 有哪些新特性？\n\n1. **增强的分辨率训练**：LatentSync 1.6 基于 512×512 分辨率的视频进行训练，以解决 LatentSync 1.5 中报告的模糊问题。\n2. **视觉质量提升**：显著减少了 1.5 版本中常见的牙齿和嘴唇模糊现象。\n3. **向后兼容性**：当前代码同时兼容 LatentSync 1.5 和 1.6，只需更换检查点即可。\n4. **模型架构不变**：模型结构和训练策略未作更改，仅提升了训练数据的分辨率。\n5. **性能保持**：1.5 版本的所有改进均得以保留：\n   - **时间层改进**：修正后的实现显著提升了时间一致性。\n   - **更好的中文语言支持**：通过额外的训练数据，提升了对中文视频的处理效果。\n   - **降低显存需求**：优化后可在 20GB 显存（RTX 3090 兼容）上运行。\n   - **代码优化**：原生 PyTorch FlashAttention-2 实现，无需 xFormers 依赖。\n\n## 先决条件\n\n在安装此节点之前，您必须按顺序安装以下内容：\n\n1. 已安装并可正常运行的 [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)。\n\n2. 系统中已安装 FFmpeg：\n   - Windows：从 [这里](https:\u002F\u002Fgithub.com\u002FBtbN\u002FFFmpeg-Builds\u002Freleases) 下载，并将其添加到系统 PATH 中。\n\n## 安装\n\n**注意**：可通过 Google Drive 获取完整的预配置检查点包（推荐），或者您可以从 HuggingFace 仓库单独下载模型。\n\n请务必确认所有先决条件均已安装并正常运行后再继续安装。\n\n1. 将此仓库克隆到您的 ComfyUI custom_nodes 目录中：\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper.git\ncd ComfyUI-LatentSyncWrapper\npip install -r requirements.txt\n```\n\n## 必需依赖项\n```\ndiffusers>=0.32.2\ntransformers\nhuggingface-hub\nomegaconf\neinops\nopencv-python\nmediapipe\nface-alignment\ndecord\nffmpeg-python\nsafetensors\nsoundfile\nDeepCache\n```\n\n## 需要手动下载模型\n\n**重要提示**：LatentSync 1.6 需要手动下载模型，因为 LatentSync 1.6 模型托管在一个私有的 HuggingFace 仓库中，无法自动访问。您必须在首次使用前下载以下模型：\n\n### 手动单独下载\n\n### 1. VAE 模型下载\n在您的 `checkpoints` 目录下创建一个 `vae` 文件夹，并下载 VAE 模型：\n\n```bash\n# 创建 vae 目录\nmkdir checkpoints\u002Fvae\n```\n\n**手动下载步骤：**\n1. 访问：https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fsd-vae-ft-mse\u002Ftree\u002Fmain\n2. 仅下载以下两个文件：\n   - `diffusion_pytorch_model.safetensors`\n   - `config.json`\n3. 将它们放入 `checkpoints\u002Fvae\u002F` 文件夹中（位于扩展目录内）。\n\n### 2. LatentSync 1.6 检查点下载\n下载主要的 LatentSync 1.6 模型：\n\n```bash\n# 从 HuggingFace 下载 LatentSync 1.6 模型\n# 访问：https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FLatentSync-1.6\u002Ftree\u002Fmain\n# 将该仓库中的所有文件下载到 checkpoints\u002F 文件夹中\n```\n\n**手动下载步骤：**\n1. **确保您有权访问**私有的 HuggingFace 仓库。\n2. 访问：https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FLatentSync-1.6\u002Ftree\u002Fmain\n3. 下载该仓库中的所有文件。\n4. 将其直接放置在 `checkpoints\u002F` 文件夹中。\n\n### 检查点目录结构\n\n下载模型后（无论采用哪种方式），您的检查点目录结构应如下所示：\n\n```\n.\u002Fcheckpoints\u002F\n|-- .cache\u002F\n|-- auxiliary\u002F\n|-- vae\u002F\n|   |-- config.json\n|   `-- diffusion_pytorch_model.safetensors\n|-- whisper\u002F\n|   `-- tiny.pt\n|-- config.json\n|-- latentsync_unet.pt  (~5GB)\n|-- stable_syncnet.pt   (~1.6GB)\n```\n\n请确保所有这些文件都存在，以保证正常运行。主要模型文件包括：\n- `vae\u002Fdiffusion_pytorch_model.safetensors`：用于编码\u002F解码的 Stable Diffusion VAE 模型。\n- `vae\u002Fconfig.json`：VAE 配置文件。\n- `latentsync_unet.pt`：在 512×512 分辨率下训练的主 LatentSync 1.6 模型。\n- `stable_syncnet.pt`：用于口型同步监督的 SyncNet 模型。\n- `whisper\u002Ftiny.pt`：用于音频处理的 Whisper 模型。\n\n## 使用方法\n\n1. 使用 AceNodes 视频加载器选择输入视频文件。\n2. 使用 ComfyUI 音频加载器加载音频文件。\n3. （可选）设置种子值以获得可重复的结果。\n4. （可选）调整 lips_expression 参数以控制嘴唇运动的强度。\n5. （可选）修改 inference_steps 参数以平衡质量和速度。\n6. 连接到 LatentSync1.6 节点。\n7. 运行工作流。\n\n处理后的视频将保存在 ComfyUI 的输出目录中。\n\n### 节点参数：\n- `video_path`: 输入视频文件的路径\n- `audio`: 来自 AceNodes 音频加载器的音频输入\n- `seed`: 用于获得可复现结果的随机种子（默认值：1247）\n- `lips_expression`: 控制嘴唇动作的表现力（默认值：1.5）\n  - 值较高（2.0–3.0）：嘴唇动作更明显，更适合富有表现力的讲话\n  - 值较低（1.0–1.5）：嘴唇动作更细腻，更适合平静的讲话\n  - 该参数会影响模型的指导尺度，在自然度和唇形同步精度之间取得平衡\n- `inference_steps`: 推理过程中去噪步骤的数量（默认值：20）\n  - 值较高（30–50）：生成结果质量更好，但处理速度较慢\n  - 值较低（10–15）：处理速度更快，但可能质量稍低\n  - 默认值20通常能在质量和速度之间取得良好平衡\n\n### 获得更好效果的建议：\n- **提升至 512×512 分辨率**：与 1.5 版本相比，LatentSync 1.6 能提供更加清晰的牙齿和嘴唇细节\n- 对于需要清晰嘴唇动作的演讲或演示，可尝试将 `lips_expression` 参数调高至 2.0–2.5\n- 对于日常对话，使用默认值 1.5 通常效果不错\n- 如果发现嘴唇动作不自然或过于夸张，可适当降低 `lips_expression` 的值\n- 不同语言和说话习惯可能需要不同的参数设置才能达到最佳效果\n- 若追求更高质量且有充足时间，可将 `inference_steps` 提升至 30–50\n- 对于快速预览或非关键性应用，可将 `inference_steps` 降至 10–15\n\n## 已知限制\n\n- 最适合清晰的正面人脸视频\n- 目前不支持动漫或卡通风格的人脸\n- 视频帧率应为 25 FPS（系统会自动转换）\n- 整个视频中必须始终可见人脸\n- **需手动下载模型**：LatentSync 1.6 的模型托管在私有的 HuggingFace 仓库中，但也可通过 Google Drive 获取完整包\n- 单独下载模型需要访问 ByteDance\u002FLatentSync-1.6 的 HuggingFace 仓库\n\n## 致谢\n\n本项目基于以下内容进行非官方实现：\n- 字节跳动研究院的 [LatentSync 1.6](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FLatentSync)\n- [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)\n\n## 许可证\n\n本项目采用 Apache License 2.0 许可证授权——详情请参阅 LICENSE 文件。","# ComfyUI-LatentSyncWrapper 快速上手指南\n\nComfyUI-LatentSyncWrapper 是 ByteDance LatentSync 1.6 模型的非官方 ComfyUI 实现节点，专为 Windows 和 WSL 2.0 设计。它能够将视频唇形与音频输入进行高精度同步，显著提升了牙齿和嘴唇的清晰度，解决了旧版本的模糊问题。\n\n> **⚠️ 重要升级提示**\n> 如果您之前安装过旧版本，**必须完全卸载**后才能安装 1.6 版：\n> 1. 彻底停止 ComfyUI。\n> 2. 删除整个文件夹：`ComfyUI\u002Fcustom_nodes\u002FComfyUI-LatentSyncWrapper\u002F`。\n> 3. 按照下方步骤重新进行全新安装。**切勿直接更新**，否则会导致冲突。\n\n## 环境准备\n\n在开始之前，请确保满足以下系统要求和前置依赖：\n\n1.  **ComfyUI**: 已安装并可正常运行。\n2.  **FFmpeg**: 必须安装在系统中并配置到环境变量 PATH。\n    *   **Windows 用户**: 推荐从 [GitHub Releases](https:\u002F\u002Fgithub.com\u002FBtbN\u002FFFmpeg-Builds\u002Freleases) 下载 `ffmpeg-master-latest-win64-gpl.zip`，解压后将 `bin` 目录路径添加到系统环境变量 `Path` 中。\n3.  **硬件要求**: 建议显存至少 20GB (如 RTX 3090)，优化后可在较低显存下运行较长视频。\n\n## 安装步骤\n\n### 1. 克隆仓库与安装依赖\n\n打开终端（CMD 或 PowerShell），进入 ComfyUI 的 `custom_nodes` 目录执行以下命令：\n\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper.git\ncd ComfyUI-LatentSyncWrapper\npip install -r requirements.txt\n```\n\n*注：国内用户若遇到 pip 下载慢的问题，可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 参数加速。*\n\n### 2. 手动下载模型文件\n\n由于 LatentSync 1.6 模型托管在受限的 HuggingFace 仓库，**必须手动下载**模型文件并放置到指定目录。\n\n请在 `ComfyUI-LatentSyncWrapper` 目录下创建 `checkpoints` 文件夹，并按以下结构存放文件：\n\n#### A. 下载 VAE 模型\n1.  创建目录：`mkdir checkpoints\u002Fvae`\n2.  访问地址：https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fsd-vae-ft-mse\u002Ftree\u002Fmain\n3.  下载以下两个文件并放入 `checkpoints\u002Fvae\u002F`：\n    *   `diffusion_pytorch_model.safetensors`\n    *   `config.json`\n\n#### B. 下载 LatentSync 1.6 主模型\n1.  访问地址：https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FLatentSync-1.6\u002Ftree\u002Fmain\n    *   *注意：您可能需要登录 HuggingFace 并同意相关协议才能访问。*\n2.  下载该仓库下的**所有文件**。\n3.  将文件直接放入 `checkpoints\u002F` 根目录（不要嵌套子文件夹）。\n\n#### ✅ 最终目录结构检查\n安装完成后，您的目录结构应如下所示：\n\n```text\nComfyUI-LatentSyncWrapper\u002F\n└── checkpoints\u002F\n    ├── vae\u002F\n    │   ├── config.json\n    │   └── diffusion_pytorch_model.safetensors\n    ├── whisper\u002F\n    │   └── tiny.pt (通常包含在主模型包中，若无需单独下载)\n    ├── config.json\n    ├── latentsync_unet.pt      (~5GB)\n    └── stable_syncnet.pt       (~1.6GB)\n```\n\n## 基本使用\n\n安装完成并重启 ComfyUI 后，即可在工作流中使用该节点。\n\n### 最简单工作流示例\n\n1.  **加载视频**: 使用 `AceNodes Video Loader` (或其他兼容的视频加载节点) 加载输入视频。\n    *   *建议*: 视频最好为正面清晰人脸，帧率会自动转换为 25 FPS。\n2.  **加载音频**: 使用 ComfyUI 自带的音频加载节点加载对应的音频文件。\n3.  **添加核心节点**: 双击搜索并添加 `LatentSync1.6` 节点。\n4.  **连接线路**:\n    *   将视频输出连接到节点的 `video_path` 输入。\n    *   将音频输出连接到节点的 `audio` 输入。\n5.  **调整参数 (可选)**:\n    *   `seed`: 随机种子，默认 `1247`。\n    *   `lips_expression`: 唇形表现力强度。\n        *   `1.0-1.5`: 适合平静对话，动作自然 subtle。\n        *   `2.0-3.0`: 适合演讲或激情表达，口型幅度更大。\n    *   `inference_steps`: 推理步数，默认 `20`。\n        *   提高至 `30-50` 可获得更高质量但速度变慢。\n        *   降低至 `10-15` 可加快预览速度。\n6.  **运行**: 点击 \"Queue Prompt\" 开始生成。\n\n生成的对口型视频将自动保存在 ComfyUI 的 `output` 目录中。","一位独立游戏开发者正在为角色制作多语言宣传视频，需要将英文配音精准同步到已有的角色动画口型上。\n\n### 没有 ComfyUI-LatentSyncWrapper 时\n- **口型模糊失真**：使用旧版方案生成的唇部动作模糊不清，牙齿细节丢失，导致角色说话时像“嘴里含着东西”，严重破坏沉浸感。\n- **长视频生成失败**：处理超过几秒的宣传片片段时，显存迅速爆满（OOM），导致生成过程频繁中断，无法完成完整镜头的制作。\n- **中文支持糟糕**：当尝试合成中文配音时，由于训练数据偏差，口型节奏与发音严重脱节，完全无法直接使用。\n- **工作流割裂**：需要在多个软件间反复导出导入素材进行后期修补，耗时耗力且难以在 ComfyUI 中实现自动化批量生产。\n\n### 使用 ComfyUI-LatentSyncWrapper 后\n- **高清细节还原**：依托 LatentSync 1.6 的 512×512 高分辨率训练，生成的唇齿动作清晰锐利，彻底解决了以往版本嘴部模糊的痛点。\n- **稳定生成长片**：优化的内存管理机制将帧数据移至 CPU 处理，使得在 20GB 显存设备上也能流畅生成数十秒的高清同步视频，不再报错崩溃。\n- **多语言完美适配**：增强的中文及多语言支持让口型与语调严丝合缝，无论是英文还是中文配音，都能呈现自然的说话状态。\n- **一站式高效流程**：直接在 ComfyUI 节点中完成从音频输入到视频输出的全流程，无需切换软件，大幅提升了迭代效率。\n\nComfyUI-LatentSyncWrapper 通过提升画质清晰度与运行稳定性，让开发者能在本地高效产出电影级口型同步视频，彻底解放了多语言内容创作的瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FShmuelRonen_ComfyUI-LatentSyncWrapper_d28dc1c7.png","ShmuelRonen","Shmuel Ronen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FShmuelRonen_bb31496d.png",null,"https:\u002F\u002Fgithub.com\u002FShmuelRonen",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,{"name":86,"color":87,"percentage":88},"Shell","#89e051",0,942,87,"2026-03-29T14:39:15",4,"Windows, Linux (WSL 2.0)","需要 NVIDIA GPU，显存至少 20GB（兼容 RTX 3090），使用原生 PyTorch FlashAttention-2","未说明",{"notes":97,"python":95,"dependencies":98},"1. 必须预先安装 FFmpeg 并配置到系统环境变量。2. 升级至 1.6 版本前必须完全删除旧版本文件夹，不可直接更新。3. 模型文件需手动下载：包括来自 stabilityai 的 VAE 模型和来自 ByteDance 私有仓库的 LatentSync 1.6 主模型（含 UNET 和 SyncNet），无法自动下载。4. 仅支持真人正面视频，不支持动漫角色，输入视频建议为 25 FPS。",[99,100,101,102,103,104,105,106,107,108],"diffusers>=0.32.2","transformers","huggingface-hub","omegaconf","einops","opencv-python","mediapipe","face-alignment","decord","DeepCache",[15,21],"2026-03-27T02:49:30.150509","2026-04-06T07:13:52.602252",[113,118,123,128,133,138],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},12817,"运行 LatentSync 时遇到显存不足（OOM）错误，需要什么样的硬件配置？","LatentSync 1.6 版本对硬件要求极高。根据维护者说明，该版本需要强大的 GPU（如 RTX 4090\u002F5090 级别）以及至少 64GB 的系统内存（CPU RAM）。即使用户拥有 RTX 5090 和 96GB 内存，在某些工作流中仍可能因显存管理问题出现 OOM 错误。对于显存较小的显卡（如 RTX 3060），目前可能难以稳定运行最新版本，建议关注后续是否推出针对中端显卡优化的轻量版或支持 FP8\u002FGGUF 量化模型。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F203",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},12818,"遇到 'module 'ffmpeg' has no attribute 'Error'' 报错该如何解决？","此错误通常与 FFmpeg 路径配置或缺失文件有关。首先确保已正确安装 FFmpeg 并将其路径添加到系统环境变量中。如果是通过 ComfyUI Windows 独立包运行，检查是否缺失了关键模型文件（如 stable_syncnet.pt 和 auxiliary 文件夹），需从旧安装或备份中恢复这些文件到 checkpoints 目录。此外，该报错有时也源于其他节点套件（如 was-node-suite）的配置冲突，可尝试在 was_suite_config.json 中明确指定 FFmpeg 路径，或者确认 LatentSync 本身是否正常工作以排除误报。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F138",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},12819,"输出视频的分辨率和画质明显低于输入视频，如何解决？","这是由模型训练数据分辨率限制导致的已知现象。LatentSync 模型主要在低分辨率视频上训练，因此即使输入高清视频，输出也可能被降级且比特率降低。目前无法直接通过节点设置避免此问题。用户反馈尝试结合 Topaz Face Upscale 或 Face Fusion 进行后期人脸超分可以改善部分效果，但并非完美解决方案。根本解决需要等待开发者发布针对高分辨率训练的 HD 模型版本。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F32",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},12820,"输出视频的帧数与原始视频不匹配，导致音频截断或时长不对怎么办？","这是一个已知的严重 Bug。LatentSync 处理逻辑可能导致输出帧数少于输入（例如输入 300 帧输出仅 288 帧），即便 FPS 设置一致，也会导致视频变短和音频不同步。目前官方尚未提供完美的自动修复方案。临时变通方法是手动计算所需输入帧数，或在预处理阶段调整视频长度以匹配预期的输出帧数（通常是 16 的倍数）。避免使用“循环”或“乒乓”模式来强行补齐帧数，因为这会破坏音画同步。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F49",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},12821,"替换 util.py 文件后问题依旧，或者节点更新后失效，应该如何排查？","如果替换单个文件无效，最彻底的解决方法是重新安装整个节点。首先完全删除 custom_nodes 目录下的 ComfyUI-LatentSyncWrapper 文件夹，然后通过 ComfyUI Manager 或手动从 GitHub 重新克隆最新代码。此外，需注意转换阶段（converting stage）比推理阶段消耗更多内存，如果仍然失败，可能是系统内存（RAM）不足而非显存问题，建议关闭其他占用内存的应用程序后再试。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F16",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},12822,"插件将临时文件夹移动到了 AppData 目录，导致磁盘空间不足或路径错误，如何处理？","该行为可能是特定版本的默认设置或 Bug。用户反馈回退到旧版本的 nodes.py 文件有时可以解决此问题。如果回退无效，建议检查节点的最新更新说明，看是否有配置文件可以自定义临时目录路径。若问题持续，可尝试完全卸载并重新安装节点的稳定版本，确保没有残留的配置文件指向错误的临时路径。","https:\u002F\u002Fgithub.com\u002FShmuelRonen\u002FComfyUI-LatentSyncWrapper\u002Fissues\u002F151",[]]