[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-smthemex--ComfyUI_EchoMimic":3,"tool-smthemex--ComfyUI_EchoMimic":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":74,"owner_company":74,"owner_location":76,"owner_email":74,"owner_twitter":74,"owner_website":74,"owner_url":77,"languages":78,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":91,"env_os":92,"env_gpu":93,"env_ram":92,"env_deps":94,"category_tags":105,"github_topics":74,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":108,"updated_at":109,"faqs":110,"releases":146},4932,"smthemex\u002FComfyUI_EchoMimic","ComfyUI_EchoMimic","You can using EchoMimic in ComfyUI","ComfyUI_EchoMimic 是一款集成在 ComfyUI 中的开源节点插件，旨在让用户轻松实现高质量的音频驱动人物动画生成。它解决了传统数字人动画制作流程复杂、对硬件要求极高且难以编辑的痛点，允许用户仅通过一张参考图片和一段音频，即可生成表情自然、动作流畅的说话视频。\n\n该工具非常适合视觉设计师、视频创作者以及 AI 技术爱好者使用。无论是制作虚拟主播口播视频、角色对话场景，还是进行多模态动画研究，都能通过可视化的工作流快速上手。其核心亮点在于集成了 EchoMimic 系列的最新成果：不仅支持从面部特写到半全身动画的多种模式，还引入了可编辑的关键点控制，让动作调整更加精准。特别是最新的 V3 版本，采用统一的 13 亿参数架构，大幅降低了显存门槛，配合 Flash 加速模型和量化技术，仅需 6.5GB 至 12GB 显存即可高效推理高清视频。此外，它还原生支持中文语音识别与 LightX2V 加速 LoRA，进一步提升了生成速度与本地化体验，让高性能动画创作变得触手可及。","# ComfyUI_EchoMimic\nYou can use EchoMimic & EchoMimic V2  & EchoMimic V3 in comfyui.   \n[Echomimic](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic\u002Ftree\u002Fmain)：Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning       \n[Echomimic_v2](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v2): Towards Striking, Simplified, and Semi-Body Human Animation   \n[Echomimic_v3](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3)：1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation   \n\n\n---\n\n# New Updates\n* Support v3 flash model,now you can infer 768x768 size in 12G Vram use 8 steps，768x512 need 6.5G (need new transformer and audio model)，need ‘ block_offload ’ on;  \n* 支持v3 flash模型，并加以优化，12G，8步可以推理768x768的视频，6.5G可以推理768X512的视频,需要开启block_offload块卸载功能; \n\n # Previous \n* you can set lowram 'False ' to close mmgp 's fp8 quantum ，will get more quality output.\u002F设置lowram为false时，关闭mmgp的FP8 量化以得到更好的质量。\n* add LCM support ,if set step=4（and lightX2V lora）,will run in LCM\u002F 步数设置为4时，自动开启LCM，当然也要lora\n* v3版本新增lightX2V Lora的支持， step可以设置为10步（使用Lora时自动开启Unip）\u002Fyou can use lightX2V Lora when use V3 version, set step=10; \n* 修复bug，retina-face 模型改成本地运行\n* V3正式上线，测试环境12G VRAM，OOM需要减少视频分块(partial_video_length)的数值，12G可以跑65，16可以试试97，更高可以试试113\n* V3 is Done,you can try it now.. need 8G and more (use mmgp,LOW LOW,partial_video_length==65 or 33)\n\n# 1. Installation\n\nIn the .\u002FComfyUI \u002Fcustom_nodes directory, run the following:   \n```\ngit clone https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic.git\n```\n---\n  \n# 2. Requirements  \n\n```\npip install -r requirements.txt\n```\n\n# Notice\n---\nIf use v1 version 如果要使用V1版本： \n```\npip install --no-deps facenet-pytorch \n\n```\nIf use v3 version 如果要使用V3版本：  # v3 flash do not use it  #flash模型不用\n```\npip install retina-face==0.0.17 #使用须外网下载模型，待处理\npip install mmgp # optional 可选 \npip install tensorflow==2.15.0   #高版本可能会报错，存疑   \n```\n\n* 如果ffmpeg 报错，if ffmpeg error：  \n```\npip uninstall ffmpeg   \npip install ffmpeg-python  \n```\n\n* 其他库缺啥装啥。。。  \n* If the module is missing, , pip install  missing module.       \n\n\n# 3. Models Required \n----\n**3.1 v3 version**   \n3.1.1 from [Wan2.1-Fun-V1.1-1.3B-InP](https:\u002F\u002Fhuggingface.co\u002Falibaba-pai\u002FWan2.1-Fun-V1.1-1.3B-InP\u002Ftree\u002Fmain)downlaod Wan2.1_VAE.pth and diffusion_pytorch_model.safetensors   v3 and v3 flash\n3.1.2 use comfyui ,[clipvison-h](https:\u002F\u002Fhuggingface.co\u002FComfy-Org\u002FWan_2.1_ComfyUI_repackaged\u002Ftree\u002Fmain\u002Fsplit_files\u002Fclip_vision) and [umt5_xxl_fp8_e4m3fn_scaled.safetensors ](https:\u002F\u002Fhuggingface.co\u002FComfy-Org\u002FWan_2.1_ComfyUI_repackaged\u002Ftree\u002Fmain\u002Fsplit_files\u002Ftext_encoders)  v3 and v3 flash\n3.1.3 [wav2vec2-base-960h](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-base-960h\u002Ftree\u002Fmain)    v3 only\n3.1.4 [BadToBest\u002FEchoMimicV3](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain) transformer   v3 only  \n3.1.5 [retinaface.h5](https:\u002F\u002Fgithub.com\u002Fserengil\u002Fdeepface_models\u002Freleases\u002Fdownload\u002Fv1.0\u002Fretinaface.h5)  目录下没有一般会自动下载 v3 only\n3.1.6 可选\u002Foptional lora  [kijai](https:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy\u002Ftree\u002Fmain\u002FLightx2v) v3 only\n3.1.7 [BadToBest\u002FEchoMimicV3\u002Fechomimicv3-flash-pro](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro)   v3 flash\n3.1.8 [chinese-wav2vec2-base](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FTencentGameMate\u002Fchinese-wav2vec2-base) v3 flash\n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Ftransformer \n|         ├── diffusion_pytorch_model.safetensors  # Wan2.1-Fun-V1.1-1.3B-InP transformer #3.13G 务必注意模型同名。  v3 and v3 flash\n|         ├── config.json\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fwav2vec2-base-960h   # v3 only \n|         ├── all config json files \n|         ├──  model.safetensors\n├── ComfyUI\u002Fmodels\u002Fclip\n|         ├── umt5_xxl_fp8_e4m3fn_scaled.safetensors   # v3 and v3 flash\n├── ComfyUI\u002Fmodels\u002Fclip_vision  # v3 and v3 flash \n|         ├──clipvison-h # 1.26G\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002F\n|         ├──diffusion_pytorch_model.safetensors  # BadToBest\u002FEchoMimicV3   v3 only \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fechomimicv3-flash-pro\u002F\n|         ├──diffusion_pytorch_model.safetensors  # BadToBest\u002FEchoMimicV3  v3 flashonly \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fchinese-wav2vec2-base\u002F    #v3 flashonly \n|         ├──chinese-wav2vec2-base-fairseq-ckpt.pt \n|         ├──model.safetensors\n|         ├──all config      \n├── ComfyUI\u002Fmodels\u002Fvae\n|         ├── Wan2.1_VAE.pth    # v3 and v3 flash \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002F.deepface\u002Fweights\u002F    #注意.deepface前面有个点，这个是方便不能翻墙玩家  #  v3 only \n|         ├──retinaface.h5\n├── ComfyUI\u002Fmodels\u002Floras\u002F    \n|         ├──lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors  #KJ #  v3 only \n\n```\n\n**3.2 V1 & V2 Shared model v1 和 v2 共用的模型**:   \n如果能直连抱脸,点击就会自动下载所需模型,不需要手动下载.  \n* unet [link](https:\u002F\u002Fhuggingface.co\u002Flambdalabs\u002Fsd-image-variations-diffusers)    \n* V1 & V2 audio  [link](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimic\u002Ftree\u002Fmain)    \n* vae(stabilityai\u002Fsd-vae-ft-mse)    [link](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fsd-vae-ft-mse)          \n\n```\n├── ComfyUI\u002Fmodels\u002F echo_mimic\n|         ├── unet\n|             ├── diffusion_pytorch_model.bin\n|             ├── config.json\n|         ├── audio_processor\n|             ├── whisper_tiny.pt\n├── ComfyUI\u002Fmodels\u002Fvae\n|             ├── diffusion_pytorch_model.safetensors or rename sd-vae-ft-mse.safetensors\n```\n\n**3.3 V1 models V1使用以下模型**:     \n* V1 address   [link](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimic\u002Ftree\u002Fmain)    \n* Audio-Drived Algo Inference 音频驱动        \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── denoising_unet.pth\n|         ├── face_locator.pth\n|         ├── motion_module.pth\n|         ├── reference_unet.pth\nAudio-Drived Algo Inference  acc  音频驱动加速版\n|         ├── denoising_unet_acc.pth\n|         ├── motion_module_acc.pth\n```\n\n* Using Pose-Drived Algo Inference  姿态驱动   \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── denoising_unet_pose.pth\n|         ├── face_locator_pose.pth\n|         ├── motion_module_pose.pth\n|         ├── reference_unet_pose.pth\nUsing Pose-Drived Algo Inference  ACC   姿态驱动加速版\n|         ├── denoising_unet_pose_acc.pth\n|         ├── motion_module_pose_acc.pth\n```\n\n**3.4 v2 version**   \nuse model below V2, Automatic download, you can manually add it 使用以下模型,使用及自动下载,你可以手动添加:    \n模型地址address:[huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV2\u002Ftree\u002Fmain)\n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fv2\n|         ├── denoising_unet.pth\n|         ├── motion_module.pth\n|         ├── pose_encoder.pth\n|         ├── reference_unet.pth\nif use acc 姿态驱动加速版   \n|         ├── denoising_unet_acc.pth\n|         ├── motion_module_acc.pth\n```\nYOLOm8 [download link](https:\u002F\u002Fhuggingface.co\u002FUltralytics\u002FYOLOv8\u002Ftree\u002Fmain)   \nsapiens pose [download link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fsapiens-pose-1b-torchscript\u002Ftree\u002Fmain)  \nsapiens的pose 模型可以量化为fp16的，详细见我的sapiens插件 [地址](https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_Sapiens)   \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── yolov8m.pt\n|         ├── sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2  or\u002F或者 sapiens_1b_goliath_best_goliath_AP_639_torchscript_fp16.pt2\n```\n\n\n\n# 4 Example\n-----\n* V3  flash version\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_30567bdb3f8c.png\" width=\"80%\">\n\n* V3 version\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_62d3baa559f3.png\" width=\"80%\">\n\n* V2 version\n\n* V2加载自定义视频驱动视频，V2 loads custom video driver videos\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_ffe12f486108.png\" width=\"80%\">\n\n* Echomimic_v2 use default pose  new version 使用官方默认的pose文件\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_ffe12f486108.png\" width=\"80%\">\n\n* V1 version\n\n* audio driver 音频驱动\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_d25992a546ef.png\" width=\"80%\">    \n\n\n* 示例的 VH node : [ComfyUI-VideoHelperSuite](https:\u002F\u002Fgithub.com\u002FKosinkadink\u002FComfyUI-VideoHelperSuite)\n\n---\n\n# 5 Function Description\n---\n* v1 版本的生成模式    \n  a. 单纯音频驱动视频生成模式，infer_mode可选常规的“audio_drived” 和加速版\"audio_drived_acc\" 模型；   \n  b. pose驱动生成模式，常规选项为pose_normal_sapiens\u002Fpose_normal_dwpose（等同） 加速版本为\"pose_acc\"模型；   \n    ----motion_sync：pose驱动时，如果打开且video_file有视频文件时，生成pkl文件，并生成参考视频的视频；pkl文件在input\\tensorrt_lite 目录下，再次使用需要重启comfyUI。      \n    ----motion_sync：如果关闭且pose_dir不为none的时候，读取选定的pose_dir目录名的pkl文件，生成pose视频；如果pose_dir为空的时候，生成基于默认assets\\test_pose_demo_pose的视频     \n  \n* v2 版本的生成模式   \n  a. infer_mode选择audio_drive,pose_dir 选择列表里的几个默认pose，则使用默认的npy pose文件;     \n  b. infer_mode选择audio_drive,pose_dir 选择已有的npy文件夹（位于...ComfyUI\u002Finput\u002Ftensorrt_lite目录下);   \n  c. infer_mode选择pose_normal_dwpose 或pose_normal_sapiens,video_images连接视频入口，确认...ComfyUI\u002Fmodels\u002Fecho_mimic 下有yolov8m.pt 和sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2 模型,根据输入视频生成npy文件（可以下次用）和视频   \n\n* v3 版本生成模式       \n   a. 基于retina-face库生成   \n   b. 如果retina-face调用失败，则以默认的女性face作为mask    \n\n**特别的选项**：  \n  * save_video：如果不想使用VH节点时，可以开启，默认关闭；     \n  * draw_mouse：你可以试试；    \n  * length：帧数，时长等于length\u002Ffps；     \n  * acc模型 ，6步就可以，但是质量略有下降；   \n  * lowvram :低显存用户可以开启 lowvram users can enable it  \n  * 内置内置图片等比例裁切。\n  * facecrop_ratio的放大系数为1\u002Ffacecrop_ratio，如果设置为0.5，面部会得到2倍的放大，建议只在参考图片或者驱动视频中的人脸占比很小的时候，才将facecrop_ratio调整为较小的值.为1 或者0 时不裁切   \n  * cfg数值设置为1，仅在turbo模式有效，其他会报错。V2推荐2.5 V3推荐3.5\n  * use_mmgp 仅V3版本有效   \n  * partial_video_length 仅V3版本有效，数值越低显存占用越低；\n  * teacache 仅V3版本有效；     \n\n  \n---\n\n6 Citation\n------\nEchoMimici\n``` python  \n@misc{chen2024echomimic,\n  title={EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning},\n  author={Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma},\n  year={2024},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\nEchoMimici-V2\n``` python  \n@misc{meng2024echomimic,\n  title={EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation},\n  author={Rang Meng, Xingyu Zhang, Yuming Li, Chenguang Ma},\n  year={2024},\n  eprint={2411.10061},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\nEchoMimici-V3\n```\n@misc{meng2025echomimicv3,\n  title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},\n  author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},\n  year={2025},\n  eprint={2507.03905},\n  archivePrefix={arXiv}\n}\n```\nLightX2V\n```\n@misc{lightx2v,\n author = {LightX2V Contributors},\n title = {LightX2V: Light Video Generation Inference Framework},\n year = {2025},\n publisher = {GitHub},\n journal = {GitHub repository},\n howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FModelTC\u002Flightx2v}},\n}\n````\n\nsapiens\n```\n@article{khirodkar2024sapiens,\n  title={Sapiens: Foundation for Human Vision Models},\n  author={Khirodkar, Rawal and Bagautdinov, Timur and Martinez, Julieta and Zhaoen, Su and James, Austin and Selednik, Peter and Anderson, Stuart and Saito, Shunsuke},\n  journal={arXiv preprint arXiv:2408.12569},\n  year={2024}\n}\n```\n\n","# ComfyUI_EchoMimic\n您可以在ComfyUI中使用EchoMimic、EchoMimic V2和EchoMimic V3。  \n[Echomimic](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic\u002Ftree\u002Fmain)：通过可编辑的地标条件生成逼真的音频驱动肖像动画  \n[Echomimic_v2](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v2)：迈向引人注目、简化且半身的人体动画  \n[Echomimic_v3](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3)：13亿参数足以实现统一的多模态和多任务人体动画   \n\n\n---\n\n# 新更新\n* 支持v3闪存模型，现在您可以在12G显存下以8步推理768x768尺寸的视频，768x512则需要6.5G（需配备新的Transformer和音频模型），同时需要开启“block_offload”功能；  \n* 支持v3闪存模型，并加以优化，12G显存下8步即可推理768x768视频，6.5G显存下则可推理768x512视频，需开启块卸载功能；  \n\n # 之前 \n* 您可以将lowram设置为False来关闭mmgp的FP8量化，从而获得更高质量的输出。  \n* 增加LCM支持，若将步数设置为4（并搭配lightX2V LoRA），则会自动启用LCM；  \n* v3版本新增lightX2V LoRA的支持，步数可设置为10步（使用LoRA时自动开启Unip）；  \n* 修复了bug，将retina-face模型改为本地运行；  \n* V3正式上线，测试环境为12G VRAM，若出现OOM错误，请减少视频分块（partial_video_length）的数值，12G显存下可设置为65，16G显存下可尝试97，更高显存则可尝试113；  \n* V3已完成，现在可以试用。所需显存为8G及以上（使用mmgp、LOW LOW设置，且partial_video_length设为65或33）。\n\n# 1. 安装\n\n在.\u002FComfyUI\u002Fcustom_nodes目录下，执行以下命令：   \n```\ngit clone https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic.git\n```\n---\n  \n# 2. 需求  \n\n```\npip install -r requirements.txt\n```\n\n# 注意事项\n---\n若使用V1版本： \n```\npip install --no-deps facenet-pytorch \n\n```\n若使用V3版本：  # v3闪存模型无需使用  \n```\npip install retina-face==0.0.17 #需外网下载模型，暂未处理\npip install mmgp # 可选\npip install tensorflow==2.15.0   #高版本可能会报错，尚待确认   \n```\n\n* 若ffmpeg报错：  \n```\npip uninstall ffmpeg   \npip install ffmpeg-python  \n```\n\n* 其他缺少的库按需安装。。。  \n* 若模块缺失，则pip install相应模块。       \n\n\n# 3. 所需模型 \n----\n**3.1 V3版本**   \n3.1.1 从[Wan2.1-Fun-V1.1-1.3B-InP](https:\u002F\u002Fhuggingface.co\u002Falibaba-pai\u002FWan2.1-Fun-V1.1-1.3B-InP\u002Ftree\u002Fmain)下载Wan2.1_VAE.pth和diffusion_pytorch_model.safetensors，适用于V3及V3闪存模型。  \n3.1.2 使用ComfyUI中的[clipvision-h](https:\u002F\u002Fhuggingface.co\u002FComfy-Org\u002FWan_2.1_ComfyUI_repackaged\u002Ftree\u002Fmain\u002Fsplit_files\u002Fclip_vision)和[umt5_xxl_fp8_e4m3fn_scaled.safetensors](https:\u002F\u002Fhuggingface.co\u002FComfy-Org\u002FWan_2.1_ComfyUI_repackaged\u002Ftree\u002Fmain\u002Fsplit_files\u002Ftext_encoders)，适用于V3及V3闪存模型。  \n3.1.3 [wav2vec2-base-960h](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-base-960h\u002Ftree\u002Fmain)，仅适用于V3。  \n3.1.4 [BadToBest\u002FEchoMimicV3](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain)的Transformer，仅适用于V3。  \n3.1.5 [retinaface.h5](https:\u002F\u002Fgithub.com\u002Fserengil\u002Fdeepface_models\u002Freleases\u002Fdownload\u002Fv1.0\u002Fretinaface.h5)，通常会在目录中自动下载，仅适用于V3。  \n3.1.6 可选的LoRA [kijai](https:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy\u002Ftree\u002Fmain\u002FLightx2v)，仅适用于V3。  \n3.1.7 [BadToBest\u002FEchoMimicV3\u002Fechomimicv3-flash-pro](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro)，仅适用于V3闪存模型。  \n3.1.8 [chinese-wav2vec2-base](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FTencentGameMate\u002Fchinese-wav2vec2-base)，仅适用于V3闪存模型。  \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Ftransformer \n|         ├── diffusion_pytorch_model.safetensors  # Wan2.1-Fun-V1.1-1.3B-InP的Transformer #3.13G 务必注意模型同名。  V3和V3闪存模型均适用。\n|         ├── config.json\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fwav2vec2-base-960h   # 仅适用于V3 \n|         ├──所有配置文件\n|         ├──模型文件\n├── ComfyUI\u002Fmodels\u002Fclip\n|         ├── umt5_xxl_fp8_e4m3fn_scaled.safetensors   # 适用于V3和V3闪存模型\n├── ComfyUI\u002Fmodels\u002Fclip_vision  # 适用于V3和V3闪存模型 \n|         ├──clipvison-h # 1.26G\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002F\n|         ├──diffusion_pytorch_model.safetensors  # BadToBest\u002FEchoMimicV3   仅适用于V3 \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fechomimicv3-flash-pro\u002F\n|         ├──diffusion_pytorch_model.safetensors  # BadToBest\u002FEchoMimicV3  仅适用于V3闪存模型 \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fchinese-wav2vec2-base\u002F    #仅适用于V3闪存模型 \n|         ├──chinese-wav2vec2-base-fairseq-ckpt.pt \n|         ├──模型文件\n|         ├──所有配置文件\n├── ComfyUI\u002Fmodels\u002Fvae\n|         ├── Wan2.1_VAE.pth    # 适用于V3和V3闪存模型 \n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002F.deepface\u002Fweights\u002F    #注意.deepface前面有个点，这个是方便不能翻墙玩家  # 仅适用于V3 \n|         ├──retinaface.h5\n├── ComfyUI\u002Fmodels\u002Floras\u002F    \n|         ├──lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors  #KJ # 仅适用于V3 \n\n```\n\n**3.2 V1 & V2共享模型**：  \n如果能直接连接Hugging Face，点击即可自动下载所需模型，无需手动下载。  \n* UNet [链接](https:\u002F\u002Fhuggingface.co\u002Flambdalabs\u002Fsd-image-variations-diffusers)    \n* V1 & V2音频模型 [链接](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimic\u002Ftree\u002Fmain)    \n* VAE（stabilityai\u002Fsd-vae-ft-mse） [链接](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fsd-vae-ft-mse)          \n\n```\n├── ComfyUI\u002Fmodels\u002F echo_mimic\n|         ├── UNet\n|             ├── diffusion_pytorch_model.bin\n|             ├── config.json\n|         ├──音频处理器\n|             ├── whisper_tiny.pt\n├── ComfyUI\u002Fmodels\u002FVAE\n|             ├── diffusion_pytorch_model.safetensors 或重命名为sd-vae-ft-mse.safetensors\n```\n\n**3.3 V1模型**：  \n* V1地址 [链接](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimic\u002Ftree\u002Fmain)    \n* 音频驱动算法推理  \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── denoising_unet.pth\n|         ├── face_locator.pth\n|         ├── motion_module.pth\n|         ├── reference_unet.pth\n音频驱动加速版  \n|         ├── denoising_unet_acc.pth\n|         ├── motion_module_acc.pth\n```\n\n* 姿态驱动算法推理  \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── denoising_unet_pose.pth\n|         ├── face_locator_pose.pth\n|         ├── motion_module_pose.pth\n|         ├── reference_unet_pose.pth\n姿态驱动加速版  \n|         ├── denoising_unet_pose_acc.pth\n|         ├── motion_module_pose_acc.pth\n```\n\n**3.4 V2版本**：  \n使用以下模型，支持自动下载，也可手动添加：  \n模型地址：[Hugging Face](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV2\u002Ftree\u002Fmain)  \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\u002Fv2\n|         ├── denoising_unet.pth\n|         ├── motion_module.pth\n|         ├── pose_encoder.pth\n|         ├── reference_unet.pth\n若使用加速版  \n|         ├── denoising_unet_acc.pth\n|         ├── motion_module_acc.pth\n```\nYOLOm8 [下载链接](https:\u002F\u002Fhuggingface.co\u002FUltralytics\u002FYOLOv8\u002Ftree\u002Fmain)   \nSapiens姿势模型 [下载链接](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fsapiens-pose-1b-torchscript\u002Ftree\u002Fmain)  \nSapiens的姿势模型可量化为fp16格式，详细请参阅我的Sapiens插件 [地址](https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_Sapiens)   \n```\n├── ComfyUI\u002Fmodels\u002Fecho_mimic\n|         ├── yolov8m.pt\n|         ├── sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2 或者 sapiens_1b_goliath_best_goliath_AP_639_torchscript_fp16.pt2\n```\n\n# 4 示例\n-----\n* V3 闪存版本\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_30567bdb3f8c.png\" width=\"80%\">\n\n* V3 版本\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_62d3baa559f3.png\" width=\"80%\">\n\n* V2 版本\n\n* V2 加载自定义视频驱动视频，V2 loads custom video driver videos\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_ffe12f486108.png\" width=\"80%\">\n\n* Echomimic_v2 使用默认姿态 新版本 使用官方默认的pose文件\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_ffe12f486108.png\" width=\"80%\">\n\n* V1 版本\n\n* 音频驱动 音频驱动\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_readme_d25992a546ef.png\" width=\"80%\">    \n\n\n* 示例的 VH 节点：[ComfyUI-VideoHelperSuite](https:\u002F\u002Fgithub.com\u002FKosinkadink\u002FComfyUI-VideoHelperSuite)\n\n---\n\n# 5 功能说明\n---\n* v1 版本的生成模式    \n  a. 单纯音频驱动视频生成模式，infer_mode可选常规的“audio_drived” 和加速版\"audio_drived_acc\" 模型；   \n  b. pose驱动生成模式，常规选项为pose_normal_sapiens\u002Fpose_normal_dwpose（等同） 加速版本为\"pose_acc\"模型；   \n    ----motion_sync：pose驱动时，如果打开且video_file有视频文件时，生成pkl文件，并生成参考视频的视频；pkl文件在input\\tensorrt_lite 目录下，再次使用需要重启comfyUI。      \n    ----motion_sync：如果关闭且pose_dir不为none的时候，读取选定的pose_dir目录名的pkl文件，生成pose视频；如果pose_dir为空的时候，生成基于默认assets\\test_pose_demo_pose的视频     \n  \n* v2 版本的生成模式   \n  a. infer_mode选择audio_drive,pose_dir 选择列表里的几个默认pose，则使用默认的npy pose文件;     \n  b. infer_mode选择audio_drive,pose_dir 选择已有的npy文件夹（位于...ComfyUI\u002Finput\u002Ftensorrt_lite目录下);   \n  c. infer_mode选择pose_normal_dwpose 或pose_normal_sapiens,video_images连接视频入口，确认...ComfyUI\u002Fmodels\u002Fecho_mimic 下有yolov8m.pt 和sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2 模型,根据输入视频生成npy文件（可以下次用）和视频   \n\n* v3 版本生成模式       \n   a. 基于retina-face库生成   \n   b. 如果retina-face调用失败，则以默认的女性face作为mask    \n\n**特别的选项**：  \n  * save_video：如果不想使用VH节点时，可以开启，默认关闭；     \n  * draw_mouse：你可以试试；    \n  * length：帧数，时长等于length\u002Ffps；     \n  * acc模型 ，6步就可以，但是质量略有下降；   \n  * lowvram :低显存用户可以开启 lowvram users can enable it  \n  * 内置内置图片等比例裁切。\n  * facecrop_ratio的放大系数为1\u002Ffacecrop_ratio，如果设置为0.5，面部会得到2倍的放大，建议只在参考图片或者驱动视频中的人脸占比很小的时候，才将facecrop_ratio调整为较小的值.为1 或者0 时不裁切   \n  * cfg数值设置为1，仅在turbo模式有效，其他会报错。V2推荐2.5 V3推荐3.5\n  * use_mmgp 仅V3版本有效   \n  * partial_video_length 仅V3版本有效，数值越低显存占用越低；\n  * teacache 仅V3版本有效；     \n\n  \n---\n\n6 引用\n------\nEchoMimici\n``` python  \n@misc{chen2024echomimic,\n  title={EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning},\n  author={Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma},\n  year={2024},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\n\nEchoMimici-V2\n``` python  \n@misc{meng2024echomimic,\n  title={EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation},\n  author={Rang Meng, Xingyu Zhang, Yuming Li, Chenguang Ma},\n  year={2024},\n  eprint={2411.10061},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n```\nEchoMimici-V3\n```\n@misc{meng2025echomimicv3,\n  title={EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation},\n  author={Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma},\n  year={2025},\n  eprint={2507.03905},\n  archivePrefix={arXiv}\n}\n```\nLightX2V\n```\n@misc{lightx2v,\n author = {LightX2V Contributors},\n title = {LightX2V: Light Video Generation Inference Framework},\n year = {2025},\n publisher = {GitHub},\n journal = {GitHub repository},\n howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FModelTC\u002Flightx2v}},\n}\n```\n\nsapiens\n```\n@article{khirodkar2024sapiens,\n  title={Sapiens: Foundation for Human Vision Models},\n  author={Khirodkar, Rawal and Bagautdinov, Timur and Martinez, Julieta and Zhaoen, Su and James, Austin and Selednik, Peter and Anderson, Stuart and Saito, Shunsuke},\n  journal={arXiv preprint arXiv:2408.12569},\n  year={2024}\n}\n```","# ComfyUI_EchoMimic 快速上手指南\n\nComfyUI_EchoMimic 是一个强大的 ComfyUI 自定义节点，支持 EchoMimic V1\u002FV2\u002FV3 系列模型，可实现音频驱动或姿态驱动的人像\u002F半身动画生成。V3 版本基于 Wan2.1 架构，支持多模态统一任务，并在显存优化上表现出色。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Windows \u002F Linux\n- **Python**: 建议 3.10+ (与 ComfyUI 环境一致)\n- **显卡显存 (VRAM)**:\n  - **V3 Flash 模式**: 最低 6.5GB (768x512), 推荐 12GB (768x768)\n  - **V3 标准模式**: 推荐 8GB 以上 (需开启 `lowvram` 或调整分块长度)\n  - **V1\u002FV2**: 推荐 8GB 以上\n- **依赖库**: FFmpeg (用于视频处理)\n\n### 前置依赖安装\n在 ComfyUI 环境中执行以下命令安装基础依赖。若遇到 `ffmpeg` 报错，请优先重装 ffmpeg-python：\n\n```bash\npip install -r requirements.txt\npip uninstall ffmpeg\npip install ffmpeg-python\n```\n\n**版本特定依赖：**\n- **若使用 V1 版本**:\n  ```bash\n  pip install --no-deps facenet-pytorch\n  ```\n- **若使用 V3 版本** (Flash 模型无需安装 retina-face):\n  ```bash\n  pip install retina-face==0.0.17\n  pip install mmgp  # 可选，用于显存优化\n  pip install tensorflow==2.15.0\n  ```\n\n## 2. 安装步骤\n\n进入 ComfyUI 的 `custom_nodes` 目录，克隆仓库：\n\n```bash\ncd .\u002FComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic.git\n```\n\n重启 ComfyUI 以加载节点。\n\n## 3. 模型下载与配置\n\n根据你要使用的版本，将模型下载到指定目录。国内用户若无法直连 HuggingFace，建议使用镜像站或手动下载后放入对应文件夹。\n\n### 3.1 V3 版本模型 (推荐)\nV3 需要较多模型组件，请严格按照以下结构存放：\n\n| 模型组件 | 来源参考 | 存放路径 (`ComfyUI\u002Fmodels\u002F...`) | 备注 |\n| :--- | :--- | :--- | :--- |\n| **Transformer** | Wan2.1-Fun-V1.1-1.3B-InP | `echo_mimic\u002Ftransformer\u002Fdiffusion_pytorch_model.safetensors` | V3 & Flash 共用 |\n| **VAE** | Wan2.1-Fun-V1.1-1.3B-InP | `vae\u002FWan2.1_VAE.pth` | V3 & Flash 共用 |\n| **Clip Vision** | Comfy-Org\u002FWan_2.1 | `clip_vision\u002Fclipvison-h` | V3 & Flash 共用 |\n| **Text Encoder** | Comfy-Org\u002FWan_2.1 | `clip\u002Fumt5_xxl_fp8_e4m3fn_scaled.safetensors` | V3 & Flash 共用 |\n| **Audio Model** | facebook\u002Fwav2vec2-base-960h | `echo_mimic\u002Fwav2vec2-base-960h\u002F` | 仅 V3 标准版 |\n| **Transformer (V3)** | BadToBest\u002FEchoMimicV3 | `echo_mimic\u002Fdiffusion_pytorch_model.safetensors` | 仅 V3 标准版 |\n| **Transformer (Flash)** | BadToBest\u002FEchoMimicV3 | `echo_mimic\u002Fechomimicv3-flash-pro\u002Fdiffusion_pytorch_model.safetensors` | 仅 V3 Flash 版 |\n| **Audio (Flash)** | TencentGameMate\u002Fchinese-wav2vec2 | `echo_mimic\u002Fchinese-wav2vec2-base\u002F` | 仅 V3 Flash 版 |\n| **Face Detect** | deepface_models | `echo_mimic\u002F.deepface\u002Fweights\u002Fretinaface.h5` | 仅 V3 (通常自动下载) |\n| **LoRA (可选)** | Kijai\u002FLightx2v | `loras\u002Flightx2v_*.safetensors` | 加速推理用 |\n\n> **注意**: V3 Flash 模式推理速度快且显存占用低，推荐优先尝试。使用时需在工作流中开启 `block_offload` 选项。\n\n### 3.2 V1 & V2 共用模型\n- **UNet**: `lambdalabs\u002Fsd-image-variations-diffusers` -> `echo_mimic\u002Funet\u002F`\n- **Audio Processor**: `BadToBest\u002FEchoMimic` (whisper_tiny.pt) -> `echo_mimic\u002Faudio_processor\u002F`\n- **VAE**: `stabilityai\u002Fsd-vae-ft-mse` -> `vae\u002F`\n\n### 3.3 V2 特有模型\n- **主模型**: `BadToBest\u002FEchoMimicV2` -> `echo_mimic\u002Fv2\u002F`\n- **Pose 检测**: \n  - YOLOv8: `Ultralytics\u002FYOLOv8` -> `echo_mimic\u002Fyolov8m.pt`\n  - Sapiens: `facebook\u002Fsapiens-pose-1b-torchscript` -> `echo_mimic\u002Fsapiens_*.pt2`\n\n## 4. 基本使用\n\n启动 ComfyUI，加载对应的示例工作流（位于插件目录的 `example_workflows` 中），或新建工作流添加 `EchoMimic` 相关节点。\n\n### 核心参数说明\n- **infer_mode**:\n  - `audio_drived`: 音频驱动（需提供音频文件）。\n  - `pose_normal_dwpose` \u002F `pose_normal_sapiens`: 姿态驱动（需提供参考视频或图片）。\n  - `pose_acc`: 加速版姿态驱动。\n- **step (步数)**:\n  - 标准模式：建议 20-30 步。\n  - LCM\u002FLightX2V 模式：设为 4 或 10 步（需配合对应 LoRA）。\n  - V3 Flash：8 步即可。\n- **length**: 生成视频的帧数（时长 = length \u002F fps）。\n- **lowvram**: 显存不足时开启（V3 必备选项之一）。\n- **partial_video_length**: (仅 V3) 显存紧张时减小此数值（如 12G 显存设为 65，16G 可试 97）。\n- **facecrop_ratio**: 面部裁剪放大系数。设为 0.5 表示面部放大 2 倍；设为 1 或 0 不裁剪。\n\n### 简易操作流程 (以 V3 Audio Driven 为例)\n1. **加载节点**: 添加 `EchoMimicV3Loader` 和 `EchoMimicV3Sampler` 节点。\n2. **输入素材**:\n   - 连接参考图片 (Reference Image)。\n   - 连接音频文件 (Audio File)。\n3. **参数设置**:\n   - 选择 `flash` 模型类型（若显存有限）。\n   - 设置 `steps = 8`。\n   - 开启 `block_offload` 和 `lowvram` (视显存情况)。\n   - 设置 `cfg = 3.5`。\n4. **运行**: 点击 Queue Prompt 生成视频。\n\n### 简易操作流程 (以 V2 Pose Driven 为例)\n1. **加载节点**: 添加 V2 相关加载器与采样器。\n2. **输入素材**:\n   - 连接参考图片。\n   - 连接驱动视频 (Driver Video) 或直接使用内置默认 Pose。\n3. **参数设置**:\n   - `infer_mode` 选择 `pose_normal_sapiens`。\n   - 确保已下载 YOLOv8 和 Sapiens 模型。\n4. **运行**: 生成基于驱动视频动作的新视频。\n\n> **提示**: 首次运行可能会自动下载部分缺失的小模型，请保持网络连接。若使用 `save_video` 选项，可直接保存输出，否则需连接 `VideoHelperSuite` (VHS) 节点进行保存。","某独立游戏开发者需要为角色制作大量带有中文语音的口型动画，以丰富剧情对话表现。\n\n### 没有 ComfyUI_EchoMimic 时\n- **制作成本高昂**：传统流程需手动逐帧调整口型或聘请专业动画师，单条对话耗时数小时，难以应对海量剧情文本。\n- **音画同步困难**：现有自动工具对中文发音支持不佳，口型与语音节奏经常错位，导致角色说话像“配音对口型”般生硬。\n- **硬件门槛极高**：尝试部署其他开源多模态模型时，常因显存需求过大（远超 12G）导致本地开发机直接崩溃（OOM），无法进行迭代测试。\n- **肢体表现单一**：大多数音频驱动方案仅能生成头部运动，角色身体僵硬，缺乏自然的手势和上半身互动，沉浸感差。\n\n### 使用 ComfyUI_EchoMimic 后\n- **全流程自动化**：利用 EchoMimic V3 的统一多任务能力，仅需输入一张角色图和中文音频，即可一键生成包含精准口型的视频，效率提升数十倍。\n- **原生中文适配**：集成 `chinese-wav2vec2-base` 模型，完美解析中文语音特征，生成的唇形开合与语调起伏高度吻合，表情自然生动。\n- **低显存高效推理**：借助 V3 Flash 模型及 `block_offload` 优化技术，在 12G 显存环境下仅需 8 步即可快速推理 768x768 分辨率视频，让本地开发成为可能。\n- **半身躯干联动**：区别于旧版本，V3 支持半身躯干动画（Semi-Body），角色在说话时会伴随自然的肩部和手势动作，大幅增强演出效果。\n\nComfyUI_EchoMimic 通过低资源消耗下的高精度音画同步与肢体生成，将原本昂贵的角色动画制作变成了个人开发者可轻松驾驭的自动化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsmthemex_ComfyUI_EchoMimic_3af0f14e.png","smthemex",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsmthemex_e98e2a38.png","Guangdong, China","https:\u002F\u002Fgithub.com\u002Fsmthemex",[79,83],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,{"name":84,"color":85,"percentage":86},"Shell","#89e051",0,690,81,"2026-03-28T09:08:13","Apache-2.0",4,"未说明","需要 NVIDIA GPU。V3 版本最低需 8GB 显存（开启 mmgp\u002Flowvram 模式）；推荐 12GB+ 显存以运行 768x768 分辨率或关闭量化获得更高画质。V3 Flash 模型优化后可在 6.5GB 显存运行 768x512 分辨率，12GB 显存运行 768x768 分辨率（需开启 block_offload）。",{"notes":95,"python":92,"dependencies":96},"1. V3 版本若显存不足（OOM），需减少 'partial_video_length' 参数值（12GB 显存建议设为 65，16GB 可尝试 97）。2. V3 Flash 模型推理 768x768 需 12GB 显存且开启 'block_offload'。3. 部分模型（如 retina-face）首次运行需联网下载，国内用户需注意网络环境或手动放置模型文件。4. V1 版本安装时需使用 '--no-deps' 参数安装 facenet-pytorch。5. 支持 LCM 加速（步数设为 4）及 LightX2V LoRA（步数设为 10）。6. 若遇到 ffmpeg 报错，需卸载后重新安装 ffmpeg-python。",[97,98,99,100,101,102,103,104],"facenet-pytorch (V1 专用)","retina-face==0.0.17 (V3 专用)","mmgp (V3 可选，用于低显存优化)","tensorflow==2.15.0 (V3 专用，高版本可能报错)","ffmpeg-python","torch (隐含依赖)","transformers (隐含依赖)","opencv-python (隐含依赖)",[15,106,61,107],"音频","其他","2026-03-27T02:49:30.150509","2026-04-11T16:58:01.793048",[111,116,121,126,131,136,141],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},22397,"遇到 'AudioData' object is not subscriptable 或音频波形（waveform）相关的报错如何解决？","这通常是因为使用的音频加载节点输出格式不兼容。解决方案有两种：\n1. 在工作流中使用 ComfyUI-VideoHelperSuite (VHS) 插件中的 \"Load Audio (Upload)\" 节点来加载音频。\n2. 确保将 ComfyUI-VideoHelperSuite (VHS) 插件更新到最新版本，新版节点已修复此兼容性问题。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F22",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},22398,"如何在仅需要唇形同步（lip animation）时禁用姿态目录（pose_dir）选项？","当使用音频驱动（audio_drived）模式时，姿态（pose）选项实际上是无效的，选择任何值都不会影响结果。如果你在下拉列表中看不到 \"none\" 选项或报错，请确保你使用的是菜单中最新的 \"Echo Sampler\" 节点，而不是旧工作流示例中的过时节点。旧节点在更新后可能已失效。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F135",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},22399,"安装节点后提示 \"echo_loadmodel\" 和 \"echo sampler\" 缺失，Manager 显示 missing 怎么办？","这通常不是 EchoMimic 插件本身的问题，而是由 ComfyUI-VideoHelperSuite (VHS) 插件版本过旧引起的。请尝试在 ComfyUI Manager 中更新 VHS 插件，通常即可解决节点缺失的问题。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F44",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},22400,"服务器无法连接外网（如 HuggingFace），手动下载模型后仍报 \"exceptions must derive from BaseException\" 或缺文件错误怎么办？","除了下载主要的模型文件（如 vae, unet, motion_module 等）外，可能还缺少 `image_encoder` 相关文件。请检查并补全 `image_encoder` 模型。此外，如果是秋叶整合包用户且涉及 ffmpeg 相关报错，请参考该项目其他关于 ffmpeg 配置的 Issue 进行环境变量设置。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F86",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},22401,"输入图片是长方形时，如何设置参数以避免输出图片被裁剪？","目前插件默认预设可能是 512*512。如果输入图片尺寸与采样器设置的宽高不一致（例如输入 500*704，采样器设 384*512），可能会导致裁剪。建议根据实际测试调整 Echo Sampler 中的 width 和 height 参数以匹配输入比例，或者关注开发者后续关于具体裁切参数优化的更新。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F47",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},22402,"运行时报错涉及 torch.load weights_only=False 警告或 LoRACompatibleConv 弃用警告，会影响运行吗？","这些通常是 FutureWarning（未来弃用警告），主要提示未来的版本变更（如 torch.load 默认行为改变或 LoRA 后端切换至 PEFT）。在当前版本中，只要程序没有抛出致命异常（Exception）并停止运行，这些警告通常可以忽略，不影响正常使用。如果使用的是秋叶整合包，直接在控制台安装依赖通常能解决大部分环境兼容问题。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F53",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},22403,"遇到 \"Value not in list: infer_mode\" 错误，提示模式不在列表中怎么办？","这通常是因为工作流中保存的节点参数（如 infer_mode 设置为 'pose_normal'）与当前安装的插件版本支持的列表不匹配。请检查并更新 ComfyUI_EchoMimic 插件到最新版本，然后重新添加节点或刷新工作流，确保选择的模式（如 'audio_drived', 'pose_normal_dwpose' 等）是当前版本支持的选项。","https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic\u002Fissues\u002F132",[147,152,157],{"id":148,"version":149,"summary_zh":150,"released_at":151},136130,"V1.1.1","ACC V2 和 哈喽","2025-01-04T00:45:06",{"id":153,"version":154,"summary_zh":155,"released_at":156},136131,"V1.1.0","非原生姿态驱动与手势对齐测试版","2024-12-11T00:50:09",{"id":158,"version":159,"summary_zh":160,"released_at":161},136132,"V1.0.0","原始版本，包含V1和V2（无定制显卡驱动）","2024-11-28T02:44:48"]