[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-antgroup--echomimic_v3":3,"tool-antgroup--echomimic_v3":64},[4,18,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,"2026-04-05T22:15:46",[31],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":17},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,"2026-04-05T12:23:02",[13,30,15,16,14],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":24,"last_commit_at":54,"category_tags":55,"status":17},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",50701,"2026-04-12T11:29:54",[16,30,13,14,15],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":17},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[31,13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":75,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":10,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":110,"github_topics":111,"view_count":24,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":153},7097,"antgroup\u002Fechomimic_v3","echomimic_v3","[AAAI 2026] EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation","EchoMimicV3 是一款由蚂蚁集团开源的高效人物动画生成模型，旨在通过统一的架构实现多模态、多任务的人体动态驱动。它解决了传统方案中模型庞大、功能单一以及硬件门槛高的问题，仅需 13 亿参数即可同时支持音频驱动、姿态控制等多种输入方式，生成逼真且连贯的全身或半身人物视频。\n\n这款工具特别适合开发者、AI 研究人员以及数字内容创作者使用。对于希望低成本部署高质量动画生成的团队，EchoMimicV3 提供了极佳的性价比；对于设计师而言，它能快速将静态形象转化为生动的动态内容，大幅提升创作效率。\n\n其核心技术亮点在于“小而美”的设计理念。最新的 EchoMimicV3-Flash 版本进一步优化了性能，仅需 12GB 显存即可运行，支持最高 768×768 分辨率的视频生成，并将生成步数压缩至 8 步，显著提升了推理速度。此外，新版本无需面部遮罩处理即可实现自然的面部表情同步，简化了预处理流程。作为 AAAI 2026 的接收论文成果，EchoMimicV3 在保持轻量级的同时，实现了业界领先的生成质量与灵活性，是当前人物动画领域值得关注的开源项目。","[简体中文](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002FREADME_zh.md) | English \n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_2a7f92520480.jpg\"  height=60>\n\u003C\u002Fp>\n\n\u003Ch1 align='center'>EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation\u003C\u002Fh1>\n\n\u003Cdiv align='center'>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fmengrang' target='_blank'>Rang Meng\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Yan Wang\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Weipeng Wu\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Ruobing Zheng\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Flymhust.github.io\u002F' target='_blank'>Yuming Li\u003C\u002Fa>\u003Csup>2\u003C\u002Fsup>&emsp;\n    \u003Ca href='https:\u002F\u002Fopenreview.net\u002Fprofile?id=~Chenguang_Ma3' target='_blank'>Chenguang Ma\u003C\u002Fa>\u003Csup>2\u003C\u002Fsup>\n\u003C\u002Fdiv>\n\u003Cdiv align='center'>\nTerminal Technology Department, Alipay, Ant Group.\n\u003C\u002Fdiv>\n\u003Cp align='center'>\n    \u003Csup>1\u003C\u002Fsup>Core Contributor&emsp;\n    \u003Csup>2\u003C\u002Fsup>Corresponding Authors\n\u003C\u002Fp>\n\u003Cdiv align='center'>\n    \u003C!-- \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fantgroup\u002Fechomimic_v3'>\u003C\u002Fa> -->\n    \u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v3\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.03905'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-red'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Model-yellow'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Model-purple'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002Fasset\u002Fwechat_group.png'>\u003Cimg src='https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fwechat.svg'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F18'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F中文版-常见问题汇总-orange'>\u003C\u002Fa>\n    \u003C!--\u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v2\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Demo-yellow'>\u003C\u002Fa>-->\n    \u003C!--\u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v2\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Demo-purple'>\u003C\u002Fa>-->\n    \u003C!-- \u003Ca href='https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2025\u002Fpapers\u002FMeng_EchoMimicV2_Towards_Striking_Simplified_and_Semi-Body_Human_Animation_CVPR_2025_paper.pdf'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-CVPR2025-blue'>\u003C\u002Fa> -->\n  \n\u003C\u002Fdiv>\n\u003C!-- \u003Cdiv align='center'>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F0'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEnglish-Common Problems-orange'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F1'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F中文版-常见问题汇总-orange'>\u003C\u002Fa>\n\u003C\u002Fdiv> -->\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_3dbc902cd214.png\"  height=700>\n\u003C\u002Fp>\n\n## &#x1F680; EchoMimic Series\n* EchoMimicV1: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning. [GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic)\n* EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation. [GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v2)\n* EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation. [GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3)\n\n## &#x1F4E3; Updates\n* [2026.01.22] 🔥 We update our EchoMimicV3-Flash on [Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro).\n  - 🚀 8-step High-quality Generation.\n  - 🧩 No Face Mask required.\n  - 💾 12G VRAM Requirement.\n  - ✅ Supports up to 768×768 Resolution.\n* [2025.11.09] 🔥 EchoMimicV3 is accepted by AAAI 2026.\n* [2025.08.21] 🔥 EchoMimicV3 gradio demo on [modelscope](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FBadToBest\u002FEchoMimicV3) is ready.\n* [2025.08.12] 🔥🚀 **12G VRAM is All YOU NEED to Generate Video**. Please use this [GradioUI](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002Fapp_mm.py). Check the [tutorial](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1W8tdzEEVN) from @[gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10). Thanks for the contribution.\n* [2025.08.12] 🔥 EchoMimicV3 can run on **16G VRAM** using [ComfyUI](https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic). Thanks @[smthemex](https:\u002F\u002Fgithub.com\u002Fsmthemex) for the contribution.\n* [2025.08.09] 🔥 We release our [models](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3) on ModelScope.\n* [2025.08.08] 🔥 We release our [codes](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3) on GitHub and [models](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3) on Huggingface.\n* [2025.07.08] 🔥 Our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.03905) is in public on arxiv.\n\n## &#x1F305; Gallery\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_6883ba27661b.jpg\"  height=1000>\n\u003C\u002Fp>\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=100% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ff33edb30-66b1-484b-8be0-a5df20a44f3b\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n    \u003Ctd width=100% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F056105d8-47cd-4a78-8ec2-328ceaf95a5a\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### Chinese Driven Audio\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffc1ebae4-b571-43eb-a13a-7d6d05b74082\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F54607cc7-944c-4529-9bef-715862ba330d\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4d1de999-cce2-47ab-89ed-f2fa11c838fe\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F41e701cc-ac3e-4dd8-b94c-859261f17344\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\nFor more demo videos, please refer to the [project page](https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v3\u002F)\n\n## Quick Start\n### Environment Setup\n- Tested System Environment: Centos 7.2\u002FUbuntu 22.04, Cuda >= 12.1\n- Tested GPUs: A100(80G) \u002F RTX4090D (24G) \u002F V100(16G)\n- Tested Python Version: 3.10 \u002F 3.11\n  \n### 🛠️Installation for Windows\n\n##### Please use the [one-click installation package](https:\u002F\u002Fpan.baidu.com\u002Fshare\u002Finit?surl=cV7i2V0wF4exDtKjJrAUeA) (passport: glut) to get started quickly for Quantified version.\n\n### 🛠️Installation for Linux\n#### 1. Create a conda environment\n```\nconda create -n echomimic_v3 python=3.10\nconda activate echomimic_v3\n```\n\n#### 2. Other dependencies\n```\npip install -r requirements.txt\n```\n### 🧱Model Preparation\n\n| Models        |                       Download Link                                           |    Notes                      |\n| --------------|-------------------------------------------------------------------------------|-------------------------------|\n| Wan2.1-Fun-V1.1-1.3B-InP  |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Falibaba-pai\u002FWan2.1-Fun-V1.1-1.3B-InP)       | Base model\n| wav2vec2-base |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-base-960h)          | Audio encoder for preview\n| chinese-wav2vec2-base |      🤗 [Huggingface](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FTencentGameMate\u002Fchinese-wav2vec2-base)          | Audio encoder for Flash\n| EchoMimicV3-preview      |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3)              | preview weights\n| EchoMimicV3-preview      |      🤗 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3)              | preview weights\n| EchoMimicV3-Flash      |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro)              | Flash weights\n\n-- The **weights** of EchoMimicV3-flash-pro is organized as follows.\n\n```\n.\u002Fflash\u002F\n├── Wan2.1-Fun-V1.1-1.3B-InP\n├── chinese-wav2vec2-base\n└── transformer\n    └── diffusion_pytorch_model.safetensors\n```\n\n-- The **weights** is of EchoMimicV3-preview organized as follows.\n\n```\n.\u002Fpreview\u002F\n├── Wan2.1-Fun-V1.1-1.3B-InP\n├── wav2vec2-base-960h\n└── transformer\n    └── diffusion_pytorch_model.safetensors\n``` \n### 🔑 Quick Inference for EchoMimicV3-flash-pro\n```\nbash run_flash.sh\n```\n### 🔑 Quick Inference for EchoMimicV3-preview\n```\npython infer_preview.py\n```\nFor Quantified GradioUI version for EchoMimicV3-preview:\n```\npython app_mm.py\n```\n**images, audios, masks and prompts are provided in `datasets\u002Fechomimicv3_demos`**\n\n#### Tips\n- Audio CFG: Audio CFG `audio_guidance_scale` works optimally between 1.8~2. Increase the audio CFG value for better lip synchronization, while decreasing the audio CFG value can improve the visual quality.\n- Text CFG: Text CFG `guidance_scale` works optimally between 3~6. Increase the text CFG value for better prompt following, while decreasing the text CFG value can improve the visual quality.\n- TeaCache: The optimal range for `teacache_threshold` is between 0~0.1.\n- Sampling steps: 5 steps for talking head, 15~25 steps for talking body. \n- ​Long video generation: If you want to generate a video longer than 138 frames, you can use Long Video CFG.\n- Try setting `partial_video_length` to 81, 65 or smaller to reduce VRAM usage.\n\n## &#x1F4D2; Citation\n\nIf you find our work useful for your research, please consider citing the paper :\n\n```\n@article{meng2024echomimicv2,\n  title={EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation},\n  author={Meng, Rang and Zhang, Xingyu and Li, Yuming and Ma, Chenguang},\n  journal={arXiv preprint arXiv:2411.10061},\n  year={2024}\n}\n@article{meng2025echomimicv3,\n  title={Echomimicv3: 1.3 b parameters are all you need for unified multi-modal and multi-task human animation},\n  author={Meng, Rang and Wang, Yan and Wu, Weipeng and Zheng, Ruobing and Li, Yuming and Ma, Chenguang},\n  journal={arXiv preprint arXiv:2507.03905},\n  year={2025}\n}\n@article{meng2026echotorrent,\n  title={EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation},\n  author={Meng, Rang and Wu, Weipeng and Yin, Yingjie and Li, Yuming and Ma, Chenguang},\n  journal={arXiv preprint arXiv:2602.13669},\n  year={2026}\n}\n```\n## Reference\n- Wan2.1: https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1\u002F\n- VideoX-Fun: https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FVideoX-Fun\u002F\n## 📜 License\nThe models in this repository are licensed under the Apache 2.0 License. We claim no rights over the your generated contents, \ngranting you the freedom to use them while ensuring that your usage complies with the provisions of this license. \nYou are fully accountable for your use of the models, which must not involve sharing any content that violates applicable laws, \ncauses harm to individuals or groups, disseminates personal information intended for harm, spreads misinformation, or targets vulnerable populations. \n\n\n## &#x1F31F; Star History\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_48853fef87bc.png)](https:\u002F\u002Fwww.star-history.com\u002F#antgroup\u002Fechomimic_v3&Date)\n\n\n","[简体中文](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002FREADME_zh.md) | English \n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_2a7f92520480.jpg\"  height=60>\n\u003C\u002Fp>\n\n\u003Ch1 align='center'>EchoMimicV3: 13亿参数足以实现统一的多模态和多任务人体动画\u003C\u002Fh1>\n\n\u003Cdiv align='center'>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fmengrang' target='_blank'>Rang Meng\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Yan Wang\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Weipeng Wu\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002F' target='_blank'>Ruobing Zheng\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Flymhust.github.io\u002F' target='_blank'>Yuming Li\u003C\u002Fa>\u003Csup>2\u003C\u002Fsup>&emsp;\n    \u003Ca href='https:\u002F\u002Fopenreview.net\u002Fprofile?id=~Chenguang_Ma3' target='_blank'>Chenguang Ma\u003C\u002Fa>\u003Csup>2\u003C\u002Fsup>\n\u003C\u002Fdiv>\n\u003Cdiv align='center'>\n蚂蚁集团支付宝终端技术部。\n\u003C\u002Fdiv>\n\u003Cp align='center'>\n    \u003Csup>1\u003C\u002Fsup>核心贡献者&emsp;\n    \u003Csup>2\u003C\u002Fsup>通讯作者\n\u003C\u002Fp>\n\u003Cdiv align='center'>\n    \u003C!-- \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fantgroup\u002Fechomimic_v3'>\u003C\u002Fa> -->\n    \u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v3\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.03905'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-red'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Model-yellow'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Model-purple'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002Fasset\u002Fwechat_group.png'>\u003Cimg src='https:\u002F\u002Fbadges.aleen42.com\u002Fsrc\u002Fwechat.svg'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F18'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F中文版-常见问题汇总-orange'>\u003C\u002Fa>\n    \u003C!--\u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v2\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-Demo-yellow'>\u003C\u002Fa>-->\n    \u003C!--\u003Ca href='https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v2\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModelScope-Demo-purple'>\u003C\u002Fa>-->\n    \u003C!-- \u003Ca href='https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2025\u002Fpapers\u002FMeng_EchoMimicV2_Towards_Striking_Simplified_and_Semi-Body_Human_Animation_CVPR_2025_paper.pdf'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-CVPR2025-blue'>\u003C\u002Fa> -->\n  \n\u003C\u002Fdiv>\n\u003C!-- \u003Cdiv align='center'>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F0'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEnglish-Common Problems-orange'>\u003C\u002Fa>\n    \u003Ca href='https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fdiscussions\u002F1'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F中文版-常见问题汇总-orange'>\u003C\u002Fa>\n\u003C\u002Fdiv> -->\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_3dbc902cd214.png\"  height=700>\n\u003C\u002Fp>\n\n## 🌟 EchoMimic系列\n* EchoMimicV1：通过可编辑的关键点条件控制，实现逼真的音频驱动肖像动画。[GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic)\n* EchoMimicV2：迈向震撼、简化且半身的人体动画。[GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v2)\n* EchoMimicV3：13亿参数足以实现统一的多模态和多任务人体动画。[GitHub](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3)\n\n## 📢 更新\n* [2026.01.22] 🔥 我们在[Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro)上更新了EchoMimicV3-Flash版本。\n  - 🚀 8步高质量生成。\n  - 🧩 无需面部遮罩。\n  - 💾 需要12G显存。\n  - ✅ 最高支持768×768分辨率。\n* [2025.11.09] 🔥 EchoMimicV3已被AAAI 2026接收。\n* [2025.08.21] 🔥 EchoMimicV3的Gradio演示已在[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FBadToBest\u002FEchoMimicV3)上线。\n* [2025.08.12] 🔥🚀 **仅需12G显存即可生成视频**。请使用此[GradioUI](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fblob\u002Fmain\u002Fapp_mm.py)。请查看来自@[gluttony-10](https:\u002F\u002Fgithub.com\u002Fgluttony-10)的[教程](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1W8tdzEEVN)。感谢您的贡献。\n* [2025.08.12] 🔥 EchoMimicV3可在**16G显存**下使用[ComfyUI](https:\u002F\u002Fgithub.com\u002Fsmthemex\u002FComfyUI_EchoMimic)运行。感谢@[smthemex](https:\u002F\u002Fgithub.com\u002Fsmthemex)的贡献。\n* [2025.08.09] 🔥 我们在ModelScope上发布了我们的[模型](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3)。\n* [2025.08.08] 🔥 我们在GitHub上发布了代码[echomimic_v3](https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3)，并在Huggingface上发布了模型[BadToBest\u002FEchoMimicV3]。\n* [2025.07.08] 🔥 我们的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.03905)已在arXiv上公开。\n\n## 🎨 画廊\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_6883ba27661b.jpg\"  height=1000>\n\u003C\u002Fp>\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=100% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ff33edb30-66b1-484b-8be0-a5df20a44f3b\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n    \u003Ctd width=100% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F056105d8-47cd-4a78-8ec2-328ceaf95a5a\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### 中文驱动音频\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffc1ebae4-b571-43eb-a13a-7d6d05b74082\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F54607cc7-944c-4529-9bef-715862ba330d\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4d1de999-cce2-47ab-89ed-f2fa11c838fe\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=25% style=\"border: none\">\n        \u003Cvideo controls loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F41e701cc-ac3e-4dd8-b94c-859261f17344\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n更多演示视频，请参阅[项目页面](https:\u002F\u002Fantgroup.github.io\u002Fai\u002Fechomimic_v3\u002F)\n\n## 快速入门\n### 环境搭建\n- 测试系统环境：CentOS 7.2\u002FUbuntu 22.04，CUDA ≥ 12.1\n- 测试GPU：A100(80G) \u002F RTX4090D (24G) \u002F V100(16G)\n- 测试Python版本：3.10 \u002F 3.11\n\n### 🛠️Windows安装\n\n##### 请使用[一键安装包](https:\u002F\u002Fpan.baidu.com\u002Fshare\u002Finit?surl=cV7i2V0wF4exDtKjJrAUeA)（提取码：glut）快速开始量化版本。\n\n### 🛠️Linux安装\n#### 1. 创建conda环境\n```\nconda create -n echomimic_v3 python=3.10\nconda activate echomimic_v3\n```\n\n#### 2. 其他依赖\n```\npip install -r requirements.txt\n```\n\n### 🧱模型准备\n\n| 模型        |                       下载链接                                           |    备注                      |\n| --------------|-------------------------------------------------------------------------------|-------------------------------|\n| Wan2.1-Fun-V1.1-1.3B-InP  |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Falibaba-pai\u002FWan2.1-Fun-V1.1-1.3B-InP)       | 基础模型\n| wav2vec2-base |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-base-960h)          | 预览用音频编码器\n| chinese-wav2vec2-base |      🤗 [Huggingface](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FTencentGameMate\u002Fchinese-wav2vec2-base)          | 闪电版音频编码器\n| EchoMimicV3-preview      |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3)              | 预览权重\n| EchoMimicV3-preview      |      🤗 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3)              | 预览权重\n| EchoMimicV3-Flash      |      🤗 [Huggingface](https:\u002F\u002Fhuggingface.co\u002FBadToBest\u002FEchoMimicV3\u002Ftree\u002Fmain\u002Fechomimicv3-flash-pro)              | 闪电版权重\n\n-- EchoMimicV3-flash-pro的**权重**组织如下。\n\n```\n.\u002Fflash\u002F\n├── Wan2.1-Fun-V1.1-1.3B-InP\n├── chinese-wav2vec2-base\n└── transformer\n    └── diffusion_pytorch_model.safetensors\n```\n\n-- EchoMimicV3-preview的**权重**组织如下。\n\n```\n.\u002Fpreview\u002F\n├── Wan2.1-Fun-V1.1-1.3B-InP\n├── wav2vec2-base-960h\n└── transformer\n    └── diffusion_pytorch_model.safetensors\n``` \n### 🔑 EchoMimicV3-flash-pro快速推理\n```\nbash run_flash.sh\n```\n### 🔑 EchoMimicV3-preview快速推理\n```\npython infer_preview.py\n```\n对于量化后的EchoMimicV3-preview GradioUI版本：\n```\npython app_mm.py\n```\n**图片、音频、掩码和提示词均在`datasets\u002Fechomimicv3_demos`中提供**\n\n#### 小贴士\n- 音频CFG：音频CFG `audio_guidance_scale` 在1.8~2之间效果最佳。提高音频CFG值可以改善唇形同步，而降低音频CFG值则能提升视觉质量。\n- 文本CFG：文本CFG `guidance_scale` 在3~6之间效果最佳。提高文本CFG值有助于更好地遵循提示词，而降低文本CFG值则能提升视觉质量。\n- 茶缓存：`teacache_threshold` 的最佳范围是0~0.1。\n- 采样步数：说话头部使用5步，说话全身使用15~25步。\n- ​长视频生成：若要生成超过138帧的视频，可使用长视频CFG。\n- 可尝试将`partial_video_length`设置为81、65或更小，以减少显存占用。\n\n## &#x1F4D2; 引用\n\n若您认为我们的工作对您的研究有帮助，请考虑引用以下论文：\n\n```\n@article{meng2024echomimicv2,\n  title={EchoMimicV2: 向着引人注目、简化且半身的人体动画迈进},\n  author={孟朗、张星宇、李宇明、马晨光},\n  journal={arXiv预印本 arXiv:2411.10061},\n  year={2024}\n}\n@article{meng2025echomimicv3,\n  title={Echomimicv3: 1.3B参数足以实现统一的多模态与多任务人体动画},\n  author={孟朗、王燕、吴伟鹏、郑若冰、李宇明、马晨光},\n  journal={arXiv预印本 arXiv:2507.03905},\n  year={2025}\n}\n@article{meng2026echotorrent,\n  title={EchoTorrent: 向着快速、持续且流式的多模态视频生成迈进},\n  author={孟朗、吴伟鹏、尹英杰、李宇明、马晨光},\n  journal={arXiv预印本 arXiv:2602.13669},\n  year={2026}\n}\n```\n## 参考文献\n- Wan2.1: https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1\u002F\n- VideoX-Fun: https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FVideoX-Fun\u002F\n## 📜 许可证\n本仓库中的模型采用Apache 2.0许可证授权。我们不主张对您生成的内容拥有任何权利，赋予您自由使用这些内容的权利，同时确保您的使用符合本许可证的规定。您需对模型的使用承担全部责任，不得分享任何违反适用法律、伤害个人或群体、传播旨在造成伤害的个人信息、散布虚假信息或针对弱势群体的内容。\n\n\n## &#x1F31F; 星标历史\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_readme_48853fef87bc.png)](https:\u002F\u002Fwww.star-history.com\u002F#antgroup\u002Fechomimic_v3&Date)","# EchoMimicV3 快速上手指南\n\nEchoMimicV3 是一个仅需 1.3B 参数即可实现统一多模态、多任务人物动画生成的开源模型。本指南将帮助开发者快速在本地部署并运行该模型。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: CentOS 7.2 \u002F Ubuntu 22.04 (Windows 用户建议使用一键安装包)\n- **CUDA 版本**: >= 12.1\n- **Python 版本**: 3.10 或 3.11\n- **显存要求**: \n  - 基础运行：16G VRAM (如 V100, RTX4090D)\n  - Flash 优化版\u002F量化版：最低 12G VRAM\n- **推荐显卡**: A100 (80G), RTX4090D (24G), V100 (16G)\n\n### 前置依赖\n确保已安装 `conda` 和 `git`。\n\n## 2. 安装步骤\n\n### Linux 环境安装\n\n#### 第一步：创建 Conda 环境\n```bash\nconda create -n echomimic_v3 python=3.10\nconda activate echomimic_v3\n```\n\n#### 第二步：安装项目依赖\n```bash\npip install -r requirements.txt\n```\n> **提示**: 国内用户若下载缓慢，可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 使用清华镜像源。\n\n#### 第三步：准备模型权重\n请从 **ModelScope (魔搭)** 或 HuggingFace 下载所需模型。推荐国内用户使用 ModelScope 加速下载。\n\n**所需模型列表：**\n\n| 模型名称 | 用途 | 下载链接 (ModelScope) |\n| :--- | :--- | :--- |\n| `Wan2.1-Fun-V1.1-1.3B-InP` | 基座模型 | [点击下载](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Falibaba-pai\u002FWan2.1-Fun-V1.1-1.3B-InP) |\n| `chinese-wav2vec2-base` | 音频编码器 (Flash 版专用) | [点击下载](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FTencentGameMate\u002Fchinese-wav2vec2-base) |\n| `wav2vec2-base-960h` | 音频编码器 (Preview 版专用) | [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-base-960h) |\n| `EchoMimicV3-preview` | Preview 版本权重 | [点击下载](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3) |\n| `EchoMimicV3-Flash` | Flash 优化版权重 | [点击下载](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FBadToBest\u002FEchoMimicV3) |\n\n**目录结构整理：**\n下载完成后，请按以下结构组织文件（以 Flash 版为例）：\n```text\n.\u002Fflash\u002F\n├── Wan2.1-Fun-V1.1-1.3B-InP\n├── chinese-wav2vec2-base\n└── transformer\n    └── diffusion_pytorch_model.safetensors\n```\n*(Preview 版同理，将音频模型替换为 `wav2vec2-base-960h`)*\n\n### Windows 环境安装 (推荐)\nWindows 用户可直接使用**一键安装包**快速体验量化版本：\n- **下载地址**: [百度网盘链接](https:\u002F\u002Fpan.baidu.com\u002Fshare\u002Finit?surl=cV7i2V0wF4exDtKjJrAUeA) (提取码: `glut`)\n\n## 3. 基本使用\n\n确保已将测试用的图片、音频、掩码和提示词放置在 `datasets\u002Fechomimicv3_demos` 目录下。\n\n### 方案 A：运行 Flash 优化版 (推荐，速度快，显存要求低)\n执行以下脚本进行快速推理：\n```bash\nbash run_flash.sh\n```\n\n### 方案 B：运行 Preview 预览版\n使用 Python 脚本进行推理：\n```bash\npython infer_preview.py\n```\n\n### 方案 C：启动 Gradio Web UI (交互式界面)\n如果你希望使用图形界面进行操作（支持量化运行，降低显存占用）：\n```bash\npython app_mm.py\n```\n启动后在浏览器访问显示的本地地址即可上传素材生成视频。\n\n## 4. 关键参数调优建议\n\n在运行脚本或 UI 时，可根据需求调整以下参数以获得最佳效果：\n\n- **音频引导系数 (`audio_guidance_scale`)**: 推荐范围 **1.8 ~ 2.0**。\n  - 调高：口型同步更准确。\n  - 调低：画面视觉质量更好。\n- **文本引导系数 (`guidance_scale`)**: 推荐范围 **3 ~ 6**。\n  - 调高：更严格遵循提示词。\n  - 调低：画面更自然。\n- **采样步数 (`steps`)**:\n  - 说话头像：5 步即可。\n  - 半身\u002F全身动作：推荐 15 ~ 25 步。\n- **显存优化**: 如遇显存不足，可将 `partial_video_length` 设置为 81、65 或更小。","某短视频 MCN 机构急需为旗下多位知识类博主快速批量生产“口播 + 手势”的真人驱动视频，以应对每日高频的内容更新需求。\n\n### 没有 echomimic_v3 时\n- **多任务流程割裂**：制作半身视频需分别调用不同模型处理面部表情和肢体动作，工作流繁琐且容易出错。\n- **硬件门槛极高**：传统高精度动画方案往往需要 24G 甚至更高显存的顶级显卡，导致中小团队无法本地部署。\n- **画面瑕疵明显**：生成视频中人物手部与身体连接处常出现断裂或模糊，必须依赖后期手动添加遮罩（Face Mask）进行修补。\n- **渲染耗时过长**：为了获得清晰画质，通常需要数百步的采样迭代，单条视频生成等待时间长达数分钟。\n\n### 使用 echomimic_v3 后\n- **统一多模态驱动**：凭借 1.3B 参数量的统一架构，仅需一次推理即可同时实现精准的面部表情同步与自然流畅的半身手势动画。\n- **低显存轻松部署**：优化后的架构将显存需求降至 12G，使得主流消费级显卡也能流畅运行，大幅降低了算力成本。\n- **原生高质量输出**：内置的先进生成机制无需额外添加面部遮罩，直接消除了颈部和手部的拼接瑕疵，画面干净完整。\n- **极速高清生成**：支持 8 步快速采样即可输出 768×768 分辨率的高清视频，将单条内容的生产时间从分钟级压缩至秒级。\n\nechomimic_v3 通过极低资源消耗实现了多任务统一的高质量人体动画生成，让个人开发者和小团队也能拥有电影级的数字人视频生产能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fantgroup_echomimic_v3_2a7f9252.jpg","antgroup","Ant Group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fantgroup_0417229b.jpg","Make it easy to do business anywhere.",null,"https:\u002F\u002Fwww.antgroup.com","https:\u002F\u002Fgithub.com\u002Fantgroup",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",99.8,{"name":88,"color":89,"percentage":90},"Shell","#89e051",0.2,863,98,"2026-04-13T04:50:14","Apache-2.0","Linux, Windows","必需 NVIDIA GPU。测试型号：A100 (80G), RTX4090D (24G), V100 (16G)。最低显存需求：12GB (Flash 版本\u002F量化 GradioUI)，16GB (ComfyUI 预览版)。CUDA 版本要求：>= 12.1。","未说明",{"notes":99,"python":100,"dependencies":101},"1. Windows 用户建议使用提供的一键安装包运行量化版本。2. Flash 版本支持 768x768 分辨率且无需面部遮罩，仅需 12GB 显存。3. 生成视频时长超过 138 帧需启用 Long Video CFG。4. 可通过设置 partial_video_length 为 81 或 65 来进一步降低显存占用。5. 模型权重需从 HuggingFace 或 ModelScope 单独下载并放入指定目录。","3.10, 3.11",[102,103,104,105,106,107,108,109],"torch","transformers","diffusers","accelerate","xformers","opencv-python","librosa","gradio",[31,16],[112,113,114,115],"audio-driven-body-animation","audio-driven-portrait-animations","human-animation","video-generation","2026-03-27T02:49:30.150509","2026-04-13T18:54:30.442644",[119,124,129,134,139,144,148],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},31897,"运行 EchoMimicV3 需要多大的显存？消费级显卡（如 4090\u002F3090）能跑吗？","原始模型对显存要求较高，未量化版本在 24GB 显存（如 RTX 4090\u002F3090）上容易遇到 OOM（显存溢出）错误。官方已发布量化版本（app_mm.py），最低仅需 12GB 显存即可运行，但生成速度会有所下降（例如 5 秒视频耗时约 7 分钟）。建议使用量化版本以适配消费级显卡。","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F11",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},31898,"遇到 'AttributeError: list object has no attribute shape' 报错如何解决？","该错误通常出现在 `pipeline_wan_fun_inpaint_audio.py` 文件中。解决方法是修改调用代码：注释掉 `prompt_embeds` 和 `negative_prompt_embeds` 参数，改为直接传入 `prompt` 和 `negative_prompt` 字符串。修改示例：\n```python\nsample = pipeline(\n    prompt=prompt,\n    negative_prompt=negative_prompt,\n    # prompt_embeds=prompt_embeds,  # 注释此行\n    # negative_prompt_embeds=negative_prompt_embeds,  # 注释此行\n)","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F34",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},31899,"使用 24GB 显存显卡运行时提示显存不足（OOM），即使输入很小怎么办？","如果遇到显存不足，可以尝试降低参考图像（reference image）的分辨率（downsample the image resolution）。此外，确保使用的是优化后的量化版本脚本 `app_mm.py` 而非完整版 `app.py`。如果问题依旧，检查是否有多卡环境却只加载到单卡的情况，或尝试减少推理步数。","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F47",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},31900,"推理生成视频的时间太长（如 1 分钟音频需数小时），是否正常？如何优化？","完整版模型推理速度较慢是正常的，尤其在高分辨率下。对于 1.3B 模型，生成 5 秒视频在量化版本上约需 7 分钟。若使用 `app.py` 耗时过长（如 8 小时），建议切换至量化版本 `app_mm.py`。虽然速度仍受硬件限制，但相比完整版已有显著加速。目前暂无进一步大幅提速的官方方案，主要依赖硬件性能。","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F44",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},31901,"运行 app.py 或 infer.py 时出现 Gradio 版本冲突或缺失图片文件错误怎么办？","确保安装正确的 Gradio 版本（推荐 gradio==5.42.0），因为 requirements 中可能存在版本冲突。对于缺失图片文件的错误，请检查数据集路径配置是否正确，或确认是否遗漏了必要的演示素材文件。若启动脚本报错，可尝试修改 `app.py` 中的 launch 调用方式：\n```python\nif __name__ == \"__main__\": \n    demo.launch(\n        server_name=args.server_name, \n        server_port=args.server_port\n    )\n```","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F14",{"id":145,"question_zh":146,"answer_zh":147,"source_url":138},31902,"多卡环境下显存为何仍加载到单卡上，且占用异常高（如 80GB）？","默认情况下模型可能仅加载到单张 GPU 上。若发现显存占用异常高（如显示 80GB），可能是监控误差或未正确启用多卡并行。目前官方未明确提供多卡自动并行方案，建议优先使用量化版本 `app_mm.py` 以降低单卡显存压力。若必须使用多卡，需手动修改代码实现模型并行或数据并行，但这需要较高的开发成本。",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},31903,"生成效果差（口型模糊、画质低）是否与推理步数或提示词有关？","生成质量受推理步数（num_inference_steps）影响较大。测试表明，即使将步数设为 5，生成唇形效果仍可能不佳。增加步数可提升质量但会显著增加耗时。此外，有无文本提示词（prompt）对结果影响不明显。建议在显存允许范围内适当增加推理步数，并确保输入音频和图像质量良好。","https:\u002F\u002Fgithub.com\u002Fantgroup\u002Fechomimic_v3\u002Fissues\u002F16",[]]