[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zai-org--SCAIL":3,"tool-zai-org--SCAIL":65},[4,18,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,"2026-04-05T12:23:02",[13,30,15,16,14],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":24,"last_commit_at":46,"category_tags":47,"status":17},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",50203,"2026-04-10T11:33:47",[16,30,13,14,15],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":17},5295,"tabby","TabbyML\u002Ftabby","Tabby 是一款可私有化部署的开源 AI 编程助手，旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题，让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。\n\n这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构，以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构，无需配置复杂的数据库或依赖云服务即可快速启动。同时，它对硬件十分友好，支持在普通的消费级 GPU 上流畅运行，大幅降低了部署门槛。此外，Tabby 提供了标准的 OpenAPI 接口，能轻松集成到现有的云 IDE 或内部开发流程中，并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答，Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。",33308,"2026-04-07T20:23:18",[13,30,15,14,16],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":17},2483,"onlook","onlook-dev\u002Fonlook","Onlook 是一款专为设计师打造的开源 AI 优先设计工具，被誉为“设计师版的 Cursor”。它旨在打破设计与开发之间的壁垒，让用户能够以可视化的方式直接构建、样式化和编辑 React 应用。通过 Onlook，用户无需深入编写复杂代码，即可在类似 Figma 的直观界面中完成网页原型的搭建与调整，并实时预览最终效果。\n\n这款工具主要解决了传统工作流中设计稿到代码转换效率低、沟通成本高的问题。以往，设计师使用 Figma 等工具完成设计后，需要开发人员手动将其转化为代码，过程繁琐且容易出错。Onlook 允许用户直接在浏览器 DOM 中进行可视化编辑，底层自动生成基于 Next.js 和 TailwindCSS 的高质量代码，实现了“所见即所得”的开发体验。它不仅支持从文本或图像快速生成应用，还具备分支管理、资源管理及一键部署等功能，极大地简化了从创意到成品的流程。\n\nOnlook 特别适合前端开发者、UI\u002FUX 设计师以及希望快速验证产品创意的独立开发者使用。对于设计师而言，它降低了参与前端开发的门槛；对于开发者来说，它提供了一个高效的视觉化调试和原型构建环境。其核心技术亮点在于",25006,4,"2026-04-03T01:50:49",[15,14,16,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":62,"env_os":109,"env_gpu":110,"env_ram":109,"env_deps":111,"category_tags":120,"github_topics":121,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":125,"updated_at":126,"faqs":127,"releases":163},6246,"zai-org\u002FSCAIL","SCAIL","SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations (CVPR 2026 Findings)","SCAIL 是一款致力于实现“影棚级”角色动画生成的开源 AI 框架。它擅长在复杂条件下生成高保真动画，无论是大幅度的动作变化、风格化角色，还是多角色互动场景，都能轻松驾驭。\n\n传统动画生成模型常面临两大痛点：难以泛化到不同角色，以及在复杂场景（如多人交互、翻滚转身）中动作不连贯。SCAIL 通过创新的“上下文学习”机制和\"3D 一致性姿态表示”，巧妙解决了姿态信息注入时容易泄露角色身份或丢失运动细节的难题。它迫使模型对整个运动序列进行时空推理，从而生成更加自然流畅的动作。值得一提的是，SCAIL 展现出惊人的泛化能力，即使未经过动物数据训练，也能驱动四足生物，甚至能理解二维手绘角色的三维空间关系。\n\n目前，SCAIL 已原生支持 ComfyUI，并提供了便捷的推理框架。这款工具非常适合动画师、游戏开发者及 AI 研究人员使用，能帮助专业人士快速原型化高质量动画，同时也为技术爱好者探索角色控制的边界提供了强大支持。"," \u003Ch1>SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations\u003C\u002Fh1>\n\n\n \u003Cdiv align=\"center\">\n  \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.05905'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖 arXiv-2512.05905-red'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview\u002Ftree\u002Fmain'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗 HuggingFace-yellow'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖 ModelScope-blue'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fteal024.github.io\u002FSCAIL\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐 Project Page-green'>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n\nThis repository contains the official implementation code for **SCAIL (Studio-Grade Character Animation via In-Context Learning)**, a framework that enables high-fidelity character animation under diverse and challenging conditions, including large motion variations, stylized characters, and multi-character interactions.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_349a024849f1.png' alt='Teaser' width='90%'>\n\u003C\u002Fp>\n\n## 🔎 Motivation and Results\nSCAIL identifies the key bottlenecks that hinder character animation towards production level: limited generalization towards characters and incoherent motion under complex scenarios (e.g., the long-standing challenge of multi-character interactions, as well as common failures in basic motions like flipping and turning). We revisit the core components of character animation -- how to represent the pose condition and how to inject the pose condition. Our framework resolves the challenge that pose representations cannot simultaneously prevent identity leakage and preserve rich motion information, and compels the model to perform spatiotemporal reasoning over the entire motion sequence for more natural and coherent movements. Check our methods, results gallery, as well as comparisons against other baselines at our [project page](https:\u002F\u002Fteal024.github.io\u002FSCAIL\u002F).\n\u003Cp align=\"center\">\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_dadec3c6aba3.gif' width='66%'>\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_dd0f8ec9d7f4.gif' width='66%'>\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_cd54cd799220.gif' width='66%'>\n\u003C\u002Fp>\n\n## 🌱 Community Works\n❤️ A heartfelt thanks to friends in the community for their creativity! All results below are shared with their gracious consent. We were surprised to see the emergent abilities our model exhibited — understanding the 3D spatial relationships of 2D characters, driving hand-drawn artwork, and even controlling quadrupeds despite having no animal training data at all. \n\n\u003Ctable align=\"center\" border=\"0\" cellspacing=\"0\" cellpadding=\"6\">\n  \u003C!-- 第一行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_ca4092fb0cd7.gif\" width=\"220\">\u003Cbr>\n      \u003Cem>Chibi Gotham Battle\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_2f0f6c675633.gif\" width=\"250\">\u003Cbr>\n      \u003Cem>Homer Bullet Time (w\u002F Uni3c)\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\" rowspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_360af86039cd.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Anime Art Animation\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003C!-- 第二行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\" colspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_9aa3d4af445f.gif\" width=\"400\">\u003Cbr>\n      \u003Cem>Street Fighter 6 Motion Mimic\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003C!-- 第三行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_b89df568e397.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Doodle Art Animation\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_56826b7d5a39.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Dual Dance\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\" colspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_d9275ee838e1.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Group Dance\u003C\u002Fem>\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_0173cda5dad6.gif\" width=\"200\">\u003Cbr>\n      \u003Cem>Quadrupeds Animation (w\u002F ViTPose)\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## 🗞️ Updates and Plans\n* 2026.3.1: 🔥 SCAIL is now native in [ComfyUI](https:\u002F\u002Fgithub.com\u002FComfy-Org\u002FComfyUI\u002Fpull\u002F12614).\n* 2025.12.19: 📣 We offer the Wan Official Framework of SCAIL instead of [SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer) for more convenient inference. Check the [wan branch](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Ftree\u002Fwan) of SCAIL. We will update the training code of SCAIL on SAT for reproducibility.\n* 2025.12.11: 💥 The preview version of SCAIL is now opensourced on [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview).\n* 2025.12.08: 🔥 We release the inference code of SCAIL on [SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer).\n\n### TODOs\n- [x] **SCAIL-14B-Preview Model Weights**(512p, 5s) and Inference Config\n- [x] Prompt Optimization Snippets\n- [x] **Implementation on Wan Official Framework**\n- [ ] **SCAIL-Official(1.3B\u002F14B) Model Weights**(Improved Stability and Clarity, Innate Long Video Generation Capability) and Inference Config\n\n## 📰 News\n* 2026.3.1: Thanks to [toyxyz](https:\u002F\u002Fgithub.com\u002Ftoyxyz), a Blender 3D rig can be used with scail-pose now, allowing for much more dynamic and diverse shapes and poses, see [#30](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F30).\n* 2025.12.19: [ComfyUI-SCAIL-Pose](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-SCAIL-Pose) now supports saving NLF mesh as 3D glb animation and 3D previewing of the SCAIL-Pose skeleton.\n* 2025.12.19: Thanks to [deepbeepmeep](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep) for Low VRAM SCAIL Preview Support in [WanGP](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep\u002FWan2GP)! WanGP version has the following perks: 3D pose Preprocessing fully integrated, speed optimized, and compatible with any pytorch version.\n* 2025.12.17: Thanks to [VantageWithAI](https:\u002F\u002Fhf-mirror.com\u002Fvantagewithai), GGUF version is now available at [SCAIL-Preview-GGUF](https:\u002F\u002Fhf-mirror.com\u002Fvantagewithai\u002FSCAIL-Preview-GGUF\u002Ftree\u002Fmain)!\n* 2025.12.16: ❤️ Huge thanks to KJ for the work done on adaptation — SCAIL is now available in [ComfyUI-WanVideoWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper)!!! Meanwhile, the pose extraction & rendering has also been partly adapted to ComfyUI in [ComfyUI-SCAIL-Pose](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-SCAIL-Pose), currently without multi-character tracking.\n* 2025.12.14: 🥳 Thanks to friends in the community for testing the work! Despite the fact that only 1.5% of SCAIL’s training samples are anime data, and that we did not intentionally collect any multi-character anime data, the model can generalize towards many complex anime characters. The release of SCAIL-Preview is intended to demonstrate the soundness of our proposed pose representation and model architecture, with clear potential for further scaling and enhancement.\n\n\n## 🚀 Getting Started\n### Checkpoints Download\n\n| ckpts       | Download Link                                                                                                                                           |    Notes                      |\n|--------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------|\n| SCAIL-Preview(14B) | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview)\u003Cbr> [🤖 ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview)     | Trained with resolutions under 512p.\u003Cbr> H and W should be both divisible by 32\u003Cbr> (e.g. 704*1280) if using other resolutions. |\n\nUse the following commands to download the model weights\n(We have integrated both Wan VAE and T5 modules into this checkpoint for convenience).\n\n```bash\n# Download the repository (skip automatic LFS file downloads)\nGIT_LFS_SKIP_SMUDGE=1 git clone https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview\n```\nThe files should be organized like:\n```\nSCAIL-Preview\u002F\n├── Wan2.1_VAE.pth\n├── model\n│   ├── 1\n│   │   └── mp_rank_00_model_states.pt\n│   └── latest\n└── umt5-xxl\n    ├── ...\n```\n\n\n### Environment Setup\nPlease make sure your Python version is between 3.10 and 3.12, inclusive of both 3.10 and 3.12.\n```\npip install -r requirements.txt\n```\n\n## 🦾 Usage\n### Input preparation\nThe input data should be organized as follows, we have provided some example data in `examples\u002F`:\n```\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   ├── ref.jpg\n└── 002\n    ├── driving.mp4\n    └── ref.jpg\n...\n```\n### Pose Extraction & Rendering\nUse git submodule to download the `scail_pose` module and then follow the [POSE_INSTRUCTION.md](POSE_INSTRUCTION.md) to extract and render the pose from the driving video. \n\n```shell\ngit submodule update --init --recursive\n```\nAfter that, the project structure should be like this:\n```\nSCAIL\u002F\n├── examples\n├── sat\n├── configs\n├── ...\n├── scail_pose\n```\nChange dir into the subdir and follow instructions:\n```shell\ncd scail_pose\n# follow instructions in POSE_INSTRUCTION.md\n```\nAfter pose extraction and rendering, the input data should be organized as follows:\n```\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   ├── ref.jpg\n│   └── rendered.mp4 (or rendered_aligned.mp4)\n└── 002\n...\n```\n\n### Model Inference\nFor inference in Wan Official Framework, please refer to the [wan branch](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Ftree\u002Fwan) of SCAIL.\n\nFor inference in SAT, run the following command to start the inference with CLI input:\n```\nbash scripts\u002Fsample_sgl_14Bsc_xc_cli.sh\n```\n\nThe CLI will ask you to input in format like `\u003Cprompt>@@\u003Cexample_dir>`, e.g. `the girl is dancing@@examples\u002F001`. The `example_dir` should contain rendered.mp4 or rendered_aligned.mp4 after pose extraction and rendering. Results will be save to `samples\u002F`.\n\nWe support direct txt input too, change `input_file` in [sample_sgl_14Bsc_xc_txt.yaml](configs\u002Fsampling\u002Fsample_sgl_14Bsc_xc_txt.yaml) to path of your input file, and fill in the input file with format like `\u003Cprompt>@@\u003Cexample_dir>`, then run the following command:\n```\nbash scripts\u002Fsample_sgl_14Bsc_xc_txt.sh\n```\n\nNote that our model is trained with **long detailed prompts**, even though a short or even null prompt can be used, the result may not be as good as the long prompt. We will provide our prompt generation snippets, using Google [Gemini](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002F) to read from the reference image and the driving motion and generate a detailed prompt like `A woman with curly hair is joyfully dancing along a rocky shoreline, wearing a sleek blue two-piece outfit. She performs various dance moves, including twirling, raising her hands, and embracing the lively seaside atmosphere, her tattoos and confident demeanor adding to her dynamic presence.` \n\nYou can further choose sampling configurations like resolution in the yaml file under `configs\u002Fsampling\u002F` or directly modify `sample_video.py` for customized sampling logic.\n\n## ✨ Acknowledgements\nOur implementation is built upon the foundation of [Wan 2.1](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) and the overall project architecture is built using [SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer). We utilized [NLFPose](https:\u002F\u002Fgithub.com\u002Fisarandi\u002Fnlf) for reliable pose extraction. Thanks for their remarkable contribution and released code.\n\n## 📄 Citation\n\nIf you find this work useful in your research, please cite:\n\n```bibtex\n@article{yan2025scail,\n  title={SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations},\n  author={Yan, Wenhao and Ye, Sheng and Yang, Zhuoyi and Teng, Jiayan and Dong, ZhenHui and Wen, Kairui and Gu, Xiaotao and Liu, Yong-Jin and Tang, Jie},\n  journal={arXiv preprint arXiv:2512.05905},\n  year={2025}\n}\n```\n\n## 🗝️ License\nThis project is licensed under the Apache License 2.0 - see the [LICENSE](LICENSE) file for details.\n","\u003Ch1>SCAIL：通过3D一致性姿态表示的上下文学习实现工作室级角色动画\u003C\u002Fh1>\n\n\n \u003Cdiv align=\"center\">\n  \u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.05905'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖 arXiv-2512.05905-red'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview\u002Ftree\u002Fmain'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗 HuggingFace-yellow'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖 ModelScope-blue'>\u003C\u002Fa>\n  \u003Ca href='https:\u002F\u002Fteal024.github.io\u002FSCAIL\u002F'>\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐 Project Page-green'>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n\n本仓库包含**SCAIL（通过上下文学习实现工作室级角色动画）**的官方实现代码，该框架能够在多样且具有挑战性的条件下生成高保真度的角色动画，包括大幅度的动作变化、风格化角色以及多角色交互等场景。\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_349a024849f1.png' alt='Teaser' width='90%'>\n\u003C\u002Fp>\n\n## 🔎 动机与成果\nSCAIL指出了阻碍角色动画达到制作级别的一些关键瓶颈：对不同角色的泛化能力有限，以及在复杂场景下动作不连贯的问题（例如，长期存在的多角色交互难题，还有诸如翻滚、转身等基础动作中的常见失败）。我们重新审视了角色动画的核心组件——如何表示姿态条件以及如何注入姿态条件。我们的框架解决了姿态表示无法同时避免身份泄露并保留丰富运动信息的难题，并促使模型对整个运动序列进行时空推理，从而生成更加自然和连贯的动作。请访问我们的[项目页面](https:\u002F\u002Fteal024.github.io\u002FSCAIL\u002F)，查看我们的方法、结果图库以及与其他基线方法的对比。\n\u003Cp align=\"center\">\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_dadec3c6aba3.gif' width='66%'>\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_dd0f8ec9d7f4.gif' width='66%'>\n  \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_cd54cd799220.gif' width='66%'>\n\u003C\u002Fp>\n\n## 🌱 社区作品\n❤️ 衷心感谢社区朋友们的创意！以下所有成果均在他们慷慨同意下分享。我们惊喜地发现，我们的模型展现出了一些意想不到的能力——能够理解2D角色的3D空间关系、驱动手绘作品，甚至在完全没有动物训练数据的情况下控制四足动物。\n\n\u003Ctable align=\"center\" border=\"0\" cellspacing=\"0\" cellpadding=\"6\">\n  \u003C!-- 第一行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_ca4092fb0cd7.gif\" width=\"220\">\u003Cbr>\n      \u003Cem>Chibi Gotham Battle\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_2f0f6c675633.gif\" width=\"250\">\u003Cbr>\n      \u003Cem>Homer Bullet Time (w\u002F Uni3c)\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\" rowspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_360af86039cd.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Anime Art Animation\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr\n\n  \u003C!-- 第二行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\" colspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_9aa3d4af445f.gif\" width=\"400\">\u003Cbr>\n      \u003Cem>Street Fighter 6 Motion Mimic\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr\n\n  \u003C!-- 第三行 -->\n  \u003Ctr>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_b89df568e397.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Doodle Art Animation\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_56826b7d5a39.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Dual Dance\u003C\u002Fem>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\" colspan=\"2\">\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_d9275ee838e1.gif\" width=\"150\">\u003Cbr>\n      \u003Cem>Group Dance\u003C\u002Fem>\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_readme_0173cda5dad6.gif\" width=\"200\">\u003Cbr>\n      \u003Cem>Quadrupeds Animation (w\u002F ViTPose)\u003C\u002Fem>\n    \u003C\u002Ftd>\n  \u003C\u002Ftr\n\u003C\u002Ftable\n\n\n## 🗞️ 更新与计划\n* 2026.3.1: 🔥 SCAIL现已原生集成于[ComfyUI](https:\u002F\u002Fgithub.com\u002FComfy-Org\u002FComfyUI\u002Fpull\u002F12614)。\n* 2025.12.19: 📣 我们提供SCAIL的Wan官方框架，而非[SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer)，以方便推理。请查看SCAIL的[wan分支](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Ftree\u002Fwan)。我们将更新SCAIL在SAT上的训练代码，以确保可复现性。\n* 2025.12.11: 💥 SCAIL的预览版现已在[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview)和[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview)上开源。\n* 2025.12.08: 🔥 我们发布了SCAIL在[SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer)上的推理代码。\n\n### 待办事项\n- [x] **SCAIL-14B-Preview模型权重**（512p, 5s）和推理配置\n- [x] 提示词优化片段\n- [x] **在Wan官方框架上的实现**\n- [ ] **SCAIL-Official(1.3B\u002F14B)模型权重**（改进稳定性与清晰度，具备原生长视频生成能力）和推理配置\n\n## 📰 新闻\n* 2026.3.1: 感谢[toyxyz](https:\u002F\u002Fgithub.com\u002Ftoyxyz)，现在可以使用Blender 3D绑定与scail-pose配合，从而实现更加动态和多样的形状与姿势，详情见[#30](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F30)。\n* 2025.12.19: [ComfyUI-SCAIL-Pose](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-SCAIL-Pose)现在支持将NLF网格保存为3D glb动画，并可对SCAIL-Pose骨架进行3D预览。\n* 2025.12.19: 感谢[deepbeepmeep](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep)在[WanGP](https:\u002F\u002Fgithub.com\u002Fdeepbeepmeep\u002FWan2GP)中提供了低VRAM的SCAIL预览支持！WanGP版本具有以下优势：3D姿态预处理完全集成、速度优化，并兼容任何PyTorch版本。\n* 2025.12.17: 感谢[VantageWithAI](https:\u002F\u002Fhf-mirror.com\u002Fvantagewithai)，GGUF版本现已在[SCAIL-Preview-GGUF](https:\u002F\u002Fhf-mirror.com\u002Fvantagewithai\u002FSCAIL-Preview-GGUF\u002Ftree\u002Fmain)上线！\n* 2025.12.16: ❤️ 非常感谢KJ在适配方面所做的工作——SCAIL现已可在[ComfyUI-WanVideoWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper)中使用！！！与此同时，姿态提取与渲染也部分适配到了[ComfyUI-SCAIL-Pose](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-SCAIL-Pose)，目前尚不支持多角色追踪。\n* 2025.12.14: 🥳 感谢社区朋友们的测试！尽管SCAIL的训练样本中只有1.5%是动漫数据，而且我们并未特意收集多角色动漫数据，但该模型仍能很好地泛化到许多复杂的动漫角色。SCAIL-Preview的发布旨在展示我们所提出的姿态表示和模型架构的稳健性，并具有进一步扩展和提升的潜力。\n\n\n## 🚀 入门\n\n### 检查点下载\n\n| 检查点       | 下载链接                                                                                                                                           |    备注                      |\n|--------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------|\n| SCAIL-Preview(14B) | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview)\u003Cbr> [🤖 ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview)     | 使用低于512p分辨率的数据训练。\u003Cbr> 如果使用其他分辨率，H和W都应能被32整除\u003Cbr>（例如：704*1280）。 |\n\n使用以下命令下载模型权重\n（我们已将Wan VAE和T5模块集成到此检查点中，以方便使用）。\n\n```bash\n# 克隆仓库（跳过自动LFS文件下载）\nGIT_LFS_SKIP_SMUDGE=1 git clone https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview\n```\n文件应按如下方式组织：\n```\nSCAIL-Preview\u002F\n├── Wan2.1_VAE.pth\n├── model\n│   ├── 1\n│   │   └── mp_rank_00_model_states.pt\n│   └── latest\n└── umt5-xxl\n    ├── ...\n```\n\n\n### 环境设置\n请确保您的Python版本介于3.10至3.12之间，包括3.10和3.12。\n```\npip install -r requirements.txt\n```\n\n## 🦾 使用方法\n### 输入准备\n输入数据应按如下方式组织，我们在`examples\u002F`中提供了一些示例数据：\n```\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   ├── ref.jpg\n└── 002\n    ├── driving.mp4\n    └── ref.jpg\n...\n```\n### 姿势提取与渲染\n使用git子模块下载`scail_pose`模块，然后按照[POSE_INSTRUCTION.md](POSE_INSTRUCTION.md)中的说明从驱动视频中提取并渲染姿势。\n\n```shell\ngit submodule update --init --recursive\n```\n之后，项目结构应如下所示：\n```\nSCAIL\u002F\n├── examples\n├── sat\n├── configs\n├── ...\n├── scail_pose\n```\n进入子目录并按照说明操作：\n```shell\ncd scail_pose\n# 按照POSE_INSTRUCTION.md中的说明进行操作\n```\n姿势提取和渲染完成后，输入数据应按如下方式组织：\n```\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   ├── ref.jpg\n│   └── rendered.mp4（或rendered_aligned.mp4）\n└── 002\n...\n```\n\n### 模型推理\n在Wan官方框架中进行推理时，请参考SCAIL的[wan分支](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Ftree\u002Fwan)。\n\n在SAT中进行推理时，运行以下命令以通过CLI输入启动推理：\n```\nbash scripts\u002Fsample_sgl_14Bsc_xc_cli.sh\n```\n\nCLI会要求您以`\u003Cprompt>@@\u003Cexample_dir>`的格式输入，例如`the girl is dancing@@examples\u002F001`。`example_dir`应在姿势提取和渲染后包含rendered.mp4或rendered_aligned.mp4。结果将保存到`samples\u002F`。\n\n我们也支持直接输入文本，只需将[sample_sgl_14Bsc_xc_txt.yaml](configs\u002Fsampling\u002Fsample_sgl_14Bsc_xc_txt.yaml)中的`input_file`更改为您的输入文件路径，并在输入文件中填写如`\u003Cprompt>@@\u003Cexample_dir>`的格式，然后运行以下命令：\n```\nbash scripts\u002Fsample_sgl_14Bsc_xc_txt.sh\n```\n\n请注意，我们的模型是使用**长而详细的提示词**训练的，尽管可以使用简短甚至为空的提示词，但效果可能不如长提示词理想。我们将提供提示词生成片段，利用Google [Gemini](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002F)读取参考图像和驱动动作，生成如下的详细提示词：“一位卷发女子正在岩石海岸线上欢快地跳舞，身穿一套时尚的蓝色两件套泳衣。她做出各种舞蹈动作，包括旋转、举手以及融入充满活力的海边氛围，身上的纹身和自信的姿态更增添了她的动感魅力。”\n\n您还可以在`configs\u002Fsampling\u002F`下的yaml文件中选择分辨率等采样配置，或直接修改`sample_video.py`以实现自定义的采样逻辑。\n\n## ✨ 致谢\n我们的实现建立在[Wan 2.1](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1)的基础上，整体项目架构则基于[SAT](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer)构建。我们还使用了[NLFPose](https:\u002F\u002Fgithub.com\u002Fisarandi\u002Fnlf)来可靠地提取姿势。感谢他们所做的卓越贡献及开源代码。\n\n## 📄 引用\n\n如果您在研究中发现本工作有用，请引用：\n\n```bibtex\n@article{yan2025scail,\n  title={SCAIL: 通过上下文学习三维一致的姿势表示，迈向影棚级角色动画},\n  author={Yan, Wenhao and Ye, Sheng and Yang, Zhuoyi and Teng, Jiayan and Dong, ZhenHui and Wen, Kairui and Gu, Xiaotao and Liu, Yong-Jin and Tang, Jie},\n  journal={arXiv预印本 arXiv:2512.05905},\n  year={2025}\n}\n```\n\n## 🗝️ 许可证\n本项目采用Apache许可证2.0版——详情请参阅[LICENSE](LICENSE)文件。","# SCAIL 快速上手指南\n\nSCAIL (Studio-Grade Character Animation via In-Context Learning) 是一个旨在实现工作室级角色动画的开源框架。它通过上下文学习 3D 一致的姿态表示，能够在大动作幅度、风格化角色及多角色互动等复杂场景下生成高保真动画。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python 版本**: 3.10 - 3.12 (必须在此范围内)\n*   **硬件要求**: 需要支持 CUDA 的 NVIDIA GPU (显存建议 24GB 以上以运行 14B 模型，或使用社区提供的低显存优化版本)\n*   **依赖管理**: 已安装 `git` 和 `pip`\n\n## 安装步骤\n\n### 1. 克隆项目代码\n建议使用国内镜像加速克隆过程（如使用 ModelScope 或 Gitee 镜像，若不可用则使用官方源）。此处以官方源为例，并跳过自动下载大文件以便后续手动整理：\n\n```bash\nGIT_LFS_SKIP_SMUDGE=1 git clone https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview\ncd SCAIL-Preview\n```\n\n*注：如果您访问 HuggingFace 困难，可前往 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview) 下载模型权重文件。*\n\n### 2. 初始化子模块 (姿态提取工具)\nSCAIL 依赖 `scail_pose` 模块进行姿态提取与渲染，需初始化子模块：\n\n```bash\ngit submodule update --init --recursive\n```\n\n### 3. 安装 Python 依赖\n在项目根目录下安装所需依赖：\n\n```bash\npip install -r requirements.txt\n```\n*提示：国内用户可使用清华或阿里镜像源加速安装：*\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 4. 下载模型权重\n本项目已将 Wan VAE 和 T5 模块集成到检查点中。请确保目录结构如下：\n\n```text\nSCAIL-Preview\u002F\n├── Wan2.1_VAE.pth\n├── model\n│   ├── 1\n│   │   └── mp_rank_00_model_states.pt\n│   └── latest\n└── umt5-xxl\n    ├── ...\n```\n如果自动下载失败，请手动从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FSCAIL-Preview) 或 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FSCAIL-Preview) 下载上述文件并放入对应目录。\n\n## 基本使用\n\n### 第一步：准备输入数据\n在 `examples\u002F` 目录下创建文件夹（如 `001`），放入参考图片 (`ref.jpg`) 和驱动视频 (`driving.mp4`)：\n\n```text\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   └── ref.jpg\n```\n\n### 第二步：姿态提取与渲染\n进入 `scail_pose` 子目录，按照其中的 `POSE_INSTRUCTION.md` 文档执行姿态提取脚本。处理完成后，该目录下应生成 `rendered.mp4` (或 `rendered_aligned.mp4`)。\n\n```bash\ncd scail_pose\n# 请参考 POSE_INSTRUCTION.md 中的具体命令进行姿态提取\n# 完成后返回根目录\ncd ..\n```\n\n最终输入目录结构应包含渲染后的姿态视频：\n```text\nexamples\u002F\n├── 001\n│   ├── driving.mp4\n│   ├── ref.jpg\n│   └── rendered.mp4\n```\n\n### 第三步：运行推理\n本项目支持两种推理方式：**Wan 官方框架**（推荐，更便捷）和 **SAT 框架**。\n\n#### 方式 A：使用 Wan 官方框架 (推荐)\n请切换至项目的 [wan 分支](https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Ftree\u002Fwan) 并按照该分支下的说明运行，以获得更好的兼容性和性能。\n\n#### 方式 B：使用 SAT 框架 (命令行交互)\n在项目根目录运行以下脚本启动交互式推理：\n\n```bash\nbash scripts\u002Fsample_sgl_14Bsc_xc_cli.sh\n```\n\n当提示输入时，请按格式 `\u003C提示词>@@\u003C示例目录>` 输入，例如：\n```text\nthe girl is dancing@@examples\u002F001\n```\n*注意：模型基于长详细提示词训练，建议使用 Gemini 等工具生成包含角色细节、动作描述和环境氛围的详细提示词，以获得最佳效果。*\n\n生成的视频将保存在 `samples\u002F` 目录下。\n\n#### 方式 C：批量文件推理\n如需批量处理，修改 `configs\u002Fsampling\u002Fsample_sgl_14Bsc_xc_txt.yaml` 中的 `input_file` 路径，并在该文件中按行填写 `\u003C提示词>@@\u003C示例目录>`，然后运行：\n\n```bash\nbash scripts\u002Fsample_sgl_14Bsc_xc_txt.sh\n```\n\n### 分辨率注意事项\n模型训练分辨率为 512p。如果使用其他分辨率，请确保宽度和高度均能被 32 整除（例如 704x1280），以避免报错。","一家独立游戏工作室正在为新作制作宣传短片，需要将手绘的二次元角色与复杂的战斗动作捕捉数据结合，生成高质量的动画序列。\n\n### 没有 SCAIL 时\n- **角色特征丢失**：在大幅度的翻转或快速转身动作中，模型难以保持角色原有的画风和身份特征，导致人物“脸崩”或变成通用模板。\n- **多角色互动失败**：当场景中出现两个以上角色进行格斗或共舞时，肢体经常发生错误的穿插、融合，无法理清空间遮挡关系。\n- **动作连贯性差**：生成的视频在时间轴上存在闪烁或抖动，缺乏电影级的流畅度，后期需要人工逐帧修复，耗时极长。\n- **风格泛化能力弱**：一旦尝试驱动非标准人体结构（如 Q 版大头角色或手绘涂鸦），模型直接无法识别姿态，输出结果完全不可用。\n\n### 使用 SCAIL 后\n- **身份高度一致**：借助 3D 一致性姿态表示，即使在剧烈运动下，SCAIL 也能完美锁定角色的五官、发型及服饰细节，杜绝身份泄露。\n- **精准的多角色调度**：SCAIL 能理解复杂的空间逻辑，让多个角色在打斗中保持独立的肢体边界，自然处理前后遮挡与交互接触。\n- **影院级流畅动态**：通过上下文学习进行时序推理，生成的动作序列平滑自然，彻底消除了帧间闪烁，达到可直接商用的 studio-grade 水准。\n- **零样本风格迁移**：无需额外训练，SCAIL 即可驱动从未见过的艺术风格（如简笔画、四足动物或夸张比例角色），极大拓展了创作边界。\n\nSCAIL 将原本需要数周修图的工作流缩短至小时级，让开发者能专注于创意叙事而非修补技术瑕疵。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_SCAIL_349a0248.png","zai-org","Z.ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzai-org_f0d5ae80.png","ChatGLM, GLM-4.5, CogVLM, CodeGeeX, CogView, CogVideoX | CogDL, AMiner | Zhipu.ai (Z.ai)",null,"Zai_org","https:\u002F\u002Fwww.zhipuai.cn\u002Fen","https:\u002F\u002Fgithub.com\u002Fzai-org",[85,89,93,97,101],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99,{"name":90,"color":91,"percentage":92},"Cuda","#3A4E3A",0.6,{"name":94,"color":95,"percentage":96},"C++","#f34b7d",0.3,{"name":98,"color":99,"percentage":100},"Shell","#89e051",0.1,{"name":102,"color":103,"percentage":104},"C","#555555",0,915,51,"2026-04-09T16:10:04","Apache-2.0","未说明","需要 NVIDIA GPU（基于 PyTorch\u002FWan2.1 架构），具体显存需求未说明，但提到社区有低显存版本支持 (WanGP)",{"notes":112,"python":113,"dependencies":114},"1. 模型基于 Wan 2.1 和 SAT 架构，已集成 Wan VAE 和 T5 模块。\n2. 输入分辨率的高和宽必须能被 32 整除（如 704*1280）。\n3. 需通过 git submodule 初始化并下载 scail_pose 模块以进行姿态提取。\n4. 官方提供 14B 预览版模型权重，建议使用长且详细的提示词以获得最佳效果。\n5. 社区提供了 ComfyUI 原生支持及低显存推理方案 (WanGP)。","3.10 - 3.12",[115,116,117,118,119],"torch","transformers","swissarmytransformer (SAT)","Wan2.1","NLFPose",[16],[122,123,124],"character-animation","video-generation","video2video","2026-03-27T02:49:30.150509","2026-04-10T20:32:38.501189",[128,133,138,143,148,153,158],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},28257,"为什么生成的视频姿态位置发生漂移（例如位于画面底部）？","这通常是由于默认视场角（FOV）与新视场角之间的不匹配导致的。解决方案是分别运行默认 FOV 和新 FOV 以获取偏移量（offsets），然后使用生成的偏移量映射（offset map）来修正手部和面部的姿态位置。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F25",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},28258,"显存占用过高且推理速度极慢，如何优化？","当前实现不会自动分段生成长视频，而长视频会导致显存激增和推理变慢。建议手动将长驱动视频（driving video）分割成多个片段（例如每段 81 帧，参考 Wan-Animate 的做法），然后分段进行生成。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F19",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},28259,"如何在无法使用命令行输入的平台（如某些云端环境）中指定文本提示词？","可以创建一个 txt 文件来代替命令行参数。文件格式示例为：`提示词内容@@图片路径`（例如：`the girl is dancing@@examples\u002F001`）。请确保使用最新的 `wan` 分支代码，该分支已更新并支持这种 txt 输入方式。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F12",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},28260,"在 ComfyUI 中加载模型时出现 'Weights only load failed' 或 numpy 相关错误怎么办？","这是预览版模型的一个已知问题。建议切换到代码库中的 `wan` 分支，该分支的代码已经修复了此兼容性问题并能更好地加载模型。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F11",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},28261,"生成的视频质量差、动作不跟随或画面混乱，可能是什么原因？","主要原因通常是姿态视频的长度与模型训练数据的分布不匹配。预览模型是在 65-81 帧的姿态视频上训练的，如果输入视频过短（如 30 帧）会导致效果不佳。建议使用官方姿态预处理流程（SCAIL-Pose 或其 ComfyUI 集成版）准备姿态视频，并确保帧数在推荐范围内。此外，检查是否错误链接了参考 VITPose，尝试解除链接也可能解决问题。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F20",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},28262,"项目是否支持 VR 眼镜试戴等特定垂直场景的功能扩展？","目前团队主要负责模型的训练及基础使用方法，暂不直接提供针对特定垂直场景（如 VR 试戴）的功能扩展或插件开发支持。如果用户有特定需求，可以自行基于模型进行微调（fine-tune），遇到具体技术问题可在 Issue 中讨论或通过邮件联系团队寻求帮助。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F24",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},28263,"输入超过一定帧数的姿态视频时推理报错（维度错误），如何解决？","当输入的姿态视频帧数过多（例如 144 帧）超出模型预设处理范围时，可能会引发张量维度错误。目前的解决方法是将长视频切割成较短的片段（建议 81 帧以内）再进行推理。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\u002Fissues\u002F17",[]]