SCAIL

915 51 较难 1 次阅读昨天Apache-2.0视频

AI 解读由 AI 自动生成，仅供参考

SCAIL 是一款致力于实现“影棚级”角色动画生成的开源 AI 框架。它擅长在复杂条件下生成高保真动画，无论是大幅度的动作变化、风格化角色，还是多角色互动场景，都能轻松驾驭。

传统动画生成模型常面临两大痛点：难以泛化到不同角色，以及在复杂场景（如多人交互、翻滚转身）中动作不连贯。SCAIL 通过创新的“上下文学习”机制和"3D 一致性姿态表示”，巧妙解决了姿态信息注入时容易泄露角色身份或丢失运动细节的难题。它迫使模型对整个运动序列进行时空推理，从而生成更加自然流畅的动作。值得一提的是，SCAIL 展现出惊人的泛化能力，即使未经过动物数据训练，也能驱动四足生物，甚至能理解二维手绘角色的三维空间关系。

目前，SCAIL 已原生支持 ComfyUI，并提供了便捷的推理框架。这款工具非常适合动画师、游戏开发者及 AI 研究人员使用，能帮助专业人士快速原型化高质量动画，同时也为技术爱好者探索角色控制的边界提供了强大支持。

使用场景

一家独立游戏工作室正在为新作制作宣传短片，需要将手绘的二次元角色与复杂的战斗动作捕捉数据结合，生成高质量的动画序列。

没有 SCAIL 时

角色特征丢失：在大幅度的翻转或快速转身动作中，模型难以保持角色原有的画风和身份特征，导致人物“脸崩”或变成通用模板。
多角色互动失败：当场景中出现两个以上角色进行格斗或共舞时，肢体经常发生错误的穿插、融合，无法理清空间遮挡关系。
动作连贯性差：生成的视频在时间轴上存在闪烁或抖动，缺乏电影级的流畅度，后期需要人工逐帧修复，耗时极长。
风格泛化能力弱：一旦尝试驱动非标准人体结构（如 Q 版大头角色或手绘涂鸦），模型直接无法识别姿态，输出结果完全不可用。

使用 SCAIL 后

身份高度一致：借助 3D 一致性姿态表示，即使在剧烈运动下，SCAIL 也能完美锁定角色的五官、发型及服饰细节，杜绝身份泄露。
精准的多角色调度：SCAIL 能理解复杂的空间逻辑，让多个角色在打斗中保持独立的肢体边界，自然处理前后遮挡与交互接触。
影院级流畅动态：通过上下文学习进行时序推理，生成的动作序列平滑自然，彻底消除了帧间闪烁，达到可直接商用的 studio-grade 水准。
零样本风格迁移：无需额外训练，SCAIL 即可驱动从未见过的艺术风格（如简笔画、四足动物或夸张比例角色），极大拓展了创作边界。

SCAIL 将原本需要数周修图的工作流缩短至小时级，让开发者能专注于创意叙事而非修补技术瑕疵。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（基于 PyTorch/Wan2.1 架构），具体显存需求未说明，但提到社区有低显存版本支持 (WanGP)

内存

未说明

依赖

notes1. 模型基于 Wan 2.1 和 SAT 架构，已集成 Wan VAE 和 T5 模块。 2. 输入分辨率的高和宽必须能被 32 整除（如 704*1280）。 3. 需通过 git submodule 初始化并下载 scail_pose 模块以进行姿态提取。 4. 官方提供 14B 预览版模型权重，建议使用长且详细的提示词以获得最佳效果。 5. 社区提供了 ComfyUI 原生支持及低显存推理方案 (WanGP)。

python3.10 - 3.12

torch

transformers

swissarmytransformer (SAT)

Wan2.1

NLFPose

快速开始

SCAIL：通过3D一致性姿态表示的上下文学习实现工作室级角色动画

本仓库包含**SCAIL（通过上下文学习实现工作室级角色动画）**的官方实现代码，该框架能够在多样且具有挑战性的条件下生成高保真度的角色动画，包括大幅度的动作变化、风格化角色以及多角色交互等场景。

Teaser

🔎 动机与成果

SCAIL指出了阻碍角色动画达到制作级别的一些关键瓶颈：对不同角色的泛化能力有限，以及在复杂场景下动作不连贯的问题（例如，长期存在的多角色交互难题，还有诸如翻滚、转身等基础动作中的常见失败）。我们重新审视了角色动画的核心组件——如何表示姿态条件以及如何注入姿态条件。我们的框架解决了姿态表示无法同时避免身份泄露并保留丰富运动信息的难题，并促使模型对整个运动序列进行时空推理，从而生成更加自然和连贯的动作。请访问我们的项目页面，查看我们的方法、结果图库以及与其他基线方法的对比。

🌱 社区作品

❤️ 衷心感谢社区朋友们的创意！以下所有成果均在他们慷慨同意下分享。我们惊喜地发现，我们的模型展现出了一些意想不到的能力——能够理解2D角色的3D空间关系、驱动手绘作品，甚至在完全没有动物训练数据的情况下控制四足动物。

🗞️ 更新与计划

2026.3.1: 🔥 SCAIL现已原生集成于ComfyUI。
2025.12.19: 📣 我们提供SCAIL的Wan官方框架，而非SAT，以方便推理。请查看SCAIL的wan分支。我们将更新SCAIL在SAT上的训练代码，以确保可复现性。
2025.12.11: 💥 SCAIL的预览版现已在HuggingFace和ModelScope上开源。
2025.12.08: 🔥 我们发布了SCAIL在SAT上的推理代码。

待办事项

SCAIL-14B-Preview模型权重（512p, 5s）和推理配置
提示词优化片段
在Wan官方框架上的实现
SCAIL-Official(1.3B/14B)模型权重（改进稳定性与清晰度，具备原生长视频生成能力）和推理配置

📰 新闻

2026.3.1: 感谢toyxyz，现在可以使用Blender 3D绑定与scail-pose配合，从而实现更加动态和多样的形状与姿势，详情见#30。
2025.12.19: ComfyUI-SCAIL-Pose现在支持将NLF网格保存为3D glb动画，并可对SCAIL-Pose骨架进行3D预览。
2025.12.19: 感谢deepbeepmeep在WanGP中提供了低VRAM的SCAIL预览支持！WanGP版本具有以下优势：3D姿态预处理完全集成、速度优化，并兼容任何PyTorch版本。
2025.12.17: 感谢VantageWithAI，GGUF版本现已在SCAIL-Preview-GGUF上线！
2025.12.16: ❤️ 非常感谢KJ在适配方面所做的工作——SCAIL现已可在ComfyUI-WanVideoWrapper中使用！！！与此同时，姿态提取与渲染也部分适配到了ComfyUI-SCAIL-Pose，目前尚不支持多角色追踪。
2025.12.14: 🥳 感谢社区朋友们的测试！尽管SCAIL的训练样本中只有1.5%是动漫数据，而且我们并未特意收集多角色动漫数据，但该模型仍能很好地泛化到许多复杂的动漫角色。SCAIL-Preview的发布旨在展示我们所提出的姿态表示和模型架构的稳健性，并具有进一步扩展和提升的潜力。

🚀 入门

检查点下载

Chibi Gotham Battle	Homer Bullet Time (w/ Uni3c)	Anime Art Animation
Street Fighter 6 Motion Mimic
Doodle Art Animation	Dual Dance	Group Dance Quadrupeds Animation (w/ ViTPose)

检查点	下载链接	备注
SCAIL-Preview(14B)	🤗 Hugging Face 🤖 ModelScope	使用低于512p分辨率的数据训练。如果使用其他分辨率，H和W都应能被32整除（例如：704*1280）。

使用以下命令下载模型权重（我们已将Wan VAE和T5模块集成到此检查点中，以方便使用）。

# 克隆仓库（跳过自动LFS文件下载）
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/zai-org/SCAIL-Preview

文件应按如下方式组织：

SCAIL-Preview/
├── Wan2.1_VAE.pth
├── model
│   ├── 1
│   │   └── mp_rank_00_model_states.pt
│   └── latest
└── umt5-xxl
    ├── ...

环境设置

请确保您的Python版本介于3.10至3.12之间，包括3.10和3.12。

pip install -r requirements.txt

🦾 使用方法

输入准备

输入数据应按如下方式组织，我们在examples/中提供了一些示例数据：

examples/
├── 001
│   ├── driving.mp4
│   ├── ref.jpg
└── 002
    ├── driving.mp4
    └── ref.jpg
...

姿势提取与渲染

使用git子模块下载scail_pose模块，然后按照POSE_INSTRUCTION.md中的说明从驱动视频中提取并渲染姿势。

git submodule update --init --recursive

之后，项目结构应如下所示：

SCAIL/
├── examples
├── sat
├── configs
├── ...
├── scail_pose

进入子目录并按照说明操作：

cd scail_pose
# 按照POSE_INSTRUCTION.md中的说明进行操作

姿势提取和渲染完成后，输入数据应按如下方式组织：

examples/
├── 001
│   ├── driving.mp4
│   ├── ref.jpg
│   └── rendered.mp4（或rendered_aligned.mp4）
└── 002
...

模型推理

在Wan官方框架中进行推理时，请参考SCAIL的wan分支。

在SAT中进行推理时，运行以下命令以通过CLI输入启动推理：

bash scripts/sample_sgl_14Bsc_xc_cli.sh

CLI会要求您以<prompt>@@<example_dir>的格式输入，例如the girl is dancing@@examples/001。example_dir应在姿势提取和渲染后包含rendered.mp4或rendered_aligned.mp4。结果将保存到samples/。

我们也支持直接输入文本，只需将sample_sgl_14Bsc_xc_txt.yaml中的input_file更改为您的输入文件路径，并在输入文件中填写如<prompt>@@<example_dir>的格式，然后运行以下命令：

bash scripts/sample_sgl_14Bsc_xc_txt.sh

请注意，我们的模型是使用长而详细的提示词训练的，尽管可以使用简短甚至为空的提示词，但效果可能不如长提示词理想。我们将提供提示词生成片段，利用Google Gemini读取参考图像和驱动动作，生成如下的详细提示词：“一位卷发女子正在岩石海岸线上欢快地跳舞，身穿一套时尚的蓝色两件套泳衣。她做出各种舞蹈动作，包括旋转、举手以及融入充满活力的海边氛围，身上的纹身和自信的姿态更增添了她的动感魅力。”

您还可以在configs/sampling/下的yaml文件中选择分辨率等采样配置，或直接修改sample_video.py以实现自定义的采样逻辑。

✨ 致谢

我们的实现建立在Wan 2.1的基础上，整体项目架构则基于SAT构建。我们还使用了NLFPose来可靠地提取姿势。感谢他们所做的卓越贡献及开源代码。

📄 引用

如果您在研究中发现本工作有用，请引用：

@article{yan2025scail,
  title={SCAIL: 通过上下文学习三维一致的姿势表示，迈向影棚级角色动画},
  author={Yan, Wenhao and Ye, Sheng and Yang, Zhuoyi and Teng, Jiayan and Dong, ZhenHui and Wen, Kairui and Gu, Xiaotao and Liu, Yong-Jin and Tang, Jie},
  journal={arXiv预印本 arXiv:2512.05905},
  year={2025}
}

🗝️ 许可证

本项目采用Apache许可证2.0版——详情请参阅LICENSE文件。

SCAIL 快速上手指南

SCAIL (Studio-Grade Character Animation via In-Context Learning) 是一个旨在实现工作室级角色动画的开源框架。它通过上下文学习 3D 一致的姿态表示，能够在大动作幅度、风格化角色及多角色互动等复杂场景下生成高保真动画。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: 3.10 - 3.12 (必须在此范围内)
硬件要求: 需要支持 CUDA 的 NVIDIA GPU (显存建议 24GB 以上以运行 14B 模型，或使用社区提供的低显存优化版本)
依赖管理: 已安装 git 和 pip

安装步骤

1. 克隆项目代码

建议使用国内镜像加速克隆过程（如使用 ModelScope 或 Gitee 镜像，若不可用则使用官方源）。此处以官方源为例，并跳过自动下载大文件以便后续手动整理：

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/zai-org/SCAIL-Preview
cd SCAIL-Preview

注：如果您访问 HuggingFace 困难，可前往 ModelScope 下载模型权重文件。

2. 初始化子模块 (姿态提取工具)

SCAIL 依赖 scail_pose 模块进行姿态提取与渲染，需初始化子模块：

git submodule update --init --recursive

3. 安装 Python 依赖

在项目根目录下安装所需依赖：

pip install -r requirements.txt

提示：国内用户可使用清华或阿里镜像源加速安装：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4. 下载模型权重

本项目已将 Wan VAE 和 T5 模块集成到检查点中。请确保目录结构如下：

SCAIL-Preview/
├── Wan2.1_VAE.pth
├── model
│   ├── 1
│   │   └── mp_rank_00_model_states.pt
│   └── latest
└── umt5-xxl
    ├── ...

如果自动下载失败，请手动从 HuggingFace 或 ModelScope 下载上述文件并放入对应目录。

基本使用

第一步：准备输入数据

在 examples/ 目录下创建文件夹（如 001），放入参考图片 (ref.jpg) 和驱动视频 (driving.mp4)：

examples/
├── 001
│   ├── driving.mp4
│   └── ref.jpg

第二步：姿态提取与渲染

进入 scail_pose 子目录，按照其中的 POSE_INSTRUCTION.md 文档执行姿态提取脚本。处理完成后，该目录下应生成 rendered.mp4 (或 rendered_aligned.mp4)。

cd scail_pose
# 请参考 POSE_INSTRUCTION.md 中的具体命令进行姿态提取
# 完成后返回根目录
cd ..

最终输入目录结构应包含渲染后的姿态视频：

examples/
├── 001
│   ├── driving.mp4
│   ├── ref.jpg
│   └── rendered.mp4

第三步：运行推理

本项目支持两种推理方式：Wan 官方框架（推荐，更便捷）和 SAT 框架。

方式 A：使用 Wan 官方框架 (推荐)

请切换至项目的 wan 分支并按照该分支下的说明运行，以获得更好的兼容性和性能。

方式 B：使用 SAT 框架 (命令行交互)

在项目根目录运行以下脚本启动交互式推理：

bash scripts/sample_sgl_14Bsc_xc_cli.sh

当提示输入时，请按格式 <提示词>@@<示例目录> 输入，例如：

the girl is dancing@@examples/001

注意：模型基于长详细提示词训练，建议使用 Gemini 等工具生成包含角色细节、动作描述和环境氛围的详细提示词，以获得最佳效果。

生成的视频将保存在 samples/ 目录下。

方式 C：批量文件推理

如需批量处理，修改 configs/sampling/sample_sgl_14Bsc_xc_txt.yaml 中的 input_file 路径，并在该文件中按行填写 <提示词>@@<示例目录>，然后运行：

bash scripts/sample_sgl_14Bsc_xc_txt.sh

分辨率注意事项

模型训练分辨率为 512p。如果使用其他分辨率，请确保宽度和高度均能被 32 整除（例如 704x1280），以避免报错。

常见问题

为什么生成的视频姿态位置发生漂移（例如位于画面底部）？

显存占用过高且推理速度极慢，如何优化？

如何在无法使用命令行输入的平台（如某些云端环境）中指定文本提示词？

在 ComfyUI 中加载模型时出现 'Weights only load failed' 或 numpy 相关错误怎么办？

生成的视频质量差、动作不跟随或画面混乱，可能是什么原因？

项目是否支持 VR 眼镜试戴等特定垂直场景的功能扩展？

输入超过一定帧数的姿态视频时推理报错（维度错误），如何解决？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|4天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|2天前

图像数据工具视频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。

★ 55k|★★★☆☆|5天前

开发框架语言模型Agent

oh-my-openagent

oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。

★ 50k|★★☆☆☆|今天

视频语言模型开发框架

tabby

Tabby 是一款可私有化部署的开源 AI 编程助手，旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题，让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构，以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构，无需配置复杂的数据库或依赖云服务即可快速启动。同时，它对硬件十分友好，支持在普通的消费级 GPU 上流畅运行，大幅降低了部署门槛。此外，Tabby 提供了标准的 OpenAPI 接口，能轻松集成到现有的云 IDE 或内部开发流程中，并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答，Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。

★ 33.3k|★★★☆☆|2天前

开发框架语言模型Agent

onlook

Onlook 是一款专为设计师打造的开源 AI 优先设计工具，被誉为“设计师版的 Cursor”。它旨在打破设计与开发之间的壁垒，让用户能够以可视化的方式直接构建、样式化和编辑 React 应用。通过 Onlook，用户无需深入编写复杂代码，即可在类似 Figma 的直观界面中完成网页原型的搭建与调整，并实时预览最终效果。这款工具主要解决了传统工作流中设计稿到代码转换效率低、沟通成本高的问题。以往，设计师使用 Figma 等工具完成设计后，需要开发人员手动将其转化为代码，过程繁琐且容易出错。Onlook 允许用户直接在浏览器 DOM 中进行可视化编辑，底层自动生成基于 Next.js 和 TailwindCSS 的高质量代码，实现了“所见即所得”的开发体验。它不仅支持从文本或图像快速生成应用，还具备分支管理、资源管理及一键部署等功能，极大地简化了从创意到成品的流程。 Onlook 特别适合前端开发者、UI/UX 设计师以及希望快速验证产品创意的独立开发者使用。对于设计师而言，它降低了参与前端开发的门槛；对于开发者来说，它提供了一个高效的视觉化调试和原型构建环境。其核心技术亮点在于

★ 25k|★★★★☆|1周前

Agent图像视频