AI4Animation
AI4Animation 是一个基于深度学习的角色动画与控制框架,旨在利用“计算机大脑”让虚拟角色在 Unity 或 Python 环境中拥有自然、灵动的动作表现。它主要解决了传统游戏开发中角色动作生硬、难以实时响应复杂环境交互的难题,通过数据驱动的方式,让双足行走、四足奔跑、体育竞技乃至格斗动作都能根据场景自动调整,实现高度逼真的物理反馈。
这套工具特别适合游戏开发者、动画研究人员以及从事 AR/VR 化身设计的专业人士使用。其核心亮点在于提供了一套完整的流水线,涵盖从动作捕捉数据处理、神经网络训练到运行时控制的全过程。2026 年推出的 Python 重构版(AI4AnimationPy)更是移除了对 Unity 的强依赖,基于 NumPy 和 PyTorch 构建,支持在统一环境中完成训练与可视化,极大简化了研究流程。此外,它还集成了实时逆向运动学(IK)、风格化运动控制器以及最新的“分类代码本匹配”技术,能够精准地将真实用户的动作迁移到虚拟化身之上,为元宇宙应用提供了强大的技术支撑。无论是制作交互式演示还是探索前沿学术课题,AI4Animation 都能提供灵活且高效的解决方案。
使用场景
某独立游戏工作室正在开发一款支持 VR 全身互动的奇幻冒险游戏,需要让虚拟角色实时复刻玩家的动作并自然适应复杂地形。
没有 AI4Animation 时
- 动作僵硬断裂:传统状态机难以处理数百种动作状态的平滑过渡,角色在奔跑转跳跃时经常出现滑步或模型穿插。
- 开发周期漫长:动画师需手动为每种新地形(如斜坡、楼梯)制作专门的适配动画,耗时数周且难以覆盖所有边缘情况。
- VR 映射失真:直接将动捕数据映射到不同体型的虚拟化身时,常出现脚部悬空或手部穿透物体的尴尬现象,破坏沉浸感。
- 调试成本高昂:调整物理反馈逻辑需要反复修改代码并重新编译,无法实时预览神经网络对运动策略的优化效果。
使用 AI4Animation 后
- 动态自然流畅:利用深度学习控制器,角色能根据输入指令自动生成连贯的双足或四足步态,实现无脚本的平滑风格迁移。
- 环境自适应强:训练好的模型可自动推断地形特征,角色无需额外动画资源即可智能调整步伐跨越障碍或在湿滑地面保持平衡。
- 实时逆向解算:内置的实时逆向运动学(IK)模块能瞬间修正虚拟肢体的末端位置,确保不同体型化身在 VR 中精准贴合地面与物体。
- 研发效率飞跃:基于 Python 的统一架构允许开发者在单一环境中完成从数据导入、模型训练到可视化调试的全流程,迭代速度提升数倍。
AI4Animation 通过将数据驱动的深度学习引入角色控制,彻底解决了传统动画管线中灵活性差与适配成本高的难题,让虚拟角色真正拥有了“大脑”。
运行环境要求
- Windows
- macOS
未说明 (基于 PyTorch/NumPy,通常建议 NVIDIA GPU 以加速训练,但 README 未明确指定型号或显存)
未说明

快速开始
AI4Animation:用于角色控制的深度学习
本仓库探索了深度学习在角色动画和控制领域的应用机会。它旨在成为一个全面的数据驱动角色动画框架,涵盖数据处理、神经网络训练和运行时控制。以下各个项目展示了利用神经网络实现双足行走、四足行走以及角色与场景中物体和环境交互的能力,还包括体育和格斗游戏,以及AR/VR中的具身化虚拟形象动作。未来关于该研究的更多进展将继续添加到此项目中。
2026年——Python重制版(AI4AnimationPy)
查看仓库 →
保罗·斯塔克,
塞巴斯蒂安·斯塔克
这一版本将AI4Animation移植到Python中——去除了Unity在数据处理、特征提取、推理和后处理方面的依赖,同时保留了类似游戏引擎风格的架构(ECS、更新循环、渲染管线)。所有操作均基于NumPy或PyTorch,因此训练、推理和可视化可以在一个统一的环境中完成,从而简化研究流程。
![]() |
![]() |
| 风格化双足行走控制器,基于style100数据集训练 | 四足行走控制器——可交互的狗狗行走,支持步态切换和动作姿态 |
![]() |
![]() |
| 未来运动预测,附带交互式模型训练可视化 | ECS——实体层次结构与组件系统 |
![]() |
![]() |
| 逆向运动学——实时IK求解 | 动作捕捉导入——支持GLB/FBX/BVH/NPZ等格式加载 |
![]() |
|
| 动作编辑器——动画浏览与特征可视化 |
SIGGRAPH 2024
面向具身化角色控制器的分类码本匹配
塞巴斯蒂安·斯塔克,
保罗·斯塔克,
妮琪·何,
拓夫·小村,
于婷·叶,
ACM Trans. Graph. 43, 4, Article 142.
将真实用户的动作迁移到虚拟具身化化身是元宇宙中角色动画面临的关键挑战。在本工作中,我们提出了一种新颖的生成式框架,能够在实时条件下将一组稀疏的传感器信号映射为全身化身的动作,同时忠实地保留用户动作的上下文信息。与现有技术需要分别训练运动先验及其从控制信号到动作的映射不同,我们的框架能够以端到端的方式同时学习运动流形以及如何从中采样。为此,我们引入了一种称为“码本匹配”的技术,通过匹配输入和输出两个分类码本之间的概率分布来合成角色动作。我们证明了该技术可以成功处理动作生成中的歧义,并能从非结构化的动作捕捉数据中生成高质量的角色控制器。我们的方法尤其适用于虚拟现实或视频游戏等需要高精度和快速响应的交互式应用。
- 视频 - 论文 - 数据集 - 代码 - VR演示 - Windows演示 - Mac演示 - 使用说明 -
与现有的基于运动学的角色控制方法不同——那些方法要么直接学习输入与输出之间的映射,要么仅利用基于运动数据单独训练的运动先验——我们的框架同时从输入和输出中学习,从而形成一个受控制信号指导的运动流形。 为了以监督方式实现这种设置,我们提出了一种名为“码本匹配”的技术,该技术强制使两个潜在概率分布$Z_X$和$Z_Y$保持相似性。 在动作生成的背景下,我们不是直接根据控制输入预测动作输出,而是仅预测每种可能输出出现的概率。 通过在两个分类概率分布之间引入匹配损失,我们的码本匹配技术允许在测试时用$Z_X$替代$Z_Y$。
训练:
\begin{cases}
Y \rightarrow Z_Y \rightarrow Y
\\
X \rightarrow Z_X
\\
Z_X \sim Z_Y
\end{cases}
推理:
X \rightarrow Z_X \rightarrow Y
我们的方法不仅限于三点输入,还可以通过我们称为混合控制模式的方式,结合操纵杆或按钮等额外控制手段,生成具身化角色的动作。在这种设置下,用户、工程师或艺术家可以通过简单的目标位置指示角色的移动方向,同时保留来自三点追踪信号的原始运动上下文。这样一来,我们在虚拟世界中实现行走、跑步、蹲伏等动作时,无需在现实世界中做出相应的身体姿态,甚至可以在站立或坐着的状态下完成这些操作。
此外,我们的码本匹配架构与运动匹配技术有许多相似之处,并且能够以端到端的方式学习类似的结构。运动匹配通过从查询距离相近的候选动作中进行选择来避免控制到运动映射中的歧义问题,而我们的方案则是根据预测的概率来选取可能的结果,当不同结果的概率相近时,自然会倾向于选择合法的动作输出。然而,与基于数据库的搜索不同,我们的码本匹配能够有效地压缩运动数据,使得相同的动作映射到相同的编码,从而避免了现有基于学习的方法(如标准前馈神经网络或变分模型)可能遇到的歧义问题。我们通过重构下图中的歧义玩具示例函数来展示这一能力。
SIGGRAPH 2022
DeepPhase:用于学习运动相位流形的周期性自编码器
塞巴斯蒂安·施塔克,
伊恩·梅森,
小村拓,
ACM Trans. Graph. 41, 4, Article 136。
学习人体运动的时空结构是角色动画合成中的一个基本问题。在本工作中,我们提出了一种名为周期性自编码器的新颖神经网络架构,能够以无监督的方式从大规模非结构化运动数据集中学习周期性特征。该方法将角色动作分解为多个潜在通道,这些通道捕捉了身体不同部位随时间推进的非线性周期性特征。我们的方法从全身运动数据中提取出多维相空间,有效地对动画进行聚类,并生成一个流形,在其中计算得到的特征距离比原始运动空间中的距离更能准确地衡量相似性,从而实现更好的时空对齐。我们证明了所学到的周期性嵌入可以显著提升多种任务中的神经网络运动合成效果,包括多样化的运动技能、基于风格的动作、根据音乐合成舞蹈动作、足球运球动作的合成,以及在大型动画数据库中进行姿势匹配的运动查询。
- 视频 - 论文 - PAE代码及演示 - 动画代码及演示 - 解释与补充 - 教程 -
- 运动中间帧生成系统 -
SIGGRAPH 2021
用于合成武术动作的神经网络动画分层
塞巴斯蒂安·施塔克,
赵一伟,
法比奥·津诺,
小村拓,
ACM Trans. Graph. 40, 4, Article 92。
交互式地从不同的运动技能中合成新颖的角色动作组合和变体,是计算机动画领域的一个关键问题。在这项研究中,我们提出了一套深度学习框架,能够从原始动作捕捉数据中可控地生成各种武术动作。我们的方法利用神经网络模拟动画分层技术,旨在克服在混合、融合和编辑来自不一致来源的动作时常见的挑战。该系统既可用于离线也可用于在线运动生成,提供了一个直观的界面,便于与动画师的工作流程集成,并且适用于计算机游戏等实时应用。
SIGGRAPH 2020
用于学习多接触角色动作的局部运动相位
塞巴斯蒂安·施塔克,
赵一伟,
小村拓,
卡济·扎曼。
ACM Trans. Graph. 39, 4, Article 54。
不知道如何对复杂角色动作进行对齐?厌倦了手动标注相位?又不清楚该如何把所有内容塞进一个单一的相位变量中?别担心,解决方案就在这里!
控制角色执行种类繁多、动态性强、节奏快且变化迅速的动作,是角色动画中的关键挑战。在本研究中,我们提出了一种深度学习框架,能够以高质量交互式地合成此类动画,既可以从非结构化的运动数据中生成,又无需任何手动标注。我们引入了局部运动相位的概念,并展示了我们的系统能够生成多种运动技能,例如篮球运球和专业动作、投篮、接球、躲避、多种移动方式以及不同角色与物体的交互,所有这些都在一个统一的框架下完成。
- 视频 - 论文 - 代码 - Windows演示 - 使用说明 -
SIGGRAPH Asia 2019
用于角色与场景交互的神经状态机
Sebastian Starke+,
He Zhang+,
Taku Komura,
Jun Saito.
ACM Trans. Graph. 38, 6, Article 178.
(+共同第一作者)
为角色制作动画可能既简单又复杂,而与物体的交互则属于后者。在本次研究中,我们提出了神经状态机这一数据驱动的深度学习框架,用于处理角色与场景的交互。这类动画的难点在于,它们需要对周期性和非周期性运动进行复杂的规划,才能完成特定任务。以生产级质量实现这些动画并不容易,通常非常耗时。相比之下,我们的系统能够从动作捕捉数据中合成不同的运动和场景交互,并允许用户通过简单的控制指令实时无缝地操控角色。由于我们的模型直接从几何体中学习,因此运动可以自然适应场景的变化。我们证明了该系统能够从单一模型中生成多种运动,包括行走、坐在椅子上、搬运箱子、开门以及避开障碍物等。该模型响应迅速、体积小巧且可扩展,是首个能够处理数据驱动角色动画中场景交互任务的框架。
- 视频 - 论文 - 代码与演示 - 动捕数据 - 使用说明 -
SIGGRAPH 2018
用于四足动物运动控制的模式自适应神经网络
He Zhang+,
Sebastian Starke+,
Taku Komura,
Jun Saito.
ACM Trans. Graph. 37, 4, Article 145.
(+共同第一作者)
为角色制作动画有时真的很麻烦,尤其是那些四足怪物!今年,我们将在温哥华举行的SIGGRAPH 2018上展示我们在四足动物动画和角色控制方面的最新研究成果。该系统利用一种名为模式自适应神经网络的新颖神经网络架构,可以从真实的运动数据中生成自然的动画。与优化一组固定的权重不同,该系统会根据角色的当前状态,动态地将一组权重混合到另一个神经网络中。值得一提的是,该系统不需要为运动阶段或步态提供标签,而是能够以端到端的方式从非结构化动作捕捉数据中学习。
- 视频 - 论文 - 代码 - 动捕数据 - Windows演示 - Linux演示 - Mac演示 - 使用说明 -
- 动画创作工具 -
SIGGRAPH 2017
用于角色控制的相位函数神经网络
Daniel Holden,
Taku Komura,
Jun Saito.
ACM Trans. Graph. 36, 4, Article 42.
这项工作延续了近期关于PFNN(相位函数神经网络)在角色控制方面的研究。 其中,Assets/Demo/SIGGRAPH_2017/Original文件夹内包含了一个使用原始权重实现地形自适应行走的Unity3D演示;而Assets/Demo/SIGGRAPH_2017/Adam文件夹内则有一个基于平坦地面、使用Adam角色的演示。要运行这些演示,您需要从Link.txt文件中提供的链接下载神经网络权重,将其解压到/NN文件夹中,并通过自定义检视器按钮保存参数。
- 视频 - 论文 - 代码(Unity) - Windows 演示 - Linux 演示 - Mac 演示 -
SIGGRAPH 2020 论文速览演示
版权信息
本项目仅用于科研或教育目的,不得用于商业用途或随意再分发。动作捕捉数据仅在 署名-非商业性使用 4.0 国际(CC BY-NC 4.0)许可协议的条款下提供。
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。






