ToonComposer
ToonComposer 是一款由腾讯 ARC 实验室开源的 AI 工具,旨在通过“生成式后期关键帧”技术彻底革新卡通与动画的制作流程。传统动画制作极度依赖人工绘制中间帧和上色,耗时且门槛高;ToonComposer 利用生成式 AI 将这些繁琐步骤整合为单一、流畅的自动化过程,显著缩短生产周期,让创作者能将数小时的手工劳作转化为瞬间完成的任务。
该工具特别适合动画设计师、独立创作者以及希望探索 AIGC 在视频生成领域应用的研究人员使用。对于具备一定开发能力的用户,项目提供了完整的本地部署方案,支持自定义环境配置;而普通用户或资源受限者也可直接通过 Hugging Face 在线体验演示。
技术层面,ToonComposer 基于强大的 Wan2.1 图像到视频基础模型构建,能够根据少量关键帧智能生成连贯的中间画面并自动上色,确保风格统一且动作自然。需要注意的是,本地运行对显存要求较高(生成一段短视频约需 57GB 显存),建议拥有高性能 GPU 的开发者和机构尝试本地部署,其他用户可优先选择云端服务体验其高效的制作能力。
使用场景
某独立动画工作室正急需在两周内完成一部 3 分钟短篇动画的粗剪版本,但团队仅有两名原画师,人力严重不足。
没有 ToonComposer 时
- 中间画绘制耗时极长:原画师需手动绘制关键帧之间的大量过渡画面(Inbetweening),占用了 70% 的制作时间。
- 上色流程繁琐重复:每一帧都需要人工逐帧填色,不仅效率低下,还容易出现色彩不一致的闪烁问题。
- 对资深画师依赖过高:只有经验丰富的艺术家才能保证动作流畅度,初级助理难以分担核心工作。
- 迭代修改成本巨大:一旦导演要求调整动作节奏,所有相关的中间帧和颜色都需要重新手工绘制。
- 交付周期难以保证:按传统流程,仅靠现有人员无法在截止日期前完成高质量的成片。
使用 ToonComposer 后
- 生成式补间秒级完成:只需输入少量关键帧,ToonComposer 即可利用生成式 AI 自动补全流畅的中间动画,将数天工作压缩至几分钟。
- 智能统一上色风格:工具自动生成并维持全局一致的色彩风格,彻底消除了人工逐帧上色的枯燥劳动与色差风险。
- 降低专业技能门槛:初级成员仅需绘制关键草图,ToonComposer 便能将其转化为专业级的动画序列,释放了资深人力。
- 敏捷响应创意变更:面对修改需求,只需调整关键帧并重新运行模型,ToonComposer 能迅速生成新的完整片段。
- 如期甚至提前交付:原本需要一个月的工作量现在一周内即可完成,团队有余力进行更多细节打磨。
ToonComposer 通过将耗时的中间画绘制与上色环节自动化,让小型团队也能以电影级效率完成动画制作。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 生成 480p/61 帧视频需约 57GB 显存
- 推荐使用 flash_attn (v2.8.2) 优化性能
未说明

快速开始
ToonComposer
ToonComposer:通过生成式后关键帧技术简化卡通制作流程
李凌根、王广志、张兆阳、李耀伟、李晓宇、窦琪、顾金伟、薛天凡、单颖
👀 简要概述
传统的卡通/动漫制作耗时较长,需要熟练的艺术家进行关键帧绘制、中间帧补画和上色等工作。ToonComposer利用生成式AI技术简化了这一流程,将原本需要数小时的手动中间帧补画和上色工作整合为一个无缝衔接的自动化过程。更多详情请访问我们的项目页面并阅读我们的论文。
✏️ 更新
[2025年8月18日] 在Hugging Face Space上已上线Gradio在线演示。
[2025年8月15日] ToonComposer模型权重已在Hugging Face上发布。
⚠️ 非授权网站声明
网址https://tooncomposer.com并非由ToonComposer团队托管、授权或认可。该网站未经我们许可或通知便复制了我们开源项目的内容,我们对该网站运营者的身份及意图均不知情。
⚙️ 配置
1) 克隆仓库
git clone https://github.com/TencentARC/ToonComposer
cd ToonComposer
2) 设置Python环境
创建一个conda环境,并从requirements.txt中安装依赖项。
conda create -n tooncomposer python=3.10 -y
conda activate tooncomposer
pip install -r requirements.txt
注意:ToonComposer需要特定版本的gradio==5.25.2。
对于Linux用户,我们建议安装flash_attn。
pip install flash-attn==2.8.2 --no-build-isolation
3) 运行应用
应用会检查本地缓存,若缺少所需权重则会自动下载(详见下方的权重部分)。默认情况下,Gradio界面会在端口7860上启动。
python app.py
在浏览器中打开http://localhost:7860。如果您是在远程服务器上运行,请将localhost替换为您的服务器IP或主机名。
生成一个包含61帧的480p视频大约需要57GB的显存。如果您没有足够的GPU资源,我们建议您尝试使用我们的🤗 Hugging Face Spaces演示。
💾 权重与检查点
ToonComposer依赖于两组权重:
- Wan2.1 I2V 14B 480P(基础模型):
Wan-AI/Wan2.1-I2V-14B-480P - ToonComposer权重:
TencentARC/ToonComposer
应用程序会按照以下顺序解析权重:
- 如果您通过命令行参数或环境变量提供了本地目录(见下文),则优先使用这些目录。
- 否则,它会检查您的本地Hugging Face缓存(无需联网)。
- 如果仍然找不到,则会从Hugging Face Hub下载。
由于Wan2.1模型非常庞大,如果您的缓存中已经存在该模型,应用程序将避免重复下载。
提供本地目录(可选)
- 环境变量:
WAN21_I2V_DIR:本地Wan2.1模型目录路径TOONCOMPOSER_DIR:本地ToonComposer目录路径,其中应包含480p/和/或608p/子目录。每个子目录都应包含tooncomposer.ckpt和config.json文件。HF_TOKEN:如果需要访问受保护的下载内容,则需提供HF访问令牌(可选)
export WAN21_I2V_DIR=/abs/path/to/Wan2.1-I2V-14B-480P
export TOONCOMPOSER_DIR=/abs/path/to/TencentARC-ToonComposer
export HF_TOKEN=hf_xxx # 可选
python app.py
- 命令行参数(优先于环境变量):
python app.py \
--wan_model_dir /abs/path/to/Wan2.1-I2V-14B-480P \
--tooncomposer_dir /abs/path/to/TencentARC-ToonComposer \
--hf_token hf_xxx \
--resolution 480p \
--device cuda:0
注意事项:
- ToonComposer的HF仓库按分辨率组织权重:
480p/和608p/。应用程序会自动从所选分辨率目录中加载正确的config.json和tooncomposer.ckpt。 - 应用程序首先检查HF缓存(
local_files_only=True),只有在未找到时才会下载。
📖 使用指南
启动选项
python app.py --help
- --resolution:
480p或608p(默认:480p) - --device:例如,
cuda:0、cpu(默认:cuda:0) - --wan_model_dir:本地Wan2.1目录(可选)
- --tooncomposer_dir:包含
480p/608p的本地ToonComposer目录(可选)
在Gradio界面中
- 设置文本提示、输出帧数和分辨率。
- 至少提供一张关键帧彩色图像(通常放置在第0帧)。
- 在选定的帧上添加一张或多张关键帧草图。您还可以选择性地绘制黑色笔刷区域作为运动遮罩,以允许在这些区域内自由运动。
- 根据需要调整CFG缩放和位置感知残差缩放。
- 点击“生成”以创建视频。
右下角面板显示状态和生成的视频。画廊中还提供了一组示例输入。
局限性
作为生成式模型,输出可能会有所不同。您可以尝试更改种子、步数、CFG缩放、位置感知残差缩放,或调整草图/遮罩输入,以获得不同的结果。
📑 引用
如果您觉得ToonComposer有用,请考虑引用以下文献:
@article{li2025tooncomposer,
title={ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing},
author={Li, Lingen and Wang, Guangzhi and Zhang, Zhaoyang and Li, Yaowei and Li, Xiaoyu and Dou, Qi and Gu, Jinwei and Xue, Tianfan and Shan, Ying},
journal={arXiv preprint arXiv:2508.10881},
year={2025}
}
📃 许可证
详细信息请参阅LICENSE文件。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中