LIA

650 69 中等 1 次阅读 3周前NOASSERTION图像视频

AI 解读由 AI 自动生成，仅供参考

LIA（Latent Image Animator）是一款基于深度学习的开源图像动画化工具，能让静态图片“动”起来。它只需一张源图片和一段驱动视频，即可生成自然流畅的动态影像，广泛应用于人脸表情迁移、肢体动作模拟等场景。

传统方法通常依赖复杂的结构信息提取模块来传递动作，一旦源图与视频外观差异较大，效果往往大打折扣。LIA 巧妙避开了这一瓶颈，采用自监督自编码器架构，无需额外提取结构特征，而是通过在潜在空间中进行线性导航来构建运动。其核心技术亮点在于学习了一组正交的运动方向，并通过它们的线性组合来表示潜在空间中的任意位移，从而在 VoxCeleb、Taichi 等多个数据集上实现了超越现有最先进方法的生成质量。

LIA 非常适合计算机视觉研究人员、AI 开发者以及需要高效视频生成方案的技术团队使用。虽然普通用户也可通过预训练模型体验演示效果，但其主要价值在于为学术界和工业界提供了一个简洁、高效且无需复杂结构表示的动画生成新范式。项目基于 PyTorch 构建，代码开放，便于二次开发与实验验证。

使用场景

一家数字营销机构需要为电商客户快速制作大量人物口播视频，但仅有单张产品代言人的静态照片和一段通用的驱动视频素材。

没有 LIA 时

外观一致性差：传统方法依赖提取骨骼或关键点等结构信息，当源图片人物着装、发型与驱动视频差异较大时，生成结果容易出现面部扭曲或衣物错位。
流程复杂冗长：必须额外部署专门的结构提取模块来辅助运动迁移，增加了系统架构的复杂度和推理延迟。
泛化能力受限：一旦遇到大角度转头或复杂表情变化，模型往往无法正确处理，导致视频背景闪烁或人物特征丢失。
调试成本高：为了适配不同风格的数据集（如真人说话 vs 卡通动画），需要反复调整预处理参数甚至重新训练辅助网络。

使用 LIA 后

潜在空间线性导航：LIA 摒弃了显式的结构表示，直接在潜在空间中通过代码的线性位移构建运动，即使源图与驱动视频外观差异巨大，也能保持人物特征高度一致。
架构精简高效：作为一个自监督自编码器，LIA 无需额外的结构提取模块，显著降低了模型复杂度，推理速度更快且易于部署。
正交运动方向学习：通过同时学习一组正交的运动方向并进行线性组合，LIA 能更稳健地处理大幅度的头部转动和细微的表情变化，生成视频质量显著提升。
跨数据集通用性强：在 VoxCeleb、Taichi 等多个数据集上的表现均优于现有最先进方法，一套模型即可灵活应对多种场景需求。

LIA 通过创新的潜在空间线性导航技术，让静态图像动画化过程不再受限于外观差异和复杂结构提取，实现了高质量、低成本的视频内容自动生成。

运行环境要求

操作系统

未说明

GPU

需要支持 CUDA 的 NVIDIA GPU（因基于 PyTorch），具体型号和显存大小未说明

内存

未说明

依赖

notes该项目是 ICLR 2022 和 TPAMI 2024 论文的官方实现。运行演示前需从 Google Drive 下载预训练模型并放入 ./checkpoints 目录。代码部分改编自 FOMM 和 MRAA 项目。

python3.7

PyTorch>=1.5

tensorboard

moviepy

tqdm

lpips

快速开始

LIA：潜在图像动画器

王耀辉、杨迪、弗朗索瓦·布雷蒙、安蒂察·丹切娃

项目页面 | 论文

这是 ICLR 2022 论文“潜在图像动画器：通过潜在空间导航学习图像动画”和 TPAMI 2024 论文“LIA：潜在图像动画器”的官方 PyTorch 实现。

摘要：得益于深度生成模型的显著进步，图像动画变得越来越高效，生成结果也愈发逼真。当前的动画方法通常利用从驱动视频中提取的结构表示来实现这一目标。这种结构表示在将运动从驱动视频迁移到静态图像方面起到了关键作用。然而，当源图像与驱动视频之间存在较大的外观差异时，这些方法往往失效。此外，结构信息的提取还需要额外的模块，这进一步增加了模型的复杂性。与此不同，我们提出了潜在图像动画器（LIA），这是一种自监督的自编码器，无需依赖结构表示。LIA 通过在潜在空间中进行线性导航来实现图像动画。具体而言，生成视频中的运动是通过潜在空间中编码的线性位移构建的。为此，我们同时学习一组正交的运动方向，并利用它们的线性组合来表示潜在空间中的任意位移。大量的定量和定性分析表明，在 VoxCeleb、Taichi 和 TED-talk 数据集上，我们的模型在生成质量方面系统性地显著优于现有最先进方法。

环境要求

Python 3.7
PyTorch 1.5+
tensorboard
moviepy
av
tqdm
lpips

1. 动画演示

从这里下载预训练检查点，并将模型文件放入 ./checkpoints 目录下。我们在 ./data 中提供了若干示例源图像和驱动视频。运行以下命令即可生成演示结果，结果将保存在 ./res 目录下：

python run_demo.py --model vox --source_path ./data/vox/macron.png --driving_path ./data/vox/driving1.mp4 # 使用 vox 模型
python run_demo.py --model taichi --source_path ./data/taichi/subject1.png --driving_path ./data/taichi/driving1.mp4 # 使用 taichi 模型
python run_demo.py --model ted --source_path ./data/ted/subject1.png --driving_path ./data/ted/driving1.mp4 # 使用 ted 模型

如果您想使用自己的图像和视频，请指定 <SOURCE_PATH>（源图像）、<DRIVING_PATH>（驱动视频）以及 <DATASET>，然后运行：

python run_demo.py --model <DATASET> --source_path <SOURCE_PATH> --driving_path <DRIVING_PATH>

2. 评估

要获得重建效果和 LPIPS 结果，请将检查点放入 ./checkpoints 目录下，然后运行：

python evaluation.py --dataset <DATASET> --save_path <SAVE_PATH>

生成的视频将保存在 <SAVE_PATH> 目录下。对于其他评估指标，我们使用了此处的代码。

3. 线性操控

要对单张图像进行线性操控并生成结果，请运行：

python linear_manipulation.py --model <DATASET> --img_path <IMAGE_PATH> --save_folder <RESULTS_PATH>

默认情况下，结果将保存在 ./res_manipulation 目录下。

致谢

部分代码改编自 FOMM 和 MRAA。感谢作者们为社区所做的贡献。

BibTex

@inproceedings{
wang2022latent,
title={Latent Image Animator: Learning to Animate Images via Latent Space Navigation},
author={Yaohui Wang and Di Yang and Francois Bremond and Antitza Dantcheva},
booktitle={International Conference on Learning Representations},
year={2022}
}

@ARTICLE{10645735,
  author={Wang, Yaohui and Yang, Di and Bremond, Francois and Dantcheva, Antitza},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, 
  title={LIA: Latent Image Animator}, 
  year={2024},
  pages={1-16},
}

LIA (Latent Image Animator) 快速上手指南

LIA 是一个基于自监督自编码器的图像动画工具，无需提取结构表示，仅通过潜在空间的线性导航即可让静态图像动起来。该项目支持 VoxCeleb、Taichi 和 TED-talk 等数据集模型。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux / macOS / Windows (推荐 Linux)
Python: 3.7+
PyTorch: 1.5+ (建议安装与 CUDA 版本匹配的 GPU 版本)
其他依赖:
- tensorboard
- moviepy
- av
- tqdm
- lpips

国内加速建议：推荐使用清华或阿里镜像源安装 Python 依赖，以加快下载速度：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆仓库

git clone https://github.com/wyhsirius/LIA-project.git
cd LIA-project

安装依赖 创建 requirements.txt 文件（如果项目中未直接提供），内容如下：

torch>=1.5
tensorboard
moviepy
av
tqdm
lpips

然后执行安装命令：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

下载预训练模型 从 Google Drive 下载预训练检查点，并将其放入项目根目录下的 ./checkpoints 文件夹中。

注：若无法访问 Google Drive，需自行寻找国内网盘搬运资源或联系作者获取。
准备数据 项目已包含部分演示用的源图片和驱动视频，位于 ./data 目录下。如需使用自定义素材，请准备好源图片（.png/.jpg）和驱动视频（.mp4）。

基本使用

以下是最简单的动画生成示例，将使用预训练模型让一张静态图片根据驱动视频的动作进行动画化。

运行演示 Demo

使用项目自带的测试数据运行（以 VoxCeleb 模型为例）：

python run_demo.py --model vox --source_path ./data/vox/macron.png --driving_path ./data/vox/driving1.mp4

生成的结果视频将保存在 ./res 目录下。

使用自定义图片与视频

如果您想使用自己的素材，请替换路径参数并指定对应的数据集模型类型（vox, taichi, 或 ted）：

python run_demo.py --model <DATASET> --source_path <SOURCE_PATH> --driving_path <DRIVING_PATH>

示例：

python run_demo.py --model taichi --source_path ./my_images/person.png --driving_path ./my_videos/dance.mp4

单图线性操控（可选）

如果您只想对单张图片进行潜在空间的线性变换（如改变表情、姿态等），可运行：

python linear_manipulation.py --model <DATASET> --img_path <IMAGE_PATH> --save_folder <RESULTS_PATH>

默认结果保存于 ./res_manipulation。

常见问题

使用 `--resume_ckpt` 恢复训练时出现显存溢出（OOM）或报错，而从零开始训练正常，如何解决？

运行 demo 时遇到 'numpy.float64' object has no attribute 'numerator' 错误或视频保存失败怎么办？

已安装 PyAV 但仍报错 "ImportError: PyAV is not installed" 如何解决？

如果想使用单张图片而不是视频作为驱动源（driving source），应该如何设置？

模型架构中 Fig.8 提到的 toRGB 层和 NoiseInjection 是否被实际使用？

目前是否有成功在 512x512 高分辨率下训练 LIA 模型的案例？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频