ControlVideo

862 62 中等 1 次阅读 3周前MIT开发框架图像视频

AI 解读由 AI 自动生成，仅供参考

ControlVideo 是一款基于 PyTorch 的开源项目，旨在实现无需额外训练即可控制的文本生成视频功能。它巧妙地将图像领域成熟的 ControlNet 技术迁移至视频生成任务中，让用户能够通过深度图、边缘轮廓或人体姿态等结构条件，精准引导视频内容的生成过程。

传统文生视频模型往往难以精确控制画面结构与动作连贯性，而重新训练大型视频模型又成本高昂。ControlVideo 直接解决了这一痛点，它无需对基础模型进行微调（Training-free），便能继承 Stable Diffusion 的高质量生成能力，同时确保视频帧间的时序一致性，有效避免了画面闪烁或结构崩坏的问题。

该工具特别适合 AI 研究人员、开发者以及需要精细控制视频内容的创作者使用。研究人员可借此探索零样本迁移机制，开发者能轻松集成到自己的应用中，而设计师则可以利用它快速制作符合特定构图要求的动态素材。其核心技术亮点在于“免训练”架构，支持直接加载预训练的 ControlNet 权重（包括 v1.0 和 v1.1 版本），并内置了平滑处理步骤以优化长视频生成的流畅度。目前，ControlVideo 已提供 Hugging Face 在线演示和 Replicate 部署方案，降低了体验门槛，让可控视频生成变得更加触手可及。

使用场景

某独立游戏开发者需要为一款水下探索游戏快速生成符合特定地形结构的动态背景视频，以匹配关卡设计中的深度图序列。

没有 ControlVideo 时

动作与结构脱节：直接使用文生视频模型时，生成的水流和生物游动轨迹往往无视预设的深度地形，导致角色“穿模”或漂浮在不合理的高度。
训练成本高昂：若想让视频严格遵循深度图约束，通常需要对基础模型进行微调（Fine-tuning），这需要大量显存资源和漫长的等待时间。
画面闪烁严重：逐帧生成再拼接的方式导致帧间一致性差，水面波纹和光影变化出现剧烈闪烁，破坏沉浸感。
迭代效率低下：每次调整地形后都需重新训练或反复抽卡尝试，难以配合敏捷开发节奏快速验证效果。

使用 ControlVideo 后

精准结构控制：ControlVideo 直接利用现有的 ControlNet 深度模型，无需任何额外训练，即可让生成的鸭子或火焰严格贴合输入视频的深度轮廓运动。
零样本即时部署：开发者加载预训练权重后即可运行，省去了繁琐的微调过程，将原本数小时的准备时间缩短至几分钟。
时序平滑自然：内置的平滑步骤（smoother_steps）机制有效消除了帧间抖动，生成的水下光影流动连贯且细腻，达到商用级画质。
灵活高效迭代：只需替换输入的深度图序列并修改提示词，即可瞬间获得多种风格的新视频，极大加速了关卡原型的验证流程。

ControlVideo 通过零样本迁移技术，将静态图像的结构控制能力完美延伸至视频领域，让开发者能以极低算力成本实现高一致性的可控视频生成。

运行环境要求

操作系统

未说明

GPU

必需（基于 PyTorch 和 Stable Diffusion），建议使用支持 xformers 的 NVIDIA GPU 以节省显存和时间，具体显存需求未说明（通常 SD v1.5 需 8GB+）

内存

未说明

依赖

notes1. 必须使用 conda 创建 Python 3.10 环境。2. 首次运行前需手动下载预训练权重（包括 Stable Diffusion v1.5、多种 ControlNet 模型及 RIFE 的 flownet.pkl）至 checkpoints 目录。3. 强烈建议安装 xformers 库以优化显存占用和推理速度。4. 支持 ControlNet 1.0 和 1.1 版本。

python3.10

torch

xformers (推荐)

controlnet-aux==0.0.6

diffusers (隐含)

transformers (隐含)

accelerate (隐含)

快速开始

ControlVideo

“ControlVideo：无需训练的可控文本到视频生成”的官方 PyTorch 实现

![HuggingFace demo](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20 Face-Spaces-blue) visitors

ControlVideo 在不进行任何微调的情况下，将 ControlNet 适配到视频领域，旨在直接继承其高质量和一致性的生成效果。

新闻

[2023年7月16日] 添加了 HuggingFace 演示!
[2023年7月11日] 支持基于 ControlNet 1.1 的版本！
[2023年5月28日] 感谢 chenxwh，添加了 Replicate 演示!
[2023年5月25日] 代码 ControlVideo 发布！
[2023年5月23日] 论文 ControlVideo 发表！

设置

1. 下载权重

所有预训练权重都会被下载到 checkpoints/ 目录下，其中包括 Stable Diffusion v1.5 的预训练权重、以 canny 边缘、深度图和人体姿态为条件的 ControlNet 1.0 权重，以及这里的 ControlNet 1.1 权重。 flownet.pkl 是 RIFE 的权重。最终的文件结构如下：

checkpoints
├── stable-diffusion-v1-5
├── sd-controlnet-canny
├── sd-controlnet-depth
├── sd-controlnet-openpose
├── ...
├── flownet.pkl

2. 需求

conda create -n controlvideo python=3.10
conda activate controlvideo
pip install -r requirements.txt

注意：建议使用 xformers 以节省内存和运行时间。controlnet-aux 已更新至 0.0.6 版本。

推理

要执行文本到视频生成，只需在 inference.sh 中运行以下命令：

python inference.py \
    --prompt "一只引人注目的绿头鸭轻松地漂浮在波光粼粼的池塘上。" \
    --condition "depth" \
    --video_path "data/mallard-water.mp4" \
    --output_path "outputs/" \
    --video_length 15 \
    --smoother_steps 19 20 \
    --width 512 \
    --height 512 \
    --frame_rate 2 \
    --version v10 \
    # --is_long_video

其中 --video_length 是合成视频的时长，--condition 表示结构序列的类型， --smoother_steps 决定在哪些时间步进行平滑处理，--version 选择 ControlNet 的版本（例如 v10 或 v11），而 --is_long_video 则表示是否启用高效的长视频合成。

可视化

ControlVideo 在深度图上的应用


“一只迷人的火烈鸟优雅地漫步在平静而宁静的水中，它那纤细的脖子弯曲成优美的形状。”	“一只引人注目的绿头鸭轻松地漂浮在波光粼粼的池塘上。”	“一辆巨大的黄色吉普车缓缓驶过城市里宽阔平坦的道路。”

“一艘 sleek 的船以梵高风格毫不费力地滑过波光粼粼的河流。”	“一艘雄伟的帆船沿着浩瀚蔚蓝的大海巡航。”	“一头满足的奶牛悠闲地漫步在露珠点点、绿意盎然的牧场上。”

ControlVideo 在 Canny 边缘上的应用


“一位年轻男子骑着一辆光滑黑色的摩托车穿行于蜿蜒的山路上。”	“一只白色的天鹅在湖面上游动，卡通风格。”	“一辆满是灰尘的老式吉普车正沿着曲折的林间小路艰难前行，每经过一个颠簸或转弯都会发出嘎吱声和呻吟声。”

“一辆闪亮的红色吉普车平稳地拐上了一条狭窄而蜿蜒的山路。”	“一头雄伟的骆驼优雅地踏过灼热的沙漠沙丘。”	“一位健壮的男人正悠闲地穿行于一片郁郁葱葱的森林之中。”

基于人体姿态的ControlVideo


“詹姆斯·邦德在海滩上跳月球步，动画风格。”	“悟空置身群山之间，超现实风格。”	“绿巨人正在街头跳跃，卡通风格。”	“机器人在道路上跳舞，动画风格。”

长视频生成


“一艘蒸汽船行驶在海面上，日落时分，素描风格。”	“绿巨人正在海滩上跳舞，卡通风格。”

引用

如果您使用了我们的工作，请引用我们的论文。

@article{zhang2023controlvideo,
  title={ControlVideo: 无需训练的可控文本到视频生成},
  author={Zhang, Yabo and Wei, Yuxiang and Jiang, Dongsheng and Zhang, Xiaopeng and Zuo, Wangmeng and Tian, Qi},
  journal={arXiv预印本 arXiv:2305.13077},
  year={2023}
}

致谢

本项目代码大量借鉴了Diffusers、ControlNet、Tune-A-Video以及RIFE。HuggingFace演示代码则参考了fffiloni/ControlVideo。感谢他们的贡献！

此外，视频生成领域还有许多有趣的工作：Tune-A-Video、Text2Video-Zero、Follow-Your-Pose、Control-A-Video等。

ControlVideo 快速上手指南

ControlVideo 是一个无需训练即可实现可控文本生成视频（Text-to-Video）的开源项目。它通过将 ControlNet 适配到视频领域，直接继承其高质量和一致性的生成能力，支持基于深度图、边缘检测（Canny）、人体姿态等条件生成视频。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: 3.10
硬件要求: 推荐使用 NVIDIA GPU，显存建议 16GB 以上（开启 xformers 可优化显存占用）
依赖管理: 已安装 conda 或 mamba

安装步骤

1. 创建并激活虚拟环境

conda create -n controlvideo python=3.10
conda activate controlvideo

2. 安装依赖库

为了加速下载，建议使用国内镜像源（如清华源）。

# 设置 pip 国内镜像
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装项目依赖
pip install -r requirements.txt

提示：requirements.txt 中已包含 xformers 推荐项，它能显著节省显存并提升运行速度。controlnet-aux 将自动更新至 0.0.6 版本。

3. 下载预训练权重

所有预训练权重需下载至 checkpoints/ 目录。主要包括 Stable Diffusion v1.5、不同条件的 ControlNet (Canny, Depth, OpenPose) 以及 RIFE 帧插值模型。

您可以手动从 HuggingFace 下载并整理目录，最终文件结构应如下所示：

checkpoints
├── stable-diffusion-v1-5
├── sd-controlnet-canny
├── sd-controlnet-depth
├── sd-controlnet-openpose
├── ... (其他 ControlNet 1.1 权重)
└── flownet.pkl

Stable Diffusion v1.5: 下载地址
ControlNet 权重: Canny, Depth, OpenPose
RIFE 权重 (flownet.pkl): 下载地址

基本使用

配置完成后，即可通过命令行进行文生视频推理。以下是一个基于深度图 (depth) 条件生成视频的最简示例：

python inference.py \
    --prompt "A striking mallard floats effortlessly on the sparkling pond." \
    --condition "depth" \
    --video_path "data/mallard-water.mp4" \
    --output_path "outputs/" \
    --video_length 15 \
    --smoother_steps 19 20 \
    --width 512 \
    --height 512 \
    --frame_rate 2 \
    --version v10

参数说明：

--prompt: 生成视频的文字描述。
--condition: 控制条件类型，支持 depth (深度图), canny (边缘), openpose (人体姿态) 等。
--video_path: 输入参考视频的路径（用于提取条件序列）。
--video_length: 生成视频的帧数。
--smoother_steps: 指定进行平滑处理的步数，以提升视频连贯性。
--version: 选择 ControlNet 版本，v10 或 v11。
--is_long_video: (可选) 添加此参数可启用高效长视频生成模式。

生成结果将保存在 --output_path 指定的目录中。

常见问题

如何生成包含手部和面部细节的单人角色视频？

在哪里可以获取项目论文中使用的评估数据集和提示词？

如何解决导入错误 'cannot import name CrossAttention from diffusers.models.attention'？

运行时报错找不到 'pytorch_model.bin' 等权重文件怎么办？

应该下载哪个具体的 Stable Diffusion v1.5 检查点文件用于推理？

如何设置输出视频的长度和帧率？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架