TokenFlow

1.7k 143 中等 1 次阅读 1周前MIT视频图像

AI 解读由 AI 自动生成，仅供参考

TokenFlow 是一个专为视频编辑设计的开源框架，它能让用户利用现有的文本生成图像扩散模型，轻松实现高质量且连贯的视频修改，而无需进行额外的训练或微调。

在传统方法中，直接对视频逐帧应用图像编辑技术往往会导致画面闪烁、纹理不一致或动态结构崩坏。TokenFlow 巧妙解决了这一痛点：它通过强制保持扩散特征空间的一致性，利用视频帧间的对应关系传播特征，从而在改变视频内容（如替换物体材质、添加烟雾火焰等特效）的同时，完美保留原始视频的空间布局和运动动态。

其核心技术亮点在于“零样本”能力——直接复用预训练的文本到图像模型，即可达成业界领先的编辑效果，并能灵活结合 Plug-and-Play、ControlNet 等多种现有图像编辑方案使用。

这款工具非常适合希望探索视频生成前沿技术的 AI 研究人员、需要高效原型的开发者，以及追求精细控制的内容创作者。虽然目前主要通过命令行操作，对普通用户有一定门槛，但它为无需昂贵算力即可实现专业级视频编辑提供了极具价值的新思路。

使用场景

一位短视频创作者需要为一段户外跑步的实拍素材添加“赛博朋克霓虹雨夜”的特效，要求保留人物原有的奔跑姿态和镜头运动轨迹。

没有 TokenFlow 时

画面闪烁严重：逐帧使用文生图模型编辑会导致每一帧的风格和细节不一致，合成后的视频出现严重的噪点闪烁和纹理跳动。
动作结构变形：传统的视频编辑方法难以在改变光影风格的同时，精准锁定人物的骨骼动态，导致跑步姿势扭曲或背景建筑错位。
训练成本高昂：若要获得连贯效果，通常需要对特定视频进行耗时的模型微调（Fine-tuning）或训练复杂的时序网络，普通创作者无法承担算力成本。
后期修复困难：为了掩盖帧间的不连贯，往往需要大量人工逐帧修图或使用模糊滤镜，严重牺牲了画面的清晰度和细节质感。

使用 TokenFlow 后

时序高度一致：TokenFlow 利用扩散特征传播机制，强制帧间特征保持一致，生成的霓虹雨效流畅自然，彻底消除了画面闪烁。
完美保留动态：在将白天转换为霓虹雨夜的同时，精准维持了原视频中人物的奔跑动作和摄像机的运镜轨迹，结构零失真。
无需额外训练：直接调用预训练的文生图扩散模型即可实现高质量编辑，无需任何微调过程，几分钟内即可完成处理。
即插即用高效：可灵活结合 ControlNet 等现有图像编辑技术，快速实现局部纹理替换或全局氛围增强，大幅缩短制作周期。

TokenFlow 的核心价值在于让开发者无需训练即可利用强大的文生图模型，实现兼具高视觉质量与时序连贯性的专业级视频编辑。

运行环境要求

操作系统

未说明

GPU

必需（基于 PyTorch 和扩散模型），具体型号和显存大小未说明，通常建议 NVIDIA GPU 以支持 CUDA

内存

未说明

依赖

notes该工具无需训练或微调，基于预训练的文本到图像扩散模型（如 Stable Diffusion）。使用前需通过 preprocess.py 对视频进行预处理生成潜变量。编辑功能依赖于外部图像编辑技术（如 Plug-and-Play, ControlNet, SDEdit），需单独配置对应的 YAML 文件。视频重建质量直接影响编辑效果。

python3.9

torch>=1.10.0

快速开始

TokenFlow：用于一致性视频编辑的一致性扩散特征（ICLR 2024）

[项目页面]

https://github.com/omerbt/TokenFlow/assets/52277000/93dccd63-7e9a-4540-a941-31962361b0bb

TokenFlow 是一个框架，它利用预训练的文本到图像扩散模型，在无需任何进一步训练或微调的情况下，实现一致性的视频编辑。

生成式人工智能革命最近扩展到了视频领域。然而，目前最先进的视频模型在视觉质量和用户对生成内容的控制方面，仍然落后于图像模型。在本工作中，我们提出了一种框架，利用文本到图像扩散模型的力量来完成文本驱动的视频编辑任务。具体来说，给定一段源视频和一个目标文本提示，我们的方法会生成一段高质量的视频，既符合目标文本的要求，又能保留输入视频的空间布局和动态特性。我们的方法基于一个关键观察：通过在扩散特征空间中强制保持一致性，就可以实现编辑后视频的一致性。我们通过显式地根据帧间对应关系传播扩散特征来实现这一点，而这些对应关系在模型中是现成可用的。因此，我们的框架不需要任何训练或微调，并且可以与任何现成的文本到图像编辑方法结合使用。我们在多种真实世界视频上展示了最先进的编辑效果。

更多信息请参见项目网页。

示例结果

环境

conda create -n tokenflow python=3.9
conda activate tokenflow
pip install -r requirements.txt

预处理

通过运行以下命令来预处理您的视频：

python preprocess.py --data_path <data/myvideo.mp4> \
                     --inversion_prompt <'' 或描述视频内容的字符串>

其他参数：

                     --save_dir <latents>
                     --H <视频高度>
                     --W <视频宽度>
                     --sd_version <Stable-Diffusion 版本>
                     --steps <反演步骤数>
                     --save_steps <稍后用于编辑的采样步骤数>
                     --n_frames <帧数>

更多关于这些参数的信息可以在这里找到。

注意：

视频重建将保存为 inverted.mp4。良好的重建效果对于使用我们的方法成功编辑至关重要。

编辑

TokenFlow 专为保持结构一致性的编辑设计。
我们的方法建立在图像编辑技术之上（例如，Plug-and-Play、ControlNet 等），因此确保所选基础技术能够正常工作非常重要。
根据原始视频的不同，LDM 解码器可能会引入一些抖动。

要编辑您的视频，首先按照 configs/config_pnp.yaml 的格式创建一个 YAML 配置文件。然后运行：

python run_tokenflow_pnp.py

同样地，如果您想使用 ControlNet 或 SDEdit，请分别按照 config/config_controlnet.yaml 或 configs/config_SDEdit.yaml 创建 YAML 配置文件，并分别运行 python run_tokenflow_controlnet.py 或 python run_tokenflow_SDEdit.py。

引用

@article{tokenflow2023,
        title = {TokenFlow: Consistent Diffusion Features for Consistent Video Editing},
        author = {Geyer, Michal and Bar-Tal, Omer and Bagon, Shai and Dekel, Tali},
        journal={arXiv preprint arxiv:2307.10373},
        year={2023}
        }

TokenFlow 快速上手指南

TokenFlow 是一个基于预训练文本到图像扩散模型的视频编辑框架。它无需额外训练或微调，即可在保持视频空间布局和动态一致性的前提下，实现高质量的文本驱动视频编辑。

环境准备

系统要求：

操作系统：Linux (推荐) 或 macOS
Python 版本：3.9
PyTorch 版本：>= 1.10.0
GPU：建议使用支持 CUDA 的 NVIDIA 显卡以获得最佳性能

前置依赖：

Conda (推荐用于环境管理)
Git

安装步骤

创建并激活 Conda 虚拟环境

conda create -n tokenflow python=3.9
conda activate tokenflow

克隆项目代码并安装依赖
```
git clone https://github.com/omerbt/TokenFlow.git
cd TokenFlow
pip install -r requirements.txt
```
提示：国内用户若下载依赖较慢，可添加清华源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

TokenFlow 的工作流程分为两步：视频预处理（反演） 和 执行编辑。

第一步：视频预处理

首先需要对源视频进行预处理，生成潜在空间表示。请运行以下命令：

python preprocess.py --data_path <data/myvideo.mp4> \
                     --inversion_prompt '<描述视频内容的字符串>'

关键参数说明：

--data_path: 输入视频的路径。
--inversion_prompt: 描述视频内容的提示词（若留空则自动处理，但提供准确描述效果更佳）。
--save_dir: 保存潜变量的目录（默认为 latents）。
--sd_version: 指定 Stable-Diffusion 版本。

注意：运行完成后会生成 inverted.mp4。请务必检查该重建视频的质量，良好的重建是成功编辑的前提。

第二步：执行编辑

TokenFlow 支持多种底层编辑技术（如 Plug-and-Play, ControlNet, SDEdit）。使用前需先配置对应的 YAML 文件。

示例：使用 Plug-and-Play (PnP) 进行编辑

参照 configs/config_pnp.yaml 创建或修改你的配置文件，设置目标文本提示词（target prompt）等参数。
运行编辑脚本：
```
python run_tokenflow_pnp.py
```

其他编辑模式：

ControlNet: 配置 configs/config_controlnet.yaml 后运行 python run_tokenflow_controlnet.py
SDEdit: 配置 configs/config_SDEdit.yaml 后运行 python run_tokenflow_SDEdit.py

编辑完成后，输出的视频将保留原始视频的结构和动态，同时体现文本提示带来的内容变化。

常见问题

增加视频帧数（n_frames）会导致显存（VRAM）不足，如何优化以处理更长视频？

运行 TokenFlow 后输出全黑视频或出现 NaN（非数字）错误，如何解决？

如何提取扩散特征（diffusion features）并可视化（如论文图 2 所示）？

运行项目时提示缺少 `torchvision`, `av`, `kornia` 等库，该怎么办？

配置文件 `config_sdedit.yaml` 中的默认数据路径或提示词似乎有误，正确的配置是什么？

预处理脚本 `preprocess.py` 中图片尺寸调整是否存在方向错误？

相似工具推荐

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像