FLAVR

GitHub
514 76 中等 1 次阅读 昨天Apache-2.0视频开发框架
AI 解读 由 AI 自动生成,仅供参考

FLAVR 是一款专为视频帧插值设计的高效开源工具,旨在通过算法生成中间帧,将低帧率视频流畅地转换为高帧率视频。它主要解决了传统方法在处理复杂运动轨迹时容易出现的画面伪影问题,同时克服了依赖光流估计导致的计算速度慢、资源消耗大的瓶颈。

与以往技术不同,FLAVR 采用了独特的“无光流”架构,利用时空卷积和通道门控机制,能够单次推理直接预测多帧画面。这种设计不仅大幅提升了运行速度,还在速度与画质之间取得了优异的平衡,特别适合需要实时处理或批量制作高帧率内容的场景。

这款工具非常适合计算机视觉研究人员、视频算法开发者以及追求极致画质的影视后期设计师使用。对于希望将普通 30FPS 视频升级为 60FPS 甚至 240FPS 慢动作效果的技术人员,FLAVR 提供了预训练模型和简洁的命令行接口,只需简单配置即可在自定义视频上应用“慢动作滤镜”。作为 WACV 2023 的最佳论文入围项目,FLAVR 以其创新的架构和出色的性能,为高质量视频生成提供了新的可靠选择。

使用场景

一家独立游戏工作室正在制作宣传短片,需要将原本以 30FPS 录制的实机演示素材转换为流畅的 240FPS 慢动作视频,以突出角色战斗时的打击感和细节特效。

没有 FLAVR 时

  • 画面撕裂严重:传统插帧算法依赖光流估计,在处理角色快速位移或复杂粒子特效时,常因运动估算错误导致画面出现明显的伪影和扭曲。
  • 渲染效率低下:现有高精度模型推理速度慢,处理一段 10 秒的 4K 素材可能需要数小时,严重拖慢了剪辑迭代节奏。
  • 多帧预测困难:大多数工具仅支持生成中间单帧,要实现 8 倍升格需多次串联运行,不仅操作繁琐,还会累积误差导致画质下降。
  • 硬件门槛高:为了获得可接受的速度,往往需要部署多张高端显卡并行计算,增加了小型团队的硬件成本。

使用 FLAVR 后

  • 动态细节自然:FLAVR 采用无光流的时空卷积架构,能精准捕捉复杂运动轨迹,即使在高速战斗场景中也能生成无伪影的逼真帧。
  • 实时级处理速度:凭借高效的编码器 - 解码器设计,其在 512x512 分辨率下的推理速度达到 3.10 FPS,显著缩短了从素材到成片的等待时间。
  • 单次多帧生成:支持“单次拍摄”多帧预测模式,可直接通过 8x 模型一步到位将 30FPS 视频转为 240FPS,避免了多次处理带来的画质损耗。
  • 资源利用优化:在保持高画质的同时实现了速度与精度的最佳平衡,使得在单块消费级显卡上高效完成高质量慢动作制作成为可能。

FLAVR 通过突破性的无光流架构,让游戏开发者能以极低的计算成本,将普通录屏瞬间转化为电影级的超流畅慢动作视觉盛宴。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU,训练需 8 张 GPU,CUDA 10.1

内存

未说明

依赖
notes官方明确在 Ubuntu 18.04 下测试。自定义视频慢动作处理功能需要 OpenCV 4.2.0。训练 Vimeo-90K 数据集建议使用 8 张 GPU。部分预训练模型链接可能因 Google Drive 策略调整而失效。
python3.7.4
torch==1.5.0
torchvision==0.6.0
numpy==1.19.2
opencv-python==4.2.0
FLAVR hero image

快速开始

FLAVR:用于快速帧插值的流无关视频表示

WACV 2023(最佳论文入围)

Eg1 Eg2

[项目页面] [论文] [项目视频]

FLAVR 是一种快速、无流处理的帧插值方法,能够实现单次拍摄下的多帧预测。它采用定制化的编码器-解码器架构,结合时空卷积与通道门控技术,用于捕捉并插值帧间复杂的运动轨迹,从而生成逼真且高帧率的视频。本仓库包含原始源代码。

推理时间

与以往的帧插值方法相比,FLAVR 在速度与精度之间实现了更好的平衡。

方法 512x512 图像上的 FPS(秒)
FLAVR 3.10
SuperSloMo 3.33
QVI 1.02
DAIN 0.77

依赖项

我们使用了以下工具来训练和测试该模型。

  • Ubuntu 18.04
  • Python==3.7.4
  • numpy==1.19.2
  • PyTorch==1.5.0,torchvision==0.6.0,cudatoolkit==10.1

模型

在 Vimeo-90K 七重奏数据集上训练模型

若要基于 Vimeo-90K 数据集训练自己的模型,请使用以下命令。您可从此链接下载该数据集。论文中报告的结果均使用 8 个 GPU 进行训练。

python main.py --batch_size 32 --test_batch_size 32 --dataset vimeo90K_septuplet --loss 1*L1 --max_epoch 200 --lr 0.0002 --data_root <dataset_path> --n_outputs 1

在 GoPro 数据集上进行训练的方法类似,只需将 n_outputs 修改为 7,以实现 8 倍插值。

使用已训练模型进行测试。

已训练模型

您可以从以下链接下载预训练的 FLAVR 模型。

方法 已训练模型
2x 链接
4x 链接
8x 链接

2x 插值

若要将预训练模型应用于 Vimeo-90K 七重奏验证集进行测试,您可以运行以下命令:

python test.py --dataset vimeo90K_septuplet --data_root <data_path> --load_from <saved_model> --n_outputs 1

8x 插值

若要测试多帧插值模型,请使用与上述相同的命令,并相应地调整 n_outputs 的值,以适应多帧 FLAVR 模型。

时间基准测试

除了计算 PSNR 和 SSIM 值外,测试脚本还会输出插值的推理时间和速度。

中堡基准评测

要对中堡公开基准进行评测,请运行以下命令。

python Middleburry_Test.py --data_root <data_path> --load_from <model_path>

插值后的图像将保存至 Middleburry 文件夹中,其格式便于直接上传至排行榜

自定义视频上的 SloMo 滤镜

您可以使用我们训练好的模型,在自己的视频上应用慢动作滤镜(需配备 OpenCV 4.2.0)。请使用以下命令。若想将 30 FPS 的视频转换为 240 FPS 的视频,只需使用如下命令:

python interpolate.py --input_video <input_video> --factor 8 --load_model <model_path>

其中,我们使用了预训练模型进行 8 倍插值。若要将 30 FPS 的视频转换为 60 FPS 的视频,则可使用 2 倍模型,将 factor 设置为 2。

基线模型

我们还针对许多其他先前的研究成果,在我们的实验环境中进行了模型训练,并提供了所有这些方法的模型。完整的基准评测脚本也将很快发布。

新版本(2024年4月):由于谷歌将其 Google Drive 免费存储空间额度大幅削减,我已无法再访问下方列出的其他方法的预训练模型。我希望未来能够重新训练这些模型并发布新的链接,但目前暂不抱太大期望。非常抱歉!

方法 Vimeo 上的 PSNR 已训练模型
FLAVR 36.3 模型
AdaCoF 35.3 模型
QVI* 35.15 模型
DAIN 34.19 模型
SuperSloMo* 32.90 模型
  • SuperSloMo 是基于此处的代码库实现的。其他基线模型则采用官方代码库进行实现。
  • 本文中展示的基线模型数值略优于论文中报告的数值。

Google Colab

本仓库的 notebooks 目录中提供了一个 Colab 笔记本,您可以在其中尝试对自定义视频进行 2 倍慢动作滤镜处理。

动态放大模型

遗憾的是,我们目前无法提供动态放大模型的预训练模型。我们正努力尽快推出相关模型。

感谢

本代码大量借鉴了 Facebook 官方的 PyTorch 视频仓库 以及 CAIN

引用

如果这段代码对您的工作有所帮助,请考虑向我们致谢。

@article{kalluri2023flavr,
  title={FLAVR:用于快速帧插值的流无关视频表示},
  author={Kalluri, Tarun and Pathak, Deepak and Chandraker, Manmohan and Tran, Du},
  booktitle={WACV},
  year={2023}
}

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架