Awesome-Optical-Flow

637 39 困难 1 次阅读今天开发框架图像

AI 解读由 AI 自动生成，仅供参考

Awesome-Optical-Flow 是一个专注于光流估计领域的开源论文与项目精选清单。光流技术旨在通过分析连续视频帧中像素的运动轨迹，让计算机“看懂”物体的移动方式，这是视频分析、自动驾驶和动作识别等任务的核心基础。该资源库系统地梳理了从经典算法到前沿研究的演进脉络，有效解决了研究人员在面对海量文献时难以快速定位高质量成果、复现代码或追踪技术趋势的痛点。

这份清单特别适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。它不仅按时间顺序收录了包括 CVPR、ECCV、NeurIPS 等顶级会议的最新论文，还贴心地附带了对应的官方代码仓库链接及热度指标。内容涵盖了监督学习模型等多种技术路线，其中不乏如 RAFT、FlowFormer、GMFlow 等具有里程碑意义的架构，展示了从循环神经网络到 Transformer、再到全局匹配机制等技术亮点的演变。无论是希望入门光流领域的新手，还是寻求最新灵感的专业开发者，都能在这里高效获取经过筛选的优质资源，加速科研与开发进程。

使用场景

某自动驾驶初创公司的算法团队正在研发夜间复杂路况下的车辆运动感知模块，急需高精度的光流估计技术来追踪动态障碍物。

没有 Awesome-Optical-Flow 时

检索效率低下：工程师需在 arXiv、Google Scholar 等多个平台分散搜索，耗费数周筛选“光流”相关论文，且难以区分哪些已开源代码。
技术选型盲目：面对 RAFT、FlowFormer 等众多模型，缺乏横向对比依据，容易误选不适合低光照场景的旧架构，导致初期验证失败。
复现成本高昂：找到的论文往往缺少官方实现链接，团队需从头复现算法，因细节缺失导致性能无法达到论文水平，严重拖慢研发进度。
前沿洞察滞后：难以系统性发现如 MemFlow（引入记忆机制）或 DistractFlow（抗干扰训练）等最新突破，错失提升鲁棒性的关键机会。

使用 Awesome-Optical-Flow 后

一站式资源聚合：团队直接查阅该清单，按时间或会议（如 CVPR24、NeurIPS22）快速定位到带官方 Repo 链接的顶会论文，将调研周期从数周缩短至两天。
精准匹配需求：通过列表中的模型特性描述，迅速锁定针对遮挡和动态模糊优化的 GMA 或 GMFlow 模型，避免了无效的试错成本。
无缝对接开发：每个条目均附带高星 GitHub 仓库链接，开发人员可直接拉取预训练权重和推理代码，当天即可完成基线模型部署。
紧跟技术演进：清单持续更新的“监督式模型”板块让团队即时掌握了结合生成式方法的最新趋势，为下一代预测算法提供了明确演进路径。

Awesome-Optical-Flow 将碎片化的学术成果转化为结构化的工程资产，让研发团队能从繁琐的文献挖掘中解脱，专注于核心算法的落地与优化。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesAwesome-Optical-Flow 本身是一个光流相关论文和开源项目的列表（Awesome List），并非一个可直接运行的单一软件工具。README 中列出了数十个独立的光流模型（如 RAFT, FlowFormer, GMFlow 等），每个模型都有各自独立的代码仓库和特定的运行环境需求。用户需前往列表中具体模型的 GitHub 页面查看其详细的安装指南、依赖库版本及硬件要求。

python未说明

快速开始

令人惊叹的光流

这是一份关于光流及相关工作的优秀文章列表。点击此处以全屏阅读。

目录位于“README.md”的右侧。

最近，我撰写了《未来帧合成综述：连接确定性与生成方法》（arXiv链接），欢迎大家阅读。

光流

监督学习模型

时间	论文	代码库
CVPR24	MemFlow: 基于记忆的光流估计与预测	MemFlow
CVPR23	DistractFlow: 通过真实干扰和伪标签改进光流估计
CVPR23	用于预训练光流估计的掩码代价体积自编码	FlowFormerPlusPlus
NeurIPS22	SKFlow: 使用超级核学习光流	SKFlow
ECCV22	解耦光流架构与训练	Autoflow
ECCV22	FlowFormer: 一种用于光流的Transformer架构	FlowFormer
CVPR22	利用核块注意力学习光流	KPAFlow
CVPR22	GMFlow: 通过全局匹配学习光流	gmflow
CVPR22	深度均衡光流估计	deq-flow
ICCV21	基于1D注意力与相关性的高分辨率光流	flow1d
ICCV21	通过全局运动聚合学习隐藏运动	GMA
CVPR21	从少量匹配中学习光流	SCV
TIP21	用于立体匹配和光流的细节保留型粗细匹配
ECCV20	RAFT: 用于光流的循环式全对场变换	RAFT
CVPR20	MaskFlownet: 带可学习遮挡掩码的非对称特征匹配	MaskFlownet
CVPR20	ScopeFlow: 针对光流的动态场景范围划分	ScopeFlow
TPAMI20	一种轻量级光流CNN——重新审视数据保真度与正则化	LiteFlowNet2

多帧监督学习模型

时间	论文	代码库
ECCV24	用于点跟踪的局部全对对应关系
CVPR24	FlowTrack: 为长距离密集跟踪重新审视光流
CVPR24	密集光流跟踪：连接各点	dot
ICCV23	同时、处处、追踪一切	omnimotion
ICCV23	AccFlow: 用于长距离光流的反向累积	AccFlow
ICCV23	VideoFlow: 利用时间线索进行多帧光流估计	VideoFlow
ECCV22	重访粒子视频：利用点轨迹穿越遮挡进行跟踪	PIPs

半监督学习模型

时间	论文	代码库
ECCV22	由光流监督器实现的光流半监督学习

数据合成

时间	论文	仓库
ECCV22	RealFlow: 基于EM的从视频生成逼真光流数据集	RealFlow
CVPR21	AutoFlow: 学习更好的光流训练集	autoflow
CVPR21	从静态图像中学习光流	depthstillation
arXiv21.04	从无配对图像合成光流数据集

无监督模型

时间	论文	仓库
ECCV22	通过主动学习在有限标注预算下进行光流训练	optical-flow-active-learning-release
CVPR21	SMURF: 自我教学的多帧无监督RAFT，带全图变形	smurf GoogleResearch
CVPR21	UPFlow: 用于无监督光流学习的上采样金字塔	UPFlow_pytorch
TIP21	OccInpFlow: 基于无监督学习的遮挡修复光流估计	depthstillation
ECCV20	无监督光流中什么最重要	uflow GoogleResearch
CVPR20	类比学习：通过变换获得可靠的监督信号以进行无监督光流估计	ARFlow
CVPR20	Flow2Stereo: 光流与立体匹配的有效自监督学习

联合学习

时间	论文	仓库
arXiv21.11	统一光流、立体和深度估计	unimatch
CVPR21	EffiScene: 针对无监督联合学习光流、深度、相机姿态和运动分割的高效逐像素刚性推理
CVPR21	特征级协作：光流、立体深度和相机运动的联合无监督学习

特殊场景

时间	论文	仓库
CVPR23	针对雾天场景光流的无监督累积域适应	UCDA-Flow
ECCV22	基于多投影融合的深度360°光流估计
AAAI21	从单张运动模糊图像中估计光流
CVPR20	使用半监督学习处理浓雾场景中的光流
CVPR20	黑暗中的光流	Optical-Flow-in-the-Dark

特殊设备

事件相机 event-based_vision_resources Github星标

时间	论文	仓库
ArXiv23.03	利用渲染数据集从事件相机学习光流
ECCV22	基于事件的光流的秘密	event_based_optical_flow
ICCV21	GyroFlow: 陀螺仪引导的无监督光流学习	GyroFlow

场景流

时间	论文	仓库
CVPR21	RAFT-3D: 使用刚体运动嵌入的场景流
CVPR21	顺其自然：自监督场景流估计	Just-Go-with-the-Flow-Self-Supervised-Scene-Flow-Estimation
CVPR21	从两帧中学习分割刚体运动	rigidmask
CVPR20	通过光学膨胀将光流升级为3D场景流	expansion
CVPR20	自监督单目场景流估计	self-mono-sf

应用

视频合成/生成

时间	论文	仓库
ECCV24	更清晰的帧，随时可用：解决视频帧插值中的速度模糊问题	InterpAny-Clearer
arXiv23.11	MoVideo：基于扩散模型的运动感知视频生成
CVPR24	FlowVid：驯服不完美的光流以实现一致的视频到视频合成
WACV24	用于高效时空视频超分辨率的尺度自适应特征聚合	SAFA
CVPR23	用于视频预测的动态多尺度体素流网络	DMVFN
CVPR23	基于潜在流扩散模型的条件图像到视频生成	LFDM
CVPR23	用于视频帧插值的统一金字塔递归网络	UPR-Net
CVPR23	通过帧间注意力提取运动和外观信息以实现高效的视频帧插值	EMA-VFI
WACV23	利用隐式流编码进行动态场景的帧插值	frameintIFE
ACMMM22	基于光流的视频帧合成中的邻域对应匹配
ECCV22	提升2D动画插值的感知质量	eisai
ECCV22	用于视频帧插值的实时中间流估计	RIFE
CVPR22	VideoINR：学习视频隐式神经表示以实现连续时空超分辨率	VideoINR
CVPR22	IFRNet：用于高效帧插值的中间特征精炼网络	IFRNet
TOG21	渲染内容的神经帧插值
CVPR21	野外环境下的深度动画视频插值	AnimeInterp
CVPR20	用于视频帧插值的Softmax Splatting	softmax-splatting
CVPR20	用于视频帧插值的流自适应协作	AdaCoF-pytorch
CVPR20	FeatureFlow：通过结构到纹理的生成实现鲁棒的视频插值	FeatureFlow

视频修复

时间	论文	仓库
ECCV22	用于视频修复的流引导Transformer	FGT
CVPR22	惯性引导的光流补全与风格融合用于视频修复	isvi

视频稳定

时间	论文	仓库
CVPR20	利用光流学习视频稳定	jiyang.fun

低层视觉

时间	论文	仓库
ICCV21	多帧超分辨率与去噪的深度重参数化	deep-rep
CVPR21	深度突发超分辨率	deep-burst-sr
CVPR20	利用空间变换单元网络结合光流指导训练实现高效的动态场景去模糊
TIP20	利用高分辨率光流估计进行深度视频超分辨率	SOF-VSR

立体视觉与SLAM

时间	论文	仓库
3DV21	RAFT-Stereo：用于立体匹配的多级递归场变换	RAFT-Stereo
CVPR20	VOLDOR：基于对数逻辑密集光流残差的视觉里程计	VOLDOR

2020年之前

经典估计方法

时间	论文	仓库
IJCAI1981	一种用于立体视觉的迭代图像配准技术
AI1981	确定光流
TPAMI10	保持运动细节的光流估计
CVPR10	光流估计的秘密及其原理
ICCV13	DeepFlow：基于深度匹配的大位移光流	项目
ECCV14	基于通道恒定性的光流估计
CVPR17	S2F：慢速到快速插值光流

其他

时间	论文	仓库
NeurIPS19	用于光流的体积对应网络	VCN
CVPR19	用于联合光流和遮挡估计的迭代残差精炼	irr
CVPR18	PWC-Net：使用金字塔、变形和代价体的光流CNN	PWC-Net
CVPR18	LiteFlowNet：用于光流估计的轻量级卷积神经网络	LiteFlowNet
CVPR17	FlowNet 2.0：基于深度网络的光流估计演进	flownet2-pytorch flownet2 flownet2-tf
CVPR17	使用空间金字塔网络进行光流估计	spynet
ICCV15	FlowNet：使用卷积网络学习光流	FlowNetPytorch
AAAI19	DDFlow：利用无标签数据蒸馏学习光流	DDFlow
CVPR19	SelFlow：自监督学习光流	SelFlow
CVPR19	适用于静态或动态场景的无监督深度极线光流	EPIFlow
CVPR18	密集深度、光流和相机姿态的无监督学习	GeoNet
ICCV19	RainFlow：雨线与雨幕效应下的光流
CVPR18	雨天场景中鲁棒的光流估计
NIPS19	二次视频插帧
CVPR19	深度感知视频帧插值	DAIN
CVPR18	Super SloMo：高质量估算多帧中间帧以进行视频插值	Super-SloMo
ICCV17	使用深度体素流进行视频帧合成	voxel-flow
CVPR19	DVC：端到端的深度视频压缩框架	PyTorchVideoCompression
ICCV17	SegFlow：视频目标分割与光流的联合学习	SegFlow
CVPR18	具有时空注意力的端到端光流相关性跟踪
CVPR18	光流引导特征：一种快速且鲁棒的运动表示，用于视频动作识别	Optical-Flow-Guided-Feature
GCPR18	关于光流与动作识别的融合
CVPR14	用于视频稳定的空间平滑光流

Awesome-Optical-Flow 快速上手指南

Awesome-Optical-Flow 并非单一的可执行软件，而是一个精选的光流（Optical Flow）相关论文、代码库和数据集的开源列表。本指南将指导开发者如何利用该列表快速找到适合的光流模型（如 RAFT, GMFlow, FlowFormer 等），并以列表中热门的 RAFT 模型为例，演示环境搭建与基本使用流程。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求。大多数现代光流模型依赖 PyTorch 和 CUDA 进行加速。

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS (部分模型支持，但推理速度较慢)。
硬件要求: NVIDIA GPU (建议显存 ≥ 4GB)，已安装对应的 CUDA Toolkit (通常建议 11.1+)。
前置依赖:
- Python 3.7+
- Git
- Conda (推荐用于管理虚拟环境)

2. 安装步骤

由于列表中包含多个独立项目，以下步骤以经典的 RAFT 模型为例展示通用安装流程。其他模型的安装逻辑类似，请参考对应仓库的 README。

2.1 创建虚拟环境

conda create -n optical_flow python=3.8
conda activate optical_flow

2.2 安装 PyTorch (推荐使用国内镜像源)

访问 PyTorch 官网获取对应命令，或使用清华源加速安装：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

(注：请根据您的实际 CUDA 版本调整 cu118 参数)

2.3 克隆目标仓库并安装依赖

以 RAFT 为例：

# 克隆代码
git clone https://github.com/princeton-vl/RAFT.git
cd RAFT

# 安装核心依赖
pip install -r requirements.txt

# 安装 corrcheck 和 altcorr 扩展 (光流模型常用自定义算子)
cd core/utils
python setup.py build_ext --inplace
cd ../../

提示：若遇到网络问题克隆 GitHub 仓库失败，可尝试使用 Gitee 镜像或配置代理。

3. 基本使用

安装完成后，您可以下载预训练权重并对图像对进行光流估计。

3.1 下载预训练模型

大多数仓库提供直接下载的脚本或链接。以 RAFT 为例：

wget https://dl.dropboxusercontent.com/s/4j4z58wuv8o0mfz/models.zip
unzip models.zip

3.2 运行推理示例

使用提供的演示脚本处理两张图片（frame1 和 frame2），生成光流图。

python demo.py --model=models/raft-things.pth --path=demo-frames

参数说明：

--model: 指定预训练权重路径（如 raft-things.pth 或 raft-sintel.pth）。
--path: 输入图像文件夹路径或单张图像路径。
--mixed_precision: (可选) 启用混合精度推理以加快速度。

3.3 探索更多模型

回到 Awesome-Optical-Flow 列表，您可以根据需求选择不同特性的模型：

高精度: 参考 FlowFormer, GMFlow (CVPR 2022)。
长序列跟踪: 参考 FlowTrack, AccFlow (CVPR/ICCV 2023-2024)。
无监督学习: 参考 UPFlow, SMURF。
特殊场景: 如雾天 (UCDA-Flow) 或暗光环境 (Optical-Flow-in-the-Dark)。

只需替换上述“安装步骤”中的仓库地址和对应的运行命令即可切换模型。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent