Awesome-Optical-Flow

GitHub
637 39 困难 1 次阅读 今天开发框架图像
AI 解读 由 AI 自动生成,仅供参考

Awesome-Optical-Flow 是一个专注于光流估计领域的开源论文与项目精选清单。光流技术旨在通过分析连续视频帧中像素的运动轨迹,让计算机“看懂”物体的移动方式,这是视频分析、自动驾驶和动作识别等任务的核心基础。该资源库系统地梳理了从经典算法到前沿研究的演进脉络,有效解决了研究人员在面对海量文献时难以快速定位高质量成果、复现代码或追踪技术趋势的痛点。

这份清单特别适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。它不仅按时间顺序收录了包括 CVPR、ECCV、NeurIPS 等顶级会议的最新论文,还贴心地附带了对应的官方代码仓库链接及热度指标。内容涵盖了监督学习模型等多种技术路线,其中不乏如 RAFT、FlowFormer、GMFlow 等具有里程碑意义的架构,展示了从循环神经网络到 Transformer、再到全局匹配机制等技术亮点的演变。无论是希望入门光流领域的新手,还是寻求最新灵感的专业开发者,都能在这里高效获取经过筛选的优质资源,加速科研与开发进程。

使用场景

某自动驾驶初创公司的算法团队正在研发夜间复杂路况下的车辆运动感知模块,急需高精度的光流估计技术来追踪动态障碍物。

没有 Awesome-Optical-Flow 时

  • 检索效率低下:工程师需在 arXiv、Google Scholar 等多个平台分散搜索,耗费数周筛选“光流”相关论文,且难以区分哪些已开源代码。
  • 技术选型盲目:面对 RAFT、FlowFormer 等众多模型,缺乏横向对比依据,容易误选不适合低光照场景的旧架构,导致初期验证失败。
  • 复现成本高昂:找到的论文往往缺少官方实现链接,团队需从头复现算法,因细节缺失导致性能无法达到论文水平,严重拖慢研发进度。
  • 前沿洞察滞后:难以系统性发现如 MemFlow(引入记忆机制)或 DistractFlow(抗干扰训练)等最新突破,错失提升鲁棒性的关键机会。

使用 Awesome-Optical-Flow 后

  • 一站式资源聚合:团队直接查阅该清单,按时间或会议(如 CVPR24、NeurIPS22)快速定位到带官方 Repo 链接的顶会论文,将调研周期从数周缩短至两天。
  • 精准匹配需求:通过列表中的模型特性描述,迅速锁定针对遮挡和动态模糊优化的 GMA 或 GMFlow 模型,避免了无效的试错成本。
  • 无缝对接开发:每个条目均附带高星 GitHub 仓库链接,开发人员可直接拉取预训练权重和推理代码,当天即可完成基线模型部署。
  • 紧跟技术演进:清单持续更新的“监督式模型”板块让团队即时掌握了结合生成式方法的最新趋势,为下一代预测算法提供了明确演进路径。

Awesome-Optical-Flow 将碎片化的学术成果转化为结构化的工程资产,让研发团队能从繁琐的文献挖掘中解脱,专注于核心算法的落地与优化。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesAwesome-Optical-Flow 本身是一个光流相关论文和开源项目的列表(Awesome List),并非一个可直接运行的单一软件工具。README 中列出了数十个独立的光流模型(如 RAFT, FlowFormer, GMFlow 等),每个模型都有各自独立的代码仓库和特定的运行环境需求。用户需前往列表中具体模型的 GitHub 页面查看其详细的安装指南、依赖库版本及硬件要求。
python未说明
Awesome-Optical-Flow hero image

快速开始

令人惊叹的光流

这是一份关于光流及相关工作的优秀文章列表。点击此处以全屏阅读。

目录位于“README.md”的右侧。

最近,我撰写了《未来帧合成综述:连接确定性与生成方法》(arXiv链接),欢迎大家阅读。

光流

监督学习模型

时间 论文 代码库
CVPR24 MemFlow: 基于记忆的光流估计与预测 MemFlow GitHub星标
CVPR23 DistractFlow: 通过真实干扰和伪标签改进光流估计
CVPR23 用于预训练光流估计的掩码代价体积自编码 FlowFormerPlusPlus GitHub星标
NeurIPS22 SKFlow: 使用超级核学习光流 SKFlow GitHub星标
ECCV22 解耦光流架构与训练 Autoflow GitHub星标
ECCV22 FlowFormer: 一种用于光流的Transformer架构 FlowFormer GitHub星标
CVPR22 利用核块注意力学习光流 KPAFlow GitHub星标
CVPR22 GMFlow: 通过全局匹配学习光流 gmflow GitHub星标
CVPR22 深度均衡光流估计 deq-flow GitHub星标
ICCV21 基于1D注意力与相关性的高分辨率光流 flow1dGitHub星标
ICCV21 通过全局运动聚合学习隐藏运动 GMA GitHub星标
CVPR21 从少量匹配中学习光流 SCV GitHub星标
TIP21 用于立体匹配和光流的细节保留型粗细匹配
ECCV20 RAFT: 用于光流的循环式全对场变换 RAFT GitHub星标
CVPR20 MaskFlownet: 带可学习遮挡掩码的非对称特征匹配 MaskFlownet GitHub星标
CVPR20 ScopeFlow: 针对光流的动态场景范围划分 ScopeFlow GitHub星标
TPAMI20 一种轻量级光流CNN——重新审视数据保真度与正则化 LiteFlowNet2 GitHub星标

多帧监督学习模型

时间 论文 代码库
ECCV24 用于点跟踪的局部全对对应关系
CVPR24 FlowTrack: 为长距离密集跟踪重新审视光流
CVPR24 密集光流跟踪:连接各点 dot GitHub星标
ICCV23 同时、处处、追踪一切 omnimotion GitHub星标
ICCV23 AccFlow: 用于长距离光流的反向累积 AccFlow GitHub星标
ICCV23 VideoFlow: 利用时间线索进行多帧光流估计 VideoFlow GitHub星标
ECCV22 重访粒子视频:利用点轨迹穿越遮挡进行跟踪 PIPs GitHub星标

半监督学习模型

时间 论文 代码库
ECCV22 由光流监督器实现的光流半监督学习

数据合成

时间 论文 仓库
ECCV22 RealFlow: 基于EM的从视频生成逼真光流数据集 RealFlow Github星标
CVPR21 AutoFlow: 学习更好的光流训练集 autoflow Github星标
CVPR21 从静态图像中学习光流 depthstillation Github星标
arXiv21.04 从无配对图像合成光流数据集

无监督模型

时间 论文 仓库
ECCV22 通过主动学习在有限标注预算下进行光流训练 optical-flow-active-learning-release Github星标
CVPR21 SMURF: 自我教学的多帧无监督RAFT,带全图变形 smurf GoogleResearch
CVPR21 UPFlow: 用于无监督光流学习的上采样金字塔 UPFlow_pytorch Github星标
TIP21 OccInpFlow: 基于无监督学习的遮挡修复光流估计 depthstillation Github星标
ECCV20 无监督光流中什么最重要 uflow GoogleResearch
CVPR20 类比学习:通过变换获得可靠的监督信号以进行无监督光流估计 ARFlow Github星标
CVPR20 Flow2Stereo: 光流与立体匹配的有效自监督学习

联合学习

时间 论文 仓库
arXiv21.11 统一光流、立体和深度估计 unimatch Github星标
CVPR21 EffiScene: 针对无监督联合学习光流、深度、相机姿态和运动分割的高效逐像素刚性推理
CVPR21 特征级协作:光流、立体深度和相机运动的联合无监督学习

特殊场景

时间 论文 仓库
CVPR23 针对雾天场景光流的无监督累积域适应 UCDA-Flow Github星标
ECCV22 基于多投影融合的深度360°光流估计
AAAI21 从单张运动模糊图像中估计光流
CVPR20 使用半监督学习处理浓雾场景中的光流
CVPR20 黑暗中的光流 Optical-Flow-in-the-Dark Github星标

特殊设备

事件相机 event-based_vision_resources Github星标

时间 论文 仓库
ArXiv23.03 利用渲染数据集从事件相机学习光流
ECCV22 基于事件的光流的秘密 event_based_optical_flow Github星标
ICCV21 GyroFlow: 陀螺仪引导的无监督光流学习 GyroFlow Github星标

场景流

时间 论文 仓库
CVPR21 RAFT-3D: 使用刚体运动嵌入的场景流
CVPR21 顺其自然:自监督场景流估计 Just-Go-with-the-Flow-Self-Supervised-Scene-Flow-Estimation Github星标
CVPR21 从两帧中学习分割刚体运动 rigidmaskGithub星标
CVPR20 通过光学膨胀将光流升级为3D场景流 expansion Github星标
CVPR20 自监督单目场景流估计 self-mono-sf Github星标

应用

视频合成/生成

时间 论文 仓库
ECCV24 更清晰的帧,随时可用:解决视频帧插值中的速度模糊问题 InterpAny-Clearer Github星标
arXiv23.11 MoVideo:基于扩散模型的运动感知视频生成
CVPR24 FlowVid:驯服不完美的光流以实现一致的视频到视频合成
WACV24 用于高效时空视频超分辨率的尺度自适应特征聚合 SAFA Github星标
CVPR23 用于视频预测的动态多尺度体素流网络 DMVFN Github星标
CVPR23 基于潜在流扩散模型的条件图像到视频生成 LFDM Github星标
CVPR23 用于视频帧插值的统一金字塔递归网络 UPR-Net Github星标
CVPR23 通过帧间注意力提取运动和外观信息以实现高效的视频帧插值 EMA-VFI Github星标
WACV23 利用隐式流编码进行动态场景的帧插值 frameintIFE Github星标
ACMMM22 基于光流的视频帧合成中的邻域对应匹配
ECCV22 提升2D动画插值的感知质量 eisai Github星标
ECCV22 用于视频帧插值的实时中间流估计 RIFE Github星标
CVPR22 VideoINR:学习视频隐式神经表示以实现连续时空超分辨率 VideoINR Github星标
CVPR22 IFRNet:用于高效帧插值的中间特征精炼网络 IFRNet Github星标
TOG21 渲染内容的神经帧插值
CVPR21 野外环境下的深度动画视频插值 AnimeInterp Github星标
CVPR20 用于视频帧插值的Softmax Splatting softmax-splatting Github星标
CVPR20 用于视频帧插值的流自适应协作 AdaCoF-pytorch Github星标
CVPR20 FeatureFlow:通过结构到纹理的生成实现鲁棒的视频插值 FeatureFlow Github星标

视频修复

时间 论文 仓库
ECCV22 用于视频修复的流引导Transformer FGT Github星标
CVPR22 惯性引导的光流补全与风格融合用于视频修复 isvi Github星标

视频稳定

时间 论文 仓库
CVPR20 利用光流学习视频稳定 jiyang.fun

低层视觉

时间 论文 仓库
ICCV21 多帧超分辨率与去噪的深度重参数化 deep-rep Github星标
CVPR21 深度突发超分辨率 deep-burst-sr Github星标
CVPR20 利用空间变换单元网络结合光流指导训练实现高效的动态场景去模糊
TIP20 利用高分辨率光流估计进行深度视频超分辨率 SOF-VSR Github星标

立体视觉与SLAM

时间 论文 仓库
3DV21 RAFT-Stereo:用于立体匹配的多级递归场变换 RAFT-Stereo Github星标
CVPR20 VOLDOR:基于对数逻辑密集光流残差的视觉里程计 VOLDOR Github星标

2020年之前

经典估计方法

时间 论文 仓库
IJCAI1981 一种用于立体视觉的迭代图像配准技术
AI1981 确定光流
TPAMI10 保持运动细节的光流估计
CVPR10 光流估计的秘密及其原理
ICCV13 DeepFlow:基于深度匹配的大位移光流 项目
ECCV14 基于通道恒定性的光流估计
CVPR17 S2F:慢速到快速插值光流

其他

时间 论文 仓库
NeurIPS19 用于光流的体积对应网络 VCN Github星标
CVPR19 用于联合光流和遮挡估计的迭代残差精炼 irr Github星标
CVPR18 PWC-Net:使用金字塔、变形和代价体的光流CNN PWC-Net Github星标
CVPR18 LiteFlowNet:用于光流估计的轻量级卷积神经网络 LiteFlowNet Github星标
CVPR17 FlowNet 2.0:基于深度网络的光流估计演进 flownet2-pytorch Github星标
flownet2 Github星标
flownet2-tf Github星标
CVPR17 使用空间金字塔网络进行光流估计 spynet Github星标
ICCV15 FlowNet:使用卷积网络学习光流 FlowNetPytorch Github星标
AAAI19 DDFlow:利用无标签数据蒸馏学习光流 DDFlow Github星标
CVPR19 SelFlow:自监督学习光流 SelFlow Github星标
CVPR19 适用于静态或动态场景的无监督深度极线光流 EPIFlow Github星标
CVPR18 密集深度、光流和相机姿态的无监督学习 GeoNet Github星标
ICCV19 RainFlow:雨线与雨幕效应下的光流
CVPR18 雨天场景中鲁棒的光流估计
NIPS19 二次视频插帧
CVPR19 深度感知视频帧插值 DAIN Github星标
CVPR18 Super SloMo:高质量估算多帧中间帧以进行视频插值 Super-SloMo Github星标
ICCV17 使用深度体素流进行视频帧合成 voxel-flow Github星标
CVPR19 DVC:端到端的深度视频压缩框架 PyTorchVideoCompression Github星标
ICCV17 SegFlow:视频目标分割与光流的联合学习 SegFlow Github星标
CVPR18 具有时空注意力的端到端光流相关性跟踪
CVPR18 光流引导特征:一种快速且鲁棒的运动表示,用于视频动作识别 Optical-Flow-Guided-Feature Github星标
GCPR18 关于光流与动作识别的融合
CVPR14 用于视频稳定的空间平滑光流

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

146.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|2天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent