Awesome-Optical-Flow
Awesome-Optical-Flow 是一个专注于光流估计领域的开源论文与项目精选清单。光流技术旨在通过分析连续视频帧中像素的运动轨迹,让计算机“看懂”物体的移动方式,这是视频分析、自动驾驶和动作识别等任务的核心基础。该资源库系统地梳理了从经典算法到前沿研究的演进脉络,有效解决了研究人员在面对海量文献时难以快速定位高质量成果、复现代码或追踪技术趋势的痛点。
这份清单特别适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。它不仅按时间顺序收录了包括 CVPR、ECCV、NeurIPS 等顶级会议的最新论文,还贴心地附带了对应的官方代码仓库链接及热度指标。内容涵盖了监督学习模型等多种技术路线,其中不乏如 RAFT、FlowFormer、GMFlow 等具有里程碑意义的架构,展示了从循环神经网络到 Transformer、再到全局匹配机制等技术亮点的演变。无论是希望入门光流领域的新手,还是寻求最新灵感的专业开发者,都能在这里高效获取经过筛选的优质资源,加速科研与开发进程。
使用场景
某自动驾驶初创公司的算法团队正在研发夜间复杂路况下的车辆运动感知模块,急需高精度的光流估计技术来追踪动态障碍物。
没有 Awesome-Optical-Flow 时
- 检索效率低下:工程师需在 arXiv、Google Scholar 等多个平台分散搜索,耗费数周筛选“光流”相关论文,且难以区分哪些已开源代码。
- 技术选型盲目:面对 RAFT、FlowFormer 等众多模型,缺乏横向对比依据,容易误选不适合低光照场景的旧架构,导致初期验证失败。
- 复现成本高昂:找到的论文往往缺少官方实现链接,团队需从头复现算法,因细节缺失导致性能无法达到论文水平,严重拖慢研发进度。
- 前沿洞察滞后:难以系统性发现如 MemFlow(引入记忆机制)或 DistractFlow(抗干扰训练)等最新突破,错失提升鲁棒性的关键机会。
使用 Awesome-Optical-Flow 后
- 一站式资源聚合:团队直接查阅该清单,按时间或会议(如 CVPR24、NeurIPS22)快速定位到带官方 Repo 链接的顶会论文,将调研周期从数周缩短至两天。
- 精准匹配需求:通过列表中的模型特性描述,迅速锁定针对遮挡和动态模糊优化的 GMA 或 GMFlow 模型,避免了无效的试错成本。
- 无缝对接开发:每个条目均附带高星 GitHub 仓库链接,开发人员可直接拉取预训练权重和推理代码,当天即可完成基线模型部署。
- 紧跟技术演进:清单持续更新的“监督式模型”板块让团队即时掌握了结合生成式方法的最新趋势,为下一代预测算法提供了明确演进路径。
Awesome-Optical-Flow 将碎片化的学术成果转化为结构化的工程资产,让研发团队能从繁琐的文献挖掘中解脱,专注于核心算法的落地与优化。
运行环境要求
未说明
未说明

快速开始
令人惊叹的光流
这是一份关于光流及相关工作的优秀文章列表。点击此处以全屏阅读。
目录位于“README.md”的右侧。
最近,我撰写了《未来帧合成综述:连接确定性与生成方法》(arXiv链接),欢迎大家阅读。
光流
监督学习模型
| 时间 | 论文 | 代码库 |
|---|---|---|
| CVPR24 | MemFlow: 基于记忆的光流估计与预测 | MemFlow |
| CVPR23 | DistractFlow: 通过真实干扰和伪标签改进光流估计 | |
| CVPR23 | 用于预训练光流估计的掩码代价体积自编码 | FlowFormerPlusPlus |
| NeurIPS22 | SKFlow: 使用超级核学习光流 | SKFlow |
| ECCV22 | 解耦光流架构与训练 | Autoflow |
| ECCV22 | FlowFormer: 一种用于光流的Transformer架构 | FlowFormer |
| CVPR22 | 利用核块注意力学习光流 | KPAFlow |
| CVPR22 | GMFlow: 通过全局匹配学习光流 | gmflow |
| CVPR22 | 深度均衡光流估计 | deq-flow |
| ICCV21 | 基于1D注意力与相关性的高分辨率光流 | flow1d |
| ICCV21 | 通过全局运动聚合学习隐藏运动 | GMA |
| CVPR21 | 从少量匹配中学习光流 | SCV |
| TIP21 | 用于立体匹配和光流的细节保留型粗细匹配 | |
| ECCV20 | RAFT: 用于光流的循环式全对场变换 | RAFT |
| CVPR20 | MaskFlownet: 带可学习遮挡掩码的非对称特征匹配 | MaskFlownet |
| CVPR20 | ScopeFlow: 针对光流的动态场景范围划分 | ScopeFlow |
| TPAMI20 | 一种轻量级光流CNN——重新审视数据保真度与正则化 | LiteFlowNet2 |
多帧监督学习模型
| 时间 | 论文 | 代码库 |
|---|---|---|
| ECCV24 | 用于点跟踪的局部全对对应关系 | |
| CVPR24 | FlowTrack: 为长距离密集跟踪重新审视光流 | |
| CVPR24 | 密集光流跟踪:连接各点 | dot |
| ICCV23 | 同时、处处、追踪一切 | omnimotion |
| ICCV23 | AccFlow: 用于长距离光流的反向累积 | AccFlow |
| ICCV23 | VideoFlow: 利用时间线索进行多帧光流估计 | VideoFlow |
| ECCV22 | 重访粒子视频:利用点轨迹穿越遮挡进行跟踪 | PIPs |
半监督学习模型
| 时间 | 论文 | 代码库 |
|---|---|---|
| ECCV22 | 由光流监督器实现的光流半监督学习 |
数据合成
| 时间 | 论文 | 仓库 |
|---|---|---|
| ECCV22 | RealFlow: 基于EM的从视频生成逼真光流数据集 | RealFlow |
| CVPR21 | AutoFlow: 学习更好的光流训练集 | autoflow |
| CVPR21 | 从静态图像中学习光流 | depthstillation |
| arXiv21.04 | 从无配对图像合成光流数据集 |
无监督模型
| 时间 | 论文 | 仓库 |
|---|---|---|
| ECCV22 | 通过主动学习在有限标注预算下进行光流训练 | optical-flow-active-learning-release |
| CVPR21 | SMURF: 自我教学的多帧无监督RAFT,带全图变形 | smurf GoogleResearch |
| CVPR21 | UPFlow: 用于无监督光流学习的上采样金字塔 | UPFlow_pytorch |
| TIP21 | OccInpFlow: 基于无监督学习的遮挡修复光流估计 | depthstillation |
| ECCV20 | 无监督光流中什么最重要 | uflow GoogleResearch |
| CVPR20 | 类比学习:通过变换获得可靠的监督信号以进行无监督光流估计 | ARFlow |
| CVPR20 | Flow2Stereo: 光流与立体匹配的有效自监督学习 |
联合学习
| 时间 | 论文 | 仓库 |
|---|---|---|
| arXiv21.11 | 统一光流、立体和深度估计 | unimatch |
| CVPR21 | EffiScene: 针对无监督联合学习光流、深度、相机姿态和运动分割的高效逐像素刚性推理 | |
| CVPR21 | 特征级协作:光流、立体深度和相机运动的联合无监督学习 |
特殊场景
| 时间 | 论文 | 仓库 |
|---|---|---|
| CVPR23 | 针对雾天场景光流的无监督累积域适应 | UCDA-Flow |
| ECCV22 | 基于多投影融合的深度360°光流估计 | |
| AAAI21 | 从单张运动模糊图像中估计光流 | |
| CVPR20 | 使用半监督学习处理浓雾场景中的光流 | |
| CVPR20 | 黑暗中的光流 | Optical-Flow-in-the-Dark |
特殊设备
事件相机 event-based_vision_resources
| 时间 | 论文 | 仓库 |
|---|---|---|
| ArXiv23.03 | 利用渲染数据集从事件相机学习光流 | |
| ECCV22 | 基于事件的光流的秘密 | event_based_optical_flow |
| ICCV21 | GyroFlow: 陀螺仪引导的无监督光流学习 | GyroFlow |
场景流
| 时间 | 论文 | 仓库 |
|---|---|---|
| CVPR21 | RAFT-3D: 使用刚体运动嵌入的场景流 | |
| CVPR21 | 顺其自然:自监督场景流估计 | Just-Go-with-the-Flow-Self-Supervised-Scene-Flow-Estimation |
| CVPR21 | 从两帧中学习分割刚体运动 | rigidmask |
| CVPR20 | 通过光学膨胀将光流升级为3D场景流 | expansion |
| CVPR20 | 自监督单目场景流估计 | self-mono-sf |
应用
视频合成/生成
| 时间 | 论文 | 仓库 |
|---|---|---|
| ECCV24 | 更清晰的帧,随时可用:解决视频帧插值中的速度模糊问题 | InterpAny-Clearer |
| arXiv23.11 | MoVideo:基于扩散模型的运动感知视频生成 | |
| CVPR24 | FlowVid:驯服不完美的光流以实现一致的视频到视频合成 | |
| WACV24 | 用于高效时空视频超分辨率的尺度自适应特征聚合 | SAFA |
| CVPR23 | 用于视频预测的动态多尺度体素流网络 | DMVFN |
| CVPR23 | 基于潜在流扩散模型的条件图像到视频生成 | LFDM |
| CVPR23 | 用于视频帧插值的统一金字塔递归网络 | UPR-Net |
| CVPR23 | 通过帧间注意力提取运动和外观信息以实现高效的视频帧插值 | EMA-VFI |
| WACV23 | 利用隐式流编码进行动态场景的帧插值 | frameintIFE |
| ACMMM22 | 基于光流的视频帧合成中的邻域对应匹配 | |
| ECCV22 | 提升2D动画插值的感知质量 | eisai |
| ECCV22 | 用于视频帧插值的实时中间流估计 | RIFE |
| CVPR22 | VideoINR:学习视频隐式神经表示以实现连续时空超分辨率 | VideoINR |
| CVPR22 | IFRNet:用于高效帧插值的中间特征精炼网络 | IFRNet |
| TOG21 | 渲染内容的神经帧插值 | |
| CVPR21 | 野外环境下的深度动画视频插值 | AnimeInterp |
| CVPR20 | 用于视频帧插值的Softmax Splatting | softmax-splatting |
| CVPR20 | 用于视频帧插值的流自适应协作 | AdaCoF-pytorch |
| CVPR20 | FeatureFlow:通过结构到纹理的生成实现鲁棒的视频插值 | FeatureFlow |
视频修复
| 时间 | 论文 | 仓库 |
|---|---|---|
| ECCV22 | 用于视频修复的流引导Transformer | FGT |
| CVPR22 | 惯性引导的光流补全与风格融合用于视频修复 | isvi |
视频稳定
| 时间 | 论文 | 仓库 |
|---|---|---|
| CVPR20 | 利用光流学习视频稳定 | jiyang.fun |
低层视觉
| 时间 | 论文 | 仓库 |
|---|---|---|
| ICCV21 | 多帧超分辨率与去噪的深度重参数化 | deep-rep |
| CVPR21 | 深度突发超分辨率 | deep-burst-sr |
| CVPR20 | 利用空间变换单元网络结合光流指导训练实现高效的动态场景去模糊 | |
| TIP20 | 利用高分辨率光流估计进行深度视频超分辨率 | SOF-VSR |
立体视觉与SLAM
| 时间 | 论文 | 仓库 |
|---|---|---|
| 3DV21 | RAFT-Stereo:用于立体匹配的多级递归场变换 | RAFT-Stereo |
| CVPR20 | VOLDOR:基于对数逻辑密集光流残差的视觉里程计 | VOLDOR |
2020年之前
经典估计方法
| 时间 | 论文 | 仓库 |
|---|---|---|
| IJCAI1981 | 一种用于立体视觉的迭代图像配准技术 | |
| AI1981 | 确定光流 | |
| TPAMI10 | 保持运动细节的光流估计 | |
| CVPR10 | 光流估计的秘密及其原理 | |
| ICCV13 | DeepFlow:基于深度匹配的大位移光流 | 项目 |
| ECCV14 | 基于通道恒定性的光流估计 | |
| CVPR17 | S2F:慢速到快速插值光流 |
其他
| 时间 | 论文 | 仓库 |
|---|---|---|
| NeurIPS19 | 用于光流的体积对应网络 | VCN |
| CVPR19 | 用于联合光流和遮挡估计的迭代残差精炼 | irr |
| CVPR18 | PWC-Net:使用金字塔、变形和代价体的光流CNN | PWC-Net |
| CVPR18 | LiteFlowNet:用于光流估计的轻量级卷积神经网络 | LiteFlowNet |
| CVPR17 | FlowNet 2.0:基于深度网络的光流估计演进 | flownet2-pytorch flownet2 flownet2-tf |
| CVPR17 | 使用空间金字塔网络进行光流估计 | spynet |
| ICCV15 | FlowNet:使用卷积网络学习光流 | FlowNetPytorch |
| AAAI19 | DDFlow:利用无标签数据蒸馏学习光流 | DDFlow |
| CVPR19 | SelFlow:自监督学习光流 | SelFlow |
| CVPR19 | 适用于静态或动态场景的无监督深度极线光流 | EPIFlow |
| CVPR18 | 密集深度、光流和相机姿态的无监督学习 | GeoNet |
| ICCV19 | RainFlow:雨线与雨幕效应下的光流 | |
| CVPR18 | 雨天场景中鲁棒的光流估计 | |
| NIPS19 | 二次视频插帧 | |
| CVPR19 | 深度感知视频帧插值 | DAIN |
| CVPR18 | Super SloMo:高质量估算多帧中间帧以进行视频插值 | Super-SloMo |
| ICCV17 | 使用深度体素流进行视频帧合成 | voxel-flow |
| CVPR19 | DVC:端到端的深度视频压缩框架 | PyTorchVideoCompression |
| ICCV17 | SegFlow:视频目标分割与光流的联合学习 | SegFlow |
| CVPR18 | 具有时空注意力的端到端光流相关性跟踪 | |
| CVPR18 | 光流引导特征:一种快速且鲁棒的运动表示,用于视频动作识别 | Optical-Flow-Guided-Feature |
| GCPR18 | 关于光流与动作识别的融合 | |
| CVPR14 | 用于视频稳定的空间平滑光流 |
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备