Awesome-LLMs-for-Video-Understanding

GitHub
3.2k 142 困难 1 次阅读 今天语言模型视频其他
AI 解读 由 AI 自动生成,仅供参考

Awesome-LLMs-for-Video-Understanding 是一个专注于视频理解与大语言模型(Vid-LLMs)前沿技术的开源资源库。它系统性地整理了该领域最新的学术论文、代码实现、数据集及评测基准,旨在解决研究人员和开发者在面对海量且快速迭代的 Vid-LLM 文献时,难以高效获取核心信息和构建完整知识体系的痛点。

该项目不仅提供了一份被 IEEE TCSVT 接收的权威综述论文,还持续更新包含上百个主流模型和十余个新基准的详细列表。其独特亮点在于提出了一套基于视频表示和 LLM 功能的全新分类法,并从任务粒度与语言参与度等维度对视频理解任务进行了重新梳理,帮助使用者更清晰地把握技术演进脉络。此外,资源库还深入探讨了训练策略及跨领域应用,为后续研究提供了坚实的理论基础与实践参考。

无论是从事多模态算法研究的学者,还是希望将视频分析能力融入产品的工程师,都能从中找到极具价值的指引。通过这一平台,用户可以快速定位所需的技术方案,跟踪最新的研究动态,从而加速在智能视频分析领域的创新与落地。

使用场景

某视频内容审核团队正试图构建一个能理解复杂长视频情节、自动识别违规行为的智能系统,但面对飞速发展的多模态大模型技术感到无从下手。

没有 Awesome-LLMs-for-Video-Understanding 时

  • 文献检索如大海捞针:团队成员需分散在 arXiv、GitHub 和各大学术会议网站手动搜索,难以及时获取最新的 Vid-LLM 论文与代码,导致技术选型滞后。
  • 模型分类混乱不清:面对数百个新模型,缺乏统一的分类标准(如基于视频表征或 LLM 功能),难以判断哪些架构适合处理长时序依赖或细粒度动作识别。
  • 数据与基准匹配困难:不清楚哪些数据集支持特定的推理任务,也找不到权威的评测基准来验证自研模型的性能,重复造轮子现象严重。
  • 训练策略盲目试错:缺乏对适配器微调、全量训练等策略的系统性总结,团队在资源有限的情况下浪费大量算力进行无效实验。

使用 Awesome-LLMs-for-Video-Understanding 后

  • 一站式资源聚合:直接查阅该仓库整理的最新综述、百余个模型代码链接及 15+ 新基准,半天内即可完成从技术调研到方案选定的全过程。
  • 清晰的技术导航:利用其提出的新颖分类体系,快速锁定适合“长视频逻辑推理”任务的模型架构,大幅缩短技术验证周期。
  • 精准的数据与评测对接:通过关联的任务 - 数据集 - 基准映射表,迅速找到适配的监控视频数据集和评估指标,确保实验结果具有可比性。
  • 高效的训练路径规划:参考仓库中关于训练策略的深度章节,直接复用成熟的微调方案,避免了盲目的超参数搜索,显著降低研发成本。

Awesome-LLMs-for-Video-Understanding 将碎片化的前沿研究转化为结构化的工程指南,让视频理解大模型的开发从“盲目探索”转向“高效落地”。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个综述列表(Awesome List),主要整理了用于视频理解的大语言模型(Vid-LLMs)相关的论文、数据集和基准测试,并非一个可直接运行的单一软件工具。因此,README 中未提供具体的运行环境需求。用户若需运行列表中提到的具体模型(如 LLoVi, VideoTree, AntGPT 等),需前往各模型对应的独立代码仓库查阅其特定的环境配置要求。
python未说明
Awesome-LLMs-for-Video-Understanding hero image

快速开始

用于视频理解的优秀大语言模型 Awesome

🔥🔥🔥 利用大型语言模型进行视频理解:综述

唐云龙1, 毕静1, 徐思婷2, 宋陆川1, 梁苏珊1 , 王腾2,3 , 张道安1 , 安杰1 , 林景阳1 , 朱荣毅1 , 阿里·沃索吉1 , 黄超1 , 张泽良1 , 刘品欣1 , 冯明谦1 , 郑峰2 , 张建国2 , 罗平3 , 罗杰博1, 许晨亮1.

1罗切斯特大学, 2南方科技大学, 3香港大学

论文 | arXiv | 项目页面

image

📢 新闻

[10/06/2025]

🔥 我们的后续工作——视频-LMM 后训练:深入探讨大型多模态模型的视频推理—现已在 arXivHugging Face Papers 上发布!

[05/04/2025]

🌟 我们的 Vid-LLM 综述已被 IEEE 视频技术电路与系统汇刊 (TCSVT) 接受! 👉 IEEE Xplore | GitHub

[07/23/2024]

📢 我们最近更新了我们的综述:“利用大型语言模型进行视频理解:综述”!

✨ 这份全面的综述涵盖了由大型语言模型驱动的视频理解技术、训练策略、相关任务、数据集、基准测试和评估方法,并讨论了 Vid-LLMs 在各个领域的应用。

🚀 本次更新的新内容
✅ 更新至包含截至2024年6月约100个额外的Vid-LLMs和15个新基准。
✅ 基于视频表示和LLM功能提出了Vid-LLMs的新分类法。
✅ 增加了初步章节,从粒度和语言参与的角度重新分类了视频理解任务,并增强了LLM背景部分。
✅ 增加了新的训练策略章节,移除了适配器作为模型分类的因素。
✅ 所有图表均已重新设计。

在这次重大更新之后,还将进行多次小幅更新。GitHub仓库也将很快逐步更新。我们欢迎您的阅读和反馈 ❤️

目录

我们为什么需要 Vid-LLMs?

image

😎 Vid-LLMs:模型

image

📑 引用

如果您发现我们的综述对您的研究有所帮助,请引用以下论文:

@article{vidllmsurvey,
  author={Tang, Yunlong and Bi, Jing and Xu, Siting and Song, Luchuan and Liang, Susan and Wang, Teng and Zhang, Daoan and An, Jie and Lin, Jingyang and Zhu, Rongyi and Vosoughi, Ali and Huang, Chao and Zhang, Zeliang and Liu, Pinxin and Feng, Mingqian and Zheng, Feng and Zhang, Jianguo and Luo, Ping and Luo, Jiebo and Xu, Chenliang},
  journal={IEEE Transactions on Circuits and Systems for Video Technology}, 
  title={Video Understanding with Large Language Models: A Survey}, 
  year={2025},
  doi={10.1109/TCSVT.2025.3566695}
}

🗒️ 分类法1

🕹️ 视频分析器 × LLM

大语言模型作为摘要生成器
标题 模型 日期 代码 场所
看见未见:视频的视觉隐喻字幕生成 GIT-LLaVA 06/2024 代码 arXiv
通过剧本实现零样本长视频理解 MM-Screenplayer 06/2024 项目页面 CVPR
MoReVQA:探索用于视频问答的模块化推理模型 MoReVQA 04/2024 项目页面 CVPR
一张图像网格胜过一段视频:基于视觉语言模型的零样本视频问答 IG-VLM 03/2024 代码 arXiv
用于长视频理解的语言库 LangRepo 03/2024 代码 arXiv
在一次多模态语言模型的前向传播中理解长视频 MVU 03/2024 代码 arXiv
Video ReCap:对长达一小时的视频进行递归字幕生成 Video ReCap 02/2024 代码 CVPR
用于长距离视频问答的简单大语言模型框架 LLoVi 12/2023 代码 arXiv
接地提示器:利用多模态信息为大语言模型提供提示,以实现长视频中时间句的定位 地接提示器 12/2023 代码 arXiv
从开放世界视角学习视频中的物体状态变化 VIDOSC 12/2023 代码 CVPR
AntGPT:大型语言模型能否帮助从视频中进行长期动作预测? AntGPT 07/2023 代码 ICLR
VAST:一个视觉-音频-字幕-文本全模态基础模型及数据集星标 VAST 05/2023 代码 NeurIPS
VLog:将视频视为长文档星标 VLog 04/2023 代码 -
从大型语言模型中学习视频表示星标 LaViLa 12/2022 代码 CVPR
LLM作为管理者
标题 模型 日期 代码 场所
DrVideo:基于文档检索的长视频理解 DrVideo 06/2024 code arXiv
OmAgent:一种用于复杂视频理解的多模态代理框架,采用任务分解与分治策略 OmAgent 06/2024 code arXiv
帧太多,并非都有效:面向长视频问答的高效策略 LVNet 06/2024 code arXiv
VideoTree:一种自适应树状视频表示方法,用于LLM对长视频的推理 VideoTree 05/2024 code arXiv
利用大型语言模型实现无需训练的视频异常检测 LAVAD 04/2024 code CVPR
TraveLER:一种用于视频问答的多LMM代理框架 TraveLER 04/2024 code arXiv
GPTSee:通过基于描述的相似性特征增强时刻检索和亮点检测 GPTSee 03/2024 code arXiv
Reframe anything:用于开放世界视频重构的LLM代理 RAVA 03/2024 code arXiv
SCHEMA:状态变化在教学视频中的流程规划中至关重要 SCHEMA 03/2024 code ICLR
TV-TREES:用于神经符号式视频推理的多模态蕴含树 TV-TREES 02/2024 code arXiv
VideoAgent:一种记忆增强型多模态代理,用于视频理解 VideoAgent 03/2024 项目页面 arXiv
VideoAgent:以大型语言模型为代理的长视频理解 VideoAgent 03/2024 code arXiv
VURF:一种通用的视频理解推理与自我精炼框架 VURF 03/2024 code arXiv
为什么不使用你的教科书知识来增强教学视频的流程规划呢? KEPP 03/2024 code CVPR
哆啦A梦GPT:迈向利用大型语言模型理解动态场景 哆啦A梦GPT 01/2024 code arXiv
终身记忆:利用LLM回答长时程第一人称视角视频中的问题 终身记忆 12/2023 code arXiv
零样本视频问答与程序化指令 ProViQ 12/2023 code arXiv
AssistGPT:一个能够计划、执行、检查并学习的通用多模态助手 AssistGPT 06/2023 code arXiv
ChatVideo:一个以轨迹为中心的多模态且多功能的视频理解系统 ChatVideo 04/2023 项目页面 arXiv
Video ChatCaptioner:迈向更丰富的时空描述Star Video ChatCaptioner 04/2023 code arXiv
ViperGPT:通过Python执行进行视觉推理 ViperGPT 03/2023 code arXiv
Hawk:学习理解开放世界视频异常 Hawk 05/2024 code arXiv

👾 视频嵌入器 × LLM

LLM作为文本解码器
标题 模型 日期 代码 场所
AuroraCap:高效、高性能的视频详细字幕生成及新基准 AuroraCap 10/2024 项目页面 arXiv
Artemis:迈向复杂视频中的指代理解 Artemis 06/2024 代码 arXiv
EmoLLM:多模态情感理解与大型语言模型的结合 EmoLLM 06/2024 代码 arXiv
减少令牌和视频数量以扩展大型视觉-语言模型的视频理解能力 FTFV-LLM 06/2024 - arXiv
Flash-VStream:基于内存的长视频流实时理解 Flash-VStream 06/2024 代码 arXiv
LLAVIDAL:面向日常生活活动的大规模视觉-语言模型基准测试 LLAVIDAL 06/2024 代码 arXiv
从语言到视觉的长上下文迁移 LongVA 06/2024 代码 arXiv
ShareGPT4Video:通过更好的字幕提升视频理解和生成能力 ShareGPT4Video 06/2024 代码 arXiv
迈向事件导向的长视频理解 VIM 06/2024 代码 arXiv
Video-SALMONN:语音增强的视听大型语言模型 Video-SALMONN 06/2024 代码 ICML
VideoGPT+:集成图像和视频编码器以增强视频理解 VideoGPT+ 06/2024 代码 arXiv
VideoLLaMA 2:推进视频LLM中的时空建模和音频理解 VideoLLaMA 2 06/2024 代码 arXiv
MotionLLM:从人体运动和视频中理解人类行为 MotionLLM 05/2024 项目页面 arXiv
MVBench:全面的多模态视频理解基准测试 VideoChat2 11/2023 代码 CVPR
Shotluck Holmes:用于视频字幕和摘要的小规模高效视觉-语言模型家族 Shotluck Holmes 05/2024 - arXiv
使用大型语言模型进行流式长视频理解 VideoStreaming 05/2024 - arXiv
同步视频叙事:生成具有结构化情节的视频旁白 VideoNarrator 05/2024 - arXiv
TOPA:通过纯文本预对齐扩展大型语言模型的视频理解能力 TOPA 05/2024 代码 NeurIPS
MovieChat+:面向长视频问答的问题感知稀疏记忆 MovieChat+ 04/2024 代码 arXiv
AutoAD III:前传——回到像素 AutoAD III 04/2024 项目页面 CVPR
基于语言模型奖励的视频多模态大模型直接偏好优化 LLaVA-Hound-DPO 04/2024 代码 arXiv
从图像到视频,我们在多模态LLM中需要什么? RED-VILLM 04/2024 - arXiv
Koala:关键帧条件下的长视频LLM Koala 04/2024 项目页面 CVPR
LongVLM:通过大型语言模型实现高效的长视频理解 LongVLM 04/2024 代码 ECCV
MA-LMM:用于长期视频理解的记忆增强型大型多模态模型 MA-LMM 04/2024 代码 CVPR
MiniGPT4-video:通过交错的视觉-文本令牌推进多模态LLM的视频理解能力 MiniGPT4-Video 04/2024 代码 arXiv
Pegasus-v1技术报告 Pegasus-v1 04/2024 代码 arXiv
PLLaVA:无需参数的LLaVA扩展,从图像到视频用于视频密集字幕生成 PLLaVA 04/2024 代码 arXiv
ST-LLM:大型语言模型是有效的时序学习者 ST-LLM 04/2024 代码 arXiv
Tarsier:训练和评估大型视频描述模型的配方 Tarsier 07/2024 代码 arXiv
X-VARS:利用多模态大型语言模型在足球裁判中引入可解释性 X-VARS 04/2024 代码 arXiv
CAT:增强多模态大型语言模型以应对动态视听场景中的问题 CAT 03/2024 代码 arXiv
InternVideo2:扩展视频基础模型以支持多模态视频理解 InternVideo2 03/2024 代码 ECCV
MovieLLM:利用AI生成的电影增强长视频理解 MovieLLM 03/2024 代码 arXiv
LLMs与长视频相遇:在LLM中加入交互式视觉适配器以推进长视频理解 IVAwithLLM 02/2024 代码 arXiv
LSTP:面向长视频-文本理解的语言引导时空提示学习 LSTP 02/2024 代码 EMNLP
LVCHAT:促进长视频理解 LVCHAT 02/2024 代码 arXiv
OSCaR:物体状态字幕及状态变化表示 OSCaR 02/2024 代码 NAACL
Slot-VLM:用于视频-语言建模的SlowFast插槽 Slot-VLM 02/2024 代码 arXiv
COSMO:对比式简化多模态模型,采用交错式预训练 COSMO 01/2024 代码 arXiv
弱监督高斯对比接地:利用大型多模态模型进行视频问答 GCG 01/2024 代码 ACMMM
用于视频理解的视听LLM AV-LLM 12/2023 代码 arXiv
生成式多模态模型是上下文学习者 Emu2 12/2023 项目页面 CVPR
MMICT:利用上下文示例提升多模态微调效果 MMICT 12/2023 代码 TOMM
VaQuitA:增强LLM辅助视频理解中的对齐能力 VaQuitA 12/2023 代码 arXiv
VILA:关于视觉语言模型的预训练 VILA 12/2023 代码 CVPR
Vista-LLaMA:通过与视觉令牌等距来实现可靠的视频叙述者 Vista-LLaMA 12/2023 项目页面 arXiv
Chat-UniVi:统一的视觉表征赋予大型语言模型图像和视频理解能力 Chat-UniVi 11/2023 代码 CVPR
LLaMA-VID:在大型语言模型中,一张图像胜过两个令牌 LLaMA-VID 11/2023 代码 arXiv
Video-LLaVA:通过投影前的对齐学习统一的视觉表征 Video-LLaVA 11/2023 代码 arXiv
大型语言模型是用于视频问答的时序和因果推理者 LLaMA-VQA 10/2023 代码 EMNLP
MovieChat:从密集令牌到稀疏记忆,用于长视频理解 MovieChat 07/2023 代码 CVPR
LLMVA-GEBC:带有视频适配器的大型语言模型,用于通用事件边界字幕生成 LLMVA-GEBC 06/2023 代码 CVPR
Macaw-LLM:融合图像、音频、视频和文本的多模态语言建模 Macaw-LLM 06/2023 项目页面 arXiv
Valley:配备大型语言模型的强大视频助手 VALLEY 06/2023 代码 arXiv
Video-ChatGPT:迈向通过大型视觉和语言模型实现详细视频理解 Video-ChatGPT 06/2023 代码 ACL
Video-LLaMA:一种针对视频理解的指令微调视听语言模型 Video-LLaMA 06/2023 代码 EMNLP
Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 mPLUG-video 06/2023 代码 arXiv
ChatBridge:以大型语言模型为语言催化剂连接不同模态 ChatBridge 05/2023 代码 arXiv
Otter:一种具有上下文指令微调的多模态模型 Otter 05/2023 代码 arXiv
VideoLLM:利用大型语言模型建模视频序列 VideoLLM 05/2023 代码 arXiv
一条轨迹,一个令牌:通过全景子对象轨迹进行 grounded视频分词 - 05/2025 代码 ICCV 2025
LLM作为回归器
标题 模型 日期 代码 场所
LLaVA-MR:用于视频瞬间检索的大型多模态语言视觉助手 LLaVA-MR 11/2024 code arXiv
Holmes-VAD:通过多模态LLM实现无偏且可解释的视频异常检测 Holmes-VAD 06/2024 code arXiv
VideoLLM-online:面向流媒体视频的在线视频大型语言模型 VideoLLM-online 06/2024 code CVPR
VLM4HOI:第一人称视角下的手物交互引用任务 VLM4HOI 04/2024 项目页面 arXiv
V2Xum-LLaMA:基于时间提示指令微调的跨模态视频摘要模型 V2Xum-LLaMA 04/2024 code arXiv
AVicuna:具有交错器和上下文边界对齐功能的视听LLM,用于时序指代对话 AVicuna 03/2024 code arXiv
Elysium:通过MLLM探索视频中的对象级感知 Elysium 03/2024 code arXiv
HawkEye:用于在视频中定位文本的视频-文本LLM训练 HawkEye 03/2024 code arXiv
LITA:语言指令驱动的时序定位助手 LITA 03/2024 code arXiv
OmniViD:通用视频理解的生成式框架 OmniViD 03/2024 code CVPR
GroundingGPT:语言增强型多模态定位模型 GroundingGPT 01/2024 [code](https: //github.com/lzw-lzw/GroundingGPT) arXiv
TimeChat:一种对时间敏感的多模态大型语言模型,用于长视频理解 TimeChat 12/2023 code CVPR
SeViLA:用于视频定位与问答的自链式图像-语言模型 SeViLA 11/2023 code NeurIPS
VTimeLLM:赋能LLM掌握视频瞬间 VTimeLLM 11/2023 code arXiv
LLM作为隐藏层
标题 模型 日期 代码 场所
VTG-LLM:将时间戳知识融入视频LLM,以增强视频的时间定位能力 VTG-LLM 05/2024 code arXiv
VITRON:统一的像素级视觉LLM,用于理解、生成、分割和编辑 VITRON 04/2024 项目页面 NeurIPS
VTG-GPT:无需微调的零样本视频时间定位技术,基于GPT VTG-GPT 03/2024 code arXiv
Momentor:通过细粒度的时间推理推进视频大型语言模型的发展 Momentor 02/2024 code ICML
VidDetours:用于导航教学视频的工具 VidDetours 01/2024 code CVPR
OneLLM:一个将所有模态与语言对齐的统一框架 OneLLM 12/2023 code arXiv
GPT4Video:一个统一的多模态大型语言模型,用于遵循指令的理解及安全意识生成 GPT4Video 11/2023 code ACMMM

🧭 (分析器 + 嵌入器) × LLM

大型语言模型作为管理者
标题 模型 日期 代码 场所
MM-VID:利用GPT-4V(vision)推进视频理解 MM-VID 10/2023 - arXiv
大型语言模型作为摘要生成器
标题 模型 日期 代码 场所
Shot2Story20K:多镜头视频全面理解的新基准 SUM-shot 12/2023 代码 arXiv
大型语言模型作为回归器
标题 模型 日期 代码 场所
Vript:一段视频胜过千言万语 Vriptor 06/2024 代码 NeurIPS
Merlin:以预见性思维赋能多模态大语言模型 Merlin 12/2023 项目页面 ECCV
VideoChat:以聊天为中心的视频理解 VideoChat 05/2023 代码 arXiv
Vid2Seq:用于密集视频字幕的大规模视觉语言模型预训练 Vid2Seq 02/2023 代码 CVPR
大型语言模型作为文本解码器
标题 模型 日期 代码 场所
带有交错多模态序列的上下文AD旁白 Uni-AD 03/2024 代码 arXiv
MM-Narrator:通过多模态上下文学习为长视频配音 MM-narrator 11/2023 项目页面 arXiv
Vamos:用于视频理解的多功能动作模型 Vamos 11/2023 项目页面 ECCV
AutoAD II:续集——电影音频描述中的谁、何时、何事 Auto-AD II 10/2023 项目页面 ICCV
大型语言模型作为隐藏层
标题 模型 日期 代码 场所
PG-Video-LLaVA:像素对齐的大规模视频-语言模型Star PG-Video-LLaVA 11/2023 代码 arXiv

🗒️ 分类学 2

🤖 基于大型语言模型的视频智能体

标题 模型 日期 代码 场所
苏格拉底模型:用语言构建零样本多模态推理 苏格拉底模型 04/2022 项目页面 arXiv
视频聊天字幕生成器:迈向丰富的时空描述星标 视频聊天字幕生成器 04/2023 代码 arXiv
VLog:视频即长文档星标 VLog 04/2023 代码 -
ChatVideo:以轨迹为中心的多模态、多功能视频理解系统 ChatVideo 04/2023 项目页面 arXiv
MM-VID:借助GPT-4V(vision)推进视频理解 MM-VID 10/2023 - arXiv
MISAR:一种结合增强现实的多模态指令系统星标 MISAR 10/2023 项目页面 ICCV
接地提示器:利用多模态信息为长视频中的时序句子接地提供提示 接地提示器 12/2023 - arXiv
NaVid:基于视频的VLM为视觉与语言导航规划下一步 NaVid 02/2024 项目页面 - RSS
VideoAgent:一种记忆增强型多模态代理,用于视频理解 VideoAgent 03/2024 项目页面 arXiv
VideoINSTA:通过LLM进行信息丰富的时空推理,实现零样本长视频理解 VideoINSTA 09/2024 代码 EMNLP
Ego-R1:用于超长第一人称视角视频推理的工具链思维 星标 Ego-R1代理 06/2025 代码 arXiv

🎥 视频-LLM预训练

标题 模型 日期 代码 场所
从大型语言模型中学习视频表征星标 LaViLa 12/2022 代码 CVPR
Vid2Seq:用于密集视频字幕生成的大规模视觉语言模型预训练 Vid2Seq 02/2023 代码 CVPR
VAST:一个视觉-音频-字幕-文本全模态基础模型及数据集星标 VAST 05/2023 代码 NeurIPS
Merlin:用预见性思维赋能多模态LLM Merlin 12/2023 - arXiv

👀 视频-LLM指令微调

使用连接适配器进行微调
标题 模型 日期 代码 场所
Video-LLaMA:用于视频理解的指令微调视觉语言模型 Star Video-LLaMA 06/2023 code arXiv
VALLEY:具有大语言模型增强能力的视频助手Star VALLEY 06/2023 code -
Video-ChatGPT:通过大型视觉和语言模型实现详细视频理解Star Video-ChatGPT 06/2023 code arXiv
Macaw-LLM:融合图像、音频、视频和文本的多模态语言建模Star Macaw-LLM 06/2023 code arXiv
LLMVA-GEBC:用于通用事件边界字幕生成的大语言模型与视频适配器 Star LLMVA-GEBC 06/2023 code CVPR
Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 Star mPLUG-video 06/2023 code arXiv
MovieChat:从密集标记到稀疏记忆,用于长视频理解Star MovieChat 07/2023 code arXiv
大语言模型是视频问答任务中的时序与因果推理者Star LLaMA-VQA 10/2023 code EMNLP
Video-LLaVA:通过投影前对齐学习统一视觉表征Star Video-LLaVA 11/2023 code arXiv
Chat-UniVi:统一视觉表征赋予大语言模型图像和视频理解能力Star Chat-UniVi 11/2023 code arXiv
LLaMA-VID:在大语言模型中,一张图像胜过两个标记Star LLaMA-VID 11/2023 code arXiv
VISTA-LLAMA:通过与视觉标记等距实现可靠的视频解说员 VISTA-LLAMA 12/2023 - arXiv
用于视频理解的视听大语言模型 - 12/2023 - arXiv
AutoAD:上下文中的电影描述 AutoAD 06/2023 code CVPR
AutoAD II:续集——电影音频描述中的谁、何时、何事 AutoAD II 10/2023 - ICCV
AutoAD III:前传——回到像素 AutoAD III 04/2024 - CVPR
面向多模态大语言模型的细粒度视听联合表征Star FAVOR 10/2023 code arXiv
VideoLLaMA2:推进视频大语言模型中的时空建模和音频理解Star VideoLLaMA2 06/2024 code arXiv
PAVE:修补和适配视频大语言模型 PAVE 03/2025 code CVPR
将大型视觉-语言模型迁移到视频理解中的时间导向配方 时间配方 05/2025 code arXiv
使用插入式适配器进行微调
标题 模型 日期 代码 场所
Otter:一种具有上下文指令微调的多模态模型Star Otter 06/2023 code arXiv
VideoLLM:利用大型语言模型建模视频序列Star VideoLLM 05/2023 code arXiv
使用混合适配器进行微调
标题 模型 日期 代码 场所
VTimeLLM:让大语言模型掌握视频瞬间Star VTimeLLM 11/2023 code arXiv
GPT4Video:用于遵循指令理解和安全生成的统一多模态大型语言模型 GPT4Video 11/2023 - arXiv

🦾 混合方法

标题 模型 日期 代码 场所
VideoChat:以聊天为中心的视频理解Star VideoChat 05/2023 code demo arXiv
PG-Video-LLaVA:像素对齐的大规模视频-语言模型Star PG-Video-LLaVA 11/2023 code arXiv
TimeChat:一种面向长时间视频理解的时间敏感型多模态大型语言模型Star TimeChat 12/2023 code CVPR
Video-GroundingDINO:迈向开放词汇的时空视频定位Star Video-GroundingDINO 12/2023 code arXiv
一段视频值4096个token:零样本下将视频转化为文本以实现理解 Video4096 05/2023 EMNLP

💎 无需训练的方法

标题 模型 日期 代码 场所
超越训练:用于零样本视频理解的动态token合并 DyTo 11/2024 code ICCV2025
SlowFast-LLaVA:视频大型语言模型的强大无训练基线 SlowFast-LLaVA 07/2024 - arXiv
TS-LLaVA:通过缩略图采样构建视觉token,用于无训练的视频大型语言模型 TS-LLaVA 11/2024 code arXiv
声音能否通过token替换在LLaVA中替代视觉? SoundCLIP 08/2025 code arXiv
D-CoDe:通过动态压缩和问题分解,将图像预训练的VLM扩展到视频领域 Star D-CoDe 08/2025 code 项目页面 EMNLP

任务、数据集和基准测试

识别与预测

名称 论文 日期 链接 场所
Charades Hollywood in homes: Crowdsourcing data collection for activity understanding 2016 链接 ECCV
YouTube8M YouTube-8M: A Large-Scale Video Classification Benchmark 2016 链接 -
ActivityNet ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding 2015 链接 CVPR
Kinetics-GEBC GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval 2022 链接 ECCV
Kinetics-400 The Kinetics Human Action Video Dataset 2017 链接 -
VidChapters-7M VidChapters-7M: Video Chapters at Scale 2023 链接 NeurIPS
BlackSwanSuite Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events Star 2025 链接 CVPR

字幕与描述

名称 论文 日期 链接 场所
Microsoft Research Video Description Corpus (MSVD) Collecting Highly Parallel Data for Paraphrase Evaluation 2011 链接 ACL
Microsoft Research Video-to-Text (MSR-VTT) MSR-VTT: A Large Video Description Dataset for Bridging Video and Language 2016 链接 CVPR
Tumblr GIF (TGIF) TGIF: A New Dataset and Benchmark on Animated GIF Description 2016 链接 CVPR
Charades Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding 2016 链接 ECCV
Charades-Ego Actor and Observer: Joint Modeling of First and Third-Person Videos 2018 链接 CVPR
ActivityNet Captions Dense-Captioning Events in Videos 2017 链接 ICCV
HowTo100m HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips 2019 链接 ICCV
Movie Audio Descriptions (MAD) MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions 2021 链接 CVPR
YouCook2 Towards Automatic Learning of Procedures from Web Instructional Videos 2017 链接 AAAI
MovieNet MovieNet: A Holistic Dataset for Movie Understanding 2020 链接 ECCV
Youku-mPLUG Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks 2023 链接 arXiv
Video Timeline Tags (ViTT) Multimodal Pretraining for Dense Video Captioning 2020 链接 AACL-IJCNLP
TVSum TVSum: Summarizing web videos using titles 2015 链接 CVPR
SumMe Creating Summaries from User Videos 2014 链接 ECCV
VideoXum VideoXum: Cross-modal Visual and Textural Summarization of Videos 2023 链接 IEEE Trans Multimedia
Multi-Source Video Captioning (MSVC) VideoLLaMA2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs 2024 链接 arXiv

现实场景理解与检索

名称 论文 日期 链接 会议
Epic-Kitchens-100 重新定义第一人称视角视觉任务 2021 链接 IJCV
VCR(视觉常识推理) 从识别到认知:视觉常识推理 2019 链接 CVPR
Ego4D-MQ 和 Ego4D-NLQ Ego4D:全球3000小时的第一人称视频及其第一人称感知基准套件 2021 链接 CVPR
Vid-STG 它在哪里存在?面向多形式句子的时空视频定位 2020 链接 CVPR
Charades-STA TALL:基于语言查询的时序动作定位 2017 链接 ICCV
DiDeMo 利用自然语言在视频中定位时刻 2017 链接 ICCV

问答任务

名称 论文 日期 链接 会议
MSVD-QA 通过逐步细化的外观与运动注意力进行视频问答 2017 链接 ACM Multimedia
MSRVTT-QA 通过逐步细化的外观与运动注意力进行视频问答 2017 链接 ACM Multimedia
TGIF-QA TGIF-QA:迈向视觉问答中的时空推理 2017 链接 CVPR
ActivityNet-QA ActivityNet-QA:通过问答理解复杂网络视频的数据集 2019 链接 AAAI
Pororo-QA DeepStory:基于深度嵌入记忆网络的视频故事问答 2017 链接 IJCAI
TVQA TVQA:局部化、组合式的视频问答 2018 链接 EMNLP
MAD-QA 为长视频问答编码与控制全局语义 2024 链接 EMNLP
Ego-QA 为长视频问答编码与控制全局语义 2024 链接 EMNLP
BlackSwanSuite 黑天鹅:不可预测事件中的溯因与可废止视频推理 Star 2025 链接 CVPR
CrossVid CrossVid:用于评估多模态大型语言模型跨视频推理能力的综合基准 2025 链接 AAAI

视频指令微调

预训练数据集
名称 论文 日期 链接 会议
VidChapters-7M VidChapters-7M:大规模视频章节数据集 2023 链接 NeurIPS
VALOR-1M VALOR:视觉-音频-语言全感知预训练模型及数据集 2023 链接 arXiv
Youku-mPLUG Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 2023 链接 arXiv
InternVid InternVid:用于多模态理解和生成的大规模视频-文本数据集 2023 链接 arXiv
VAST-27M VAST:视觉-音频-字幕-文本全模态基础模型及数据集 2023 链接 NeurIPS
微调数据集
名称 论文 日期 链接 会议
MIMIC-IT MIMIC-IT:多模态上下文指令微调 2023 链接 arXiv
VideoInstruct100K Video-ChatGPT:借助大型视觉和语言模型实现精细视频理解 2023 链接 arXiv
TimeIT TimeChat:用于长视频理解的时敏型多模态大型语言模型 2023 链接 CVPR

基于视频的大型语言模型基准

标题 日期 代码 场所
LVBench:极端长视频理解基准 2024年6月 代码 -
Video-Bench:评估基于视频的大语言模型的综合基准与工具包 2023年11月 代码 -
Perception Test:多模态视频模型的诊断性基准测试 2023年5月 代码 NeurIPS 2023、ICCV 2023研讨会
Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 Star 2023年7月 代码 -
FETV:开放域文本到视频生成的细粒度评估基准 Star 2023年11月 代码 NeurIPS 2023
MoVQA:面向长篇电影理解的多功能问答基准 2023年12月 代码 -
MVBench:全面的多模态视频理解基准 2023年12月 代码 -
TempCompass:视频大语言模型真的能理解视频吗? Star 2024年3月 代码 ACL 2024
Video-MME:首个针对多模态大语言模型在视频分析中进行全面评估的基准 Star 2024年6月 代码 -
VideoHallucer:评估大型视频-语言模型中的内在与外在幻觉 Star 2024年6月 代码 -
Black Swan:不可预测事件中的溯因与可废止视频推理 Star 2025年6月 代码 CVPR 2025
能否让视频多模态模型像怀疑论者一样思考——或加倍下注:关于可废止视频蕴涵的研究 2025年8月 - -
CrossVid:评估多模态大语言模型跨视频推理的综合基准 2025年11月 代码 AAAI 2026
MVU-Eval:迈向多视频理解的多模态大语言模型评估 MVU-Eval 2025年11月 代码
OmniVideoBench:迈向全模态大语言模型的视听理解评估 OmniVideoBench 2025年10月 代码
IF-VidCap:视频字幕模型能否遵循指令? IF-VidCap 2025年10月 代码

贡献

我们欢迎所有人参与本仓库的贡献,共同提升其质量。您可以提交拉取请求,以添加新的论文、项目及有用资料,或更正您发现的任何错误。请确保您的拉取请求遵循“标题|模型|日期|代码|场所”的格式。感谢您的宝贵贡献!

🌟 星标历史

星标历史图表

♥️ 贡献者

没有这些了不起的人的贡献,我们的项目根本不可能实现!感谢大家让这个项目变得更好。

Yolo Y. Tang @ 罗切斯特大学
Jing Bi @ 罗切斯特大学
Siting Xu @ 南方科技大学
Luchuan Song @ 罗切斯特大学
Susan Liang @ 罗切斯特大学
Teng Wang @ 香港大学
Daoan Zhang @ 罗切斯特大学
Jie An @ 罗切斯特大学
Jingyang Lin @ 罗切斯特大学
Rongyi Zhu @ 罗切斯特大学
Ali Vosoughi @ 罗切斯特大学
Chao Huang @ 罗切斯特大学
Zeliang Zhang @ 罗切斯特大学
Pinxin Liu @ 罗切斯特大学
Mingqian Feng @ 罗切斯特大学
Feng Zheng @ 南方科技大学
Jianguo Zhang @ 南方科技大学
Ping Luo @ 香港大学
Jiebo Luo @ 罗切斯特大学
Chenliang Xu @ 罗切斯特大学

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|1周前
开发框架图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。

88.7k|★★☆☆☆|昨天
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|1周前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.3k|★★☆☆☆|今天
图像数据工具视频