Awesome-LLMs-for-Video-Understanding

3.2k 142 困难 1 次阅读今天语言模型视频其他

AI 解读由 AI 自动生成，仅供参考

Awesome-LLMs-for-Video-Understanding 是一个专注于视频理解与大语言模型（Vid-LLMs）前沿技术的开源资源库。它系统性地整理了该领域最新的学术论文、代码实现、数据集及评测基准，旨在解决研究人员和开发者在面对海量且快速迭代的 Vid-LLM 文献时，难以高效获取核心信息和构建完整知识体系的痛点。

该项目不仅提供了一份被 IEEE TCSVT 接收的权威综述论文，还持续更新包含上百个主流模型和十余个新基准的详细列表。其独特亮点在于提出了一套基于视频表示和 LLM 功能的全新分类法，并从任务粒度与语言参与度等维度对视频理解任务进行了重新梳理，帮助使用者更清晰地把握技术演进脉络。此外，资源库还深入探讨了训练策略及跨领域应用，为后续研究提供了坚实的理论基础与实践参考。

无论是从事多模态算法研究的学者，还是希望将视频分析能力融入产品的工程师，都能从中找到极具价值的指引。通过这一平台，用户可以快速定位所需的技术方案，跟踪最新的研究动态，从而加速在智能视频分析领域的创新与落地。

使用场景

某视频内容审核团队正试图构建一个能理解复杂长视频情节、自动识别违规行为的智能系统，但面对飞速发展的多模态大模型技术感到无从下手。

没有 Awesome-LLMs-for-Video-Understanding 时

文献检索如大海捞针：团队成员需分散在 arXiv、GitHub 和各大学术会议网站手动搜索，难以及时获取最新的 Vid-LLM 论文与代码，导致技术选型滞后。
模型分类混乱不清：面对数百个新模型，缺乏统一的分类标准（如基于视频表征或 LLM 功能），难以判断哪些架构适合处理长时序依赖或细粒度动作识别。
数据与基准匹配困难：不清楚哪些数据集支持特定的推理任务，也找不到权威的评测基准来验证自研模型的性能，重复造轮子现象严重。
训练策略盲目试错：缺乏对适配器微调、全量训练等策略的系统性总结，团队在资源有限的情况下浪费大量算力进行无效实验。

使用 Awesome-LLMs-for-Video-Understanding 后

一站式资源聚合：直接查阅该仓库整理的最新综述、百余个模型代码链接及 15+ 新基准，半天内即可完成从技术调研到方案选定的全过程。
清晰的技术导航：利用其提出的新颖分类体系，快速锁定适合“长视频逻辑推理”任务的模型架构，大幅缩短技术验证周期。
精准的数据与评测对接：通过关联的任务 - 数据集 - 基准映射表，迅速找到适配的监控视频数据集和评估指标，确保实验结果具有可比性。
高效的训练路径规划：参考仓库中关于训练策略的深度章节，直接复用成熟的微调方案，避免了盲目的超参数搜索，显著降低研发成本。

Awesome-LLMs-for-Video-Understanding 将碎片化的前沿研究转化为结构化的工程指南，让视频理解大模型的开发从“盲目探索”转向“高效落地”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个综述列表（Awesome List），主要整理了用于视频理解的大语言模型（Vid-LLMs）相关的论文、数据集和基准测试，并非一个可直接运行的单一软件工具。因此，README 中未提供具体的运行环境需求。用户若需运行列表中提到的具体模型（如 LLoVi, VideoTree, AntGPT 等），需前往各模型对应的独立代码仓库查阅其特定的环境配置要求。

python未说明

Awesome-LLMs-for-Video-Understanding hero image

快速开始

用于视频理解的优秀大语言模型

🔥🔥🔥 利用大型语言模型进行视频理解：综述

唐云龙¹, 毕静¹, 徐思婷², 宋陆川¹, 梁苏珊¹ , 王腾^2,3 , 张道安¹ , 安杰¹ , 林景阳¹ , 朱荣毅¹ , 阿里·沃索吉¹ , 黄超¹ , 张泽良¹ , 刘品欣¹ , 冯明谦¹ , 郑峰² , 张建国² , 罗平³ , 罗杰博¹, 许晨亮¹.

¹罗切斯特大学, ²南方科技大学, ³香港大学

📢 新闻

[10/06/2025]

🔥 我们的后续工作——视频-LMM 后训练：深入探讨大型多模态模型的视频推理—现已在 arXiv 和 Hugging Face Papers 上发布！

[05/04/2025]

🌟 我们的 Vid-LLM 综述已被 IEEE 视频技术电路与系统汇刊 (TCSVT) 接受！ 👉 IEEE Xplore | GitHub

[07/23/2024]

📢 我们最近更新了我们的综述：“利用大型语言模型进行视频理解：综述”！

✨ 这份全面的综述涵盖了由大型语言模型驱动的视频理解技术、训练策略、相关任务、数据集、基准测试和评估方法，并讨论了 Vid-LLMs 在各个领域的应用。

🚀 本次更新的新内容：
✅ 更新至包含截至2024年6月约100个额外的Vid-LLMs和15个新基准。
✅ 基于视频表示和LLM功能提出了Vid-LLMs的新分类法。
✅ 增加了初步章节，从粒度和语言参与的角度重新分类了视频理解任务，并增强了LLM背景部分。
✅ 增加了新的训练策略章节，移除了适配器作为模型分类的因素。
✅ 所有图表均已重新设计。

在这次重大更新之后，还将进行多次小幅更新。GitHub仓库也将很快逐步更新。我们欢迎您的阅读和反馈 ❤️

用于视频理解的优秀大语言模型

我们为什么需要 Vid-LLMs？

😎 Vid-LLMs：模型

📑 引用

如果您发现我们的综述对您的研究有所帮助，请引用以下论文：

@article{vidllmsurvey,
  author={Tang, Yunlong and Bi, Jing and Xu, Siting and Song, Luchuan and Liang, Susan and Wang, Teng and Zhang, Daoan and An, Jie and Lin, Jingyang and Zhu, Rongyi and Vosoughi, Ali and Huang, Chao and Zhang, Zeliang and Liu, Pinxin and Feng, Mingqian and Zheng, Feng and Zhang, Jianguo and Luo, Ping and Luo, Jiebo and Xu, Chenliang},
  journal={IEEE Transactions on Circuits and Systems for Video Technology}, 
  title={Video Understanding with Large Language Models: A Survey}, 
  year={2025},
  doi={10.1109/TCSVT.2025.3566695}
}

🗒️ 分类法1

🕹️ 视频分析器 × LLM

大语言模型作为摘要生成器

标题	模型	日期	代码	场所
看见未见：视频的视觉隐喻字幕生成	GIT-LLaVA	06/2024	代码	arXiv
通过剧本实现零样本长视频理解	MM-Screenplayer	06/2024	项目页面	CVPR
MoReVQA：探索用于视频问答的模块化推理模型	MoReVQA	04/2024	项目页面	CVPR
一张图像网格胜过一段视频：基于视觉语言模型的零样本视频问答	IG-VLM	03/2024	代码	arXiv
用于长视频理解的语言库	LangRepo	03/2024	代码	arXiv
在一次多模态语言模型的前向传播中理解长视频	MVU	03/2024	代码	arXiv
Video ReCap：对长达一小时的视频进行递归字幕生成	Video ReCap	02/2024	代码	CVPR
用于长距离视频问答的简单大语言模型框架	LLoVi	12/2023	代码	arXiv
接地提示器：利用多模态信息为大语言模型提供提示，以实现长视频中时间句的定位	地接提示器	12/2023	代码	arXiv
从开放世界视角学习视频中的物体状态变化	VIDOSC	12/2023	代码	CVPR
AntGPT：大型语言模型能否帮助从视频中进行长期动作预测？	AntGPT	07/2023	代码	ICLR
VAST：一个视觉-音频-字幕-文本全模态基础模型及数据集	VAST	05/2023	代码	NeurIPS
VLog：将视频视为长文档	VLog	04/2023	代码	-
从大型语言模型中学习视频表示	LaViLa	12/2022	代码	CVPR

LLM作为管理者

标题	模型	日期	代码	场所
DrVideo：基于文档检索的长视频理解	DrVideo	06/2024	code	arXiv
OmAgent：一种用于复杂视频理解的多模态代理框架，采用任务分解与分治策略	OmAgent	06/2024	code	arXiv
帧太多，并非都有效：面向长视频问答的高效策略	LVNet	06/2024	code	arXiv
VideoTree：一种自适应树状视频表示方法，用于LLM对长视频的推理	VideoTree	05/2024	code	arXiv
利用大型语言模型实现无需训练的视频异常检测	LAVAD	04/2024	code	CVPR
TraveLER：一种用于视频问答的多LMM代理框架	TraveLER	04/2024	code	arXiv
GPTSee：通过基于描述的相似性特征增强时刻检索和亮点检测	GPTSee	03/2024	code	arXiv
Reframe anything：用于开放世界视频重构的LLM代理	RAVA	03/2024	code	arXiv
SCHEMA：状态变化在教学视频中的流程规划中至关重要	SCHEMA	03/2024	code	ICLR
TV-TREES：用于神经符号式视频推理的多模态蕴含树	TV-TREES	02/2024	code	arXiv
VideoAgent：一种记忆增强型多模态代理，用于视频理解	VideoAgent	03/2024	项目页面	arXiv
VideoAgent：以大型语言模型为代理的长视频理解	VideoAgent	03/2024	code	arXiv
VURF：一种通用的视频理解推理与自我精炼框架	VURF	03/2024	code	arXiv
为什么不使用你的教科书知识来增强教学视频的流程规划呢？	KEPP	03/2024	code	CVPR
哆啦A梦GPT：迈向利用大型语言模型理解动态场景	哆啦A梦GPT	01/2024	code	arXiv
终身记忆：利用LLM回答长时程第一人称视角视频中的问题	终身记忆	12/2023	code	arXiv
零样本视频问答与程序化指令	ProViQ	12/2023	code	arXiv
AssistGPT：一个能够计划、执行、检查并学习的通用多模态助手	AssistGPT	06/2023	code	arXiv
ChatVideo：一个以轨迹为中心的多模态且多功能的视频理解系统	ChatVideo	04/2023	项目页面	arXiv
Video ChatCaptioner：迈向更丰富的时空描述	Video ChatCaptioner	04/2023	code	arXiv
ViperGPT：通过Python执行进行视觉推理	ViperGPT	03/2023	code	arXiv
Hawk：学习理解开放世界视频异常	Hawk	05/2024	code	arXiv

👾 视频嵌入器 × LLM

LLM作为文本解码器

标题	模型	日期	代码	场所
AuroraCap：高效、高性能的视频详细字幕生成及新基准	AuroraCap	10/2024	项目页面	arXiv
Artemis：迈向复杂视频中的指代理解	Artemis	06/2024	代码	arXiv
EmoLLM：多模态情感理解与大型语言模型的结合	EmoLLM	06/2024	代码	arXiv
减少令牌和视频数量以扩展大型视觉-语言模型的视频理解能力	FTFV-LLM	06/2024	-	arXiv
Flash-VStream：基于内存的长视频流实时理解	Flash-VStream	06/2024	代码	arXiv
LLAVIDAL：面向日常生活活动的大规模视觉-语言模型基准测试	LLAVIDAL	06/2024	代码	arXiv
从语言到视觉的长上下文迁移	LongVA	06/2024	代码	arXiv
ShareGPT4Video：通过更好的字幕提升视频理解和生成能力	ShareGPT4Video	06/2024	代码	arXiv
迈向事件导向的长视频理解	VIM	06/2024	代码	arXiv
Video-SALMONN：语音增强的视听大型语言模型	Video-SALMONN	06/2024	代码	ICML
VideoGPT+：集成图像和视频编码器以增强视频理解	VideoGPT+	06/2024	代码	arXiv
VideoLLaMA 2：推进视频LLM中的时空建模和音频理解	VideoLLaMA 2	06/2024	代码	arXiv
MotionLLM：从人体运动和视频中理解人类行为	MotionLLM	05/2024	项目页面	arXiv
MVBench：全面的多模态视频理解基准测试	VideoChat2	11/2023	代码	CVPR
Shotluck Holmes：用于视频字幕和摘要的小规模高效视觉-语言模型家族	Shotluck Holmes	05/2024	-	arXiv
使用大型语言模型进行流式长视频理解	VideoStreaming	05/2024	-	arXiv
同步视频叙事：生成具有结构化情节的视频旁白	VideoNarrator	05/2024	-	arXiv
TOPA：通过纯文本预对齐扩展大型语言模型的视频理解能力	TOPA	05/2024	代码	NeurIPS
MovieChat+：面向长视频问答的问题感知稀疏记忆	MovieChat+	04/2024	代码	arXiv
AutoAD III：前传——回到像素	AutoAD III	04/2024	项目页面	CVPR
基于语言模型奖励的视频多模态大模型直接偏好优化	LLaVA-Hound-DPO	04/2024	代码	arXiv
从图像到视频，我们在多模态LLM中需要什么？	RED-VILLM	04/2024	-	arXiv
Koala：关键帧条件下的长视频LLM	Koala	04/2024	项目页面	CVPR
LongVLM：通过大型语言模型实现高效的长视频理解	LongVLM	04/2024	代码	ECCV
MA-LMM：用于长期视频理解的记忆增强型大型多模态模型	MA-LMM	04/2024	代码	CVPR
MiniGPT4-video：通过交错的视觉-文本令牌推进多模态LLM的视频理解能力	MiniGPT4-Video	04/2024	代码	arXiv
Pegasus-v1技术报告	Pegasus-v1	04/2024	代码	arXiv
PLLaVA：无需参数的LLaVA扩展，从图像到视频用于视频密集字幕生成	PLLaVA	04/2024	代码	arXiv
ST-LLM：大型语言模型是有效的时序学习者	ST-LLM	04/2024	代码	arXiv
Tarsier：训练和评估大型视频描述模型的配方	Tarsier	07/2024	代码	arXiv
X-VARS：利用多模态大型语言模型在足球裁判中引入可解释性	X-VARS	04/2024	代码	arXiv
CAT：增强多模态大型语言模型以应对动态视听场景中的问题	CAT	03/2024	代码	arXiv
InternVideo2：扩展视频基础模型以支持多模态视频理解	InternVideo2	03/2024	代码	ECCV
MovieLLM：利用AI生成的电影增强长视频理解	MovieLLM	03/2024	代码	arXiv
LLMs与长视频相遇：在LLM中加入交互式视觉适配器以推进长视频理解	IVAwithLLM	02/2024	代码	arXiv
LSTP：面向长视频-文本理解的语言引导时空提示学习	LSTP	02/2024	代码	EMNLP
LVCHAT：促进长视频理解	LVCHAT	02/2024	代码	arXiv
OSCaR：物体状态字幕及状态变化表示	OSCaR	02/2024	代码	NAACL
Slot-VLM：用于视频-语言建模的SlowFast插槽	Slot-VLM	02/2024	代码	arXiv
COSMO：对比式简化多模态模型，采用交错式预训练	COSMO	01/2024	代码	arXiv
弱监督高斯对比接地：利用大型多模态模型进行视频问答	GCG	01/2024	代码	ACMMM
用于视频理解的视听LLM	AV-LLM	12/2023	代码	arXiv
生成式多模态模型是上下文学习者	Emu2	12/2023	项目页面	CVPR
MMICT：利用上下文示例提升多模态微调效果	MMICT	12/2023	代码	TOMM
VaQuitA：增强LLM辅助视频理解中的对齐能力	VaQuitA	12/2023	代码	arXiv
VILA：关于视觉语言模型的预训练	VILA	12/2023	代码	CVPR
Vista-LLaMA：通过与视觉令牌等距来实现可靠的视频叙述者	Vista-LLaMA	12/2023	项目页面	arXiv
Chat-UniVi：统一的视觉表征赋予大型语言模型图像和视频理解能力	Chat-UniVi	11/2023	代码	CVPR
LLaMA-VID：在大型语言模型中，一张图像胜过两个令牌	LLaMA-VID	11/2023	代码	arXiv
Video-LLaVA：通过投影前的对齐学习统一的视觉表征	Video-LLaVA	11/2023	代码	arXiv
大型语言模型是用于视频问答的时序和因果推理者	LLaMA-VQA	10/2023	代码	EMNLP
MovieChat：从密集令牌到稀疏记忆，用于长视频理解	MovieChat	07/2023	代码	CVPR
LLMVA-GEBC：带有视频适配器的大型语言模型，用于通用事件边界字幕生成	LLMVA-GEBC	06/2023	代码	CVPR
Macaw-LLM：融合图像、音频、视频和文本的多模态语言建模	Macaw-LLM	06/2023	项目页面	arXiv
Valley：配备大型语言模型的强大视频助手	VALLEY	06/2023	代码	arXiv
Video-ChatGPT：迈向通过大型视觉和语言模型实现详细视频理解	Video-ChatGPT	06/2023	代码	ACL
Video-LLaMA：一种针对视频理解的指令微调视听语言模型	Video-LLaMA	06/2023	代码	EMNLP
Youku-mPLUG：用于预训练和基准测试的1000万规模中文视频-语言数据集	mPLUG-video	06/2023	代码	arXiv
ChatBridge：以大型语言模型为语言催化剂连接不同模态	ChatBridge	05/2023	代码	arXiv
Otter：一种具有上下文指令微调的多模态模型	Otter	05/2023	代码	arXiv
VideoLLM：利用大型语言模型建模视频序列	VideoLLM	05/2023	代码	arXiv
一条轨迹，一个令牌：通过全景子对象轨迹进行 grounded视频分词	-	05/2025	代码	ICCV 2025

LLM作为回归器

标题	模型	日期	代码	场所
LLaVA-MR：用于视频瞬间检索的大型多模态语言视觉助手	LLaVA-MR	11/2024	code	arXiv
Holmes-VAD：通过多模态LLM实现无偏且可解释的视频异常检测	Holmes-VAD	06/2024	code	arXiv
VideoLLM-online：面向流媒体视频的在线视频大型语言模型	VideoLLM-online	06/2024	code	CVPR
VLM4HOI：第一人称视角下的手物交互引用任务	VLM4HOI	04/2024	项目页面	arXiv
V2Xum-LLaMA：基于时间提示指令微调的跨模态视频摘要模型	V2Xum-LLaMA	04/2024	code	arXiv
AVicuna：具有交错器和上下文边界对齐功能的视听LLM，用于时序指代对话	AVicuna	03/2024	code	arXiv
Elysium：通过MLLM探索视频中的对象级感知	Elysium	03/2024	code	arXiv
HawkEye：用于在视频中定位文本的视频-文本LLM训练	HawkEye	03/2024	code	arXiv
LITA：语言指令驱动的时序定位助手	LITA	03/2024	code	arXiv
OmniViD：通用视频理解的生成式框架	OmniViD	03/2024	code	CVPR
GroundingGPT：语言增强型多模态定位模型	GroundingGPT	01/2024	[code](https: //github.com/lzw-lzw/GroundingGPT)	arXiv
TimeChat：一种对时间敏感的多模态大型语言模型，用于长视频理解	TimeChat	12/2023	code	CVPR
SeViLA：用于视频定位与问答的自链式图像-语言模型	SeViLA	11/2023	code	NeurIPS
VTimeLLM：赋能LLM掌握视频瞬间	VTimeLLM	11/2023	code	arXiv

LLM作为隐藏层

标题	模型	日期	代码	场所
VTG-LLM：将时间戳知识融入视频LLM，以增强视频的时间定位能力	VTG-LLM	05/2024	code	arXiv
VITRON：统一的像素级视觉LLM，用于理解、生成、分割和编辑	VITRON	04/2024	项目页面	NeurIPS
VTG-GPT：无需微调的零样本视频时间定位技术，基于GPT	VTG-GPT	03/2024	code	arXiv
Momentor：通过细粒度的时间推理推进视频大型语言模型的发展	Momentor	02/2024	code	ICML
VidDetours：用于导航教学视频的工具	VidDetours	01/2024	code	CVPR
OneLLM：一个将所有模态与语言对齐的统一框架	OneLLM	12/2023	code	arXiv
GPT4Video：一个统一的多模态大型语言模型，用于遵循指令的理解及安全意识生成	GPT4Video	11/2023	code	ACMMM

🧭 (分析器 + 嵌入器) × LLM

大型语言模型作为管理者

标题	模型	日期	代码	场所
MM-VID：利用GPT-4V（vision）推进视频理解	MM-VID	10/2023	-	arXiv

大型语言模型作为摘要生成器

标题	模型	日期	代码	场所
Shot2Story20K：多镜头视频全面理解的新基准	SUM-shot	12/2023	代码	arXiv

大型语言模型作为回归器

标题	模型	日期	代码	场所
Vript：一段视频胜过千言万语	Vriptor	06/2024	代码	NeurIPS
Merlin：以预见性思维赋能多模态大语言模型	Merlin	12/2023	项目页面	ECCV
VideoChat：以聊天为中心的视频理解	VideoChat	05/2023	代码	arXiv
Vid2Seq：用于密集视频字幕的大规模视觉语言模型预训练	Vid2Seq	02/2023	代码	CVPR

大型语言模型作为文本解码器

标题	模型	日期	代码	场所
带有交错多模态序列的上下文AD旁白	Uni-AD	03/2024	代码	arXiv
MM-Narrator：通过多模态上下文学习为长视频配音	MM-narrator	11/2023	项目页面	arXiv
Vamos：用于视频理解的多功能动作模型	Vamos	11/2023	项目页面	ECCV
AutoAD II：续集——电影音频描述中的谁、何时、何事	Auto-AD II	10/2023	项目页面	ICCV

大型语言模型作为隐藏层

标题	模型	日期	代码	场所
PG-Video-LLaVA：像素对齐的大规模视频-语言模型	PG-Video-LLaVA	11/2023	代码	arXiv

🗒️ 分类学 2

🤖 基于大型语言模型的视频智能体

标题	模型	日期	代码	场所
苏格拉底模型：用语言构建零样本多模态推理	苏格拉底模型	04/2022	项目页面	arXiv
视频聊天字幕生成器：迈向丰富的时空描述	视频聊天字幕生成器	04/2023	代码	arXiv
VLog：视频即长文档	VLog	04/2023	代码	-
ChatVideo：以轨迹为中心的多模态、多功能视频理解系统	ChatVideo	04/2023	项目页面	arXiv
MM-VID：借助GPT-4V（vision）推进视频理解	MM-VID	10/2023	-	arXiv
MISAR：一种结合增强现实的多模态指令系统	MISAR	10/2023	项目页面	ICCV
接地提示器：利用多模态信息为长视频中的时序句子接地提供提示	接地提示器	12/2023	-	arXiv
NaVid：基于视频的VLM为视觉与语言导航规划下一步	NaVid	02/2024	项目页面 -	RSS
VideoAgent：一种记忆增强型多模态代理，用于视频理解	VideoAgent	03/2024	项目页面	arXiv
VideoINSTA：通过LLM进行信息丰富的时空推理，实现零样本长视频理解	VideoINSTA	09/2024	代码	EMNLP
Ego-R1：用于超长第一人称视角视频推理的工具链思维	Ego-R1代理	06/2025	代码	arXiv

🎥 视频-LLM预训练

标题	模型	日期	代码	场所
从大型语言模型中学习视频表征	LaViLa	12/2022	代码	CVPR
Vid2Seq：用于密集视频字幕生成的大规模视觉语言模型预训练	Vid2Seq	02/2023	代码	CVPR
VAST：一个视觉-音频-字幕-文本全模态基础模型及数据集	VAST	05/2023	代码	NeurIPS
Merlin：用预见性思维赋能多模态LLM	Merlin	12/2023	-	arXiv

👀 视频-LLM指令微调

使用连接适配器进行微调

标题	模型	日期	代码	场所
Video-LLaMA：用于视频理解的指令微调视觉语言模型	Video-LLaMA	06/2023	code	arXiv
VALLEY：具有大语言模型增强能力的视频助手	VALLEY	06/2023	code	-
Video-ChatGPT：通过大型视觉和语言模型实现详细视频理解	Video-ChatGPT	06/2023	code	arXiv
Macaw-LLM：融合图像、音频、视频和文本的多模态语言建模	Macaw-LLM	06/2023	code	arXiv
LLMVA-GEBC：用于通用事件边界字幕生成的大语言模型与视频适配器	LLMVA-GEBC	06/2023	code	CVPR
Youku-mPLUG：用于预训练和基准测试的1000万规模中文视频-语言数据集	mPLUG-video	06/2023	code	arXiv
MovieChat：从密集标记到稀疏记忆，用于长视频理解	MovieChat	07/2023	code	arXiv
大语言模型是视频问答任务中的时序与因果推理者	LLaMA-VQA	10/2023	code	EMNLP
Video-LLaVA：通过投影前对齐学习统一视觉表征	Video-LLaVA	11/2023	code	arXiv
Chat-UniVi：统一视觉表征赋予大语言模型图像和视频理解能力	Chat-UniVi	11/2023	code	arXiv
LLaMA-VID：在大语言模型中，一张图像胜过两个标记	LLaMA-VID	11/2023	code	arXiv
VISTA-LLAMA：通过与视觉标记等距实现可靠的视频解说员	VISTA-LLAMA	12/2023	-	arXiv
用于视频理解的视听大语言模型	-	12/2023	-	arXiv
AutoAD：上下文中的电影描述	AutoAD	06/2023	code	CVPR
AutoAD II：续集——电影音频描述中的谁、何时、何事	AutoAD II	10/2023	-	ICCV
AutoAD III：前传——回到像素	AutoAD III	04/2024	-	CVPR
面向多模态大语言模型的细粒度视听联合表征	FAVOR	10/2023	code	arXiv
VideoLLaMA2：推进视频大语言模型中的时空建模和音频理解	VideoLLaMA2	06/2024	code	arXiv
PAVE：修补和适配视频大语言模型	PAVE	03/2025	code	CVPR
将大型视觉-语言模型迁移到视频理解中的时间导向配方	时间配方	05/2025	code	arXiv

使用插入式适配器进行微调

标题	模型	日期	代码	场所
Otter：一种具有上下文指令微调的多模态模型	Otter	06/2023	code	arXiv
VideoLLM：利用大型语言模型建模视频序列	VideoLLM	05/2023	code	arXiv

使用混合适配器进行微调

标题	模型	日期	代码	场所
VTimeLLM：让大语言模型掌握视频瞬间	VTimeLLM	11/2023	code	arXiv
GPT4Video：用于遵循指令理解和安全生成的统一多模态大型语言模型	GPT4Video	11/2023	-	arXiv

🦾 混合方法

标题	模型	日期	代码	场所
VideoChat：以聊天为中心的视频理解	VideoChat	05/2023	code demo	arXiv
PG-Video-LLaVA：像素对齐的大规模视频-语言模型	PG-Video-LLaVA	11/2023	code	arXiv
TimeChat：一种面向长时间视频理解的时间敏感型多模态大型语言模型	TimeChat	12/2023	code	CVPR
Video-GroundingDINO：迈向开放词汇的时空视频定位	Video-GroundingDINO	12/2023	code	arXiv
一段视频值4096个token：零样本下将视频转化为文本以实现理解	Video4096	05/2023		EMNLP

💎 无需训练的方法

标题	模型	日期	代码	场所
超越训练：用于零样本视频理解的动态token合并	DyTo	11/2024	code	ICCV2025
SlowFast-LLaVA：视频大型语言模型的强大无训练基线	SlowFast-LLaVA	07/2024	-	arXiv
TS-LLaVA：通过缩略图采样构建视觉token，用于无训练的视频大型语言模型	TS-LLaVA	11/2024	code	arXiv
声音能否通过token替换在LLaVA中替代视觉？	SoundCLIP	08/2025	code	arXiv
D-CoDe：通过动态压缩和问题分解，将图像预训练的VLM扩展到视频领域	D-CoDe	08/2025	code 项目页面	EMNLP

任务、数据集和基准测试

识别与预测

名称	论文	日期	链接	场所
Charades	Hollywood in homes: Crowdsourcing data collection for activity understanding	2016	链接	ECCV
YouTube8M	YouTube-8M: A Large-Scale Video Classification Benchmark	2016	链接	-
ActivityNet	ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding	2015	链接	CVPR
Kinetics-GEBC	GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval	2022	链接	ECCV
Kinetics-400	The Kinetics Human Action Video Dataset	2017	链接	-
VidChapters-7M	VidChapters-7M: Video Chapters at Scale	2023	链接	NeurIPS
BlackSwanSuite	Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events	2025	链接	CVPR

字幕与描述

名称	论文	日期	链接	场所
Microsoft Research Video Description Corpus (MSVD)	Collecting Highly Parallel Data for Paraphrase Evaluation	2011	链接	ACL
Microsoft Research Video-to-Text (MSR-VTT)	MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	2016	链接	CVPR
Tumblr GIF (TGIF)	TGIF: A New Dataset and Benchmark on Animated GIF Description	2016	链接	CVPR
Charades	Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding	2016	链接	ECCV
Charades-Ego	Actor and Observer: Joint Modeling of First and Third-Person Videos	2018	链接	CVPR
ActivityNet Captions	Dense-Captioning Events in Videos	2017	链接	ICCV
HowTo100m	HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips	2019	链接	ICCV
Movie Audio Descriptions (MAD)	MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions	2021	链接	CVPR
YouCook2	Towards Automatic Learning of Procedures from Web Instructional Videos	2017	链接	AAAI
MovieNet	MovieNet: A Holistic Dataset for Movie Understanding	2020	链接	ECCV
Youku-mPLUG	Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks	2023	链接	arXiv
Video Timeline Tags (ViTT)	Multimodal Pretraining for Dense Video Captioning	2020	链接	AACL-IJCNLP
TVSum	TVSum: Summarizing web videos using titles	2015	链接	CVPR
SumMe	Creating Summaries from User Videos	2014	链接	ECCV
VideoXum	VideoXum: Cross-modal Visual and Textural Summarization of Videos	2023	链接	IEEE Trans Multimedia
Multi-Source Video Captioning (MSVC)	VideoLLaMA2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs	2024	链接	arXiv

现实场景理解与检索

名称	论文	日期	链接	会议
Epic-Kitchens-100	重新定义第一人称视角视觉任务	2021	链接	IJCV
VCR（视觉常识推理）	从识别到认知：视觉常识推理	2019	链接	CVPR
Ego4D-MQ 和 Ego4D-NLQ	Ego4D：全球3000小时的第一人称视频及其第一人称感知基准套件	2021	链接	CVPR
Vid-STG	它在哪里存在？面向多形式句子的时空视频定位	2020	链接	CVPR
Charades-STA	TALL：基于语言查询的时序动作定位	2017	链接	ICCV
DiDeMo	利用自然语言在视频中定位时刻	2017	链接	ICCV

问答任务

名称	论文	日期	链接	会议
MSVD-QA	通过逐步细化的外观与运动注意力进行视频问答	2017	链接	ACM Multimedia
MSRVTT-QA	通过逐步细化的外观与运动注意力进行视频问答	2017	链接	ACM Multimedia
TGIF-QA	TGIF-QA：迈向视觉问答中的时空推理	2017	链接	CVPR
ActivityNet-QA	ActivityNet-QA：通过问答理解复杂网络视频的数据集	2019	链接	AAAI
Pororo-QA	DeepStory：基于深度嵌入记忆网络的视频故事问答	2017	链接	IJCAI
TVQA	TVQA：局部化、组合式的视频问答	2018	链接	EMNLP
MAD-QA	为长视频问答编码与控制全局语义	2024	链接	EMNLP
Ego-QA	为长视频问答编码与控制全局语义	2024	链接	EMNLP
BlackSwanSuite	黑天鹅：不可预测事件中的溯因与可废止视频推理	2025	链接	CVPR
CrossVid	CrossVid：用于评估多模态大型语言模型跨视频推理能力的综合基准	2025	链接	AAAI

视频指令微调

预训练数据集

名称	论文	日期	链接	会议
VidChapters-7M	VidChapters-7M：大规模视频章节数据集	2023	链接	NeurIPS
VALOR-1M	VALOR：视觉-音频-语言全感知预训练模型及数据集	2023	链接	arXiv
Youku-mPLUG	Youku-mPLUG：用于预训练和基准测试的1000万规模中文视频-语言数据集	2023	链接	arXiv
InternVid	InternVid：用于多模态理解和生成的大规模视频-文本数据集	2023	链接	arXiv
VAST-27M	VAST：视觉-音频-字幕-文本全模态基础模型及数据集	2023	链接	NeurIPS

微调数据集

名称	论文	日期	链接	会议
MIMIC-IT	MIMIC-IT：多模态上下文指令微调	2023	链接	arXiv
VideoInstruct100K	Video-ChatGPT：借助大型视觉和语言模型实现精细视频理解	2023	链接	arXiv
TimeIT	TimeChat：用于长视频理解的时敏型多模态大型语言模型	2023	链接	CVPR

基于视频的大型语言模型基准

标题	日期	代码	场所
LVBench：极端长视频理解基准	2024年6月	代码	-
Video-Bench：评估基于视频的大语言模型的综合基准与工具包	2023年11月	代码	-
Perception Test：多模态视频模型的诊断性基准测试	2023年5月	代码	NeurIPS 2023、ICCV 2023研讨会
Youku-mPLUG：用于预训练和基准测试的1000万规模中文视频-语言数据集	2023年7月	代码	-
FETV：开放域文本到视频生成的细粒度评估基准	2023年11月	代码	NeurIPS 2023
MoVQA：面向长篇电影理解的多功能问答基准	2023年12月	代码	-
MVBench：全面的多模态视频理解基准	2023年12月	代码	-
TempCompass：视频大语言模型真的能理解视频吗？	2024年3月	代码	ACL 2024
Video-MME：首个针对多模态大语言模型在视频分析中进行全面评估的基准	2024年6月	代码	-
VideoHallucer：评估大型视频-语言模型中的内在与外在幻觉	2024年6月	代码	-
Black Swan：不可预测事件中的溯因与可废止视频推理	2025年6月	代码	CVPR 2025
能否让视频多模态模型像怀疑论者一样思考——或加倍下注：关于可废止视频蕴涵的研究	2025年8月	-	-
CrossVid：评估多模态大语言模型跨视频推理的综合基准	2025年11月	代码	AAAI 2026
MVU-Eval：迈向多视频理解的多模态大语言模型评估	MVU-Eval	2025年11月	代码
OmniVideoBench：迈向全模态大语言模型的视听理解评估	OmniVideoBench	2025年10月	代码
IF-VidCap：视频字幕模型能否遵循指令？	IF-VidCap	2025年10月	代码

贡献

我们欢迎所有人参与本仓库的贡献，共同提升其质量。您可以提交拉取请求，以添加新的论文、项目及有用资料，或更正您发现的任何错误。请确保您的拉取请求遵循“标题|模型|日期|代码|场所”的格式。感谢您的宝贵贡献！

🌟 星标历史

♥️ 贡献者

没有这些了不起的人的贡献，我们的项目根本不可能实现！感谢大家让这个项目变得更好。

Yolo Y. Tang @ 罗切斯特大学
Jing Bi @ 罗切斯特大学
Siting Xu @ 南方科技大学
Luchuan Song @ 罗切斯特大学
Susan Liang @ 罗切斯特大学
Teng Wang @ 香港大学
Daoan Zhang @ 罗切斯特大学
Jie An @ 罗切斯特大学
Jingyang Lin @ 罗切斯特大学
Rongyi Zhu @ 罗切斯特大学
Ali Vosoughi @ 罗切斯特大学
Chao Huang @ 罗切斯特大学
Zeliang Zhang @ 罗切斯特大学
Pinxin Liu @ 罗切斯特大学
Mingqian Feng @ 罗切斯特大学
Feng Zheng @ 南方科技大学
Jianguo Zhang @ 南方科技大学
Ping Luo @ 香港大学
Jiebo Luo @ 罗切斯特大学
Chenliang Xu @ 罗切斯特大学

Awesome-LLMs-for-Video-Understanding 快速上手指南

本项目并非单一的可执行软件，而是一个精选资源列表（Awesome List），汇集了基于大语言模型（LLM）的视频理解（Vid-LLMs）领域的最新论文、模型代码、数据集和基准测试。本指南将帮助您快速定位所需模型并运行示例代码。

环境准备

由于列表中包含了数十个不同的模型（如 LLaVA, VideoTree, AntGPT 等），具体依赖因模型而异。但大多数 Vid-LLM 项目共享以下基础环境要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python: 3.8 或更高版本 (推荐 3.10)
GPU: NVIDIA GPU (显存建议 16GB+ 以运行大型多模态模型)，需安装 CUDA (11.8 或 12.1)
包管理器: pip 或 conda

通用前置依赖安装： 在克隆具体模型仓库前，建议先配置基础深度学习环境。

# 创建虚拟环境
conda create -n vid-llm python=3.10 -y
conda activate vid-llm

# 安装 PyTorch (根据官方源选择对应 CUDA 版本)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装通用依赖 (transformers, accelerate 等)
pip install transformers accelerate sentencepiece protobuf einops opencv-python

💡 国内加速建议：推荐使用清华或阿里镜像源加速 Python 包安装： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

安装步骤

由于本项目是资源索引，您需要根据需求选择具体的模型进行安装。以下以列表中热门的 LLaVA (作为基础架构代表) 和 VideoTree (长视频理解代表) 为例。

1. 获取资源列表

首先克隆本 Awesome 列表仓库，查阅最新的模型清单：

git clone https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.git
cd Awesome-LLMs-for-Video-Understanding

请查阅目录中的 Taxonomy 表格，找到您感兴趣的模型及其对应的 Code 链接。

2. 安装具体模型示例 (以 LLaVA 为例)

大多数模型提供独立的 GitHub 仓库。

# 克隆模型仓库 (示例为 LLaVA)
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

# 安装模型特定依赖
pip install -e .

3. 下载预训练权重

大多数模型权重托管在 Hugging Face。国内用户建议使用 ModelScope (魔搭社区) 或配置 Hugging Face 镜像。

# 使用 huggingface-cli 下载 (需配置 HF_ENDPOINT)
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download liuhaotian/llava-v1.5-7b --local-dir ./checkpoints/llava-v1.5-7b

基本使用

不同模型的调用方式略有不同，通常分为 命令行推理 和 Python API 调用 两种方式。以下是基于典型 Vid-LLM 结构的通用使用流程。

场景一：视频内容问答 (Video QA)

假设您已准备好视频文件 input_video.mp4 和模型权重。

Python 脚本示例：

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration
from PIL import Image
import cv2

# 1. 加载模型 (路径替换为您下载的实际模型路径)
model_path = "./checkpoints/llava-v1.5-7b"
model = LlavaForConditionalGeneration.from_pretrained(model_path, torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained(model_path)

# 2. 预处理视频 (简化示例：抽取关键帧)
# 实际项目中请使用该模型推荐的采样策略 (如均匀采样或动作检测采样)
cap = cv2.VideoCapture("input_video.mp4")
frames = []
for _ in range(8): # 抽取 8 帧
    ret, frame = cap.read()
    if not ret: break
    frames.append(Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)))
cap.release()

# 3. 构建提示词
prompt = "USER: <image>\nDescribe the main actions happening in this video in detail.\nASSISTANT:"

# 4. 生成回答
inputs = processor(text=prompt, images=frames, return_tensors="pt").to(model.device, torch.float16)

with torch.inference_mode():
    output_ids = model.generate(**inputs, max_new_tokens=512, do_sample=False)

result = processor.decode(output_ids[0], skip_special_tokens=True)
print(result)

场景二：长视频分析 (Long-Form Understanding)

对于列表中提到的 VideoTree 或 DrVideo 等专门处理长视频的模型，通常需要运行其提供的专用脚本。

# 进入具体模型目录 (示例)
cd ../VideoTree

# 运行推理脚本 (参数参考各模型 README)
python inference.py \
    --video_path ./long_video.mp4 \
    --model_name videotree-7b \
    --question "What is the plot twist in the second half of the video?" \
    --output_dir ./results

下一步建议

查阅 Survey 论文：阅读项目首页链接的 arXiv 论文，了解不同架构（如 Video Analyzer × LLM vs Video Embedder × LLM）的适用场景。
浏览 Benchmark：在仓库的 Tasks, Datasets, and Benchmarks 章节查找适合您任务的数据集（如 ActivityNet-QA, MSVD-QA）。
贡献代码：如果您复现了新模型，欢迎通过 Pull Request 更新此 Awesome 列表。

常见问题

如何向该仓库提交新的论文或代码资源？

提交的综述论文会被收录到哪些地方？

为什么我在 GitHub 仓库列表中还没看到刚被确认收录的论文？

该项目主要收录哪些类型的视频理解资源？

如何提交关于视频异常检测或特定领域的新研究？

是否接受关于视频评估基准（Benchmark）的投稿？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

使用场景

没有 Awesome-LLMs-for-Video-Understanding 时

使用 Awesome-LLMs-for-Video-Understanding 后

运行环境要求

快速开始

用于视频理解的优秀大语言模型

🔥🔥🔥 利用大型语言模型进行视频理解：综述

论文 | arXiv | 项目页面

📢 新闻

我们为什么需要 Vid-LLMs？

😎 Vid-LLMs：模型

📑 引用

🗒️ 分类法1

🕹️ 视频分析器 × LLM

大语言模型作为摘要生成器

LLM作为管理者

👾 视频嵌入器 × LLM

LLM作为文本解码器

LLM作为回归器

LLM作为隐藏层

🧭 (分析器 + 嵌入器) × LLM

大型语言模型作为管理者

大型语言模型作为摘要生成器

大型语言模型作为回归器

大型语言模型作为文本解码器

大型语言模型作为隐藏层

🗒️ 分类学 2

🤖 基于大型语言模型的视频智能体

🎥 视频-LLM预训练

👀 视频-LLM指令微调

使用连接适配器进行微调

使用插入式适配器进行微调

使用混合适配器进行微调

🦾 混合方法

💎 无需训练的方法

任务、数据集和基准测试

识别与预测

字幕与描述

现实场景理解与检索

问答任务

视频指令微调

预训练数据集

微调数据集

基于视频的大型语言模型基准

贡献

🌟 星标历史

♥️ 贡献者

Awesome-LLMs-for-Video-Understanding 快速上手指南

环境准备

安装步骤

1. 获取资源列表

2. 安装具体模型示例 (以 LLaVA 为例)

3. 下载预训练权重

基本使用

场景一：视频内容问答 (Video QA)

场景二：长视频分析 (Long-Form Understanding)

下一步建议

常见问题

相似工具推荐

everything-claude-code

LLMs-from-scratch

Deep-Live-Cam

spec-kit

NextChat

ML-For-Beginners