Awesome-LLMs-for-Video-Understanding
Awesome-LLMs-for-Video-Understanding 是一个专注于视频理解与大语言模型(Vid-LLMs)前沿技术的开源资源库。它系统性地整理了该领域最新的学术论文、代码实现、数据集及评测基准,旨在解决研究人员和开发者在面对海量且快速迭代的 Vid-LLM 文献时,难以高效获取核心信息和构建完整知识体系的痛点。
该项目不仅提供了一份被 IEEE TCSVT 接收的权威综述论文,还持续更新包含上百个主流模型和十余个新基准的详细列表。其独特亮点在于提出了一套基于视频表示和 LLM 功能的全新分类法,并从任务粒度与语言参与度等维度对视频理解任务进行了重新梳理,帮助使用者更清晰地把握技术演进脉络。此外,资源库还深入探讨了训练策略及跨领域应用,为后续研究提供了坚实的理论基础与实践参考。
无论是从事多模态算法研究的学者,还是希望将视频分析能力融入产品的工程师,都能从中找到极具价值的指引。通过这一平台,用户可以快速定位所需的技术方案,跟踪最新的研究动态,从而加速在智能视频分析领域的创新与落地。
使用场景
某视频内容审核团队正试图构建一个能理解复杂长视频情节、自动识别违规行为的智能系统,但面对飞速发展的多模态大模型技术感到无从下手。
没有 Awesome-LLMs-for-Video-Understanding 时
- 文献检索如大海捞针:团队成员需分散在 arXiv、GitHub 和各大学术会议网站手动搜索,难以及时获取最新的 Vid-LLM 论文与代码,导致技术选型滞后。
- 模型分类混乱不清:面对数百个新模型,缺乏统一的分类标准(如基于视频表征或 LLM 功能),难以判断哪些架构适合处理长时序依赖或细粒度动作识别。
- 数据与基准匹配困难:不清楚哪些数据集支持特定的推理任务,也找不到权威的评测基准来验证自研模型的性能,重复造轮子现象严重。
- 训练策略盲目试错:缺乏对适配器微调、全量训练等策略的系统性总结,团队在资源有限的情况下浪费大量算力进行无效实验。
使用 Awesome-LLMs-for-Video-Understanding 后
- 一站式资源聚合:直接查阅该仓库整理的最新综述、百余个模型代码链接及 15+ 新基准,半天内即可完成从技术调研到方案选定的全过程。
- 清晰的技术导航:利用其提出的新颖分类体系,快速锁定适合“长视频逻辑推理”任务的模型架构,大幅缩短技术验证周期。
- 精准的数据与评测对接:通过关联的任务 - 数据集 - 基准映射表,迅速找到适配的监控视频数据集和评估指标,确保实验结果具有可比性。
- 高效的训练路径规划:参考仓库中关于训练策略的深度章节,直接复用成熟的微调方案,避免了盲目的超参数搜索,显著降低研发成本。
Awesome-LLMs-for-Video-Understanding 将碎片化的前沿研究转化为结构化的工程指南,让视频理解大模型的开发从“盲目探索”转向“高效落地”。
运行环境要求
未说明
未说明

快速开始
用于视频理解的优秀大语言模型 
🔥🔥🔥 利用大型语言模型进行视频理解:综述
唐云龙1, 毕静1, 徐思婷2, 宋陆川1, 梁苏珊1 , 王腾2,3 , 张道安1 , 安杰1 , 林景阳1 , 朱荣毅1 , 阿里·沃索吉1 , 黄超1 , 张泽良1 , 刘品欣1 , 冯明谦1 , 郑峰2 , 张建国2 , 罗平3 , 罗杰博1, 许晨亮1.
1罗切斯特大学, 2南方科技大学, 3香港大学

📢 新闻
[10/06/2025]
🔥 我们的后续工作——视频-LMM 后训练:深入探讨大型多模态模型的视频推理—现已在 arXiv 和 Hugging Face Papers 上发布!
[05/04/2025]
🌟 我们的 Vid-LLM 综述已被 IEEE 视频技术电路与系统汇刊 (TCSVT) 接受! 👉 IEEE Xplore | GitHub
[07/23/2024]
📢 我们最近更新了我们的综述:“利用大型语言模型进行视频理解:综述”!
✨ 这份全面的综述涵盖了由大型语言模型驱动的视频理解技术、训练策略、相关任务、数据集、基准测试和评估方法,并讨论了 Vid-LLMs 在各个领域的应用。
🚀 本次更新的新内容:
✅ 更新至包含截至2024年6月约100个额外的Vid-LLMs和15个新基准。
✅ 基于视频表示和LLM功能提出了Vid-LLMs的新分类法。
✅ 增加了初步章节,从粒度和语言参与的角度重新分类了视频理解任务,并增强了LLM背景部分。
✅ 增加了新的训练策略章节,移除了适配器作为模型分类的因素。
✅ 所有图表均已重新设计。
在这次重大更新之后,还将进行多次小幅更新。GitHub仓库也将很快逐步更新。我们欢迎您的阅读和反馈 ❤️
我们为什么需要 Vid-LLMs?

😎 Vid-LLMs:模型

📑 引用
如果您发现我们的综述对您的研究有所帮助,请引用以下论文:
@article{vidllmsurvey,
author={Tang, Yunlong and Bi, Jing and Xu, Siting and Song, Luchuan and Liang, Susan and Wang, Teng and Zhang, Daoan and An, Jie and Lin, Jingyang and Zhu, Rongyi and Vosoughi, Ali and Huang, Chao and Zhang, Zeliang and Liu, Pinxin and Feng, Mingqian and Zheng, Feng and Zhang, Jianguo and Luo, Ping and Luo, Jiebo and Xu, Chenliang},
journal={IEEE Transactions on Circuits and Systems for Video Technology},
title={Video Understanding with Large Language Models: A Survey},
year={2025},
doi={10.1109/TCSVT.2025.3566695}
}
🗒️ 分类法1
🕹️ 视频分析器 × LLM
大语言模型作为摘要生成器
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| 看见未见:视频的视觉隐喻字幕生成 | GIT-LLaVA | 06/2024 | 代码 | arXiv |
| 通过剧本实现零样本长视频理解 | MM-Screenplayer | 06/2024 | 项目页面 | CVPR |
| MoReVQA:探索用于视频问答的模块化推理模型 | MoReVQA | 04/2024 | 项目页面 | CVPR |
| 一张图像网格胜过一段视频:基于视觉语言模型的零样本视频问答 | IG-VLM | 03/2024 | 代码 | arXiv |
| 用于长视频理解的语言库 | LangRepo | 03/2024 | 代码 | arXiv |
| 在一次多模态语言模型的前向传播中理解长视频 | MVU | 03/2024 | 代码 | arXiv |
| Video ReCap:对长达一小时的视频进行递归字幕生成 | Video ReCap | 02/2024 | 代码 | CVPR |
| 用于长距离视频问答的简单大语言模型框架 | LLoVi | 12/2023 | 代码 | arXiv |
| 接地提示器:利用多模态信息为大语言模型提供提示,以实现长视频中时间句的定位 | 地接提示器 | 12/2023 | 代码 | arXiv |
| 从开放世界视角学习视频中的物体状态变化 | VIDOSC | 12/2023 | 代码 | CVPR |
| AntGPT:大型语言模型能否帮助从视频中进行长期动作预测? | AntGPT | 07/2023 | 代码 | ICLR |
| VAST:一个视觉-音频-字幕-文本全模态基础模型及数据集 |
VAST | 05/2023 | 代码 | NeurIPS |
| VLog:将视频视为长文档 |
VLog | 04/2023 | 代码 | - |
| 从大型语言模型中学习视频表示 |
LaViLa | 12/2022 | 代码 | CVPR |
LLM作为管理者
👾 视频嵌入器 × LLM
LLM作为文本解码器
LLM作为回归器
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| LLaVA-MR:用于视频瞬间检索的大型多模态语言视觉助手 | LLaVA-MR | 11/2024 | code | arXiv |
| Holmes-VAD:通过多模态LLM实现无偏且可解释的视频异常检测 | Holmes-VAD | 06/2024 | code | arXiv |
| VideoLLM-online:面向流媒体视频的在线视频大型语言模型 | VideoLLM-online | 06/2024 | code | CVPR |
| VLM4HOI:第一人称视角下的手物交互引用任务 | VLM4HOI | 04/2024 | 项目页面 | arXiv |
| V2Xum-LLaMA:基于时间提示指令微调的跨模态视频摘要模型 | V2Xum-LLaMA | 04/2024 | code | arXiv |
| AVicuna:具有交错器和上下文边界对齐功能的视听LLM,用于时序指代对话 | AVicuna | 03/2024 | code | arXiv |
| Elysium:通过MLLM探索视频中的对象级感知 | Elysium | 03/2024 | code | arXiv |
| HawkEye:用于在视频中定位文本的视频-文本LLM训练 | HawkEye | 03/2024 | code | arXiv |
| LITA:语言指令驱动的时序定位助手 | LITA | 03/2024 | code | arXiv |
| OmniViD:通用视频理解的生成式框架 | OmniViD | 03/2024 | code | CVPR |
| GroundingGPT:语言增强型多模态定位模型 | GroundingGPT | 01/2024 | [code](https: //github.com/lzw-lzw/GroundingGPT) | arXiv |
| TimeChat:一种对时间敏感的多模态大型语言模型,用于长视频理解 | TimeChat | 12/2023 | code | CVPR |
| SeViLA:用于视频定位与问答的自链式图像-语言模型 | SeViLA | 11/2023 | code | NeurIPS |
| VTimeLLM:赋能LLM掌握视频瞬间 | VTimeLLM | 11/2023 | code | arXiv |
LLM作为隐藏层
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| VTG-LLM:将时间戳知识融入视频LLM,以增强视频的时间定位能力 | VTG-LLM | 05/2024 | code | arXiv |
| VITRON:统一的像素级视觉LLM,用于理解、生成、分割和编辑 | VITRON | 04/2024 | 项目页面 | NeurIPS |
| VTG-GPT:无需微调的零样本视频时间定位技术,基于GPT | VTG-GPT | 03/2024 | code | arXiv |
| Momentor:通过细粒度的时间推理推进视频大型语言模型的发展 | Momentor | 02/2024 | code | ICML |
| VidDetours:用于导航教学视频的工具 | VidDetours | 01/2024 | code | CVPR |
| OneLLM:一个将所有模态与语言对齐的统一框架 | OneLLM | 12/2023 | code | arXiv |
| GPT4Video:一个统一的多模态大型语言模型,用于遵循指令的理解及安全意识生成 | GPT4Video | 11/2023 | code | ACMMM |
🧭 (分析器 + 嵌入器) × LLM
大型语言模型作为管理者
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| MM-VID:利用GPT-4V(vision)推进视频理解 | MM-VID | 10/2023 | - | arXiv |
大型语言模型作为摘要生成器
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| Shot2Story20K:多镜头视频全面理解的新基准 | SUM-shot | 12/2023 | 代码 | arXiv |
大型语言模型作为回归器
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| Vript:一段视频胜过千言万语 | Vriptor | 06/2024 | 代码 | NeurIPS |
| Merlin:以预见性思维赋能多模态大语言模型 | Merlin | 12/2023 | 项目页面 | ECCV |
| VideoChat:以聊天为中心的视频理解 | VideoChat | 05/2023 | 代码 | arXiv |
| Vid2Seq:用于密集视频字幕的大规模视觉语言模型预训练 | Vid2Seq | 02/2023 | 代码 | CVPR |
大型语言模型作为文本解码器
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| 带有交错多模态序列的上下文AD旁白 | Uni-AD | 03/2024 | 代码 | arXiv |
| MM-Narrator:通过多模态上下文学习为长视频配音 | MM-narrator | 11/2023 | 项目页面 | arXiv |
| Vamos:用于视频理解的多功能动作模型 | Vamos | 11/2023 | 项目页面 | ECCV |
| AutoAD II:续集——电影音频描述中的谁、何时、何事 | Auto-AD II | 10/2023 | 项目页面 | ICCV |
大型语言模型作为隐藏层
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| PG-Video-LLaVA:像素对齐的大规模视频-语言模型 |
PG-Video-LLaVA | 11/2023 | 代码 | arXiv |
🗒️ 分类学 2
🤖 基于大型语言模型的视频智能体
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| 苏格拉底模型:用语言构建零样本多模态推理 | 苏格拉底模型 | 04/2022 | 项目页面 | arXiv |
| 视频聊天字幕生成器:迈向丰富的时空描述 |
视频聊天字幕生成器 | 04/2023 | 代码 | arXiv |
| VLog:视频即长文档 |
VLog | 04/2023 | 代码 | - |
| ChatVideo:以轨迹为中心的多模态、多功能视频理解系统 | ChatVideo | 04/2023 | 项目页面 | arXiv |
| MM-VID:借助GPT-4V(vision)推进视频理解 | MM-VID | 10/2023 | - | arXiv |
| MISAR:一种结合增强现实的多模态指令系统 |
MISAR | 10/2023 | 项目页面 | ICCV |
| 接地提示器:利用多模态信息为长视频中的时序句子接地提供提示 | 接地提示器 | 12/2023 | - | arXiv |
| NaVid:基于视频的VLM为视觉与语言导航规划下一步 | NaVid | 02/2024 | 项目页面 - | RSS |
| VideoAgent:一种记忆增强型多模态代理,用于视频理解 | VideoAgent | 03/2024 | 项目页面 | arXiv |
| VideoINSTA:通过LLM进行信息丰富的时空推理,实现零样本长视频理解 | VideoINSTA | 09/2024 | 代码 | EMNLP |
| Ego-R1:用于超长第一人称视角视频推理的工具链思维 |
Ego-R1代理 | 06/2025 | 代码 | arXiv |
🎥 视频-LLM预训练
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| 从大型语言模型中学习视频表征 |
LaViLa | 12/2022 | 代码 | CVPR |
| Vid2Seq:用于密集视频字幕生成的大规模视觉语言模型预训练 | Vid2Seq | 02/2023 | 代码 | CVPR |
| VAST:一个视觉-音频-字幕-文本全模态基础模型及数据集 |
VAST | 05/2023 | 代码 | NeurIPS |
| Merlin:用预见性思维赋能多模态LLM | Merlin | 12/2023 | - | arXiv |
👀 视频-LLM指令微调
使用连接适配器进行微调
使用插入式适配器进行微调
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| Otter:一种具有上下文指令微调的多模态模型 |
Otter | 06/2023 | code | arXiv |
| VideoLLM:利用大型语言模型建模视频序列 |
VideoLLM | 05/2023 | code | arXiv |
使用混合适配器进行微调
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| VTimeLLM:让大语言模型掌握视频瞬间 |
VTimeLLM | 11/2023 | code | arXiv |
| GPT4Video:用于遵循指令理解和安全生成的统一多模态大型语言模型 | GPT4Video | 11/2023 | - | arXiv |
🦾 混合方法
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| VideoChat:以聊天为中心的视频理解 |
VideoChat | 05/2023 | code demo | arXiv |
| PG-Video-LLaVA:像素对齐的大规模视频-语言模型 |
PG-Video-LLaVA | 11/2023 | code | arXiv |
| TimeChat:一种面向长时间视频理解的时间敏感型多模态大型语言模型 |
TimeChat | 12/2023 | code | CVPR |
| Video-GroundingDINO:迈向开放词汇的时空视频定位 |
Video-GroundingDINO | 12/2023 | code | arXiv |
| 一段视频值4096个token:零样本下将视频转化为文本以实现理解 | Video4096 | 05/2023 | EMNLP |
💎 无需训练的方法
| 标题 | 模型 | 日期 | 代码 | 场所 |
|---|---|---|---|---|
| 超越训练:用于零样本视频理解的动态token合并 | DyTo | 11/2024 | code | ICCV2025 |
| SlowFast-LLaVA:视频大型语言模型的强大无训练基线 | SlowFast-LLaVA | 07/2024 | - | arXiv |
| TS-LLaVA:通过缩略图采样构建视觉token,用于无训练的视频大型语言模型 | TS-LLaVA | 11/2024 | code | arXiv |
| 声音能否通过token替换在LLaVA中替代视觉? | SoundCLIP | 08/2025 | code | arXiv |
| D-CoDe:通过动态压缩和问题分解,将图像预训练的VLM扩展到视频领域 |
D-CoDe | 08/2025 | code 项目页面 | EMNLP |
任务、数据集和基准测试
识别与预测
| 名称 | 论文 | 日期 | 链接 | 场所 |
|---|---|---|---|---|
| Charades | Hollywood in homes: Crowdsourcing data collection for activity understanding | 2016 | 链接 | ECCV |
| YouTube8M | YouTube-8M: A Large-Scale Video Classification Benchmark | 2016 | 链接 | - |
| ActivityNet | ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding | 2015 | 链接 | CVPR |
| Kinetics-GEBC | GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval | 2022 | 链接 | ECCV |
| Kinetics-400 | The Kinetics Human Action Video Dataset | 2017 | 链接 | - |
| VidChapters-7M | VidChapters-7M: Video Chapters at Scale | 2023 | 链接 | NeurIPS |
| BlackSwanSuite | Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events |
2025 | 链接 | CVPR |
字幕与描述
现实场景理解与检索
| 名称 | 论文 | 日期 | 链接 | 会议 |
|---|---|---|---|---|
| Epic-Kitchens-100 | 重新定义第一人称视角视觉任务 | 2021 | 链接 | IJCV |
| VCR(视觉常识推理) | 从识别到认知:视觉常识推理 | 2019 | 链接 | CVPR |
| Ego4D-MQ 和 Ego4D-NLQ | Ego4D:全球3000小时的第一人称视频及其第一人称感知基准套件 | 2021 | 链接 | CVPR |
| Vid-STG | 它在哪里存在?面向多形式句子的时空视频定位 | 2020 | 链接 | CVPR |
| Charades-STA | TALL:基于语言查询的时序动作定位 | 2017 | 链接 | ICCV |
| DiDeMo | 利用自然语言在视频中定位时刻 | 2017 | 链接 | ICCV |
问答任务
| 名称 | 论文 | 日期 | 链接 | 会议 |
|---|---|---|---|---|
| MSVD-QA | 通过逐步细化的外观与运动注意力进行视频问答 | 2017 | 链接 | ACM Multimedia |
| MSRVTT-QA | 通过逐步细化的外观与运动注意力进行视频问答 | 2017 | 链接 | ACM Multimedia |
| TGIF-QA | TGIF-QA:迈向视觉问答中的时空推理 | 2017 | 链接 | CVPR |
| ActivityNet-QA | ActivityNet-QA:通过问答理解复杂网络视频的数据集 | 2019 | 链接 | AAAI |
| Pororo-QA | DeepStory:基于深度嵌入记忆网络的视频故事问答 | 2017 | 链接 | IJCAI |
| TVQA | TVQA:局部化、组合式的视频问答 | 2018 | 链接 | EMNLP |
| MAD-QA | 为长视频问答编码与控制全局语义 | 2024 | 链接 | EMNLP |
| Ego-QA | 为长视频问答编码与控制全局语义 | 2024 | 链接 | EMNLP |
| BlackSwanSuite | 黑天鹅:不可预测事件中的溯因与可废止视频推理 |
2025 | 链接 | CVPR |
| CrossVid | CrossVid:用于评估多模态大型语言模型跨视频推理能力的综合基准 | 2025 | 链接 | AAAI |
视频指令微调
预训练数据集
| 名称 | 论文 | 日期 | 链接 | 会议 |
|---|---|---|---|---|
| VidChapters-7M | VidChapters-7M:大规模视频章节数据集 | 2023 | 链接 | NeurIPS |
| VALOR-1M | VALOR:视觉-音频-语言全感知预训练模型及数据集 | 2023 | 链接 | arXiv |
| Youku-mPLUG | Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 | 2023 | 链接 | arXiv |
| InternVid | InternVid:用于多模态理解和生成的大规模视频-文本数据集 | 2023 | 链接 | arXiv |
| VAST-27M | VAST:视觉-音频-字幕-文本全模态基础模型及数据集 | 2023 | 链接 | NeurIPS |
微调数据集
| 名称 | 论文 | 日期 | 链接 | 会议 |
|---|---|---|---|---|
| MIMIC-IT | MIMIC-IT:多模态上下文指令微调 | 2023 | 链接 | arXiv |
| VideoInstruct100K | Video-ChatGPT:借助大型视觉和语言模型实现精细视频理解 | 2023 | 链接 | arXiv |
| TimeIT | TimeChat:用于长视频理解的时敏型多模态大型语言模型 | 2023 | 链接 | CVPR |
基于视频的大型语言模型基准
| 标题 | 日期 | 代码 | 场所 |
|---|---|---|---|
| LVBench:极端长视频理解基准 | 2024年6月 | 代码 | - |
| Video-Bench:评估基于视频的大语言模型的综合基准与工具包 | 2023年11月 | 代码 | - |
| Perception Test:多模态视频模型的诊断性基准测试 | 2023年5月 | 代码 | NeurIPS 2023、ICCV 2023研讨会 |
| Youku-mPLUG:用于预训练和基准测试的1000万规模中文视频-语言数据集 |
2023年7月 | 代码 | - |
| FETV:开放域文本到视频生成的细粒度评估基准 |
2023年11月 | 代码 | NeurIPS 2023 |
| MoVQA:面向长篇电影理解的多功能问答基准 | 2023年12月 | 代码 | - |
| MVBench:全面的多模态视频理解基准 | 2023年12月 | 代码 | - |
| TempCompass:视频大语言模型真的能理解视频吗? |
2024年3月 | 代码 | ACL 2024 |
| Video-MME:首个针对多模态大语言模型在视频分析中进行全面评估的基准 |
2024年6月 | 代码 | - |
| VideoHallucer:评估大型视频-语言模型中的内在与外在幻觉 |
2024年6月 | 代码 | - |
| Black Swan:不可预测事件中的溯因与可废止视频推理 |
2025年6月 | 代码 | CVPR 2025 |
| 能否让视频多模态模型像怀疑论者一样思考——或加倍下注:关于可废止视频蕴涵的研究 | 2025年8月 | - | - |
| CrossVid:评估多模态大语言模型跨视频推理的综合基准 | 2025年11月 | 代码 | AAAI 2026 |
| MVU-Eval:迈向多视频理解的多模态大语言模型评估 | MVU-Eval | 2025年11月 | 代码 |
| OmniVideoBench:迈向全模态大语言模型的视听理解评估 | OmniVideoBench | 2025年10月 | 代码 |
| IF-VidCap:视频字幕模型能否遵循指令? | IF-VidCap | 2025年10月 | 代码 |
贡献
我们欢迎所有人参与本仓库的贡献,共同提升其质量。您可以提交拉取请求,以添加新的论文、项目及有用资料,或更正您发现的任何错误。请确保您的拉取请求遵循“标题|模型|日期|代码|场所”的格式。感谢您的宝贵贡献!
🌟 星标历史
♥️ 贡献者
没有这些了不起的人的贡献,我们的项目根本不可能实现!感谢大家让这个项目变得更好。
Yolo Y. Tang @ 罗切斯特大学
Jing Bi @ 罗切斯特大学
Siting Xu @ 南方科技大学
Luchuan Song @ 罗切斯特大学
Susan Liang @ 罗切斯特大学
Teng Wang @ 香港大学
Daoan Zhang @ 罗切斯特大学
Jie An @ 罗切斯特大学
Jingyang Lin @ 罗切斯特大学
Rongyi Zhu @ 罗切斯特大学
Ali Vosoughi @ 罗切斯特大学
Chao Huang @ 罗切斯特大学
Zeliang Zhang @ 罗切斯特大学
Pinxin Liu @ 罗切斯特大学
Mingqian Feng @ 罗切斯特大学
Feng Zheng @ 南方科技大学
Jianguo Zhang @ 南方科技大学
Ping Luo @ 香港大学
Jiebo Luo @ 罗切斯特大学
Chenliang Xu @ 罗切斯特大学
常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
