awesome-vision-language-pretraining-papers
awesome-vision-language-pretraining-papers 是一个专注于视觉 - 语言预训练模型(VL-PTMs)前沿进展的开源论文清单。它系统性地梳理了近年来该领域的核心研究成果,涵盖基于图像、视频及语音的多模态预训练技术,并细分为表征学习、特定任务应用及其他分析维度。
在人工智能多模态融合快速发展的背景下,研究人员往往面临文献分散、技术路线繁杂的难题。这份清单通过结构化整理,帮助使用者快速定位从经典的 ViLBERT、LXMERT 到最新的 ViLT、UNIMO 等关键模型,有效解决了信息检索效率低和知识体系构建难的问题。它不仅列出了论文链接,还附带了对应的代码仓库地址,极大地便利了复现与实验工作。
该资源特别适合从事计算机视觉、自然语言处理及多模态学习的研究人员与开发者使用,无论是希望追踪学术动态的学者,还是寻求技术落地的工程师,都能从中获益。其独特亮点在于分类详尽且更新及时,不仅包含通用的图文模型,还涉及时尚领域专用模型(如 Kaleido-BERT)及去噪序列表示等细分方向,为深入理解跨模态对齐、对比学习等核心技术提供了宝贵的导航图。
使用场景
某电商公司的算法团队正致力于升级智能客服系统,希望引入最新的视觉 - 语言预训练模型(VL-PTMs),以实现对用户上传商品图片的精准描述和自动问答功能。
没有 awesome-vision-language-pretraining-papers 时
- 文献检索如大海捞针:研究人员需在 arXiv、Google Scholar 等多个平台手动搜索,极易遗漏如 ViLT、UNIMO 等关键模型,导致技术选型视野狭窄。
- 复现成本高昂且混乱:找到论文后,往往难以定位官方开源代码链接,或发现代码库已失效,团队需花费数周时间重新实现基础架构。
- 技术路线评估困难:缺乏对图像、视频、语音等多模态任务的系统分类,难以快速判断哪种模型(如基于区域的 VinVL 还是端到端的 Pixel-BERT)最适合当前的商品识别场景。
- 领域适配盲目试错:不清楚是否有针对特定领域(如时尚界的 Kaleido-BERT)的预训练成果,只能在通用模型上进行低效的微调尝试。
使用 awesome-vision-language-pretraining-papers 后
- 一站式获取前沿成果:团队直接查阅该清单,迅速锁定了适合电商场景的 SOTA 模型(如 Oscar 和 VinVL),并明确了从 Representation Learning 到 Task-specific 的技术演进脉络。
- 代码资源直达高效复现:每个条目均附带经过验证的官方代码链接,工程师当天即可拉取 ViLBERT 或 LXMERT 的代码库进行本地测试,将环境搭建时间从数周缩短至数小时。
- 精准匹配业务需求:利用清单中清晰的分类结构,团队快速对比了不同模型在“图像描述”与“视觉问答”任务上的表现,科学地选择了最优基线。
- 挖掘垂直领域潜力:通过清单发现的时尚领域专用模型 Kaleido-BERT,直接提升了服装类商品的特征提取精度,避免了从零训练的算力浪费。
awesome-vision-language-pretraining-papers 将原本分散杂乱的科研资源转化为结构化的工程资产,极大加速了多模态 AI 应用从理论调研到落地开发的进程。
运行环境要求
未说明
未说明

快速开始
视觉与语言预训练模型(VL-PTMs)的最新进展
由 WANG Yue(wangyue2714@gmail.com)维护。最后更新于 2021年6月14日。
目录
基于图像的VL-PTMs
表示学习
ViLBERT:为视觉与语言任务预训练无关任务的视觉语言表示,NeurIPS 2019 [代码]
LXMERT:从Transformer中学习跨模态编码器表示,EMNLP 2019 [代码]
VL-BERT:通用视觉-语言表示的预训练,ICLR 2020 [代码]
VisualBERT:视觉与语言的简单高效基线,arXiv 2019年8月,ACL 2020 [代码]
Unicoder-VL:通过跨模态预训练构建视觉与语言的通用编码器,AAAI 2020
用于图像字幕和VQA的统一视觉-语言预训练,AAAI 2020,[代码],(VLP)
UNITER:学习通用的图像-文本表示,ECCV 2020,[代码]
弱监督有助于词-物体对齐的出现并提升视觉-语言任务性能,arXiv 2019年12月
InterBERT:用于多模态预训练的视觉-语言交互,arXiv 2020年3月
Oscar:面向视觉-语言任务的对象语义对齐预训练,arXiv 2020年4月,ECCV 2020
Pixel-BERT:通过深度多模态Transformer将图像像素与文本对齐,arXiv 2020年4月
ERNIE-VIL:通过场景图增强知识的视觉-语言表示,arXiv 2020年6月
DeVLBert:学习去混淆的视觉-语言表示,ACM MM 2020,[代码]
SEMVLP:通过多层次语义对齐进行视觉-语言预训练,ICLR 2021投稿
CAPT:对比预训练用于学习去噪序列表示,arXiv 2020年10月
多模态预训练揭秘:统一视觉与语言BERT,arXiv 2020年11月
LAMP:标签增强型多模态预训练,arXiv 2020年12月
解耦编码器-解码器网络下的视觉-语言预训练中的计划采样,AAAI 2021
ViLT:无需卷积或区域监督的视觉-语言Transformer,arXiv 2021
UNIMO:通过跨模态对比学习迈向统一的模态理解与生成,ACL 2021 [代码]
X-LXMERT:用多模态Transformer绘画、写标题并回答问题,EMNLP 2020
VinVL:重新审视视觉-语言模型中的视觉表示,CVPR 2021
Kaleido-BERT:时尚领域的视觉-语言预训练,CVPR 2021
从自然语言监督中学习可迁移的视觉模型,arXiv 2021年3月
先对齐再融合:利用动量蒸馏进行视觉与语言表示学习,NeurIPS 2021 Spotlight [代码]
Florence:一种新的计算机视觉基础模型,arXiv 2021年11月
任务特定
VCR:用于视觉问答的文本中检测到的对象融合,EMNLP 2019,[代码],(B2T2)
TextVQA:使用指针增强型多模态Transformer进行TextVQA的迭代答案预测,CVPR 2020,[代码],(M4C)
VisDial:VD-BERT:结合BERT的统一视觉与对话Transformer,EMNLP 2020 [代码],(VD-BERT)
VisDial:大规模视觉对话预训练:一个简单的最先进基线,ECCV 2020 [代码],(VisDial-BERT)
VLN:通过预训练学习通用的视觉-语言导航智能体,CVPR 2020,[代码],(PREVALENT)
文本-图像检索:ImageBERT:利用大规模弱监督图像-文本数据进行跨模态预训练,arXiv 2020年1月
图像字幕:XGPT:用于图像字幕的跨模态生成式预训练,arXiv 2020年3月
视觉问题生成:BERT开箱即用就能“看”:关于文本表示的跨模态可迁移性,arXiv 2020年2月
文本-图像检索:用于高效且有效的跨模态搜索的交叉探针BERT,ICLR 2021投稿。
图表VQA:STL-CQA:用于图表问答的基于结构的带定位与编码的Transformer,EMNLP 2020。
VisualMRC:VisualMRC:文档图像上的机器阅读理解,AAAI 2021,(LayoutT5, LayoutBART)
视觉关系检测:利用来自多模态表示的视觉-语言知识进行视觉关系检测,IEEE Access 2021
其他分析
多任务学习,12-in-1:多任务视觉与语言表示学习,CVPR 2020,[代码]
多任务学习,通过文本生成统一视觉-语言任务,arXiv 2021/02
VL嵌入中的社会偏见,测量 grounded 视觉与语言嵌入中的社会偏见,arXiv 2020/02,[代码]
深入分析,我们预训练得对吗?深入探讨视觉-语言预训练,
深入分析,幕后揭秘:揭示预训练视觉-语言模型的秘密,ECCV 2020 Spotlight
深入分析,更细致地考察视觉-语言预训练模型的鲁棒性,arXiv 2020/12
对抗训练,用于视觉-语言表示学习的大规模对抗训练,NeurIPS 2020 Spotlight
自适应分析,用于学习多模态表示的自适应Transformer,ACL SRW 2020
神经架构搜索,深度多模态神经架构搜索,arXiv 2020/04
数据集视角,利用噪声文本监督扩展视觉及视觉-语言表示学习,arXiv 2021/02
基于视频的VL-PTM
VideoBERT:视频与语言表示学习的联合模型,ICCV 2019
使用对比双向Transformer学习视频表示,arXiv 2019/06,(CBT)
M-BERT:在BERT结构中注入多模态信息,arXiv 2019/08
BERT用于大规模视频片段分类,并结合测试时增强,ICCV 2019 YouTube8M研讨会,[代码]
连接文本与视频:一种通用的多模态Transformer,用于视频-音频场景感知对话,AAAI2020 DSTC8研讨会
通过视频与文本对判别学习时空特征,arXiv 2020/01,(CPD),[代码]
UniVL:用于多模态理解和生成的统一视频与语言预训练模型,arXiv 2020/02
ActBERT:学习全局-局部视频-文本表示,CVPR 2020
HERO:用于视频+语言全息表示预训练的层次化编码器,EMNLP 2020
基于预训练生成式语言模型的视频接地对话,ACL 2020
GIF上的自动字幕:用于视觉-语言预训练的大规模视频-句子数据集,arXiv 2020/07
密集视频字幕的多模态预训练,arXiv 2020/11
用于视频表示学习的参数高效的多模态Transformer,arXiv 2020/12
少即是多:通过稀疏采样进行视频-语言学习的CLIPBERT,CVPR 2021
基于语音的VL-PTM
迈向从深度预训练语言模型进行端到端语音合成的迁移学习,arXiv 2019/06
通过预训练理解语音语义,arXiv 2019/09
SpeechBERT:用于端到端口语问答的跨模态预训练语言模型,arXiv 2019/10
vq-wav2vec:离散语音表示的自监督学习,arXiv 2019/10
自监督预训练对语音识别的有效性,arXiv 2019/11
其他基于Transformer的多模态网络
用于图像与句子匹配的多模态交叉注意力网络,ICCV 2020
MART:用于连贯视频段落字幕的记忆增强循环Transformer,ACL 2020
视觉对话中的历史:我们真的需要它吗?,ACL 2020
语言与视觉推理中的跨模态相关性,ACL 2020
其他资源
- 关于预训练语言模型的两篇近期综述
- 自然语言处理中的预训练模型:综述,arXiv 2020/03
- 上下文嵌入综述,arXiv 2020/03
- 其他关于多模态研究的综述
- 视觉与语言研究整合趋势:任务、数据集和方法综述,JAIR 2021
- 深度多模态表示学习:综述,arXiv 2019
- 多模态机器学习:综述与分类,TPAMI 2018
- 图像字幕深度学习综合综述,ACM Computing Surveys 2018
- 其他相关阅读清单仓库
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。