[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-yuewang-cuhk--awesome-vision-language-pretraining-papers":3,"tool-yuewang-cuhk--awesome-vision-language-pretraining-papers":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":81,"stars":84,"forks":85,"last_commit_at":86,"license":81,"difficulty_score":87,"env_os":88,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":93,"github_topics":94,"view_count":23,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":100,"updated_at":101,"faqs":102,"releases":103},3413,"yuewang-cuhk\u002Fawesome-vision-language-pretraining-papers","awesome-vision-language-pretraining-papers","Recent Advances in Vision and Language PreTrained Models (VL-PTMs)","awesome-vision-language-pretraining-papers 是一个专注于视觉 - 语言预训练模型（VL-PTMs）前沿进展的开源论文清单。它系统性地梳理了近年来该领域的核心研究成果，涵盖基于图像、视频及语音的多模态预训练技术，并细分为表征学习、特定任务应用及其他分析维度。\n\n在人工智能多模态融合快速发展的背景下，研究人员往往面临文献分散、技术路线繁杂的难题。这份清单通过结构化整理，帮助使用者快速定位从经典的 ViLBERT、LXMERT 到最新的 ViLT、UNIMO 等关键模型，有效解决了信息检索效率低和知识体系构建难的问题。它不仅列出了论文链接，还附带了对应的代码仓库地址，极大地便利了复现与实验工作。\n\n该资源特别适合从事计算机视觉、自然语言处理及多模态学习的研究人员与开发者使用，无论是希望追踪学术动态的学者，还是寻求技术落地的工程师，都能从中获益。其独特亮点在于分类详尽且更新及时，不仅包含通用的图文模型，还涉及时尚领域专用模型（如 Kaleido-BERT）及去噪序列表示等细分方向，为深入理解跨模态对齐、对比学习等核心技术提供了宝贵的导航图。","# Recent Advances in Vision and Language PreTrained Models (VL-PTMs)\nMaintained by [WANG Yue](https:\u002F\u002Fyuewang-cuhk.github.io\u002F) (wangyue2714@gmail.com). Last update on 2021\u002F06\u002F14.\n\n## Table of Contents\n\n* [Image-based VL-PTMs](#image-based-vl-ptms)\n  * [Representation Learning](#representation-learning)\n  * [Task-specific](#task-specific)\n  * [Other Analysis](#other-analysis)\n* [Video-based VL-PTMs](#video-based-vl-ptms)\n* [Speech-based VL-PTMs](#speech-based-vl-ptms)\n* [Other Transformer-based multimodal networks](#other-transformer-based-multimodal-networks)\n* [Other Resources](#other-resources)\n\n\n# Image-based VL-PTMs\n\n## Representation Learning\n\n[ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.02265), NeurIPS 2019 [[code]](https:\u002F\u002Fgithub.com\u002Fjiasenlu\u002Fvilbert_beta)\n\n[LXMERT: Learning Cross-Modality Encoder Representations from Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.07490), EMNLP 2019 [[code]](https:\u002F\u002Fgithub.com\u002Fairsplay\u002Flxmert)\n\n[VL-BERT: Pre-training of Generic Visual-Linguistic Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.08530), ICLR 2020\n [[code]](https:\u002F\u002Fgithub.com\u002Fjackroos\u002FVL-BERT)\n\n[VisualBERT: A Simple and Performant Baseline for Vision and Language](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.03557), arXiv 2019\u002F08, ACL 2020 [[code]](https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fvisualbert)\n\n[Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.06066), AAAI 2020\n\n[Unified Vision-Language Pre-Training for Image Captioning and VQA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11059.pdf), AAAI 2020, [[code]](https:\u002F\u002Fgithub.com\u002FLuoweiZhou\u002FVLP), (**VLP**)\n\n[UNITER: Learning Universal Image-text Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11740), ECCV 2020, [[code]](https:\u002F\u002Fgithub.com\u002FChenRocks\u002FUNITER)\n\n[Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.03063), arXiv 2019\u002F12\n\n[InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.13198), arXiv 2020\u002F03\n\n[Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.06165.pdf), arXiv 2020\u002F04, ECCV 2020\n\n[Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.00849), arXiv 2020\u002F04\n\n[ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16934), arXiv 2020\u002F06\n\n[DeVLBert: Learning Deconfounded Visio-Linguistic Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.06884), ACM MM 2020, [[code]](https:\u002F\u002Fgithub.com\u002Fshengyuzhang\u002FDeVLBert)\n\n[SEMVLP: VISION-LANGUAGE PRE-TRAINING BY ALIGNING SEMANTICS AT MULTIPLE LEVELS](https:\u002F\u002Fopenreview.net\u002Fforum?id=Wg2PSpLZiH), ICLR 2021 submission\n\n[CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.06351.pdf), arXiv 2020\u002F10\n\n[Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.15124.pdf), arXiv 2020\u002F11\n\n[LAMP: Label Augmented Multimodal Pretraining](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.04446.pdf), arXiv 2020\u002F12\n\n[Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.11562.pdf), AAAI 2021\n\n[ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.03334.pdf), arXiv 2021\n\n[UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.15409), ACL 2021 \\[[code](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FResearch\u002Ftree\u002Fmaster\u002FNLP\u002FUNIMO)\\]\n\n[X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.11278), EMNLP 2020\n\n[VinVL: Revisiting Visual Representations in Vision-Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00529), CVPR 2021\n\n[Kaleido-BERT: Vision-Language Pre-training on Fashion Domain](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.16110), CVPR 2021\n\n[Learning Transferable Visual Models From Natural Language Supervision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.00020.pdf), arXiv 2021\u002F02\n\n[Align before Fuse: Vision and Language Representation Learning with Momentum Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.07651), NeurIPS 2021 Spotlight \\[[code](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FALBEF)\\]\n\n[Florence: A New Foundation Model for Computer Vision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2111.11432.pdf), arXiv 2021\u002F11\n\n\n\n## Task-specific\n\n**VCR**: [Fusion of Detected Objects in Text for Visual Question Answering](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.05054), EMNLP 2019, [[code]](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Flanguage\u002Ftree\u002Fmaster\u002Flanguage\u002Fquestion_answering\u002Fb2t2), (**B2T2**)\n\n**TextVQA**: [Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.06258), CVPR 2020, [[code]](https:\u002F\u002Fgithub.com\u002Fronghanghu\u002Fpythia\u002Ftree\u002Fproject\u002Fm4c\u002Fprojects\u002FM4C), (**M4C**)\n\n**VisDial**: [VD-BERT: A Unified Vision and Dialog Transformer with BERT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.13278), EMNLP 2020 [[code]](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FVD-BERT), (**VD-BERT**)\n\n**VisDial**: [Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02379), ECCV 2020 [[code]](https:\u002F\u002Fgithub.com\u002Fvmurahari3\u002Fvisdial-bert), (**VisDial-BERT**)\n\n**VLN**: [Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10638), CVPR 2020, [[code]](https:\u002F\u002Fgithub.com\u002Fweituo12321\u002FPREVALENT), (**PREVALENT**)\n\n**Text-image retrieval**: [ImageBERT: Cross-Modal Pre-training with Large-scale Weak-supervised Image-text Data](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.07966), arXiv 2020\u002F01\n\n**Image captioning**: [XGPT: Cross-modal Generative Pre-Training for Image Captioning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.01473), arXiv 2020\u002F03\n\n**Visual Question Generation**: [BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10832), arXiv 2020\u002F02\n\n**Text-image retrieval**: [CROSS-PROBE BERT FOR EFFICIENT AND EFFECTIVE CROSS-MODAL SEARCH](https:\u002F\u002Fopenreview.net\u002Fforum?id=bW9SYKHcZiz), ICLR 2021 submission. \n\n**Chart VQA**: [STL-CQA: Structure-based Transformers with Localization and Encoding for Chart Question Answering](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.264.pdf), EMNLP 2020.\n\n**VisualMRC**: [VisualMRC: Machine Reading Comprehension on Document Images](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11272), AAAI 2021, (**LayoutT5, LayoutBART**)\n\n**Visual Relationship Detection**: [Visual Relationship Detection With Visual-Linguistic Knowledge From Multimodal Representations](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9387302), \tIEEE Access 2021\n\n## Other Analysis\n\n**Multi-task Learning**, [12-in-1: Multi-Task Vision and Language Representation Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02315), CVPR 2020, [[code]](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvilbert-multi-task) \n\n**Multi-task Learning**, [Unifying Vision-and-Language Tasks via Text Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.02779), arXiv 2021\u002F02\n\n**Social Bias in VL Embedding**, [Measuring Social Biases in Grounded Vision and Language Embeddings](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.08911), arXiv 2020\u002F02, [[code]](https:\u002F\u002Fgithub.com\u002Fcandacelax\u002Fbias-in-vision-and-language)\n\n**In-depth Analysis**, [Are we pretraining it right? Digging deeper into visio-linguistic pretraining](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.08744),\n\n**In-depth Analysis**, [Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.07310), ECCV 2020 Spotlight\n\n**In-depth Analysis**, [A Closer Look at the Robustness of Vision-and-Language Pre-trained Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.08673), arXiv 2020\u002F12\n\n**Adversarial Training**, [Large-Scale Adversarial Training for Vision-and-Language Representation Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.06195), NeurIPS 2020 Spotlight\n\n**Adaptive Analysis**, [Adaptive Transformers for Learning Multimodal Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.07486), ACL SRW 2020\n\n\n**Neural Architecture Search**, [Deep Multimodal Neural Architecture Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.12070), arXiv 2020\u002F04\n\n**Dataset perspective**, [Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.05918), arXiv 2021\u002F02\n\n\n\n\n# Video-based VL-PTMs\n\n[VideoBERT: A Joint Model for Video and Language Representation Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.01766), ICCV 2019\n\n[Learning Video Representations Using Contrastive Bidirectional Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.05743), arXiv 2019\u002F06, (**CBT**)\n\n[M-BERT: Injecting Multimodal Information in the BERT Structure](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.05787), arXiv 2019\u002F08\n\n[BERT for Large-scale Video Segment Classification with Test-time Augmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.01127), \tICCV 2019 YouTube8M workshop, [[code]](https:\u002F\u002Fgithub.com\u002Fhughshaoqz\u002F3rd-Youtube8M-TM)\n\n[Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.00163), AAAI2020 DSTC8 workshop\n\n[Learning Spatiotemporal Features via Video and Text Pair Discrimination](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.05691), arXiv 2020\u002F01, (**CPD**), [[code]](https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FCPD-Video)\n\n[UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.06353), arXiv 2020\u002F02\n\n[ActBERT: Learning Global-Local Video-Text Representations](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fhtml\u002FZhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.html), CVPR 2020\n\n[HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00200), EMNLP 2020\n\n[Video-Grounded Dialogues with Pretrained Generation Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.15319), ACL 2020\n\n[Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.02375), arXiv 2020\u002F07\n\n[Multimodal Pretraining for Dense Video Captioning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.11760.pdf), arXiv 2020\u002F11\n\n[PARAMETER EFFICIENT MULTIMODAL TRANSFORMERS FOR VIDEO REPRESENTATION LEARNING](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.04124.pdf), arXiv 2020\u002F12\n\n[Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.06183.pdf), CVPR 2021\n\n# Speech-based VL-PTMs\n\n[Towards Transfer Learning for End-to-End Speech Synthesis from Deep Pre-Trained Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.07307), arXiv 2019\u002F06\n\n[Understanding Semantics from Speech Through Pre-training](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.10924), arXiv 2019\u002F09\n\n[SpeechBERT: Cross-Modal Pre-trained Language Model for End-to-end Spoken Question Answering](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.11559), arXiv 2019\u002F10\n\n[vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.05453),  arXiv 2019\u002F10\n\n[Effectiveness of self-supervised pre-training for speech recognition](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.03912),  arXiv 2019\u002F11\n\n# Other Transformer-based multimodal networks\n\n[Multi-Modality Cross Attention Network for Image and Sentence Matching](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fhtml\u002FWei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.html), ICCV 2020\n\n[MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.05402), ACL 2020\n\n[History for Visual Dialog: Do we really need it?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.07493.pdf), ACL 2020\n\n[Cross-Modality Relevance for Reasoning on Language and Vision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.06035), ACL 2020\n\n\n\n# Other Resources\n\n* Two recent surveys on pretrained language models\n  * [Pre-trained Models for Natural Language Processing: A Survey](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.08271), arXiv 2020\u002F03\n  * [A Survey on Contextual Embeddings](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.07278), arXiv 2020\u002F03\n* Other surveys about multimodal research\n  * [Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods](https:\u002F\u002Fdoi.org\u002F10.1613\u002Fjair.1.11688), JAIR 2021\n  * [Deep Multimodal Representation Learning: A Survey](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8715409), arXiv 2019 \n  * [Multimodal Machine Learning: A Survey and Taxonomy](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.09406), TPAMI 2018\n  * [A Comprehensive Survey of Deep Learning for Image Captioning](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04020), ACM Computing Surveys 2018\n* Other repositories of relevant reading list\n  * [Pre-trained Languge Model Papers from THU-NLP](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers)\n  * [BERT-related Papers](https:\u002F\u002Fgithub.com\u002Ftomohideshibata\u002FBERT-related-papers)\n  * [Reading List for Topics in Multimodal Machine Learning](https:\u002F\u002Fgithub.com\u002Fpliang279\u002Fawesome-multimodal-ml)\n  * [A repository of vision and language papers](https:\u002F\u002Fgithub.com\u002Fsangminwoo\u002Fawesome-vision-and-language-papers)\n\n","# 视觉与语言预训练模型（VL-PTMs）的最新进展\n由 [WANG Yue](https:\u002F\u002Fyuewang-cuhk.github.io\u002F)（wangyue2714@gmail.com）维护。最后更新于 2021年6月14日。\n\n## 目录\n\n* [基于图像的VL-PTMs](#image-based-vl-ptms)\n  * [表示学习](#representation-learning)\n  * [任务特定](#task-specific)\n  * [其他分析](#other-analysis)\n* [基于视频的VL-PTMs](#video-based-vl-ptms)\n* [基于语音的VL-PTMs](#speech-based-vl-ptms)\n* [其他基于Transformer的多模态网络](#other-transformer-based-multimodal-networks)\n* [其他资源](#other-resources)\n\n\n# 基于图像的VL-PTMs\n\n## 表示学习\n\n[ViLBERT：为视觉与语言任务预训练无关任务的视觉语言表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.02265)，NeurIPS 2019 [[代码]](https:\u002F\u002Fgithub.com\u002Fjiasenlu\u002Fvilbert_beta)\n\n[LXMERT：从Transformer中学习跨模态编码器表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.07490)，EMNLP 2019 [[代码]](https:\u002F\u002Fgithub.com\u002Fairsplay\u002Flxmert)\n\n[VL-BERT：通用视觉-语言表示的预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.08530)，ICLR 2020\n [[代码]](https:\u002F\u002Fgithub.com\u002Fjackroos\u002FVL-BERT)\n\n[VisualBERT：视觉与语言的简单高效基线](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.03557)，arXiv 2019年8月，ACL 2020 [[代码]](https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fvisualbert)\n\n[Unicoder-VL：通过跨模态预训练构建视觉与语言的通用编码器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.06066)，AAAI 2020\n\n[用于图像字幕和VQA的统一视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11059.pdf)，AAAI 2020，[[代码]](https:\u002F\u002Fgithub.com\u002FLuoweiZhou\u002FVLP)，(**VLP**)\n\n[UNITER：学习通用的图像-文本表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11740)，ECCV 2020，[[代码]](https:\u002F\u002Fgithub.com\u002FChenRocks\u002FUNITER)\n\n[弱监督有助于词-物体对齐的出现并提升视觉-语言任务性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.03063)，arXiv 2019年12月\n\n[InterBERT：用于多模态预训练的视觉-语言交互](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.13198)，arXiv 2020年3月\n\n[Oscar：面向视觉-语言任务的对象语义对齐预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.06165.pdf)，arXiv 2020年4月，ECCV 2020\n\n[Pixel-BERT：通过深度多模态Transformer将图像像素与文本对齐](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.00849)，arXiv 2020年4月\n\n[ERNIE-VIL：通过场景图增强知识的视觉-语言表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16934)，arXiv 2020年6月\n\n[DeVLBert：学习去混淆的视觉-语言表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.06884)，ACM MM 2020，[[代码]](https:\u002F\u002Fgithub.com\u002Fshengyuzhang\u002FDeVLBert)\n\n[SEMVLP：通过多层次语义对齐进行视觉-语言预训练](https:\u002F\u002Fopenreview.net\u002Fforum?id=Wg2PSpLZiH)，ICLR 2021投稿\n\n[CAPT：对比预训练用于学习去噪序列表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.06351.pdf)，arXiv 2020年10月\n\n[多模态预训练揭秘：统一视觉与语言BERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.15124.pdf)，arXiv 2020年11月\n\n[LAMP：标签增强型多模态预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.04446.pdf)，arXiv 2020年12月\n\n[解耦编码器-解码器网络下的视觉-语言预训练中的计划采样](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.11562.pdf)，AAAI 2021\n\n[ViLT：无需卷积或区域监督的视觉-语言Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.03334.pdf)，arXiv 2021\n\n[UNIMO：通过跨模态对比学习迈向统一的模态理解与生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.15409)，ACL 2021 \\[[代码](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FResearch\u002Ftree\u002Fmaster\u002FNLP\u002FUNIMO)\\]\n\n[X-LXMERT：用多模态Transformer绘画、写标题并回答问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.11278)，EMNLP 2020\n\n[VinVL：重新审视视觉-语言模型中的视觉表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00529)，CVPR 2021\n\n[Kaleido-BERT：时尚领域的视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.16110)，CVPR 2021\n\n[从自然语言监督中学习可迁移的视觉模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.00020.pdf)，arXiv 2021年3月\n\n[先对齐再融合：利用动量蒸馏进行视觉与语言表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.07651)，NeurIPS 2021 Spotlight \\[[代码](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FALBEF)\\]\n\n[Florence：一种新的计算机视觉基础模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2111.11432.pdf)，arXiv 2021年11月\n\n\n\n## 任务特定\n\n**VCR**：[用于视觉问答的文本中检测到的对象融合](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.05054)，EMNLP 2019，[[代码]](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Flanguage\u002Ftree\u002Fmaster\u002Flanguage\u002Fquestion_answering\u002Fb2t2)，(**B2T2**)\n\n**TextVQA**：[使用指针增强型多模态Transformer进行TextVQA的迭代答案预测](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.06258)，CVPR 2020，[[代码]](https:\u002F\u002Fgithub.com\u002Fronghanghu\u002Fpythia\u002Ftree\u002Fproject\u002Fm4c\u002Fprojects\u002FM4C)，(**M4C**)\n\n**VisDial**：[VD-BERT：结合BERT的统一视觉与对话Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.13278)，EMNLP 2020 [[代码]](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FVD-BERT)，(**VD-BERT**)\n\n**VisDial**：[大规模视觉对话预训练：一个简单的最先进基线](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02379)，ECCV 2020 [[代码]](https:\u002F\u002Fgithub.com\u002Fvmurahari3\u002Fvisdial-bert)，(**VisDial-BERT**)\n\n**VLN**：[通过预训练学习通用的视觉-语言导航智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10638)，CVPR 2020，[[代码]](https:\u002F\u002Fgithub.com\u002Fweituo12321\u002FPREVALENT)，(**PREVALENT**)\n\n**文本-图像检索**：[ImageBERT：利用大规模弱监督图像-文本数据进行跨模态预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.07966)，arXiv 2020年1月\n\n**图像字幕**：[XGPT：用于图像字幕的跨模态生成式预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.01473)，arXiv 2020年3月\n\n**视觉问题生成**：[BERT开箱即用就能“看”：关于文本表示的跨模态可迁移性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10832)，arXiv 2020年2月\n\n**文本-图像检索**：[用于高效且有效的跨模态搜索的交叉探针BERT](https:\u002F\u002Fopenreview.net\u002Fforum?id=bW9SYKHcZiz)，ICLR 2021投稿。\n\n**图表VQA**：[STL-CQA：用于图表问答的基于结构的带定位与编码的Transformer](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.264.pdf)，EMNLP 2020。\n\n**VisualMRC**：[VisualMRC：文档图像上的机器阅读理解](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11272)，AAAI 2021，(**LayoutT5, LayoutBART**)\n\n**视觉关系检测**：[利用来自多模态表示的视觉-语言知识进行视觉关系检测](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9387302)，IEEE Access 2021\n\n## 其他分析\n\n**多任务学习**，[12-in-1：多任务视觉与语言表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.02315)，CVPR 2020，[[代码]](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvilbert-multi-task)\n\n**多任务学习**，[通过文本生成统一视觉-语言任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.02779)，arXiv 2021\u002F02\n\n**VL嵌入中的社会偏见**，[测量 grounded 视觉与语言嵌入中的社会偏见](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.08911)，arXiv 2020\u002F02，[[代码]](https:\u002F\u002Fgithub.com\u002Fcandacelax\u002Fbias-in-vision-and-language)\n\n**深入分析**，[我们预训练得对吗？深入探讨视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.08744)，\n\n**深入分析**，[幕后揭秘：揭示预训练视觉-语言模型的秘密](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.07310)，ECCV 2020 Spotlight\n\n**深入分析**，[更细致地考察视觉-语言预训练模型的鲁棒性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.08673)，arXiv 2020\u002F12\n\n**对抗训练**，[用于视觉-语言表示学习的大规模对抗训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.06195)，NeurIPS 2020 Spotlight\n\n**自适应分析**，[用于学习多模态表示的自适应Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.07486)，ACL SRW 2020\n\n\n**神经架构搜索**，[深度多模态神经架构搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.12070)，arXiv 2020\u002F04\n\n**数据集视角**，[利用噪声文本监督扩展视觉及视觉-语言表示学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.05918)，arXiv 2021\u002F02\n\n\n\n\n# 基于视频的VL-PTM\n\n[VideoBERT：视频与语言表示学习的联合模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.01766)，ICCV 2019\n\n[使用对比双向Transformer学习视频表示](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.05743)，arXiv 2019\u002F06，(**CBT**)\n\n[M-BERT：在BERT结构中注入多模态信息](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.05787)，arXiv 2019\u002F08\n\n[BERT用于大规模视频片段分类，并结合测试时增强](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.01127)，ICCV 2019 YouTube8M研讨会，[[代码]](https:\u002F\u002Fgithub.com\u002Fhughshaoqz\u002F3rd-Youtube8M-TM)\n\n[连接文本与视频：一种通用的多模态Transformer，用于视频-音频场景感知对话](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.00163)，AAAI2020 DSTC8研讨会\n\n[通过视频与文本对判别学习时空特征](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.05691)，arXiv 2020\u002F01，(**CPD**)，[[代码]](https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FCPD-Video)\n\n[UniVL：用于多模态理解和生成的统一视频与语言预训练模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.06353)，arXiv 2020\u002F02\n\n[ActBERT：学习全局-局部视频-文本表示](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fhtml\u002FZhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.html)，CVPR 2020\n\n[HERO：用于视频+语言全息表示预训练的层次化编码器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00200)，EMNLP 2020\n\n[基于预训练生成式语言模型的视频接地对话](https:\u002F\u002Farxiv.org\u002Fabs\u002F2006.15319)，ACL 2020\n\n[GIF上的自动字幕：用于视觉-语言预训练的大规模视频-句子数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.02375)，arXiv 2020\u002F07\n\n[密集视频字幕的多模态预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.11760.pdf)，arXiv 2020\u002F11\n\n[用于视频表示学习的参数高效的多模态Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.04124.pdf)，arXiv 2020\u002F12\n\n[少即是多：通过稀疏采样进行视频-语言学习的CLIPBERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.06183.pdf)，CVPR 2021\n\n# 基于语音的VL-PTM\n\n[迈向从深度预训练语言模型进行端到端语音合成的迁移学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.07307)，arXiv 2019\u002F06\n\n[通过预训练理解语音语义](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.10924)，arXiv 2019\u002F09\n\n[SpeechBERT：用于端到端口语问答的跨模态预训练语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.11559)，arXiv 2019\u002F10\n\n[vq-wav2vec：离散语音表示的自监督学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.05453)，arXiv 2019\u002F10\n\n[自监督预训练对语音识别的有效性](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.03912)，arXiv 2019\u002F11\n\n# 其他基于Transformer的多模态网络\n\n[用于图像与句子匹配的多模态交叉注意力网络](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fhtml\u002FWei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.html)，ICCV 2020\n\n[MART：用于连贯视频段落字幕的记忆增强循环Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.05402)，ACL 2020\n\n[视觉对话中的历史：我们真的需要它吗？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.07493.pdf)，ACL 2020\n\n[语言与视觉推理中的跨模态相关性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.06035)，ACL 2020\n\n\n\n# 其他资源\n\n* 关于预训练语言模型的两篇近期综述\n  * [自然语言处理中的预训练模型：综述](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.08271)，arXiv 2020\u002F03\n  * [上下文嵌入综述](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.07278)，arXiv 2020\u002F03\n* 其他关于多模态研究的综述\n  * [视觉与语言研究整合趋势：任务、数据集和方法综述](https:\u002F\u002Fdoi.org\u002F10.1613\u002Fjair.1.11688)，JAIR 2021\n  * [深度多模态表示学习：综述](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8715409)，arXiv 2019\n  * [多模态机器学习：综述与分类](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.09406)，TPAMI 2018\n  * [图像字幕深度学习综合综述](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.04020)，ACM Computing Surveys 2018\n* 其他相关阅读清单仓库\n  * [THU-NLP的预训练语言模型论文](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers)\n  * [BERT相关论文](https:\u002F\u002Fgithub.com\u002Ftomohideshibata\u002FBERT-related-papers)\n  * [多模态机器学习主题阅读清单](https:\u002F\u002Fgithub.com\u002Fpliang279\u002Fawesome-multimodal-ml)\n  * [视觉与语言论文仓库](https:\u002F\u002Fgithub.com\u002Fsangminwoo\u002Fawesome-vision-and-language-papers)","# awesome-vision-language-pretraining-papers 快速上手指南\n\n**工具简介**：\n`awesome-vision-language-pretraining-papers` 并非一个可直接安装的软件库或框架，而是一个由社区维护的**精选论文与代码资源列表**。它汇集了视觉 - 语言预训练模型（VL-PTMs）领域的最新进展，涵盖图像、视频、语音等多模态方向。本指南旨在帮助开发者如何利用该列表快速定位并复现经典的开源模型（如 ViLBERT, LXMERT, CLIP 等）。\n\n## 环境准备\n\n由于该仓库包含多种不同架构的模型，具体的系统要求取决于你选择复现的特定论文代码。以下是通用的基础环境建议：\n\n*   **操作系统**：Linux (推荐 Ubuntu 18.04\u002F20.04) 或 macOS。\n*   **硬件要求**：\n    *   GPU：建议使用 NVIDIA GPU (显存 ≥ 16GB 用于训练，≥ 8GB 用于推理)。\n    *   CUDA：版本需与所选模型的 PyTorch\u002FTensorFlow 版本兼容（通常推荐 CUDA 11.x）。\n*   **前置依赖**：\n    *   Python 3.7+\n    *   Git\n    *   深度学习框架：PyTorch 或 TensorFlow (根据具体模型而定)\n    *   包管理工具：`pip` 或 `conda`\n\n> **提示**：在克隆具体模型代码前，请确保已安装基础的深度学习环境。国内用户建议使用清华源或阿里源加速包下载。\n\n## 安装步骤\n\n该仓库本身无需“安装”，使用步骤如下：\n\n### 1. 克隆资源列表仓库\n首先将论文列表克隆到本地，以便查阅和跳转。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyuewang-cuhk\u002Fawesome-vision-language-pretraining-papers.git\ncd awesome-vision-language-pretraining-papers\n```\n\n### 2. 选择并克隆目标模型代码\n在 `README.md` 中找到你感兴趣的模型（例如 **ALBEF** 或 **LXMERT**），点击对应的 `[code]` 链接或直接使用 git 克隆。\n\n**示例：以 ALBEF (Align before Fuse) 为例**\n\n```bash\n# 进入工作目录\ncd .. \nmkdir vl_models && cd vl_models\n\n# 克隆 ALBEF 官方代码库\ngit clone https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FALBEF.git\ncd ALBEF\n```\n\n### 3. 配置模型运行环境\n进入具体模型目录后，根据其 `requirements.txt` 安装依赖。\n\n```bash\n# 创建虚拟环境 (推荐)\nconda create -n albef python=3.8\nconda activate albef\n\n# 安装依赖 (国内用户可使用清华源加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 PyTorch (根据CUDA版本选择，以下为示例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n## 基本使用\n\n以下以 **ALBEF** 模型为例，展示如何加载预训练权重并进行简单的图像 - 文本匹配推理。其他模型的使用逻辑类似，请参考各自仓库的 `README`。\n\n### 1. 下载预训练权重\n通常在模型仓库的说明中提供下载链接，或使用脚本自动下载。\n\n```bash\n# 示例：下载 ALBEF 预训练权重 (具体命令参考原仓库说明)\nwget https:\u002F\u002Fstorage.googleapis.com\u002Fsfr-vision-language-research\u002FALBEF\u002Fcheckpoints\u002Falbef_base_retrieval_coco.pth\n```\n\n### 2. 编写推理脚本\n创建一个名为 `quick_start.py` 的文件，输入以下代码进行零样本推理测试：\n\n```python\nimport torch\nfrom models.albef import ALBEF\nfrom transformers import BertTokenizer\n\n# 1. 初始化设备\ndevice = 'cuda' if torch.cuda.is_available() else 'cpu'\n\n# 2. 加载分词器和模型\ntokenizer = BertTokenizer.from_pretrained('bert-base-uncased')\nmodel = ALBEF(config='configs\u002Fretrieval_coco.yaml')\ncheckpoint = torch.load('albef_base_retrieval_coco.pth', map_location=device)\nmodel.load_state_dict(checkpoint['model'])\nmodel = model.to(device)\nmodel.eval()\n\n# 3. 准备输入数据\nimage_input = ... # 此处需加载并预处理图像 tensor (参考原代码 preprocess 函数)\ntext_input = tokenizer([\"a photo of a dog\", \"a photo of a car\"], padding='max_length', truncation=True, max_length=30, return_tensors=\"pt\").to(device)\n\n# 4. 执行推理 (获取图像 - 文本匹配分数)\nwith torch.no_grad():\n    # 注意：具体调用方法需参照该模型的 forward 定义\n    # 此处仅为伪代码示意，实际请运行原仓库提供的 eval_retrieval.py\n    print(\"Model loaded successfully. Ready for inference.\")\n    \nprint(\"请访问原仓库运行完整的评估脚本以获取准确结果。\")\n```\n\n### 3. 运行评估\u002F推理\n大多数仓库提供了封装好的脚本用于图像检索、VQA 或图文匹配任务。\n\n```bash\n# 运行 ALBEF 的检索评估脚本 (示例)\npython eval_retrieval.py \\\n    --config configs\u002Fretrieval_coco.yaml \\\n    --checkpoint albef_base_retrieval_coco.pth \\\n    --data_root \u002Fpath\u002Fto\u002Fcoco_dataset\n```\n\n> **注意**：不同模型（如 ViLT, UNIMO, CLIP）的数据预处理和调用接口差异较大，请务必阅读对应子项目的 `README.md` 获取最准确的参数说明。","某电商公司的算法团队正致力于升级智能客服系统，希望引入最新的视觉 - 语言预训练模型（VL-PTMs），以实现对用户上传商品图片的精准描述和自动问答功能。\n\n### 没有 awesome-vision-language-pretraining-papers 时\n- **文献检索如大海捞针**：研究人员需在 arXiv、Google Scholar 等多个平台手动搜索，极易遗漏如 ViLT、UNIMO 等关键模型，导致技术选型视野狭窄。\n- **复现成本高昂且混乱**：找到论文后，往往难以定位官方开源代码链接，或发现代码库已失效，团队需花费数周时间重新实现基础架构。\n- **技术路线评估困难**：缺乏对图像、视频、语音等多模态任务的系统分类，难以快速判断哪种模型（如基于区域的 VinVL 还是端到端的 Pixel-BERT）最适合当前的商品识别场景。\n- **领域适配盲目试错**：不清楚是否有针对特定领域（如时尚界的 Kaleido-BERT）的预训练成果，只能在通用模型上进行低效的微调尝试。\n\n### 使用 awesome-vision-language-pretraining-papers 后\n- **一站式获取前沿成果**：团队直接查阅该清单，迅速锁定了适合电商场景的 SOTA 模型（如 Oscar 和 VinVL），并明确了从 Representation Learning 到 Task-specific 的技术演进脉络。\n- **代码资源直达高效复现**：每个条目均附带经过验证的官方代码链接，工程师当天即可拉取 ViLBERT 或 LXMERT 的代码库进行本地测试，将环境搭建时间从数周缩短至数小时。\n- **精准匹配业务需求**：利用清单中清晰的分类结构，团队快速对比了不同模型在“图像描述”与“视觉问答”任务上的表现，科学地选择了最优基线。\n- **挖掘垂直领域潜力**：通过清单发现的时尚领域专用模型 Kaleido-BERT，直接提升了服装类商品的特征提取精度，避免了从零训练的算力浪费。\n\nawesome-vision-language-pretraining-papers 将原本分散杂乱的科研资源转化为结构化的工程资产，极大加速了多模态 AI 应用从理论调研到落地开发的进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyuewang-cuhk_awesome-vision-language-pretraining-papers_de26e080.png","yuewang-cuhk","WANG Yue","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyuewang-cuhk_f8d1817f.jpg","Senior Research Scientist at Salesforce AI Research, building LLMs for Code","Salesforce Research","Singapore",null,"yuewang-cuhk.github.io","https:\u002F\u002Fgithub.com\u002Fyuewang-cuhk",1156,104,"2026-03-30T04:31:57",5,"","未说明",{"notes":91,"python":89,"dependencies":92},"该仓库是一个论文列表（Awesome List），整理了视觉 - 语言预训练模型的相关研究论文、代码链接和资源，本身不是一个可直接运行的软件工具或框架。具体的运行环境需求（如操作系统、GPU、内存、Python 版本及依赖库）需参考列表中各个具体模型（如 ViLBERT, LXMERT, CLIP 等）对应的独立代码仓库和论文说明。",[],[13,54,26],[95,96,97,98,99],"vision-and-language","pretraining","multimodal-deep-learning","bert","vl-ptms","2026-03-27T02:49:30.150509","2026-04-06T08:47:05.646315",[],[]]