[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zli12321--Vision-Language-Models-Overview":3,"tool-zli12321--Vision-Language-Models-Overview":64},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,27],"语言模型",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":24,"last_commit_at":34,"category_tags":35,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[36,14],"插件",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[27,15,13,14],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[14,27],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[15,16,61,36,13,62,27,14,63],"视频","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":80,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":123},4710,"zli12321\u002FVision-Language-Models-Overview","Vision-Language-Models-Overview","A most Frontend Collection and survey of vision-language model papers, and models GitHub repository. Continuous updates.","Vision-Language-Models-Overview 是一个专注于视觉 - 语言模型（VLM）领域的开源知识库与前沿综述平台。它系统性地整理了从最新到早期的各类 VLM 论文、模型代码及 GitHub 仓库，旨在解决该领域技术迭代极快、信息分散且难以追踪的痛点，为研究者提供一站式的资源导航。\n\n该项目不仅汇集了状态-of-the-art（SOTA）的模型列表，还深度覆盖了基准测试与评估方法、后训练与对齐技术（如强化学习 RL 和 supervised fine-tuning SFT）、以及具身智能、机器人控制、自动驾驶和医疗等实际应用场景。此外，它还专门探讨了当前 VLM 面临的核心挑战，包括幻觉问题、安全性、公平性及高效训练策略等。\n\n其独特的技术亮点在于持续更新的动态机制和对“多模态对齐”、“提示工程”等细分方向的深度分类，甚至包含了维护团队精选的高质量论文标记。无论是希望快速掌握行业动态的 AI 研究人员、需要寻找基线模型与数据集的开发者，还是关注多模态技术落地的工程师，都能从中获得极具价值的参考。通过结构化的目录与丰富的外链资源，Vision-Language-Mod","Vision-Language-Models-Overview 是一个专注于视觉 - 语言模型（VLM）领域的开源知识库与前沿综述平台。它系统性地整理了从最新到早期的各类 VLM 论文、模型代码及 GitHub 仓库，旨在解决该领域技术迭代极快、信息分散且难以追踪的痛点，为研究者提供一站式的资源导航。\n\n该项目不仅汇集了状态-of-the-art（SOTA）的模型列表，还深度覆盖了基准测试与评估方法、后训练与对齐技术（如强化学习 RL 和 supervised fine-tuning SFT）、以及具身智能、机器人控制、自动驾驶和医疗等实际应用场景。此外，它还专门探讨了当前 VLM 面临的核心挑战，包括幻觉问题、安全性、公平性及高效训练策略等。\n\n其独特的技术亮点在于持续更新的动态机制和对“多模态对齐”、“提示工程”等细分方向的深度分类，甚至包含了维护团队精选的高质量论文标记。无论是希望快速掌握行业动态的 AI 研究人员、需要寻找基线模型与数据集的开发者，还是关注多模态技术落地的工程师，都能从中获得极具价值的参考。通过结构化的目录与丰富的外链资源，Vision-Language-Models-Overview 成为了连接理论研究与工程实践的重要桥梁。","# Benchmark and Evaluations, RL Alignment, Applications, and Challenges of Large Vision Language Models\n\n[![Website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐_Website-VLM_Survey-6366f1?style=for-the-badge)](https:\u002F\u002Fzli12321.github.io\u002FVLM_Survey\u002F) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_Paper-arXiv-b31b1b?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02189) [![Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fzli12321\u002FVision-Language-Models-Overview?style=for-the-badge&color=f59e0b)](https:\u002F\u002Fgithub.com\u002Fzli12321\u002FVision-Language-Models-Overview)\n\nA most Frontend Collection and survey of vision-language model papers, and models GitHub repository\n\nBelow we compile *awesome* papers and model and github repositories that \n- **State-of-the-Art VLMs** Collection of newest to oldest VLMs (we'll keep updating new models and benchmarks).\n- **Evaluate** VLM benchmarks and corresponding link to the works\n- **Post-training\u002FAlignment** Newest related work for VLM alignment including RL, sft.\n- **Applications** applications of VLMs in embodied AI, robotics, etc.\n- Contribute **surveys**, **perspectives**, and **datasets** on the above topics.\n\n\nWelcome to contribute and discuss!\n\n---\n\n🤩 Papers marked with a ⭐️ are contributed by the maintainers of this repository. If you find them useful, we would greatly appreciate it if you could give the repository a star or cite our paper.\n\n---\n\n## Table of Contents\n* [📄 Paper Link](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02189)\u002F[⛑️ Citation](#Citations)\n* 1. [📚 SoTA VLMs](#vlms)\n* 2. [🗂️ Dataset and Evaluation](#Dataset)\n\t* 2.1.  [Large Scale Pre-Training & Post-Training Dataset](#TrainingDatasetforVLM)\n\t* 2.2.  [Datasets and Evaluation for VLM](#DatasetforVLM)\n\t* 2.3.  [Benchmark Datasets, Simulators and Generative Models for Embodied VLM](#DatasetforEmbodiedVLM)\n\n* 3. ##### 🔥 [ Post-Training\u002FAlignment\u002Fprompt engineering](#posttraining) 🔥\n\t* 3.1.  [RL Alignment for VLM](#alignment)\n\t* 3.2.  [Regular finetuning (SFT)](#sft) \n\t* 3.3.  [VLM Alignment Github](#vlm_github)\n\t* 3.4.  [Prompt Engineering](#vlm_prompt_engineering)\n\n* 4. [⚒️ Applications](#Toolenhancement)\n\t* 4.1. \t[Embodied VLM agents](#EmbodiedVLMagents)\n\t* 4.2.\t[Generative Visual Media Applications](#GenerativeVisualMediaApplications)\n\t* 4.3.\t[Robotics and Embodied AI](#RoboticsandEmbodiedAI)\n\t\t* 4.3.1.  [Manipulation](#Manipulation)\n\t\t* 4.3.2.  [Navigation](#Navigation)\n\t\t* 4.3.3.  [Human-robot Interaction](#HumanRobotInteraction)\n  \t\t* 4.3.4.  [Autonomous Driving](#AutonomousDriving)\n\t* 4.4. [Human-Centered AI](#Human-CenteredAI)\n\t\t* 4.4.1. [Web Agent](#WebAgent)\n\t\t* 4.4.2. [Accessibility](#Accessibility)\n\t\t* 4.4.3. [Medical and Healthcare](#Healthcare)\n\t\t* 4.4.4. [Social Goodness](#SocialGoodness)\n* 5. [⛑️ Challenges](#Challenges)\n\t* 5.1. [Hallucination](#Hallucination)\n\t* 5.2. [Safety](#Safety)\n\t* 5.3. [Fairness](#Fairness)\n\t* 5.4. [Alignment](#Alignment)\n  \t\t* 5.4.1. [Multi-modality Alignment](#MultimodalityAlignment)\n    \t\t* 5.4.2. [Commonsense and Physics Alignment](#CommonsenseAlignment)\n \t* 5.5. [Efficient Training and Fine-Tuning](#EfficientTrainingandFineTuning)\n \t* 5.6. [Scarce of High-quality Dataset](#ScarceofHighqualityDataset)\n\n\n## 0. \u003Ca name='Citations'>\u003C\u002Fa>Citation\n\n```\n@InProceedings{Li_2025_CVPR,\n    author    = {Li, Zongxia and Wu, Xiyang and Du, Hongyang and Liu, Fuxiao and Nghiem, Huy and Shi, Guangyao},\n    title     = {A Survey of State of the Art Large Vision Language Models: Benchmark Evaluations and Challenges},\n    booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops},\n    month     = {June},\n    year      = {2025},\n    pages     = {1587-1606}\n}\n```\n\n---\n\n##  1. \u003Ca name='vlms'>\u003C\u002Fa>📚 SoTA VLMs \n| Model                                                        | Year | Architecture   | Training Data               | Parameters     | Vision Encoder\u002FTokenizer                       | Pretrained Backbone Model                          |\n|--------------------------------------------------------------|------|----------------|-----------------------------|----------------|-----------------------------------------------|---------------------------------------------------|\n| [GPT-5.4 \u002F GPT-5.4 Thinking (OpenAI)](https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-gpt-5-4\u002F) | 03\u002F06\u002F2026 | Decoder-only | Undisclosed | Undisclosed | Undisclosed | Undisclosed |\n| [Phi-4-Reasoning-Vision-15B (Microsoft)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.03975) | 03\u002F04\u002F2026 | Decoder-only | Curated synthetic + filtered data | 15B | High-res dynamic-resolution ViT | Phi-4 |\n| [Gemini 3.0 (Google)](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002F) | 03\u002F2026 | Unified Model | Undisclosed | Undisclosed | Undisclosed | Undisclosed |\n| [Qwen3.5 (Alibaba)](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3.5) | 02\u002F16\u002F2026 | Unified VL (early fusion) | Trillions of multimodal tokens | 0.8B–397B (MoE, 17B active) | ViT (native) | Qwen3.5 |\n| [Claude Opus 4.6 (Anthropic)](https:\u002F\u002Fdocs.anthropic.com\u002Fen\u002Fdocs\u002Fabout-claude\u002Fmodels) | 02\u002F2026 | Decoder-only | Undisclosed | Undisclosed | Undisclosed | Undisclosed |\n| [Erin 5.0 (Baidu)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.04705) | 02\u002F05\u002F2026 | Unified Model (Visual, Text, Audio) |Unified Modality Dataset | - |  CNN–ViT (Understanding)\u002FNext-Frame-and-Scale Prediction (Generation) | Unified Autoregressive Transformer\n| [Molmo2 (Allen AI)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10611) | 01\u002F15\u002F2026 | Decoder-only | 7 new video + 2 multi-image datasets (9.19M videos) | 4B \u002F 7B \u002F 8B | Bi-directional attention ViT | [Qwen 3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) \u002F [OLMo](https:\u002F\u002Fhuggingface.co\u002Fallenai)\n| [Gemini 3](https:\u002F\u002Faistudio.google.com\u002Fmodels\u002Fgemini-3) | 11\u002F18\u002F2025 | Unified Model |Undisclosed| - | - | -\n| [Emu3.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.26583) | 10\u002F30\u002F2025 | Deconder-only |Unified Modality Dataset | - | SigLIP | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f)\n| [DeepSeek-OCR](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-OCR\u002Fblob\u002Fmain\u002FDeepSeek_OCR_paper.pdf) | 10\u002F20\u002F2025 | Encoder-Deconder |70% OCR, 20% general vision, 10% text-only | [3B](https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FDeepSeek-OCR) | DeepEncoder | DeepSeek-3B\n| [Qwen3-VL](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-VL-8B-Instruct) | 10\u002F11\u002F2025 | Decoder-Only |- | [8B\u002F4B](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl-68d2a7c1b8a8afce4ebd2dbe) | ViT | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f)\n| [Qwen3-VL-MoE](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-VL) | 09\u002F25\u002F2025 | Decoder-Only |- | [235B-A22B](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl-68d2a7c1b8a8afce4ebd2dbe) | ViT | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f)\n| [Qwen3-Omni](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fassets\u002FQwen3_Omni.pdf) (Visual\u002FAudio\u002FText)| 09\u002F21\u002F2025 | - |Video\u002FAudio\u002FImage | 30B | ViT | Qwen3-Omni-MoE-Thinker\n| [LLaVA-Onevision-1.5](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002FLLaVA-OneVision-1.5)| 09\u002F15\u002F2025 | - |[Mid-Training-85M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-One-Vision-1.5-Mid-Training-85M) & [SFT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-OneVision-1.5-Insturct-Data) | 8B | Qwen2VLImageProcessor | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f)\n| [InternVL3.5](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.18265)| 08\u002F25\u002F2025 | Decoder-Only |multimodal & text-only | 30B\u002F38B\u002F241B | InternViT-300M\u002F6B | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) \u002F [GPT-OSS](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fopenai\u002Fgpt-oss-68911959590a1634ba11c7a4)\n| [SkyWork-Unipic-1.5B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-UniPic-1.5B)| 07\u002F29\u002F2025 | - |image\u002Fvideo.. | - | - | -\n| [Grok 4](https:\u002F\u002Fx.ai\u002Fnews\u002Fgrok-4)\t\t\t\t   | 07\u002F09\u002F2025 | - |image\u002Fvideo.. | 1-2 Trillion | - | -\n| [Kwai Keye-VL (Kuaishou)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.01949)\t\t\t\t   | 07\u002F02\u002F2025 | Decdoer-only\t|image\u002Fvideo.. | 8B | ViT | [QWen-3-8B](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-8B)\n| [OmniGen2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18871)\t\t\t\t   | 06\u002F23\u002F2025 | Decdoer-only & VAE\t|LLaVA-OneVision\u002F SAM-LLaVA.. | - | ViT | [QWen-2.5-VL](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl-6795ffac22b334a837c0f9a5)\n| [Gemini-2.5-Pro](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002Fpro\u002F)\t\t\t\t   | 06\u002F17\u002F2025 | - |-| - | - | -\n| [GPT-o3\u002Fo4-mini](https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-o3-and-o4-mini\u002F)                   | 06\u002F10\u002F2025 | Decoder-only   | Undisclosed                 | Undisclosed    | Undisclosed                                  | Undisclosed                                       |\n| [Mimo-VL (Xiaomi)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.03569)\t\t\t\t   | 06\u002F04\u002F2025 | Decdoer-only\t|24 Trillion MLLM tokens | 7B | [Qwen2.5-ViT | [Mimo-7B-base](https:\u002F\u002Fhuggingface.co\u002FXiaomiMiMo\u002FMiMo-7B-Base)\n| [BAGEL (Bytedance)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683)\t\t\t\t   | 05\u002F20\u002F2025 | Unified Model\t| Video\u002FImage\u002FText | 7B | SigLIP2-so400m\u002F14](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14786) | [Qwen2.5](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15115)\n| [BLIP3-o](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2505.09568)\t\t\t\t   | 05\u002F14\u002F2025 | Decdoer-only\t|(BLIP3-o 60K) GPT-4o Generated Image Generation Data | 4\u002F8B | ViT | [QWen-2.5-VL](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl-6795ffac22b334a837c0f9a5)\n| [InternVL-3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.10479)\t\t\t\t   | 04\u002F14\u002F2025 | Decdoer-only\t|200 Billion Tokens | 1\u002F2\u002F8\u002F9\u002F14\u002F38\u002F78B | ViT-300M\u002F6B | [InterLM2.5\u002FQWen2.5](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-78B)\n| [LLaMA4-Scout\u002FMaverick](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fllama-4-multimodal-intelligence\u002F)\t\t\t\t   | 04\u002F04\u002F2025 | Decdoer-only\t|40\u002F20 Trillion Tokens | 17B | [MetaClip](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FMetaCLIP) | [LLaMA4](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmeta-llama\u002Fllama-4-67f0c30d9fe03840bc9d0164)\n| [Qwen2.5-Omni](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20215)\t\t\t\t   | 03\u002F26\u002F2025 | Decdoer-only\t|Video\u002FAudio\u002FImage\u002FText | 7B |Qwen2-Audio\u002FQwen2.5-VL ViT | [End-to-End Mini-Omni](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16725)\n| [QWen2.5-VL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13923)\t\t\t\t   | 01\u002F28\u002F2025 | Decdoer-only\t|Image caption, VQA, grounding agent, long video | 3B\u002F7B\u002F72B |Redesigned ViT | [Qwen2.5](https:\u002F\u002Fhuggingface.co\u002FQwen)\n| [Ola](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.04328)\t\t\t\t\t   | 2025 | Decoder-only\t|Image\u002FVideo\u002FAudio\u002FText\t\t| 7B\t\t\t|[OryxViT](https:\u002F\u002Fhuggingface.co\u002FTHUdyh\u002FOryx-ViT)| [Qwen-2.5-7B](https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5\u002F), [SigLIP-400M](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.15343), [Whisper-V3-Large](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.04356), [BEATs-AS2M(cpt2)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.09058)\n| [Ocean-OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15558)\t\t\t\t   | 2025 | Decdoer-only\t| Pure Text, Caption, [Interleaved](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMM-Interleaved), [OCR](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl\u002Ftree\u002Fmain\u002FDocOwl1.5) | 3B | [NaViT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06304) | Pretrained from scratch      \n| [SmolVLM](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmolervlm)             | 2025 | Decoder-only   | [SmolVLM-Instruct](https:\u002F\u002Fhuggingface.co\u002FHuggingFaceTB\u002FSmolVLM-Instruct\u002Fblob\u002Fmain\u002Fsmolvlm-data.pdf) | 250M & 500M     | SigLIP                                | [SmolLM](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmollm)   \n| [DeepSeek-Janus-Pro](https:\u002F\u002Fjanusai.pro\u002Fwp-content\u002Fuploads\u002F2025\u002F01\u002Fjanus_pro_tech_report.pdf)             | 2025 | Decoder-only   | Undisclosed | 7B     | SigLIP                                | [DeepSeek-Janus-Pro](https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FJanus-Pro-7B)                                      |\n| [Inst-IT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | 2024 | Decoder-only | [Inst-IT Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInst-IT\u002FInst-It-Dataset), [LLaVA-NeXT-Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-NeXT-Data) | 7B | CLIP\u002FVicuna, SigLIP\u002FQwen2 | [LLaVA-NeXT](https:\u002F\u002Fhuggingface.co\u002Fliuhaotian\u002Fllava-v1.6-vicuna-7b) |\n [DeepSeek-VL2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.10302)             | 2024 | Decoder-only   | [WiT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgoogle\u002Fwit), [WikiHow](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fajibawa-2023\u002FWikiHow) | 4.5B x 74      | SigLIP\u002FSAMB                                  | [DeepSeekMoE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.10302)                                      |\n| [xGen-MM (BLIP-3)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.08872) | 2024 | Decoder-only | [MINT-1T](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11271), [OBELICS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.16527), [Caption](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fxgen-mm?tab=readme-ov-file#data-preparation) | 4B | ViT + [Perceiver Resampler](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198) | [Phi-3-mini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14219) |\n| [TransFusion](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.11039)              | 2024 | Encoder-decoder| Undisclosed                 | 7B             | VAE Encoder                                  | Pretrained from scratch on transformer architecture |\n| [Baichuan Ocean Mini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.08565)      | 2024 | Decoder-only   | Image\u002FVideo\u002FAudio\u002FText      | 7B             | CLIP ViT-L\u002F14                                | [Baichuan](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.10305)                                         |\n| [LLaMA 3.2-vision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.21783)         | 2024 | Decoder-only   | Undisclosed                 | 11B-90B        | CLIP                                         | [LLaMA-3.1](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.21783)                                        |\n| [Pixtral](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.07073)                  | 2024 | Decoder-only   | Undisclosed                 | 12B            | CLIP ViT-L\u002F14                                | [Mistral Large 2](https:\u002F\u002Fmistral.ai\u002F)                                  |\n| [Qwen2-VL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.12191)                 | 2024 | Decoder-only   | Undisclosed        | 7B-14B         | EVA-CLIP ViT-L                               | [Qwen-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10671)                                           |\n| [NVLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.11402)                     | 2024 | Encoder-decoder| [LAION-115M ](https:\u002F\u002Flaion.ai\u002Fblog\u002Flaion-5b\u002F)      | 8B-24B         | Custom ViT                                   | [Qwen-2-Instruct](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10671)                                  |\n| [Emu3](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.18869)                     | 2024 | Decoder-only   | [Aquila](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.07410)         | 7B             | MoVQGAN                                      | [LLaMA-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09288)                                          |\n| [Claude 3](https:\u002F\u002Fclaude.ai\u002Fnew)                            | 2024 | Decoder-only   | Undisclosed                 | Undisclosed    | Undisclosed                                  | Undisclosed                                       |\n| [InternVL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.14238)                 | 2023 | Encoder-decoder| [LAION-en, LAION- multi](https:\u002F\u002Flaion.ai\u002Fblog\u002Flaion-5b\u002F)        | 7B\u002F20B         | Eva CLIP ViT-g                               | [QLLaMA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.08177)                                           |\n| [InstructBLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06500)             | 2023 | Encoder-decoder| [CoCo](https:\u002F\u002Fcocodataset.org\u002F#home), [VQAv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FVQAv2)            | 13B            | ViT                                          | [Flan-T5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.11416), [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                       |\n| [CogVLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.03079)                   | 2023 | Encoder-decoder| [LAION-2B](https:\u002F\u002Fsisap-challenges.github.io\u002F2024\u002Fdatasets\u002F) ,[COYO-700M](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fcoyo-dataset)       | 18B            | CLIP ViT-L\u002F14                                | [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                                |\n| [PaLM-E](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03378)                   | 2023 | Decoder-only   | All robots, [WebLI](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.06794)            | 562B           | ViT                                          | [PaLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.02311)                                             |\n| [LLaVA-1.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.03744)                | 2023 | Decoder-only   | [COCO](https:\u002F\u002Fcocodataset.org\u002F#home)         | 13B            | CLIP ViT-L\u002F14                                | [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                           |\n| [Gemini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.11805)                   | 2023 | Decoder-only   | Undisclosed                 | Undisclosed    | Undisclosed                                  | Undisclosed                                       |\n| [GPT-4V](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.17421)                   | 2023 | Decoder-only   | Undisclosed                 | Undisclosed    | Undisclosed                                  | Undisclosed                                       |\n| [BLIP-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.12597)                   | 2023 | Encoder-decoder| [COCO](https:\u002F\u002Fcocodataset.org\u002F#home), [Visual Genome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Franjaykrishna\u002Fvisual_genome) | 7B-13B         | ViT-g                                        | [Open Pretrained Transformer (OPT)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.01068)                |\n| [Flamingo](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198)                 | 2022 | Decoder-only   | [M3W](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198), [ALIGN](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Falign) | 80B            | Custom                                       | [Chinchilla](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.15556)                                        |\n| [BLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.12086)                     | 2022 | Encoder-decoder| [COCO](https:\u002F\u002Fcocodataset.org\u002F#home), [Visual Genome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Franjaykrishna\u002Fvisual_genome\u002F) | 223M-400M      | ViT-B\u002FL\u002Fg                                    | Pretrained from scratch                           |\n| [CLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.00020)                     | 2021 | Encoder-decoder| 400M image-text pairs       | 63M-355M       | ViT\u002FResNet                                   | Pretrained from scratch                           |\n\n\n\n\n##  2. \u003Ca name='Dataset'>\u003C\u002Fa>🗂️ Benchmarks and Evaluation\n### 2.1. \u003Ca name='TrainingDatasetforVLM'>\u003C\u002Fa> Datasets for Training VLMs\n| Dataset | Task |  Size |\n|---------|------|---------------|\n| [OmniScience](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13758)(02\u002F2026) | Scientific Image Understanding | 1.5M figure-caption-context triplets |\n| [MaD-Mix](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.07790)(02\u002F2026) | Multi-modal Data Mixture Optimization | Framework (0.5B–7B scale) |\n| [OVID](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F54b83db2dc00f01b015b8356db617fdd6e38240f.pdf)(2026) | Open Video Pre-training | 10M hours, 300M frame-caption pairs |\n| [Molmo2 Video Datasets](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10611)(01\u002F2026) | Video Captions, QA, Tracking, Pointing | 9.19M videos (7 video + 2 multi-image datasets) |\n| [MMFineReason](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenDataArena\u002FMMFineReason-1.8M-Qwen3-VL-235B-Thinking)(\u002F1\u002F30\u002F2026) | REasoning | 1.8M |\n| [FineVision](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceM4\u002FFineVision)(09\u002F04\u002F2025) | Mixed Domain | 24.3 M\u002F4.48TB |\n\n\n\n### 2.2. \u003Ca name='DatasetforVLM'>\u003C\u002Fa> Datasets and Evaluation for VLM\n### 🧮 Visual Math (+ Visual Math Reasoning)\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [MathVision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14804) | Visual Math | MC \u002F Answer Match | Human | 3.04 | [Repo](https:\u002F\u002Fmathllm.github.io\u002Fmathvision\u002F) |\n| [MathVista](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02255) | Visual Math | MC \u002F Answer Match | Human | 6 | [Repo](https:\u002F\u002Fmathvista.github.io) |\n| [MathVerse](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14624) | Visual Math | MC | Human | 4.6 | [Repo](https:\u002F\u002Fmathverse-cuhk.github.io) |\n| [VisNumBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.14939) | Visual Number Reasoning | MC | Python Program generated\u002FWeb Collection\u002FReal life photos | 1.91 | [Repo](https:\u002F\u002Fwwwtttjjj.github.io\u002FVisNumBench\u002F) |\n\n\n### 💬 Benchmark for Unified Models\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [ROVER](https:\u002F\u002Fopenreview.net\u002Fpdf?id=gu3DRaDWiI) | Reciprocal Cross-Modal Reasoning | Visual Gen + Verbal Gen Eval | Human | 1.3 (1,876 images) | [Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=gu3DRaDWiI) |\n|| [RealUnify](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.24897) | Math, World knowledge, Image Gen | Direct & StepWise Eval (Sec 3.3) | Script & Humanverification | 1.0 | [Repo](https:\u002F\u002Fgithub.com\u002FFrankYang-17\u002FRealUnify) |\n| [Uni-MMMU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.13759) | Science, Code, Image Gen | DreamSim (Image Gen Eval) & String Matching (Understanding Eval) | - | 1.0 | [Repo](https:\u002F\u002Fvchitect.github.io\u002FUni-MMMU-Project) |\n\n\n### 🎞️ Video Understanding\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [MMOU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14145) | Omni-modal Long Video Understanding | MC | Human | 15 (9,038 videos) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14145) |\n| [Video-MMMU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13826) | Knowledge Acquisition from Professional Videos | MC + Knowledge Gain | Expert | 0.9 (300 videos) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13826) |\n| [MMVU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12380) | Expert-Level Multi-Discipline Video Understanding | MC | Expert | 3 (27 subjects) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12380) |\n|| [VideoHallu](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.01481) | Video Understanding | LLM Eval | Human | 3.2 | [Repo](https:\u002F\u002Fgithub.com\u002Fzli12321\u002FVideoHallu) |\n| [Video SimpleQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18923) | Video Understanding | LLM Eval | Human | 2.03 | [Repo](https:\u002F\u002Fvideosimpleqa.github.io) |\n| [MovieChat](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16449) | Video Understanding | LLM Eval | Human | 1 | [Repo](https:\u002F\u002Frese1f.github.io\u002FMovieChat\u002F) |\n| [Perception‑Test](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.13786) | Video Understanding | MC | Crowd | 11.6 | [Repo](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fperception_test) |\n| [VideoMME](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.21075) | Video Understanding | MC | Experts | 2.7 | [Site](https:\u002F\u002Fvideo-mme.github.io\u002F) |\n| [EgoSchem](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.09126) | Video Understanding | MC | Synth \u002F Human | 5 | [Site](https:\u002F\u002Fegoschema.github.io\u002F) |\n| [Inst‑IT‑Bench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | Fine‑grained Image & Video | MC & LLM | Human \u002F Synth | 2 | [Repo](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n\n\n### 💬 Multimodal Conversation\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [VisionArena](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687) | Multimodal Conversation | Pairwise Pref | Human | 23 | [Repo](https:\u002F\u002Fhuggingface.co\u002Flmarena-ai) |\n\n\n\n### 🧠 Multimodal General Intelligence\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [OmniEarth](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09471) | Geospatial \u002F Remote Sensing VLM Eval | MC + Open VQA | Human (verified) | 44.2 (9,275 images, 28 tasks) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09471) |\n|| [MultiHaystack](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05697) | Multimodal Retrieval & Reasoning | Retrieval + QA | Human | 0.75 (46K+ candidates) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05697) |\n|| [DatBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.02316) | Discriminative, Faithful VLM Eval | MC (format-aware) | Synth | - | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.02316) |\n|| [MMLU](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.03300) | General MM | MC | Human | 15.9 | [Repo](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest) |\n| [MMStar](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.20330) | General MM | MC | Human | 1.5 | [Site](https:\u002F\u002Fmmstar-benchmark.github.io\u002F) |\n| [NaturalBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.14669) | General MM | Yes\u002FNo, MC | Human | 10 | [HF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBaiqiL\u002FNaturalBench) |\n| [PHYSBENCH](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.16411) | Visual Math Reasoning | MC | Grad STEM | 0.10 | [Repo](https:\u002F\u002Fgithub.com\u002FUSC-GVL\u002FPhysBench) |\n\n\n### 🔎 Visual Reasoning \u002F VQA (+ Multilingual & OCR)\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [EMMA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05444) | Visual Reasoning | MC | Human + Synth | 2.8 | [Repo](emma-benchmark.github.io) |\n| [MMTBENCH](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.16006) | Visual Reasoning & QA | MC | AI Experts | 30.1 | [Repo](https:\u002F\u002Fgithub.com\u002Ftylin\u002Fcoco-caption) |\n| [MM‑Vet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.02490) | OCR \u002F Visual Reasoning | LLM Eval | Human | 0.2 | [Repo](https:\u002F\u002Fgithub.com\u002Fyuweihao\u002FMM-Vet) |\n| [MM‑En\u002FCN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06281) | Multilingual MM Understanding | MC | Human | 3.2 | [Repo](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002FVLMEvalKit) |\n| [GQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13245) | Visual Reasoning & QA | Answer Match | Seed + Synth | 22 | [Site](https:\u002F\u002Fcs.stanford.edu\u002Fpeople\u002Fdorarad\u002Fgqa) |\n| [VCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.10830) | Visual Reasoning & QA | MC | MTurks | 290 | [Site](https:\u002F\u002Fvisualcommonsense.com\u002F) |\n| [VQAv2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1505.00468) | Visual Reasoning & QA | Yes\u002FNo, Ans Match | MTurks | 1100 | [Repo](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Fblob\u002Fmain\u002Fdataset_card\u002Fvqav2.md) |\n| [MMMU](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16502) | Visual Reasoning & QA | Ans Match, MC | College | 11.5 | [Site](https:\u002F\u002Fmmmu-benchmark.github.io\u002F) |\n| [MMMU-Pro](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02813) | Visual Reasoning & QA | Ans Match, MC | College | 5.19 | [Site](https:\u002F\u002Fmmmu-benchmark.github.io\u002F) |\n| [R1‑Onevision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.10615) | Visual Reasoning & QA | MC | Human | 155 | [Repo](https:\u002F\u002Fgithub.com\u002FFancy-MLLM\u002FR1-Onevision) |\n| [VLM²‑Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.12084) | Visual Reasoning & QA | Ans Match, MC | Human | 3 | [Site](https:\u002F\u002Fvlm2-bench.github.io\u002F) |\n| [VisualWebInstruct](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.10582) | Visual Reasoning & QA | LLM Eval | Web | 0.9 | [Site](https:\u002F\u002Ftiger-ai-lab.github.io\u002FVisualWebInstruct\u002F) |\n\n\n### 📝 Visual Text \u002F Document Understanding (+ Charts)\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [TextVQA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.08920) | Visual Text Understanding | Ans Match | Expert | 28.6 | [Repo](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmmf) |\n| [DocVQA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.00398) | Document VQA | Ans Match | Crowd | 50 | [Site](https:\u002F\u002Fwww.docvqa.org\u002F) |\n| [ChartQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.10244) | Chart Graphic Understanding | Ans Match | Crowd \u002F Synth | 32.7 | [Repo](https:\u002F\u002Fgithub.com\u002Fvis-nlp\u002FChartQA) |\n\n\n### 🌄 Text‑to‑Image Generation\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [MSCOCO‑30K](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.0312) | Text‑to‑Image | BLEU, ROUGE, Sim | MTurks | 30 | [Site](https:\u002F\u002Fcocodataset.org\u002F#home) |\n| [GenAI‑Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.13743) | Text‑to‑Image | Human Rating | Human | 80 | [HF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBaiqiL\u002FGenAI-Bench) |\n\n\n### 🚨 Hallucination Detection \u002F Control\n\n| Dataset | Task | Eval Protocol | Annotators | Size (K) | Code \u002F Site |\n|---------|------|---------------|------------|----------|-------------|\n| [HallusionBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.14566) | Hallucination | Yes\u002FNo | Human | 1.13 | [Repo](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench) |\n| [POPE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10355) | Hallucination | Yes\u002FNo | Human | 9 | [Repo](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FPOPE) |\n| [CHAIR](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.02156) | Hallucination | Yes\u002FNo | Human | 124 | [Repo](https:\u002F\u002Fgithub.com\u002FLisaAnne\u002FHallucination) |\n| [MHalDetect](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.06394) | Hallucination | Ans Match | Human | 4 | [Repo](https:\u002F\u002Fgithub.com\u002FLisaAnne\u002FHallucination) |\n| [Hallu‑Pi](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.01355) | Hallucination | Ans Match | Human | 1.26 | [Repo](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FHallu-PI) |\n| [HallE‑Control](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01779) | Hallucination | Yes\u002FNo | Human | 108 | [Repo](https:\u002F\u002Fgithub.com\u002Fbronyayang\u002FHallE_Control) |\n| [AutoHallusion](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10900) | Hallucination | Ans Match | Synth | 3.129 | [Repo](https:\u002F\u002Fgithub.com\u002Fwuxiyang1996\u002FAutoHallusion) |\n| [BEAF](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13442) | Hallucination | Yes\u002FNo | Human | 26 | [Site](https:\u002F\u002Fbeafbench.github.io\u002F) |\n| [GAIVE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14565) | Hallucination | Ans Match | Synth | 320 | [Repo](https:\u002F\u002Fgithub.com\u002FFuxiaoLiu\u002FLRV-Instruction) |\n| [HalEval](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15721) | Hallucination | Yes\u002FNo | Crowd \u002F Synth | 2 | [Repo](https:\u002F\u002Fgithub.com\u002FWisdomShell\u002Fhal-eval) |\n| [AMBER](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.07397) | Hallucination | Ans Match | Human | 15.22 | [Repo](https:\u002F\u002Fgithub.com\u002Fjunyangwang0410\u002FAMBER) |\n\n\n### 2.3. \u003Ca name='DatasetforEmbodiedVLM'>\u003C\u002Fa> Benchmark Datasets, Simulators, and Generative Models for Embodied VLM \n| Benchmark                                                                                                                                     |             Domain              |                Type                |                                                     \t\tProject\t\t\t\t\t                                                     |\n|-----------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------:|:----------------------------------:|:----------------------------------------------------------------------------------------------------------------------:|\n| [Drive-Bench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04003) | Embodied AI | Autonomous Driving | [Website](https:\u002F\u002Fdrive-bench.github.io)  |\n| [Habitat](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.01201), [Habitat 2.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.14405), [Habitat 3.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.13724) |      Robotics (Navigation)      |        Simulator + Dataset         |                                           [Website](https:\u002F\u002Faihabitat.org\u002F)                                            |\n| [Gibson](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1808.10654)                                                                                                    |      Robotics (Navigation)      |        Simulator + Dataset         |           [Website](http:\u002F\u002Fgibsonenv.stanford.edu\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002FStanfordVL\u002FGibsonEnv)            |\n| [iGibson1.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.02924), [iGibson2.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.03272)                                                |      Robotics (Navigation)      |        Simulator + Dataset         |            [Website](https:\u002F\u002Fsvl.stanford.edu\u002Figibson\u002F), [Document](https:\u002F\u002Fstanfordvl.github.io\u002FiGibson\u002F)             |\n| [Isaac Gym](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.10470)                                                                                                 |      Robotics (Navigation)      |             Simulator              |      [Website](https:\u002F\u002Fdeveloper.nvidia.com\u002Fisaac-gym), [Github Repo](https:\u002F\u002Fgithub.com\u002Fisaac-sim\u002FIsaacGymEnvs)       |\n| [Isaac Lab](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.04195)                                                                                                 |      Robotics (Navigation)      |             Simulator              | [Website](https:\u002F\u002Fisaac-sim.github.io\u002FIsaacLab\u002Fmain\u002Findex.html), [Github Repo](https:\u002F\u002Fgithub.com\u002Fisaac-sim\u002FIsaacLab)  |\n| [AI2THOR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.05474) |  Robotics (Navigation)      |             Simulator | [Website](https:\u002F\u002Fai2thor.allenai.org\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fai2thor)  |\n| [ProcTHOR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.06994) |  Robotics (Navigation)      |              Simulator + Dataset | [Website](https:\u002F\u002Fprocthor.allenai.org\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fprocthor)  |\n| [VirtualHome](https:\u002F\u002Farxiv.org\u002Fabs\u002F1806.07011) |  Robotics (Navigation)      |              Simulator | [Website](http:\u002F\u002Fvirtual-home.org\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fxavierpuigf\u002Fvirtualhome)  |\n| [ThreeDWorld](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.04954) | Robotics (Navigation)      |              Simulator | [Website](https:\u002F\u002Fwww.threedworld.org\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fthreedworld-mit\u002Ftdw)  |\n| [VIMA-Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03094)                                                                                                |     Robotics (Manipulation)     |             Simulator              |                [Website](https:\u002F\u002Fvimalabs.github.io\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)                 |\n| [VLMbench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.08522)                                                                                                  |     Robotics (Manipulation)     |             Simulator              |                                 [Github Repo](https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FVLMbench)                                 |\n| [CALVIN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.03227)                                                                                                    |     Robotics (Manipulation)     |             Simulator              |              [Website](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin)               |\n| [GemBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01345)                                                                                                  |     Robotics (Manipulation)     |             Simulator              | [Website](https:\u002F\u002Fwww.di.ens.fr\u002Fwillow\u002Fresearch\u002Fgembench\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fvlc-robot\u002Frobot-3dlotus\u002F) | \n| [WebArena](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.13854)                                                                                                  |            Web Agent            |             Simulator              |                [Website](https:\u002F\u002Fwebarena.dev\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena)                |\n| [UniSim](https:\u002F\u002Fopenreview.net\u002Fpdf?id=sFyTZEqmUY)                                                                                            |     Robotics (Manipulation)     |   Generative Model, World Model    |                                [Website](https:\u002F\u002Funiversal-simulator.github.io\u002Funisim\u002F)                                |\n| [GAIA-1](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.17080)                                                                                                    | Robotics (Automonous Driving)   |   Generative Model, World Model    |                                [Website](https:\u002F\u002Fwayve.ai\u002Fthinking\u002Fintroducing-gaia1\u002F)                                 |                                                                                                   \n| [LWM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.08268)                                                                                                       |           Embodied AI           |   Generative Model, World Model    |        [Website](https:\u002F\u002Flargeworldmodel.github.io\u002Flwm\u002F), [Github Repo](https:\u002F\u002Fgithub.com\u002FLargeWorldModel\u002FLWM)        |\n| [Genesis](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                                                                                     |           Embodied AI           |   Generative Model, World Model    |                             [Github Repo](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                              |\n| [EMMOE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08604) | Embodied AI | Generative Model, World Model | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08604)  |\n| [RoboGen](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01455) | Embodied AI | Generative Model, World Model | [Website](https:\u002F\u002Frobogen-ai.github.io\u002F)  |\n| [UnrealZoo](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.20977) | Embodied AI (Tracking, Navigation, Multi Agent)| Simulator | [Website](http:\u002F\u002Funrealzoo.site\u002F) | \n\n\n##  3. \u003Ca name='posttraining'>\u003C\u002Fa>⚒️ Post-Training\n### 3.1.  \u003Ca name='alignment'>\u003C\u002Fa>RL Alignment for VLM\n| Title | Year | Paper | RL | Code |\n|----------------|------|--------|---------|------|\n| wDPO: Winsorized Direct Preference Optimization for Robust Alignment | 03\u002F2026 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.07211) | wDPO | - |\n|| f-GRPO and Beyond: Divergence-Based RL for General LLM Alignment | 02\u002F2026 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.05946) | f-GRPO \u002F f-HAL | - |\n|| From Sight to Insight: Improving Visual Reasoning of MLLMs via Reinforcement Learning | 01\u002F2026 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.00215) | GRPO (6 reward functions) | - |\n|| SaFeR-VLM: Safety-Aware Reinforcement Learning for Multimodal Reasoning | 2026 (ICLR) | [Paper](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F4f379d45027946b58a820908fd3a1711d66daa85.pdf) | GRPO + safety reward | - |\n|| SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning | 11\u002F2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02280) | Dual-Reward (Thinking + Judging) | - |\n|| GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA | 10\u002F2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23868) | GIFT (convex MSE loss) | - |\n|| Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning | 10\u002F12\u002F2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13886) | GRPO | - |\n| Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play | 09\u002F29\u002F2025 | [Paper](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2509.25541) | GRPO | - |\n| Vision-SR1: Self-rewarding vision-language model via reasoning decomposition | 08\u002F26\u002F2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.19652) | GRPO | - |\n| Group Sequence Policy Optimization | 06\u002F24\u002F2025 | [Paper](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2507.18071) | GSPO | - |\n| Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning | 05\u002F20\u002F2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14677) | GRPO | - |\n| VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning | 2025\u002F04\u002F10 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.06958) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-R1) |\n| OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement | 2025\u002F03\u002F21 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.17352) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002Fyihedeng9\u002FOpenVLThinker) |\n| Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning | 2025\u002F03\u002F10 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07065) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002Fding523\u002FCurr_REFT) |\n| OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18411) | DPO | [Code](https:\u002F\u002Fgithub.com\u002FPhoenixZ810\u002FOmniAlign-V) |\n| Multimodal Open R1\u002FR1-Multimodal-Journey | 2025 | - | GRPO | [Code](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002Fopen-r1-multimodal) |\n| R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12937) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002Fjingyi0000\u002FR1-VL) |\n| Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning | 2025 | - | PPO\u002FREINFORCE++\u002FGRPO | [Code](https:\u002F\u002Fgithub.com\u002F0russwest0\u002FAgent-R1) |\n| MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07365) | [REINFORCE Leave-One-Out (RLOO)](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1lgTGL5DE) | [Code](https:\u002F\u002Fgithub.com\u002FModalMinds\u002FMM-EUREKA) |\n| MM-RLHF: The Next Step Forward in Multimodal LLM Alignment | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10391) | DPO | [Code](https:\u002F\u002Fgithub.com\u002FKwai-YuanQi\u002FMM-RLHF) |\n| LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536) | PPO | [Code](https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1) |\n| Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.06749) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002FOsilly\u002FVision-R1) |\n| Unified Reward Model for Multimodal Understanding and Generation | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05236) | DPO | [Code](https:\u002F\u002Fgithub.com\u002FCodeGoat24\u002FUnifiedReward) |\n| Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.13926) | DPO | [Code](https:\u002F\u002Fgithub.com\u002FZiyuGuo99\u002FImage-Generation-CoT) |\n| All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.01067) | Online RL | - |\n| Video-R1: Reinforcing Video Reasoning in MLLMs | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21776) | GRPO | [Code](https:\u002F\u002Fgithub.com\u002Ftulerfeng\u002FVideo-R1) |\n\n### 3.2. \u003Ca name='sft'>\u003C\u002Fa>Finetuning for VLM\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| MERGETUNE: Continued Fine-Tuning of Vision-Language Models | 2026\u002F01 (ICLR 2026) | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10497) | - | - |\n|| Mask Fine-Tuning (MFT): Unlocking Hidden Capabilities in Vision-Language Models | 2025\u002F12 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23073) | - | - |\n|| Image-LoRA: Towards Minimal Fine-Tuning of VLMs | 2025\u002F12 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.19219) | - | - |\n|| Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning | 2025\u002F12 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.12690) | - | - |\n|| Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models | 2025\u002F04\u002F21 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.15271) | [Website](https:\u002F\u002Fnvlabs.github.io\u002FEAGLE\u002F) | [Code](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FEAGLE) |\n| OMNICAPTIONER: One Captioner to Rule Them All | 2025\u002F04\u002F09 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07089) | [Website](https:\u002F\u002Falpha-innovator.github.io\u002FOmniCaptioner-project-page\u002F) | [Code](https:\u002F\u002Fgithub.com\u002FAlpha-Innovator\u002FOmniCaptioner) |\n| Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | [Website](https:\u002F\u002Fgithub.com\u002FAlpha-Innovator\u002FOmniCaptioner) | [Code](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n| LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.20092) | [Website](https:\u002F\u002Fbeckschen.github.io\u002Fllavolta.html) | [Code](https:\u002F\u002Fgithub.com\u002FBeckschen\u002FLLaVolta) |\n| ViTamin: Designing Scalable Vision Models in the Vision-Language Era | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.02132) | [Website](https:\u002F\u002Fbeckschen.github.io\u002Fvitamin.html) | [Code](https:\u002F\u002Fgithub.com\u002FBeckschen\u002FViTamin) |\n| Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04729) | - | - |\n| Should VLMs be Pre-trained with Image Data? | 2025 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07603) | - | - |\n| VisionArena: 230K Real World User-VLM Conversations with Preference Labels |  2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.08687) | - | [Code](https:\u002F\u002Fhuggingface.co\u002Flmarena-ai) |\n\n### 3.3. \u003Ca name='vlm_github'>\u003C\u002Fa>VLM Alignment github\n| Project | Repository Link |\n|----------------|----------------|\n|Verl|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) |\n|EasyR1|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FEasyR1) |\n|OpenR1|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002Fopen-r1-multimodal) |\n| LLaMAFactory | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory) |\n| MM-Eureka-Zero | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FModalMinds\u002FMM-EUREKA\u002Ftree\u002Fmain) |\n| MM-RLHF | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FKwai-YuanQi\u002FMM-RLHF) |\n| LMM-R1 | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1) |\n\n### 3.4. \u003Ca name='vlm_prompt_engineering'>\u003C\u002Fa>Prompt Optimization\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| EvoPrompt: Evolving Prompt Adaptation for Vision-Language Models | 2026\u002F03 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09493) | - | - |\n|| MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation | 2026\u002F02 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.21397) | - | - |\n|| Multimodal Prompt Optimizer (MPO): Joint Optimization of Multimodal Prompts | 2025\u002F10 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.09201) | - | - |\n|| Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies | 2025\u002F03 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.23503) | - | - |\n|| In-ContextEdit:EnablingInstructionalImageEditingwithIn-Context GenerationinLargeScaleDiffusionTransformer | 2025\u002F04\u002F30 | [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20690) | [Website](https:\u002F\u002Friver-zhang.github.io\u002FICEdit-gh-pages\u002F) | [Code](https:\u002F\u002Fgithub.com\u002FRiver-Zhang\u002FICEdit) |\n\n## 4. \u003Ca name='Toolenhancement'>\u003C\u002Fa> ⚒️ Applications\n\n### 4.1 Embodied VLM Agents\n\n| Title | Year | Paper Link |\n|----------------|------|------------|\n| Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.06886v1) |\n| ScreenAI: A Vision-Language Model for UI and Infographics Understanding | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.04615) |\n| ChartLlama: A Multimodal LLM for Chart Understanding and Generation | 2023 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16483) |\n| SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.19242) |\n| Training a Vision Language Model as Smartphone Assistant | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.08755) |\n| ScreenAgent: A Vision-Language Model-Driven Computer Control Agent | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.07945) |\n| Embodied Vision-Language Programmer from Environmental Feedback | 2024 | [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08588) |\n| VLMs Play StarCraft II: A Benchmark and Multimodal Decision Method | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05383) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002FVLM-Play-StarCraft2) |\n| MP-GUI: Modality Perception with MLLMs for GUI Understanding | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.14021) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FBigTaige\u002FMP-GUI) | \n\n\n### 4.2. \u003Ca name='GenerativeVisualMediaApplications'>\u003C\u002Fa>Generative Visual Media Applications\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12631) | [🌍 Website](https:\u002F\u002Fgpt4motion.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fjiaxilv\u002FGPT4Motion) |\n| Spurious Correlation in Multimodal LLMs | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.08884) | - | - |\n| WeGen: A Unified Model for Interactive Multimodal Generation as We Chat | 2025 |  [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.01115) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fhzphzp\u002FWeGen) |\n| VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.13444) | [🌍 Website](https:\u002F\u002Fvideomind.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fyeliudev\u002FVideoMind) |\n\n### 4.3. \u003Ca name='RoboticsandEmbodiedAI'>\u003C\u002Fa>Robotics and Embodied AI\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.00371) | [🌍 Website](https:\u002F\u002Faha-vlm.github.io\u002F) | - |\n| SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.12168) | [🌍 Website](https:\u002F\u002Fspatial-vlm.github.io\u002F) | - |\n| Vision-language model-driven scene understanding and robotic object manipulation | 2024 | [📄 Paper](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=10711845&casa_token=to4vCckCewMAAAAA:2ykeIrubUOxwJ1rhwwakorQFAwUUBQhL_Ct7dnYBceWU5qYXiCoJp_yQkmJbmtiEVuX2jcpvB92n&tag=1) | - | - |\n| Guiding Long-Horizon Task and Motion Planning with Vision Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.02193) | [🌍 Website](https:\u002F\u002Fzt-yang.github.io\u002Fvlm-tamp-robot\u002F) | - |\n| AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.06531) | [🌍 Website](https:\u002F\u002Fyongchao98.github.io\u002FMIT-REALM-AutoTAMP\u002F) | - |\n| VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.08792) | - | - |\n| Scalable Multi-Robot Collaboration with Large Language Models: Centralized or Decentralized Systems? | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.15943) | [🌍 Website](https:\u002F\u002Fyongchao98.github.io\u002FMIT-REALM-Multi-Robot\u002F) | - |\n| DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.09022) | [🌍 Website](https:\u002F\u002Fwyd0817.github.io\u002Fproject-dart-llm\u002F) | - |\n| MotionGPT: Human Motion as a Foreign Language | 2023 | [📄 Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002F3fbf0c1ea0716c03dea93bb6be78dd6f-Paper-Conference.pdf) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FOpenMotionLab\u002FMotionGPT) |\n| Learning Reward for Robot Skills Using Large Language Models via Self-Alignment | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.07162) | - | - |\n| Language to Rewards for Robotic Skill Synthesis | 2023 | [📄 Paper](https:\u002F\u002Flanguage-to-reward.github.io\u002Fassets\u002Fl2r.pdf) | [🌍 Website](https:\u002F\u002Flanguage-to-reward.github.io\u002F) | - |\n| Eureka: Human-Level Reward Design via Coding Large Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.12931) | [🌍 Website](https:\u002F\u002Feureka-research.github.io\u002F) | - |\n| Integrated Task and Motion Planning | 2020 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.01083) | - | - |\n| Jailbreaking LLM-Controlled Robots | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13691) | [🌍 Website](https:\u002F\u002Frobopair.org\u002F) | - |\n| Robots Enact Malignant Stereotypes | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.11569) | [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Frobots-enact-stereotypes) | - |\n| LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.08824) | - | - |\n| Highlighting the Safety Concerns of Deploying LLMs\u002FVLMs in Robotics | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10340) | [🌍 Website](https:\u002F\u002Fwuxiyang1996.github.io\u002Fadversary-vlm-robotics\u002F) | - |\n| EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.09560) | [🌍 Website](https:\u002F\u002Fembodiedbench.github.io\u002F) | [💾 Code & Dataset](https:\u002F\u002Fgithub.com\u002FEmbodiedBench\u002FEmbodiedBench) |\n| Gemini Robotics: Bringing AI into the Physical World | 2025 | [📄 Technical Report](https:\u002F\u002Fstorage.googleapis.com\u002Fdeepmind-media\u002Fgemini-robotics\u002Fgemini_robotics_report.pdf) | [🌍 Website](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini-robotics\u002F) | - |\n| GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.06158) | [🌍 Website](https:\u002F\u002Fgr2-manipulation.github.io\u002F) | - |\n| Magma: A Foundation Model for Multimodal AI Agents | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.13130) | [🌍 Website](https:\u002F\u002Fmicrosoft.github.io\u002FMagma\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMagma) |\n| DayDreamer: World Models for Physical Robot Learning | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14176)| [🌍 Website](https:\u002F\u002Fdanijar.com\u002Fproject\u002Fdaydreamer\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdaydreamer) |\n| Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14176)| - | - |\n| RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.03681)| [🌍 Website](https:\u002F\u002Frlvlmf2024.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fyufeiwang63\u002FRL-VLM-F) |\n| KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.14066)| [🌍 Website](https:\u002F\u002Fkalie-vlm.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fgractang\u002Fkalie) |\n| Unified Video Action Model | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.00200)| [🌍 Website](https:\u002F\u002Funified-video-action-model.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FShuangLI59\u002Funified_video_action) |\n| HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10631)| [🌍 Website](https:\u002F\u002Fhybrid-vla.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FPKU-HMI-Lab\u002FHybrid-VLA) |\n|| DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.00926) | - | - |\n|| NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09542) | - | - |\n|| Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control | 02\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13193) | - | - |\n|| ST4VLA: Spatial Guided Training for Vision-Language-Action Models | 02\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10109) | - | - |\n\n#### 4.3.1. \u003Ca name='Manipulation'>\u003C\u002Fa>Manipulation\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| VIMA: General Robot Manipulation with Multimodal Prompts | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03094) | [🌍 Website](https:\u002F\u002Fvimalabs.github.io\u002F) |\n| Instruct2Act: Mapping Multi-Modality Instructions to Robotic Actions with Large Language Model | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11176) | - | - |\n| Creative Robot Tool Use with Large Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.13065) | [🌍 Website](https:\u002F\u002Fcreative-robotool.github.io\u002F) | - |\n| RoboVQA: Multimodal Long-Horizon Reasoning for Robotics | 2024 | [📄 Paper](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10610216) | - | - |\n| RT-1: Robotics Transformer for Real-World Control at Scale | 2022 | [📄 Paper](https:\u002F\u002Frobotics-transformer1.github.io\u002Fassets\u002Frt1.pdf) | [🌍 Website](https:\u002F\u002Frobotics-transformer1.github.io\u002F) | - |\n| RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.15818) | [🌍 Website](https:\u002F\u002Frobotics-transformer2.github.io\u002F) | - |\n| Open X-Embodiment: Robotic Learning Datasets and RT-X Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08864) | [🌍 Website](https:\u002F\u002Frobotics-transformer-x.github.io\u002F) | - |\n| ExploRLLM: Guiding Exploration in Reinforcement Learning with Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.09583) | [🌍 Website](https:\u002F\u002Fexplorllm.github.io\u002F) | - |\n| AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.12191) | [🌍 Website](https:\u002F\u002Fgewu-lab.github.io\u002FAnyTouch\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FGeWu-Lab\u002FAnyTouch) |\n| Masked World Models for Visual Control | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14244)| [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Fmwm-rl) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002FMWM) |\n| Multi-View Masked World Models for Visual Robotic Manipulation | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.02408)| [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Fmv-mwm) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002FMV-MWM) |\n\n\n#### 4.3.2. \u003Ca name='Navigation'>\u003C\u002Fa>Navigation\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.12403) | - | - |\n| LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.05363) | - | - |\n| LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.04429) | [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Flmnav) | - |\n| NaVILA: Legged Robot Vision-Language-Action Model for Navigation | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04453) | [🌍 Website](https:\u002F\u002Fnavila-bot.github.io\u002F) | - |\n| VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation | 2024 | [📄 Paper](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=10610712&casa_token=qvFCSt20n0MAAAAA:MSC4P7bdlfQuMRFrmIl706B-G8ejcxH9ZKROKETL1IUZIW7m_W4hKW-kWrxw-F8nykoysw3WYHnd) | - | - |\n| Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10103) | [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Flfg-nav\u002F) | - |\n| Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.09820) | - | - |\n| Navigation World Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.03572) | [🌍 Website](https:\u002F\u002Fwww.amirbar.net\u002Fnwm\u002F) | - |\n\n\n#### 4.3.3. \u003Ca name='HumanRobotInteraction'>\u003C\u002Fa>Human-robot Interaction\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| MUTEX: Learning Unified Policies from Multimodal Task Specifications | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.14320) | [🌍 Website](https:\u002F\u002Fut-austin-rpl.github.io\u002FMUTEX\u002F) | - |\n| LaMI: Large Language Models for Multi-Modal Human-Robot Interaction | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.15174) | [🌍 Website](https:\u002F\u002Fhri-eu.github.io\u002FLami\u002F) | - |\n| VLM-Social-Nav: Socially Aware Robot Navigation through Scoring using Vision-Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.00210) | - | - |\n\n#### 4.3.4. \u003Ca name='AutonomousDriving'>\u003C\u002Fa>Autonomous Driving\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14851) | - | - |\n|| DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe Autonomous Driving | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.18315) | - | - |\n|| HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving | 02\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13329) | - | - |\n|| OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model | 03\u002F2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.23463) | - | - |\n|| Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives | 01\u002F07\u002F2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04003) | [🌍 Website](drive-bench.github.io) | - |\n| DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12289) | [🌍 Website](https:\u002F\u002Ftsinghua-mars-lab.github.io\u002FDriveVLM\u002F) | - |\n| GPT-Driver: Learning to Drive with GPT | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01415) | - | - |\n| LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03026) | [🌍 Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Fllm-mpc) | - |\n| Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01957) | - | - |\n| Referring Multi-Object Tracking | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03366) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fwudongming97\u002FRMOT) |\n| VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-Supervision | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.03135) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Flmy98129\u002FVLPD) |\n| MotionLM: Multi-Agent Motion Forecasting as Language Modeling | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.16534) | - | - |\n| DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16292) | [🌍 Website](https:\u002F\u002Fpjlab-adg.github.io\u002FDiLu\u002F) | - |\n| VLP: Vision Language Planning for Autonomous Driving | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.05577) | - | - |\n| DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01412) | - | - |\n\n\n### 4.4. \u003Ca name='Human-CenteredAI'>\u003C\u002Fa>Human-Centered AI\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.12225) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fpwang322\u002FDLF) |\n| LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration – A Robot Sous-Chef Application | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.13787) | - | - |\n| Pretrained Language Models as Visual Planners for Human Assistance | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.09179) | - | - |\n| Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.08668) | - | - |\n| Image and Data Mining in Reticular Chemistry Using GPT-4V | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.05468) | - | - |\n\n#### 4.4.1. \u003Ca name='WebAgent'>\u003C\u002Fa>Web Agent\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.12856) | - | - |\n| CogAgent: A Visual Language Model for GUI Agents | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.08914) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogAgent) |\n| WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.13919) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FMinorJerry\u002FWebVoyager) |\n| ShowUI: One Vision-Language-Action Model for GUI Visual Agent | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.17465) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI) |\n| ScreenAgent: A Vision Language Model-driven Computer Control Agent | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.07945) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fniuzaisheng\u002FScreenAgent) |\n| Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13232) | - | [💾 Code](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.13232) |\n|| MolmoWeb: An Open Agent for Automating Web Tasks | 03\u002F2026 | [📄 Blog](https:\u002F\u002Fallenai.org\u002Fblog\u002Fmolmoweb) | [🌍 Website](https:\u002F\u002Fallenai.org\u002Fblog\u002Fmolmoweb) | - |\n\n\n#### 4.4.2. \u003Ca name='Accessibility'>\u003C\u002Fa>Accessibility\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| X-World: Accessibility, Vision, and Autonomy Meet | 2021 | [📄 Paper](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FZhang_X-World_Accessibility_Vision_and_Autonomy_Meet_ICCV_2021_paper.pdf) | - | - |\n| Context-Aware Image Descriptions for Web Accessibility | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.03054) | - | - |\n| Improving VR Accessibility Through Automatic 360 Scene Description Using Multimodal Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3691573.3691619) | - | -\n\n\n#### 4.4.3. \u003Ca name='Medical and Healthcare'>\u003C\u002Fa>Healthcare\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01607) | - | - |\n|| MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images | 02\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.06965) | - | - |\n|| Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning | 12\u002F2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.03667) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fai4colonoscopy\u002FColon-X) |\n| Frontiers in Intelligent Colonoscopy | 02\u002F2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.17241) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fai4colonoscopy\u002FIntelliScope) |\n| VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.02865) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FHUANGLIZI\u002FVisionUnite) |\n| Multimodal Healthcare AI: Identifying and Designing Clinically Relevant Vision-Language Applications for Radiology | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14252) | - | - |\n| M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models and Latent Space Geometry Optimization | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08347) | - | - |\n| MedCLIP: Contrastive Learning from Unpaired Medical Images and Text | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.10163) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FRyanWangZf\u002FMedCLIP) |\n| Med-Flamingo: A Multimodal Medical Few-Shot Learner | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.15189) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fsnap-stanford\u002Fmed-flamingo) |\n\n\n#### 4.4.4. \u003Ca name='SocialGoodness'>\u003C\u002Fa>Social Goodness\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| Analyzing K-12 AI Education: A Large Language Model Study of Classroom Instruction on Learning Theories, Pedagogy, Tools, and AI Literacy | 2024 | [📄 Paper](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS2666920X24000985) | - | - |\n| Students Rather Than Experts: A New AI for Education Pipeline to Model More Human-Like and Personalized Early Adolescence | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.15701) | - | - |\n| Harnessing Large Vision and Language Models in Agriculture: A Review | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.19679) | - | - |\n| A Vision-Language Model for Predicting Potential Distribution Land of Soybean Double Cropping | 2024 | [📄 Paper](https:\u002F\u002Fwww.frontiersin.org\u002Fjournals\u002Fenvironmental-science\u002Farticles\u002F10.3389\u002Ffenvs.2024.1515752\u002Fabstract) | - | - |\n| Vision-Language Model is NOT All You Need: Augmentation Strategies for Molecule Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.09043) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FNamkyeong\u002FAMOLE) |\n| DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students’ Hand-Drawn Math Images | 2024 | [📄 Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0vQYvcinij) | - | - |\n| MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.00147) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fpengshuai-rin\u002FMultiMath) |\n| Vision-Language Models Meet Meteorology: Developing Models for Extreme Weather Events Detection with Heatmaps | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.09838) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FAlexJJJChen\u002FClimate-Zoo) |\n| He is Very Intelligent, She is Very Beautiful? On Mitigating Social Biases in Language Modeling and Generation | 2021 | [📄 Paper](https:\u002F\u002Faclanthology.org\u002F2021.findings-acl.397.pdf) | - | - |\n| UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Region Profiling | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.168318) | - | - |\n\n\n## 5. \u003Ca name='Challenges'>\u003C\u002Fa>Challenges\n### 5.1 \u003Ca name='Hallucination'>\u003C\u002Fa>Hallucination\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token | 03\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05465) | [🌍 ACL](https:\u002F\u002Faclanthology.org\u002F2026.eacl-long.287\u002F) | - |\n|| Tone Matters: The Impact of Linguistic Tone on Hallucination in VLMs | 01\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.06460) | - | - |\n|| Object Hallucination in Image Captioning | 2018 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.02156) | - | - |\n| Evaluating Object Hallucination in Large Vision-Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10355) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FPOPE) |\n| Detecting and Preventing Hallucinations in Large Vision Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.06394) | - | - |\n| HallE-Control: Controlling Object Hallucination in Large Multimodal Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.01779) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fbronyayang\u002FHallE_Control) |\n| Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.01355) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FHallu-PI) |\n| BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.13442) | [🌍 Website](https:\u002F\u002Fbeafbench.github.io\u002F) | - |\n| HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.14566) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench) |\n| AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10900) | [🌍 Website](https:\u002F\u002Fwuxiyang1996.github.io\u002Fautohallusion_page\u002F) | - |\n| Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.14565) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FFuxiaoLiu\u002FLRV-Instruction) |\n| Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.15721) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FWisdomShell\u002Fhal-eval) |\n| AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.07397) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fjunyangwang0410\u002FAMBER) |\n\n\n### 5.2 \u003Ca name='Safety'>\u003C\u002Fa>Safety\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| SaFeR-VLM: Safety into Multimodal Reasoning via Reinforcement Learning | 2026 (ICLR) | [📄 Paper](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F4f379d45027946b58a820908fd3a1711d66daa85.pdf) | - | - |\n|| HoliSafe: Holistic Safety Evaluation for Vision-Language Models | 2026 (ICLR) | [📄 Paper](https:\u002F\u002Fopenreview.net\u002Fpdf\u002Fc0a7991cefe100852616861d5046c3b90cfed936.pdf) | - | - |\n|| JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.01599) | [🌍 Website](https:\u002F\u002Fchonghan-chen.com\u002Fllm-jailbreak-zoo-survey\u002F) | - |\n| Safe-VLN: Collision Avoidance for Vision-and-Language Navigation of Autonomous Robots Operating in Continuous Environments | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.02817) | - | - |\n| SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.18927) | - | - |\n| JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03027) | - | - |\n| SHIELD: An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.04178) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Flaiyingxin2\u002FSHIELD) |\n| Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.09792) | - | - |\n| Jailbreaking Attack against Multimodal Large Language Model | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.02309) | - | - |\n|| Embodied Red Teaming for Auditing Robotic Foundation Models | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.18676) | [🌍 Website](https:\u002F\u002Fs-karnik.github.io\u002Fembodied-red-team-project-page\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FImprobable-AI\u002Fembodied-red-teaming) |\n| Safety Guardrails for LLM-Enabled Robots | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07885) | - | - |\n\n\n### 5.3 \u003Ca name='Fairness'>\u003C\u002Fa>Fairness\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| Hallucination of Multimodal Large Language Models: A Survey | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.18930) | - | - |\n| Bias and Fairness in Large Language Models: A Survey | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.00770) | - | - |\n| Fairness and Bias in Multimodal AI: A Survey | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.19097) | - | - |\n| Multi-Modal Bias: Introducing a Framework for Stereotypical Bias Assessment beyond Gender and Race in Vision–Language Models | 2023 | [📄 Paper](http:\u002F\u002Fgerard.demelo.org\u002Fpapers\u002Fmultimodal-bias.pdf) | - | - |\n| FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01089) | - | - |\n| FairCLIP: Harnessing Fairness in Vision-Language Learning | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.19949) | - | - |\n| FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.00983) | - | - |\n| Benchmarking Vision Language Models for Cultural Understanding | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10920) | - | - |\n\n#### 5.4 \u003Ca name='Alignment'>\u003C\u002Fa>Alignment\n#### 5.4.1 \u003Ca name='MultimodalityAlignment'>\u003C\u002Fa>Multi-modality Alignment\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.18715) | - | - |\n| Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.15973) | - | - |\n| Assessing and Learning Alignment of Unimodal Vision and Language Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04616) | [🌍 Website](https:\u002F\u002Flezhang7.github.io\u002Fsail.github.io\u002F) | - |\n| Extending Multi-modal Contrastive Representations | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08884) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FMCR-PEFT\u002FEx-MCR) |\n| OneLLM: One Framework to Align All Modalities with Language | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.03700) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM) |\n| What You See is What You Read? Improving Text-Image Alignment Evaluation | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10400) | [🌍 Website](https:\u002F\u002Fwysiwyr-itm.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fyonatanbitton\u002Fwysiwyr) |\n| Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.18203) | [🌍 Website](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.18203) | [💾 Code](https:\u002F\u002Fgithub.com\u002FkyrieLei\u002FCritic-V) |\n\n#### 5.4.2 \u003Ca name='CommonsenseAlignment'>\u003C\u002Fa>Commonsense and Physics Alignment\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| VBench: Comprehensive BenchmarkSuite for Video Generative Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.17982) | [🌍 Website](https:\u002F\u002Fvchitect.github.io\u002FVBench-project\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n| VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.13503) | [🌍 Website](https:\u002F\u002Fvchitect.github.io\u002FVBench-project\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n| PhysBench: Benchmarking and Enhancing VLMs for Physical World Understanding | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.16411) | [🌍 Website](https:\u002F\u002Fphysbench.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FUSC-GVL\u002FPhysBench) | \n| VideoPhy: Evaluating Physical Commonsense for Video Generation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.03520) | [🌍 Website](https:\u002F\u002Fvideophy.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FHritikbansal\u002Fvideophy) | \n| WorldSimBench: Towards Video Generation Models as World Simulators | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.18072) | [🌍 Website](https:\u002F\u002Firanqin.github.io\u002FWorldSimBench.github.io\u002F) | - |\n| WorldModelBench: Judging Video Generation Models As World Models | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.20694) | [🌍 Website](https:\u002F\u002Fworldmodelbench-team.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FWorldModelBench-Team\u002FWorldModelBench\u002Ftree\u002Fmain?tab=readme-ov-file) |\n| VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.15252) | [🌍 Website](https:\u002F\u002Ftiger-ai-lab.github.io\u002FVideoScore\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVideoScore) |\n| WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07265) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FWISE) |\n| Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.04076) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Flittlespray\u002FCRAVE) |\n| Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.06287) | - | - |\n| SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.12168) | [🌍 Website](https:\u002F\u002Fspatial-vlm.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fremyxai\u002FVQASynth) |\n| Do generative video models understand physical principles? | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.09038) | [🌍 Website](https:\u002F\u002Fphysics-iq.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fphysics-IQ-benchmark) |\n| PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.18964) | [🌍 Website](https:\u002F\u002Fstevenlsw.github.io\u002Fphysgen\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fstevenlsw\u002Fphysgen) |\n| How Far is Video Generation from World Model: A Physical Law Perspective | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.02385) | [🌍 Website](https:\u002F\u002Fphyworld.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Fphyworld\u002Fphyworld) |\n| Imagine while Reasoning in Space: Multimodal Visualization-of-Thought | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07542) | - | - |\n| VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness | 2025 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.21755) | [🌍 Website](https:\u002F\u002Fvchitect.github.io\u002FVBench-2.0-project\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n\n### 5.5 \u003Ca name=' EfficientTrainingandFineTuning'>\u003C\u002Fa> Efficient Training and Fine-Tuning\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| LoRA-Squeeze: Simple and Effective Post-Tuning and In-Tuning Compression of LoRA Modules | 02\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10993) | - | - |\n|| GRACE: Gated Relational Alignment via Confidence-based Distillation for Efficient VLMs | 01\u002F2026 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.22709) | - | - |\n|| VLMQ: Post-Training Quantization for Large Vision-Language Models | 2026 (ICLR) | [📄 Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=CXVf8Vx2E2) | - | - |\n|| VILA: On Pre-training for Visual Language Models | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.07533) | - | - |\n| SimVLM: Simple Visual Language Model Pretraining with Weak Supervision | 2021 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.10904) | - | - |\n| LoRA: Low-Rank Adaptation of Large Language Models | 2021 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.09685) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLoRA) |\n| QLoRA: Efficient Finetuning of Quantized LLMs | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14314) | - | - |\n| Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback | 2022 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.05862) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fhh-rlhf) |\n| RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback | 2023 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.00267) | - | - |\n\n\n### 5.6 \u003Ca name='ScarceofHighqualityDataset'>\u003C\u002Fa>Scarce of High-quality Dataset\n| Title | Year | Paper | Website | Code |\n|----------------|------|--------|---------|------|\n| A Survey on Bridging VLMs and Synthetic Data | 2025 | [📄 Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=ThjDCZOljE) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Fmghiasvand1\u002FAwesome-VLM-Synthetic-Data\u002F) |\n| Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | [Website](https:\u002F\u002Finst-it.github.io\u002F) | [💾 Code](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n| SLIP: Self-supervision meets Language-Image Pre-training | 2021 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.12750) | - | [💾 Code](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FSLIP) |\n| Synthetic Vision: Training Vision-Language Models to Understand Physics | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.08619) | - | - |\n| Synth2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.07750) | - | - |\n| KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.14066) | - | - |\n| Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation | 2024 | [📄 Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13232) | - | - |\n\n\n\n\n","# 大型视觉语言模型的基准测试与评估、对齐、应用及挑战\n\n[![网站](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐_Website-VLM_Survey-6366f1?style=for-the-badge)](https:\u002F\u002Fzli12321.github.io\u002FVLM_Survey\u002F) [![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_Paper-arXiv-b31b1b?style=for-the-badge)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02189) [![星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fzli12321\u002FVision-Language-Models-Overview?style=for-the-badge&color=f59e0b)](https:\u002F\u002Fgithub.com\u002Fzli12321\u002FVision-Language-Models-Overview)\n\n一个汇集并综述视觉语言模型相关论文和模型的 GitHub 仓库。\n\n以下我们整理了*超赞*的论文、模型以及 GitHub 仓库，内容涵盖：\n- **最先进视觉语言模型**：按时间顺序从最新到最旧排列的 VLM 列表（我们会持续更新新模型和基准测试）。\n- **评估**：VLM 的基准测试及其对应的工作链接。\n- **后训练\u002F对齐**：最新的 VLM 对齐相关工作，包括强化学习、监督微调等。\n- **应用**：VLM 在具身 AI、机器人等领域中的应用。\n- 汇集关于上述主题的**综述**、**观点**和**数据集**。\n\n欢迎贡献和讨论！\n\n---\n\n🤩 标有 ⭐️ 的论文由本仓库的维护者提供。如果您觉得这些内容有用，非常感谢您为本仓库点个赞或引用我们的论文。\n\n---\n\n## 目录\n* [📄 论文链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02189)\u002F[⛑️ 引用](#Citations)\n* 1. [📚 最先进的 VLMs](#vlms)\n* 2. [🗂️ 数据集与评估](#Dataset)\n\t* 2.1.  [大规模预训练与后训练数据集](#TrainingDatasetforVLM)\n\t* 2.2.  [VLM 的数据集与评估](#DatasetforVLM)\n\t* 2.3.  [具身 VLM 的基准测试数据集、模拟器和生成模型](#DatasetforEmbodiedVLM)\n\n* 3. ##### 🔥 [ 后训练\u002F对齐\u002F提示工程 ](#posttraining) 🔥\n\t* 3.1.  [VLM 的强化学习对齐](#alignment)\n\t* 3.2.  [常规微调（SFT）](#sft) \n\t* 3.3.  [VLM 对齐相关的 GitHub 项目](#vlm_github)\n\t* 3.4.  [提示工程](#vlm_prompt_engineering)\n\n* 4. [⚒️ 应用](#Toolenhancement)\n\t* 4.1. \t[具身 VLM 代理](#EmbodiedVLMagents)\n\t* 4.2.\t[生成式视觉媒体应用](#GenerativeVisualMediaApplications)\n\t* 4.3.\t[机器人与具身 AI](#RoboticsandEmbodiedAI)\n\t\t* 4.3.1.  [操作任务](#Manipulation)\n\t\t* 4.3.2.  [导航](#Navigation)\n\t\t* 4.3.3.  [人机交互](#HumanRobotInteraction)\n  \t\t* 4.3.4.  [自动驾驶](#AutonomousDriving)\n\t* 4.4. [以人为本的 AI](#Human-CenteredAI)\n\t\t* 4.4.1. [网络代理](#WebAgent)\n\t\t* 4.4.2. [辅助功能](#Accessibility)\n\t\t* 4.4.3. [医疗与健康](#Healthcare)\n\t\t* 4.4.4. [社会公益](#SocialGoodness)\n* 5. [⛑️ 挑战](#Challenges)\n\t* 5.1. [幻觉问题](#Hallucination)\n\t* 5.2. [安全性](#Safety)\n\t* 5.3. [公平性](#Fairness)\n\t* 5.4. [对齐问题](#Alignment)\n  \t\t* 5.4.1. [多模态对齐](#MultimodalityAlignment)\n    \t\t* 5.4.2. [常识与物理常识对齐](#CommonsenseAlignment)\n \t* 5.5. [高效训练与微调](#EfficientTrainingandFineTuning)\n \t* 5.6. [高质量数据集稀缺](#ScarceofHighqualityDataset)\n\n\n## 0. \u003Ca name='Citations'>\u003C\u002Fa>引用\n\n```\n@InProceedings{Li_2025_CVPR,\n    author    = {Li, Zongxia and Wu, Xiyang and Du, Hongyang and Liu, Fuxiao and Nghiem, Huy and Shi, Guangyao},\n    title     = {大型视觉语言模型现状综述：基准测试评估与挑战},\n    booktitle = {IEEE\u002FCVF 计算机视觉与模式识别会议（CVPR）研讨会论文集},\n    month     = {六月},\n    year      = {2025},\n    pages     = {1587-1606}\n}\n```\n\n##  1. \u003Ca name='vlms'>\u003C\u002Fa>📚 最先进的多模态大模型\n| 模型                                                        | 年份 | 架构   | 训练数据               | 参数量     | 视觉编码器\u002F分词器                       | 预训练主干模型                          |\n|--------------------------------------------------------------|------|----------------|-----------------------------|----------------|-----------------------------------------------|---------------------------------------------------|\n| [GPT-5.4 \u002F GPT-5.4 Thinking (OpenAI)](https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-gpt-5-4\u002F) | 2026年3月6日 | 解码器架构 | 未披露 | 未披露 | 未披露 | 未披露 |\n| [Phi-4-Reasoning-Vision-15B (微软)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.03975) | 2026年3月4日 | 解码器架构 | 精选合成数据 + 过滤数据 | 150亿 | 高分辨率动态分辨率ViT | Phi-4 |\n| [Gemini 3.0 (谷歌)](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002F) | 2026年3月 | 统一模型 | 未披露 | 未披露 | 未披露 | 未披露 |\n| [Qwen3.5 (阿里巴巴)](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3.5) | 2026年2月16日 | 统一VL（早期融合） | 数万亿多模态token | 8亿–397亿（MoE，170亿活跃） | ViT（原生） | Qwen3.5 |\n| [Claude Opus 4.6 (Anthropic)](https:\u002F\u002Fdocs.anthropic.com\u002Fen\u002Fdocs\u002Fabout-claude\u002Fmodels) | 2026年2月 | 解码器架构 | 未披露 | 未披露 | 未披露 | 未披露 |\n| [Erin 5.0 (百度)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.04705) | 2026年2月5日 | 统一模型（视觉、文本、音频） | 统一模态数据集 | - | CNN–ViT（理解）\u002F下一帧及尺度预测（生成） | 统一自回归Transformer |\n| [Molmo2 (Allen AI)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10611) | 2026年1月15日 | 解码器架构 | 7个新视频和2个多图像数据集（共919万视频） | 40亿\u002F70亿\u002F80亿 | 双向注意力ViT | [Qwen 3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) \u002F [OLMo](https:\u002F\u002Fhuggingface.co\u002Fallenai) |\n| [Gemini 3](https:\u002F\u002Faistudio.google.com\u002Fmodels\u002Fgemini-3) | 2025年11月18日 | 统一模型 | 未披露 | - | - | - |\n| [Emu3.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.26583) | 2025年10月30日 | 解码器架构 | 统一模态数据集 | - | SigLIP | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) |\n| [DeepSeek-OCR](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-OCR\u002Fblob\u002Fmain\u002FDeepSeek_OCR_paper.pdf) | 2025年10月20日 | 编码器-解码器架构 | 70% OCR，20%通用视觉，10%纯文本 | [30亿](https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FDeepSeek-OCR) | DeepEncoder | DeepSeek-3B |\n| [Qwen3-VL](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-VL-8B-Instruct) | 2025年10月11日 | 解码器架构 |- | [80亿\u002F40亿](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl-68d2a7c1b8a8afce4ebd2dbe) | ViT | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) |\n| [Qwen3-VL-MoE](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-VL) | 2025年9月25日 | 解码器架构 |- | [2350亿-A220亿](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-vl-68d2a7c1b8a8afce4ebd2dbe) | ViT | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) |\n| [Qwen3-Omni](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fassets\u002FQwen3_Omni.pdf)（视觉\u002F音频\u002F文本）| 2025年9月21日 | - |视频\u002F音频\u002F图片 | 300亿 | ViT | Qwen3-Omni-MoE-Thinker |\n| [LLaVA-Onevision-1.5](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002FLLaVA-OneVision-1.5)| 2025年9月15日 | - |[中期训练-8500万](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-One-Vision-1.5-Mid-Training-85M) & [SFT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-OneVision-1.5-Insturct-Data) | 80亿 | Qwen2VLImageProcessor | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) |\n| [InternVL3.5](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.18265)| 2025年8月25日 | 解码器架构 |多模态及纯文本 | 300亿\u002F380亿\u002F2410亿 | InternViT-3亿\u002F60亿 | [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-67dd247413f0e2e4f653967f) \u002F [GPT-OSS](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fopenai\u002Fgpt-oss-68911959590a1634ba11c7a4) |\n| [SkyWork-Unipic-1.5B](https:\u002F\u002Fhuggingface.co\u002FSkywork\u002FSkywork-UniPic-1.5B)| 2025年7月29日 | - |图像\u002F视频.. | - | - | - |\n| [Grok 4](https:\u002F\u002Fx.ai\u002Fnews\u002Fgrok-4)\t\t\t\t   | 2025年7月9日 | - |图像\u002F视频.. | 1-2万亿 | - | - |\n| [Kwai Keye-VL (快手)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.01949)\t\t\t\t   | 2025年7月2日 | 解码器架构\t|图像\u002F视频.. | 80亿 | ViT | [QWen-3-8B](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-8B) |\n| [OmniGen2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18871)\t\t\t\t   | 2025年6月23日 | 解码器架构 & VAE\t|LLaVA-OneVision\u002F SAM-LLaVA.. | - | ViT | [QWen-2.5-VL](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl-6795ffac22b334a837c0f9a5) |\n| [Gemini-2.5-Pro](https:\u002F\u002Fdeepmind.google\u002Fmodels\u002Fgemini\u002Fpro\u002F)\t\t\t\t   | 2025年6月17日 | - |-| - | - | - |\n| [GPT-o3\u002Fo4-mini](https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-o3-and-o4-mini\u002F)                   | 2025年6月10日 | 解码器架构   | 未披露                 | 未披露    | 未披露                                  | 未披露                                       |\n| [Mimo-VL (小米)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.03569)\t\t\t\t   | 2025年6月4日 | 解码器架构\t|24万亿MLLM tokens | 70亿 | [Qwen2.5-ViT | [Mimo-7B-base](https:\u002F\u002Fhuggingface.co\u002FXiaomiMiMo\u002FMiMo-7B-Base) |\n| [BAGEL (字节跳动)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14683)\t\t\t\t   | 2025年5月20日 | 统一模型\t| 视频\u002F图片\u002F文本 | 70亿 | SigLIP2-so400m\u002F14](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14786) | [Qwen2.5](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15115) |\n| [BLIP3-o](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2505.09568)\t\t\t\t   | 2025年5月14日 | 解码器架构\t|(BLIP3-o 6万) GPT-4o生成的图像生成数据 | 40亿\u002F80亿 | ViT | [QWen-2.5-VL](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-vl-6795ffac22b334a837c0f9a5) |\n| [InternVL-3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.10479)\t\t\t\t   | 2025年4月14日 | 解码器架构\t|2000亿tokens | 10亿\u002F20亿\u002F80亿\u002F90亿\u002F140亿\u002F380亿\u002F780亿 | ViT-3亿\u002F60亿 | [InterLM2.5\u002FQWen2.5](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-780亿) |\n| [LLaMA4-Scout\u002FMaverick](https:\u002F\u002Fai.meta.com\u002Fblog\u002Fllama-4-multimodal-intelligence\u002F)\t\t\t\t   | 2025年4月4日 | 解码器架构\t|40\u002F20万亿tokens | 170亿 | [MetaClip](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FMetaCLIP) | [LLaMA4](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmeta-llama\u002Fllama-4-67f0c30d9fe03840bc9d0164) |\n| [Qwen2.5-Omni](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20215)\t\t\t\t   | 2025年3月26日 | 解码器架构\t|视频\u002F音频\u002F图片\u002F文本 | 70亿 |Qwen2-Audio\u002FQwen2.5-VL ViT | [端到端迷你-Omni](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16725) |\n| [QWen2.5-VL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13923)\t\t\t\t   | 2025年1月28日 | 解码器架构\t|图像描述、VQA、定位任务、长视频 | 30亿\u002F70亿\u002F720亿 |重新设计的ViT | [Qwen2.5](https:\u002F\u002Fhuggingface.co\u002FQwen) |\n| [Ola](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.04328)\t\t\t\t\t   | 2025年 | 解码器架构\t|图像\u002F视频\u002F音频\u002F文本\t\t| 70亿\t\t\t|[OryxViT](https:\u002F\u002Fhuggingface.co\u002FTHUdyh\u002FOryx-ViT)| [Qwen-2.5-7B](https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5\u002F), [SigLIP-400M](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.15343), [Whisper-V3-Large](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.04356), [BEATs-AS2M(cpt2)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.09058) |\n| [Ocean-OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15558)\t\t\t\t   | 2025年 | 解码器架构\t|纯文本、标题、[交错处理](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMM-Interleaved)、[OCR](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl\u002Ftree\u002Fmain\u002FDocOwl1.5) | 30亿 | [NaViT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06304) | 从头预训练      |\n| [SmolVLM](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmolervlm)             | 2025年 | 解码器架构   | [SmolVLM-Instruct](https:\u002F\u002Fhuggingface.co\u002FHuggingFaceTB\u002FSmolVLM-Instruct\u002Fblob\u002Fmain\u002Fsmolvlm-data.pdf) | 2.5亿 & 5亿     | SigLIP                                | [SmolLM](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmollm)   |\n| [DeepSeek-Janus-Pro](https:\u002F\u002Fjanusai.pro\u002Fwp-content\u002Fuploads\u002F2025\u002F01\u002Fjanus_pro_tech_report.pdf)             | 2025年 | 解码器架构   | 未披露 | 70亿     | SigLIP                                | [DeepSeek-Janus-Pro](https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FJanus-Pro-7B)                                      |\n| [Inst-IT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | 2024年 | 解码器架构 | [Inst-IT数据集](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInst-IT\u002FInst-It-Dataset), [LLaVA-NeXT-Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FLLaVA-NeXT-Data) | 70亿 | CLIP\u002FVicuna, SigLIP\u002FQwen2 | [LLaVA-NeXT](https:\u002F\u002Fhuggingface.co\u002Fliuhaotian\u002Fllava-v1.6-vicuna-7b) |\n [DeepSeek-VL2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.10302)             | 2024年 | 解码器架构   | [WiT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgoogle\u002Fwit), [WikiHow](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fajibawa-2023\u002FWikiHow) | 45亿 x 74      | SigLIP\u002FSAMB                                  | [DeepSeekMoE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.10302)                                      |\n| [xGen-MM (BLIP-3)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.08872) | 2024年 | 解码器架构 | [MINT-1T](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11271), [OBELICS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.16527), [Caption](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fxgen-mm?tab=readme-ov-file#data-preparation) | 40亿 | ViT + [Perceiver Resampler](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198) | [Phi-3-mini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14219) |\n| [TransFusion](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.11039)              | 2024年 | 编码器-解码器| 未披露                 | 70亿             | VAE编码器                                  | 从头在变压器架构上预训练 |\n| [Baichuan Ocean Mini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.08565)      | 2024年 | 解码器架构   | 图像\u002F视频\u002F音频\u002F文本      | 70亿             | CLIP ViT-L\u002F14                                | [Baichuan](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.10305)                                         |\n| [LLaMA 3.2-vision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.21783)         | 2024年 | 解码器架构   | 未披露                 | 110亿-900亿        | CLIP                                         | [LLaMA-3.1](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.21783)                                        |\n| [Pixtral](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.07073)                  | 2024年 | 解码器架构   | 未披露                 | 120亿            | CLIP ViT-L\u002F14                                | [Mistral Large 2](https:\u002F\u002Fmistral.ai\u002F)                                  |\n| [Qwen2-VL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.12191)                 | 2024年 | 解码器架构   | 未披露        | 70亿-140亿         | EVA-CLIP ViT-L                               | [Qwen-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10671)                                           |\n| [NVLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.11402)                     | 2024年 | 编码器-解码器| [LAION-115M ](https:\u002F\u002Flaion.ai\u002Fblog\u002Flaion-5b\u002F)      | 80亿-240亿         | 自定义ViT                                   | [Qwen-2-Instruct](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10671)                                  |\n| [Emu3](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.18869)                     | 2024年 | 解码器架构   | [Aquila](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.07410)         | 70亿             | MoVQGAN                                      | [LLaMA-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09288)                                          |\n| [Claude 3](https:\u002F\u002Fclaude.ai\u002Fnew)                            | 2024年 | 解码器架构   | 未披露                 | 未披露    | 未披露                                  | 未披露                                       |\n| [InternVL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.14238)                 | 2023年 | 编码器-解码器| [LAION-en, LAION- multi](https:\u002F\u002Flaion.ai\u002Fblog\u002Flaion-5b\u002F)        | 70亿\u002F200亿         | Eva CLIP ViT-g                               | [QLLaMA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.08177)                                           |\n| [InstructBLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.06500)             | 2023年 | 编码器-解码器| [CoCo](https:\u002F\u002Fcocodataset.org\u002F#home), [VQAv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmms-lab\u002FVQAv2)            | 130亿            | ViT                                          | [Flan-T5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.11416), [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                       |\n| [CogVLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.03079)                   | 2023年 | 编码器-解码器| [LAION-2B](https:\u002F\u002Fsisap-challenges.github.io\u002F2024\u002Fdatasets\u002F) ,[COYO-700M](https:\u002F\u002Fgithub.com\u002Fkakaobrain\u002Fcoyo-dataset)       | 180亿            | CLIP ViT-L\u002F14                                | [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                                |\n| [PaLM-E](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03378)                   | 2023年 | 解码器架构   | 所有机器人, [WebLI](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.06794)            | 5620亿           | ViT                                          | [PaLM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.02311)                                             |\n| [LLaVA-1.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.03744)                | 2023年 | 解码器架构   | [COCO](https:\u002F\u002Fcocodataset.org\u002F#home)         | 130亿            | CLIP ViT-L\u002F14                                | [Vicuna](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F)                                           |\n| [Gemini](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.11805)                   | 2023年 | 解码器架构   | 未披露                 | 未披露    | 未披露                                  | 未披露                                       |\n| [GPT-4V](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.17421)                   | 2023年 | 解码器架构   | 未披露                 | 未披露    | 未披露                                  | 未披露                                       |\n| [BLIP-2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.12597)                   | 2023年 | 编码器-解码器| [COCO](https:\u002F\u002Fcocodataset.org\u002F#home), [Visual Genome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Franjaykrishna\u002Fvisual_genome) | 70亿-130亿         | ViT-g                                        | [开放预训练变压器 (OPT)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.01068)                |\n| [Flamingo](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198)                 | 2022年 | 解码器架构   | [M3W](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.14198), [ALIGN](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Falign) | 800亿            | 定制                                       | [Chinchilla](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.15556)                                        |\n| [BLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.12086)                     | 2022年 | 编码器-解码器| [COCO](https:\u002F\u002Fcocodataset.org\u002F#home), [Visual Genome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Franjaykrishna\u002Fvisual_genome\u002F) | 2230万-400万      | ViT-B\u002FL\u002Fg                                    | 从头预训练                           |\n| [CLIP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.00020)                     | 2021年 | 编码器-解码器| 400万图文配对       | 6300万-3550万       | ViT\u002FResNet                                   | 从头预训练                           |\n\n##  2. \u003Ca name='Dataset'>\u003C\u002Fa>🗂️ 基准与评估\n### 2.1. \u003Ca name='TrainingDatasetforVLM'>\u003C\u002Fa> 用于训练多模态视觉语言模型的数据集\n| 数据集 | 任务 | 规模 |\n|---------|------|---------------|\n| [OmniScience](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13758)(02\u002F2026) | 科学图像理解 | 150万组图表-标题-上下文三元组 |\n| [MaD-Mix](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.07790)(02\u002F2026) | 多模态数据混合优化 | 框架（0.5B–7B规模） |\n| [OVID](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F54b83db2dc00f01b015b8356db617fdd6e38240f.pdf)(2026) | 开放视频预训练 | 1000万小时，3亿帧-标题对 |\n| [Molmo2 视频数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10611)(01\u002F2026) | 视频字幕、问答、跟踪、指物 | 919万条视频（7个视频+2个多图像数据集） |\n| [MMFineReason](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenDataArena\u002FMMFineReason-1.8M-Qwen3-VL-235B-Thinking)(\u002F1\u002F30\u002F2026) | 推理 | 180万 |\n| [FineVision](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceM4\u002FFineVision)(09\u002F04\u002F2025) | 混合领域 | 2430万\u002F4.48TB |\n\n\n\n### 2.2. \u003Ca name='DatasetforVLM'>\u003C\u002Fa> 多模态视觉语言模型的数据集与评估\n### 🧮 视觉数学 (+ 视觉数学推理)\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码 \u002F 网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [MathVision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14804) | 视觉数学 | 选择题 \u002F 答案匹配 | 人工 | 3.04 | [仓库](https:\u002F\u002Fmathllm.github.io\u002Fmathvision\u002F) |\n| [MathVista](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02255) | 视觉数学 | 选择题 \u002F 答案匹配 | 人工 | 6 | [仓库](https:\u002F\u002Fmathvista.github.io) |\n| [MathVerse](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14624) | 视觉数学 | 选择题 | 人工 | 4.6 | [仓库](https:\u002F\u002Fmathverse-cuhk.github.io) |\n| [VisNumBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.14939) | 视觉数字推理 | 选择题 | Python程序生成\u002FWeb收集\u002F现实生活照片 | 1.91 | [仓库](https:\u002F\u002Fwwwtttjjj.github.io\u002FVisNumBench\u002F) |\n\n\n### 💬 统一模型基准\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码 \u002F 网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [ROVER](https:\u002F\u002Fopenreview.net\u002Fpdf?id=gu3DRaDWiI) | 相互跨模态推理 | 视觉生成 + 语言生成评估 | 人工 | 1.3 (1,876张图片) | [论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=gu3DRaDWiI) |\n|| [RealUnify](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.24897) | 数学、世界知识、图像生成 | 直接及分步评估（第3.3节） | 脚本与人工验证 | 1.0 | [仓库](https:\u002F\u002Fgithub.com\u002FFrankYang-17\u002FRealUnify) |\n| [Uni-MMMU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.13759) | 科学、代码、图像生成 | DreamSim（图像生成评估）& 字符串匹配（理解评估） | - | 1.0 | [仓库](https:\u002F\u002Fvchitect.github.io\u002FUni-MMMU-Project) |\n\n\n### 🎞️ 视频理解\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码 \u002F 网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [MMOU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14145) | 全模态长视频理解 | 选择题 | 人工 | 15 (9,038条视频) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14145) |\n| [Video-MMMU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13826) | 从专业视频中获取知识 | 选择题 + 知识增长 | 专家 | 0.9 (300条视频) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13826) |\n| [MMVU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12380) | 专家级多学科视频理解 | 选择题 | 专家 | 3 (27个主题) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12380) |\n|| [VideoHallu](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.01481) | 视频理解 | LLM评估 | 人工 | 3.2 | [仓库](https:\u002F\u002Fgithub.com\u002Fzli12321\u002FVideoHallu) |\n| [Video SimpleQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18923) | 视频理解 | LLM评估 | 人工 | 2.03 | [仓库](https:\u002F\u002Fvideosimpleqa.github.io) |\n| [MovieChat](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16449) | 视频理解 | LLM评估 | 人工 | 1 | [仓库](https:\u002F\u002Frese1f.github.io\u002FMovieChat\u002F) |\n| [Perception‑Test](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.13786) | 视频理解 | 选择题 | 大众 | 11.6 | [仓库](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fperception_test) |\n| [VideoMME](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.21075) | 视频理解 | 选择题 | 专家 | 2.7 | [网站](https:\u002F\u002Fvideo-mme.github.io\u002F) |\n| [EgoSchem](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.09126) | 视频理解 | 选择题 | 合成\u002F人工 | 5 | [网站](https:\u002F\u002Fegoschema.github.io\u002F) |\n| [Inst‑IT‑Bench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | 细粒度图像与视频 | 选择题 & LLM | 人工\u002F合成 | 2 | [仓库](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n\n\n### 💬 多模态对话\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码 \u002F 网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [VisionArena](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08687) | 多模态对话 | 成对偏好 | 人工 | 23 | [仓库](https:\u002F\u002Fhuggingface.co\u002Flmarena-ai) |\n\n\n\n### 🧠 多模态通用智能\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码 \u002F 网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [OmniEarth](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09471) | 地理空间\u002F遥感VLM评估 | 选择题 + 开放式VQA | 人工（已验证） | 44.2 (9,275张图片，28项任务) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09471) |\n|| [MultiHaystack](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05697) | 多模态检索与推理 | 检索 + 问答 | 人工 | 0.75 (4.6万+候选) | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05697) |\n|| [DatBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.02316) | 区分性、忠实性VLM评估 | 选择题（格式感知） | 合成 | - | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.02316) |\n|| [MMLU](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.03300) | 通用MM | 选择题 | 人工 | 15.9 | [仓库](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest) |\n| [MMStar](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.20330) | 通用MM | 选择题 | 人工 | 1.5 | [网站](https:\u002F\u002Fmmstar-benchmark.github.io\u002F) |\n| [NaturalBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.14669) | 通用MM | 是\u002F否、选择题 | 人工 | 10 | [HF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBaiqiL\u002FNaturalBench) |\n| [PHYSBENCH](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.16411) | 视觉数学推理 | 选择题 | STEM研究生 | 0.10 | [仓库](https:\u002F\u002Fgithub.com\u002FUSC-GVL\u002FPhysBench) |\n\n### 🔎 视觉推理 \u002F VQA （+ 多语言与 OCR）\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码\u002F网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [EMMA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05444) | 视觉推理 | 多选题 | 人工 + 合成 | 2.8 | [仓库](emma-benchmark.github.io) |\n| [MMTBENCH](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.16006) | 视觉推理与问答 | 多选题 | AI专家 | 30.1 | [仓库](https:\u002F\u002Fgithub.com\u002Ftylin\u002Fcoco-caption) |\n| [MM‑Vet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.02490) | OCR \u002F 视觉推理 | LLM评估 | 人工 | 0.2 | [仓库](https:\u002F\u002Fgithub.com\u002Fyuweihao\u002FMM-Vet) |\n| [MM‑En\u002FCN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06281) | 多语言多模态理解 | 多选题 | 人工 | 3.2 | [仓库](https:\u002F\u002Fgithub.com\u002Fopen-compass\u002FVLMEvalKit) |\n| [GQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13245) | 视觉推理与问答 | 答案匹配 | 种子数据 + 合成数据 | 22 | [网站](https:\u002F\u002Fcs.stanford.edu\u002Fpeople\u002Fdorarad\u002Fgqa) |\n| [VCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.10830) | 视觉推理与问答 | 多选题 | MTurk众包 | 290 | [网站](https:\u002F\u002Fvisualcommonsense.com\u002F) |\n| [VQAv2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1505.00468) | 视觉推理与问答 | 是\u002F否、答案匹配 | MTurk众包 | 1100 | [仓库](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Fblob\u002Fmain\u002Fdataset_card\u002Fvqav2.md) |\n| [MMMU](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16502) | 视觉推理与问答 | 答案匹配、多选题 | 大学生 | 11.5 | [网站](https:\u002F\u002Fmmmu-benchmark.github.io\u002F) |\n| [MMMU-Pro](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.02813) | 视觉推理与问答 | 答案匹配、多选题 | 大学生 | 5.19 | [网站](https:\u002F\u002Fmmmu-benchmark.github.io\u002F) |\n| [R1‑Onevision](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.10615) | 视觉推理与问答 | 多选题 | 人工 | 155 | [仓库](https:\u002F\u002Fgithub.com\u002FFancy-MLLM\u002FR1-Onevision) |\n| [VLM²‑Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.12084) | 视觉推理与问答 | 答案匹配、多选题 | 人工 | 3 | [网站](https:\u002F\u002Fvlm2-bench.github.io\u002F) |\n| [VisualWebInstruct](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.10582) | 视觉推理与问答 | LLM评估 | 网络数据 | 0.9 | [网站](https:\u002F\u002Ftiger-ai-lab.github.io\u002FVisualWebInstruct\u002F) |\n\n\n### 📝 视觉文本 \u002F 文档理解 （+ 图表）\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码\u002F网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [TextVQA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.08920) | 视觉文本理解 | 答案匹配 | 专家 | 28.6 | [仓库](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmmf) |\n| [DocVQA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.00398) | 文档VQA | 答案匹配 | 众包 | 50 | [网站](https:\u002F\u002Fwww.docvqa.org\u002F) |\n| [ChartQA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.10244) | 图表图形理解 | 答案匹配 | 众包\u002F合成 | 32.7 | [仓库](https:\u002F\u002Fgithub.com\u002Fvis-nlp\u002FChartQA) |\n\n\n### 🌄 文本到图像生成\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码\u002F网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [MSCOCO‑30K](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.0312) | 文本到图像 | BLEU、ROUGE、相似度 | MTurk众包 | 30 | [网站](https:\u002F\u002Fcocodataset.org\u002F#home) |\n| [GenAI‑Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.13743) | 文本到图像 | 人类评分 | 人工 | 80 | [HF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBaiqiL\u002FGenAI-Bench) |\n\n\n### 🚨 幻觉检测 \u002F 控制\n\n| 数据集 | 任务 | 评估协议 | 标注者 | 规模 (K) | 代码\u002F网站 |\n|---------|------|---------------|------------|----------|-------------|\n| [HallusionBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.14566) | 幻觉 | 是\u002F否 | 人工 | 1.13 | [仓库](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench) |\n| [POPE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10355) | 幻觉 | 是\u002F否 | 人工 | 9 | [仓库](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FPOPE) |\n| [CHAIR](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.02156) | 幻觉 | 是\u002F否 | 人工 | 124 | [仓库](https:\u002F\u002Fgithub.com\u002FLisaAnne\u002FHallucination) |\n| [MHalDetect](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.06394) | 幻觉 | 答案匹配 | 人工 | 4 | [仓库](https:\u002F\u002Fgithub.com\u002FLisaAnne\u002FHallucination) |\n| [Hallu‑Pi](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.01355) | 幻觉 | 答案匹配 | 人工 | 1.26 | [仓库](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FHallu-PI) |\n| [HallE‑Control](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01779) | 幻觉 | 是\u002F否 | 人工 | 108 | [仓库](https:\u002F\u002Fgithub.com\u002Fbronyayang\u002FHallE_Control) |\n| [AutoHallusion](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10900) | 幻觉 | 答案匹配 | 合成数据 | 3.129 | [仓库](https:\u002F\u002Fgithub.com\u002Fwuxiyang1996\u002FAutoHallusion) |\n| [BEAF](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13442) | 幻觉 | 是\u002F否 | 人工 | 26 | [网站](https:\u002F\u002Fbeafbench.github.io\u002F) |\n| [GAIVE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.14565) | 幻觉 | 答案匹配 | 合成数据 | 320 | [仓库](https:\u002F\u002Fgithub.com\u002FFuxiaoLiu\u002FLRV-Instruction) |\n| [HalEval](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15721) | 幻觉 | 是\u002F否 | 众包\u002F合成 | 2 | [仓库](https:\u002F\u002Fgithub.com\u002FWisdomShell\u002Fhal-eval) |\n| [AMBER](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.07397) | 幻觉 | 答案匹配 | 人工 | 15.22 | [仓库](https:\u002F\u002Fgithub.com\u002Fjunyangwang0410\u002FAMBER) |\n\n### 2.3. \u003Ca name='DatasetforEmbodiedVLM'>\u003C\u002Fa> 针对具身视觉语言模型的基准数据集、模拟器和生成模型\n| 基准                                                                                                                                     |             领域              |                类型                |                                                     \t\t项目\t\t\t\t\t                                                     |\n|-----------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------:|:----------------------------------:|:----------------------------------------------------------------------------------------------------------------------:|\n| [Drive-Bench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04003) | 具身AI | 自动驾驶 | [官网](https:\u002F\u002Fdrive-bench.github.io)  |\n| [Habitat](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.01201), [Habitat 2.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.14405), [Habitat 3.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.13724) |      机器人学（导航）      |        模拟器 + 数据集         |                                           [官网](https:\u002F\u002Faihabitat.org\u002F)                                            |\n| [Gibson](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1808.10654)                                                                                                    |      机器人学（导航）      |        模拟器 + 数据集         |           [官网](http:\u002F\u002Fgibsonenv.stanford.edu\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002FStanfordVL\u002FGibsonEnv)            |\n| [iGibson1.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.02924), [iGibson2.0](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.03272)                                                |      机器人学（导航）      |        模拟器 + 数据集         |            [官网](https:\u002F\u002Fsvl.stanford.edu\u002Figibson\u002F), [文档](https:\u002F\u002Fstanfordvl.github.io\u002FiGibson\u002F)             |\n| [Isaac Gym](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.10470)                                                                                                 |      机器人学（导航）      |             模拟器              |      [官网](https:\u002F\u002Fdeveloper.nvidia.com\u002Fisaac-gym), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fisaac-sim\u002FIsaacGymEnvs)       |\n| [Isaac Lab](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.04195)                                                                                                 |      机器人学（导航）      |             模拟器              | [官网](https:\u002F\u002Fisaac-sim.github.io\u002FIsaacLab\u002Fmain\u002Findex.html), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fisaac-sim\u002FIsaacLab)  |\n| [AI2THOR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.05474) |  机器人学（导航）      |             模拟器 | [官网](https:\u002F\u002Fai2thor.allenai.org\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fai2thor)  |\n| [ProcTHOR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.06994) |  机器人学（导航）      |              模拟器 + 数据集 | [官网](https:\u002F\u002Fprocthor.allenai.org\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fallenai\u002Fprocthor)  |\n| [VirtualHome](https:\u002F\u002Farxiv.org\u002Fabs\u002F1806.07011) |  机器人学（导航）      |              模拟器 | [官网](http:\u002F\u002Fvirtual-home.org\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fxavierpuigf\u002Fvirtualhome)  |\n| [ThreeDWorld](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.04954) | 机器人学（导航）      |              模拟器 | [官网](https:\u002F\u002Fwww.threedworld.org\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fthreedworld-mit\u002Ftdw)  |\n| [VIMA-Bench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03094)                                                                                                |     机器人学（操作）     |             模拟器              |                [官网](https:\u002F\u002Fvimalabs.github.io\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)                 |\n| [VLMbench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.08522)                                                                                                  |     机器人学（操作）     |             模拟器              |                                 [GitHub仓库](https:\u002F\u002Fgithub.com\u002Feric-ai-lab\u002FVLMbench)                                 |\n| [CALVIN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.03227)                                                                                                    |     机器人学（操作）     |             模拟器              |              [官网](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin)               |\n| [GemBench](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01345)                                                                                                  |     机器人学（操作）     |             模拟器              | [官网](https:\u002F\u002Fwww.di.ens.fr\u002Fwillow\u002Fresearch\u002Fgembench\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fvlc-robot\u002Frobot-3dlotus\u002F) | \n| [WebArena](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.13854)                                                                                                  |            网络智能体            |             模拟器              |                [官网](https:\u002F\u002Fwebarena.dev\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena)                |\n| [UniSim](https:\u002F\u002Fopenreview.net\u002Fpdf?id=sFyTZEqmUY)                                                                                            |     机器人学（操作）     |   生成模型、世界模型    |                                [官网](https:\u002F\u002Funiversal-simulator.github.io\u002Funisim\u002F)                                |\n| [GAIA-1](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.17080)                                                                                                    | 机器人学（自动驾驶）   |   生成模型、世界模型    |                                [官网](https:\u002F\u002Fwayve.ai\u002Fthinking\u002Fintroducing-gaia1\u002F)                                 |                                                                                                   \n| [LWM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.08268)                                                                                                       |           具身AI           |   生成模型、世界模型    |        [官网](https:\u002F\u002Flargeworldmodel.github.io\u002Flwm\u002F), [GitHub仓库](https:\u002F\u002Fgithub.com\u002FLargeWorldModel\u002FLWM)        |\n| [Genesis](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                                                                                     |           具身AI           |   生成模型、世界模型    |                             [GitHub仓库](https:\u002F\u002Fgithub.com\u002FGenesis-Embodied-AI\u002FGenesis)                              |\n| [EMMOE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08604) | 具身AI | 生成模型、世界模型 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08604)  |\n| [RoboGen](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01455) | 具身AI | 生成模型、世界模型 | [官网](https:\u002F\u002Frobogen-ai.github.io\u002F)  |\n| [UnrealZoo](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.20977) | 具身AI（追踪、导航、多智能体）| 模拟器 | [官网](http:\u002F\u002Funrealzoo.site\u002F) |\n\n## 3. \u003Ca name='posttraining'>\u003C\u002Fa>⚒️ 训练后调整\n### 3.1.  \u003Ca name='alignment'>\u003C\u002Fa>VLM的RL对齐\n| 标题 | 年份 | 论文 | RL | 代码 |\n|----------------|------|--------|---------|------|\n| wDPO：鲁棒对齐的Winsorized直接偏好优化 | 2026年3月 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.07211) | wDPO | - |\n|| f-GRPO及更进一步：用于通用LLM对齐的基于散度的强化学习 | 2026年2月 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.05946) | f-GRPO \u002F f-HAL | - |\n|| 从视觉到洞察：通过强化学习提升MLLM的视觉推理能力 | 2026年1月 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.00215) | GRPO（6种奖励函数） | - |\n|| SaFeR-VLM：面向多模态推理的安全感知强化学习 | 2026年（ICLR） | [论文](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F4f379d45027946b58a820908fd3a1711d66daa85.pdf) | GRPO + 安全奖励 | - |\n|| SAIL-RL：通过双奖励强化学习调优引导MLLM何时以及如何思考 | 2025年11月 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02280) | 双奖励（思考+判断） | - |\n|| GIFT：基于群体相对的隐式微调将GRPO与DPO和UNA相结合 | 2025年10月 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23868) | GIFT（凸MSE损失） | - |\n|| Game-RL：合成多模态可验证的游戏数据以提升VLM的通用推理能力 | 2025年10月12日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13886) | GRPO | - |\n| Vision-Zero：通过策略性游戏化自我博弈实现可扩展的VLM自我改进 | 2025年9月29日 | [论文](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2509.25541) | GRPO | - |\n| Vision-SR1：通过推理分解实现自奖励的视觉-语言模型 | 2025年8月26日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.19652) | GRPO | - |\n| 群体序列策略优化 | 2025年6月24日 | [论文](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2507.18071) | GSPO | - |\n| Visionary-R1：利用强化学习缓解视觉推理中的捷径问题 | 2025年5月20日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14677) | GRPO | - |\n| VideoChat-R1：通过强化微调增强时空感知能力 | 2025年4月10日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.06958) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FVideoChat-R1) |\n| OpenVLThinker：通过迭代式自我改进探索复杂视觉-语言推理的早期尝试 | 2025年3月21日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.17352) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002Fyihedeng9\u002FOpenVLThinker) |\n| 使用课程强化学习提升视觉语言模型的泛化能力和推理能力 | 2025年3月10日 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07065) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002Fding523\u002FCurr_REFT) |\n| OmniAlign-V：迈向与人类偏好更加一致的MLLM | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18411) | DPO | [代码](https:\u002F\u002Fgithub.com\u002FPhoenixZ810\u002FOmniAlign-V) |\n| 多模态Open R1\u002FR1-多模态之旅 | 2025年 | - | GRPO | [代码](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002Fopen-r1-multimodal) |\n| R1-VL：通过分步群体相对策略优化学习使用多模态大语言模型进行推理 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12937) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002Fjingyi0000\u002FR1-VL) |\n| Agent-R1：使用端到端强化学习训练强大的LLM智能体 | 2025年 | - | PPO\u002FREINFORCE++\u002FGRPO | [代码](https:\u002F\u002Fgithub.com\u002F0russwest0\u002FAgent-R1) |\n| MM-Eureka：利用基于规则的大规模强化学习探索视觉顿悟时刻 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07365) | [REINFORCE留一法（RLOO）](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1lgTGL5DE) | [代码](https:\u002F\u002Fgithub.com\u002FModalMinds\u002FMM-EUREKA) |\n| MM-RLHF：多模态LLM对齐的下一步进展 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.10391) | DPO | [代码](https:\u002F\u002Fgithub.com\u002FKwai-YuanQi\u002FMM-RLHF) |\n| LMM-R1：通过两阶段基于规则的RL赋予3B LMM强大的推理能力 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536) | PPO | [代码](https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1) |\n| Vision-R1：激励多模态大语言模型的推理能力 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.06749) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002FOsilly\u002FVision-R1) |\n| 面向多模态理解和生成的统一奖励模型 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05236) | DPO | [代码](https:\u002F\u002Fgithub.com\u002FCodeGoat24\u002FUnifiedReward) |\n| 我们能用CoT生成图像吗？让我们逐步验证并强化图像生成过程 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.13926) | DPO | [代码](https:\u002F\u002Fgithub.com\u002FZiyuGuo99\u002FImage-Generation-CoT) |\n| 条条大路通似然：强化学习在微调中的价值 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.01067) | 在线RL | - |\n| Video-R1：强化MLLM中的视频推理能力 | 2025年 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21776) | GRPO | [代码](https:\u002F\u002Fgithub.com\u002Ftulerfeng\u002FVideo-R1) |\n\n### 3.2. \u003Ca name='sft'>\u003C\u002Fa>视觉-语言模型的微调\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| MERGETUNE：视觉-语言模型的持续微调 | 2026\u002F01（ICLR 2026） | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10497) | - | - |\n|| 掩码微调（MFT）：解锁视觉-语言模型中的隐藏能力 | 2025\u002F12 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23073) | - | - |\n|| Image-LoRA：迈向视觉-语言模型的极简微调 | 2025\u002F12 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.19219) | - | - |\n|| 重新评估监督微调的作用：视觉-语言模型推理中的实证研究 | 2025\u002F12 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.12690) | - | - |\n|| Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练 | 2025\u002F04\u002F21 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.15271) | [网站](https:\u002F\u002Fnvlabs.github.io\u002FEAGLE\u002F) | [代码](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FEAGLE) |\n| OMNICAPTIONER：一个字幕生成器统御一切 | 2025\u002F04\u002F09 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07089) | [网站](https:\u002F\u002Falpha-innovator.github.io\u002FOmniCaptioner-project-page\u002F) | [代码](https:\u002F\u002Fgithub.com\u002FAlpha-Innovator\u002FOmniCaptioner) |\n| Inst-IT：通过显式视觉提示指令微调提升多模态实例理解能力 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | [网站](https:\u002F\u002Fgithub.com\u002FAlpha-Innovator\u002FOmniCaptioner) | [代码](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n| LLaVolta：基于分阶段视觉上下文压缩的高效多模态模型 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.20092) | [网站](https:\u002F\u002Fbeckschen.github.io\u002Fllavolta.html) | [代码](https:\u002F\u002Fgithub.com\u002FBeckschen\u002FLLaVolta) |\n| ViTamin：在视觉-语言时代设计可扩展的视觉模型 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.02132) | [网站](https:\u002F\u002Fbeckschen.github.io\u002Fvitamin.html) | [代码](https:\u002F\u002Fgithub.com\u002FBeckschen\u002FViTamin) |\n| Espresso：为您的视觉-语言模型从视频中进行高密度提取提供高压缩比 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04729) | - | - |\n| 视觉-语言模型是否应该使用图像数据进行预训练？ | 2025 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07603) | - | - |\n| VisionArena：包含偏好标签的23万条真实世界用户与视觉-语言模型对话 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.08687) | - | [代码](https:\u002F\u002Fhuggingface.co\u002Flmarena-ai) |\n\n### 3.3. \u003Ca name='vlm_github'>\u003C\u002Fa>VLM对齐GitHub项目\n| 项目 | 仓库链接 |\n|----------------|----------------|\n|Verl|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) |\n|EasyR1|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FEasyR1) |\n|OpenR1|[🔗 GitHub](https:\u002F\u002Fgithub.com\u002FEvolvingLMMs-Lab\u002Fopen-r1-multimodal) |\n| LLaMAFactory | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002Fhiyouga\u002FLLaMA-Factory) |\n| MM-Eureka-Zero | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FModalMinds\u002FMM-EUREKA\u002Ftree\u002Fmain) |\n| MM-RLHF | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FKwai-YuanQi\u002FMM-RLHF) |\n| LMM-R1 | [🔗 GitHub](https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1) |\n\n### 3.4. \u003Ca name='vlm_prompt_engineering'>\u003C\u002Fa>提示优化\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| EvoPrompt：面向视觉-语言模型的进化式提示适配 | 2026\u002F03 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09493) | - | - |\n|| MMLoP：用于高效视觉-语言模型适配的多模态低秩提示 | 2026\u002F02 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.21397) | - | - |\n|| 多模态提示优化器（MPO）：多模态提示的联合优化 | 2025\u002F10 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.09201) | - | - |\n|| 进化式提示优化发现涌现的多模态推理策略 | 2025\u002F03 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.23503) | - | - |\n|| In-ContextEdit：利用大规模扩散Transformer中的上下文生成实现指令式图像编辑 | 2025\u002F04\u002F30 | [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20690) | [网站](https:\u002F\u002Friver-zhang.github.io\u002FICEdit-gh-pages\u002F) | [代码](https:\u002F\u002Fgithub.com\u002FRiver-Zhang\u002FICEdit) |\n\n## 4. \u003Ca name='Toolenhancement'>\u003C\u002Fa> ⚒️ 应用\n\n### 4.1 具身视觉-语言模型智能体\n\n| 标题 | 年份 | 论文链接 |\n|----------------|------|------------|\n| 将网络空间与物理世界对齐：具身AI综合综述 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.06886v1) |\n| ScreenAI：用于UI和信息图表理解的视觉-语言模型 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.04615) |\n| ChartLlama：用于图表理解和生成的多模态大模型 | 2023 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.16483) |\n| SciDoc2Diagrammer-MAF：基于多方面反馈精炼，实现从文档生成科学图表 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.19242) |\n| 训练视觉-语言模型作为智能手机助手 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.08755) |\n| ScreenAgent：由视觉-语言模型驱动的计算机控制智能体 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.07945) |\n| 基于环境反馈的具身视觉-语言程序员 | 2024 | [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08588) |\n| 视觉-语言模型玩《星际争霸II》：基准测试与多模态决策方法 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.05383) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002FVLM-Play-StarCraft2) |\n| MP-GUI：利用多模态大模型进行GUI理解的模态感知 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.14021) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FBigTaige\u002FMP-GUI) | \n\n\n### 4.2. \u003Ca name='GenerativeVisualMediaApplications'>\u003C\u002Fa>生成式视觉媒体应用\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| GPT4Motion：通过面向Blender的GPT规划，在文本到视频生成中编写物理动作 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12631) | [🌍 网站](https:\u002F\u002Fgpt4motion.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fjiaxilv\u002FGPT4Motion) |\n| 多模态大模型中的虚假相关性 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.08884) | - | - |\n| WeGen：作为微信般的交互式多模态生成统一模型 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.01115) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fhzphzp\u002FWeGen) |\n| VideoMind：用于长视频推理的LoRA链式智能体 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.13444) | [🌍 网站](https:\u002F\u002Fvideomind.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fyeliudev\u002FVideoMind) |\n\n### 4.3. \u003Ca name='RoboticsandEmbodiedAI'>\u003C\u002Fa>机器人学与具身人工智能\n| 标题 | 年份 | 论文 | 官网 | 代码 |\n|----------------|------|--------|---------|------|\n| AHA：用于检测和推理机器人操作中故障的视觉-语言模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.00371) | [🌍 官网](https:\u002F\u002Faha-vlm.github.io\u002F) | - |\n| SpatialVLM：赋予视觉-语言模型空间推理能力 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.12168) | [🌍 官网](https:\u002F\u002Fspatial-vlm.github.io\u002F) | - |\n| 基于视觉-语言模型的场景理解与机器人物体操作 | 2024 | [📄 论文](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=10711845&casa_token=to4vCckCewMAAAAA:2ykeIrubUOxwJ1rhwwakorQFAwUUBQhL_Ct7dnYBceWU5qYXiCoJp_yQkmJbmtiEVuX2jcpvB92n&tag=1) | - | - |\n| 利用视觉语言模型指导长 horizon 任务与运动规划 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.02193) | [🌍 官网](https:\u002F\u002Fzt-yang.github.io\u002Fvlm-tamp-robot\u002F) | - |\n| AutoTAMP：以 LLM 作为翻译器和校验器的自回归式任务与运动规划 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.06531) | [🌍 官网](https:\u002F\u002Fyongchao98.github.io\u002FMIT-REALM-AutoTAMP\u002F) | - |\n| VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.08792) | - | - |\n| 基于大型语言模型的可扩展多机器人协作：集中式还是分布式系统？ | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.15943) | [🌍 官网](https:\u002F\u002Fyongchao98.github.io\u002FMIT-REALM-Multi-Robot\u002F) | - |\n| DART-LLM：利用大型语言模型进行依赖感知的多机器人任务分解与执行 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.09022) | [🌍 官网](https:\u002F\u002Fwyd0817.github.io\u002Fproject-dart-llm\u002F) | - |\n| MotionGPT：人类运动是一门外语 | 2023 | [📄 论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002F3fbf0c1ea0716c03dea93bb6be78dd6f-Paper-Conference.pdf) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FOpenMotionLab\u002FMotionGPT) |\n| 利用大型语言模型通过自我对齐学习机器人技能奖励 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.07162) | - | - |\n| 语言到奖励：用于机器人技能合成 | 2023 | [📄 论文](https:\u002F\u002Flanguage-to-reward.github.io\u002Fassets\u002Fl2r.pdf) | [🌍 官网](https:\u002F\u002Flanguage-to-reward.github.io\u002F) | - |\n| Eureka：通过编码大型语言模型实现人类水平的奖励设计 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.12931) | [🌍 官网](https:\u002F\u002Feureka-research.github.io\u002F) | - |\n| 集成式任务与运动规划 | 2020 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.01083) | - | - |\n| 攻破 LLM 控制的机器人 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13691) | [🌍 官网](https:\u002F\u002Frobopair.org\u002F) | - |\n| 机器人演绎有害刻板印象 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.11569) | [🌍 官网](https:\u002F\u002Fsites.google.com\u002Fview\u002Frobots-enact-stereotypes) | - |\n| LLM 驱动的机器人存在演绎歧视、暴力及非法行为的风险 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.08824) | - | - |\n| 强调在机器人领域部署 LLM\u002FVLM 的安全问题 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10340) | [🌍 官网](https:\u002F\u002Fwuxiyang1996.github.io\u002Fadversary-vlm-robotics\u002F) | - |\n| EmbodiedBench：面向视觉驱动具身智能体的多模态大型语言模型综合基准测试 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.09560) | [🌍 官网](https:\u002F\u002Fembodiedbench.github.io\u002F) | [💾 代码与数据集](https:\u002F\u002Fgithub.com\u002FEmbodiedBench\u002FEmbodiedBench) |\n| Gemini Robotics：将 AI 带入物理世界 | 2025 | [📄 技术报告](https:\u002F\u002Fstorage.googleapis.com\u002Fdeepmind-media\u002Fgemini-robotics\u002Fgemini_robotics_report.pdf) | [🌍 官网](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini-robotics\u002F) | - |\n| GR-2：具有网络规模知识的生成式视频-语言-动作模型，用于机器人操作 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.06158) | [🌍 官网](https:\u002F\u002Fgr2-manipulation.github.io\u002F) | - |\n| Magma：多模态 AI 智能体的基础模型 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.13130) | [🌍 官网](https:\u002F\u002Fmicrosoft.github.io\u002FMagma\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMagma) |\n| DayDreamer：用于物理机器人学习的世界模型 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14176) | [🌍 官网](https:\u002F\u002Fdanijar.com\u002Fproject\u002Fdaydreamer\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdaydreamer) |\n| Hi Robot：基于分层视觉-语言-动作模型的开放式指令遵循 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14176) | - | - |\n| RL-VLM-F：基于视觉语言基础模型反馈的强化学习 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.03681) | [🌍 官网](https:\u002F\u002Frlvlmf2024.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fyufeiwang63\u002FRL-VLM-F) |\n| KALIE：无需机器人数据即可对视觉-语言模型进行微调，以适应开放世界操作 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.14066) | [🌍 官网](https:\u002F\u002Fkalie-vlm.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fgractang\u002Fkalie) |\n| 统一视频动作模型 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.00200) | [🌍 官网](https:\u002F\u002Funified-video-action-model.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FShuangLI59\u002Funified_video_action) |\n| HybridVLA：统一视觉-语言-动作模型中的协同扩散与自回归 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10631) | [🌍 官网](https:\u002F\u002Fhybrid-vla.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FPKU-HMI-Lab\u002FHybrid-VLA) |\n|| DAM-VLA：基于动态动作模型的视觉-语言-动作框架，用于机器人操作 | 2026年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.00926) | - | - |\n|| NS-VLA：迈向神经符号型视觉-语言-动作模型 | 2026年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09542) | - | - |\n|| 用于具身推理与层级控制的可导向视觉-语言-动作策略 | 2026年2月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13193) | - | - |\n|| ST4VLA：面向视觉-语言-动作模型的空间引导训练 | 2026年2月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10109) | - | - |\n\n#### 4.3.1. \u003Ca name='Manipulation'>\u003C\u002Fa>操作\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| VIMA：基于多模态提示的通用机器人操作 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.03094) | [🌍 网站](https:\u002F\u002Fvimalabs.github.io\u002F) |\n| Instruct2Act：利用大型语言模型将多模态指令映射为机器人动作 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11176) | - | - |\n| 基于大型语言模型的创意机器人工具使用 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.13065) | [🌍 网站](https:\u002F\u002Fcreative-robotool.github.io\u002F) | - |\n| RoboVQA：面向机器人技术的多模态长 horizon 推理 | 2024 | [📄 论文](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10610216) | - | - |\n| RT-1：用于大规模真实世界控制的机器人 Transformer | 2022 | [📄 论文](https:\u002F\u002Frobotics-transformer1.github.io\u002Fassets\u002Frt1.pdf) | [🌍 网站](https:\u002F\u002Frobotics-transformer1.github.io\u002F) | - |\n| RT-2：视觉-语言-动作模型将网络知识迁移到机器人控制中 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.15818) | [🌍 网站](https:\u002F\u002Frobotics-transformer2.github.io\u002F) | - |\n| Open X-Embodiment：机器人学习数据集和 RT-X 模型 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08864) | [🌍 网站](https:\u002F\u002Frobotics-transformer-x.github.io\u002F) | - |\n| ExploRLLM：利用大型语言模型引导强化学习中的探索 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.09583) | [🌍 网站](https:\u002F\u002Fexplorllm.github.io\u002F) | - |\n| AnyTouch：跨多种视觉-触觉传感器学习统一的静态-动态表征 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.12191) | [🌍 网站](https:\u002F\u002Fgewu-lab.github.io\u002FAnyTouch\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FGeWu-Lab\u002FAnyTouch) |\n| 面向视觉控制的掩码世界模型 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.14244) | [🌍 网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Fmwm-rl) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002FMWM) |\n| 用于视觉机器人操作的多视角掩码世界模型 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.02408) | [🌍 网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Fmv-mwm) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002FMV-MWM) |\n\n\n#### 4.3.2. \u003Ca name='Navigation'>\u003C\u002Fa>导航\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| ZSON：使用多模态目标嵌入的零样本目标导向导航 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.12403) | - | - |\n| LOC-ZSON：语言驱动的以物体为中心的零样本物体检索与导航 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.05363) | - | - |\n| LM-Nav：结合语言、视觉和行动的大型预训练模型的机器人导航 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.04429) | [🌍 网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Flmnav) | - |\n| NaVILA：用于导航的腿式机器人视觉-语言-动作模型 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04453) | [🌍 网站](https:\u002F\u002Fnavila-bot.github.io\u002F) | - |\n| VLFM：用于零样本语义导航的视觉-语言前沿地图 | 2024 | [📄 论文](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=10610712&casa_token=qvFCSt20n0MAAAAA:MSC4P7bdlfQuMRFrmIl706B-G8ejcxH9ZKROKETL1IUZIW7m_W4hKW-kWrxw-F8nykoysw3WYHnd) | - | - |\n| 利用大型语言模型进行导航：语义猜测作为规划的启发式方法 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10103) | [🌍 网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Flfg-nav\u002F) | - |\n| Vi-LAD：用于动态环境中具有社会意识的机器人导航的视觉-语言注意力蒸馏 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.09820) | - | - |\n| 导航世界模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.03572) | [🌍 网站](https:\u002F\u002Fwww.amirbar.net\u002Fnwm\u002F) | - |\n\n\n#### 4.3.3. \u003Ca name='HumanRobotInteraction'>\u003C\u002Fa>人机交互\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| MUTEX：从多模态任务规范中学习统一策略 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.14320) | [🌍 网站](https:\u002F\u002Fut-austin-rpl.github.io\u002FMUTEX\u002F) | - |\n| LaMI：用于多模态人机交互的大型语言模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.15174) | [🌍 网站](https:\u002F\u002Fhri-eu.github.io\u002FLami\u002F) | - |\n| VLM-Social-Nav：通过视觉-语言模型评分实现的社会感知机器人导航 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.00210) | - | - |\n\n#### 4.3.4. \u003Ca name='AutonomousDriving'>\u003C\u002Fa>自动驾驶\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| AutoMoT: 一种用于端到端自动驾驶的异步混合Transformer统一视觉-语言-动作模型 | 2026年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.14851) | - | - |\n|| DriveVLM-RL: 基于视觉-语言模型的受神经科学启发的安全自动驾驶强化学习 | 2026年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.18315) | - | - |\n|| HiST-VLA: 一种用于端到端自动驾驶的分层时空视觉-语言-动作模型 | 2026年2月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13329) | - | - |\n|| OpenDriveVLA: 基于大型视觉语言动作模型的端到端自动驾驶探索 | 2025年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.23463) | - | - |\n|| 视觉语言模型已准备好用于自动驾驶吗？从可靠性、数据和指标角度的实证研究 | 2025年1月7日 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04003) | [🌍 网站](drive-bench.github.io) | - |\n| DriveVLM: 自动驾驶与大型视觉-语言模型的融合 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12289) | [🌍 网站](https:\u002F\u002Ftsinghua-mars-lab.github.io\u002FDriveVLM\u002F) | - |\n| GPT-Driver: 使用GPT学习驾驶 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01415) | - | - |\n| LanguageMPC: 将大型语言模型用作自动驾驶决策者 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03026) | [🌍 网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Fllm-mpc) | - |\n| 使用LLM驾驶：融合目标级向量模态实现可解释的自动驾驶 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01957) | - | - |\n| 指代式多目标跟踪 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03366) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fwudongming97\u002FRMOT) |\n| VLPD: 基于视觉-语言语义自监督的上下文感知行人检测 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.03135) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Flmy98129\u002FVLPD) |\n| MotionLM: 将多智能体运动预测视为语言建模 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.16534) | - | - |\n| DiLu: 基于知识驱动的大型语言模型自动驾驶方法 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16292) | [🌍 网站](https:\u002F\u002Fpjlab-adg.github.io\u002FDiLu\u002F) | - |\n| VLP: 用于自动驾驶的视觉语言规划 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.05577) | - | - |\n| DriveGPT4: 基于大型语言模型的可解释端到端自动驾驶 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01412) | - | - |\n\n### 4.4. \u003Ca name='Human-CenteredAI'>\u003C\u002Fa>以人为中心的人工智能\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| DLF：解耦语言聚焦的多模态情感分析 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.12225) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fpwang322\u002FDLF) |\n| LIT：大型语言模型驱动的意图追踪用于主动的人机协作——机器人副厨师应用 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.13787) | - | - |\n| 预训练语言模型作为人类辅助的视觉规划器 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.09179) | - | - |\n| 在科学中促进人工智能公平性：面向可访问的VLM研究的广义领域提示学习 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.08668) | - | - |\n| 使用GPT-4V在网状化学中进行图像和数据挖掘 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.05468) | - | - |\n\n#### 4.4.1. \u003Ca name='WebAgent'>\u003C\u002Fa>网络智能体\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| 具有规划、长上下文理解与程序合成的真实世界网络智能体 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.12856) | - | - |\n| CogAgent：用于GUI智能体的视觉语言模型 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.08914) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogAgent) |\n| WebVoyager：使用大型多模态模型构建端到端的网络智能体 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.13919) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FMinorJerry\u002FWebVoyager) |\n| ShowUI：一个用于GUI视觉智能体的视觉-语言-行动模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.17465) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI) |\n| ScreenAgent：一个由视觉语言模型驱动的计算机控制智能体 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.07945) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fniuzaisheng\u002FScreenAgent) |\n| 带有世界模型的网络智能体：在网络导航中学习并利用环境动态 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13232) | - | [💾 代码](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2410.13232) |\n|| MolmoWeb：一个用于自动化网络任务的开放智能体 | 03\u002F2026 | [📄 博客](https:\u002F\u002Fallenai.org\u002Fblog\u002Fmolmoweb) | [🌍 网站](https:\u002F\u002Fallenai.org\u002Fblog\u002Fmolmoweb) | - |\n\n\n#### 4.4.2. \u003Ca name='Accessibility'>\u003C\u002Fa>无障碍\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| X-World：无障碍、视觉与自主性的交汇 | 2021 | [📄 论文](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FZhang_X-World_Accessibility_Vision_and_Autonomy_Meet_ICCV_2021_paper.pdf) | - | - |\n| 面向网页无障碍的上下文感知图像描述 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.03054) | - | - |\n| 通过使用多模态大型语言模型自动进行360度场景描述来提升VR的可访问性 | 2024 | [📄 论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3691573.3691619) | - | -\n\n\n#### 4.4.3. \u003Ca name='Medical and Healthcare'>\u003C\u002Fa>医疗健康\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| CARE：基于证据的代理框架，实现多模态医学推理中的临床问责制 | 03\u002F2026 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01607) | - | - |\n|| MedMO：用于医学图像的多模态大型语言模型的基础与理解 | 02\u002F2026 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.06965) | - | - |\n|| Colon-X：从多模态理解到临床推理，推动智能结肠镜检查的发展 | 12\u002F2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.03667) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fai4colonoscopy\u002FColon-X) |\n| 智能结肠镜检查的前沿 | 02\u002F2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.17241) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fai4colonoscopy\u002FIntelliScope) |\n| VisionUnite：一种结合临床知识的眼科视觉-语言基础模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.02865) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FHUANGLIZI\u002FVisionUnite) |\n| 多模态医疗AI：识别并设计针对放射学的具有临床相关性的视觉-语言应用 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14252) | - | - |\n| M-FLAG：使用冻结语言模型和潜在空间几何优化进行医学视觉-语言预训练 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.08347) | - | - |\n| MedCLIP：来自未配对的医学图像和文本的对比学习 | 2022 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.10163) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FRyanWangZf\u002FMedCLIP) |\n| Med-Flamingo：一种多模态医学少样本学习模型 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.15189) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fsnap-stanford\u002Fmed-flamingo) |\n\n\n#### 4.4.4. \u003Ca name='SocialGoodness'>\u003C\u002Fa>社会公益\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| 分析K-12人工智能教育：大型语言模型对课堂讲授关于学习理论、教学法、工具及人工智能素养的研究 | 2024 | [📄 论文](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS2666920X24000985) | - | - |\n| 学生而非专家：一条新的教育人工智能流水线，以模拟更人性化和个性化的青春期早期 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.15701) | - | - |\n| 在农业中利用大型视觉和语言模型：综述 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.19679) | - | - |\n| 用于预测大豆复种潜在分布区域的视觉-语言模型 | 2024 | [📄 论文](https:\u002F\u002Fwww.frontiersin.org\u002Fjournals\u002Fenvironmental-science\u002Farticles\u002F10.3389\u002Ffenvs.2024.1515752\u002Fabstract) | - | - |\n| 视觉-语言模型并非你所需要的全部：分子语言模型的增强策略 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.09043) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FNamkyeong\u002FAMOLE) |\n| DrawEduMath：用专家标注的学生手绘数学图像评估视觉语言模型 | 2024 | [📄 论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0vQYvcinij) | - | - |\n| MultiMath：为大型语言模型架起视觉与数学推理之间的桥梁 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.00147) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fpengshuai-rin\u002FMultiMath) |\n| 视觉-语言模型与气象学相遇：开发用于极端天气事件检测的热力图模型 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.09838) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FAlexJJJChen\u002FClimate-Zoo) |\n| 他非常聪明，她非常美丽？关于减轻语言建模与生成中的社会偏见 | 2021 | [📄 论文](https:\u002F\u002Faclanthology.org\u002F2021.findings-acl.397.pdf) | - | - |\n| UrbanVLP：用于城市区域画像的多粒度视觉-语言预训练 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.168318) | - | - |\n\n\n## 5. \u003Ca name='Challenges'>\u003C\u002Fa>挑战\n\n### 5.1 \u003Ca name='Hallucination'>\u003C\u002Fa>幻觉\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| HALP：无需生成任何标记即可检测视觉-语言模型中的幻觉 | 2026年3月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05465) | [🌍 ACL](https:\u002F\u002Faclanthology.org\u002F2026.eacl-long.287\u002F) | - |\n|| 语调很重要：语言语调对视觉-语言模型中幻觉的影响 | 2026年1月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.06460) | - | - |\n|| 图像字幕中的对象幻觉 | 2018年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.02156) | - | - |\n| 大型视觉-语言模型中对象幻觉的评估 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10355) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FPOPE) |\n| 检测与预防大型视觉语言模型中的幻觉 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.06394) | - | - |\n| HallE-Control：控制大型多模态模型中的对象幻觉 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.01779) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fbronyayang\u002FHallE_Control) |\n| Hallu-PI：在扰动输入下评估多模态大型语言模型中的幻觉 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.01355) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FNJUNLP\u002FHallu-PI) |\n| BEAF：通过观察前后变化来评估视觉-语言模型中的幻觉 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.13442) | [🌍 网站](https:\u002F\u002Fbeafbench.github.io\u002F) | - |\n| HallusionBench：用于复杂语言幻觉和视觉错觉的大规模视觉-语言模型诊断套件 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.14566) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench) |\n| AUTOHALLUSION：为视觉-语言模型自动生成幻觉基准测试 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.10900) | [🌍 网站](https:\u002F\u002Fwuxiyang1996.github.io\u002Fautohallusion_page\u002F) | - |\n| 通过稳健的指令微调缓解大型多模态模型中的幻觉 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.14565) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FFuxiaoLiu\u002FLRV-Instruction) |\n| Hal-Eval：大型视觉语言模型的通用且细粒度的幻觉评估框架 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.15721) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FWisdomShell\u002Fhal-eval) |\n| AMBER：无大语言模型的多维度基准，用于评估多模态大型语言模型的幻觉 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.07397) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fjunyangwang0410\u002FAMBER) |\n\n\n### 5.2 \u003Ca name='Safety'>\u003C\u002Fa>安全性\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| SaFeR-VLM：通过强化学习将安全性融入多模态推理 | 2026年（ICLR） | [📄 论文](https:\u002F\u002Fopenreview.net\u002Fpdf\u002F4f379d45027946b58a820908fd3a1711d66daa85.pdf) | - | - |\n|| HoliSafe：视觉-语言模型的整体安全评估 | 2026年（ICLR） | [📄 论文](https:\u002F\u002Fopenreview.net\u002Fpdf\u002Fc0a7991cefe100852616861d5046c3b90cfed936.pdf) | - | - |\n|| 越狱动物园：大型语言和视觉-语言模型越狱的综述、现状与展望 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.01599) | [🌍 网站](https:\u002F\u002Fchonghan-chen.com\u002Fllm-jailbreak-zoo-survey\u002F) | - |\n| Safe-VLN：面向连续环境中运行的自主机器人的视觉-语言导航避障 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.02817) | - | - |\n| SafeBench：多模态大型语言模型的安全评估框架 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.18927) | - | - |\n| JailBreakV：评估多模态大型语言模型抵御越狱攻击鲁棒性的基准 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03027) | - | - |\n| SHIELD：利用多模态大型语言模型进行人脸欺骗与伪造检测的评估基准 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.04178) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Flaiyingxin2\u002FSHIELD) |\n| 图像是对齐的阿喀琉斯之踵：利用视觉漏洞越狱多模态大型语言模型 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.09792) | - | - |\n| 针对多模态大型语言模型的越狱攻击 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.02309) | - | - |\n|| 用于审计机器人基础模型的身体化红队 | 2025年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.18676) | [🌍 网站](https:\u002F\u002Fs-karnik.github.io\u002Fembodied-red-team-project-page\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FImprobable-AI\u002Fembodied-red-teaming) |\n| 基于大语言模型的机器人的安全护栏 | 2025年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07885) | - | - |\n\n### 5.3 \u003Ca name='Fairness'>\u003C\u002Fa>公平性\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| 多模态大语言模型的幻觉：综述 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.18930) | - | - |\n| 大语言模型中的偏见与公平性：综述 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.00770) | - | - |\n| 多模态人工智能中的公平性与偏见：综述 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.19097) | - | - |\n| 多模态偏见：在视觉—语言模型中引入超越性别和种族的刻板偏见评估框架 | 2023 | [📄 论文](http:\u002F\u002Fgerard.demelo.org\u002Fpapers\u002Fmultimodal-bias.pdf) | - | - |\n| FMBench：在医疗任务上对多模态大语言模型进行公平性基准测试 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.01089) | - | - |\n| FairCLIP：在视觉—语言学习中利用公平性 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.19949) | - | - |\n| FairMedFM：面向医学影像基础模型的公平性基准测试 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.00983) | - | - |\n| 面向文化理解的视觉语言模型基准测试 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.10920) | - | - |\n\n#### 5.4 \u003Ca name='Alignment'>\u003C\u002Fa>对齐\n#### 5.4.1 \u003Ca name='MultimodalityAlignment'>\u003C\u002Fa>多模态对齐\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| 使用指令对比解码缓解大型视觉—语言模型中的幻觉 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.18715) | - | - |\n| 通过自我改进提升大型视觉语言模型中的视觉—语言模态对齐 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.15973) | - | - |\n| 单模态视觉和语言模型的对齐评估与学习 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.04616) | [🌍 网站](https:\u002F\u002Flezhang7.github.io\u002Fsail.github.io\u002F) | - |\n| 扩展多模态对比表示 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08884) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FMCR-PEFT\u002FEx-MCR) |\n| OneLLM：一个框架，用于将所有模态与语言对齐 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.03700) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM) |\n| “你所见即你所读”？改进文本—图像对齐评估 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.10400) | [🌍 网站](https:\u002F\u002Fwysiwyr-itm.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fyonatanbitton\u002Fwysiwyr) |\n| Critic-V：VLM批评家有助于捕捉多模态推理中的VLM错误 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.18203) | [🌍 网站](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.18203) | [💾 代码](https:\u002F\u002Fgithub.com\u002FkyrieLei\u002FCritic-V) |\n\n#### 5.4.2 \u003Ca name='CommonsenseAlignment'>\u003C\u002Fa>常识与物理对齐\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| VBench：视频生成模型的综合基准测试套件 | 2023 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.17982) | [🌍 网站](https:\u002F\u002Fvchitect.github.io\u002FVBench-project\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n| VBench++：视频生成模型的全面且多功能基准测试套件 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.13503) | [🌍 网站](https:\u002F\u002Fvchitect.github.io\u002FVBench-project\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n| PhysBench：针对物理世界理解的VLM基准测试与增强 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.16411) | [🌍 网站](https:\u002F\u002Fphysbench.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FUSC-GVL\u002FPhysBench) |\n| VideoPhy：评估视频生成的物理常识 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.03520) | [🌍 网站](https:\u002F\u002Fvideophy.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FHritikbansal\u002Fvideophy) |\n| WorldSimBench：迈向将视频生成模型作为世界模拟器 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.18072) | [🌍 网站](https:\u002F\u002Firanqin.github.io\u002FWorldSimBench.github.io\u002F) | - |\n| WorldModelBench：以世界模型的标准评判视频生成模型 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.20694) | [🌍 网站](https:\u002F\u002Fworldmodelbench-team.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FWorldModelBench-Team\u002FWorldModelBench\u002Ftree\u002Fmain?tab=readme-ov-file) |\n| VideoScore：构建自动指标以模拟细粒度的人类反馈来评估视频生成 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.15252) | [🌍 网站](https:\u002F\u002Ftiger-ai-lab.github.io\u002FVideoScore\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002FVideoScore) |\n| WISE：一种基于世界知识的语义评估方法，用于文本—图像生成 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07265) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FWISE) |\n| 基于复杂文本对齐和运动感知一致性的内容丰富型AIGC视频质量评估 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.04076) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Flittlespray\u002FCRAVE) |\n| 您的大型视觉—语言模型仅需少量注意力头即可实现视觉定位 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.06287) | - | - |\n| SpatialVLM：赋予视觉—语言模型空间推理能力 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.12168) | [🌍 网站](https:\u002F\u002Fspatial-vlm.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fremyxai\u002FVQASynth) |\n| 生成式视频模型是否理解物理原理？ | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.09038) | [🌍 网站](https:\u002F\u002Fphysics-iq.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fphysics-IQ-benchmark) |\n| PhysGen：基于刚体物理的图像—视频生成 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.18964) | [🌍 网站](https:\u002F\u002Fstevenlsw.github.io\u002Fphysgen\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fstevenlsw\u002Fphysgen) |\n| 视频生成距离世界模型还有多远？——从物理定律的角度看 | 2024 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.02385) | [🌍 网站](https:\u002F\u002Fphyworld.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Fphyworld\u002Fphyworld) |\n| 在空间中思考的同时进行推理：多模态思维可视化 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07542) | - | - |\n| VBench-2.0：推进视频生成基准测试套件，以提高内在忠实性 | 2025 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.21755) | [🌍 网站](https:\u002F\u002Fvchitect.github.io\u002FVBench-2.0-project\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002FVchitect\u002FVBench) |\n\n### 5.5 \u003Ca name=' EfficientTrainingandFineTuning'>\u003C\u002Fa> 高效训练与微调\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| LoRA-Squeeze：简单有效的LoRA模块后训练与在线训练压缩 | 2026年2月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.10993) | - | - |\n|| GRACE：基于置信度蒸馏的门控关系对齐，用于高效视觉语言模型 | 2026年1月 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.22709) | - | - |\n|| VLMQ：大型视觉语言模型的后训练量化 | 2026年（ICLR） | [📄 论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=CXVf8Vx2E2) | - | - |\n|| VILA：关于视觉语言模型的预训练 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.07533) | - | - |\n| SimVLM：弱监督下的简单视觉语言模型预训练 | 2021年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.10904) | - | - |\n| LoRA：大型语言模型的低秩适应 | 2021年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.09685) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLoRA) |\n| QLoRA：量化大语言模型的高效微调 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14314) | - | - |\n| 使用人类反馈强化学习训练有益且无害的助手 | 2022年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.05862) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fhh-rlhf) |\n| RLAIF vs. RLHF：利用AI反馈扩展人类反馈强化学习 | 2023年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.00267) | - | - |\n\n\n### 5.6 \u003Ca name='ScarceofHighqualityDataset'>\u003C\u002Fa>高质量数据集稀缺\n| 标题 | 年份 | 论文 | 网站 | 代码 |\n|----------------|------|--------|---------|------|\n| 视觉语言模型与合成数据桥梁研究综述 | 2025年 | [📄 论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=ThjDCZOljE) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Fmghiasvand1\u002FAwesome-VLM-Synthetic-Data\u002F) |\n| Inst-IT：通过显式视觉提示指令微调提升多模态实例理解能力 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.03565) | [网站](https:\u002F\u002Finst-it.github.io\u002F) | [💾 代码](https:\u002F\u002Fgithub.com\u002Finst-it\u002Finst-it) |\n| SLIP：自监督学习与语言-图像预训练的结合 | 2021年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.12750) | - | [💾 代码](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FSLIP) |\n| 合成视觉：训练视觉语言模型以理解物理规律 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.08619) | - | - |\n| Synth2：利用合成字幕和图像嵌入提升视觉语言模型性能 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.07750) | - | - |\n| KALIE：无需机器人数据即可微调视觉语言模型以应对开放世界操作任务 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.14066) | - | - |\n| 具有世界模型的网络智能体：在网页导航中学习并利用环境动态 | 2024年 | [📄 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.13232) | - | - |","# Vision-Language-Models-Overview 快速上手指南\n\n**Vision-Language-Models-Overview** 并非一个可直接安装运行的单一软件包或模型，而是一个**前沿视觉 - 语言模型（VLM）的论文、模型仓库及基准测试的综合索引库**。它旨在为开发者和研究人员提供最新的 SOTA 模型列表、数据集、对齐技术及应用场景的导航。\n\n本指南将指导你如何利用该资源查找模型，并以列表中热门的 **Qwen2.5-VL** 为例，演示如何快速部署和使用一个典型的开源 VLM。\n\n## 1. 环境准备\n\n由于该仓库主要指向基于 PyTorch 和 Transformers 的大型模型，你需要准备以下环境：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS (M 系列芯片需特别注意显存\u002F内存限制)。\n*   **硬件要求**:\n    *   **GPU**: 建议 NVIDIA GPU，显存至少 16GB (运行 7B 参数模型)，推荐 24GB+ (运行更大模型或高并发)。\n    *   **CPU**: 多核处理器，用于数据预处理。\n    *   **内存**: 32GB RAM 以上。\n*   **前置依赖**:\n    *   Python 3.10 或更高版本\n    *   CUDA 12.1+ (如需 GPU 加速)\n    *   Git\n\n## 2. 安装步骤\n\n### 2.1 克隆索引仓库\n首先克隆该综述仓库，以便查阅最新的模型列表和论文链接：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fzli12321\u002FVision-Language-Models-Overview.git\ncd Vision-Language-Models-Overview\n```\n\n### 2.2 部署具体模型 (以 Qwen2.5-VL 为例)\n根据仓库中的 \"SoTA VLMs\" 列表，选择一个开源模型进行部署。此处以阿里通义千问团队的 **Qwen2.5-VL** 为例（国内访问速度快，文档完善）。\n\n**创建虚拟环境并安装依赖：**\n\n```bash\npython -m venv vlm-env\nsource vlm-env\u002Fbin\u002Factivate  # Windows 用户请使用: vlm-env\\Scripts\\activate\n\n# 推荐使用国内镜像源加速安装 (清华源)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install transformers accelerate sentencepiece protobuf tiktoken\npip install qwen-vl-utils  # Qwen 系列专用工具库\n```\n\n## 3. 基本使用\n\n以下是最简单的使用示例，展示如何加载 Qwen2.5-VL 模型并进行图像问答。\n\n### 3.1 代码示例\n\n创建一个名为 `demo.py` 的文件，写入以下内容：\n\n```python\nimport torch\nfrom transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor\nfrom qwen_vl_utils import process_vision_info\n\n# 1. 指定模型路径 (自动从 HuggingFace 下载，国内用户可配置镜像或使用 ModelScope)\nmodel_name = \"Qwen\u002FQwen2.5-VL-7B-Instruct\"\n\n# 2. 加载处理器和模型\nprocessor = AutoProcessor.from_pretrained(model_name)\nmodel = Qwen2_5_VLForConditionalGeneration.from_pretrained(\n    model_name,\n    torch_dtype=torch.bfloat16,\n    device_map=\"auto\"\n)\n\n# 3. 准备输入数据 (文本 + 图片 URL 或本地路径)\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002Fqwen-vl-assets\u002Fdemo.jpg\"},\n            {\"type\": \"text\", \"text\": \"请描述这张图片中的内容。\"}\n        ]\n    }\n]\n\n# 4. 处理输入\ntext = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)\nimage_inputs, video_inputs = process_vision_info(messages)\ninputs = processor(\n    text=[text],\n    images=image_inputs,\n    videos=video_inputs,\n    padding=True,\n    return_tensors=\"pt\"\n)\ninputs = inputs.to(\"cuda\")\n\n# 5. 生成回答\ngenerated_ids = model.generate(**inputs, max_new_tokens=256)\ngenerated_ids_trimmed = [\n    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)\n]\noutput_text = processor.batch_decode(\n    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False\n)[0]\n\nprint(output_text)\n```\n\n### 3.2 运行脚本\n\n```bash\npython demo.py\n```\n\n### 3.3 国内加速方案 (可选)\n如果从 HuggingFace 下载模型速度慢，建议使用 **ModelScope (魔搭社区)** 进行下载。\n\n1. 安装 ModelScope:\n   ```bash\n   pip install modelscope\n   ```\n2. 修改代码中的加载方式：\n   ```python\n   from modelscope import snapshot_download\n   \n   # 下载模型到本地\n   model_dir = snapshot_download('Qwen\u002FQwen2.5-VL-7B-Instruct')\n   \n   # 加载时指向本地路径\n   model = Qwen2_5_VLForConditionalGeneration.from_pretrained(model_dir, ...)\n   processor = AutoProcessor.from_pretrained(model_dir)\n   ```\n\n---\n**提示**: 请访问克隆后的 `Vision-Language-Models-Overview` 目录下的 README 文件或在线网站，查阅更多关于 **RL 对齐**、**具身智能应用** 及 **最新基准测试** 的详细论文链接。","某自动驾驶初创公司的算法团队正急需为新一代车载感知系统筛选最合适的视觉 - 语言模型（VLM），以解决复杂路况下的语义理解难题。\n\n### 没有 Vision-Language-Models-Overview 时\n- **信息搜集低效**：研究人员需在 arXiv、GitHub 和各类技术博客间反复跳转，耗时数周才能拼凑出零散的模型列表，极易遗漏最新发布的 SOTA 模型。\n- **选型依据模糊**：缺乏统一的基准测试（Benchmark）对比数据，难以判断哪些模型在“夜间驾驶”或“极端天气”等特定场景下表现更优，只能靠盲目试错。\n- **落地路径断裂**：找到模型后，往往找不到对应的微调（SFT\u002FRL Alignment）代码或嵌入式部署方案，导致从论文到实车部署的周期被无限拉长。\n- **风险预估不足**：忽略了对模型幻觉（Hallucination）和安全对齐（Safety）的系统性评估，可能在后期测试中才发现模型会将塑料袋误识别为石块，引发紧急制动。\n\n### 使用 Vision-Language-Models-Overview 后\n- **一站式全景视野**：团队直接利用其持续更新的 SOTA VLMs 清单，按时间线和架构类型快速锁定了近半年内最适合边缘计算设备的轻量级模型。\n- **数据驱动决策**：通过内置的评测数据集链接和对比指标，迅速量化了各模型在自动驾驶专用模拟器中的导航与操控能力，精准匹配业务需求。\n- **工程落地加速**：直接获取经过验证的微调（Post-training）代码库和对齐策略指南，将原本需要两个月的适配工作压缩至两周完成。\n- **安全防线前置**：参考关于幻觉和安全挑战的专项综述，提前引入了多模态对齐方案，有效降低了误识别率，确保了系统上线的可靠性。\n\nVision-Language-Models-Overview 将原本分散杂乱的科研碎片转化为结构化的工程导航图，帮助团队在激烈的技术迭代中实现了从“盲目追随”到“精准落地”的跨越。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzli12321_Vision-Language-Models-Overview_568e70b1.png","zli12321","LiKid","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzli12321_6b2737ab.jpg","PhD Student Cooking in Agent, Multimodal, LLM, RL.",null,"https:\u002F\u002Fzli12321.github.io","https:\u002F\u002Fgithub.com\u002Fzli12321",[84,88],{"name":85,"color":86,"percentage":87},"HTML","#e34c26",86.1,{"name":89,"color":90,"percentage":91},"Python","#3572A5",13.9,553,32,"2026-04-03T05:21:35",1,"","未说明",{"notes":99,"python":97,"dependencies":100},"该仓库是一个大型视觉语言模型（VLM）的论文、模型和基准测试的综述与集合列表，并非一个可直接运行的单一软件工具。README 中列出了众多不同模型（如 Qwen, LLaVA, InternVL 等），每个模型的具体运行环境需求（操作系统、GPU、内存、依赖库等）各不相同，需参考各自对应的官方仓库或论文。本仓库主要提供资源索引和分类，不包含统一的安装脚本或环境配置文件。",[],[62,36,27,16],[103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119],"blip2","claude","clip","deepseek","gemini-pro","gpt-4v","llama-vision-model","llava","multimodal-models","qwen-vl","reinforcement-learning","sota-model","vision-language-models","world-models","multimodal-benchmarks","vision-language-model-applications","finevision-pretrain-dataset","2026-03-27T02:49:30.150509","2026-04-07T09:48:32.805013",[],[]]