大型视觉语言模型的基准测试与评估、对齐、应用及挑战

一个汇集并综述视觉语言模型相关论文和模型的 GitHub 仓库。
以下我们整理了超赞的论文、模型以及 GitHub 仓库,内容涵盖:
- 最先进视觉语言模型:按时间顺序从最新到最旧排列的 VLM 列表(我们会持续更新新模型和基准测试)。
- 评估:VLM 的基准测试及其对应的工作链接。
- 后训练/对齐:最新的 VLM 对齐相关工作,包括强化学习、监督微调等。
- 应用:VLM 在具身 AI、机器人等领域中的应用。
- 汇集关于上述主题的综述、观点和数据集。
欢迎贡献和讨论!
🤩 标有 ⭐️ 的论文由本仓库的维护者提供。如果您觉得这些内容有用,非常感谢您为本仓库点个赞或引用我们的论文。
目录
0. 引用
@InProceedings{Li_2025_CVPR,
author = {Li, Zongxia and Wu, Xiyang and Du, Hongyang and Liu, Fuxiao and Nghiem, Huy and Shi, Guangyao},
title = {大型视觉语言模型现状综述:基准测试评估与挑战},
booktitle = {IEEE/CVF 计算机视觉与模式识别会议(CVPR)研讨会论文集},
month = {六月},
year = {2025},
pages = {1587-1606}
}
1. 📚 最先进的多模态大模型
| 模型 |
年份 |
架构 |
训练数据 |
参数量 |
视觉编码器/分词器 |
预训练主干模型 |
| GPT-5.4 / GPT-5.4 Thinking (OpenAI) |
2026年3月6日 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| Phi-4-Reasoning-Vision-15B (微软) |
2026年3月4日 |
解码器架构 |
精选合成数据 + 过滤数据 |
150亿 |
高分辨率动态分辨率ViT |
Phi-4 |
| Gemini 3.0 (谷歌) |
2026年3月 |
统一模型 |
未披露 |
未披露 |
未披露 |
未披露 |
| Qwen3.5 (阿里巴巴) |
2026年2月16日 |
统一VL(早期融合) |
数万亿多模态token |
8亿–397亿(MoE,170亿活跃) |
ViT(原生) |
Qwen3.5 |
| Claude Opus 4.6 (Anthropic) |
2026年2月 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| Erin 5.0 (百度) |
2026年2月5日 |
统一模型(视觉、文本、音频) |
统一模态数据集 |
- |
CNN–ViT(理解)/下一帧及尺度预测(生成) |
统一自回归Transformer |
| Molmo2 (Allen AI) |
2026年1月15日 |
解码器架构 |
7个新视频和2个多图像数据集(共919万视频) |
40亿/70亿/80亿 |
双向注意力ViT |
Qwen 3 / OLMo |
| Gemini 3 |
2025年11月18日 |
统一模型 |
未披露 |
- |
- |
- |
| Emu3.5 |
2025年10月30日 |
解码器架构 |
统一模态数据集 |
- |
SigLIP |
Qwen3 |
| DeepSeek-OCR |
2025年10月20日 |
编码器-解码器架构 |
70% OCR,20%通用视觉,10%纯文本 |
30亿 |
DeepEncoder |
DeepSeek-3B |
| Qwen3-VL |
2025年10月11日 |
解码器架构 |
- |
80亿/40亿 |
ViT |
Qwen3 |
| Qwen3-VL-MoE |
2025年9月25日 |
解码器架构 |
- |
2350亿-A220亿 |
ViT |
Qwen3 |
| Qwen3-Omni(视觉/音频/文本) |
2025年9月21日 |
- |
视频/音频/图片 |
300亿 |
ViT |
Qwen3-Omni-MoE-Thinker |
| LLaVA-Onevision-1.5 |
2025年9月15日 |
- |
中期训练-8500万 & SFT |
80亿 |
Qwen2VLImageProcessor |
Qwen3 |
| InternVL3.5 |
2025年8月25日 |
解码器架构 |
多模态及纯文本 |
300亿/380亿/2410亿 |
InternViT-3亿/60亿 |
Qwen3 / GPT-OSS |
| SkyWork-Unipic-1.5B |
2025年7月29日 |
- |
图像/视频.. |
- |
- |
- |
| Grok 4 |
2025年7月9日 |
- |
图像/视频.. |
1-2万亿 |
- |
- |
| Kwai Keye-VL (快手) |
2025年7月2日 |
解码器架构 |
图像/视频.. |
80亿 |
ViT |
QWen-3-8B |
| OmniGen2 |
2025年6月23日 |
解码器架构 & VAE |
LLaVA-OneVision/ SAM-LLaVA.. |
- |
ViT |
QWen-2.5-VL |
| Gemini-2.5-Pro |
2025年6月17日 |
- |
- |
- |
- |
- |
| GPT-o3/o4-mini |
2025年6月10日 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| Mimo-VL (小米) |
2025年6月4日 |
解码器架构 |
24万亿MLLM tokens |
70亿 |
[Qwen2.5-ViT |
Mimo-7B-base |
| BAGEL (字节跳动) |
2025年5月20日 |
统一模型 |
视频/图片/文本 |
70亿 |
SigLIP2-so400m/14](https://arxiv.org/abs/2502.14786) |
Qwen2.5 |
| BLIP3-o |
2025年5月14日 |
解码器架构 |
(BLIP3-o 6万) GPT-4o生成的图像生成数据 |
40亿/80亿 |
ViT |
QWen-2.5-VL |
| InternVL-3 |
2025年4月14日 |
解码器架构 |
2000亿tokens |
10亿/20亿/80亿/90亿/140亿/380亿/780亿 |
ViT-3亿/60亿 |
InterLM2.5/QWen2.5 |
| LLaMA4-Scout/Maverick |
2025年4月4日 |
解码器架构 |
40/20万亿tokens |
170亿 |
MetaClip |
LLaMA4 |
| Qwen2.5-Omni |
2025年3月26日 |
解码器架构 |
视频/音频/图片/文本 |
70亿 |
Qwen2-Audio/Qwen2.5-VL ViT |
端到端迷你-Omni |
| QWen2.5-VL |
2025年1月28日 |
解码器架构 |
图像描述、VQA、定位任务、长视频 |
30亿/70亿/720亿 |
重新设计的ViT |
Qwen2.5 |
| Ola |
2025年 |
解码器架构 |
图像/视频/音频/文本 |
70亿 |
OryxViT |
Qwen-2.5-7B, SigLIP-400M, Whisper-V3-Large, BEATs-AS2M(cpt2) |
| Ocean-OCR |
2025年 |
解码器架构 |
纯文本、标题、交错处理、OCR |
30亿 |
NaViT |
从头预训练 |
| SmolVLM |
2025年 |
解码器架构 |
SmolVLM-Instruct |
2.5亿 & 5亿 |
SigLIP |
SmolLM |
| DeepSeek-Janus-Pro |
2025年 |
解码器架构 |
未披露 |
70亿 |
SigLIP |
DeepSeek-Janus-Pro |
| Inst-IT |
2024年 |
解码器架构 |
Inst-IT数据集, LLaVA-NeXT-Data |
70亿 |
CLIP/Vicuna, SigLIP/Qwen2 |
LLaVA-NeXT |
| DeepSeek-VL2 |
2024年 |
解码器架构 |
WiT, WikiHow |
45亿 x 74 |
SigLIP/SAMB |
DeepSeekMoE |
| xGen-MM (BLIP-3) |
2024年 |
解码器架构 |
MINT-1T, OBELICS, Caption |
40亿 |
ViT + Perceiver Resampler |
Phi-3-mini |
| TransFusion |
2024年 |
编码器-解码器 |
未披露 |
70亿 |
VAE编码器 |
从头在变压器架构上预训练 |
| Baichuan Ocean Mini |
2024年 |
解码器架构 |
图像/视频/音频/文本 |
70亿 |
CLIP ViT-L/14 |
Baichuan |
| LLaMA 3.2-vision |
2024年 |
解码器架构 |
未披露 |
110亿-900亿 |
CLIP |
LLaMA-3.1 |
| Pixtral |
2024年 |
解码器架构 |
未披露 |
120亿 |
CLIP ViT-L/14 |
Mistral Large 2 |
| Qwen2-VL |
2024年 |
解码器架构 |
未披露 |
70亿-140亿 |
EVA-CLIP ViT-L |
Qwen-2 |
| NVLM |
2024年 |
编码器-解码器 |
LAION-115M |
80亿-240亿 |
自定义ViT |
Qwen-2-Instruct |
| Emu3 |
2024年 |
解码器架构 |
Aquila |
70亿 |
MoVQGAN |
LLaMA-2 |
| Claude 3 |
2024年 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| InternVL |
2023年 |
编码器-解码器 |
LAION-en, LAION- multi |
70亿/200亿 |
Eva CLIP ViT-g |
QLLaMA |
| InstructBLIP |
2023年 |
编码器-解码器 |
CoCo, VQAv2 |
130亿 |
ViT |
Flan-T5, Vicuna |
| CogVLM |
2023年 |
编码器-解码器 |
LAION-2B ,COYO-700M |
180亿 |
CLIP ViT-L/14 |
Vicuna |
| PaLM-E |
2023年 |
解码器架构 |
所有机器人, WebLI |
5620亿 |
ViT |
PaLM |
| LLaVA-1.5 |
2023年 |
解码器架构 |
COCO |
130亿 |
CLIP ViT-L/14 |
Vicuna |
| Gemini |
2023年 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| GPT-4V |
2023年 |
解码器架构 |
未披露 |
未披露 |
未披露 |
未披露 |
| BLIP-2 |
2023年 |
编码器-解码器 |
COCO, Visual Genome |
70亿-130亿 |
ViT-g |
开放预训练变压器 (OPT) |
| Flamingo |
2022年 |
解码器架构 |
M3W, ALIGN |
800亿 |
定制 |
Chinchilla |
| BLIP |
2022年 |
编码器-解码器 |
COCO, Visual Genome |
2230万-400万 |
ViT-B/L/g |
从头预训练 |
| CLIP |
2021年 |
编码器-解码器 |
400万图文配对 |
6300万-3550万 |
ViT/ResNet |
从头预训练 |
2. 🗂️ 基准与评估
2.1. 用于训练多模态视觉语言模型的数据集
2.2. 多模态视觉语言模型的数据集与评估
🧮 视觉数学 (+ 视觉数学推理)
💬 统一模型基准
| 数据集 |
任务 |
评估协议 |
标注者 |
规模 (K) |
代码 / 网站 |
| ROVER |
相互跨模态推理 |
视觉生成 + 语言生成评估 |
人工 |
1.3 (1,876张图片) |
论文 |
|
RealUnify |
数学、世界知识、图像生成 |
直接及分步评估(第3.3节) |
脚本与人工验证 |
1.0 |
| Uni-MMMU |
科学、代码、图像生成 |
DreamSim(图像生成评估)& 字符串匹配(理解评估) |
- |
1.0 |
仓库 |
🎞️ 视频理解
💬 多模态对话
🧠 多模态通用智能
🔎 视觉推理 / VQA (+ 多语言与 OCR)
📝 视觉文本 / 文档理解 (+ 图表)
🌄 文本到图像生成
🚨 幻觉检测 / 控制
2.3. 针对具身视觉语言模型的基准数据集、模拟器和生成模型
| 基准 |
领域 |
类型 |
项目 |
| Drive-Bench |
具身AI |
自动驾驶 |
官网 |
| Habitat, Habitat 2.0, Habitat 3.0 |
机器人学(导航) |
模拟器 + 数据集 |
官网 |
| Gibson |
机器人学(导航) |
模拟器 + 数据集 |
官网, GitHub仓库 |
| iGibson1.0, iGibson2.0 |
机器人学(导航) |
模拟器 + 数据集 |
官网, 文档 |
| Isaac Gym |
机器人学(导航) |
模拟器 |
官网, GitHub仓库 |
| Isaac Lab |
机器人学(导航) |
模拟器 |
官网, GitHub仓库 |
| AI2THOR |
机器人学(导航) |
模拟器 |
官网, GitHub仓库 |
| ProcTHOR |
机器人学(导航) |
模拟器 + 数据集 |
官网, GitHub仓库 |
| VirtualHome |
机器人学(导航) |
模拟器 |
官网, GitHub仓库 |
| ThreeDWorld |
机器人学(导航) |
模拟器 |
官网, GitHub仓库 |
| VIMA-Bench |
机器人学(操作) |
模拟器 |
官网, GitHub仓库 |
| VLMbench |
机器人学(操作) |
模拟器 |
GitHub仓库 |
| CALVIN |
机器人学(操作) |
模拟器 |
官网, GitHub仓库 |
| GemBench |
机器人学(操作) |
模拟器 |
官网, GitHub仓库 |
| WebArena |
网络智能体 |
模拟器 |
官网, GitHub仓库 |
| UniSim |
机器人学(操作) |
生成模型、世界模型 |
官网 |
| GAIA-1 |
机器人学(自动驾驶) |
生成模型、世界模型 |
官网 |
| LWM |
具身AI |
生成模型、世界模型 |
官网, GitHub仓库 |
| Genesis |
具身AI |
生成模型、世界模型 |
GitHub仓库 |
| EMMOE |
具身AI |
生成模型、世界模型 |
论文 |
| RoboGen |
具身AI |
生成模型、世界模型 |
官网 |
| UnrealZoo |
具身AI(追踪、导航、多智能体) |
模拟器 |
官网 |
3. ⚒️ 训练后调整
3.1. VLM的RL对齐
| 标题 |
年份 |
论文 |
RL |
代码 |
| wDPO:鲁棒对齐的Winsorized直接偏好优化 |
2026年3月 |
论文 |
wDPO |
- |
|
f-GRPO及更进一步:用于通用LLM对齐的基于散度的强化学习 |
2026年2月 |
论文 |
f-GRPO / f-HAL |
|
从视觉到洞察:通过强化学习提升MLLM的视觉推理能力 |
2026年1月 |
论文 |
GRPO(6种奖励函数) |
|
SaFeR-VLM:面向多模态推理的安全感知强化学习 |
2026年(ICLR) |
论文 |
GRPO + 安全奖励 |
|
SAIL-RL:通过双奖励强化学习调优引导MLLM何时以及如何思考 |
2025年11月 |
论文 |
双奖励(思考+判断) |
|
GIFT:基于群体相对的隐式微调将GRPO与DPO和UNA相结合 |
2025年10月 |
论文 |
GIFT(凸MSE损失) |
|
Game-RL:合成多模态可验证的游戏数据以提升VLM的通用推理能力 |
2025年10月12日 |
论文 |
GRPO |
| Vision-Zero:通过策略性游戏化自我博弈实现可扩展的VLM自我改进 |
2025年9月29日 |
论文 |
GRPO |
- |
| Vision-SR1:通过推理分解实现自奖励的视觉-语言模型 |
2025年8月26日 |
论文 |
GRPO |
- |
| 群体序列策略优化 |
2025年6月24日 |
论文 |
GSPO |
- |
| Visionary-R1:利用强化学习缓解视觉推理中的捷径问题 |
2025年5月20日 |
论文 |
GRPO |
- |
| VideoChat-R1:通过强化微调增强时空感知能力 |
2025年4月10日 |
论文 |
GRPO |
代码 |
| OpenVLThinker:通过迭代式自我改进探索复杂视觉-语言推理的早期尝试 |
2025年3月21日 |
论文 |
GRPO |
代码 |
| 使用课程强化学习提升视觉语言模型的泛化能力和推理能力 |
2025年3月10日 |
论文 |
GRPO |
代码 |
| OmniAlign-V:迈向与人类偏好更加一致的MLLM |
2025年 |
论文 |
DPO |
代码 |
| 多模态Open R1/R1-多模态之旅 |
2025年 |
- |
GRPO |
代码 |
| R1-VL:通过分步群体相对策略优化学习使用多模态大语言模型进行推理 |
2025年 |
论文 |
GRPO |
代码 |
| Agent-R1:使用端到端强化学习训练强大的LLM智能体 |
2025年 |
- |
PPO/REINFORCE++/GRPO |
代码 |
| MM-Eureka:利用基于规则的大规模强化学习探索视觉顿悟时刻 |
2025年 |
论文 |
REINFORCE留一法(RLOO) |
代码 |
| MM-RLHF:多模态LLM对齐的下一步进展 |
2025年 |
论文 |
DPO |
代码 |
| LMM-R1:通过两阶段基于规则的RL赋予3B LMM强大的推理能力 |
2025年 |
论文 |
PPO |
代码 |
| Vision-R1:激励多模态大语言模型的推理能力 |
2025年 |
论文 |
GRPO |
代码 |
| 面向多模态理解和生成的统一奖励模型 |
2025年 |
论文 |
DPO |
代码 |
| 我们能用CoT生成图像吗?让我们逐步验证并强化图像生成过程 |
2025年 |
论文 |
DPO |
代码 |
| 条条大路通似然:强化学习在微调中的价值 |
2025年 |
论文 |
在线RL |
- |
| Video-R1:强化MLLM中的视频推理能力 |
2025年 |
论文 |
GRPO |
代码 |
3.2. 视觉-语言模型的微调
| 标题 |
年份 |
论文 |
网站 |
代码 |
| MERGETUNE:视觉-语言模型的持续微调 |
2026/01(ICLR 2026) |
论文 |
- |
- |
|
掩码微调(MFT):解锁视觉-语言模型中的隐藏能力 |
2025/12 |
论文 |
- |
|
Image-LoRA:迈向视觉-语言模型的极简微调 |
2025/12 |
论文 |
- |
|
重新评估监督微调的作用:视觉-语言模型推理中的实证研究 |
2025/12 |
论文 |
- |
|
Eagle 2.5:提升前沿视觉-语言模型的长上下文后训练 |
2025/04/21 |
论文 |
网站 |
| OMNICAPTIONER:一个字幕生成器统御一切 |
2025/04/09 |
论文 |
网站 |
代码 |
| Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 |
2024 |
论文 |
网站 |
代码 |
| LLaVolta:基于分阶段视觉上下文压缩的高效多模态模型 |
2024 |
论文 |
网站 |
代码 |
| ViTamin:在视觉-语言时代设计可扩展的视觉模型 |
2024 |
论文 |
网站 |
代码 |
| Espresso:为您的视觉-语言模型从视频中进行高密度提取提供高压缩比 |
2024 |
论文 |
- |
- |
| 视觉-语言模型是否应该使用图像数据进行预训练? |
2025 |
论文 |
- |
- |
| VisionArena:包含偏好标签的23万条真实世界用户与视觉-语言模型对话 |
2024 |
论文 |
- |
代码 |
3.3. VLM对齐GitHub项目
3.4. 提示优化
| 标题 |
年份 |
论文 |
网站 |
代码 |
| EvoPrompt:面向视觉-语言模型的进化式提示适配 |
2026/03 |
论文 |
- |
- |
|
MMLoP:用于高效视觉-语言模型适配的多模态低秩提示 |
2026/02 |
论文 |
- |
|
多模态提示优化器(MPO):多模态提示的联合优化 |
2025/10 |
论文 |
- |
|
进化式提示优化发现涌现的多模态推理策略 |
2025/03 |
论文 |
- |
|
In-ContextEdit:利用大规模扩散Transformer中的上下文生成实现指令式图像编辑 |
2025/04/30 |
论文 |
网站 |
4. ⚒️ 应用
4.1 具身视觉-语言模型智能体
| 标题 |
年份 |
论文链接 |
| 将网络空间与物理世界对齐:具身AI综合综述 |
2024 |
论文 |
| ScreenAI:用于UI和信息图表理解的视觉-语言模型 |
2024 |
论文 |
| ChartLlama:用于图表理解和生成的多模态大模型 |
2023 |
论文 |
| SciDoc2Diagrammer-MAF:基于多方面反馈精炼,实现从文档生成科学图表 |
2024 |
📄 论文 |
| 训练视觉-语言模型作为智能手机助手 |
2024 |
论文 |
| ScreenAgent:由视觉-语言模型驱动的计算机控制智能体 |
2024 |
论文 |
| 基于环境反馈的具身视觉-语言程序员 |
2024 |
论文 |
| 视觉-语言模型玩《星际争霸II》:基准测试与多模态决策方法 |
2025 |
📄 论文 |
| MP-GUI:利用多模态大模型进行GUI理解的模态感知 |
2025 |
📄 论文 |
4.2. 生成式视觉媒体应用
| 标题 |
年份 |
论文 |
网站 |
代码 |
| GPT4Motion:通过面向Blender的GPT规划,在文本到视频生成中编写物理动作 |
2023 |
📄 论文 |
🌍 网站 |
💾 代码 |
| 多模态大模型中的虚假相关性 |
2025 |
📄 论文 |
- |
- |
| WeGen:作为微信般的交互式多模态生成统一模型 |
2025 |
📄 论文 |
- |
💾 代码 |
| VideoMind:用于长视频推理的LoRA链式智能体 |
2025 |
📄 论文 |
🌍 网站 |
💾 代码 |
4.3. 机器人学与具身人工智能
| 标题 |
年份 |
论文 |
官网 |
代码 |
| AHA:用于检测和推理机器人操作中故障的视觉-语言模型 |
2024 |
📄 论文 |
🌍 官网 |
- |
| SpatialVLM:赋予视觉-语言模型空间推理能力 |
2024 |
📄 论文 |
🌍 官网 |
- |
| 基于视觉-语言模型的场景理解与机器人物体操作 |
2024 |
📄 论文 |
- |
- |
| 利用视觉语言模型指导长 horizon 任务与运动规划 |
2024 |
📄 论文 |
🌍 官网 |
- |
| AutoTAMP:以 LLM 作为翻译器和校验器的自回归式任务与运动规划 |
2023 |
📄 论文 |
🌍 官网 |
- |
| VLM 看,机器人做:通过视觉语言模型将人类演示视频转化为机器人行动计划 |
2024 |
📄 论文 |
- |
- |
| 基于大型语言模型的可扩展多机器人协作:集中式还是分布式系统? |
2023 |
📄 论文 |
🌍 官网 |
- |
| DART-LLM:利用大型语言模型进行依赖感知的多机器人任务分解与执行 |
2024 |
📄 论文 |
🌍 官网 |
- |
| MotionGPT:人类运动是一门外语 |
2023 |
📄 论文 |
- |
💾 代码 |
| 利用大型语言模型通过自我对齐学习机器人技能奖励 |
2024 |
📄 论文 |
- |
- |
| 语言到奖励:用于机器人技能合成 |
2023 |
📄 论文 |
🌍 官网 |
- |
| Eureka:通过编码大型语言模型实现人类水平的奖励设计 |
2023 |
📄 论文 |
🌍 官网 |
- |
| 集成式任务与运动规划 |
2020 |
📄 论文 |
- |
- |
| 攻破 LLM 控制的机器人 |
2024 |
📄 论文 |
🌍 官网 |
- |
| 机器人演绎有害刻板印象 |
2022 |
📄 论文 |
🌍 官网 |
- |
| LLM 驱动的机器人存在演绎歧视、暴力及非法行为的风险 |
2024 |
📄 论文 |
- |
- |
| 强调在机器人领域部署 LLM/VLM 的安全问题 |
2024 |
📄 论文 |
🌍 官网 |
- |
| EmbodiedBench:面向视觉驱动具身智能体的多模态大型语言模型综合基准测试 |
2025 |
📄 论文 |
🌍 官网 |
💾 代码与数据集 |
| Gemini Robotics:将 AI 带入物理世界 |
2025 |
📄 技术报告 |
🌍 官网 |
- |
| GR-2:具有网络规模知识的生成式视频-语言-动作模型,用于机器人操作 |
2024 |
📄 论文 |
🌍 官网 |
- |
| Magma:多模态 AI 智能体的基础模型 |
2025 |
📄 论文 |
🌍 官网 |
💾 代码 |
| DayDreamer:用于物理机器人学习的世界模型 |
2022 |
📄 论文 |
🌍 官网 |
💾 代码 |
| Hi Robot:基于分层视觉-语言-动作模型的开放式指令遵循 |
2025 |
📄 论文 |
- |
- |
| RL-VLM-F:基于视觉语言基础模型反馈的强化学习 |
2024 |
📄 论文 |
🌍 官网 |
💾 代码 |
| KALIE:无需机器人数据即可对视觉-语言模型进行微调,以适应开放世界操作 |
2024 |
📄 论文 |
🌍 官网 |
💾 代码 |
| 统一视频动作模型 |
2025 |
📄 论文 |
🌍 官网 |
💾 代码 |
| HybridVLA:统一视觉-语言-动作模型中的协同扩散与自回归 |
2025 |
📄 论文 |
🌍 官网 |
💾 代码 |
|
DAM-VLA:基于动态动作模型的视觉-语言-动作框架,用于机器人操作 |
2026年3月 |
📄 论文 |
- |
|
NS-VLA:迈向神经符号型视觉-语言-动作模型 |
2026年3月 |
📄 论文 |
- |
|
用于具身推理与层级控制的可导向视觉-语言-动作策略 |
2026年2月 |
📄 论文 |
- |
|
ST4VLA:面向视觉-语言-动作模型的空间引导训练 |
2026年2月 |
📄 论文 |
- |
4.3.1. 操作
| 标题 |
年份 |
论文 |
网站 |
代码 |
| VIMA:基于多模态提示的通用机器人操作 |
2022 |
📄 论文 |
🌍 网站 |
|
| Instruct2Act:利用大型语言模型将多模态指令映射为机器人动作 |
2023 |
📄 论文 |
- |
- |
| 基于大型语言模型的创意机器人工具使用 |
2023 |
📄 论文 |
🌍 网站 |
- |
| RoboVQA:面向机器人技术的多模态长 horizon 推理 |
2024 |
📄 论文 |
- |
- |
| RT-1:用于大规模真实世界控制的机器人 Transformer |
2022 |
📄 论文 |
🌍 网站 |
- |
| RT-2:视觉-语言-动作模型将网络知识迁移到机器人控制中 |
2023 |
📄 论文 |
🌍 网站 |
- |
| Open X-Embodiment:机器人学习数据集和 RT-X 模型 |
2023 |
📄 论文 |
🌍 网站 |
- |
| ExploRLLM:利用大型语言模型引导强化学习中的探索 |
2024 |
📄 论文 |
🌍 网站 |
- |
| AnyTouch:跨多种视觉-触觉传感器学习统一的静态-动态表征 |
2025 |
📄 论文 |
🌍 网站 |
💾 代码 |
| 面向视觉控制的掩码世界模型 |
2022 |
📄 论文 |
🌍 网站 |
💾 代码 |
| 用于视觉机器人操作的多视角掩码世界模型 |
2023 |
📄 论文 |
🌍 网站 |
💾 代码 |
4.3.2. 导航
| 标题 |
年份 |
论文 |
网站 |
代码 |
| ZSON:使用多模态目标嵌入的零样本目标导向导航 |
2022 |
📄 论文 |
- |
- |
| LOC-ZSON:语言驱动的以物体为中心的零样本物体检索与导航 |
2024 |
📄 论文 |
- |
- |
| LM-Nav:结合语言、视觉和行动的大型预训练模型的机器人导航 |
2022 |
📄 论文 |
🌍 网站 |
- |
| NaVILA:用于导航的腿式机器人视觉-语言-动作模型 |
2022 |
📄 论文 |
🌍 网站 |
- |
| VLFM:用于零样本语义导航的视觉-语言前沿地图 |
2024 |
📄 论文 |
- |
- |
| 利用大型语言模型进行导航:语义猜测作为规划的启发式方法 |
2023 |
📄 论文 |
🌍 网站 |
- |
| Vi-LAD:用于动态环境中具有社会意识的机器人导航的视觉-语言注意力蒸馏 |
2025 |
📄 论文 |
- |
- |
| 导航世界模型 |
2024 |
📄 论文 |
🌍 网站 |
- |
4.3.3. 人机交互
| 标题 |
年份 |
论文 |
网站 |
代码 |
| MUTEX:从多模态任务规范中学习统一策略 |
2023 |
📄 论文 |
🌍 网站 |
- |
| LaMI:用于多模态人机交互的大型语言模型 |
2024 |
📄 论文 |
🌍 网站 |
- |
| VLM-Social-Nav:通过视觉-语言模型评分实现的社会感知机器人导航 |
2024 |
📄 论文 |
- |
- |
4.3.4. 自动驾驶
| 标题 |
年份 |
论文 |
网站 |
代码 |
| AutoMoT: 一种用于端到端自动驾驶的异步混合Transformer统一视觉-语言-动作模型 |
2026年3月 |
📄 论文 |
- |
- |
|
DriveVLM-RL: 基于视觉-语言模型的受神经科学启发的安全自动驾驶强化学习 |
2026年3月 |
📄 论文 |
- |
|
HiST-VLA: 一种用于端到端自动驾驶的分层时空视觉-语言-动作模型 |
2026年2月 |
📄 论文 |
- |
|
OpenDriveVLA: 基于大型视觉语言动作模型的端到端自动驾驶探索 |
2025年3月 |
📄 论文 |
- |
|
视觉语言模型已准备好用于自动驾驶吗?从可靠性、数据和指标角度的实证研究 |
2025年1月7日 |
📄 论文 |
🌍 网站 |
| DriveVLM: 自动驾驶与大型视觉-语言模型的融合 |
2024年 |
📄 论文 |
🌍 网站 |
- |
| GPT-Driver: 使用GPT学习驾驶 |
2023年 |
📄 论文 |
- |
- |
| LanguageMPC: 将大型语言模型用作自动驾驶决策者 |
2023年 |
📄 论文 |
🌍 网站 |
- |
| 使用LLM驾驶:融合目标级向量模态实现可解释的自动驾驶 |
2023年 |
📄 论文 |
- |
- |
| 指代式多目标跟踪 |
2023年 |
📄 论文 |
- |
💾 代码 |
| VLPD: 基于视觉-语言语义自监督的上下文感知行人检测 |
2023年 |
📄 论文 |
- |
💾 代码 |
| MotionLM: 将多智能体运动预测视为语言建模 |
2023年 |
📄 论文 |
- |
- |
| DiLu: 基于知识驱动的大型语言模型自动驾驶方法 |
2023年 |
📄 论文 |
🌍 网站 |
- |
| VLP: 用于自动驾驶的视觉语言规划 |
2024年 |
📄 论文 |
- |
- |
| DriveGPT4: 基于大型语言模型的可解释端到端自动驾驶 |
2023年 |
📄 论文 |
- |
- |
4.4. 以人为中心的人工智能
| 标题 |
年份 |
论文 |
网站 |
代码 |
| DLF:解耦语言聚焦的多模态情感分析 |
2024 |
📄 论文 |
- |
💾 代码 |
| LIT:大型语言模型驱动的意图追踪用于主动的人机协作——机器人副厨师应用 |
2024 |
📄 论文 |
- |
- |
| 预训练语言模型作为人类辅助的视觉规划器 |
2023 |
📄 论文 |
- |
- |
| 在科学中促进人工智能公平性:面向可访问的VLM研究的广义领域提示学习 |
2024 |
📄 论文 |
- |
- |
| 使用GPT-4V在网状化学中进行图像和数据挖掘 |
2023 |
📄 论文 |
- |
- |
4.4.1. 网络智能体
| 标题 |
年份 |
论文 |
网站 |
代码 |
| 具有规划、长上下文理解与程序合成的真实世界网络智能体 |
2023 |
📄 论文 |
- |
- |
| CogAgent:用于GUI智能体的视觉语言模型 |
2023 |
📄 论文 |
- |
💾 代码 |
| WebVoyager:使用大型多模态模型构建端到端的网络智能体 |
2024 |
📄 论文 |
- |
💾 代码 |
| ShowUI:一个用于GUI视觉智能体的视觉-语言-行动模型 |
2024 |
📄 论文 |
- |
💾 代码 |
| ScreenAgent:一个由视觉语言模型驱动的计算机控制智能体 |
2024 |
📄 论文 |
- |
💾 代码 |
| 带有世界模型的网络智能体:在网络导航中学习并利用环境动态 |
2024 |
📄 论文 |
- |
💾 代码 |
|
MolmoWeb:一个用于自动化网络任务的开放智能体 |
03/2026 |
📄 博客 |
🌍 网站 |
4.4.2. 无障碍
| 标题 |
年份 |
论文 |
网站 |
代码 |
| X-World:无障碍、视觉与自主性的交汇 |
2021 |
📄 论文 |
- |
- |
| 面向网页无障碍的上下文感知图像描述 |
2024 |
📄 论文 |
- |
- |
| 通过使用多模态大型语言模型自动进行360度场景描述来提升VR的可访问性 |
2024 |
📄 论文 |
- |
- |
4.4.3. 医疗健康
| 标题 |
年份 |
论文 |
网站 |
代码 |
| CARE:基于证据的代理框架,实现多模态医学推理中的临床问责制 |
03/2026 |
📄 论文 |
- |
- |
|
MedMO:用于医学图像的多模态大型语言模型的基础与理解 |
02/2026 |
📄 论文 |
- |
|
Colon-X:从多模态理解到临床推理,推动智能结肠镜检查的发展 |
12/2025 |
📄 论文 |
- |
| 智能结肠镜检查的前沿 |
02/2025 |
📄 论文 |
- |
💾 代码 |
| VisionUnite:一种结合临床知识的眼科视觉-语言基础模型 |
2024 |
📄 论文 |
- |
💾 代码 |
| 多模态医疗AI:识别并设计针对放射学的具有临床相关性的视觉-语言应用 |
2024 |
📄 论文 |
- |
- |
| M-FLAG:使用冻结语言模型和潜在空间几何优化进行医学视觉-语言预训练 |
2023 |
📄 论文 |
- |
- |
| MedCLIP:来自未配对的医学图像和文本的对比学习 |
2022 |
📄 论文 |
- |
💾 代码 |
| Med-Flamingo:一种多模态医学少样本学习模型 |
2023 |
📄 论文 |
- |
💾 代码 |
4.4.4. 社会公益
| 标题 |
年份 |
论文 |
网站 |
代码 |
| 分析K-12人工智能教育:大型语言模型对课堂讲授关于学习理论、教学法、工具及人工智能素养的研究 |
2024 |
📄 论文 |
- |
- |
| 学生而非专家:一条新的教育人工智能流水线,以模拟更人性化和个性化的青春期早期 |
2024 |
📄 论文 |
- |
- |
| 在农业中利用大型视觉和语言模型:综述 |
2024 |
📄 论文 |
- |
- |
| 用于预测大豆复种潜在分布区域的视觉-语言模型 |
2024 |
📄 论文 |
- |
- |
| 视觉-语言模型并非你所需要的全部:分子语言模型的增强策略 |
2024 |
📄 论文 |
- |
💾 代码 |
| DrawEduMath:用专家标注的学生手绘数学图像评估视觉语言模型 |
2024 |
📄 论文 |
- |
- |
| MultiMath:为大型语言模型架起视觉与数学推理之间的桥梁 |
2024 |
📄 论文 |
- |
💾 代码 |
| 视觉-语言模型与气象学相遇:开发用于极端天气事件检测的热力图模型 |
2024 |
📄 论文 |
- |
💾 代码 |
| 他非常聪明,她非常美丽?关于减轻语言建模与生成中的社会偏见 |
2021 |
📄 论文 |
- |
- |
| UrbanVLP:用于城市区域画像的多粒度视觉-语言预训练 |
2024 |
📄 论文 |
- |
- |
5. 挑战
5.1 幻觉
| 标题 |
年份 |
论文 |
网站 |
代码 |
| HALP:无需生成任何标记即可检测视觉-语言模型中的幻觉 |
2026年3月 |
📄 论文 |
🌍 ACL |
- |
|
语调很重要:语言语调对视觉-语言模型中幻觉的影响 |
2026年1月 |
📄 论文 |
- |
|
图像字幕中的对象幻觉 |
2018年 |
📄 论文 |
- |
| 大型视觉-语言模型中对象幻觉的评估 |
2023年 |
📄 论文 |
- |
💾 代码 |
| 检测与预防大型视觉语言模型中的幻觉 |
2023年 |
📄 论文 |
- |
- |
| HallE-Control:控制大型多模态模型中的对象幻觉 |
2023年 |
📄 论文 |
- |
💾 代码 |
| Hallu-PI:在扰动输入下评估多模态大型语言模型中的幻觉 |
2024年 |
📄 论文 |
- |
💾 代码 |
| BEAF:通过观察前后变化来评估视觉-语言模型中的幻觉 |
2024年 |
📄 论文 |
🌍 网站 |
- |
| HallusionBench:用于复杂语言幻觉和视觉错觉的大规模视觉-语言模型诊断套件 |
2023年 |
📄 论文 |
- |
💾 代码 |
| AUTOHALLUSION:为视觉-语言模型自动生成幻觉基准测试 |
2024年 |
📄 论文 |
🌍 网站 |
- |
| 通过稳健的指令微调缓解大型多模态模型中的幻觉 |
2023年 |
📄 论文 |
- |
💾 代码 |
| Hal-Eval:大型视觉语言模型的通用且细粒度的幻觉评估框架 |
2024年 |
📄 论文 |
- |
💾 代码 |
| AMBER:无大语言模型的多维度基准,用于评估多模态大型语言模型的幻觉 |
2023年 |
📄 论文 |
- |
💾 代码 |
5.2 安全性
| 标题 |
年份 |
论文 |
网站 |
代码 |
| SaFeR-VLM:通过强化学习将安全性融入多模态推理 |
2026年(ICLR) |
📄 论文 |
- |
- |
|
HoliSafe:视觉-语言模型的整体安全评估 |
2026年(ICLR) |
📄 论文 |
- |
|
越狱动物园:大型语言和视觉-语言模型越狱的综述、现状与展望 |
2024年 |
📄 论文 |
🌍 网站 |
| Safe-VLN:面向连续环境中运行的自主机器人的视觉-语言导航避障 |
2023年 |
📄 论文 |
- |
- |
| SafeBench:多模态大型语言模型的安全评估框架 |
2024年 |
📄 论文 |
- |
- |
| JailBreakV:评估多模态大型语言模型抵御越狱攻击鲁棒性的基准 |
2024年 |
📄 论文 |
- |
- |
| SHIELD:利用多模态大型语言模型进行人脸欺骗与伪造检测的评估基准 |
2024年 |
📄 论文 |
- |
💾 代码 |
| 图像是对齐的阿喀琉斯之踵:利用视觉漏洞越狱多模态大型语言模型 |
2024年 |
📄 论文 |
- |
- |
| 针对多模态大型语言模型的越狱攻击 |
2024年 |
📄 论文 |
- |
- |
|
用于审计机器人基础模型的身体化红队 |
2025年 |
📄 论文 |
🌍 网站 |
| 基于大语言模型的机器人的安全护栏 |
2025年 |
📄 论文 |
- |
- |
5.3 公平性
| 标题 |
年份 |
论文 |
网站 |
代码 |
| 多模态大语言模型的幻觉:综述 |
2024 |
📄 论文 |
- |
- |
| 大语言模型中的偏见与公平性:综述 |
2023 |
📄 论文 |
- |
- |
| 多模态人工智能中的公平性与偏见:综述 |
2024 |
📄 论文 |
- |
- |
| 多模态偏见:在视觉—语言模型中引入超越性别和种族的刻板偏见评估框架 |
2023 |
📄 论文 |
- |
- |
| FMBench:在医疗任务上对多模态大语言模型进行公平性基准测试 |
2024 |
📄 论文 |
- |
- |
| FairCLIP:在视觉—语言学习中利用公平性 |
2024 |
📄 论文 |
- |
- |
| FairMedFM:面向医学影像基础模型的公平性基准测试 |
2024 |
📄 论文 |
- |
- |
| 面向文化理解的视觉语言模型基准测试 |
2024 |
📄 论文 |
- |
- |
5.4 对齐
5.4.1 多模态对齐
| 标题 |
年份 |
论文 |
网站 |
代码 |
| 使用指令对比解码缓解大型视觉—语言模型中的幻觉 |
2024 |
📄 论文 |
- |
- |
| 通过自我改进提升大型视觉语言模型中的视觉—语言模态对齐 |
2024 |
📄 论文 |
- |
- |
| 单模态视觉和语言模型的对齐评估与学习 |
2024 |
📄 论文 |
🌍 网站 |
- |
| 扩展多模态对比表示 |
2023 |
📄 论文 |
- |
💾 代码 |
| OneLLM:一个框架,用于将所有模态与语言对齐 |
2023 |
📄 论文 |
- |
💾 代码 |
| “你所见即你所读”?改进文本—图像对齐评估 |
2023 |
📄 论文 |
🌍 网站 |
💾 代码 |
| Critic-V:VLM批评家有助于捕捉多模态推理中的VLM错误 |
2024 |
📄 论文 |
🌍 网站 |
💾 代码 |
5.4.2 常识与物理对齐
5.5 高效训练与微调
| 标题 |
年份 |
论文 |
网站 |
代码 |
| LoRA-Squeeze:简单有效的LoRA模块后训练与在线训练压缩 |
2026年2月 |
📄 论文 |
- |
- |
|
GRACE:基于置信度蒸馏的门控关系对齐,用于高效视觉语言模型 |
2026年1月 |
📄 论文 |
- |
|
VLMQ:大型视觉语言模型的后训练量化 |
2026年(ICLR) |
📄 论文 |
- |
|
VILA:关于视觉语言模型的预训练 |
2023年 |
📄 论文 |
- |
| SimVLM:弱监督下的简单视觉语言模型预训练 |
2021年 |
📄 论文 |
- |
- |
| LoRA:大型语言模型的低秩适应 |
2021年 |
📄 论文 |
- |
💾 代码 |
| QLoRA:量化大语言模型的高效微调 |
2023年 |
📄 论文 |
- |
- |
| 使用人类反馈强化学习训练有益且无害的助手 |
2022年 |
📄 论文 |
- |
💾 代码 |
| RLAIF vs. RLHF:利用AI反馈扩展人类反馈强化学习 |
2023年 |
📄 论文 |
- |
- |
5.6 高质量数据集稀缺
| 标题 |
年份 |
论文 |
网站 |
代码 |
| 视觉语言模型与合成数据桥梁研究综述 |
2025年 |
📄 论文 |
- |
💾 代码 |
| Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 |
2024年 |
📄 论文 |
网站 |
💾 代码 |
| SLIP:自监督学习与语言-图像预训练的结合 |
2021年 |
📄 论文 |
- |
💾 代码 |
| 合成视觉:训练视觉语言模型以理解物理规律 |
2024年 |
📄 论文 |
- |
- |
| Synth2:利用合成字幕和图像嵌入提升视觉语言模型性能 |
2024年 |
📄 论文 |
- |
- |
| KALIE:无需机器人数据即可微调视觉语言模型以应对开放世界操作任务 |
2024年 |
📄 论文 |
- |
- |
| 具有世界模型的网络智能体:在网页导航中学习并利用环境动态 |
2024年 |
📄 论文 |
- |
- |
Vision-Language-Models-Overview 快速上手指南
Vision-Language-Models-Overview 并非一个可直接安装运行的单一软件包或模型,而是一个前沿视觉 - 语言模型(VLM)的论文、模型仓库及基准测试的综合索引库。它旨在为开发者和研究人员提供最新的 SOTA 模型列表、数据集、对齐技术及应用场景的导航。
本指南将指导你如何利用该资源查找模型,并以列表中热门的 Qwen2.5-VL 为例,演示如何快速部署和使用一个典型的开源 VLM。
1. 环境准备
由于该仓库主要指向基于 PyTorch 和 Transformers 的大型模型,你需要准备以下环境:
- 操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS (M 系列芯片需特别注意显存/内存限制)。
- 硬件要求:
- GPU: 建议 NVIDIA GPU,显存至少 16GB (运行 7B 参数模型),推荐 24GB+ (运行更大模型或高并发)。
- CPU: 多核处理器,用于数据预处理。
- 内存: 32GB RAM 以上。
- 前置依赖:
- Python 3.10 或更高版本
- CUDA 12.1+ (如需 GPU 加速)
- Git
2. 安装步骤
2.1 克隆索引仓库
首先克隆该综述仓库,以便查阅最新的模型列表和论文链接:
git clone https://github.com/zli12321/Vision-Language-Models-Overview.git
cd Vision-Language-Models-Overview
2.2 部署具体模型 (以 Qwen2.5-VL 为例)
根据仓库中的 "SoTA VLMs" 列表,选择一个开源模型进行部署。此处以阿里通义千问团队的 Qwen2.5-VL 为例(国内访问速度快,文档完善)。
创建虚拟环境并安装依赖:
python -m venv vlm-env
source vlm-env/bin/activate # Windows 用户请使用: vlm-env\Scripts\activate
# 推荐使用国内镜像源加速安装 (清华源)
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install transformers accelerate sentencepiece protobuf tiktoken
pip install qwen-vl-utils # Qwen 系列专用工具库
3. 基本使用
以下是最简单的使用示例,展示如何加载 Qwen2.5-VL 模型并进行图像问答。
3.1 代码示例
创建一个名为 demo.py 的文件,写入以下内容:
import torch
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
# 1. 指定模型路径 (自动从 HuggingFace 下载,国内用户可配置镜像或使用 ModelScope)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
# 2. 加载处理器和模型
processor = AutoProcessor.from_pretrained(model_name)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 3. 准备输入数据 (文本 + 图片 URL 或本地路径)
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/qwen-vl-assets/demo.jpg"},
{"type": "text", "text": "请描述这张图片中的内容。"}
]
}
]
# 4. 处理输入
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt"
)
inputs = inputs.to("cuda")
# 5. 生成回答
generated_ids = model.generate(**inputs, max_new_tokens=256)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)
3.2 运行脚本
python demo.py
3.3 国内加速方案 (可选)
如果从 HuggingFace 下载模型速度慢,建议使用 ModelScope (魔搭社区) 进行下载。
- 安装 ModelScope:
pip install modelscope
- 修改代码中的加载方式:
from modelscope import snapshot_download
# 下载模型到本地
model_dir = snapshot_download('Qwen/Qwen2.5-VL-7B-Instruct')
# 加载时指向本地路径
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(model_dir, ...)
processor = AutoProcessor.from_pretrained(model_dir)
提示: 请访问克隆后的 Vision-Language-Models-Overview 目录下的 README 文件或在线网站,查阅更多关于 RL 对齐、具身智能应用 及 最新基准测试 的详细论文链接。