Vision-Language-Models-Overview

553 32 非常简单 1 次阅读 4天前其他插件语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

Vision-Language-Models-Overview 是一个专注于视觉 - 语言模型（VLM）领域的开源知识库与前沿综述平台。它系统性地整理了从最新到早期的各类 VLM 论文、模型代码及 GitHub 仓库，旨在解决该领域技术迭代极快、信息分散且难以追踪的痛点，为研究者提供一站式的资源导航。

该项目不仅汇集了状态-of-the-art（SOTA）的模型列表，还深度覆盖了基准测试与评估方法、后训练与对齐技术（如强化学习 RL 和 supervised fine-tuning SFT）、以及具身智能、机器人控制、自动驾驶和医疗等实际应用场景。此外，它还专门探讨了当前 VLM 面临的核心挑战，包括幻觉问题、安全性、公平性及高效训练策略等。

其独特的技术亮点在于持续更新的动态机制和对“多模态对齐”、“提示工程”等细分方向的深度分类，甚至包含了维护团队精选的高质量论文标记。无论是希望快速掌握行业动态的 AI 研究人员、需要寻找基线模型与数据集的开发者，还是关注多模态技术落地的工程师，都能从中获得极具价值的参考。通过结构化的目录与丰富的外链资源，Vision-Language-Models-Overview 成为了连接理论研究与工程实践的重要桥梁。

使用场景

某自动驾驶初创公司的算法团队正急需为新一代车载感知系统筛选最合适的视觉 - 语言模型（VLM），以解决复杂路况下的语义理解难题。

没有 Vision-Language-Models-Overview 时

信息搜集低效：研究人员需在 arXiv、GitHub 和各类技术博客间反复跳转，耗时数周才能拼凑出零散的模型列表，极易遗漏最新发布的 SOTA 模型。
选型依据模糊：缺乏统一的基准测试（Benchmark）对比数据，难以判断哪些模型在“夜间驾驶”或“极端天气”等特定场景下表现更优，只能靠盲目试错。
落地路径断裂：找到模型后，往往找不到对应的微调（SFT/RL Alignment）代码或嵌入式部署方案，导致从论文到实车部署的周期被无限拉长。
风险预估不足：忽略了对模型幻觉（Hallucination）和安全对齐（Safety）的系统性评估，可能在后期测试中才发现模型会将塑料袋误识别为石块，引发紧急制动。

使用 Vision-Language-Models-Overview 后

一站式全景视野：团队直接利用其持续更新的 SOTA VLMs 清单，按时间线和架构类型快速锁定了近半年内最适合边缘计算设备的轻量级模型。
数据驱动决策：通过内置的评测数据集链接和对比指标，迅速量化了各模型在自动驾驶专用模拟器中的导航与操控能力，精准匹配业务需求。
工程落地加速：直接获取经过验证的微调（Post-training）代码库和对齐策略指南，将原本需要两个月的适配工作压缩至两周完成。
安全防线前置：参考关于幻觉和安全挑战的专项综述，提前引入了多模态对齐方案，有效降低了误识别率，确保了系统上线的可靠性。

Vision-Language-Models-Overview 将原本分散杂乱的科研碎片转化为结构化的工程导航图，帮助团队在激烈的技术迭代中实现了从“盲目追随”到“精准落地”的跨越。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个大型视觉语言模型（VLM）的论文、模型和基准测试的综述与集合列表，并非一个可直接运行的单一软件工具。README 中列出了众多不同模型（如 Qwen, LLaVA, InternVL 等），每个模型的具体运行环境需求（操作系统、GPU、内存、依赖库等）各不相同，需参考各自对应的官方仓库或论文。本仓库主要提供资源索引和分类，不包含统一的安装脚本或环境配置文件。

python未说明

Vision-Language-Models-Overview hero image

快速开始

大型视觉语言模型的基准测试与评估、对齐、应用及挑战

一个汇集并综述视觉语言模型相关论文和模型的 GitHub 仓库。

以下我们整理了超赞的论文、模型以及 GitHub 仓库，内容涵盖：

最先进视觉语言模型：按时间顺序从最新到最旧排列的 VLM 列表（我们会持续更新新模型和基准测试）。
评估：VLM 的基准测试及其对应的工作链接。
后训练/对齐：最新的 VLM 对齐相关工作，包括强化学习、监督微调等。
应用：VLM 在具身 AI、机器人等领域中的应用。
汇集关于上述主题的综述、观点和数据集。

欢迎贡献和讨论！

🤩 标有 ⭐️ 的论文由本仓库的维护者提供。如果您觉得这些内容有用，非常感谢您为本仓库点个赞或引用我们的论文。

📄 论文链接/⛑️ 引用
1. 📚 最先进的 VLMs
1. 🗂️ 数据集与评估
1. 🔥 后训练/对齐/提示工程 🔥
- 3.1. VLM 的强化学习对齐
- 3.2. 常规微调（SFT）
- 3.3. VLM 对齐相关的 GitHub 项目
- 3.4. 提示工程
1. ⚒️ 应用
- 4.1. 具身 VLM 代理
- 4.2. 生成式视觉媒体应用
- 4.3. 机器人与具身 AI
  - 4.3.1. 操作任务
  - 4.3.2. 导航
  - 4.3.3. 人机交互
    - 4.3.4. 自动驾驶
- 4.4. 以人为本的 AI
  - 4.4.1. 网络代理
  - 4.4.2. 辅助功能
  - 4.4.3. 医疗与健康
  - 4.4.4. 社会公益
1. ⛑️ 挑战
- 5.1. 幻觉问题
- 5.2. 安全性
- 5.3. 公平性
- 5.4. 对齐问题 * 5.4.1. 多模态对齐 * 5.4.2. 常识与物理常识对齐
- 5.5. 高效训练与微调
- 5.6. 高质量数据集稀缺

0. 引用

@InProceedings{Li_2025_CVPR,
    author    = {Li, Zongxia and Wu, Xiyang and Du, Hongyang and Liu, Fuxiao and Nghiem, Huy and Shi, Guangyao},
    title     = {大型视觉语言模型现状综述：基准测试评估与挑战},
    booktitle = {IEEE/CVF 计算机视觉与模式识别会议（CVPR）研讨会论文集},
    month     = {六月},
    year      = {2025},
    pages     = {1587-1606}
}

1. 📚 最先进的多模态大模型

模型	年份	架构	训练数据	参数量	视觉编码器/分词器	预训练主干模型
GPT-5.4 / GPT-5.4 Thinking (OpenAI)	2026年3月6日	解码器架构	未披露	未披露	未披露	未披露
Phi-4-Reasoning-Vision-15B (微软)	2026年3月4日	解码器架构	精选合成数据 + 过滤数据	150亿	高分辨率动态分辨率ViT	Phi-4
Gemini 3.0 (谷歌)	2026年3月	统一模型	未披露	未披露	未披露	未披露
Qwen3.5 (阿里巴巴)	2026年2月16日	统一VL（早期融合）	数万亿多模态token	8亿–397亿（MoE，170亿活跃）	ViT（原生）	Qwen3.5
Claude Opus 4.6 (Anthropic)	2026年2月	解码器架构	未披露	未披露	未披露	未披露
Erin 5.0 (百度)	2026年2月5日	统一模型（视觉、文本、音频）	统一模态数据集	-	CNN–ViT（理解）/下一帧及尺度预测（生成）	统一自回归Transformer
Molmo2 (Allen AI)	2026年1月15日	解码器架构	7个新视频和2个多图像数据集（共919万视频）	40亿/70亿/80亿	双向注意力ViT	Qwen 3 / OLMo
Gemini 3	2025年11月18日	统一模型	未披露	-	-	-
Emu3.5	2025年10月30日	解码器架构	统一模态数据集	-	SigLIP	Qwen3
DeepSeek-OCR	2025年10月20日	编码器-解码器架构	70% OCR，20%通用视觉，10%纯文本	30亿	DeepEncoder	DeepSeek-3B
Qwen3-VL	2025年10月11日	解码器架构	-	80亿/40亿	ViT	Qwen3
Qwen3-VL-MoE	2025年9月25日	解码器架构	-	2350亿-A220亿	ViT	Qwen3
Qwen3-Omni（视觉/音频/文本）	2025年9月21日	-	视频/音频/图片	300亿	ViT	Qwen3-Omni-MoE-Thinker
LLaVA-Onevision-1.5	2025年9月15日	-	中期训练-8500万 & SFT	80亿	Qwen2VLImageProcessor	Qwen3
InternVL3.5	2025年8月25日	解码器架构	多模态及纯文本	300亿/380亿/2410亿	InternViT-3亿/60亿	Qwen3 / GPT-OSS
SkyWork-Unipic-1.5B	2025年7月29日	-	图像/视频..	-	-	-
Grok 4	2025年7月9日	-	图像/视频..	1-2万亿	-	-
Kwai Keye-VL (快手)	2025年7月2日	解码器架构	图像/视频..	80亿	ViT	QWen-3-8B
OmniGen2	2025年6月23日	解码器架构 & VAE	LLaVA-OneVision/ SAM-LLaVA..	-	ViT	QWen-2.5-VL
Gemini-2.5-Pro	2025年6月17日	-	-	-	-	-
GPT-o3/o4-mini	2025年6月10日	解码器架构	未披露	未披露	未披露	未披露
Mimo-VL (小米)	2025年6月4日	解码器架构	24万亿MLLM tokens	70亿	[Qwen2.5-ViT	Mimo-7B-base
BAGEL (字节跳动)	2025年5月20日	统一模型	视频/图片/文本	70亿	SigLIP2-so400m/14](https://arxiv.org/abs/2502.14786)	Qwen2.5
BLIP3-o	2025年5月14日	解码器架构	(BLIP3-o 6万) GPT-4o生成的图像生成数据	40亿/80亿	ViT	QWen-2.5-VL
InternVL-3	2025年4月14日	解码器架构	2000亿tokens	10亿/20亿/80亿/90亿/140亿/380亿/780亿	ViT-3亿/60亿	InterLM2.5/QWen2.5
LLaMA4-Scout/Maverick	2025年4月4日	解码器架构	40/20万亿tokens	170亿	MetaClip	LLaMA4
Qwen2.5-Omni	2025年3月26日	解码器架构	视频/音频/图片/文本	70亿	Qwen2-Audio/Qwen2.5-VL ViT	端到端迷你-Omni
QWen2.5-VL	2025年1月28日	解码器架构	图像描述、VQA、定位任务、长视频	30亿/70亿/720亿	重新设计的ViT	Qwen2.5
Ola	2025年	解码器架构	图像/视频/音频/文本	70亿	OryxViT	Qwen-2.5-7B, SigLIP-400M, Whisper-V3-Large, BEATs-AS2M(cpt2)
Ocean-OCR	2025年	解码器架构	纯文本、标题、交错处理、OCR	30亿	NaViT	从头预训练
SmolVLM	2025年	解码器架构	SmolVLM-Instruct	2.5亿 & 5亿	SigLIP	SmolLM
DeepSeek-Janus-Pro	2025年	解码器架构	未披露	70亿	SigLIP	DeepSeek-Janus-Pro
Inst-IT	2024年	解码器架构	Inst-IT数据集, LLaVA-NeXT-Data	70亿	CLIP/Vicuna, SigLIP/Qwen2	LLaVA-NeXT
DeepSeek-VL2	2024年	解码器架构	WiT, WikiHow	45亿 x 74	SigLIP/SAMB	DeepSeekMoE
xGen-MM (BLIP-3)	2024年	解码器架构	MINT-1T, OBELICS, Caption	40亿	ViT + Perceiver Resampler	Phi-3-mini
TransFusion	2024年	编码器-解码器	未披露	70亿	VAE编码器	从头在变压器架构上预训练
Baichuan Ocean Mini	2024年	解码器架构	图像/视频/音频/文本	70亿	CLIP ViT-L/14	Baichuan
LLaMA 3.2-vision	2024年	解码器架构	未披露	110亿-900亿	CLIP	LLaMA-3.1
Pixtral	2024年	解码器架构	未披露	120亿	CLIP ViT-L/14	Mistral Large 2
Qwen2-VL	2024年	解码器架构	未披露	70亿-140亿	EVA-CLIP ViT-L	Qwen-2
NVLM	2024年	编码器-解码器	LAION-115M	80亿-240亿	自定义ViT	Qwen-2-Instruct
Emu3	2024年	解码器架构	Aquila	70亿	MoVQGAN	LLaMA-2
Claude 3	2024年	解码器架构	未披露	未披露	未披露	未披露
InternVL	2023年	编码器-解码器	LAION-en, LAION- multi	70亿/200亿	Eva CLIP ViT-g	QLLaMA
InstructBLIP	2023年	编码器-解码器	CoCo, VQAv2	130亿	ViT	Flan-T5, Vicuna
CogVLM	2023年	编码器-解码器	LAION-2B ,COYO-700M	180亿	CLIP ViT-L/14	Vicuna
PaLM-E	2023年	解码器架构	所有机器人, WebLI	5620亿	ViT	PaLM
LLaVA-1.5	2023年	解码器架构	COCO	130亿	CLIP ViT-L/14	Vicuna
Gemini	2023年	解码器架构	未披露	未披露	未披露	未披露
GPT-4V	2023年	解码器架构	未披露	未披露	未披露	未披露
BLIP-2	2023年	编码器-解码器	COCO, Visual Genome	70亿-130亿	ViT-g	开放预训练变压器 (OPT)
Flamingo	2022年	解码器架构	M3W, ALIGN	800亿	定制	Chinchilla
BLIP	2022年	编码器-解码器	COCO, Visual Genome	2230万-400万	ViT-B/L/g	从头预训练
CLIP	2021年	编码器-解码器	400万图文配对	6300万-3550万	ViT/ResNet	从头预训练

2. 🗂️ 基准与评估

2.1. 用于训练多模态视觉语言模型的数据集

数据集	任务	规模
OmniScience(02/2026)	科学图像理解	150万组图表-标题-上下文三元组
MaD-Mix(02/2026)	多模态数据混合优化	框架（0.5B–7B规模）
OVID(2026)	开放视频预训练	1000万小时，3亿帧-标题对
Molmo2 视频数据集(01/2026)	视频字幕、问答、跟踪、指物	919万条视频（7个视频+2个多图像数据集）
MMFineReason(/1/30/2026)	推理	180万
FineVision(09/04/2025)	混合领域	2430万/4.48TB

2.2. 多模态视觉语言模型的数据集与评估

🧮 视觉数学 (+ 视觉数学推理)

数据集	任务	评估协议	标注者	规模 (K)	代码 / 网站
MathVision	视觉数学	选择题 / 答案匹配	人工	3.04	仓库
MathVista	视觉数学	选择题 / 答案匹配	人工	6	仓库
MathVerse	视觉数学	选择题	人工	4.6	仓库
VisNumBench	视觉数字推理	选择题	Python程序生成/Web收集/现实生活照片	1.91	仓库

💬 统一模型基准

数据集	任务	评估协议	标注者	规模 (K)	代码 / 网站
ROVER	相互跨模态推理	视觉生成 + 语言生成评估	人工	1.3 (1,876张图片)	论文
	RealUnify	数学、世界知识、图像生成	直接及分步评估（第3.3节）	脚本与人工验证	1.0
Uni-MMMU	科学、代码、图像生成	DreamSim（图像生成评估）& 字符串匹配（理解评估）	-	1.0	仓库

🎞️ 视频理解

数据集	任务	评估协议	标注者	规模 (K)	代码 / 网站
MMOU	全模态长视频理解	选择题	人工	15 (9,038条视频)	论文
Video-MMMU	从专业视频中获取知识	选择题 + 知识增长	专家	0.9 (300条视频)	论文
MMVU	专家级多学科视频理解	选择题	专家	3 (27个主题)	论文
	VideoHallu	视频理解	LLM评估	人工	3.2
Video SimpleQA	视频理解	LLM评估	人工	2.03	仓库
MovieChat	视频理解	LLM评估	人工	1	仓库
Perception‑Test	视频理解	选择题	大众	11.6	仓库
VideoMME	视频理解	选择题	专家	2.7	网站
EgoSchem	视频理解	选择题	合成/人工	5	网站
Inst‑IT‑Bench	细粒度图像与视频	选择题 & LLM	人工/合成	2	仓库

💬 多模态对话

数据集	任务	评估协议	标注者	规模 (K)	代码 / 网站
VisionArena	多模态对话	成对偏好	人工	23	仓库

🧠 多模态通用智能

数据集	任务	评估协议	标注者	规模 (K)	代码 / 网站
OmniEarth	地理空间/遥感VLM评估	选择题 + 开放式VQA	人工（已验证）	44.2 (9,275张图片，28项任务)	论文
	MultiHaystack	多模态检索与推理	检索 + 问答	人工	0.75 (4.6万+候选)
	DatBench	区分性、忠实性VLM评估	选择题（格式感知）	合成	-
	MMLU	通用MM	选择题	人工	15.9
MMStar	通用MM	选择题	人工	1.5	网站
NaturalBench	通用MM	是/否、选择题	人工	10	HF
PHYSBENCH	视觉数学推理	选择题	STEM研究生	0.10	仓库

🔎 视觉推理 / VQA （+ 多语言与 OCR）

数据集	任务	评估协议	标注者	规模 (K)	代码/网站
EMMA	视觉推理	多选题	人工 + 合成	2.8	仓库
MMTBENCH	视觉推理与问答	多选题	AI专家	30.1	仓库
MM‑Vet	OCR / 视觉推理	LLM评估	人工	0.2	仓库
MM‑En/CN	多语言多模态理解	多选题	人工	3.2	仓库
GQA	视觉推理与问答	答案匹配	种子数据 + 合成数据	22	网站
VCR	视觉推理与问答	多选题	MTurk众包	290	网站
VQAv2	视觉推理与问答	是/否、答案匹配	MTurk众包	1100	仓库
MMMU	视觉推理与问答	答案匹配、多选题	大学生	11.5	网站
MMMU-Pro	视觉推理与问答	答案匹配、多选题	大学生	5.19	网站
R1‑Onevision	视觉推理与问答	多选题	人工	155	仓库
VLM²‑Bench	视觉推理与问答	答案匹配、多选题	人工	3	网站
VisualWebInstruct	视觉推理与问答	LLM评估	网络数据	0.9	网站

📝 视觉文本 / 文档理解（+ 图表）

数据集	任务	评估协议	标注者	规模 (K)	代码/网站
TextVQA	视觉文本理解	答案匹配	专家	28.6	仓库
DocVQA	文档VQA	答案匹配	众包	50	网站
ChartQA	图表图形理解	答案匹配	众包/合成	32.7	仓库

🌄 文本到图像生成

数据集	任务	评估协议	标注者	规模 (K)	代码/网站
MSCOCO‑30K	文本到图像	BLEU、ROUGE、相似度	MTurk众包	30	网站
GenAI‑Bench	文本到图像	人类评分	人工	80	HF

🚨 幻觉检测 / 控制

数据集	任务	评估协议	标注者	规模 (K)	代码/网站
HallusionBench	幻觉	是/否	人工	1.13	仓库
POPE	幻觉	是/否	人工	9	仓库
CHAIR	幻觉	是/否	人工	124	仓库
MHalDetect	幻觉	答案匹配	人工	4	仓库
Hallu‑Pi	幻觉	答案匹配	人工	1.26	仓库
HallE‑Control	幻觉	是/否	人工	108	仓库
AutoHallusion	幻觉	答案匹配	合成数据	3.129	仓库
BEAF	幻觉	是/否	人工	26	网站
GAIVE	幻觉	答案匹配	合成数据	320	仓库
HalEval	幻觉	是/否	众包/合成	2	仓库
AMBER	幻觉	答案匹配	人工	15.22	仓库

2.3. 针对具身视觉语言模型的基准数据集、模拟器和生成模型

基准	领域	类型	项目
Drive-Bench	具身AI	自动驾驶	官网
Habitat, Habitat 2.0, Habitat 3.0	机器人学（导航）	模拟器 + 数据集	官网
Gibson	机器人学（导航）	模拟器 + 数据集	官网, GitHub仓库
iGibson1.0, iGibson2.0	机器人学（导航）	模拟器 + 数据集	官网, 文档
Isaac Gym	机器人学（导航）	模拟器	官网, GitHub仓库
Isaac Lab	机器人学（导航）	模拟器	官网, GitHub仓库
AI2THOR	机器人学（导航）	模拟器	官网, GitHub仓库
ProcTHOR	机器人学（导航）	模拟器 + 数据集	官网, GitHub仓库
VirtualHome	机器人学（导航）	模拟器	官网, GitHub仓库
ThreeDWorld	机器人学（导航）	模拟器	官网, GitHub仓库
VIMA-Bench	机器人学（操作）	模拟器	官网, GitHub仓库
VLMbench	机器人学（操作）	模拟器	GitHub仓库
CALVIN	机器人学（操作）	模拟器	官网, GitHub仓库
GemBench	机器人学（操作）	模拟器	官网, GitHub仓库
WebArena	网络智能体	模拟器	官网, GitHub仓库
UniSim	机器人学（操作）	生成模型、世界模型	官网
GAIA-1	机器人学（自动驾驶）	生成模型、世界模型	官网
LWM	具身AI	生成模型、世界模型	官网, GitHub仓库
Genesis	具身AI	生成模型、世界模型	GitHub仓库
EMMOE	具身AI	生成模型、世界模型	论文
RoboGen	具身AI	生成模型、世界模型	官网
UnrealZoo	具身AI（追踪、导航、多智能体）	模拟器	官网

3. ⚒️ 训练后调整

3.1. VLM的RL对齐

标题	年份	论文	RL	代码
wDPO：鲁棒对齐的Winsorized直接偏好优化	2026年3月	论文	wDPO	-
	f-GRPO及更进一步：用于通用LLM对齐的基于散度的强化学习	2026年2月	论文	f-GRPO / f-HAL
	从视觉到洞察：通过强化学习提升MLLM的视觉推理能力	2026年1月	论文	GRPO（6种奖励函数）
	SaFeR-VLM：面向多模态推理的安全感知强化学习	2026年（ICLR）	论文	GRPO + 安全奖励
	SAIL-RL：通过双奖励强化学习调优引导MLLM何时以及如何思考	2025年11月	论文	双奖励（思考+判断）
	GIFT：基于群体相对的隐式微调将GRPO与DPO和UNA相结合	2025年10月	论文	GIFT（凸MSE损失）
	Game-RL：合成多模态可验证的游戏数据以提升VLM的通用推理能力	2025年10月12日	论文	GRPO
Vision-Zero：通过策略性游戏化自我博弈实现可扩展的VLM自我改进	2025年9月29日	论文	GRPO	-
Vision-SR1：通过推理分解实现自奖励的视觉-语言模型	2025年8月26日	论文	GRPO	-
群体序列策略优化	2025年6月24日	论文	GSPO	-
Visionary-R1：利用强化学习缓解视觉推理中的捷径问题	2025年5月20日	论文	GRPO	-
VideoChat-R1：通过强化微调增强时空感知能力	2025年4月10日	论文	GRPO	代码
OpenVLThinker：通过迭代式自我改进探索复杂视觉-语言推理的早期尝试	2025年3月21日	论文	GRPO	代码
使用课程强化学习提升视觉语言模型的泛化能力和推理能力	2025年3月10日	论文	GRPO	代码
OmniAlign-V：迈向与人类偏好更加一致的MLLM	2025年	论文	DPO	代码
多模态Open R1/R1-多模态之旅	2025年	-	GRPO	代码
R1-VL：通过分步群体相对策略优化学习使用多模态大语言模型进行推理	2025年	论文	GRPO	代码
Agent-R1：使用端到端强化学习训练强大的LLM智能体	2025年	-	PPO/REINFORCE++/GRPO	代码
MM-Eureka：利用基于规则的大规模强化学习探索视觉顿悟时刻	2025年	论文	REINFORCE留一法（RLOO）	代码
MM-RLHF：多模态LLM对齐的下一步进展	2025年	论文	DPO	代码
LMM-R1：通过两阶段基于规则的RL赋予3B LMM强大的推理能力	2025年	论文	PPO	代码
Vision-R1：激励多模态大语言模型的推理能力	2025年	论文	GRPO	代码
面向多模态理解和生成的统一奖励模型	2025年	论文	DPO	代码
我们能用CoT生成图像吗？让我们逐步验证并强化图像生成过程	2025年	论文	DPO	代码
条条大路通似然：强化学习在微调中的价值	2025年	论文	在线RL	-
Video-R1：强化MLLM中的视频推理能力	2025年	论文	GRPO	代码

3.2. 视觉-语言模型的微调

标题	年份	论文	网站	代码
MERGETUNE：视觉-语言模型的持续微调	2026/01（ICLR 2026）	论文	-	-
	掩码微调（MFT）：解锁视觉-语言模型中的隐藏能力	2025/12	论文	-
	Image-LoRA：迈向视觉-语言模型的极简微调	2025/12	论文	-
	重新评估监督微调的作用：视觉-语言模型推理中的实证研究	2025/12	论文	-
	Eagle 2.5：提升前沿视觉-语言模型的长上下文后训练	2025/04/21	论文	网站
OMNICAPTIONER：一个字幕生成器统御一切	2025/04/09	论文	网站	代码
Inst-IT：通过显式视觉提示指令微调提升多模态实例理解能力	2024	论文	网站	代码
LLaVolta：基于分阶段视觉上下文压缩的高效多模态模型	2024	论文	网站	代码
ViTamin：在视觉-语言时代设计可扩展的视觉模型	2024	论文	网站	代码
Espresso：为您的视觉-语言模型从视频中进行高密度提取提供高压缩比	2024	论文	-	-
视觉-语言模型是否应该使用图像数据进行预训练？	2025	论文	-	-
VisionArena：包含偏好标签的23万条真实世界用户与视觉-语言模型对话	2024	论文	-	代码

3.3. VLM对齐GitHub项目

项目	仓库链接
Verl	🔗 GitHub
EasyR1	🔗 GitHub
OpenR1	🔗 GitHub
LLaMAFactory	🔗 GitHub
MM-Eureka-Zero	🔗 GitHub
MM-RLHF	🔗 GitHub
LMM-R1	🔗 GitHub

3.4. 提示优化

标题	年份	论文	网站	代码
EvoPrompt：面向视觉-语言模型的进化式提示适配	2026/03	论文	-	-
	MMLoP：用于高效视觉-语言模型适配的多模态低秩提示	2026/02	论文	-
	多模态提示优化器（MPO）：多模态提示的联合优化	2025/10	论文	-
	进化式提示优化发现涌现的多模态推理策略	2025/03	论文	-
	In-ContextEdit：利用大规模扩散Transformer中的上下文生成实现指令式图像编辑	2025/04/30	论文	网站

4. ⚒️ 应用

4.1 具身视觉-语言模型智能体

标题	年份	论文链接
将网络空间与物理世界对齐：具身AI综合综述	2024	论文
ScreenAI：用于UI和信息图表理解的视觉-语言模型	2024	论文
ChartLlama：用于图表理解和生成的多模态大模型	2023	论文
SciDoc2Diagrammer-MAF：基于多方面反馈精炼，实现从文档生成科学图表	2024	📄 论文
训练视觉-语言模型作为智能手机助手	2024	论文
ScreenAgent：由视觉-语言模型驱动的计算机控制智能体	2024	论文
基于环境反馈的具身视觉-语言程序员	2024	论文
视觉-语言模型玩《星际争霸II》：基准测试与多模态决策方法	2025	📄 论文
MP-GUI：利用多模态大模型进行GUI理解的模态感知	2025	📄 论文

4.2. 生成式视觉媒体应用

标题	年份	论文	网站	代码
GPT4Motion：通过面向Blender的GPT规划，在文本到视频生成中编写物理动作	2023	📄 论文	🌍 网站	💾 代码
多模态大模型中的虚假相关性	2025	📄 论文	-	-
WeGen：作为微信般的交互式多模态生成统一模型	2025	📄 论文	-	💾 代码
VideoMind：用于长视频推理的LoRA链式智能体	2025	📄 论文	🌍 网站	💾 代码

4.3. 机器人学与具身人工智能

标题	年份	论文	官网	代码
AHA：用于检测和推理机器人操作中故障的视觉-语言模型	2024	📄 论文	🌍 官网	-
SpatialVLM：赋予视觉-语言模型空间推理能力	2024	📄 论文	🌍 官网	-
基于视觉-语言模型的场景理解与机器人物体操作	2024	📄 论文	-	-
利用视觉语言模型指导长 horizon 任务与运动规划	2024	📄 论文	🌍 官网	-
AutoTAMP：以 LLM 作为翻译器和校验器的自回归式任务与运动规划	2023	📄 论文	🌍 官网	-
VLM 看，机器人做：通过视觉语言模型将人类演示视频转化为机器人行动计划	2024	📄 论文	-	-
基于大型语言模型的可扩展多机器人协作：集中式还是分布式系统？	2023	📄 论文	🌍 官网	-
DART-LLM：利用大型语言模型进行依赖感知的多机器人任务分解与执行	2024	📄 论文	🌍 官网	-
MotionGPT：人类运动是一门外语	2023	📄 论文	-	💾 代码
利用大型语言模型通过自我对齐学习机器人技能奖励	2024	📄 论文	-	-
语言到奖励：用于机器人技能合成	2023	📄 论文	🌍 官网	-
Eureka：通过编码大型语言模型实现人类水平的奖励设计	2023	📄 论文	🌍 官网	-
集成式任务与运动规划	2020	📄 论文	-	-
攻破 LLM 控制的机器人	2024	📄 论文	🌍 官网	-
机器人演绎有害刻板印象	2022	📄 论文	🌍 官网	-
LLM 驱动的机器人存在演绎歧视、暴力及非法行为的风险	2024	📄 论文	-	-
强调在机器人领域部署 LLM/VLM 的安全问题	2024	📄 论文	🌍 官网	-
EmbodiedBench：面向视觉驱动具身智能体的多模态大型语言模型综合基准测试	2025	📄 论文	🌍 官网	💾 代码与数据集
Gemini Robotics：将 AI 带入物理世界	2025	📄 技术报告	🌍 官网	-
GR-2：具有网络规模知识的生成式视频-语言-动作模型，用于机器人操作	2024	📄 论文	🌍 官网	-
Magma：多模态 AI 智能体的基础模型	2025	📄 论文	🌍 官网	💾 代码
DayDreamer：用于物理机器人学习的世界模型	2022	📄 论文	🌍 官网	💾 代码
Hi Robot：基于分层视觉-语言-动作模型的开放式指令遵循	2025	📄 论文	-	-
RL-VLM-F：基于视觉语言基础模型反馈的强化学习	2024	📄 论文	🌍 官网	💾 代码
KALIE：无需机器人数据即可对视觉-语言模型进行微调，以适应开放世界操作	2024	📄 论文	🌍 官网	💾 代码
统一视频动作模型	2025	📄 论文	🌍 官网	💾 代码
HybridVLA：统一视觉-语言-动作模型中的协同扩散与自回归	2025	📄 论文	🌍 官网	💾 代码
	DAM-VLA：基于动态动作模型的视觉-语言-动作框架，用于机器人操作	2026年3月	📄 论文	-
	NS-VLA：迈向神经符号型视觉-语言-动作模型	2026年3月	📄 论文	-
	用于具身推理与层级控制的可导向视觉-语言-动作策略	2026年2月	📄 论文	-
	ST4VLA：面向视觉-语言-动作模型的空间引导训练	2026年2月	📄 论文	-

4.3.1. 操作

标题	年份	论文	网站	代码
VIMA：基于多模态提示的通用机器人操作	2022	📄 论文	🌍 网站
Instruct2Act：利用大型语言模型将多模态指令映射为机器人动作	2023	📄 论文	-	-
基于大型语言模型的创意机器人工具使用	2023	📄 论文	🌍 网站	-
RoboVQA：面向机器人技术的多模态长 horizon 推理	2024	📄 论文	-	-
RT-1：用于大规模真实世界控制的机器人 Transformer	2022	📄 论文	🌍 网站	-
RT-2：视觉-语言-动作模型将网络知识迁移到机器人控制中	2023	📄 论文	🌍 网站	-
Open X-Embodiment：机器人学习数据集和 RT-X 模型	2023	📄 论文	🌍 网站	-
ExploRLLM：利用大型语言模型引导强化学习中的探索	2024	📄 论文	🌍 网站	-
AnyTouch：跨多种视觉-触觉传感器学习统一的静态-动态表征	2025	📄 论文	🌍 网站	💾 代码
面向视觉控制的掩码世界模型	2022	📄 论文	🌍 网站	💾 代码
用于视觉机器人操作的多视角掩码世界模型	2023	📄 论文	🌍 网站	💾 代码

4.3.2. 导航

标题	年份	论文	网站	代码
ZSON：使用多模态目标嵌入的零样本目标导向导航	2022	📄 论文	-	-
LOC-ZSON：语言驱动的以物体为中心的零样本物体检索与导航	2024	📄 论文	-	-
LM-Nav：结合语言、视觉和行动的大型预训练模型的机器人导航	2022	📄 论文	🌍 网站	-
NaVILA：用于导航的腿式机器人视觉-语言-动作模型	2022	📄 论文	🌍 网站	-
VLFM：用于零样本语义导航的视觉-语言前沿地图	2024	📄 论文	-	-
利用大型语言模型进行导航：语义猜测作为规划的启发式方法	2023	📄 论文	🌍 网站	-
Vi-LAD：用于动态环境中具有社会意识的机器人导航的视觉-语言注意力蒸馏	2025	📄 论文	-	-
导航世界模型	2024	📄 论文	🌍 网站	-

4.3.3. 人机交互

标题	年份	论文	网站	代码
MUTEX：从多模态任务规范中学习统一策略	2023	📄 论文	🌍 网站	-
LaMI：用于多模态人机交互的大型语言模型	2024	📄 论文	🌍 网站	-
VLM-Social-Nav：通过视觉-语言模型评分实现的社会感知机器人导航	2024	📄 论文	-	-

4.3.4. 自动驾驶

标题	年份	论文	网站	代码
AutoMoT: 一种用于端到端自动驾驶的异步混合Transformer统一视觉-语言-动作模型	2026年3月	📄 论文	-	-
	DriveVLM-RL: 基于视觉-语言模型的受神经科学启发的安全自动驾驶强化学习	2026年3月	📄 论文	-
	HiST-VLA: 一种用于端到端自动驾驶的分层时空视觉-语言-动作模型	2026年2月	📄 论文	-
	OpenDriveVLA: 基于大型视觉语言动作模型的端到端自动驾驶探索	2025年3月	📄 论文	-
	视觉语言模型已准备好用于自动驾驶吗？从可靠性、数据和指标角度的实证研究	2025年1月7日	📄 论文	🌍 网站
DriveVLM: 自动驾驶与大型视觉-语言模型的融合	2024年	📄 论文	🌍 网站	-
GPT-Driver: 使用GPT学习驾驶	2023年	📄 论文	-	-
LanguageMPC: 将大型语言模型用作自动驾驶决策者	2023年	📄 论文	🌍 网站	-
使用LLM驾驶：融合目标级向量模态实现可解释的自动驾驶	2023年	📄 论文	-	-
指代式多目标跟踪	2023年	📄 论文	-	💾 代码
VLPD: 基于视觉-语言语义自监督的上下文感知行人检测	2023年	📄 论文	-	💾 代码
MotionLM: 将多智能体运动预测视为语言建模	2023年	📄 论文	-	-
DiLu: 基于知识驱动的大型语言模型自动驾驶方法	2023年	📄 论文	🌍 网站	-
VLP: 用于自动驾驶的视觉语言规划	2024年	📄 论文	-	-
DriveGPT4: 基于大型语言模型的可解释端到端自动驾驶	2023年	📄 论文	-	-

4.4. 以人为中心的人工智能

标题	年份	论文	网站	代码
DLF：解耦语言聚焦的多模态情感分析	2024	📄 论文	-	💾 代码
LIT：大型语言模型驱动的意图追踪用于主动的人机协作——机器人副厨师应用	2024	📄 论文	-	-
预训练语言模型作为人类辅助的视觉规划器	2023	📄 论文	-	-
在科学中促进人工智能公平性：面向可访问的VLM研究的广义领域提示学习	2024	📄 论文	-	-
使用GPT-4V在网状化学中进行图像和数据挖掘	2023	📄 论文	-	-

4.4.1. 网络智能体

标题	年份	论文	网站	代码
具有规划、长上下文理解与程序合成的真实世界网络智能体	2023	📄 论文	-	-
CogAgent：用于GUI智能体的视觉语言模型	2023	📄 论文	-	💾 代码
WebVoyager：使用大型多模态模型构建端到端的网络智能体	2024	📄 论文	-	💾 代码
ShowUI：一个用于GUI视觉智能体的视觉-语言-行动模型	2024	📄 论文	-	💾 代码
ScreenAgent：一个由视觉语言模型驱动的计算机控制智能体	2024	📄 论文	-	💾 代码
带有世界模型的网络智能体：在网络导航中学习并利用环境动态	2024	📄 论文	-	💾 代码
	MolmoWeb：一个用于自动化网络任务的开放智能体	03/2026	📄 博客	🌍 网站

4.4.2. 无障碍

标题	年份	论文	网站	代码
X-World：无障碍、视觉与自主性的交汇	2021	📄 论文	-	-
面向网页无障碍的上下文感知图像描述	2024	📄 论文	-	-
通过使用多模态大型语言模型自动进行360度场景描述来提升VR的可访问性	2024	📄 论文	-	-

4.4.3. 医疗健康

标题	年份	论文	网站	代码
CARE：基于证据的代理框架，实现多模态医学推理中的临床问责制	03/2026	📄 论文	-	-
	MedMO：用于医学图像的多模态大型语言模型的基础与理解	02/2026	📄 论文	-
	Colon-X：从多模态理解到临床推理，推动智能结肠镜检查的发展	12/2025	📄 论文	-
智能结肠镜检查的前沿	02/2025	📄 论文	-	💾 代码
VisionUnite：一种结合临床知识的眼科视觉-语言基础模型	2024	📄 论文	-	💾 代码
多模态医疗AI：识别并设计针对放射学的具有临床相关性的视觉-语言应用	2024	📄 论文	-	-
M-FLAG：使用冻结语言模型和潜在空间几何优化进行医学视觉-语言预训练	2023	📄 论文	-	-
MedCLIP：来自未配对的医学图像和文本的对比学习	2022	📄 论文	-	💾 代码
Med-Flamingo：一种多模态医学少样本学习模型	2023	📄 论文	-	💾 代码

4.4.4. 社会公益

标题	年份	论文	网站	代码
分析K-12人工智能教育：大型语言模型对课堂讲授关于学习理论、教学法、工具及人工智能素养的研究	2024	📄 论文	-	-
学生而非专家：一条新的教育人工智能流水线，以模拟更人性化和个性化的青春期早期	2024	📄 论文	-	-
在农业中利用大型视觉和语言模型：综述	2024	📄 论文	-	-
用于预测大豆复种潜在分布区域的视觉-语言模型	2024	📄 论文	-	-
视觉-语言模型并非你所需要的全部：分子语言模型的增强策略	2024	📄 论文	-	💾 代码
DrawEduMath：用专家标注的学生手绘数学图像评估视觉语言模型	2024	📄 论文	-	-
MultiMath：为大型语言模型架起视觉与数学推理之间的桥梁	2024	📄 论文	-	💾 代码
视觉-语言模型与气象学相遇：开发用于极端天气事件检测的热力图模型	2024	📄 论文	-	💾 代码
他非常聪明，她非常美丽？关于减轻语言建模与生成中的社会偏见	2021	📄 论文	-	-
UrbanVLP：用于城市区域画像的多粒度视觉-语言预训练	2024	📄 论文	-	-

5. 挑战

5.1 幻觉

标题	年份	论文	网站	代码
HALP：无需生成任何标记即可检测视觉-语言模型中的幻觉	2026年3月	📄 论文	🌍 ACL	-
	语调很重要：语言语调对视觉-语言模型中幻觉的影响	2026年1月	📄 论文	-
	图像字幕中的对象幻觉	2018年	📄 论文	-
大型视觉-语言模型中对象幻觉的评估	2023年	📄 论文	-	💾 代码
检测与预防大型视觉语言模型中的幻觉	2023年	📄 论文	-	-
HallE-Control：控制大型多模态模型中的对象幻觉	2023年	📄 论文	-	💾 代码
Hallu-PI：在扰动输入下评估多模态大型语言模型中的幻觉	2024年	📄 论文	-	💾 代码
BEAF：通过观察前后变化来评估视觉-语言模型中的幻觉	2024年	📄 论文	🌍 网站	-
HallusionBench：用于复杂语言幻觉和视觉错觉的大规模视觉-语言模型诊断套件	2023年	📄 论文	-	💾 代码
AUTOHALLUSION：为视觉-语言模型自动生成幻觉基准测试	2024年	📄 论文	🌍 网站	-
通过稳健的指令微调缓解大型多模态模型中的幻觉	2023年	📄 论文	-	💾 代码
Hal-Eval：大型视觉语言模型的通用且细粒度的幻觉评估框架	2024年	📄 论文	-	💾 代码
AMBER：无大语言模型的多维度基准，用于评估多模态大型语言模型的幻觉	2023年	📄 论文	-	💾 代码

5.2 安全性

标题	年份	论文	网站	代码
SaFeR-VLM：通过强化学习将安全性融入多模态推理	2026年（ICLR）	📄 论文	-	-
	HoliSafe：视觉-语言模型的整体安全评估	2026年（ICLR）	📄 论文	-
	越狱动物园：大型语言和视觉-语言模型越狱的综述、现状与展望	2024年	📄 论文	🌍 网站
Safe-VLN：面向连续环境中运行的自主机器人的视觉-语言导航避障	2023年	📄 论文	-	-
SafeBench：多模态大型语言模型的安全评估框架	2024年	📄 论文	-	-
JailBreakV：评估多模态大型语言模型抵御越狱攻击鲁棒性的基准	2024年	📄 论文	-	-
SHIELD：利用多模态大型语言模型进行人脸欺骗与伪造检测的评估基准	2024年	📄 论文	-	💾 代码
图像是对齐的阿喀琉斯之踵：利用视觉漏洞越狱多模态大型语言模型	2024年	📄 论文	-	-
针对多模态大型语言模型的越狱攻击	2024年	📄 论文	-	-
	用于审计机器人基础模型的身体化红队	2025年	📄 论文	🌍 网站
基于大语言模型的机器人的安全护栏	2025年	📄 论文	-	-

5.3 公平性

标题	年份	论文	网站	代码
多模态大语言模型的幻觉：综述	2024	📄 论文	-	-
大语言模型中的偏见与公平性：综述	2023	📄 论文	-	-
多模态人工智能中的公平性与偏见：综述	2024	📄 论文	-	-
多模态偏见：在视觉—语言模型中引入超越性别和种族的刻板偏见评估框架	2023	📄 论文	-	-
FMBench：在医疗任务上对多模态大语言模型进行公平性基准测试	2024	📄 论文	-	-
FairCLIP：在视觉—语言学习中利用公平性	2024	📄 论文	-	-
FairMedFM：面向医学影像基础模型的公平性基准测试	2024	📄 论文	-	-
面向文化理解的视觉语言模型基准测试	2024	📄 论文	-	-

5.4 对齐

5.4.1 多模态对齐

标题	年份	论文	网站	代码
使用指令对比解码缓解大型视觉—语言模型中的幻觉	2024	📄 论文	-	-
通过自我改进提升大型视觉语言模型中的视觉—语言模态对齐	2024	📄 论文	-	-
单模态视觉和语言模型的对齐评估与学习	2024	📄 论文	🌍 网站	-
扩展多模态对比表示	2023	📄 论文	-	💾 代码
OneLLM：一个框架，用于将所有模态与语言对齐	2023	📄 论文	-	💾 代码
“你所见即你所读”？改进文本—图像对齐评估	2023	📄 论文	🌍 网站	💾 代码
Critic-V：VLM批评家有助于捕捉多模态推理中的VLM错误	2024	📄 论文	🌍 网站	💾 代码

5.4.2 常识与物理对齐

标题	年份	论文	网站	代码
VBench：视频生成模型的综合基准测试套件	2023	📄 论文	🌍 网站	💾 代码
VBench++：视频生成模型的全面且多功能基准测试套件	2024	📄 论文	🌍 网站	💾 代码
PhysBench：针对物理世界理解的VLM基准测试与增强	2025	📄 论文	🌍 网站	💾 代码
VideoPhy：评估视频生成的物理常识	2024	📄 论文	🌍 网站	💾 代码
WorldSimBench：迈向将视频生成模型作为世界模拟器	2024	📄 论文	🌍 网站	-
WorldModelBench：以世界模型的标准评判视频生成模型	2025	📄 论文	🌍 网站	💾 代码
VideoScore：构建自动指标以模拟细粒度的人类反馈来评估视频生成	2024	📄 论文	🌍 网站	💾 代码
WISE：一种基于世界知识的语义评估方法，用于文本—图像生成	2025	📄 论文	-	💾 代码
基于复杂文本对齐和运动感知一致性的内容丰富型AIGC视频质量评估	2025	📄 论文	-	💾 代码
您的大型视觉—语言模型仅需少量注意力头即可实现视觉定位	2025	📄 论文	-	-
SpatialVLM：赋予视觉—语言模型空间推理能力	2024	📄 论文	🌍 网站	💾 代码
生成式视频模型是否理解物理原理？	2025	📄 论文	🌍 网站	💾 代码
PhysGen：基于刚体物理的图像—视频生成	2024	📄 论文	🌍 网站	💾 代码
视频生成距离世界模型还有多远？——从物理定律的角度看	2024	📄 论文	🌍 网站	💾 代码
在空间中思考的同时进行推理：多模态思维可视化	2025	📄 论文	-	-
VBench-2.0：推进视频生成基准测试套件，以提高内在忠实性	2025	📄 论文	🌍 网站	💾 代码

5.5 高效训练与微调

标题	年份	论文	网站	代码
LoRA-Squeeze：简单有效的LoRA模块后训练与在线训练压缩	2026年2月	📄 论文	-	-
	GRACE：基于置信度蒸馏的门控关系对齐，用于高效视觉语言模型	2026年1月	📄 论文	-
	VLMQ：大型视觉语言模型的后训练量化	2026年（ICLR）	📄 论文	-
	VILA：关于视觉语言模型的预训练	2023年	📄 论文	-
SimVLM：弱监督下的简单视觉语言模型预训练	2021年	📄 论文	-	-
LoRA：大型语言模型的低秩适应	2021年	📄 论文	-	💾 代码
QLoRA：量化大语言模型的高效微调	2023年	📄 论文	-	-
使用人类反馈强化学习训练有益且无害的助手	2022年	📄 论文	-	💾 代码
RLAIF vs. RLHF：利用AI反馈扩展人类反馈强化学习	2023年	📄 论文	-	-

5.6 高质量数据集稀缺

标题	年份	论文	网站	代码
视觉语言模型与合成数据桥梁研究综述	2025年	📄 论文	-	💾 代码
Inst-IT：通过显式视觉提示指令微调提升多模态实例理解能力	2024年	📄 论文	网站	💾 代码
SLIP：自监督学习与语言-图像预训练的结合	2021年	📄 论文	-	💾 代码
合成视觉：训练视觉语言模型以理解物理规律	2024年	📄 论文	-	-
Synth2：利用合成字幕和图像嵌入提升视觉语言模型性能	2024年	📄 论文	-	-
KALIE：无需机器人数据即可微调视觉语言模型以应对开放世界操作任务	2024年	📄 论文	-	-
具有世界模型的网络智能体：在网页导航中学习并利用环境动态	2024年	📄 论文	-	-

Vision-Language-Models-Overview 快速上手指南

Vision-Language-Models-Overview 并非一个可直接安装运行的单一软件包或模型，而是一个前沿视觉 - 语言模型（VLM）的论文、模型仓库及基准测试的综合索引库。它旨在为开发者和研究人员提供最新的 SOTA 模型列表、数据集、对齐技术及应用场景的导航。

本指南将指导你如何利用该资源查找模型，并以列表中热门的 Qwen2.5-VL 为例，演示如何快速部署和使用一个典型的开源 VLM。

1. 环境准备

由于该仓库主要指向基于 PyTorch 和 Transformers 的大型模型，你需要准备以下环境：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS (M 系列芯片需特别注意显存/内存限制)。
硬件要求:
- GPU: 建议 NVIDIA GPU，显存至少 16GB (运行 7B 参数模型)，推荐 24GB+ (运行更大模型或高并发)。
- CPU: 多核处理器，用于数据预处理。
- 内存: 32GB RAM 以上。
前置依赖:
- Python 3.10 或更高版本
- CUDA 12.1+ (如需 GPU 加速)
- Git

2. 安装步骤

2.1 克隆索引仓库

首先克隆该综述仓库，以便查阅最新的模型列表和论文链接：

git clone https://github.com/zli12321/Vision-Language-Models-Overview.git
cd Vision-Language-Models-Overview

2.2 部署具体模型 (以 Qwen2.5-VL 为例)

根据仓库中的 "SoTA VLMs" 列表，选择一个开源模型进行部署。此处以阿里通义千问团队的 Qwen2.5-VL 为例（国内访问速度快，文档完善）。

创建虚拟环境并安装依赖：

python -m venv vlm-env
source vlm-env/bin/activate  # Windows 用户请使用: vlm-env\Scripts\activate

# 推荐使用国内镜像源加速安装 (清华源)
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install transformers accelerate sentencepiece protobuf tiktoken
pip install qwen-vl-utils  # Qwen 系列专用工具库

3. 基本使用

以下是最简单的使用示例，展示如何加载 Qwen2.5-VL 模型并进行图像问答。

3.1 代码示例

创建一个名为 demo.py 的文件，写入以下内容：

import torch
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

# 1. 指定模型路径 (自动从 HuggingFace 下载，国内用户可配置镜像或使用 ModelScope)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# 2. 加载处理器和模型
processor = AutoProcessor.from_pretrained(model_name)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 3. 准备输入数据 (文本 + 图片 URL 或本地路径)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/qwen-vl-assets/demo.jpg"},
            {"type": "text", "text": "请描述这张图片中的内容。"}
        ]
    }
]

# 4. 处理输入
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt"
)
inputs = inputs.to("cuda")

# 5. 生成回答
generated_ids = model.generate(**inputs, max_new_tokens=256)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]

print(output_text)

3.2 运行脚本

python demo.py

3.3 国内加速方案 (可选)

如果从 HuggingFace 下载模型速度慢，建议使用 ModelScope (魔搭社区) 进行下载。

安装 ModelScope:
```
pip install modelscope
```

修改代码中的加载方式：

from modelscope import snapshot_download

# 下载模型到本地
model_dir = snapshot_download('Qwen/Qwen2.5-VL-7B-Instruct')

# 加载时指向本地路径
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(model_dir, ...)
processor = AutoProcessor.from_pretrained(model_dir)

提示: 请访问克隆后的 Vision-Language-Models-Overview 目录下的 README 文件或在线网站，查阅更多关于 RL 对齐、具身智能应用 及 最新基准测试 的详细论文链接。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频