Awesome-Multimodal-Large-Language-Models

17.7k 1.1k 非常简单 1 次阅读今天其他语言模型

AI 解读由 AI 自动生成，仅供参考

Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型（MLLMs）的开源资源汇总平台，由南京大学 MiG 团队维护。它系统性地整理了该领域最新的学术论文、综述报告、基准测试数据集以及开源项目代码，旨在解决研究人员和开发者在快速迭代的 AI 浪潮中难以高效获取高质量资料、缺乏统一评估标准等痛点。

无论是希望深入了解行业前沿的研究学者，还是正在寻找可靠评测工具或基线模型的算法工程师，都能在这里找到极具价值的参考。其核心亮点在于不仅收录了关于多模态理解与生成的权威综述，还推出了具有影响力的 VITA 系列模型（支持实时视听交互及百万级上下文长度）和 MME 系列评测基准（涵盖视频分析、高分辨率真实场景等复杂任务）。这些成果为社区提供了从理论调研到实际验证的一站式解决方案，帮助用户更便捷地追踪技术趋势、复现先进算法并推动多模态智能的实际应用落地。

使用场景

某自动驾驶研发团队急需评估最新多模态大模型在复杂路况视频理解与实时交互方面的能力，以决定下一代车载系统的技术选型。

没有 Awesome-Multimodal-Large-Language-Models 时

调研效率低下：研究人员需在 arXiv 和 GitHub 上手动搜索分散的论文与代码，难以区分哪些是真正的 SOTA（最先进）模型，哪些只是早期实验。
评测标准缺失：缺乏统一的基准测试集，团队不得不自行构建简单的视频问答数据集，导致评估结果无法与业界主流水平横向对比。
技术盲区明显：容易忽略如 VITA 系列这类支持“看听说做”并发交互的前沿开源项目，错失实现类 GPT-4o 实时语音视觉交互的机会。
场景覆盖不足：现有的内部测试仅关注静态图像，无法验证模型在高分辨率真实世界场景（如恶劣天气、复杂路口）下的鲁棒性。

使用 Awesome-Multimodal-Large-Language-Models 后

一站式获取前沿成果：直接通过该仓库的综述和分类列表，快速定位到 NeurIPS 2025 highlight 的 VITA-1.5 等关键模型，将技术调研时间从数周缩短至几天。
引入权威评测基准：直接复用 MME、Video-MME-v2 及 MME-RealWorld 等专业基准数据集与评估工具，确保模型性能评估具备行业公信力。
解锁全模态交互能力：基于仓库指引集成 VITA-E 或 VITA-Audio，迅速验证了车辆在行驶中同时处理视觉信号与语音指令的可行性。
覆盖极端真实场景：利用 MME-RealWorld 数据集挑战高分辨率难点场景，提前发现模型在人类都难以判断的复杂路况中的潜在缺陷。

Awesome-Multimodal-Large-Language-Models 不仅消除了信息不对称，更为团队提供了从理论调研到落地评测的全链路权威指南，极大加速了多模态技术的工程化进程。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（Awesome-Multimodal-Large-Language-Models）是一个多模态大模型（MLLM）的论文、数据集和基准测试的汇总列表（Awesome List），本身不是一个可独立运行的软件工具或模型框架，因此 README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户若需运行列表中提到的具体模型（如 VITA, Qwen, InternVL 等），需前往各模型对应的独立项目仓库查看其特定的环境配置要求。

python未说明

Awesome-Multimodal-Large-Language-Models hero image

快速开始

令人惊叹的多模态大语言模型

✨ NJU-MiG 的亮点

🔥🔥 MLLM 综述 | 💬 微信（MLLM微信交流群）

🌟 MME-Survey：多模态 LLM 评估的全面综述
arXiv 2025，论文，项目
🌟 统一多模态理解与生成的综述：进展与挑战
arXiv 2025，论文，项目
多模态大语言模型综述
NSR 2024，论文，项目

🔥🔥 VITA 系列全能 MLLM | 💬 微信（VITA微信交流群）

VITA-1.5：迈向 GPT-4o 级别的实时视觉与语音交互
NeurIPS 2025 亮点，论文，项目
VITA-E：自然具身交互——同时看见、听见、说话与行动
arXiv 2025，论文，项目
VITA：迈向开源互动型全能多模态 LLM
arXiv 2024，论文，项目
Long-VITA：在保持领先短上下文准确率的同时，将大型多模态模型扩展至 100 万 token
arXiv 2025，论文，项目
VITA-Audio：高效大型语音-语言模型的快速交错跨模态 token 生成
NeurIPS 2025，论文，项目

🔥🔥 MME 系列 MLLM 基准测试

🔥 Video-MME-v2：迈向视频理解评估的新阶段

[🍎 项目页面] [📖 论文] [🤗 数据集] [🏆 排行榜]

🌟 MME-Survey：多模态 LLM 评估的全面综述
arXiv 2025，论文，项目
MME：多模态大语言模型的综合评估基准
NeurIPS 2025 DB 亮点，论文，数据集，评估工具，✒️ 引用
Video-MME：首个针对多模态 LLM 在视频分析中的综合评估基准
CVPR 2025，论文，项目，数据集
MME-RealWorld：你的多模态 LLM 能否应对连人类都难以处理的高分辨率真实场景？
ICLR 2025，论文，项目，数据集

精彩论文
精彩数据集

精彩论文

Multimodal Instruction Tuning (& Latest Works)

Title	Venue	Date	Code	Demo
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding	arXiv	2026-04-06	Github	Demo
Introducing Muse Spark: Scaling Towards Personal Superintelligence	Blog	2026-04-08	-	Demo
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing	arXiv	2026-04-03	Github	Local Demo
Gemma 4: Byte for byte, the most capable open models	Blog	2026-04-02	-	Demo
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI	Blog	2026-03-30	-	Demo
Xiaomi MiMo-V2-Omni	Blog	2026-03-18	-	-
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing	arXiv	2026-03-10	Github	Local Demo
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion	arXiv	2026-03-06	Github	-
Beyond Language Modeling: An Exploration of Multimodal Pretraining	arXiv	2026-03-03	-	-
Gemini 3.1 Pro: A smarter model for your most complex tasks	Blog	2026-02-19	-	-
Qwen3.5: Towards Native Multimodal Agents	Blog	2026-02-16	Github	Demo
MiniCPM-o 4.5	Blog	2026-02-06	Github	Demo
DeepSeek-OCR 2: Visual Causal Flow	DeepSeek	2026-01-27	Github	-
Seed1.8 Model Card: Towards Generalized Real-World Agency	Bytedance Seed	2025-12-18	-	-
Introducing GPT-5.2	OpenAI	2025-12-11	-	-
Introducing Mistral 3	Blog	2025-12-02	Huggingface	-
Qwen3-VL Technical Report	arXiv	2025-11-26	Github	Demo
Emu3.5: Native Multimodal Models are World Learners	arXiv	2025-10-30	Github	-
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting	arXiv	2025-10-21	Github	Local Demo
DeepSeek-OCR: Contexts Optical Compression	arXiv	2025-10-21	Github	-
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM	arXiv	2025-10-17	Github	-
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching	arXiv	2025-10-16	-	-
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue	arXiv	2025-10-15	Github	-
VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation	arXiv	2025-10-10	Github	-
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training	arXiv	2025-10-09	Github	Demo
Qwen3-Omni Technical Report	arXiv	2025-09-22	Github	Demo
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency	arXiv	2025-08-27	Github	Demo
MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and Video Understanding on Your Phone	-	2025-08-26	Github	Demo
Thyme: Think Beyond Images	arXiv	2025-08-18	Github	Demo
Introducing GPT-5	OpenAI	2025-08-07	-	-
dots.vlm1	rednote-hilab	2025-08-06	Github	Demo
Step3: Cost-Effective Multimodal Intelligence	StepFun	2025-07-31	Github	Demo
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning	arXiv	2025-07-02	Github	Demo
DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World	arXiv	2025-06-30	Github	-
Qwen VLo: From "Understanding" the World to "Depicting" It	Qwen	2025-06-26	-	Demo
MMSearch-R1: Incentivizing LMMs to Search	arXiv	2025-06-25	Github	-
Show-o2: Improved Native Unified Multimodal Models	arXiv	2025-06-18	Github	-
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities	Google	2025-06-17	-	-
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning	arXiv	2025-06-16	Github	-
MiMo-VL Technical Report	arXiv	2025-06-04	Github	-
OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation	arXiv	2025-05-29	Github	-
Emerging Properties in Unified Multimodal Pretraining	arXiv	2025-05-23	Github	Demo
MMaDA: Multimodal Large Diffusion Language Models	arXiv	2025-05-21	Github	Demo
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	arXiv	2025-05-20	-	-
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset	arXiv	2025-05-14	Github	Local Demo
Seed1.5-VL Technical Report	arXiv	2025-05-11	-	-
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models	arXiv	2025-05-08	Github	-
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model	arXiv	2025-05-06	Github	Local Demo
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning	arXiv	2025-04-23	Github	-
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models	arXiv	2025-04-21	Github	-
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes	arXiv	2025-04-21	Github	-
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models	arXiv	2025-04-14	Github	Demo
Introducing GPT-4.1 in the API	OpenAI	2025-04-14	-	-
Kimi-VL Technical Report	arXiv	2025-04-10	Github	Demo
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation	Meta	2025-04-05	Hugging Face	-
Qwen2.5-Omni Technical Report	Qwen	2025-03-26	Github	Demo
Addendum to GPT-4o System Card: Native image generation	OpenAI	2025-03-25	-	-
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation	arXiv	2025-03-17	Github	-
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision	arXiv	2025-03-07	-	-
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs	arXiv	2025-03-03	Hugging Face	Demo
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray	arXiv	2025-02-19	Github	-
Qwen2.5-VL Technical Report	arXiv	2025-02-19	Github	Demo
Baichuan-Omni-1.5 Technical Report	Tech Report	2025-01-26	Github	Local Demo
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs	arXiv	2025-01-10	Github	-
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction	arXiv	2025-01-03	Github	-
QVQ: To See the World with Wisdom	Qwen	2024-12-25	Github	Demo
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding	arXiv	2024-12-13	Github	-
Apollo: An Exploration of Video Understanding in Large Multimodal Models	arXiv	2024-12-13	-	-
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions	arXiv	2024-12-12	Github	Local Demo
StreamChat: Chatting with Streaming Video	arXiv	2024-12-11	Coming soon	-
CompCap: Improving Multimodal Large Language Models with Composite Captions	arXiv	2024-12-06	-	-
LinVT: Empower Your Image-level Large Language Model to Understand Videos	arXiv	2024-12-06	Github	-
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	arXiv	2024-12-06	Github	Demo
NVILA: Efficient Frontier Visual Language Models	arXiv	2024-12-05	Github	Demo
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	arXiv	2024-12-04	Github	-
TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability	arXiv	2024-11-27	Github	-
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding	arXiv	2024-11-27	Github	Local Demo
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding	arXiv	2024-10-22	Github	Demo
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate	arXiv	2024-10-09	Github	-
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	arXiv	2024-10-04	Github	Local Demo
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions	CVPR	2024-09-26	Github	Demo
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models	arXiv	2024-09-25	Huggingface	Demo
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution	arXiv	2024-09-18	Github	Demo
ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding	ICLR	2024-09-05	Github	Local Demo
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture	arXiv	2024-09-04	Github	-
EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders	arXiv	2024-08-28	Github	Demo
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation	arXiv	2024-08-28	Github	-
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models	arXiv	2024-08-09	Github	-
VITA: Towards Open-Source Interactive Omni Multimodal LLM	arXiv	2024-08-09	Github	-
LLaVA-OneVision: Easy Visual Task Transfer	arXiv	2024-08-06	Github	Demo
MiniCPM-V: A GPT-4V Level MLLM on Your Phone	arXiv	2024-08-03	Github	Demo
VILA^2: VILA Augmented VILA	arXiv	2024-07-24	-	-
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models	arXiv	2024-07-22	-	-
EVLM: An Efficient Vision-Language Model for Visual Understanding	arXiv	2024-07-19	-	-
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model	arXiv	2024-07-10	Github	-
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output	arXiv	2024-07-03	Github	Demo
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding	arXiv	2024-06-27	Github	Local Demo
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming	AAAI	2024-06-27	Github	-
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs	arXiv	2024-06-24	Github	Local Demo
Long Context Transfer from Language to Vision	arXiv	2024-06-24	Github	Local Demo
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models	ICML	2024-06-22	Github	-
TroL: Traversal of Layers for Large Language and Vision Models	EMNLP	2024-06-18	Github	Local Demo
Unveiling Encoder-Free Vision-Language Models	arXiv	2024-06-17	Github	Local Demo
VideoLLM-online: Online Video Large Language Model for Streaming Video	CVPR	2024-06-17	Github	Local Demo
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics	CoRL	2024-06-15	Github	Demo
Comparison Visual Instruction Tuning	arXiv	2024-06-13	Github	Local Demo
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models	arXiv	2024-06-12	Github	-
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs	arXiv	2024-06-11	Github	Local Demo
Parrot: Multilingual Visual Instruction Tuning	arXiv	2024-06-04	Github	-
Ovis: Structural Embedding Alignment for Multimodal Large Language Model	arXiv	2024-05-31	Github	-
Matryoshka Query Transformer for Large Vision-Language Models	arXiv	2024-05-29	Github	Demo
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models	arXiv	2024-05-24	Github	-
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models	arXiv	2024-05-24	Github	Demo
Libra: Building Decoupled Vision System on Large Language Models	ICML	2024-05-16	Github	Local Demo
CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts	arXiv	2024-05-09	Github	Local Demo
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	arXiv	2024-04-25	Github	Demo
Graphic Design with Large Multimodal Model	arXiv	2024-04-22	Github	-
BRAVE: Broadening the visual encoding of vision-language models	ECCV	2024-04-10	-	-
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD	arXiv	2024-04-09	Github	Demo
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs	arXiv	2024-04-08	-	-
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding	CVPR	2024-04-08	Github	-
VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing	NeurIPS	2024-04-04	Github	Local Demo
TOMGPT: Reliable Text-Only Training Approach for Cost-Effective Multi-modal Large Language Model	ACM TKDD	2024-03-28	-	-
LITA: Language Instructed Temporal-Localization Assistant	arXiv	2024-03-27	Github	Local Demo
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	arXiv	2024-03-27	Github	Demo
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training	arXiv	2024-03-14	-	-
MoAI: Mixture of All Intelligence for Large Language and Vision Models	arXiv	2024-03-12	Github	Local Demo
DeepSeek-VL: Towards Real-World Vision-Language Understanding	arXiv	2024-03-08	Github	Demo
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	arXiv	2024-03-07	Github	Demo
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World	arXiv	2024-02-29	Github	-
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation	CVPR	2024-02-26	Coming soon	Coming soon
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling	arXiv	2024-02-19	Github	-
Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning	arXiv	2024-02-18	Github	-
ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model	arXiv	2024-02-18	Github	Demo
CoLLaVO: Crayon Large Language and Vision mOdel	arXiv	2024-02-17	Github	-
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models	ICML	2024-02-12	Github	-
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations	arXiv	2024-02-06	Github	-
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model	arXiv	2024-02-06	Github	-
GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning	NeurIPS	2024-02-03	Github	-
Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study	arXiv	2024-01-31	Coming soon	-
LLaVA-NeXT: Improved reasoning, OCR, and world knowledge	Blog	2024-01-30	Github	Demo
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models	arXiv	2024-01-29	Github	Demo
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model	arXiv	2024-01-29	Github	Demo
Yi-VL	-	2024-01-23	Github	Local Demo
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities	arXiv	2024-01-22	-	-
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning	ACL	2024-01-04	Github	Local Demo
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices	arXiv	2023-12-28	Github	-
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	CVPR	2023-12-21	Github	Demo
Osprey: Pixel Understanding with Visual Instruction Tuning	CVPR	2023-12-15	Github	Demo
CogAgent: A Visual Language Model for GUI Agents	arXiv	2023-12-14	Github	Coming soon
Pixel Aligned Language Models	arXiv	2023-12-14	Coming soon	-
VILA: On Pre-training for Visual Language Models	CVPR	2023-12-13	Github	Local Demo
See, Say, and Segment: Teaching LMMs to Overcome False Premises	arXiv	2023-12-13	Coming soon	-
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models	ECCV	2023-12-11	Github	Demo
Honeybee: Locality-enhanced Projector for Multimodal LLM	CVPR	2023-12-11	Github	-
Gemini: A Family of Highly Capable Multimodal Models	Google	2023-12-06	-	-
OneLLM: One Framework to Align All Modalities with Language	arXiv	2023-12-06	Github	Demo
Lenna: Language Enhanced Reasoning Detection Assistant	arXiv	2023-12-05	Github	-
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding	arXiv	2023-12-04	-	-
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding	arXiv	2023-12-04	Github	Local Demo
Making Large Multimodal Models Understand Arbitrary Visual Prompts	CVPR	2023-12-01	Github	Demo
Dolphins: Multimodal Language Model for Driving	arXiv	2023-12-01	Github	-
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning	arXiv	2023-11-30	Github	Coming soon
VTimeLLM: Empower LLM to Grasp Video Moments	arXiv	2023-11-30	Github	Local Demo
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model	arXiv	2023-11-30	Github	-
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models	arXiv	2023-11-28	Github	Coming soon
LLMGA: Multimodal Large Language Model based Generation Assistant	arXiv	2023-11-27	Github	Demo
ChartLlama: A Multimodal LLM for Chart Understanding and Generation	arXiv	2023-11-27	Github	-
ShareGPT4V: Improving Large Multi-Modal Models with Better Captions	arXiv	2023-11-21	Github	Demo
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge	arXiv	2023-11-20	Github	-
An Embodied Generalist Agent in 3D World	arXiv	2023-11-18	Github	Demo
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection	arXiv	2023-11-16	Github	Demo
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding	CVPR	2023-11-14	Github	-
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning	arXiv	2023-11-13	Github	-
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models	arXiv	2023-11-13	Github	Demo
Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models	CVPR	2023-11-11	Github	Demo
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents	arXiv	2023-11-09	Github	Demo
NExT-Chat: An LMM for Chat, Detection and Segmentation	arXiv	2023-11-08	Github	Local Demo
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration	arXiv	2023-11-07	Github	Demo
OtterHD: A High-Resolution Multi-modality Model	arXiv	2023-11-07	Github	-
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding	arXiv	2023-11-06	Coming soon	-
GLaMM: Pixel Grounding Large Multimodal Model	CVPR	2023-11-06	Github	Demo
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning	arXiv	2023-11-02	Github	-
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning	arXiv	2023-10-14	Github	Local Demo
SALMONN: Towards Generic Hearing Abilities for Large Language Models	ICLR	2023-10-20	Github	-
Ferret: Refer and Ground Anything Anywhere at Any Granularity	arXiv	2023-10-11	Github	-
CogVLM: Visual Expert For Large Language Models	arXiv	2023-10-09	Github	Demo
Improved Baselines with Visual Instruction Tuning	arXiv	2023-10-05	Github	Demo
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	ICLR	2023-10-03	Github	Demo
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs	arXiv	2023-10-01	Github	-
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants	arXiv	2023-10-01	Github	Local Demo
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model	arXiv	2023-09-27	-	-
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	arXiv	2023-09-26	Github	Local Demo
DreamLLM: Synergistic Multimodal Comprehension and Creation	ICLR	2023-09-20	Github	Coming soon
An Empirical Study of Scaling Instruction-Tuned Large Multimodal Models	arXiv	2023-09-18	Coming soon	-
TextBind: Multi-turn Interleaved Multimodal Instruction-following	arXiv	2023-09-14	Github	Demo
NExT-GPT: Any-to-Any Multimodal LLM	arXiv	2023-09-11	Github	Demo
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics	arXiv	2023-09-13	Github	-
ImageBind-LLM: Multi-modality Instruction Tuning	arXiv	2023-09-07	Github	Demo
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning	arXiv	2023-09-05	-	-
PointLLM: Empowering Large Language Models to Understand Point Clouds	arXiv	2023-08-31	Github	Demo
✨Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models	arXiv	2023-08-31	Github	Local Demo
MLLM-DataEngine: An Iterative Refinement Approach for MLLM	arXiv	2023-08-25	Github	-
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models	arXiv	2023-08-25	Github	Demo
Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities	arXiv	2023-08-24	Github	Demo
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages	ICLR	2023-08-23	Github	Demo
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data	arXiv	2023-08-20	Github	-
BLIVA: A Simple Multimodal LLM for Better Handling of Text-rich Visual Questions	arXiv	2023-08-19	Github	Demo
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions	arXiv	2023-08-08	Github	-
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World	ICLR	2023-08-03	Github	Demo
LISA: Reasoning Segmentation via Large Language Model	arXiv	2023-08-01	Github	Demo
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding	arXiv	2023-07-31	Github	Local Demo
3D-LLM: Injecting the 3D World into Large Language Models	arXiv	2023-07-24	Github	-
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning	arXiv	2023-07-18	-	Demo
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs	arXiv	2023-07-17	Github	Demo
SVIT: Scaling up Visual Instruction Tuning	arXiv	2023-07-09	Github	-
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest	arXiv	2023-07-07	Github	Demo
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?	arXiv	2023-07-05	Github	-
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding	arXiv	2023-07-04	Github	Demo
Visual Instruction Tuning with Polite Flamingo	arXiv	2023-07-03	Github	Demo
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	arXiv	2023-06-29	Github	Demo
Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic	arXiv	2023-06-27	Github	Demo
MotionGPT: Human Motion as a Foreign Language	arXiv	2023-06-26	Github	-
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration	arXiv	2023-06-15	Github	Coming soon
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark	arXiv	2023-06-11	Github	Demo
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models	arXiv	2023-06-08	Github	Demo
MIMIC-IT: Multi-Modal In-Context Instruction Tuning	arXiv	2023-06-08	Github	Demo
M³IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning	arXiv	2023-06-07	-	-
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding	arXiv	2023-06-05	Github	Demo
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	arXiv	2023-06-01	Github	-
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction	arXiv	2023-05-30	Github	Demo
PandaGPT: One Model To Instruction-Follow Them All	arXiv	2023-05-25	Github	Demo
ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst	arXiv	2023-05-25	Github	-
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models	arXiv	2023-05-24	Github	Local Demo
DetGPT: Detect What You Need via Reasoning	arXiv	2023-05-23	Github	Demo
Pengi: An Audio Language Model for Audio Tasks	NeurIPS	2023-05-19	Github	-
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks	arXiv	2023-05-18	Github	-
Listen, Think, and Understand	arXiv	2023-05-18	Github	Demo
VisualGLM-6B	-	2023-05-17	Github	Local Demo
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering	arXiv	2023-05-17	Github	-
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning	arXiv	2023-05-11	Github	Local Demo
VideoChat: Chat-Centric Video Understanding	arXiv	2023-05-10	Github	Demo
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans	arXiv	2023-05-08	Github	Demo
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages	arXiv	2023-05-07	Github	-
LMEye: An Interactive Perception Network for Large Language Models	arXiv	2023-05-05	Github	Local Demo
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model	arXiv	2023-04-28	Github	Demo
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality	arXiv	2023-04-27	Github	Demo
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	arXiv	2023-04-20	Github	-
Visual Instruction Tuning	NeurIPS	2023-04-17	GitHub	Demo
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention	ICLR	2023-03-28	Github	Demo
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning	ACL	2022-12-21	Github	-

多模态幻觉

标题	场所	日期	代码	演示
回答前再看两眼：用于缓解多模态大语言模型中幻觉的记忆空间视觉回溯	arXiv	2024-10-04	Github	-
解释与编辑视觉-语言表示以缓解幻觉	arXiv	2024-10-03	Github	-
FIHA：基于戴维森场景图的视觉-语言模型自主幻觉评估	arXiv	2024-09-20	链接	-
通过主动检索增强缓解大型视觉-语言模型中的幻觉	arXiv	2024-08-01	-	-
更加关注图像：一种无需训练即可缓解LVLMs中幻觉的方法	ECCV	2024-07-31	Github	-
评估和分析LVLMs中的关系幻觉	ICML	2024-06-24	Github	-
AGLA：利用全局与局部注意力的组合来缓解大型视觉-语言模型中的对象幻觉	arXiv	2024-06-18	Github	-
CODE：对比自动生成的描述以对抗大型多模态模型中的幻觉	arXiv	2024-06-04	即将推出	-
通过数据增强的对比微调缓解对象幻觉	arXiv	2024-05-28	即将推出	-
VDGD：通过弥合视觉感知差距来缓解认知提示中的LVLM幻觉	arXiv	2024-05-24	即将推出	-
通过细粒度的AI反馈检测并缓解大型视觉语言模型中的幻觉	arXiv	2024-04-22	-	-
使用指令对比解码缓解大型视觉-语言模型中的幻觉	arXiv	2024-03-27	-	-
如果……呢？：反事实启发式方法以缓解大型多模态模型中的幻觉效应	arXiv	2024-03-20	Github	-
通过自举偏好优化强化多模态大语言模型	arXiv	2024-03-13	-	-
去偏见多模态大语言模型	arXiv	2024-03-08	Github	-
HALC：通过适应性焦点-对比解码减少对象幻觉	arXiv	2024-03-01	Github	-
IBD：通过图像偏向解码缓解大型视觉-语言模型中的幻觉	arXiv	2024-02-28	-	-
少即是多：从EOS决策角度缓解多模态幻觉	arXiv	2024-02-22	Github	-
逻辑闭环：揭示大型视觉-语言模型中的对象幻觉	arXiv	2024-02-18	Github	-
本能偏差：虚假图像导致MLLMs中的幻觉	arXiv	2024-02-06	Github	-
多模态大语言模型统一幻觉检测	arXiv	2024-02-05	Github	-
大型视觉-语言模型中幻觉的综述	arXiv	2024-02-01	-	-
时间洞察力提升：缓解多模态大语言模型中的时间幻觉	arXiv	2024-01-18	-	-
面向多模态大语言模型的幻觉增强对比学习	arXiv	2023-12-12	Github	-
MOCHa：多目标强化学习缓解字幕幻觉	arXiv	2023-12-06	Github	-
通过字幕重写微调大型视觉-语言模型以缓解细粒度幻觉	arXiv	2023-12-04	Github	-
RLHF-V：通过来自细粒度纠正性人类反馈的行为对齐，迈向可信的MLLMs	arXiv	2023-12-01	Github	演示
OPERA：通过过度信任惩罚和回顾分配缓解多模态大语言模型中的幻觉	CVPR	2023-11-29	Github	-
通过视觉对比解码缓解大型视觉-语言模型中的对象幻觉	CVPR	2023-11-28	Github	-
超越幻觉：通过幻觉感知直接偏好优化提升LVLMs性能	arXiv	2023-11-28	Github	即将推出
借助视觉监督缓解视觉语言模型中的幻觉	arXiv	2023-11-27	-	-
HalluciDoctor：缓解视觉指令数据中的幻觉毒性	arXiv	2023-11-22	Github	-
无LLM的多维度基准测试，用于MLLMs幻觉评估	arXiv	2023-11-13	Github	-
FAITHSCORE：评估大型视觉-语言模型中的幻觉	arXiv	2023-11-02	Github	-
啄木鸟：多模态大语言模型的幻觉修正	arXiv	2023-10-24	Github	演示
负对象存在评估（NOPE）用于测量视觉-语言模型中的对象幻觉	arXiv	2023-10-09	-	-
HallE-Switch：重新思考并控制大型视觉语言模型中为详细字幕而产生的对象存在幻觉	arXiv	2023-10-03	Github	-
分析并缓解大型视觉-语言模型中的对象幻觉	ICLR	2023-10-01	Github	-
用事实增强的RLHF对齐大型多模态模型	arXiv	2023-09-25	Github	演示
多模态大语言模型中失认症的评估与缓解	arXiv	2023-09-07	-	-
CIEM：更好的指令微调的对比指令评估方法	arXiv	2023-09-05	-	-
大型视觉-语言模型中幻觉的评估与分析	arXiv	2023-08-29	Github	-
VIGC：视觉指令生成与修正	arXiv	2023-08-24	Github	演示
检测并预防大型视觉语言模型中的幻觉	arXiv	2023-08-11	-	-
通过稳健的指令微调缓解大型多模态模型中的幻觉	ICLR	2023-06-26	Github	演示
评估大型视觉-语言模型中的对象幻觉	EMNLP	2023-05-17	Github	-

多模态上下文学习

标题	会议/平台	日期	代码	演示
大型视觉-语言模型的视觉上下文学习	arXiv	2024-02-18	-	-
RAG-Driver：基于检索增强型多模态大语言模型上下文学习的可泛化驾驶解释	RSS	2024-02-16	Github	-
多模态大语言模型能否进行文本到图像的上下文学习？	arXiv	2024-02-02	Github	-
生成式多模态模型是上下文学习者	CVPR	2023-12-20	Github	Demo
劫持大型多模态模型中的上下文	arXiv	2023-12-07	-	-
迈向更加统一的视觉上下文理解	arXiv	2023-12-05	-	-
MMICL：通过多模态上下文学习赋能视觉-语言模型	arXiv	2023-09-14	Github	Demo
面向多模态LLM的链接上下文学习	arXiv	2023-08-15	Github	Demo
OpenFlamingo：用于训练大型自回归视觉-语言模型的开源框架	arXiv	2023-08-02	Github	Demo
Med-Flamingo：一种多模态医学少样本学习器	arXiv	2023-07-27	Github	本地演示
多模态下的生成式预训练	ICLR	2023-07-11	Github	Demo
AVIS：利用大型语言模型实现自主视觉信息搜索	arXiv	2023-06-13	-	-
MIMIC-IT：多模态上下文指令调优	arXiv	2023-06-08	Github	Demo
探索用于图像字幕生成的多样化上下文配置	NeurIPS	2023-05-24	Github	-
Chameleon：利用大型语言模型实现即插即用的组合推理	arXiv	2023-04-19	Github	Demo
HuggingGPT：借助ChatGPT及其在HuggingFace中的伙伴解决AI任务	arXiv	2023-03-30	Github	Demo
MM-REACT：提示ChatGPT进行多模态推理与行动	arXiv	2023-03-20	Github	Demo
ICL-D3IE：使用多样化的演示进行文档信息抽取的上下文学习	ICCV	2023-03-09	Github	-
利用答案启发式提示大型语言模型进行基于知识的视觉问答	CVPR	2023-03-03	Github	-
视觉编程：无需训练的组合式视觉推理	CVPR	2022-11-18	Github	本地演示
关于GPT-3在少样本知识型VQA中的实证研究	AAAI	2022-06-28	Github	-
Flamingo：一种用于少样本学习的视觉语言模型	NeurIPS	2022-04-29	Github	Demo
冻结语言模型下的多模态少样本学习	NeurIPS	2021-06-25	-	-

多模态思维链

标题	会议/平台	日期	代码	演示
Insight-V：利用多模态大语言模型探索长链式视觉推理	arXiv	2024-11-21	Github	-
Cantor：激发MLLM的多模态思维链	arXiv	2024-04-24	Github	本地演示
Visual CoT：释放多模态语言模型中的思维链推理能力	arXiv	2024-03-25	Github	本地演示
面向大型多模态模型的组合式思维链提示	CVPR	2023-11-27	Github	-
DDCoT：用于语言模型多模态推理的职责分明思维链提示	NeurIPS	2023-10-25	Github	-
Shikra：释放多模态LLM的指代对话魔力	arXiv	2023-06-27	Github	演示
可解释的多模态情感推理	arXiv	2023-06-27	Github	-
EmbodiedGPT：通过具身思维链进行视觉-语言预训练	arXiv	2023-05-24	Github	-
逐帧思考：用视频补全与预测评估视频思维链	arXiv	2023-05-23	-	-
T-SciQ：通过大语言模型信号教授多模态思维链推理以解答科学问题	arXiv	2023-05-05	-	-
Caption Anything：借助多样化的多模态控件实现交互式图像描述	arXiv	2023-05-04	Github	演示
视觉思维链：用多模态补全弥合逻辑断层	arXiv	2023-05-03	即将发布	-
Chameleon：使用大语言模型实现即插即用的组合式推理	arXiv	2023-04-19	Github	演示
视觉语言模型中的思维链提示调优	arXiv	2023-04-16	即将发布	-
MM-REACT：提示ChatGPT实现多模态推理与行动	arXiv	2023-03-20	Github	演示
视觉ChatGPT：与视觉基础模型对话、绘图和编辑	arXiv	2023-03-08	Github	演示
语言模型中的多模态思维链推理	arXiv	2023-02-02	Github	-
视觉编程：无需训练的组合式视觉推理	CVPR	2022-11-18	Github	本地演示
学会解释：通过思维链进行多模态推理以解答科学问题	NeurIPS	2022-09-20	Github	-

大语言模型辅助的视觉推理

标题	会议/平台	日期	代码	演示
VideoDeepResearch: 基于智能体工具的长视频理解	arXiv	2025-06-12	Github	本地演示
超越嵌入：视觉表格在多模态模型中的潜力	arXiv	2024-03-27	Github	-
V∗：引导式视觉搜索作为多模态大语言模型的核心机制	arXiv	2023-12-21	Github	本地演示
LLaVA-Interactive：图像聊天、分割、生成与编辑的一体化演示	arXiv	2023-11-01	Github	演示
MM-VID：利用GPT-4V（视觉）推进视频理解	arXiv	2023-10-30	-	-
ControlLLM：通过图搜索为语言模型增强工具能力	arXiv	2023-10-26	Github	-
Woodpecker：多模态大型语言模型的幻觉纠正	arXiv	2023-10-24	Github	演示
MindAgent：涌现的游戏交互	arXiv	2023-09-18	Github	-
迈向能“看见”的语言模型：通过自然语言之“镜”看计算机视觉	arXiv	2023-06-28	Github	演示
检索问答：基于冻结大型语言模型的零样本视频问答	arXiv	2023-06-15	-	-
AssistGPT：能够规划、执行、检查和学习的通用多模态助手	arXiv	2023-06-14	Github	-
AVIS：基于大型语言模型的自主视觉信息搜索	arXiv	2023-06-13	-	-
GPT4Tools：通过自我指导训练大型语言模型使用工具	arXiv	2023-05-30	Github	演示
基于自然语言的心智社会中的思维风暴	arXiv	2023-05-26	-	-
LayoutGPT：利用大型语言模型进行组合式的视觉规划与生成	arXiv	2023-05-24	Github	-
IdealGPT：通过大型语言模型迭代分解视觉与语言推理	arXiv	2023-05-24	Github	本地演示
可问责的文本-视觉聊天学会了在图像重建中拒绝人类指令	arXiv	2023-05-10	Github	-
Caption Anything：具有多样化多模态控件的交互式图像描述	arXiv	2023-05-04	Github	演示
Chameleon：利用大型语言模型实现即插即用的组合式推理	arXiv	2023-04-19	Github	演示
HuggingGPT：借助ChatGPT及其在HuggingFace中的伙伴解决AI任务	arXiv	2023-03-30	Github	演示
MM-REACT：提示ChatGPT进行多模态推理与行动	arXiv	2023-03-20	Github	演示
ViperGPT：通过Python执行进行视觉推理	arXiv	2023-03-14	Github	本地演示
ChatGPT提问，BLIP-2回答：自动提问以丰富视觉描述	arXiv	2023-03-12	Github	本地演示
ICL-D3IE：利用多样化的示范更新进行文档信息抽取的上下文学习	ICCV	2023-03-09	-	-
视觉ChatGPT：与视觉基础模型对话、绘图和编辑	arXiv	2023-03-08	Github	演示
提示、生成并缓存：基础模型的级联使少样本学习者更强大	CVPR	2023-03-03	Github	-
从图像到文本提示：利用冻结大型语言模型进行零样本VQA	CVPR	2022-12-21	Github	演示
SuS-X：无需训练的语言-视觉模型仅凭名称迁移	arXiv	2022-11-28	Github	-
PointCLIP V2：适配CLIP以实现强大的3D开放世界学习	CVPR	2022-11-21	Github	-
视觉编程：无需训练的组合式视觉推理	CVPR	2022-11-18	Github	本地演示
苏格拉底模型：利用语言构建零样本多模态推理	arXiv	2022-04-01	Github	-

基础模型

标题	场所	日期	代码	演示
介绍GPT-5	OpenAI	2025-08-07	-	-
VideoLLaMA 3：用于图像和视频理解的前沿多模态基础模型	arXiv	2025-01-22	Github	Demo
Emu3：只需预测下一个token即可	arXiv	2024-09-27	Github	本地演示
Llama 3.2：通过开放、可定制的模型革新边缘AI与视觉技术	Meta	2024-09-25	-	Demo
Pixtral-12B	Mistral	2024-09-17	-	-
xGen-MM（BLIP-3）：一系列开源大型多模态模型	arXiv	2024-08-16	Github	-
Llama 3模型家族	arXiv	2024-07-31	-	-
Chameleon：混合模态早期融合基础模型	arXiv	2024-05-16	-	-
你好，GPT-4o	OpenAI	2024-05-13	-	-
Claude 3模型家族：Opus、Sonnet、Haiku	Anthropic	2024-03-04	-	-
Gemini 1.5：解锁跨越数百万个token上下文的多模态理解能力	Google	2024-02-15	-	-
Gemini：一个功能强大的多模态模型家族	Google	2023-12-06	-	-
Fuyu-8B：面向AI代理的多模态架构	博客	2023-10-17	Huggingface	Demo
用于图像、视频、音频和语言任务的统一模型	arXiv	2023-07-30	Github	Demo
PaLI-3视觉语言模型：更小、更快、更强	arXiv	2023-10-13	-	-
GPT-4V（vision）系统卡片	OpenAI	2023-09-25	-	-
在LLM中进行动态离散视觉标记化的统一语言-视觉预训练	arXiv	2023-09-09	Github	-
多模态基础模型：从专家到通用助手	arXiv	2023-09-18	-	-
通过解耦的语言预训练来启动视觉-语言学习	NeurIPS	2023-07-13	Github	-
多模态中的生成式预训练	arXiv	2023-07-11	Github	Demo
Kosmos-2：将多模态大型语言模型与世界连接起来	arXiv	2023-06-26	Github	Demo
跨LLM传递视觉提示生成器	arXiv	2023-05-02	Github	Demo
GPT-4技术报告	arXiv	2023-03-15	-	-
PaLM-E：一种具身化多模态语言模型	arXiv	2023-03-06	-	Demo
Prismer：一种具有专家集成的视觉-语言模型	arXiv	2023-03-04	Github	Demo
语言并非一切：将感知与语言模型对齐	arXiv	2023-02-27	Github	-
BLIP-2：利用冻结的图像编码器和大型语言模型启动语言-图像预训练	arXiv	2023-01-30	Github	Demo
VIMA：利用多模态提示进行通用机器人操作	ICML	2022-10-06	Github	本地演示
MineDojo：构建具有互联网规模知识的开放式具身智能体	NeurIPS	2022-06-17	Github	-
写作与绘画：生成式视觉-语言模型是统一的模态学习者	ICLR	2022-06-15	Github	-
语言模型是通用接口	arXiv	2022-06-13	Github	-

评估

标题	场所	日期	页面
空间中的思考：多模态大语言模型如何感知、记忆和回忆空间	arXiv	2024-12-18	Github
MMGenBench：从文本到图像生成的角度评估多模态大模型的极限	arXiv	2024-11-21	Github
OmniBench：迈向通用全能语言模型的未来	arXiv	2024-09-23	Github
MME-RealWorld：你的多模态大模型能否应对连人类都难以处理的高分辨率真实场景？	arXiv	2024-08-23	Github
UNK-VQA：一个多模态大模型的弃权能力数据集及探针	TPAMI	2023-10-17	Github
MMEvalPro：校准多模态基准测试，实现可信高效的评估	arXiv	2024-06-29	Github
Web2Code：面向多模态大模型的大规模网页转代码数据集与评估框架	arXiv	2024-06-28	Github
CharXiv：揭示多模态大模型在现实图表理解上的差距	arXiv	2024-06-26	Github
ChartMimic：通过图表到代码生成评估多模态大模型的跨模态推理能力	arXiv	2024-04-15	Github
Video-MME：首个全面的多模态大模型视频分析评估基准	arXiv	2024-05-31	Github
针对常见干扰对大型多模态模型进行基准测试	NAACL	2024-01-22	Github
睁眼瞎？探索多模态大模型的视觉缺陷	arXiv	2024-01-11	Github
GPT-4V的挑战者？Gemini在视觉专长方面的早期探索	arXiv	2023-12-19	Github
BenchLMM：大型多模态模型跨风格视觉能力的基准测试	arXiv	2023-12-05	Github
这张图里有多少只独角兽？视觉大模型的安全性评估基准	arXiv	2023-11-27	Github
开拓新领域：探索多模态大模型的地缘与地理空间能力	arXiv	2023-11-24	Github
MLLM-Bench，使用GPT-4V评估多模态大模型	arXiv	2023-11-23	Github
VLM-Eval：关于视频大语言模型的一般性评估	arXiv	2023-11-20	即将发布
GPT-4V(ision)中幻觉现象的综合分析：偏见与干扰挑战	arXiv	2023-11-06	Github
与GPT-4V(ision)同行：视觉-语言模型在自动驾驶领域的早期探索	arXiv	2023-11-09	Github
迈向通用异常检测与理解：大规模视觉-语言模型（GPT-4V）引领潮流	arXiv	2023-11-05	-
GPT-4V在医学影像中的多模态能力综合研究	arXiv	2023-10-31	-
GPT-4V(ision)的早期评估	arXiv	2023-10-25	Github
探索GPT-4V(ision)的OCR能力：一项定量且深入的评估	arXiv	2023-10-25	Github
HallusionBench：你看到的是你想到的，还是你想到的是你看到的？一个对GPT-4V(ision)、LLaVA-1.5及其他多模态模型构成挑战的图像-上下文推理基准	CVPR	2023-10-23	Github
MathVista：利用GPT-4V、Bard等大型多模态模型评估视觉情境下的数学推理能力	ICLR	2023-10-03	Github
用极其简单的排列组合就能愚弄你的（视觉和）语言模型	arXiv	2023-10-02	Github
超越任务表现：通过上下文学习评估并减少大型多模态模型的缺陷	arXiv	2023-10-01	Github
我们能编辑多模态大语言模型吗？	arXiv	2023-10-12	Github
REVO-LION：评估和优化视觉-语言指令微调数据集	arXiv	2023-10-10	Github
多模态大模型的黎明：与GPT-4V(vision)的初步探索	arXiv	2023-09-29	-
TouchStone：用语言模型评估视觉-语言模型	arXiv	2023-08-31	Github
✨Sparkles：为多模态指令遵循模型解锁跨多张图片的对话能力	arXiv	2023-08-31	Github
SciGraphQA：一个用于科学图谱的大规模合成多轮问答数据集	arXiv	2023-08-07	Github
Tiny LVLM-eHub：与Bard的早期多模态实验	arXiv	2023-08-07	Github
MM-Vet：评估大型多模态模型的综合能力	arXiv	2023-08-04	Github
SEED-Bench：以生成式理解为基准评估多模态大模型	CVPR	2023-07-30	Github
MMBench：你的多模态模型是全能选手吗？	arXiv	2023-07-12	Github
MME：多模态大语言模型的综合评估基准	arXiv	2023-06-23	Github
LVLM-eHub：大型视觉-语言模型的综合评估基准	arXiv	2023-06-15	Github
LAMM：语言辅助的多模态指令微调数据集、框架和基准	arXiv	2023-06-11	Github
M3Exam：一个多语种、多模态、多层次的基准，用于评估大型语言模型	arXiv	2023-06-08	Github
大型多模态模型中OCR功能的隐秘奥秘	arXiv	2023-05-13	Github

多模态RLHF

标题	会议/期刊	日期	代码	演示
R1-Reward：通过稳定强化学习训练多模态奖励模型	arXiv	2025-05-09	Github	-
多模态大语言模型与人类偏好对齐：综述	arXiv	2025-03-23	Github	-
MM-RLHF：多模态大语言模型对齐的下一步进展	arXiv	2025-02-14	Github	-
利用多轮偏好优化提升多模态大语言模型在精细准确视频字幕生成上的能力	arXiv	2024-10-09	-	-
Silkie：大型视觉语言模型的偏好蒸馏	arXiv	2023-12-17	Github	-
RLHF-V：通过细粒度纠正性人类反馈实现行为对齐，迈向可信的多模态大语言模型	arXiv	2023-12-01	Github	演示
基于事实增强的RLHF对齐大型多模态模型	arXiv	2023-09-25	Github	演示
RoVRM：一种通过辅助文本偏好数据优化的鲁棒视觉奖励模型	arXiv	2024-08-22	Github	-

其他

标题	会议/期刊	日期	代码	演示
TS-LLaVA：通过缩略图采样构建视觉 token，用于免训练视频大语言模型	arXiv	2024-11-17	Github	-
几乎零成本的安全微调：视觉大语言模型的基线方法	arXiv	2024-02-03	Github	-
VCoder：多模态大语言模型的通用视觉编码器	arXiv	2023-12-21	Github	本地演示
Prompt Highlighter：多模态大语言模型的交互式控制工具	arXiv	2023-12-07	Github	-
在大语言模型中植入视觉“种子”	arXiv	2023-07-16	Github
大型预训练模型能否帮助视觉模型完成感知任务？	arXiv	2023-06-01	Github	-
利用多模态大语言模型进行上下文感知目标检测	arXiv	2023-05-29	Github	演示
利用多模态语言模型生成图像	arXiv	2023-05-26	Github	-
关于评估大型视觉-语言模型的对抗鲁棒性	arXiv	2023-05-26	Github	-
将语言模型与图像对齐，实现多模态输入输出	ICML	2023-01-31	Github	演示

优秀数据集

对齐预训练数据集

名称	论文	类型	模态
ShareGPT4Video	ShareGPT4Video：通过更优质的字幕提升视频理解和生成能力	字幕	视频-文本
COYO-700M	COYO-700M：图像-文本对数据集	字幕	图像-文本
ShareGPT4V	ShareGPT4V：通过更优质的字幕提升多模态大模型性能	字幕	图像-文本
AS-1B	全视项目：迈向开放世界的全景视觉识别与理解	混合	图像-文本
InternVid	InternVid：用于多模态理解和生成的大规模视频-文本数据集	字幕	视频-文本
MS-COCO	微软COCO：上下文中的常见物体	字幕	图像-文本
SBU Captions	Im2Text：使用100万张带字幕的照片描述图像	字幕	图像-文本
Conceptual Captions	概念性字幕：一个经过清理、采用上位词标注的图像替代文本数据集，用于自动图像字幕生成	字幕	图像-文本
LAION-400M	LAION-400M：CLIP筛选后的4亿对图像-文本公开数据集	字幕	图像-文本
VG Captions	视觉图谱：利用众包密集图像标注连接语言与视觉	字幕	图像-文本
Flickr30k	Flickr30k Entities：收集区域与短语对应关系，以构建更丰富的图像到句子模型	字幕	图像-文本
AI-Caps	AI Challenger：一个用于深入图像理解的大规模数据集	字幕	图像-文本
Wukong Captions	悟空：一个1亿规模的中文跨模态预训练基准数据集	字幕	图像-文本
GRIT	Kosmos-2：将多模态大型语言模型与现实世界关联起来	字幕	图像-文本-边界框
Youku-mPLUG	优酷-mPLUG：一个1000万规模的中文视频-语言数据集，用于预训练和基准测试	字幕	视频-文本
MSR-VTT	MSR-VTT：一个大型视频描述数据集，用于连接视频与语言	字幕	视频-文本
Webvid10M	Frozen in Time：用于端到端检索的联合视频和图像编码器	字幕	视频-文本
WavCaps	WavCaps：一个由ChatGPT辅助的弱标签音频字幕数据集，用于音频-语言多模态研究	字幕	音频-文本
AISHELL-1	AISHELL-1：一个开源的普通话语音语料库及语音识别基准	ASR	音频-文本
AISHELL-2	AISHELL-2：将普通话语音识别研究推向工业规模	ASR	音频-文本
VSDial-CN	X-LLM：将多模态视为外语，从而构建先进的大型语言模型	ASR	图像-音频-文本

多模态指令微调数据集

名称	论文	链接	备注
Inst-IT 数据集	Inst-IT：通过显式视觉提示指令微调提升多模态实例理解能力	链接	一个包含21,000个视频和51,000张图像的细粒度多层级标注指令微调数据集
E.T. Instruct 164K	E.T. Bench：迈向开放式事件级视频-语言理解	链接	一个用于时序敏感视频理解的指令微调数据集
MSQA	3D场景中的多模态情境推理	链接	一个大规模的3D场景多模态情境推理数据集
MM-Evol	MMEvol：借助Evol-Instruct增强多模态大语言模型	链接	一个具有丰富多样性的指令数据集
UNK-VQA	UNK-VQA：一个多模态大模型回避回答能力的数据集与探究	链接	一个旨在训练模型对无法回答的问题保持沉默的数据集
VEGA	VEGA：在视觉-语言大模型中学习交错图文理解	链接	一个用于提升模型交错信息理解能力的数据集
ALLaVA-4V	ALLaVA：利用GPT4V合成数据构建轻量级视觉-语言模型	链接	由GPT4V生成的视觉与语言字幕及指令数据集
IDK	视觉去幻觉指令生成：知之为知，不知为不知	链接	针对“I Know”幻觉的去幻觉视觉指令
CAP2QA	视觉去幻觉指令生成	链接	图像对齐的视觉指令数据集
M3DBench	M3DBench：用多模态3D提示指导大模型	链接	一个大规模的3D指令微调数据集
ViP-LLaVA-Instruct	让大型多模态模型理解任意视觉提示	链接	LLaVA-1.5指令数据与区域级视觉提示数据的混合
LVIS-Instruct4V	眼见为实：通过GPT-4V提示优化视觉指令微调	链接	由GPT-4V自我生成的视觉指令数据集
ComVint	什么样的视觉指令才是好的？为视觉指令微调合成复杂视觉推理指令	链接	一个用于复杂视觉推理的合成指令数据集
SparklesDialogue	✨Sparkles：解锁多图像对话，赋能多模态指令遵循模型	链接	一个机器生成的对话数据集，专为跨多张图像和多轮对话的指令遵循型大语言模型设计，以增强其对话能力。
StableLLaVA	StableLLaVA：利用合成图像-对话数据提升视觉指令微调效果	链接	一种经济高效地收集视觉指令微调数据的方法
M-HalDetect	检测并预防大型视觉-语言模型中的幻觉	即将发布	一个用于训练和评估模型幻觉检测与预防能力的数据集
MGVLID	ChatSpot：通过精准指代指令微调启动多模态大语言模型	-	一个高质量的指令微调数据集，包含图像-文本和区域-文本对
BuboGPT	BuboGPT：在多模态大语言模型中实现视觉定位	链接	一个高质量的指令微调数据集，包含音频-文本、音频字幕以及音频-图像-文本定位数据
SVIT	SVIT：扩大视觉指令微调规模	链接	一个大规模数据集，包含420万条富含信息的视觉指令微调数据，涵盖对话、详细描述、复杂推理和指代问答等任务
mPLUG-DocOwl	mPLUG-DocOwl：模块化多模态大语言模型用于文档理解	链接	一个指令微调数据集，涵盖广泛的视觉-文本理解任务，包括无需OCR的文档理解
PF-1M	使用Polite Flamingo进行视觉指令微调	链接	一个包含37个视觉-语言数据集的合集，其回复均由Polite Flamingo改写而成。
ChartLlama	ChartLlama：用于图表理解和生成的多模态大语言模型	链接	一个用于图表理解和生成的多模态指令微调数据集
LLaVAR	LLaVAR：针对富含文本的图像理解增强视觉指令微调	链接	一个用于富含文本图像理解的视觉指令微调数据集
MotionGPT	MotionGPT：将人体运动视为一门外语	链接	一个包含多项人体运动相关任务的指令微调数据集
LRV-Instruction	通过稳健的指令微调缓解大型多模态模型中的幻觉问题	链接	一个用于解决幻觉问题的视觉指令微调数据集
Macaw-LLM	Macaw-LLM：融合图像、音频、视频和文本的多模态语言建模	链接	一个大规模的多模态指令数据集，以多轮对话形式呈现
LAMM-Dataset	LAMM：语言辅助的多模态指令微调数据集、框架与基准测试	链接	一个全面的多模态指令微调数据集
Video-ChatGPT	Video-ChatGPT：借助大型视觉和语言模型实现精细化视频理解	链接	一个包含10万个高质量视频指令的数据集
MIMIC-IT	MIMIC-IT：多模态上下文指令微调	链接	多模态上下文指令微调
M³IT	M³IT：迈向多模态多语言指令微调的大规模数据集	链接	一个大规模、覆盖广泛的多模态指令微调数据集
LLaVA-Med	LLaVA-Med：一天内训练一个面向生物医学领域的大型语言-视觉助手	即将发布	一个大规模、覆盖广泛的生物医学指令遵循数据集
GPT4Tools	GPT4Tools：通过自我指令教学大语言模型使用工具	链接	工具相关的指令数据集
MULTIS	ChatBridge：以大语言模型为语言催化剂连接不同模态	即将发布	一个涵盖16种多模态任务的指令微调数据集
DetGPT	DetGPT：通过推理检测你需要的东西	链接	一个包含5,000张图像和约30,000组问答对的指令微调数据集
PMC-VQA	PMC-VQA：用于医学视觉问答的视觉指令微调	即将发布	一个大规模的医学视觉问答数据集
VideoChat	VideoChat：以聊天为中心的视频理解	链接	一个以视频为中心的多模态指令数据集
X-LLM	X-LLM：将多模态视为外语来构建先进大语言模型	链接	一个中文多模态指令微调数据集
LMEye	LMEye：为大语言模型打造的交互式感知网络	链接	一个多模态指令微调数据集
cc-sbu-align	MiniGPT-4：利用先进大语言模型提升视觉-语言理解能力	链接	一个用于提高模型可用性和生成流畅性的多模态对齐数据集
LLaVA-Instruct-150K	视觉指令微调	链接	由GPT生成的多模态指令遵循数据
MultiInstruct	MultiInstruct：通过指令微调提升多模态零样本学习	链接	第一个多模态指令微调基准数据集

上下文学习数据集

名称	论文	链接	备注
MIC	MMICL：通过多模态上下文学习增强视觉-语言模型	链接	一个手动构建的指令微调数据集，包含交错的文本-图像输入、相互关联的多张图像输入以及多模态上下文学习输入。
MIMIC-IT	MIMIC-IT：多模态上下文指令微调	链接	多模态上下文指令数据集

多模态思维链数据集

名称	论文	链接	备注
EMER	可解释的多模态情感推理	即将发布	用于可解释情感推理任务的基准数据集
EgoCOT	EmbodiedGPT：通过具身思维链进行视觉-语言预训练	即将发布	大规模具身规划数据集
VIP	逐帧思考：利用视频补全与预测评估视频思维链	即将发布	可用于评估VideoCOT的推理时数据集
ScienceQA	学会解释：基于思维链的多模态推理在科学问答中的应用	链接	大规模选择题数据集，包含多模态科学问题和多样化的领域

多模态RLHF数据集

名称	论文	链接	备注
VLFeedback	Silkie：大型视觉-语言模型的偏好蒸馏	链接	由AI标注的视觉-语言反馈数据集

评估基准

名称	论文	链接	备注
Inst-IT Bench	Inst-IT: 通过显式视觉提示指令微调提升多模态实例理解	链接	用于评估图像和视频中细粒度实例级理解的基准
M³CoT	M³CoT: 一种新型的多领域、多步骤、多模态思维链基准	链接	用于多模态思维链的多领域、多步骤基准
MMGenBench	MMGenBench: 从文本到图像生成的角度评估大型多模态模型的极限	链接	一个衡量给定图像生成图像描述提示性能的基准
MiCEval	MiCEval: 通过图像描述和推理步骤揭示多模态思维链的质量	链接	用于评估多模态LLM推理能力的多模态思维链基准
LiveXiv	LiveXiv -- 基于Arxiv论文内容的多模态实时基准	链接	基于Arxiv论文的实时基准
TemporalBench	TemporalBench: 为多模态视频模型评估细粒度时间理解能力的基准	链接	用于评估细粒度时间理解能力的基准
OmniBench	OmniBench: 通往通用全语言模型未来之路	链接	一个评估模型同时处理视觉、听觉和文本输入能力的基准
MME-RealWorld	MME-RealWorld: 您的多模态大模型能否应对对人类来说也极具挑战性的高分辨率真实场景？	链接	一个包含真实生活场景的高难度基准
VELOCITI	VELOCITI: 视频-语言模型能否在时间维度上绑定语义概念？	链接	一个评估感知和绑定能力的视频基准
MMR	看得清楚，答得错误：用于评估多模态大模型在诱导性问题上的理解和鲁棒性基准	链接	一个用于衡量多模态大模型理解能力和对诱导性问题鲁棒性的基准
CharXiv	CharXiv: 揭示多模态大模型在现实图表理解方面的差距	链接	由人类专家策划的图表理解基准
Video-MME	Video-MME: 首个全面评估多模态大模型视频分析能力的基准	链接	一个全面评估多模态大模型视频分析能力的基准
VL-ICL Bench	VL-ICL Bench: 多模态上下文学习评估中的细节陷阱	链接	一个涵盖广泛任务的多模态上下文学习评估基准
TempCompass	TempCompass: 视频大模型真的能理解视频吗？	链接	一个评估视频大模型时间感知能力的基准
GVLQA	GITA: 图到视觉与文本的融合，用于视觉-语言图推理	链接	一个评估图推理能力的基准
CoBSAT	多模态大模型能否进行文本到图像的上下文学习？	链接	一个用于文本到图像上下文学习的基准
VQAv2-IDK	视觉去幻觉指令生成：知道自己不知道什么	链接	一个用于评估“我知道”型视觉幻觉的基准
Math-Vision	使用MATH-Vision数据集衡量多模态数学推理能力	链接	一个多样化的数学推理基准
SciMMIR	SciMMIR: 科学领域多模态信息检索评估基准	链接	一个用于科学领域多模态信息检索的基准
CMMMU	CMMMU: 中国大规模跨学科多模态理解基准	链接	一个涉及多学科推理和知识的中文基准
MMCBench	针对常见扰动对大型多模态模型进行基准测试	链接	一个用于检验模型在常见扰动下自我一致性的基准
MMVP	睁眼瞎？探索多模态大模型的视觉缺陷	链接	一个评估视觉能力的基准
TimeIT	TimeChat: 一款面向长视频理解的时间敏感型多模态大语言模型	链接	一个带有时间戳标注的视频指令微调数据集，覆盖多种时间敏感的视频理解任务。
ViP-Bench	让大型多模态模型理解任意视觉提示	链接	一个用于视觉提示的基准
M3DBench	M3DBench: 让我们用多模态3D提示来指导大型模型	链接	一个以3D为中心的基准
Video-Bench	Video-Bench: 一个全面的基准和工具包，用于评估基于视频的大语言模型	链接	一个用于视频MLLM评估的基准
Charting-New-Territories	开拓新领域：探索多模态大模型的地缘和地理空间能力	链接	一个用于评估地缘和地理空间能力的基准
MLLM-Bench	MLLM-Bench，使用GPT-4V评估多模态大模型	链接	基于逐样本标准的GPT-4V评估
BenchLMM	BenchLMM: 基准测试大型多模态模型的跨风格视觉能力	链接	一个评估模型对不同图像风格鲁棒性的基准
MMC-Benchmark	MMC: 通过大规模指令微调推进多模态图表理解	链接	一个全面的人工标注基准，包含多个评估图表推理能力的任务
MVBench	MVBench: 一个全面的多模态视频理解基准	链接	一个用于视频理解的综合性多模态基准
Bingo	GPT-4V(ision)中幻觉的整体分析：偏见与干扰挑战	链接	一个专注于两种常见类型的幻觉评估基准
MagnifierBench	OtterHD: 一款高分辨率多模态模型	链接	一个旨在探测模型细粒度感知能力的基准
HallusionBench	HallusionBench: 你看到的是你想到的，还是你想到的是你看到的？一个对GPT-4V(ision)、LLaVA-1.5及其他多模态模型具有挑战性的图像-上下文推理基准	链接	一个用于评估幻觉的图像-上下文推理基准
PCA-EVAL	通过多模态大语言模型实现端到端具身决策：与GPT4-Vision及其他模型的探索	链接	一个用于评估多领域具身决策的基准
MMHal-Bench	通过事实增强的RLHF对齐大型多模态模型	链接	一个用于幻觉评估的基准
MathVista	MathVista: 使用GPT-4V、Bard及其他大型多模态模型评估视觉情境下的数学推理能力	链接	一个同时挑战视觉和数学推理能力的基准
SparklesEval	✨Sparkles: 解锁多张图片间的对话，适用于多模态指令遵循模型	链接	一个基于GPT的基准，依据三个不同标准定量评估模型在多张图片和多轮对话中的会话能力。
ISEKAI	多模态大模型的链接-上下文学习	链接	一个仅由未见过的生成图像-标签对组成的基准，专为链接-上下文学习设计。
M-HalDetect	检测并预防大型视觉-语言模型中的幻觉	即将推出	一个用于训练和评估模型幻觉检测与预防能力的数据集
I4	赋能视觉-语言模型执行交错的视觉-语言指令	链接	一个全面评估模型在复杂交错视觉-语言指令下指令跟随能力的基准
SciGraphQA	SciGraphQA: 一个大规模的合成多轮问答数据集，用于科学图表	链接	一个大规模的图表-视觉问答数据集
MM-Vet	MM-Vet: 评估大型多模态模型的综合能力	链接	一个考察大型多模态模型在复杂多模态任务中表现的评估基准
SEED-Bench	SEED-Bench: 以生成式理解为基准评估多模态大模型	链接	一个用于评估多模态大模型生成式理解能力的基准
MMBench	MMBench: 您的多模态模型是全能选手吗？	链接	一个系统化设计的客观基准，用于稳健地评估视觉-语言模型的各项能力
Lynx	使用多模态输入训练GPT4风格语言模型的关键是什么？	链接	一个包含图像和视频任务的全面评估基准
GAVIE	通过稳健的指令微调减轻大型多模态模型的幻觉	链接	一个用于评估幻觉和指令跟随能力的基准
MME	MME: 一个多模态大语言模型的全面评估基准	链接	一个全面的多模态大模型评估基准
LVLM-eHub	LVLM-eHub: 一个全面的大型视觉-语言模型评估基准	链接	一个用于MLLM评估的平台
LAMM-Benchmark	LAMM: 语言辅助的多模态指令微调数据集、框架和基准	链接	一个用于评估多模态大模型在各种2D/3D视觉任务中量化表现的基准
M3Exam	M3Exam: 一个多语言、多模态、多层次的基准，用于评估大型语言模型	链接	一个用于评估多模态大模型的多语言、多模态、多层次基准
OwlEval	mPLUG-Owl: 模块化使大型语言模型具备多模态能力	链接	一个用于评估多种能力的数据集

其他

名称	论文	链接	备注
IMAD	IMAD: 基于图像增强的多模态对话	链接	多模态对话数据集
Video-ChatGPT	Video-ChatGPT: 基于大型视觉与语言模型实现详细视频理解	链接	一个用于视频对话模型的定量评估框架
CLEVR-ATVC	可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建	链接	一个用于学习拒绝指令的合成多模态微调数据集
Fruit-ATVC	可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建	链接	一个手工拍摄的多模态微调数据集，用于学习拒绝指令
InfoSeek	预训练的视觉与语言模型能否回答视觉信息检索问题？	链接	一个专注于提出信息检索型问题的VQA数据集
OVEN	开放域视觉实体识别：迈向识别数百万个维基百科实体	链接	一个专注于从自然场景图像中识别维基百科视觉实体的数据集

Awesome-Multimodal-Large-Language-Models 快速上手指南

本项目并非单一的可执行软件，而是一个多模态大语言模型（MLLM）的开源资源汇总库。它主要提供最新的论文列表、数据集链接、评测基准（如 MME 系列）以及相关模型（如 VITA 系列）的代码仓库索引。

本指南将指导你如何利用该仓库获取资源，并以其中核心的 MME 评测工具 和 VITA 模型 为例，演示如何搭建环境与运行。

1. 环境准备

由于本项目涵盖多个子项目，建议根据你具体想要运行的模型或评测任务准备环境。以下以通用的深度学习环境和 MME 评测工具为例。

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
硬件要求:
- 运行评测脚本：CPU 即可，或任意 NVIDIA GPU。
- 部署/微调模型（如 VITA, Qwen-VL）：建议 NVIDIA GPU (显存 ≥ 24GB 用于大模型推理)。
前置依赖:
- Python >= 3.8
- Git
- CUDA Toolkit (如需运行模型)
- Conda (推荐用于环境管理)

2. 安装步骤

第一步：克隆仓库

首先获取资源列表和相关工具代码。国内用户建议使用 Gitee 镜像（如有）或通过代理加速 GitHub 访问。

git clone https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.git
cd Awesome-Multimodal-Large-Language-Models

第二步：配置评测工具环境 (以 MME Benchmark 为例)

如果你需要使用项目中提供的 MME 评测工具 来评估模型性能，请进入对应目录并安装依赖。

# 进入评测工具目录
cd Evaluation/tools

# 解压评测工具包 (如果尚未解压)
unzip eval_tool.zip

# 创建并激活虚拟环境
conda create -n mme_eval python=3.9 -y
conda activate mme_eval

# 安装基础依赖 (根据具体模型需求，通常包括 torch, transformers 等)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install pandas tqdm pillow

💡 国内加速提示：推荐使用清华或阿里镜像源安装 Python 包，以提升下载速度。
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

第三步：获取特定模型代码 (以 VITA 为例)

如果你想运行项目中推荐的 VITA 系列多模态模型，需要单独克隆其官方仓库。

# 返回上级目录或直接在新位置克隆
cd ../..
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA

# 安装 VITA 模型依赖
conda create -n vita python=3.10 -y
conda activate vita
pip install -e .

3. 基本使用

场景一：使用 MME 工具评估模型

假设你已经有了一个多模态模型的输出结果（JSON 格式），可以使用 MME 工具进行打分。

准备数据：确保你的模型生成结果符合 MME 格式要求。

运行评估：

cd Evaluation/tools
# 示例命令：计算 MME 分数 (需替换实际路径)
python eval_tool.py --result_path ./your_model_results.json --output_path ./mme_score.txt

注：具体参数请参考 Evaluation/tools 目录下的 README 或脚本帮助信息。

场景二：运行 VITA 模型进行推理

在配置好 vita 环境后，你可以加载预训练权重进行简单的图文对话。

cd VITA

# 启动交互式 Demo (需提前下载权重并配置 config)
python demo/app.py --model-path ./checkpoints/vita-7b

# 或在命令行直接运行推理脚本
python inference.py \
    --model-path ./checkpoints/vita-7b \
    --image-path ./images/example.jpg \
    --query "Please describe this image in detail."

场景三：查阅最新论文与数据集

作为资源库，最核心的用法是查阅 README.md 中的表格。

查找论文：在根目录打开 README.md，搜索 "Awesome Papers" 章节，按类别（如 Multimodal Instruction Tuning, Evaluation）查找最新 arXiv 论文链接。
查找数据集：滚动至 "Awesome Datasets" 章节，获取预训练、指令微调或评测基准（如 Video-MME）的 HuggingFace 下载链接。

提示：由于该仓库更新极快（包含 2025-2026 年的前沿工作），具体模型的运行命令请以各子项目（如 VITA, Qwen, InternVL）官方仓库的最新说明为准。

常见问题

在 MME 基准测试中，'poster'（海报）任务具体是指什么？

下载 MME 地标（landmark）图像时大量失败，是否有替代方案或修复方法？

为什么在列表中找不到 Octopus 模型的论文或代码？

如何申请访问该项目的数据集？如果发送邮件没有收到回复怎么办？

如果想让自己的多模态大模型相关工作被收录到这个仓库，应该怎么做？

ViP-LLaVA 和 Video-LLaVA 等新模型是否已被收录？状态如何？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他