Awesome-Multimodal-Large-Language-Models

GitHub
17.7k 1.1k 非常简单 1 次阅读 今天其他语言模型
AI 解读 由 AI 自动生成,仅供参考

Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型(MLLMs)的开源资源汇总平台,由南京大学 MiG 团队维护。它系统性地整理了该领域最新的学术论文、综述报告、基准测试数据集以及开源项目代码,旨在解决研究人员和开发者在快速迭代的 AI 浪潮中难以高效获取高质量资料、缺乏统一评估标准等痛点。

无论是希望深入了解行业前沿的研究学者,还是正在寻找可靠评测工具或基线模型的算法工程师,都能在这里找到极具价值的参考。其核心亮点在于不仅收录了关于多模态理解与生成的权威综述,还推出了具有影响力的 VITA 系列模型(支持实时视听交互及百万级上下文长度)和 MME 系列评测基准(涵盖视频分析、高分辨率真实场景等复杂任务)。这些成果为社区提供了从理论调研到实际验证的一站式解决方案,帮助用户更便捷地追踪技术趋势、复现先进算法并推动多模态智能的实际应用落地。

使用场景

某自动驾驶研发团队急需评估最新多模态大模型在复杂路况视频理解与实时交互方面的能力,以决定下一代车载系统的技术选型。

没有 Awesome-Multimodal-Large-Language-Models 时

  • 调研效率低下:研究人员需在 arXiv 和 GitHub 上手动搜索分散的论文与代码,难以区分哪些是真正的 SOTA(最先进)模型,哪些只是早期实验。
  • 评测标准缺失:缺乏统一的基准测试集,团队不得不自行构建简单的视频问答数据集,导致评估结果无法与业界主流水平横向对比。
  • 技术盲区明显:容易忽略如 VITA 系列这类支持“看听说做”并发交互的前沿开源项目,错失实现类 GPT-4o 实时语音视觉交互的机会。
  • 场景覆盖不足:现有的内部测试仅关注静态图像,无法验证模型在高分辨率真实世界场景(如恶劣天气、复杂路口)下的鲁棒性。

使用 Awesome-Multimodal-Large-Language-Models 后

  • 一站式获取前沿成果:直接通过该仓库的综述和分类列表,快速定位到 NeurIPS 2025 highlight 的 VITA-1.5 等关键模型,将技术调研时间从数周缩短至几天。
  • 引入权威评测基准:直接复用 MME、Video-MME-v2 及 MME-RealWorld 等专业基准数据集与评估工具,确保模型性能评估具备行业公信力。
  • 解锁全模态交互能力:基于仓库指引集成 VITA-E 或 VITA-Audio,迅速验证了车辆在行驶中同时处理视觉信号与语音指令的可行性。
  • 覆盖极端真实场景:利用 MME-RealWorld 数据集挑战高分辨率难点场景,提前发现模型在人类都难以判断的复杂路况中的潜在缺陷。

Awesome-Multimodal-Large-Language-Models 不仅消除了信息不对称,更为团队提供了从理论调研到落地评测的全链路权威指南,极大加速了多模态技术的工程化进程。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库(Awesome-Multimodal-Large-Language-Models)是一个多模态大模型(MLLM)的论文、数据集和基准测试的汇总列表(Awesome List),本身不是一个可独立运行的软件工具或模型框架,因此 README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户若需运行列表中提到的具体模型(如 VITA, Qwen, InternVL 等),需前往各模型对应的独立项目仓库查看其特定的环境配置要求。
python未说明
Awesome-Multimodal-Large-Language-Models hero image

快速开始

令人惊叹的多模态大语言模型

✨ NJU-MiG 的亮点

🔥🔥 MLLM 综述 | 💬 微信(MLLM微信交流群)

  • 🌟 MME-Survey:多模态 LLM 评估的全面综述
    arXiv 2025,论文项目

  • 🌟 统一多模态理解与生成的综述:进展与挑战
    arXiv 2025,论文项目

  • 多模态大语言模型综述
    NSR 2024,论文项目


🔥🔥 VITA 系列全能 MLLM | 💬 微信(VITA微信交流群)

  • VITA-1.5:迈向 GPT-4o 级别的实时视觉与语音交互
    NeurIPS 2025 亮点,论文项目

  • VITA-E:自然具身交互——同时看见、听见、说话与行动
    arXiv 2025,论文项目

  • VITA:迈向开源互动型全能多模态 LLM
    arXiv 2024,论文项目

  • Long-VITA:在保持领先短上下文准确率的同时,将大型多模态模型扩展至 100 万 token
    arXiv 2025,论文项目

  • VITA-Audio:高效大型语音-语言模型的快速交错跨模态 token 生成
    NeurIPS 2025,论文项目


🔥🔥 MME 系列 MLLM 基准测试

  • 🔥 Video-MME-v2:迈向视频理解评估的新阶段


目录


精彩论文

Multimodal Instruction Tuning (& Latest Works)

Title Venue Date Code Demo
Star
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
arXiv 2026-04-06 Github Demo
Introducing Muse Spark: Scaling Towards Personal Superintelligence Blog 2026-04-08 - Demo
Star
VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing
arXiv 2026-04-03 Github Local Demo
Gemma 4: Byte for byte, the most capable open models Blog 2026-04-02 - Demo
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI Blog 2026-03-30 - Demo
Xiaomi MiMo-V2-Omni Blog 2026-03-18 - -
Star
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
arXiv 2026-03-10 Github Local Demo
Star
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
arXiv 2026-03-06 Github -
Beyond Language Modeling: An Exploration of Multimodal Pretraining arXiv 2026-03-03 - -
Gemini 3.1 Pro: A smarter model for your most complex tasks Blog 2026-02-19 - -
Star
Qwen3.5: Towards Native Multimodal Agents
Blog 2026-02-16 Github Demo
Star
MiniCPM-o 4.5
Blog 2026-02-06 Github Demo
Star
DeepSeek-OCR 2: Visual Causal Flow
DeepSeek 2026-01-27 Github -
Seed1.8 Model Card: Towards Generalized Real-World Agency Bytedance Seed 2025-12-18 - -
Introducing GPT-5.2 OpenAI 2025-12-11 - -
Introducing Mistral 3 Blog 2025-12-02 Huggingface -
Star
Qwen3-VL Technical Report
arXiv 2025-11-26 Github Demo
Star
Emu3.5: Native Multimodal Models are World Learners
arXiv 2025-10-30 Github -
Star
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
arXiv 2025-10-21 Github Local Demo
Star
DeepSeek-OCR: Contexts Optical Compression
arXiv 2025-10-21 Github -
Star
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
arXiv 2025-10-17 Github -
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching arXiv 2025-10-16 - -
Star
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
arXiv 2025-10-15 Github -
Star
VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation
arXiv 2025-10-10 Github -
Star
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
arXiv 2025-10-09 Github Demo
Star
Qwen3-Omni Technical Report
arXiv 2025-09-22 Github Demo
Star
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
arXiv 2025-08-27 Github Demo
MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and Video Understanding on Your Phone - 2025-08-26 Github Demo
Star
Thyme: Think Beyond Images
arXiv 2025-08-18 Github Demo
Introducing GPT-5 OpenAI 2025-08-07 - -
Star
dots.vlm1
rednote-hilab 2025-08-06 Github Demo
Star
Step3: Cost-Effective Multimodal Intelligence
StepFun 2025-07-31 Github Demo
Star
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
arXiv 2025-07-02 Github Demo
Star
DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
arXiv 2025-06-30 Github -
Qwen VLo: From "Understanding" the World to "Depicting" It Qwen 2025-06-26 - Demo
Star
MMSearch-R1: Incentivizing LMMs to Search
arXiv 2025-06-25 Github -
Star
Show-o2: Improved Native Unified Multimodal Models
arXiv 2025-06-18 Github -
Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities Google 2025-06-17 - -
Star
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
arXiv 2025-06-16 Github -
Star
MiMo-VL Technical Report
arXiv 2025-06-04 Github -
Star
OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation
arXiv 2025-05-29 Github -
Star
Emerging Properties in Unified Multimodal Pretraining
arXiv 2025-05-23 Github Demo
Star
MMaDA: Multimodal Large Diffusion Language Models
arXiv 2025-05-21 Github Demo
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation arXiv 2025-05-20 - -
Star
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
arXiv 2025-05-14 Github Local Demo
Seed1.5-VL Technical Report arXiv 2025-05-11 - -
Star
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
arXiv 2025-05-08 Github -
Star
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model
arXiv 2025-05-06 Github Local Demo
Star
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
arXiv 2025-04-23 Github -
Star
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
arXiv 2025-04-21 Github -
Star
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
arXiv 2025-04-21 Github -
Star
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
arXiv 2025-04-14 Github Demo
Introducing GPT-4.1 in the API OpenAI 2025-04-14 - -
Star
Kimi-VL Technical Report
arXiv 2025-04-10 Github Demo
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation Meta 2025-04-05 Hugging Face -
Star
Qwen2.5-Omni Technical Report
Qwen 2025-03-26 Github Demo
Addendum to GPT-4o System Card: Native image generation OpenAI 2025-03-25 - -
Star
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation
arXiv 2025-03-17 Github -
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision arXiv 2025-03-07 - -
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs arXiv 2025-03-03 Hugging Face Demo
Star
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray
arXiv 2025-02-19 Github -
Star
Qwen2.5-VL Technical Report
arXiv 2025-02-19 Github Demo
Star
Baichuan-Omni-1.5 Technical Report
Tech Report 2025-01-26 Github Local Demo
Star
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
arXiv 2025-01-10 Github -
Star
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
arXiv 2025-01-03 Github -
Star
QVQ: To See the World with Wisdom
Qwen 2024-12-25 Github Demo
Star
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
arXiv 2024-12-13 Github -
Apollo: An Exploration of Video Understanding in Large Multimodal Models arXiv 2024-12-13 - -
Star
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
arXiv 2024-12-12 Github Local Demo
StreamChat: Chatting with Streaming Video arXiv 2024-12-11 Coming soon -
CompCap: Improving Multimodal Large Language Models with Composite Captions arXiv 2024-12-06 - -
Star
LinVT: Empower Your Image-level Large Language Model to Understand Videos
arXiv 2024-12-06 Github -
Star
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
arXiv 2024-12-06 Github Demo
Star
NVILA: Efficient Frontier Visual Language Models
arXiv 2024-12-05 Github Demo
Star
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
arXiv 2024-12-04 Github -
Star
TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability
arXiv 2024-11-27 Github -
Star
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
arXiv 2024-11-27 Github Local Demo
Star
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
arXiv 2024-10-22 Github Demo
Star
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
arXiv 2024-10-09 Github -
Star
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
arXiv 2024-10-04 Github Local Demo
Star
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
CVPR 2024-09-26 Github Demo
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models arXiv 2024-09-25 Huggingface Demo
Star
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
arXiv 2024-09-18 Github Demo
Star
ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding
ICLR 2024-09-05 Github Local Demo
Star
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture
arXiv 2024-09-04 Github -
Star
EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders
arXiv 2024-08-28 Github Demo
Star
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
arXiv 2024-08-28 Github -
Star
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
arXiv 2024-08-09 Github -
Star
VITA: Towards Open-Source Interactive Omni Multimodal LLM
arXiv 2024-08-09 Github -
Star
LLaVA-OneVision: Easy Visual Task Transfer
arXiv 2024-08-06 Github Demo
Star
MiniCPM-V: A GPT-4V Level MLLM on Your Phone
arXiv 2024-08-03 Github Demo
VILA^2: VILA Augmented VILA arXiv 2024-07-24 - -
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models arXiv 2024-07-22 - -
EVLM: An Efficient Vision-Language Model for Visual Understanding arXiv 2024-07-19 - -
Star
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model
arXiv 2024-07-10 Github -
Star
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
arXiv 2024-07-03 Github Demo
Star
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
arXiv 2024-06-27 Github Local Demo
Star
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
AAAI 2024-06-27 Github -
Star
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
arXiv 2024-06-24 Github Local Demo
Star
Long Context Transfer from Language to Vision
arXiv 2024-06-24 Github Local Demo
Star
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
ICML 2024-06-22 Github -
Star
TroL: Traversal of Layers for Large Language and Vision Models
EMNLP 2024-06-18 Github Local Demo
Star
Unveiling Encoder-Free Vision-Language Models
arXiv 2024-06-17 Github Local Demo
Star
VideoLLM-online: Online Video Large Language Model for Streaming Video
CVPR 2024-06-17 Github Local Demo
Star
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics
CoRL 2024-06-15 Github Demo
Star
Comparison Visual Instruction Tuning
arXiv 2024-06-13 Github Local Demo
Star
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
arXiv 2024-06-12 Github -
Star
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
arXiv 2024-06-11 Github Local Demo
Star
Parrot: Multilingual Visual Instruction Tuning
arXiv 2024-06-04 Github -
Star
Ovis: Structural Embedding Alignment for Multimodal Large Language Model
arXiv 2024-05-31 Github -
Star
Matryoshka Query Transformer for Large Vision-Language Models
arXiv 2024-05-29 Github Demo
Star
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
arXiv 2024-05-24 Github -
Star
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models
arXiv 2024-05-24 Github Demo
Star
Libra: Building Decoupled Vision System on Large Language Models
ICML 2024-05-16 Github Local Demo
Star
CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
arXiv 2024-05-09 Github Local Demo
Star
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
arXiv 2024-04-25 Github Demo
Star
Graphic Design with Large Multimodal Model
arXiv 2024-04-22 Github -
BRAVE: Broadening the visual encoding of vision-language models ECCV 2024-04-10 - -
Star
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
arXiv 2024-04-09 Github Demo
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs arXiv 2024-04-08 - -
Star
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
CVPR 2024-04-08 Github -
Star
VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
NeurIPS 2024-04-04 Github Local Demo
TOMGPT: Reliable Text-Only Training Approach for Cost-Effective Multi-modal Large Language Model ACM TKDD 2024-03-28 - -
Star
LITA: Language Instructed Temporal-Localization Assistant
arXiv 2024-03-27 Github Local Demo
Star
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
arXiv 2024-03-27 Github Demo
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training arXiv 2024-03-14 - -
Star
MoAI: Mixture of All Intelligence for Large Language and Vision Models
arXiv 2024-03-12 Github Local Demo
Star
DeepSeek-VL: Towards Real-World Vision-Language Understanding
arXiv 2024-03-08 Github Demo
Star
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
arXiv 2024-03-07 Github Demo
Star
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
arXiv 2024-02-29 Github -
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation CVPR 2024-02-26 Coming soon Coming soon
Star
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
arXiv 2024-02-19 Github -
Star
Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning
arXiv 2024-02-18 Github -
Star
ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model
arXiv 2024-02-18 Github Demo
Star
CoLLaVO: Crayon Large Language and Vision mOdel
arXiv 2024-02-17 Github -
Star
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
ICML 2024-02-12 Github -
Star
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
arXiv 2024-02-06 Github -
Star
MobileVLM V2: Faster and Stronger Baseline for Vision Language Model
arXiv 2024-02-06 Github -
Star
GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning
NeurIPS 2024-02-03 Github -
Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study arXiv 2024-01-31 Coming soon -
Star
LLaVA-NeXT: Improved reasoning, OCR, and world knowledge
Blog 2024-01-30 Github Demo
Star
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
arXiv 2024-01-29 Github Demo
Star
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
arXiv 2024-01-29 Github Demo
Star
Yi-VL
- 2024-01-23 Github Local Demo
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities arXiv 2024-01-22 - -
Star
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
ACL 2024-01-04 Github Local Demo
Star
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices
arXiv 2023-12-28 Github -
Star
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
CVPR 2023-12-21 Github Demo
Star
Osprey: Pixel Understanding with Visual Instruction Tuning
CVPR 2023-12-15 Github Demo
Star
CogAgent: A Visual Language Model for GUI Agents
arXiv 2023-12-14 Github Coming soon
Pixel Aligned Language Models arXiv 2023-12-14 Coming soon -
Star
VILA: On Pre-training for Visual Language Models
CVPR 2023-12-13 Github Local Demo
See, Say, and Segment: Teaching LMMs to Overcome False Premises arXiv 2023-12-13 Coming soon -
Star
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
ECCV 2023-12-11 Github Demo
Star
Honeybee: Locality-enhanced Projector for Multimodal LLM
CVPR 2023-12-11 Github -
Gemini: A Family of Highly Capable Multimodal Models Google 2023-12-06 - -
Star
OneLLM: One Framework to Align All Modalities with Language
arXiv 2023-12-06 Github Demo
Star
Lenna: Language Enhanced Reasoning Detection Assistant
arXiv 2023-12-05 Github -
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding arXiv 2023-12-04 - -
Star
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding
arXiv 2023-12-04 Github Local Demo
Star
Making Large Multimodal Models Understand Arbitrary Visual Prompts
CVPR 2023-12-01 Github Demo
Star
Dolphins: Multimodal Language Model for Driving
arXiv 2023-12-01 Github -
Star
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning
arXiv 2023-11-30 Github Coming soon
Star
VTimeLLM: Empower LLM to Grasp Video Moments
arXiv 2023-11-30 Github Local Demo
Star
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model
arXiv 2023-11-30 Github -
Star
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models
arXiv 2023-11-28 Github Coming soon
Star
LLMGA: Multimodal Large Language Model based Generation Assistant
arXiv 2023-11-27 Github Demo
Star
ChartLlama: A Multimodal LLM for Chart Understanding and Generation
arXiv 2023-11-27 Github -
Star
ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
arXiv 2023-11-21 Github Demo
Star
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
arXiv 2023-11-20 Github -
Star
An Embodied Generalist Agent in 3D World
arXiv 2023-11-18 Github Demo
Star
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
arXiv 2023-11-16 Github Demo
Star
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
CVPR 2023-11-14 Github -
Star
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
arXiv 2023-11-13 Github -
Star
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
arXiv 2023-11-13 Github Demo
Star
Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
CVPR 2023-11-11 Github Demo
Star
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
arXiv 2023-11-09 Github Demo
Star
NExT-Chat: An LMM for Chat, Detection and Segmentation
arXiv 2023-11-08 Github Local Demo
Star
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
arXiv 2023-11-07 Github Demo
Star
OtterHD: A High-Resolution Multi-modality Model
arXiv 2023-11-07 Github -
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding arXiv 2023-11-06 Coming soon -
Star
GLaMM: Pixel Grounding Large Multimodal Model
CVPR 2023-11-06 Github Demo
Star
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning
arXiv 2023-11-02 Github -
Star
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
arXiv 2023-10-14 Github Local Demo
Star
SALMONN: Towards Generic Hearing Abilities for Large Language Models
ICLR 2023-10-20 Github -
Star
Ferret: Refer and Ground Anything Anywhere at Any Granularity
arXiv 2023-10-11 Github -
Star
CogVLM: Visual Expert For Large Language Models
arXiv 2023-10-09 Github Demo
Star
Improved Baselines with Visual Instruction Tuning
arXiv 2023-10-05 Github Demo
Star
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment
ICLR 2023-10-03 Github Demo
Star
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs
arXiv 2023-10-01 Github -
Star
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants
arXiv 2023-10-01 Github Local Demo
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model arXiv 2023-09-27 - -
Star
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
arXiv 2023-09-26 Github Local Demo
Star
DreamLLM: Synergistic Multimodal Comprehension and Creation
ICLR 2023-09-20 Github Coming soon
An Empirical Study of Scaling Instruction-Tuned Large Multimodal Models arXiv 2023-09-18 Coming soon -
Star
TextBind: Multi-turn Interleaved Multimodal Instruction-following
arXiv 2023-09-14 Github Demo
Star
NExT-GPT: Any-to-Any Multimodal LLM
arXiv 2023-09-11 Github Demo
Star
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics
arXiv 2023-09-13 Github -
Star
ImageBind-LLM: Multi-modality Instruction Tuning
arXiv 2023-09-07 Github Demo
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning arXiv 2023-09-05 - -
Star
PointLLM: Empowering Large Language Models to Understand Point Clouds
arXiv 2023-08-31 Github Demo
Star
✨Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models
arXiv 2023-08-31 Github Local Demo
Star
MLLM-DataEngine: An Iterative Refinement Approach for MLLM
arXiv 2023-08-25 Github -
Star
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models
arXiv 2023-08-25 Github Demo
Star
Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
arXiv 2023-08-24 Github Demo
Star
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
ICLR 2023-08-23 Github Demo
Star
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
arXiv 2023-08-20 Github -
Star
BLIVA: A Simple Multimodal LLM for Better Handling of Text-rich Visual Questions
arXiv 2023-08-19 Github Demo
Star
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions
arXiv 2023-08-08 Github -
Star
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World
ICLR 2023-08-03 Github Demo
Star
LISA: Reasoning Segmentation via Large Language Model
arXiv 2023-08-01 Github Demo
Star
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
arXiv 2023-07-31 Github Local Demo
Star
3D-LLM: Injecting the 3D World into Large Language Models
arXiv 2023-07-24 Github -
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
arXiv 2023-07-18 - Demo
Star
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
arXiv 2023-07-17 Github Demo
Star
SVIT: Scaling up Visual Instruction Tuning
arXiv 2023-07-09 Github -
Star
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
arXiv 2023-07-07 Github Demo
Star
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
arXiv 2023-07-05 Github -
Star
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
arXiv 2023-07-04 Github Demo
Star
Visual Instruction Tuning with Polite Flamingo
arXiv 2023-07-03 Github Demo
Star
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
arXiv 2023-06-29 Github Demo
Star
Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic
arXiv 2023-06-27 Github Demo
Star
MotionGPT: Human Motion as a Foreign Language
arXiv 2023-06-26 Github -
Star
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration
arXiv 2023-06-15 Github Coming soon
Star
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark
arXiv 2023-06-11 Github Demo
Star
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
arXiv 2023-06-08 Github Demo
Star
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
arXiv 2023-06-08 Github Demo
M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning arXiv 2023-06-07 - -
Star
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
arXiv 2023-06-05 Github Demo
Star
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
arXiv 2023-06-01 Github -
Star
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
arXiv 2023-05-30 Github Demo
Star
PandaGPT: One Model To Instruction-Follow Them All
arXiv 2023-05-25 Github Demo
Star
ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
arXiv 2023-05-25 Github -
Star
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
arXiv 2023-05-24 Github Local Demo
Star
DetGPT: Detect What You Need via Reasoning
arXiv 2023-05-23 Github Demo
Star
Pengi: An Audio Language Model for Audio Tasks
NeurIPS 2023-05-19 Github -
Star
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
arXiv 2023-05-18 Github -
Star
Listen, Think, and Understand
arXiv 2023-05-18 Github Demo
Star
VisualGLM-6B
- 2023-05-17 Github Local Demo
Star
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering
arXiv 2023-05-17 Github -
Star
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
arXiv 2023-05-11 Github Local Demo
Star
VideoChat: Chat-Centric Video Understanding
arXiv 2023-05-10 Github Demo
Star
MultiModal-GPT: A Vision and Language Model for Dialogue with Humans
arXiv 2023-05-08 Github Demo
Star
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
arXiv 2023-05-07 Github -
Star
LMEye: An Interactive Perception Network for Large Language Models
arXiv 2023-05-05 Github Local Demo
Star
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
arXiv 2023-04-28 Github Demo
Star
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
arXiv 2023-04-27 Github Demo
Star
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
arXiv 2023-04-20 Github -
Star
Visual Instruction Tuning
NeurIPS 2023-04-17 GitHub Demo
Star
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
ICLR 2023-03-28 Github Demo
Star
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
ACL 2022-12-21 Github -

多模态幻觉

标题 场所 日期 代码 演示
Star
回答前再看两眼:用于缓解多模态大语言模型中幻觉的记忆空间视觉回溯
arXiv 2024-10-04 Github -
Star
解释与编辑视觉-语言表示以缓解幻觉
arXiv 2024-10-03 Github -
FIHA:基于戴维森场景图的视觉-语言模型自主幻觉评估 arXiv 2024-09-20 链接 -
通过主动检索增强缓解大型视觉-语言模型中的幻觉 arXiv 2024-08-01 - -
Star
更加关注图像:一种无需训练即可缓解LVLMs中幻觉的方法
ECCV 2024-07-31 Github -
Star
评估和分析LVLMs中的关系幻觉
ICML 2024-06-24 Github -
Star
AGLA:利用全局与局部注意力的组合来缓解大型视觉-语言模型中的对象幻觉
arXiv 2024-06-18 Github -
CODE:对比自动生成的描述以对抗大型多模态模型中的幻觉 arXiv 2024-06-04 即将推出 -
通过数据增强的对比微调缓解对象幻觉 arXiv 2024-05-28 即将推出 -
VDGD:通过弥合视觉感知差距来缓解认知提示中的LVLM幻觉 arXiv 2024-05-24 即将推出 -
通过细粒度的AI反馈检测并缓解大型视觉语言模型中的幻觉 arXiv 2024-04-22 - -
使用指令对比解码缓解大型视觉-语言模型中的幻觉 arXiv 2024-03-27 - -
Star
如果……呢?:反事实启发式方法以缓解大型多模态模型中的幻觉效应
arXiv 2024-03-20 Github -
通过自举偏好优化强化多模态大语言模型 arXiv 2024-03-13 - -
Star
去偏见多模态大语言模型
arXiv 2024-03-08 Github -
Star
HALC:通过适应性焦点-对比解码减少对象幻觉
arXiv 2024-03-01 Github -
IBD:通过图像偏向解码缓解大型视觉-语言模型中的幻觉 arXiv 2024-02-28 - -
Star
少即是多:从EOS决策角度缓解多模态幻觉
arXiv 2024-02-22 Github -
Star
逻辑闭环:揭示大型视觉-语言模型中的对象幻觉
arXiv 2024-02-18 Github -
Star
本能偏差:虚假图像导致MLLMs中的幻觉
arXiv 2024-02-06 Github -
Star
多模态大语言模型统一幻觉检测
arXiv 2024-02-05 Github -
大型视觉-语言模型中幻觉的综述 arXiv 2024-02-01 - -
时间洞察力提升:缓解多模态大语言模型中的时间幻觉 arXiv 2024-01-18 - -
Star
面向多模态大语言模型的幻觉增强对比学习
arXiv 2023-12-12 Github -
Star
MOCHa:多目标强化学习缓解字幕幻觉
arXiv 2023-12-06 Github -
Star
通过字幕重写微调大型视觉-语言模型以缓解细粒度幻觉
arXiv 2023-12-04 Github -
Star
RLHF-V:通过来自细粒度纠正性人类反馈的行为对齐,迈向可信的MLLMs
arXiv 2023-12-01 Github 演示
Star
OPERA:通过过度信任惩罚和回顾分配缓解多模态大语言模型中的幻觉
CVPR 2023-11-29 Github -
Star
通过视觉对比解码缓解大型视觉-语言模型中的对象幻觉
CVPR 2023-11-28 Github -
超越幻觉:通过幻觉感知直接偏好优化提升LVLMs性能 arXiv 2023-11-28 Github 即将推出
借助视觉监督缓解视觉语言模型中的幻觉 arXiv 2023-11-27 - -
Star
HalluciDoctor:缓解视觉指令数据中的幻觉毒性
arXiv 2023-11-22 Github -
Star
无LLM的多维度基准测试,用于MLLMs幻觉评估
arXiv 2023-11-13 Github -
Star
FAITHSCORE:评估大型视觉-语言模型中的幻觉
arXiv 2023-11-02 Github -
Star
啄木鸟:多模态大语言模型的幻觉修正
arXiv 2023-10-24 Github 演示
负对象存在评估(NOPE)用于测量视觉-语言模型中的对象幻觉 arXiv 2023-10-09 - -
Star
HallE-Switch:重新思考并控制大型视觉语言模型中为详细字幕而产生的对象存在幻觉
arXiv 2023-10-03 Github -
Star
分析并缓解大型视觉-语言模型中的对象幻觉
ICLR 2023-10-01 Github -
Star
用事实增强的RLHF对齐大型多模态模型
arXiv 2023-09-25 Github 演示
多模态大语言模型中失认症的评估与缓解 arXiv 2023-09-07 - -
CIEM:更好的指令微调的对比指令评估方法 arXiv 2023-09-05 - -
Star
大型视觉-语言模型中幻觉的评估与分析
arXiv 2023-08-29 Github -
Star
VIGC:视觉指令生成与修正
arXiv 2023-08-24 Github 演示
检测并预防大型视觉语言模型中的幻觉 arXiv 2023-08-11 - -
Star
通过稳健的指令微调缓解大型多模态模型中的幻觉
ICLR 2023-06-26 Github 演示
Star
评估大型视觉-语言模型中的对象幻觉
EMNLP 2023-05-17 Github -

多模态上下文学习

标题 会议/平台 日期 代码 演示
大型视觉-语言模型的视觉上下文学习 arXiv 2024-02-18 - -
Star
RAG-Driver:基于检索增强型多模态大语言模型上下文学习的可泛化驾驶解释
RSS 2024-02-16 Github -
Star
多模态大语言模型能否进行文本到图像的上下文学习?
arXiv 2024-02-02 Github -
Star
生成式多模态模型是上下文学习者
CVPR 2023-12-20 Github Demo
劫持大型多模态模型中的上下文 arXiv 2023-12-07 - -
迈向更加统一的视觉上下文理解 arXiv 2023-12-05 - -
Star
MMICL:通过多模态上下文学习赋能视觉-语言模型
arXiv 2023-09-14 Github Demo
Star
面向多模态LLM的链接上下文学习
arXiv 2023-08-15 Github Demo
Star
OpenFlamingo:用于训练大型自回归视觉-语言模型的开源框架
arXiv 2023-08-02 Github Demo
Star
Med-Flamingo:一种多模态医学少样本学习器
arXiv 2023-07-27 Github 本地演示
Star
多模态下的生成式预训练
ICLR 2023-07-11 Github Demo
AVIS:利用大型语言模型实现自主视觉信息搜索 arXiv 2023-06-13 - -
Star
MIMIC-IT:多模态上下文指令调优
arXiv 2023-06-08 Github Demo
Star
探索用于图像字幕生成的多样化上下文配置
NeurIPS 2023-05-24 Github -
Star
Chameleon:利用大型语言模型实现即插即用的组合推理
arXiv 2023-04-19 Github Demo
Star
HuggingGPT:借助ChatGPT及其在HuggingFace中的伙伴解决AI任务
arXiv 2023-03-30 Github Demo
Star
MM-REACT:提示ChatGPT进行多模态推理与行动
arXiv 2023-03-20 Github Demo
Star
ICL-D3IE:使用多样化的演示进行文档信息抽取的上下文学习
ICCV 2023-03-09 Github -
Star
利用答案启发式提示大型语言模型进行基于知识的视觉问答
CVPR 2023-03-03 Github -
Star
视觉编程:无需训练的组合式视觉推理
CVPR 2022-11-18 Github 本地演示
Star
关于GPT-3在少样本知识型VQA中的实证研究
AAAI 2022-06-28 Github -
Star
Flamingo:一种用于少样本学习的视觉语言模型
NeurIPS 2022-04-29 Github Demo
冻结语言模型下的多模态少样本学习 NeurIPS 2021-06-25 - -

多模态思维链

标题 会议/平台 日期 代码 演示
Star
Insight-V:利用多模态大语言模型探索长链式视觉推理
arXiv 2024-11-21 Github -
Star
Cantor:激发MLLM的多模态思维链
arXiv 2024-04-24 Github 本地演示
Star
Visual CoT:释放多模态语言模型中的思维链推理能力
arXiv 2024-03-25 Github 本地演示
Star
面向大型多模态模型的组合式思维链提示
CVPR 2023-11-27 Github -
Star
DDCoT:用于语言模型多模态推理的职责分明思维链提示
NeurIPS 2023-10-25 Github -
Star
Shikra:释放多模态LLM的指代对话魔力
arXiv 2023-06-27 Github 演示
Star
可解释的多模态情感推理
arXiv 2023-06-27 Github -
Star
EmbodiedGPT:通过具身思维链进行视觉-语言预训练
arXiv 2023-05-24 Github -
逐帧思考:用视频补全与预测评估视频思维链 arXiv 2023-05-23 - -
T-SciQ:通过大语言模型信号教授多模态思维链推理以解答科学问题 arXiv 2023-05-05 - -
Star
Caption Anything:借助多样化的多模态控件实现交互式图像描述
arXiv 2023-05-04 Github 演示
视觉思维链:用多模态补全弥合逻辑断层 arXiv 2023-05-03 即将发布 -
Star
Chameleon:使用大语言模型实现即插即用的组合式推理
arXiv 2023-04-19 Github 演示
视觉语言模型中的思维链提示调优 arXiv 2023-04-16 即将发布 -
Star
MM-REACT:提示ChatGPT实现多模态推理与行动
arXiv 2023-03-20 Github 演示
Star
视觉ChatGPT:与视觉基础模型对话、绘图和编辑
arXiv 2023-03-08 Github 演示
Star
语言模型中的多模态思维链推理
arXiv 2023-02-02 Github -
Star
视觉编程:无需训练的组合式视觉推理
CVPR 2022-11-18 Github 本地演示
Star
学会解释:通过思维链进行多模态推理以解答科学问题
NeurIPS 2022-09-20 Github -

大语言模型辅助的视觉推理

标题 会议/平台 日期 代码 演示
Star
VideoDeepResearch: 基于智能体工具的长视频理解
arXiv 2025-06-12 Github 本地演示
Star
超越嵌入:视觉表格在多模态模型中的潜力
arXiv 2024-03-27 Github -
Star
V∗:引导式视觉搜索作为多模态大语言模型的核心机制
arXiv 2023-12-21 Github 本地演示
Star
LLaVA-Interactive:图像聊天、分割、生成与编辑的一体化演示
arXiv 2023-11-01 Github 演示
MM-VID:利用GPT-4V(视觉)推进视频理解 arXiv 2023-10-30 - -
Star
ControlLLM:通过图搜索为语言模型增强工具能力
arXiv 2023-10-26 Github -
Star
Woodpecker:多模态大型语言模型的幻觉纠正
arXiv 2023-10-24 Github 演示
Star
MindAgent:涌现的游戏交互
arXiv 2023-09-18 Github -
Star
迈向能“看见”的语言模型:通过自然语言之“镜”看计算机视觉
arXiv 2023-06-28 Github 演示
检索问答:基于冻结大型语言模型的零样本视频问答 arXiv 2023-06-15 - -
Star
AssistGPT:能够规划、执行、检查和学习的通用多模态助手
arXiv 2023-06-14 Github -
AVIS:基于大型语言模型的自主视觉信息搜索 arXiv 2023-06-13 - -
Star
GPT4Tools:通过自我指导训练大型语言模型使用工具
arXiv 2023-05-30 Github 演示
基于自然语言的心智社会中的思维风暴 arXiv 2023-05-26 - -
Star
LayoutGPT:利用大型语言模型进行组合式的视觉规划与生成
arXiv 2023-05-24 Github -
Star
IdealGPT:通过大型语言模型迭代分解视觉与语言推理
arXiv 2023-05-24 Github 本地演示
Star
可问责的文本-视觉聊天学会了在图像重建中拒绝人类指令
arXiv 2023-05-10 Github -
Star
Caption Anything:具有多样化多模态控件的交互式图像描述
arXiv 2023-05-04 Github 演示
Star
Chameleon:利用大型语言模型实现即插即用的组合式推理
arXiv 2023-04-19 Github 演示
Star
HuggingGPT:借助ChatGPT及其在HuggingFace中的伙伴解决AI任务
arXiv 2023-03-30 Github 演示
Star
MM-REACT:提示ChatGPT进行多模态推理与行动
arXiv 2023-03-20 Github 演示
Star
ViperGPT:通过Python执行进行视觉推理
arXiv 2023-03-14 Github 本地演示
Star
ChatGPT提问,BLIP-2回答:自动提问以丰富视觉描述
arXiv 2023-03-12 Github 本地演示
ICL-D3IE:利用多样化的示范更新进行文档信息抽取的上下文学习 ICCV 2023-03-09 - -
Star
视觉ChatGPT:与视觉基础模型对话、绘图和编辑
arXiv 2023-03-08 Github 演示
Star
提示、生成并缓存:基础模型的级联使少样本学习者更强大
CVPR 2023-03-03 Github -
Star
从图像到文本提示:利用冻结大型语言模型进行零样本VQA
CVPR 2022-12-21 Github 演示
Star
SuS-X:无需训练的语言-视觉模型仅凭名称迁移
arXiv 2022-11-28 Github -
Star
PointCLIP V2:适配CLIP以实现强大的3D开放世界学习
CVPR 2022-11-21 Github -
Star
视觉编程:无需训练的组合式视觉推理
CVPR 2022-11-18 Github 本地演示
Star
苏格拉底模型:利用语言构建零样本多模态推理
arXiv 2022-04-01 Github -

基础模型

标题 场所 日期 代码 演示
介绍GPT-5 OpenAI 2025-08-07 - -
Star
VideoLLaMA 3:用于图像和视频理解的前沿多模态基础模型
arXiv 2025-01-22 Github Demo
Star
Emu3:只需预测下一个token即可
arXiv 2024-09-27 Github 本地演示
Llama 3.2:通过开放、可定制的模型革新边缘AI与视觉技术 Meta 2024-09-25 - Demo
Pixtral-12B Mistral 2024-09-17 - -
Star
xGen-MM(BLIP-3):一系列开源大型多模态模型
arXiv 2024-08-16 Github -
Llama 3模型家族 arXiv 2024-07-31 - -
Chameleon:混合模态早期融合基础模型 arXiv 2024-05-16 - -
你好,GPT-4o OpenAI 2024-05-13 - -
Claude 3模型家族:Opus、Sonnet、Haiku Anthropic 2024-03-04 - -
Gemini 1.5:解锁跨越数百万个token上下文的多模态理解能力 Google 2024-02-15 - -
Gemini:一个功能强大的多模态模型家族 Google 2023-12-06 - -
Fuyu-8B:面向AI代理的多模态架构 博客 2023-10-17 Huggingface Demo
Star
用于图像、视频、音频和语言任务的统一模型
arXiv 2023-07-30 Github Demo
PaLI-3视觉语言模型:更小、更快、更强 arXiv 2023-10-13 - -
GPT-4V(vision)系统卡片 OpenAI 2023-09-25 - -
Star
在LLM中进行动态离散视觉标记化的统一语言-视觉预训练
arXiv 2023-09-09 Github -
多模态基础模型:从专家到通用助手 arXiv 2023-09-18 - -
Star
通过解耦的语言预训练来启动视觉-语言学习
NeurIPS 2023-07-13 Github -
Star
多模态中的生成式预训练
arXiv 2023-07-11 Github Demo
Star
Kosmos-2:将多模态大型语言模型与世界连接起来
arXiv 2023-06-26 Github Demo
Star
跨LLM传递视觉提示生成器
arXiv 2023-05-02 Github Demo
GPT-4技术报告 arXiv 2023-03-15 - -
PaLM-E:一种具身化多模态语言模型 arXiv 2023-03-06 - Demo
Star
Prismer:一种具有专家集成的视觉-语言模型
arXiv 2023-03-04 Github Demo
Star
语言并非一切:将感知与语言模型对齐
arXiv 2023-02-27 Github -
Star
BLIP-2:利用冻结的图像编码器和大型语言模型启动语言-图像预训练
arXiv 2023-01-30 Github Demo
Star
VIMA:利用多模态提示进行通用机器人操作
ICML 2022-10-06 Github 本地演示
Star
MineDojo:构建具有互联网规模知识的开放式具身智能体
NeurIPS 2022-06-17 Github -
Star
写作与绘画:生成式视觉-语言模型是统一的模态学习者
ICLR 2022-06-15 Github -
Star
语言模型是通用接口
arXiv 2022-06-13 Github -

评估

标题 场所 日期 页面
Stars
空间中的思考:多模态大语言模型如何感知、记忆和回忆空间
arXiv 2024-12-18 Github
Stars
MMGenBench:从文本到图像生成的角度评估多模态大模型的极限
arXiv 2024-11-21 Github
Stars
OmniBench:迈向通用全能语言模型的未来
arXiv 2024-09-23 Github
Stars
MME-RealWorld:你的多模态大模型能否应对连人类都难以处理的高分辨率真实场景?
arXiv 2024-08-23 Github
Stars
UNK-VQA:一个多模态大模型的弃权能力数据集及探针
TPAMI 2023-10-17 Github
Stars
MMEvalPro:校准多模态基准测试,实现可信高效的评估
arXiv 2024-06-29 Github
Stars
Web2Code:面向多模态大模型的大规模网页转代码数据集与评估框架
arXiv 2024-06-28 Github
Stars
CharXiv:揭示多模态大模型在现实图表理解上的差距
arXiv 2024-06-26 Github
Stars
ChartMimic:通过图表到代码生成评估多模态大模型的跨模态推理能力
arXiv 2024-04-15 Github
Stars
Video-MME:首个全面的多模态大模型视频分析评估基准
arXiv 2024-05-31 Github
Stars
针对常见干扰对大型多模态模型进行基准测试
NAACL 2024-01-22 Github
Stars
睁眼瞎?探索多模态大模型的视觉缺陷
arXiv 2024-01-11 Github
Stars
GPT-4V的挑战者?Gemini在视觉专长方面的早期探索
arXiv 2023-12-19 Github
Stars
BenchLMM:大型多模态模型跨风格视觉能力的基准测试
arXiv 2023-12-05 Github
Star
这张图里有多少只独角兽?视觉大模型的安全性评估基准
arXiv 2023-11-27 Github
Star
开拓新领域:探索多模态大模型的地缘与地理空间能力
arXiv 2023-11-24 Github
Star
MLLM-Bench,使用GPT-4V评估多模态大模型
arXiv 2023-11-23 Github
VLM-Eval:关于视频大语言模型的一般性评估 arXiv 2023-11-20 即将发布
Star
GPT-4V(ision)中幻觉现象的综合分析:偏见与干扰挑战
arXiv 2023-11-06 Github
Star
与GPT-4V(ision)同行:视觉-语言模型在自动驾驶领域的早期探索
arXiv 2023-11-09 Github
迈向通用异常检测与理解:大规模视觉-语言模型(GPT-4V)引领潮流 arXiv 2023-11-05 -
GPT-4V在医学影像中的多模态能力综合研究 arXiv 2023-10-31 -
Star
GPT-4V(ision)的早期评估
arXiv 2023-10-25 Github
Star
探索GPT-4V(ision)的OCR能力:一项定量且深入的评估
arXiv 2023-10-25 Github
Star
HallusionBench:你看到的是你想到的,还是你想到的是你看到的?一个对GPT-4V(ision)、LLaVA-1.5及其他多模态模型构成挑战的图像-上下文推理基准
CVPR 2023-10-23 Github
Star
MathVista:利用GPT-4V、Bard等大型多模态模型评估视觉情境下的数学推理能力
ICLR 2023-10-03 Github
Star
用极其简单的排列组合就能愚弄你的(视觉和)语言模型
arXiv 2023-10-02 Github
Star
超越任务表现:通过上下文学习评估并减少大型多模态模型的缺陷
arXiv 2023-10-01 Github
Star
我们能编辑多模态大语言模型吗?
arXiv 2023-10-12 Github
Star
REVO-LION:评估和优化视觉-语言指令微调数据集
arXiv 2023-10-10 Github
多模态大模型的黎明:与GPT-4V(vision)的初步探索 arXiv 2023-09-29 -
Star
TouchStone:用语言模型评估视觉-语言模型
arXiv 2023-08-31 Github
Star
✨Sparkles:为多模态指令遵循模型解锁跨多张图片的对话能力
arXiv 2023-08-31 Github
Star
SciGraphQA:一个用于科学图谱的大规模合成多轮问答数据集
arXiv 2023-08-07 Github
Star
Tiny LVLM-eHub:与Bard的早期多模态实验
arXiv 2023-08-07 Github
Star
MM-Vet:评估大型多模态模型的综合能力
arXiv 2023-08-04 Github
Star
SEED-Bench:以生成式理解为基准评估多模态大模型
CVPR 2023-07-30 Github
Star
MMBench:你的多模态模型是全能选手吗?
arXiv 2023-07-12 Github
Star
MME:多模态大语言模型的综合评估基准
arXiv 2023-06-23 Github
Star
LVLM-eHub:大型视觉-语言模型的综合评估基准
arXiv 2023-06-15 Github
Star
LAMM:语言辅助的多模态指令微调数据集、框架和基准
arXiv 2023-06-11 Github
Star
M3Exam:一个多语种、多模态、多层次的基准,用于评估大型语言模型
arXiv 2023-06-08 Github
Star
大型多模态模型中OCR功能的隐秘奥秘
arXiv 2023-05-13 Github

多模态RLHF

标题 会议/期刊 日期 代码 演示
Star
R1-Reward:通过稳定强化学习训练多模态奖励模型
arXiv 2025-05-09 Github -
Star
多模态大语言模型与人类偏好对齐:综述
arXiv 2025-03-23 Github -
Star
MM-RLHF:多模态大语言模型对齐的下一步进展
arXiv 2025-02-14 Github -
利用多轮偏好优化提升多模态大语言模型在精细准确视频字幕生成上的能力 arXiv 2024-10-09 - -
Star
Silkie:大型视觉语言模型的偏好蒸馏
arXiv 2023-12-17 Github -
Star
RLHF-V:通过细粒度纠正性人类反馈实现行为对齐,迈向可信的多模态大语言模型
arXiv 2023-12-01 Github 演示
Star
基于事实增强的RLHF对齐大型多模态模型
arXiv 2023-09-25 Github 演示
Star
RoVRM:一种通过辅助文本偏好数据优化的鲁棒视觉奖励模型
arXiv 2024-08-22 Github -

其他

标题 会议/期刊 日期 代码 演示
Star
TS-LLaVA:通过缩略图采样构建视觉 token,用于免训练视频大语言模型
arXiv 2024-11-17 Github -
Star
几乎零成本的安全微调:视觉大语言模型的基线方法
arXiv 2024-02-03 Github -
Star
VCoder:多模态大语言模型的通用视觉编码器
arXiv 2023-12-21 Github 本地演示
Star
Prompt Highlighter:多模态大语言模型的交互式控制工具
arXiv 2023-12-07 Github -
Star
在大语言模型中植入视觉“种子”
arXiv 2023-07-16 Github
Star
大型预训练模型能否帮助视觉模型完成感知任务?
arXiv 2023-06-01 Github -
Star
利用多模态大语言模型进行上下文感知目标检测
arXiv 2023-05-29 Github 演示
Star
利用多模态语言模型生成图像
arXiv 2023-05-26 Github -
Star
关于评估大型视觉-语言模型的对抗鲁棒性
arXiv 2023-05-26 Github -
Star
将语言模型与图像对齐,实现多模态输入输出
ICML 2023-01-31 Github 演示

优秀数据集

对齐预训练数据集

名称 论文 类型 模态
ShareGPT4Video ShareGPT4Video:通过更优质的字幕提升视频理解和生成能力 字幕 视频-文本
COYO-700M COYO-700M:图像-文本对数据集 字幕 图像-文本
ShareGPT4V ShareGPT4V:通过更优质的字幕提升多模态大模型性能 字幕 图像-文本
AS-1B 全视项目:迈向开放世界的全景视觉识别与理解 混合 图像-文本
InternVid InternVid:用于多模态理解和生成的大规模视频-文本数据集 字幕 视频-文本
MS-COCO 微软COCO:上下文中的常见物体 字幕 图像-文本
SBU Captions Im2Text:使用100万张带字幕的照片描述图像 字幕 图像-文本
Conceptual Captions 概念性字幕:一个经过清理、采用上位词标注的图像替代文本数据集,用于自动图像字幕生成 字幕 图像-文本
LAION-400M LAION-400M:CLIP筛选后的4亿对图像-文本公开数据集 字幕 图像-文本
VG Captions 视觉图谱:利用众包密集图像标注连接语言与视觉 字幕 图像-文本
Flickr30k Flickr30k Entities:收集区域与短语对应关系,以构建更丰富的图像到句子模型 字幕 图像-文本
AI-Caps AI Challenger:一个用于深入图像理解的大规模数据集 字幕 图像-文本
Wukong Captions 悟空:一个1亿规模的中文跨模态预训练基准数据集 字幕 图像-文本
GRIT Kosmos-2:将多模态大型语言模型与现实世界关联起来 字幕 图像-文本-边界框
Youku-mPLUG 优酷-mPLUG:一个1000万规模的中文视频-语言数据集,用于预训练和基准测试 字幕 视频-文本
MSR-VTT MSR-VTT:一个大型视频描述数据集,用于连接视频与语言 字幕 视频-文本
Webvid10M Frozen in Time:用于端到端检索的联合视频和图像编码器 字幕 视频-文本
WavCaps WavCaps:一个由ChatGPT辅助的弱标签音频字幕数据集,用于音频-语言多模态研究 字幕 音频-文本
AISHELL-1 AISHELL-1:一个开源的普通话语音语料库及语音识别基准 ASR 音频-文本
AISHELL-2 AISHELL-2:将普通话语音识别研究推向工业规模 ASR 音频-文本
VSDial-CN X-LLM:将多模态视为外语,从而构建先进的大型语言模型 ASR 图像-音频-文本

多模态指令微调数据集

名称 论文 链接 备注
Inst-IT 数据集 Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 链接 一个包含21,000个视频和51,000张图像的细粒度多层级标注指令微调数据集
E.T. Instruct 164K E.T. Bench:迈向开放式事件级视频-语言理解 链接 一个用于时序敏感视频理解的指令微调数据集
MSQA 3D场景中的多模态情境推理 链接 一个大规模的3D场景多模态情境推理数据集
MM-Evol MMEvol:借助Evol-Instruct增强多模态大语言模型 链接 一个具有丰富多样性的指令数据集
UNK-VQA UNK-VQA:一个多模态大模型回避回答能力的数据集与探究 链接 一个旨在训练模型对无法回答的问题保持沉默的数据集
VEGA VEGA:在视觉-语言大模型中学习交错图文理解 链接 一个用于提升模型交错信息理解能力的数据集
ALLaVA-4V ALLaVA:利用GPT4V合成数据构建轻量级视觉-语言模型 链接 由GPT4V生成的视觉与语言字幕及指令数据集
IDK 视觉去幻觉指令生成:知之为知,不知为不知 链接 针对“I Know”幻觉的去幻觉视觉指令
CAP2QA 视觉去幻觉指令生成 链接 图像对齐的视觉指令数据集
M3DBench M3DBench:用多模态3D提示指导大模型 链接 一个大规模的3D指令微调数据集
ViP-LLaVA-Instruct 让大型多模态模型理解任意视觉提示 链接 LLaVA-1.5指令数据与区域级视觉提示数据的混合
LVIS-Instruct4V 眼见为实:通过GPT-4V提示优化视觉指令微调 链接 由GPT-4V自我生成的视觉指令数据集
ComVint 什么样的视觉指令才是好的?为视觉指令微调合成复杂视觉推理指令 链接 一个用于复杂视觉推理的合成指令数据集
SparklesDialogue ✨Sparkles:解锁多图像对话,赋能多模态指令遵循模型 链接 一个机器生成的对话数据集,专为跨多张图像和多轮对话的指令遵循型大语言模型设计,以增强其对话能力。
StableLLaVA StableLLaVA:利用合成图像-对话数据提升视觉指令微调效果 链接 一种经济高效地收集视觉指令微调数据的方法
M-HalDetect 检测并预防大型视觉-语言模型中的幻觉 即将发布 一个用于训练和评估模型幻觉检测与预防能力的数据集
MGVLID ChatSpot:通过精准指代指令微调启动多模态大语言模型 - 一个高质量的指令微调数据集,包含图像-文本和区域-文本对
BuboGPT BuboGPT:在多模态大语言模型中实现视觉定位 链接 一个高质量的指令微调数据集,包含音频-文本、音频字幕以及音频-图像-文本定位数据
SVIT SVIT:扩大视觉指令微调规模 链接 一个大规模数据集,包含420万条富含信息的视觉指令微调数据,涵盖对话、详细描述、复杂推理和指代问答等任务
mPLUG-DocOwl mPLUG-DocOwl:模块化多模态大语言模型用于文档理解 链接 一个指令微调数据集,涵盖广泛的视觉-文本理解任务,包括无需OCR的文档理解
PF-1M 使用Polite Flamingo进行视觉指令微调 链接 一个包含37个视觉-语言数据集的合集,其回复均由Polite Flamingo改写而成。
ChartLlama ChartLlama:用于图表理解和生成的多模态大语言模型 链接 一个用于图表理解和生成的多模态指令微调数据集
LLaVAR LLaVAR:针对富含文本的图像理解增强视觉指令微调 链接 一个用于富含文本图像理解的视觉指令微调数据集
MotionGPT MotionGPT:将人体运动视为一门外语 链接 一个包含多项人体运动相关任务的指令微调数据集
LRV-Instruction 通过稳健的指令微调缓解大型多模态模型中的幻觉问题 链接 一个用于解决幻觉问题的视觉指令微调数据集
Macaw-LLM Macaw-LLM:融合图像、音频、视频和文本的多模态语言建模 链接 一个大规模的多模态指令数据集,以多轮对话形式呈现
LAMM-Dataset LAMM:语言辅助的多模态指令微调数据集、框架与基准测试 链接 一个全面的多模态指令微调数据集
Video-ChatGPT Video-ChatGPT:借助大型视觉和语言模型实现精细化视频理解 链接 一个包含10万个高质量视频指令的数据集
MIMIC-IT MIMIC-IT:多模态上下文指令微调 链接 多模态上下文指令微调
M3IT M3IT:迈向多模态多语言指令微调的大规模数据集 链接 一个大规模、覆盖广泛的多模态指令微调数据集
LLaVA-Med LLaVA-Med:一天内训练一个面向生物医学领域的大型语言-视觉助手 即将发布 一个大规模、覆盖广泛的生物医学指令遵循数据集
GPT4Tools GPT4Tools:通过自我指令教学大语言模型使用工具 链接 工具相关的指令数据集
MULTIS ChatBridge:以大语言模型为语言催化剂连接不同模态 即将发布 一个涵盖16种多模态任务的指令微调数据集
DetGPT DetGPT:通过推理检测你需要的东西 链接 一个包含5,000张图像和约30,000组问答对的指令微调数据集
PMC-VQA PMC-VQA:用于医学视觉问答的视觉指令微调 即将发布 一个大规模的医学视觉问答数据集
VideoChat VideoChat:以聊天为中心的视频理解 链接 一个以视频为中心的多模态指令数据集
X-LLM X-LLM:将多模态视为外语来构建先进大语言模型 链接 一个中文多模态指令微调数据集
LMEye LMEye:为大语言模型打造的交互式感知网络 链接 一个多模态指令微调数据集
cc-sbu-align MiniGPT-4:利用先进大语言模型提升视觉-语言理解能力 链接 一个用于提高模型可用性和生成流畅性的多模态对齐数据集
LLaVA-Instruct-150K 视觉指令微调 链接 由GPT生成的多模态指令遵循数据
MultiInstruct MultiInstruct:通过指令微调提升多模态零样本学习 链接 第一个多模态指令微调基准数据集

上下文学习数据集

名称 论文 链接 备注
MIC MMICL:通过多模态上下文学习增强视觉-语言模型 链接 一个手动构建的指令微调数据集,包含交错的文本-图像输入、相互关联的多张图像输入以及多模态上下文学习输入。
MIMIC-IT MIMIC-IT:多模态上下文指令微调 链接 多模态上下文指令数据集

多模态思维链数据集

名称 论文 链接 备注
EMER 可解释的多模态情感推理 即将发布 用于可解释情感推理任务的基准数据集
EgoCOT EmbodiedGPT:通过具身思维链进行视觉-语言预训练 即将发布 大规模具身规划数据集
VIP 逐帧思考:利用视频补全与预测评估视频思维链 即将发布 可用于评估VideoCOT的推理时数据集
ScienceQA 学会解释:基于思维链的多模态推理在科学问答中的应用 链接 大规模选择题数据集,包含多模态科学问题和多样化的领域

多模态RLHF数据集

名称 论文 链接 备注
VLFeedback Silkie:大型视觉-语言模型的偏好蒸馏 链接 由AI标注的视觉-语言反馈数据集

评估基准

名称 论文 链接 备注
Inst-IT Bench Inst-IT: 通过显式视觉提示指令微调提升多模态实例理解 链接 用于评估图像和视频中细粒度实例级理解的基准
M3CoT M3CoT: 一种新型的多领域、多步骤、多模态思维链基准 链接 用于多模态思维链的多领域、多步骤基准
MMGenBench MMGenBench: 从文本到图像生成的角度评估大型多模态模型的极限 链接 一个衡量给定图像生成图像描述提示性能的基准
MiCEval MiCEval: 通过图像描述和推理步骤揭示多模态思维链的质量 链接 用于评估多模态LLM推理能力的多模态思维链基准
LiveXiv LiveXiv -- 基于Arxiv论文内容的多模态实时基准 链接 基于Arxiv论文的实时基准
TemporalBench TemporalBench: 为多模态视频模型评估细粒度时间理解能力的基准 链接 用于评估细粒度时间理解能力的基准
OmniBench OmniBench: 通往通用全语言模型未来之路 链接 一个评估模型同时处理视觉、听觉和文本输入能力的基准
MME-RealWorld MME-RealWorld: 您的多模态大模型能否应对对人类来说也极具挑战性的高分辨率真实场景? 链接 一个包含真实生活场景的高难度基准
VELOCITI VELOCITI: 视频-语言模型能否在时间维度上绑定语义概念? 链接 一个评估感知和绑定能力的视频基准
MMR 看得清楚,答得错误:用于评估多模态大模型在诱导性问题上的理解和鲁棒性基准 链接 一个用于衡量多模态大模型理解能力和对诱导性问题鲁棒性的基准
CharXiv CharXiv: 揭示多模态大模型在现实图表理解方面的差距 链接 由人类专家策划的图表理解基准
Video-MME Video-MME: 首个全面评估多模态大模型视频分析能力的基准 链接 一个全面评估多模态大模型视频分析能力的基准
VL-ICL Bench VL-ICL Bench: 多模态上下文学习评估中的细节陷阱 链接 一个涵盖广泛任务的多模态上下文学习评估基准
TempCompass TempCompass: 视频大模型真的能理解视频吗? 链接 一个评估视频大模型时间感知能力的基准
GVLQA GITA: 图到视觉与文本的融合,用于视觉-语言图推理 链接 一个评估图推理能力的基准
CoBSAT 多模态大模型能否进行文本到图像的上下文学习? 链接 一个用于文本到图像上下文学习的基准
VQAv2-IDK 视觉去幻觉指令生成:知道自己不知道什么 链接 一个用于评估“我知道”型视觉幻觉的基准
Math-Vision 使用MATH-Vision数据集衡量多模态数学推理能力 链接 一个多样化的数学推理基准
SciMMIR SciMMIR: 科学领域多模态信息检索评估基准 链接 一个用于科学领域多模态信息检索的基准
CMMMU CMMMU: 中国大规模跨学科多模态理解基准 链接 一个涉及多学科推理和知识的中文基准
MMCBench 针对常见扰动对大型多模态模型进行基准测试 链接 一个用于检验模型在常见扰动下自我一致性的基准
MMVP 睁眼瞎?探索多模态大模型的视觉缺陷 链接 一个评估视觉能力的基准
TimeIT TimeChat: 一款面向长视频理解的时间敏感型多模态大语言模型 链接 一个带有时间戳标注的视频指令微调数据集,覆盖多种时间敏感的视频理解任务。
ViP-Bench 让大型多模态模型理解任意视觉提示 链接 一个用于视觉提示的基准
M3DBench M3DBench: 让我们用多模态3D提示来指导大型模型 链接 一个以3D为中心的基准
Video-Bench Video-Bench: 一个全面的基准和工具包,用于评估基于视频的大语言模型 链接 一个用于视频MLLM评估的基准
Charting-New-Territories 开拓新领域:探索多模态大模型的地缘和地理空间能力 链接 一个用于评估地缘和地理空间能力的基准
MLLM-Bench MLLM-Bench,使用GPT-4V评估多模态大模型 链接 基于逐样本标准的GPT-4V评估
BenchLMM BenchLMM: 基准测试大型多模态模型的跨风格视觉能力 链接 一个评估模型对不同图像风格鲁棒性的基准
MMC-Benchmark MMC: 通过大规模指令微调推进多模态图表理解 链接 一个全面的人工标注基准,包含多个评估图表推理能力的任务
MVBench MVBench: 一个全面的多模态视频理解基准 链接 一个用于视频理解的综合性多模态基准
Bingo GPT-4V(ision)中幻觉的整体分析:偏见与干扰挑战 链接 一个专注于两种常见类型的幻觉评估基准
MagnifierBench OtterHD: 一款高分辨率多模态模型 链接 一个旨在探测模型细粒度感知能力的基准
HallusionBench HallusionBench: 你看到的是你想到的,还是你想到的是你看到的?一个对GPT-4V(ision)、LLaVA-1.5及其他多模态模型具有挑战性的图像-上下文推理基准 链接 一个用于评估幻觉的图像-上下文推理基准
PCA-EVAL 通过多模态大语言模型实现端到端具身决策:与GPT4-Vision及其他模型的探索 链接 一个用于评估多领域具身决策的基准
MMHal-Bench 通过事实增强的RLHF对齐大型多模态模型 链接 一个用于幻觉评估的基准
MathVista MathVista: 使用GPT-4V、Bard及其他大型多模态模型评估视觉情境下的数学推理能力 链接 一个同时挑战视觉和数学推理能力的基准
SparklesEval ✨Sparkles: 解锁多张图片间的对话,适用于多模态指令遵循模型 链接 一个基于GPT的基准,依据三个不同标准定量评估模型在多张图片和多轮对话中的会话能力。
ISEKAI 多模态大模型的链接-上下文学习 链接 一个仅由未见过的生成图像-标签对组成的基准,专为链接-上下文学习设计。
M-HalDetect 检测并预防大型视觉-语言模型中的幻觉 即将推出 一个用于训练和评估模型幻觉检测与预防能力的数据集
I4 赋能视觉-语言模型执行交错的视觉-语言指令 链接 一个全面评估模型在复杂交错视觉-语言指令下指令跟随能力的基准
SciGraphQA SciGraphQA: 一个大规模的合成多轮问答数据集,用于科学图表 链接 一个大规模的图表-视觉问答数据集
MM-Vet MM-Vet: 评估大型多模态模型的综合能力 链接 一个考察大型多模态模型在复杂多模态任务中表现的评估基准
SEED-Bench SEED-Bench: 以生成式理解为基准评估多模态大模型 链接 一个用于评估多模态大模型生成式理解能力的基准
MMBench MMBench: 您的多模态模型是全能选手吗? 链接 一个系统化设计的客观基准,用于稳健地评估视觉-语言模型的各项能力
Lynx 使用多模态输入训练GPT4风格语言模型的关键是什么? 链接 一个包含图像和视频任务的全面评估基准
GAVIE 通过稳健的指令微调减轻大型多模态模型的幻觉 链接 一个用于评估幻觉和指令跟随能力的基准
MME MME: 一个多模态大语言模型的全面评估基准 链接 一个全面的多模态大模型评估基准
LVLM-eHub LVLM-eHub: 一个全面的大型视觉-语言模型评估基准 链接 一个用于MLLM评估的平台
LAMM-Benchmark LAMM: 语言辅助的多模态指令微调数据集、框架和基准 链接 一个用于评估多模态大模型在各种2D/3D视觉任务中量化表现的基准
M3Exam M3Exam: 一个多语言、多模态、多层次的基准,用于评估大型语言模型 链接 一个用于评估多模态大模型的多语言、多模态、多层次基准
OwlEval mPLUG-Owl: 模块化使大型语言模型具备多模态能力 链接 一个用于评估多种能力的数据集

其他

名称 论文 链接 备注
IMAD IMAD: 基于图像增强的多模态对话 链接 多模态对话数据集
Video-ChatGPT Video-ChatGPT: 基于大型视觉与语言模型实现详细视频理解 链接 一个用于视频对话模型的定量评估框架
CLEVR-ATVC 可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建 链接 一个用于学习拒绝指令的合成多模态微调数据集
Fruit-ATVC 可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建 链接 一个手工拍摄的多模态微调数据集,用于学习拒绝指令
InfoSeek 预训练的视觉与语言模型能否回答视觉信息检索问题? 链接 一个专注于提出信息检索型问题的VQA数据集
OVEN 开放域视觉实体识别:迈向识别数百万个维基百科实体 链接 一个专注于从自然场景图像中识别维基百科视觉实体的数据集

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.3k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。

88.7k|★★☆☆☆|今天
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|1周前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|1周前
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|1周前
语言模型数据工具其他