Awesome-Multimodal-Large-Language-Models
Awesome-Multimodal-Large-Language-Models 是一个专注于多模态大语言模型(MLLMs)的开源资源汇总平台,由南京大学 MiG 团队维护。它系统性地整理了该领域最新的学术论文、综述报告、基准测试数据集以及开源项目代码,旨在解决研究人员和开发者在快速迭代的 AI 浪潮中难以高效获取高质量资料、缺乏统一评估标准等痛点。
无论是希望深入了解行业前沿的研究学者,还是正在寻找可靠评测工具或基线模型的算法工程师,都能在这里找到极具价值的参考。其核心亮点在于不仅收录了关于多模态理解与生成的权威综述,还推出了具有影响力的 VITA 系列模型(支持实时视听交互及百万级上下文长度)和 MME 系列评测基准(涵盖视频分析、高分辨率真实场景等复杂任务)。这些成果为社区提供了从理论调研到实际验证的一站式解决方案,帮助用户更便捷地追踪技术趋势、复现先进算法并推动多模态智能的实际应用落地。
使用场景
某自动驾驶研发团队急需评估最新多模态大模型在复杂路况视频理解与实时交互方面的能力,以决定下一代车载系统的技术选型。
没有 Awesome-Multimodal-Large-Language-Models 时
- 调研效率低下:研究人员需在 arXiv 和 GitHub 上手动搜索分散的论文与代码,难以区分哪些是真正的 SOTA(最先进)模型,哪些只是早期实验。
- 评测标准缺失:缺乏统一的基准测试集,团队不得不自行构建简单的视频问答数据集,导致评估结果无法与业界主流水平横向对比。
- 技术盲区明显:容易忽略如 VITA 系列这类支持“看听说做”并发交互的前沿开源项目,错失实现类 GPT-4o 实时语音视觉交互的机会。
- 场景覆盖不足:现有的内部测试仅关注静态图像,无法验证模型在高分辨率真实世界场景(如恶劣天气、复杂路口)下的鲁棒性。
使用 Awesome-Multimodal-Large-Language-Models 后
- 一站式获取前沿成果:直接通过该仓库的综述和分类列表,快速定位到 NeurIPS 2025 highlight 的 VITA-1.5 等关键模型,将技术调研时间从数周缩短至几天。
- 引入权威评测基准:直接复用 MME、Video-MME-v2 及 MME-RealWorld 等专业基准数据集与评估工具,确保模型性能评估具备行业公信力。
- 解锁全模态交互能力:基于仓库指引集成 VITA-E 或 VITA-Audio,迅速验证了车辆在行驶中同时处理视觉信号与语音指令的可行性。
- 覆盖极端真实场景:利用 MME-RealWorld 数据集挑战高分辨率难点场景,提前发现模型在人类都难以判断的复杂路况中的潜在缺陷。
Awesome-Multimodal-Large-Language-Models 不仅消除了信息不对称,更为团队提供了从理论调研到落地评测的全链路权威指南,极大加速了多模态技术的工程化进程。
运行环境要求
未说明
未说明

快速开始
令人惊叹的多模态大语言模型
✨ NJU-MiG 的亮点
🔥🔥 MLLM 综述 | 💬 微信(MLLM微信交流群)
🔥🔥 VITA 系列全能 MLLM | 💬 微信(VITA微信交流群)
🔥🔥 MME 系列 MLLM 基准测试
- 🔥 Video-MME-v2:迈向视频理解评估的新阶段
精彩论文
Multimodal Instruction Tuning (& Latest Works)
多模态幻觉
多模态上下文学习
多模态思维链
| 标题 | 会议/平台 | 日期 | 代码 | 演示 |
|---|---|---|---|---|
Insight-V:利用多模态大语言模型探索长链式视觉推理 |
arXiv | 2024-11-21 | Github | - |
Cantor:激发MLLM的多模态思维链 |
arXiv | 2024-04-24 | Github | 本地演示 |
Visual CoT:释放多模态语言模型中的思维链推理能力 |
arXiv | 2024-03-25 | Github | 本地演示 |
面向大型多模态模型的组合式思维链提示 |
CVPR | 2023-11-27 | Github | - |
DDCoT:用于语言模型多模态推理的职责分明思维链提示 |
NeurIPS | 2023-10-25 | Github | - |
Shikra:释放多模态LLM的指代对话魔力 |
arXiv | 2023-06-27 | Github | 演示 |
可解释的多模态情感推理 |
arXiv | 2023-06-27 | Github | - |
EmbodiedGPT:通过具身思维链进行视觉-语言预训练 |
arXiv | 2023-05-24 | Github | - |
| 逐帧思考:用视频补全与预测评估视频思维链 | arXiv | 2023-05-23 | - | - |
| T-SciQ:通过大语言模型信号教授多模态思维链推理以解答科学问题 | arXiv | 2023-05-05 | - | - |
Caption Anything:借助多样化的多模态控件实现交互式图像描述 |
arXiv | 2023-05-04 | Github | 演示 |
| 视觉思维链:用多模态补全弥合逻辑断层 | arXiv | 2023-05-03 | 即将发布 | - |
Chameleon:使用大语言模型实现即插即用的组合式推理 |
arXiv | 2023-04-19 | Github | 演示 |
| 视觉语言模型中的思维链提示调优 | arXiv | 2023-04-16 | 即将发布 | - |
MM-REACT:提示ChatGPT实现多模态推理与行动 |
arXiv | 2023-03-20 | Github | 演示 |
视觉ChatGPT:与视觉基础模型对话、绘图和编辑 |
arXiv | 2023-03-08 | Github | 演示 |
语言模型中的多模态思维链推理 |
arXiv | 2023-02-02 | Github | - |
视觉编程:无需训练的组合式视觉推理 |
CVPR | 2022-11-18 | Github | 本地演示 |
学会解释:通过思维链进行多模态推理以解答科学问题 |
NeurIPS | 2022-09-20 | Github | - |
大语言模型辅助的视觉推理
基础模型
评估
多模态RLHF
| 标题 | 会议/期刊 | 日期 | 代码 | 演示 |
|---|---|---|---|---|
R1-Reward:通过稳定强化学习训练多模态奖励模型 |
arXiv | 2025-05-09 | Github | - |
多模态大语言模型与人类偏好对齐:综述 |
arXiv | 2025-03-23 | Github | - |
MM-RLHF:多模态大语言模型对齐的下一步进展 |
arXiv | 2025-02-14 | Github | - |
| 利用多轮偏好优化提升多模态大语言模型在精细准确视频字幕生成上的能力 | arXiv | 2024-10-09 | - | - |
Silkie:大型视觉语言模型的偏好蒸馏 |
arXiv | 2023-12-17 | Github | - |
RLHF-V:通过细粒度纠正性人类反馈实现行为对齐,迈向可信的多模态大语言模型 |
arXiv | 2023-12-01 | Github | 演示 |
基于事实增强的RLHF对齐大型多模态模型 |
arXiv | 2023-09-25 | Github | 演示 |
RoVRM:一种通过辅助文本偏好数据优化的鲁棒视觉奖励模型 |
arXiv | 2024-08-22 | Github | - |
其他
| 标题 | 会议/期刊 | 日期 | 代码 | 演示 |
|---|---|---|---|---|
TS-LLaVA:通过缩略图采样构建视觉 token,用于免训练视频大语言模型 |
arXiv | 2024-11-17 | Github | - |
几乎零成本的安全微调:视觉大语言模型的基线方法 |
arXiv | 2024-02-03 | Github | - |
VCoder:多模态大语言模型的通用视觉编码器 |
arXiv | 2023-12-21 | Github | 本地演示 |
Prompt Highlighter:多模态大语言模型的交互式控制工具 |
arXiv | 2023-12-07 | Github | - |
在大语言模型中植入视觉“种子” |
arXiv | 2023-07-16 | Github | |
大型预训练模型能否帮助视觉模型完成感知任务? |
arXiv | 2023-06-01 | Github | - |
利用多模态大语言模型进行上下文感知目标检测 |
arXiv | 2023-05-29 | Github | 演示 |
利用多模态语言模型生成图像 |
arXiv | 2023-05-26 | Github | - |
关于评估大型视觉-语言模型的对抗鲁棒性 |
arXiv | 2023-05-26 | Github | - |
将语言模型与图像对齐,实现多模态输入输出 |
ICML | 2023-01-31 | Github | 演示 |
优秀数据集
对齐预训练数据集
多模态指令微调数据集
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| Inst-IT 数据集 | Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 | 链接 | 一个包含21,000个视频和51,000张图像的细粒度多层级标注指令微调数据集 |
| E.T. Instruct 164K | E.T. Bench:迈向开放式事件级视频-语言理解 | 链接 | 一个用于时序敏感视频理解的指令微调数据集 |
| MSQA | 3D场景中的多模态情境推理 | 链接 | 一个大规模的3D场景多模态情境推理数据集 |
| MM-Evol | MMEvol:借助Evol-Instruct增强多模态大语言模型 | 链接 | 一个具有丰富多样性的指令数据集 |
| UNK-VQA | UNK-VQA:一个多模态大模型回避回答能力的数据集与探究 | 链接 | 一个旨在训练模型对无法回答的问题保持沉默的数据集 |
| VEGA | VEGA:在视觉-语言大模型中学习交错图文理解 | 链接 | 一个用于提升模型交错信息理解能力的数据集 |
| ALLaVA-4V | ALLaVA:利用GPT4V合成数据构建轻量级视觉-语言模型 | 链接 | 由GPT4V生成的视觉与语言字幕及指令数据集 |
| IDK | 视觉去幻觉指令生成:知之为知,不知为不知 | 链接 | 针对“I Know”幻觉的去幻觉视觉指令 |
| CAP2QA | 视觉去幻觉指令生成 | 链接 | 图像对齐的视觉指令数据集 |
| M3DBench | M3DBench:用多模态3D提示指导大模型 | 链接 | 一个大规模的3D指令微调数据集 |
| ViP-LLaVA-Instruct | 让大型多模态模型理解任意视觉提示 | 链接 | LLaVA-1.5指令数据与区域级视觉提示数据的混合 |
| LVIS-Instruct4V | 眼见为实:通过GPT-4V提示优化视觉指令微调 | 链接 | 由GPT-4V自我生成的视觉指令数据集 |
| ComVint | 什么样的视觉指令才是好的?为视觉指令微调合成复杂视觉推理指令 | 链接 | 一个用于复杂视觉推理的合成指令数据集 |
| SparklesDialogue | ✨Sparkles:解锁多图像对话,赋能多模态指令遵循模型 | 链接 | 一个机器生成的对话数据集,专为跨多张图像和多轮对话的指令遵循型大语言模型设计,以增强其对话能力。 |
| StableLLaVA | StableLLaVA:利用合成图像-对话数据提升视觉指令微调效果 | 链接 | 一种经济高效地收集视觉指令微调数据的方法 |
| M-HalDetect | 检测并预防大型视觉-语言模型中的幻觉 | 即将发布 | 一个用于训练和评估模型幻觉检测与预防能力的数据集 |
| MGVLID | ChatSpot:通过精准指代指令微调启动多模态大语言模型 | - | 一个高质量的指令微调数据集,包含图像-文本和区域-文本对 |
| BuboGPT | BuboGPT:在多模态大语言模型中实现视觉定位 | 链接 | 一个高质量的指令微调数据集,包含音频-文本、音频字幕以及音频-图像-文本定位数据 |
| SVIT | SVIT:扩大视觉指令微调规模 | 链接 | 一个大规模数据集,包含420万条富含信息的视觉指令微调数据,涵盖对话、详细描述、复杂推理和指代问答等任务 |
| mPLUG-DocOwl | mPLUG-DocOwl:模块化多模态大语言模型用于文档理解 | 链接 | 一个指令微调数据集,涵盖广泛的视觉-文本理解任务,包括无需OCR的文档理解 |
| PF-1M | 使用Polite Flamingo进行视觉指令微调 | 链接 | 一个包含37个视觉-语言数据集的合集,其回复均由Polite Flamingo改写而成。 |
| ChartLlama | ChartLlama:用于图表理解和生成的多模态大语言模型 | 链接 | 一个用于图表理解和生成的多模态指令微调数据集 |
| LLaVAR | LLaVAR:针对富含文本的图像理解增强视觉指令微调 | 链接 | 一个用于富含文本图像理解的视觉指令微调数据集 |
| MotionGPT | MotionGPT:将人体运动视为一门外语 | 链接 | 一个包含多项人体运动相关任务的指令微调数据集 |
| LRV-Instruction | 通过稳健的指令微调缓解大型多模态模型中的幻觉问题 | 链接 | 一个用于解决幻觉问题的视觉指令微调数据集 |
| Macaw-LLM | Macaw-LLM:融合图像、音频、视频和文本的多模态语言建模 | 链接 | 一个大规模的多模态指令数据集,以多轮对话形式呈现 |
| LAMM-Dataset | LAMM:语言辅助的多模态指令微调数据集、框架与基准测试 | 链接 | 一个全面的多模态指令微调数据集 |
| Video-ChatGPT | Video-ChatGPT:借助大型视觉和语言模型实现精细化视频理解 | 链接 | 一个包含10万个高质量视频指令的数据集 |
| MIMIC-IT | MIMIC-IT:多模态上下文指令微调 | 链接 | 多模态上下文指令微调 |
| M3IT | M3IT:迈向多模态多语言指令微调的大规模数据集 | 链接 | 一个大规模、覆盖广泛的多模态指令微调数据集 |
| LLaVA-Med | LLaVA-Med:一天内训练一个面向生物医学领域的大型语言-视觉助手 | 即将发布 | 一个大规模、覆盖广泛的生物医学指令遵循数据集 |
| GPT4Tools | GPT4Tools:通过自我指令教学大语言模型使用工具 | 链接 | 工具相关的指令数据集 |
| MULTIS | ChatBridge:以大语言模型为语言催化剂连接不同模态 | 即将发布 | 一个涵盖16种多模态任务的指令微调数据集 |
| DetGPT | DetGPT:通过推理检测你需要的东西 | 链接 | 一个包含5,000张图像和约30,000组问答对的指令微调数据集 |
| PMC-VQA | PMC-VQA:用于医学视觉问答的视觉指令微调 | 即将发布 | 一个大规模的医学视觉问答数据集 |
| VideoChat | VideoChat:以聊天为中心的视频理解 | 链接 | 一个以视频为中心的多模态指令数据集 |
| X-LLM | X-LLM:将多模态视为外语来构建先进大语言模型 | 链接 | 一个中文多模态指令微调数据集 |
| LMEye | LMEye:为大语言模型打造的交互式感知网络 | 链接 | 一个多模态指令微调数据集 |
| cc-sbu-align | MiniGPT-4:利用先进大语言模型提升视觉-语言理解能力 | 链接 | 一个用于提高模型可用性和生成流畅性的多模态对齐数据集 |
| LLaVA-Instruct-150K | 视觉指令微调 | 链接 | 由GPT生成的多模态指令遵循数据 |
| MultiInstruct | MultiInstruct:通过指令微调提升多模态零样本学习 | 链接 | 第一个多模态指令微调基准数据集 |
上下文学习数据集
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| MIC | MMICL:通过多模态上下文学习增强视觉-语言模型 | 链接 | 一个手动构建的指令微调数据集,包含交错的文本-图像输入、相互关联的多张图像输入以及多模态上下文学习输入。 |
| MIMIC-IT | MIMIC-IT:多模态上下文指令微调 | 链接 | 多模态上下文指令数据集 |
多模态思维链数据集
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| EMER | 可解释的多模态情感推理 | 即将发布 | 用于可解释情感推理任务的基准数据集 |
| EgoCOT | EmbodiedGPT:通过具身思维链进行视觉-语言预训练 | 即将发布 | 大规模具身规划数据集 |
| VIP | 逐帧思考:利用视频补全与预测评估视频思维链 | 即将发布 | 可用于评估VideoCOT的推理时数据集 |
| ScienceQA | 学会解释:基于思维链的多模态推理在科学问答中的应用 | 链接 | 大规模选择题数据集,包含多模态科学问题和多样化的领域 |
多模态RLHF数据集
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| VLFeedback | Silkie:大型视觉-语言模型的偏好蒸馏 | 链接 | 由AI标注的视觉-语言反馈数据集 |
评估基准
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| Inst-IT Bench | Inst-IT: 通过显式视觉提示指令微调提升多模态实例理解 | 链接 | 用于评估图像和视频中细粒度实例级理解的基准 |
| M3CoT | M3CoT: 一种新型的多领域、多步骤、多模态思维链基准 | 链接 | 用于多模态思维链的多领域、多步骤基准 |
| MMGenBench | MMGenBench: 从文本到图像生成的角度评估大型多模态模型的极限 | 链接 | 一个衡量给定图像生成图像描述提示性能的基准 |
| MiCEval | MiCEval: 通过图像描述和推理步骤揭示多模态思维链的质量 | 链接 | 用于评估多模态LLM推理能力的多模态思维链基准 |
| LiveXiv | LiveXiv -- 基于Arxiv论文内容的多模态实时基准 | 链接 | 基于Arxiv论文的实时基准 |
| TemporalBench | TemporalBench: 为多模态视频模型评估细粒度时间理解能力的基准 | 链接 | 用于评估细粒度时间理解能力的基准 |
| OmniBench | OmniBench: 通往通用全语言模型未来之路 | 链接 | 一个评估模型同时处理视觉、听觉和文本输入能力的基准 |
| MME-RealWorld | MME-RealWorld: 您的多模态大模型能否应对对人类来说也极具挑战性的高分辨率真实场景? | 链接 | 一个包含真实生活场景的高难度基准 |
| VELOCITI | VELOCITI: 视频-语言模型能否在时间维度上绑定语义概念? | 链接 | 一个评估感知和绑定能力的视频基准 |
| MMR | 看得清楚,答得错误:用于评估多模态大模型在诱导性问题上的理解和鲁棒性基准 | 链接 | 一个用于衡量多模态大模型理解能力和对诱导性问题鲁棒性的基准 |
| CharXiv | CharXiv: 揭示多模态大模型在现实图表理解方面的差距 | 链接 | 由人类专家策划的图表理解基准 |
| Video-MME | Video-MME: 首个全面评估多模态大模型视频分析能力的基准 | 链接 | 一个全面评估多模态大模型视频分析能力的基准 |
| VL-ICL Bench | VL-ICL Bench: 多模态上下文学习评估中的细节陷阱 | 链接 | 一个涵盖广泛任务的多模态上下文学习评估基准 |
| TempCompass | TempCompass: 视频大模型真的能理解视频吗? | 链接 | 一个评估视频大模型时间感知能力的基准 |
| GVLQA | GITA: 图到视觉与文本的融合,用于视觉-语言图推理 | 链接 | 一个评估图推理能力的基准 |
| CoBSAT | 多模态大模型能否进行文本到图像的上下文学习? | 链接 | 一个用于文本到图像上下文学习的基准 |
| VQAv2-IDK | 视觉去幻觉指令生成:知道自己不知道什么 | 链接 | 一个用于评估“我知道”型视觉幻觉的基准 |
| Math-Vision | 使用MATH-Vision数据集衡量多模态数学推理能力 | 链接 | 一个多样化的数学推理基准 |
| SciMMIR | SciMMIR: 科学领域多模态信息检索评估基准 | 链接 | 一个用于科学领域多模态信息检索的基准 |
| CMMMU | CMMMU: 中国大规模跨学科多模态理解基准 | 链接 | 一个涉及多学科推理和知识的中文基准 |
| MMCBench | 针对常见扰动对大型多模态模型进行基准测试 | 链接 | 一个用于检验模型在常见扰动下自我一致性的基准 |
| MMVP | 睁眼瞎?探索多模态大模型的视觉缺陷 | 链接 | 一个评估视觉能力的基准 |
| TimeIT | TimeChat: 一款面向长视频理解的时间敏感型多模态大语言模型 | 链接 | 一个带有时间戳标注的视频指令微调数据集,覆盖多种时间敏感的视频理解任务。 |
| ViP-Bench | 让大型多模态模型理解任意视觉提示 | 链接 | 一个用于视觉提示的基准 |
| M3DBench | M3DBench: 让我们用多模态3D提示来指导大型模型 | 链接 | 一个以3D为中心的基准 |
| Video-Bench | Video-Bench: 一个全面的基准和工具包,用于评估基于视频的大语言模型 | 链接 | 一个用于视频MLLM评估的基准 |
| Charting-New-Territories | 开拓新领域:探索多模态大模型的地缘和地理空间能力 | 链接 | 一个用于评估地缘和地理空间能力的基准 |
| MLLM-Bench | MLLM-Bench,使用GPT-4V评估多模态大模型 | 链接 | 基于逐样本标准的GPT-4V评估 |
| BenchLMM | BenchLMM: 基准测试大型多模态模型的跨风格视觉能力 | 链接 | 一个评估模型对不同图像风格鲁棒性的基准 |
| MMC-Benchmark | MMC: 通过大规模指令微调推进多模态图表理解 | 链接 | 一个全面的人工标注基准,包含多个评估图表推理能力的任务 |
| MVBench | MVBench: 一个全面的多模态视频理解基准 | 链接 | 一个用于视频理解的综合性多模态基准 |
| Bingo | GPT-4V(ision)中幻觉的整体分析:偏见与干扰挑战 | 链接 | 一个专注于两种常见类型的幻觉评估基准 |
| MagnifierBench | OtterHD: 一款高分辨率多模态模型 | 链接 | 一个旨在探测模型细粒度感知能力的基准 |
| HallusionBench | HallusionBench: 你看到的是你想到的,还是你想到的是你看到的?一个对GPT-4V(ision)、LLaVA-1.5及其他多模态模型具有挑战性的图像-上下文推理基准 | 链接 | 一个用于评估幻觉的图像-上下文推理基准 |
| PCA-EVAL | 通过多模态大语言模型实现端到端具身决策:与GPT4-Vision及其他模型的探索 | 链接 | 一个用于评估多领域具身决策的基准 |
| MMHal-Bench | 通过事实增强的RLHF对齐大型多模态模型 | 链接 | 一个用于幻觉评估的基准 |
| MathVista | MathVista: 使用GPT-4V、Bard及其他大型多模态模型评估视觉情境下的数学推理能力 | 链接 | 一个同时挑战视觉和数学推理能力的基准 |
| SparklesEval | ✨Sparkles: 解锁多张图片间的对话,适用于多模态指令遵循模型 | 链接 | 一个基于GPT的基准,依据三个不同标准定量评估模型在多张图片和多轮对话中的会话能力。 |
| ISEKAI | 多模态大模型的链接-上下文学习 | 链接 | 一个仅由未见过的生成图像-标签对组成的基准,专为链接-上下文学习设计。 |
| M-HalDetect | 检测并预防大型视觉-语言模型中的幻觉 | 即将推出 | 一个用于训练和评估模型幻觉检测与预防能力的数据集 |
| I4 | 赋能视觉-语言模型执行交错的视觉-语言指令 | 链接 | 一个全面评估模型在复杂交错视觉-语言指令下指令跟随能力的基准 |
| SciGraphQA | SciGraphQA: 一个大规模的合成多轮问答数据集,用于科学图表 | 链接 | 一个大规模的图表-视觉问答数据集 |
| MM-Vet | MM-Vet: 评估大型多模态模型的综合能力 | 链接 | 一个考察大型多模态模型在复杂多模态任务中表现的评估基准 |
| SEED-Bench | SEED-Bench: 以生成式理解为基准评估多模态大模型 | 链接 | 一个用于评估多模态大模型生成式理解能力的基准 |
| MMBench | MMBench: 您的多模态模型是全能选手吗? | 链接 | 一个系统化设计的客观基准,用于稳健地评估视觉-语言模型的各项能力 |
| Lynx | 使用多模态输入训练GPT4风格语言模型的关键是什么? | 链接 | 一个包含图像和视频任务的全面评估基准 |
| GAVIE | 通过稳健的指令微调减轻大型多模态模型的幻觉 | 链接 | 一个用于评估幻觉和指令跟随能力的基准 |
| MME | MME: 一个多模态大语言模型的全面评估基准 | 链接 | 一个全面的多模态大模型评估基准 |
| LVLM-eHub | LVLM-eHub: 一个全面的大型视觉-语言模型评估基准 | 链接 | 一个用于MLLM评估的平台 |
| LAMM-Benchmark | LAMM: 语言辅助的多模态指令微调数据集、框架和基准 | 链接 | 一个用于评估多模态大模型在各种2D/3D视觉任务中量化表现的基准 |
| M3Exam | M3Exam: 一个多语言、多模态、多层次的基准,用于评估大型语言模型 | 链接 | 一个用于评估多模态大模型的多语言、多模态、多层次基准 |
| OwlEval | mPLUG-Owl: 模块化使大型语言模型具备多模态能力 | 链接 | 一个用于评估多种能力的数据集 |
其他
| 名称 | 论文 | 链接 | 备注 |
|---|---|---|---|
| IMAD | IMAD: 基于图像增强的多模态对话 | 链接 | 多模态对话数据集 |
| Video-ChatGPT | Video-ChatGPT: 基于大型视觉与语言模型实现详细视频理解 | 链接 | 一个用于视频对话模型的定量评估框架 |
| CLEVR-ATVC | 可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建 | 链接 | 一个用于学习拒绝指令的合成多模态微调数据集 |
| Fruit-ATVC | 可问责的文本-视觉聊天模型学习拒绝人类指令以进行图像重建 | 链接 | 一个手工拍摄的多模态微调数据集,用于学习拒绝指令 |
| InfoSeek | 预训练的视觉与语言模型能否回答视觉信息检索问题? | 链接 | 一个专注于提出信息检索型问题的VQA数据集 |
| OVEN | 开放域视觉实体识别:迈向识别数百万个维基百科实体 | 链接 | 一个专注于从自然场景图像中识别维基百科视觉实体的数据集 |
常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。