Vision-Language-Models-Overview

GitHub
553 32 非常简单 1 次阅读 4天前其他插件语言模型数据工具
AI 解读 由 AI 自动生成,仅供参考

Vision-Language-Models-Overview 是一个专注于视觉 - 语言模型(VLM)领域的开源知识库与前沿综述平台。它系统性地整理了从最新到早期的各类 VLM 论文、模型代码及 GitHub 仓库,旨在解决该领域技术迭代极快、信息分散且难以追踪的痛点,为研究者提供一站式的资源导航。

该项目不仅汇集了状态-of-the-art(SOTA)的模型列表,还深度覆盖了基准测试与评估方法、后训练与对齐技术(如强化学习 RL 和 supervised fine-tuning SFT)、以及具身智能、机器人控制、自动驾驶和医疗等实际应用场景。此外,它还专门探讨了当前 VLM 面临的核心挑战,包括幻觉问题、安全性、公平性及高效训练策略等。

其独特的技术亮点在于持续更新的动态机制和对“多模态对齐”、“提示工程”等细分方向的深度分类,甚至包含了维护团队精选的高质量论文标记。无论是希望快速掌握行业动态的 AI 研究人员、需要寻找基线模型与数据集的开发者,还是关注多模态技术落地的工程师,都能从中获得极具价值的参考。通过结构化的目录与丰富的外链资源,Vision-Language-Models-Overview 成为了连接理论研究与工程实践的重要桥梁。

使用场景

某自动驾驶初创公司的算法团队正急需为新一代车载感知系统筛选最合适的视觉 - 语言模型(VLM),以解决复杂路况下的语义理解难题。

没有 Vision-Language-Models-Overview 时

  • 信息搜集低效:研究人员需在 arXiv、GitHub 和各类技术博客间反复跳转,耗时数周才能拼凑出零散的模型列表,极易遗漏最新发布的 SOTA 模型。
  • 选型依据模糊:缺乏统一的基准测试(Benchmark)对比数据,难以判断哪些模型在“夜间驾驶”或“极端天气”等特定场景下表现更优,只能靠盲目试错。
  • 落地路径断裂:找到模型后,往往找不到对应的微调(SFT/RL Alignment)代码或嵌入式部署方案,导致从论文到实车部署的周期被无限拉长。
  • 风险预估不足:忽略了对模型幻觉(Hallucination)和安全对齐(Safety)的系统性评估,可能在后期测试中才发现模型会将塑料袋误识别为石块,引发紧急制动。

使用 Vision-Language-Models-Overview 后

  • 一站式全景视野:团队直接利用其持续更新的 SOTA VLMs 清单,按时间线和架构类型快速锁定了近半年内最适合边缘计算设备的轻量级模型。
  • 数据驱动决策:通过内置的评测数据集链接和对比指标,迅速量化了各模型在自动驾驶专用模拟器中的导航与操控能力,精准匹配业务需求。
  • 工程落地加速:直接获取经过验证的微调(Post-training)代码库和对齐策略指南,将原本需要两个月的适配工作压缩至两周完成。
  • 安全防线前置:参考关于幻觉和安全挑战的专项综述,提前引入了多模态对齐方案,有效降低了误识别率,确保了系统上线的可靠性。

Vision-Language-Models-Overview 将原本分散杂乱的科研碎片转化为结构化的工程导航图,帮助团队在激烈的技术迭代中实现了从“盲目追随”到“精准落地”的跨越。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个大型视觉语言模型(VLM)的论文、模型和基准测试的综述与集合列表,并非一个可直接运行的单一软件工具。README 中列出了众多不同模型(如 Qwen, LLaVA, InternVL 等),每个模型的具体运行环境需求(操作系统、GPU、内存、依赖库等)各不相同,需参考各自对应的官方仓库或论文。本仓库主要提供资源索引和分类,不包含统一的安装脚本或环境配置文件。
python未说明
Vision-Language-Models-Overview hero image

快速开始

大型视觉语言模型的基准测试与评估、对齐、应用及挑战

网站 论文 星标

一个汇集并综述视觉语言模型相关论文和模型的 GitHub 仓库。

以下我们整理了超赞的论文、模型以及 GitHub 仓库,内容涵盖:

  • 最先进视觉语言模型:按时间顺序从最新到最旧排列的 VLM 列表(我们会持续更新新模型和基准测试)。
  • 评估:VLM 的基准测试及其对应的工作链接。
  • 后训练/对齐:最新的 VLM 对齐相关工作,包括强化学习、监督微调等。
  • 应用:VLM 在具身 AI、机器人等领域中的应用。
  • 汇集关于上述主题的综述观点数据集

欢迎贡献和讨论!


🤩 标有 ⭐️ 的论文由本仓库的维护者提供。如果您觉得这些内容有用,非常感谢您为本仓库点个赞或引用我们的论文。


目录

0. 引用

@InProceedings{Li_2025_CVPR,
    author    = {Li, Zongxia and Wu, Xiyang and Du, Hongyang and Liu, Fuxiao and Nghiem, Huy and Shi, Guangyao},
    title     = {大型视觉语言模型现状综述:基准测试评估与挑战},
    booktitle = {IEEE/CVF 计算机视觉与模式识别会议(CVPR)研讨会论文集},
    month     = {六月},
    year      = {2025},
    pages     = {1587-1606}
}

1. 📚 最先进的多模态大模型

模型 年份 架构 训练数据 参数量 视觉编码器/分词器 预训练主干模型
GPT-5.4 / GPT-5.4 Thinking (OpenAI) 2026年3月6日 解码器架构 未披露 未披露 未披露 未披露
Phi-4-Reasoning-Vision-15B (微软) 2026年3月4日 解码器架构 精选合成数据 + 过滤数据 150亿 高分辨率动态分辨率ViT Phi-4
Gemini 3.0 (谷歌) 2026年3月 统一模型 未披露 未披露 未披露 未披露
Qwen3.5 (阿里巴巴) 2026年2月16日 统一VL(早期融合) 数万亿多模态token 8亿–397亿(MoE,170亿活跃) ViT(原生) Qwen3.5
Claude Opus 4.6 (Anthropic) 2026年2月 解码器架构 未披露 未披露 未披露 未披露
Erin 5.0 (百度) 2026年2月5日 统一模型(视觉、文本、音频) 统一模态数据集 - CNN–ViT(理解)/下一帧及尺度预测(生成) 统一自回归Transformer
Molmo2 (Allen AI) 2026年1月15日 解码器架构 7个新视频和2个多图像数据集(共919万视频) 40亿/70亿/80亿 双向注意力ViT Qwen 3 / OLMo
Gemini 3 2025年11月18日 统一模型 未披露 - - -
Emu3.5 2025年10月30日 解码器架构 统一模态数据集 - SigLIP Qwen3
DeepSeek-OCR 2025年10月20日 编码器-解码器架构 70% OCR,20%通用视觉,10%纯文本 30亿 DeepEncoder DeepSeek-3B
Qwen3-VL 2025年10月11日 解码器架构 - 80亿/40亿 ViT Qwen3
Qwen3-VL-MoE 2025年9月25日 解码器架构 - 2350亿-A220亿 ViT Qwen3
Qwen3-Omni(视觉/音频/文本) 2025年9月21日 - 视频/音频/图片 300亿 ViT Qwen3-Omni-MoE-Thinker
LLaVA-Onevision-1.5 2025年9月15日 - 中期训练-8500万 & SFT 80亿 Qwen2VLImageProcessor Qwen3
InternVL3.5 2025年8月25日 解码器架构 多模态及纯文本 300亿/380亿/2410亿 InternViT-3亿/60亿 Qwen3 / GPT-OSS
SkyWork-Unipic-1.5B 2025年7月29日 - 图像/视频.. - - -
Grok 4 2025年7月9日 - 图像/视频.. 1-2万亿 - -
Kwai Keye-VL (快手) 2025年7月2日 解码器架构 图像/视频.. 80亿 ViT QWen-3-8B
OmniGen2 2025年6月23日 解码器架构 & VAE LLaVA-OneVision/ SAM-LLaVA.. - ViT QWen-2.5-VL
Gemini-2.5-Pro 2025年6月17日 - - - - -
GPT-o3/o4-mini 2025年6月10日 解码器架构 未披露 未披露 未披露 未披露
Mimo-VL (小米) 2025年6月4日 解码器架构 24万亿MLLM tokens 70亿 [Qwen2.5-ViT Mimo-7B-base
BAGEL (字节跳动) 2025年5月20日 统一模型 视频/图片/文本 70亿 SigLIP2-so400m/14](https://arxiv.org/abs/2502.14786) Qwen2.5
BLIP3-o 2025年5月14日 解码器架构 (BLIP3-o 6万) GPT-4o生成的图像生成数据 40亿/80亿 ViT QWen-2.5-VL
InternVL-3 2025年4月14日 解码器架构 2000亿tokens 10亿/20亿/80亿/90亿/140亿/380亿/780亿 ViT-3亿/60亿 InterLM2.5/QWen2.5
LLaMA4-Scout/Maverick 2025年4月4日 解码器架构 40/20万亿tokens 170亿 MetaClip LLaMA4
Qwen2.5-Omni 2025年3月26日 解码器架构 视频/音频/图片/文本 70亿 Qwen2-Audio/Qwen2.5-VL ViT 端到端迷你-Omni
QWen2.5-VL 2025年1月28日 解码器架构 图像描述、VQA、定位任务、长视频 30亿/70亿/720亿 重新设计的ViT Qwen2.5
Ola 2025年 解码器架构 图像/视频/音频/文本 70亿 OryxViT Qwen-2.5-7B, SigLIP-400M, Whisper-V3-Large, BEATs-AS2M(cpt2)
Ocean-OCR 2025年 解码器架构 纯文本、标题、交错处理OCR 30亿 NaViT 从头预训练
SmolVLM 2025年 解码器架构 SmolVLM-Instruct 2.5亿 & 5亿 SigLIP SmolLM
DeepSeek-Janus-Pro 2025年 解码器架构 未披露 70亿 SigLIP DeepSeek-Janus-Pro
Inst-IT 2024年 解码器架构 Inst-IT数据集, LLaVA-NeXT-Data 70亿 CLIP/Vicuna, SigLIP/Qwen2 LLaVA-NeXT
DeepSeek-VL2 2024年 解码器架构 WiT, WikiHow 45亿 x 74 SigLIP/SAMB DeepSeekMoE
xGen-MM (BLIP-3) 2024年 解码器架构 MINT-1T, OBELICS, Caption 40亿 ViT + Perceiver Resampler Phi-3-mini
TransFusion 2024年 编码器-解码器 未披露 70亿 VAE编码器 从头在变压器架构上预训练
Baichuan Ocean Mini 2024年 解码器架构 图像/视频/音频/文本 70亿 CLIP ViT-L/14 Baichuan
LLaMA 3.2-vision 2024年 解码器架构 未披露 110亿-900亿 CLIP LLaMA-3.1
Pixtral 2024年 解码器架构 未披露 120亿 CLIP ViT-L/14 Mistral Large 2
Qwen2-VL 2024年 解码器架构 未披露 70亿-140亿 EVA-CLIP ViT-L Qwen-2
NVLM 2024年 编码器-解码器 LAION-115M 80亿-240亿 自定义ViT Qwen-2-Instruct
Emu3 2024年 解码器架构 Aquila 70亿 MoVQGAN LLaMA-2
Claude 3 2024年 解码器架构 未披露 未披露 未披露 未披露
InternVL 2023年 编码器-解码器 LAION-en, LAION- multi 70亿/200亿 Eva CLIP ViT-g QLLaMA
InstructBLIP 2023年 编码器-解码器 CoCo, VQAv2 130亿 ViT Flan-T5, Vicuna
CogVLM 2023年 编码器-解码器 LAION-2B ,COYO-700M 180亿 CLIP ViT-L/14 Vicuna
PaLM-E 2023年 解码器架构 所有机器人, WebLI 5620亿 ViT PaLM
LLaVA-1.5 2023年 解码器架构 COCO 130亿 CLIP ViT-L/14 Vicuna
Gemini 2023年 解码器架构 未披露 未披露 未披露 未披露
GPT-4V 2023年 解码器架构 未披露 未披露 未披露 未披露
BLIP-2 2023年 编码器-解码器 COCO, Visual Genome 70亿-130亿 ViT-g 开放预训练变压器 (OPT)
Flamingo 2022年 解码器架构 M3W, ALIGN 800亿 定制 Chinchilla
BLIP 2022年 编码器-解码器 COCO, Visual Genome 2230万-400万 ViT-B/L/g 从头预训练
CLIP 2021年 编码器-解码器 400万图文配对 6300万-3550万 ViT/ResNet 从头预训练

2. 🗂️ 基准与评估

2.1. 用于训练多模态视觉语言模型的数据集

数据集 任务 规模
OmniScience(02/2026) 科学图像理解 150万组图表-标题-上下文三元组
MaD-Mix(02/2026) 多模态数据混合优化 框架(0.5B–7B规模)
OVID(2026) 开放视频预训练 1000万小时,3亿帧-标题对
Molmo2 视频数据集(01/2026) 视频字幕、问答、跟踪、指物 919万条视频(7个视频+2个多图像数据集)
MMFineReason(/1/30/2026) 推理 180万
FineVision(09/04/2025) 混合领域 2430万/4.48TB

2.2. 多模态视觉语言模型的数据集与评估

🧮 视觉数学 (+ 视觉数学推理)

数据集 任务 评估协议 标注者 规模 (K) 代码 / 网站
MathVision 视觉数学 选择题 / 答案匹配 人工 3.04 仓库
MathVista 视觉数学 选择题 / 答案匹配 人工 6 仓库
MathVerse 视觉数学 选择题 人工 4.6 仓库
VisNumBench 视觉数字推理 选择题 Python程序生成/Web收集/现实生活照片 1.91 仓库

💬 统一模型基准

数据集 任务 评估协议 标注者 规模 (K) 代码 / 网站
ROVER 相互跨模态推理 视觉生成 + 语言生成评估 人工 1.3 (1,876张图片) 论文
RealUnify 数学、世界知识、图像生成 直接及分步评估(第3.3节) 脚本与人工验证 1.0
Uni-MMMU 科学、代码、图像生成 DreamSim(图像生成评估)& 字符串匹配(理解评估) - 1.0 仓库

🎞️ 视频理解

数据集 任务 评估协议 标注者 规模 (K) 代码 / 网站
MMOU 全模态长视频理解 选择题 人工 15 (9,038条视频) 论文
Video-MMMU 从专业视频中获取知识 选择题 + 知识增长 专家 0.9 (300条视频) 论文
MMVU 专家级多学科视频理解 选择题 专家 3 (27个主题) 论文
VideoHallu 视频理解 LLM评估 人工 3.2
Video SimpleQA 视频理解 LLM评估 人工 2.03 仓库
MovieChat 视频理解 LLM评估 人工 1 仓库
Perception‑Test 视频理解 选择题 大众 11.6 仓库
VideoMME 视频理解 选择题 专家 2.7 网站
EgoSchem 视频理解 选择题 合成/人工 5 网站
Inst‑IT‑Bench 细粒度图像与视频 选择题 & LLM 人工/合成 2 仓库

💬 多模态对话

数据集 任务 评估协议 标注者 规模 (K) 代码 / 网站
VisionArena 多模态对话 成对偏好 人工 23 仓库

🧠 多模态通用智能

数据集 任务 评估协议 标注者 规模 (K) 代码 / 网站
OmniEarth 地理空间/遥感VLM评估 选择题 + 开放式VQA 人工(已验证) 44.2 (9,275张图片,28项任务) 论文
MultiHaystack 多模态检索与推理 检索 + 问答 人工 0.75 (4.6万+候选)
DatBench 区分性、忠实性VLM评估 选择题(格式感知) 合成 -
MMLU 通用MM 选择题 人工 15.9
MMStar 通用MM 选择题 人工 1.5 网站
NaturalBench 通用MM 是/否、选择题 人工 10 HF
PHYSBENCH 视觉数学推理 选择题 STEM研究生 0.10 仓库

🔎 视觉推理 / VQA (+ 多语言与 OCR)

数据集 任务 评估协议 标注者 规模 (K) 代码/网站
EMMA 视觉推理 多选题 人工 + 合成 2.8 仓库
MMTBENCH 视觉推理与问答 多选题 AI专家 30.1 仓库
MM‑Vet OCR / 视觉推理 LLM评估 人工 0.2 仓库
MM‑En/CN 多语言多模态理解 多选题 人工 3.2 仓库
GQA 视觉推理与问答 答案匹配 种子数据 + 合成数据 22 网站
VCR 视觉推理与问答 多选题 MTurk众包 290 网站
VQAv2 视觉推理与问答 是/否、答案匹配 MTurk众包 1100 仓库
MMMU 视觉推理与问答 答案匹配、多选题 大学生 11.5 网站
MMMU-Pro 视觉推理与问答 答案匹配、多选题 大学生 5.19 网站
R1‑Onevision 视觉推理与问答 多选题 人工 155 仓库
VLM²‑Bench 视觉推理与问答 答案匹配、多选题 人工 3 网站
VisualWebInstruct 视觉推理与问答 LLM评估 网络数据 0.9 网站

📝 视觉文本 / 文档理解 (+ 图表)

数据集 任务 评估协议 标注者 规模 (K) 代码/网站
TextVQA 视觉文本理解 答案匹配 专家 28.6 仓库
DocVQA 文档VQA 答案匹配 众包 50 网站
ChartQA 图表图形理解 答案匹配 众包/合成 32.7 仓库

🌄 文本到图像生成

数据集 任务 评估协议 标注者 规模 (K) 代码/网站
MSCOCO‑30K 文本到图像 BLEU、ROUGE、相似度 MTurk众包 30 网站
GenAI‑Bench 文本到图像 人类评分 人工 80 HF

🚨 幻觉检测 / 控制

数据集 任务 评估协议 标注者 规模 (K) 代码/网站
HallusionBench 幻觉 是/否 人工 1.13 仓库
POPE 幻觉 是/否 人工 9 仓库
CHAIR 幻觉 是/否 人工 124 仓库
MHalDetect 幻觉 答案匹配 人工 4 仓库
Hallu‑Pi 幻觉 答案匹配 人工 1.26 仓库
HallE‑Control 幻觉 是/否 人工 108 仓库
AutoHallusion 幻觉 答案匹配 合成数据 3.129 仓库
BEAF 幻觉 是/否 人工 26 网站
GAIVE 幻觉 答案匹配 合成数据 320 仓库
HalEval 幻觉 是/否 众包/合成 2 仓库
AMBER 幻觉 答案匹配 人工 15.22 仓库

2.3. 针对具身视觉语言模型的基准数据集、模拟器和生成模型

基准 领域 类型 项目
Drive-Bench 具身AI 自动驾驶 官网
Habitat, Habitat 2.0, Habitat 3.0 机器人学(导航) 模拟器 + 数据集 官网
Gibson 机器人学(导航) 模拟器 + 数据集 官网, GitHub仓库
iGibson1.0, iGibson2.0 机器人学(导航) 模拟器 + 数据集 官网, 文档
Isaac Gym 机器人学(导航) 模拟器 官网, GitHub仓库
Isaac Lab 机器人学(导航) 模拟器 官网, GitHub仓库
AI2THOR 机器人学(导航) 模拟器 官网, GitHub仓库
ProcTHOR 机器人学(导航) 模拟器 + 数据集 官网, GitHub仓库
VirtualHome 机器人学(导航) 模拟器 官网, GitHub仓库
ThreeDWorld 机器人学(导航) 模拟器 官网, GitHub仓库
VIMA-Bench 机器人学(操作) 模拟器 官网, GitHub仓库
VLMbench 机器人学(操作) 模拟器 GitHub仓库
CALVIN 机器人学(操作) 模拟器 官网, GitHub仓库
GemBench 机器人学(操作) 模拟器 官网, GitHub仓库
WebArena 网络智能体 模拟器 官网, GitHub仓库
UniSim 机器人学(操作) 生成模型、世界模型 官网
GAIA-1 机器人学(自动驾驶) 生成模型、世界模型 官网
LWM 具身AI 生成模型、世界模型 官网, GitHub仓库
Genesis 具身AI 生成模型、世界模型 GitHub仓库
EMMOE 具身AI 生成模型、世界模型 论文
RoboGen 具身AI 生成模型、世界模型 官网
UnrealZoo 具身AI(追踪、导航、多智能体) 模拟器 官网

3. ⚒️ 训练后调整

3.1. VLM的RL对齐

标题 年份 论文 RL 代码
wDPO:鲁棒对齐的Winsorized直接偏好优化 2026年3月 论文 wDPO -
f-GRPO及更进一步:用于通用LLM对齐的基于散度的强化学习 2026年2月 论文 f-GRPO / f-HAL
从视觉到洞察:通过强化学习提升MLLM的视觉推理能力 2026年1月 论文 GRPO(6种奖励函数)
SaFeR-VLM:面向多模态推理的安全感知强化学习 2026年(ICLR) 论文 GRPO + 安全奖励
SAIL-RL:通过双奖励强化学习调优引导MLLM何时以及如何思考 2025年11月 论文 双奖励(思考+判断)
GIFT:基于群体相对的隐式微调将GRPO与DPO和UNA相结合 2025年10月 论文 GIFT(凸MSE损失)
Game-RL:合成多模态可验证的游戏数据以提升VLM的通用推理能力 2025年10月12日 论文 GRPO
Vision-Zero:通过策略性游戏化自我博弈实现可扩展的VLM自我改进 2025年9月29日 论文 GRPO -
Vision-SR1:通过推理分解实现自奖励的视觉-语言模型 2025年8月26日 论文 GRPO -
群体序列策略优化 2025年6月24日 论文 GSPO -
Visionary-R1:利用强化学习缓解视觉推理中的捷径问题 2025年5月20日 论文 GRPO -
VideoChat-R1:通过强化微调增强时空感知能力 2025年4月10日 论文 GRPO 代码
OpenVLThinker:通过迭代式自我改进探索复杂视觉-语言推理的早期尝试 2025年3月21日 论文 GRPO 代码
使用课程强化学习提升视觉语言模型的泛化能力和推理能力 2025年3月10日 论文 GRPO 代码
OmniAlign-V:迈向与人类偏好更加一致的MLLM 2025年 论文 DPO 代码
多模态Open R1/R1-多模态之旅 2025年 - GRPO 代码
R1-VL:通过分步群体相对策略优化学习使用多模态大语言模型进行推理 2025年 论文 GRPO 代码
Agent-R1:使用端到端强化学习训练强大的LLM智能体 2025年 - PPO/REINFORCE++/GRPO 代码
MM-Eureka:利用基于规则的大规模强化学习探索视觉顿悟时刻 2025年 论文 REINFORCE留一法(RLOO) 代码
MM-RLHF:多模态LLM对齐的下一步进展 2025年 论文 DPO 代码
LMM-R1:通过两阶段基于规则的RL赋予3B LMM强大的推理能力 2025年 论文 PPO 代码
Vision-R1:激励多模态大语言模型的推理能力 2025年 论文 GRPO 代码
面向多模态理解和生成的统一奖励模型 2025年 论文 DPO 代码
我们能用CoT生成图像吗?让我们逐步验证并强化图像生成过程 2025年 论文 DPO 代码
条条大路通似然:强化学习在微调中的价值 2025年 论文 在线RL -
Video-R1:强化MLLM中的视频推理能力 2025年 论文 GRPO 代码

3.2. 视觉-语言模型的微调

标题 年份 论文 网站 代码
MERGETUNE:视觉-语言模型的持续微调 2026/01(ICLR 2026) 论文 - -
掩码微调(MFT):解锁视觉-语言模型中的隐藏能力 2025/12 论文 -
Image-LoRA:迈向视觉-语言模型的极简微调 2025/12 论文 -
重新评估监督微调的作用:视觉-语言模型推理中的实证研究 2025/12 论文 -
Eagle 2.5:提升前沿视觉-语言模型的长上下文后训练 2025/04/21 论文 网站
OMNICAPTIONER:一个字幕生成器统御一切 2025/04/09 论文 网站 代码
Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 2024 论文 网站 代码
LLaVolta:基于分阶段视觉上下文压缩的高效多模态模型 2024 论文 网站 代码
ViTamin:在视觉-语言时代设计可扩展的视觉模型 2024 论文 网站 代码
Espresso:为您的视觉-语言模型从视频中进行高密度提取提供高压缩比 2024 论文 - -
视觉-语言模型是否应该使用图像数据进行预训练? 2025 论文 - -
VisionArena:包含偏好标签的23万条真实世界用户与视觉-语言模型对话 2024 论文 - 代码

3.3. VLM对齐GitHub项目

项目 仓库链接
Verl 🔗 GitHub
EasyR1 🔗 GitHub
OpenR1 🔗 GitHub
LLaMAFactory 🔗 GitHub
MM-Eureka-Zero 🔗 GitHub
MM-RLHF 🔗 GitHub
LMM-R1 🔗 GitHub

3.4. 提示优化

标题 年份 论文 网站 代码
EvoPrompt:面向视觉-语言模型的进化式提示适配 2026/03 论文 - -
MMLoP:用于高效视觉-语言模型适配的多模态低秩提示 2026/02 论文 -
多模态提示优化器(MPO):多模态提示的联合优化 2025/10 论文 -
进化式提示优化发现涌现的多模态推理策略 2025/03 论文 -
In-ContextEdit:利用大规模扩散Transformer中的上下文生成实现指令式图像编辑 2025/04/30 论文 网站

4. ⚒️ 应用

4.1 具身视觉-语言模型智能体

标题 年份 论文链接
将网络空间与物理世界对齐:具身AI综合综述 2024 论文
ScreenAI:用于UI和信息图表理解的视觉-语言模型 2024 论文
ChartLlama:用于图表理解和生成的多模态大模型 2023 论文
SciDoc2Diagrammer-MAF:基于多方面反馈精炼,实现从文档生成科学图表 2024 📄 论文
训练视觉-语言模型作为智能手机助手 2024 论文
ScreenAgent:由视觉-语言模型驱动的计算机控制智能体 2024 论文
基于环境反馈的具身视觉-语言程序员 2024 论文
视觉-语言模型玩《星际争霸II》:基准测试与多模态决策方法 2025 📄 论文
MP-GUI:利用多模态大模型进行GUI理解的模态感知 2025 📄 论文

4.2. 生成式视觉媒体应用

标题 年份 论文 网站 代码
GPT4Motion:通过面向Blender的GPT规划,在文本到视频生成中编写物理动作 2023 📄 论文 🌍 网站 💾 代码
多模态大模型中的虚假相关性 2025 📄 论文 - -
WeGen:作为微信般的交互式多模态生成统一模型 2025 📄 论文 - 💾 代码
VideoMind:用于长视频推理的LoRA链式智能体 2025 📄 论文 🌍 网站 💾 代码

4.3. 机器人学与具身人工智能

标题 年份 论文 官网 代码
AHA:用于检测和推理机器人操作中故障的视觉-语言模型 2024 📄 论文 🌍 官网 -
SpatialVLM:赋予视觉-语言模型空间推理能力 2024 📄 论文 🌍 官网 -
基于视觉-语言模型的场景理解与机器人物体操作 2024 📄 论文 - -
利用视觉语言模型指导长 horizon 任务与运动规划 2024 📄 论文 🌍 官网 -
AutoTAMP:以 LLM 作为翻译器和校验器的自回归式任务与运动规划 2023 📄 论文 🌍 官网 -
VLM 看,机器人做:通过视觉语言模型将人类演示视频转化为机器人行动计划 2024 📄 论文 - -
基于大型语言模型的可扩展多机器人协作:集中式还是分布式系统? 2023 📄 论文 🌍 官网 -
DART-LLM:利用大型语言模型进行依赖感知的多机器人任务分解与执行 2024 📄 论文 🌍 官网 -
MotionGPT:人类运动是一门外语 2023 📄 论文 - 💾 代码
利用大型语言模型通过自我对齐学习机器人技能奖励 2024 📄 论文 - -
语言到奖励:用于机器人技能合成 2023 📄 论文 🌍 官网 -
Eureka:通过编码大型语言模型实现人类水平的奖励设计 2023 📄 论文 🌍 官网 -
集成式任务与运动规划 2020 📄 论文 - -
攻破 LLM 控制的机器人 2024 📄 论文 🌍 官网 -
机器人演绎有害刻板印象 2022 📄 论文 🌍 官网 -
LLM 驱动的机器人存在演绎歧视、暴力及非法行为的风险 2024 📄 论文 - -
强调在机器人领域部署 LLM/VLM 的安全问题 2024 📄 论文 🌍 官网 -
EmbodiedBench:面向视觉驱动具身智能体的多模态大型语言模型综合基准测试 2025 📄 论文 🌍 官网 💾 代码与数据集
Gemini Robotics:将 AI 带入物理世界 2025 📄 技术报告 🌍 官网 -
GR-2:具有网络规模知识的生成式视频-语言-动作模型,用于机器人操作 2024 📄 论文 🌍 官网 -
Magma:多模态 AI 智能体的基础模型 2025 📄 论文 🌍 官网 💾 代码
DayDreamer:用于物理机器人学习的世界模型 2022 📄 论文 🌍 官网 💾 代码
Hi Robot:基于分层视觉-语言-动作模型的开放式指令遵循 2025 📄 论文 - -
RL-VLM-F:基于视觉语言基础模型反馈的强化学习 2024 📄 论文 🌍 官网 💾 代码
KALIE:无需机器人数据即可对视觉-语言模型进行微调,以适应开放世界操作 2024 📄 论文 🌍 官网 💾 代码
统一视频动作模型 2025 📄 论文 🌍 官网 💾 代码
HybridVLA:统一视觉-语言-动作模型中的协同扩散与自回归 2025 📄 论文 🌍 官网 💾 代码
DAM-VLA:基于动态动作模型的视觉-语言-动作框架,用于机器人操作 2026年3月 📄 论文 -
NS-VLA:迈向神经符号型视觉-语言-动作模型 2026年3月 📄 论文 -
用于具身推理与层级控制的可导向视觉-语言-动作策略 2026年2月 📄 论文 -
ST4VLA:面向视觉-语言-动作模型的空间引导训练 2026年2月 📄 论文 -

4.3.1. 操作

标题 年份 论文 网站 代码
VIMA:基于多模态提示的通用机器人操作 2022 📄 论文 🌍 网站
Instruct2Act:利用大型语言模型将多模态指令映射为机器人动作 2023 📄 论文 - -
基于大型语言模型的创意机器人工具使用 2023 📄 论文 🌍 网站 -
RoboVQA:面向机器人技术的多模态长 horizon 推理 2024 📄 论文 - -
RT-1:用于大规模真实世界控制的机器人 Transformer 2022 📄 论文 🌍 网站 -
RT-2:视觉-语言-动作模型将网络知识迁移到机器人控制中 2023 📄 论文 🌍 网站 -
Open X-Embodiment:机器人学习数据集和 RT-X 模型 2023 📄 论文 🌍 网站 -
ExploRLLM:利用大型语言模型引导强化学习中的探索 2024 📄 论文 🌍 网站 -
AnyTouch:跨多种视觉-触觉传感器学习统一的静态-动态表征 2025 📄 论文 🌍 网站 💾 代码
面向视觉控制的掩码世界模型 2022 📄 论文 🌍 网站 💾 代码
用于视觉机器人操作的多视角掩码世界模型 2023 📄 论文 🌍 网站 💾 代码

4.3.2. 导航

标题 年份 论文 网站 代码
ZSON:使用多模态目标嵌入的零样本目标导向导航 2022 📄 论文 - -
LOC-ZSON:语言驱动的以物体为中心的零样本物体检索与导航 2024 📄 论文 - -
LM-Nav:结合语言、视觉和行动的大型预训练模型的机器人导航 2022 📄 论文 🌍 网站 -
NaVILA:用于导航的腿式机器人视觉-语言-动作模型 2022 📄 论文 🌍 网站 -
VLFM:用于零样本语义导航的视觉-语言前沿地图 2024 📄 论文 - -
利用大型语言模型进行导航:语义猜测作为规划的启发式方法 2023 📄 论文 🌍 网站 -
Vi-LAD:用于动态环境中具有社会意识的机器人导航的视觉-语言注意力蒸馏 2025 📄 论文 - -
导航世界模型 2024 📄 论文 🌍 网站 -

4.3.3. 人机交互

标题 年份 论文 网站 代码
MUTEX:从多模态任务规范中学习统一策略 2023 📄 论文 🌍 网站 -
LaMI:用于多模态人机交互的大型语言模型 2024 📄 论文 🌍 网站 -
VLM-Social-Nav:通过视觉-语言模型评分实现的社会感知机器人导航 2024 📄 论文 - -

4.3.4. 自动驾驶

标题 年份 论文 网站 代码
AutoMoT: 一种用于端到端自动驾驶的异步混合Transformer统一视觉-语言-动作模型 2026年3月 📄 论文 - -
DriveVLM-RL: 基于视觉-语言模型的受神经科学启发的安全自动驾驶强化学习 2026年3月 📄 论文 -
HiST-VLA: 一种用于端到端自动驾驶的分层时空视觉-语言-动作模型 2026年2月 📄 论文 -
OpenDriveVLA: 基于大型视觉语言动作模型的端到端自动驾驶探索 2025年3月 📄 论文 -
视觉语言模型已准备好用于自动驾驶吗?从可靠性、数据和指标角度的实证研究 2025年1月7日 📄 论文 🌍 网站
DriveVLM: 自动驾驶与大型视觉-语言模型的融合 2024年 📄 论文 🌍 网站 -
GPT-Driver: 使用GPT学习驾驶 2023年 📄 论文 - -
LanguageMPC: 将大型语言模型用作自动驾驶决策者 2023年 📄 论文 🌍 网站 -
使用LLM驾驶:融合目标级向量模态实现可解释的自动驾驶 2023年 📄 论文 - -
指代式多目标跟踪 2023年 📄 论文 - 💾 代码
VLPD: 基于视觉-语言语义自监督的上下文感知行人检测 2023年 📄 论文 - 💾 代码
MotionLM: 将多智能体运动预测视为语言建模 2023年 📄 论文 - -
DiLu: 基于知识驱动的大型语言模型自动驾驶方法 2023年 📄 论文 🌍 网站 -
VLP: 用于自动驾驶的视觉语言规划 2024年 📄 论文 - -
DriveGPT4: 基于大型语言模型的可解释端到端自动驾驶 2023年 📄 论文 - -

4.4. 以人为中心的人工智能

标题 年份 论文 网站 代码
DLF:解耦语言聚焦的多模态情感分析 2024 📄 论文 - 💾 代码
LIT:大型语言模型驱动的意图追踪用于主动的人机协作——机器人副厨师应用 2024 📄 论文 - -
预训练语言模型作为人类辅助的视觉规划器 2023 📄 论文 - -
在科学中促进人工智能公平性:面向可访问的VLM研究的广义领域提示学习 2024 📄 论文 - -
使用GPT-4V在网状化学中进行图像和数据挖掘 2023 📄 论文 - -

4.4.1. 网络智能体

标题 年份 论文 网站 代码
具有规划、长上下文理解与程序合成的真实世界网络智能体 2023 📄 论文 - -
CogAgent:用于GUI智能体的视觉语言模型 2023 📄 论文 - 💾 代码
WebVoyager:使用大型多模态模型构建端到端的网络智能体 2024 📄 论文 - 💾 代码
ShowUI:一个用于GUI视觉智能体的视觉-语言-行动模型 2024 📄 论文 - 💾 代码
ScreenAgent:一个由视觉语言模型驱动的计算机控制智能体 2024 📄 论文 - 💾 代码
带有世界模型的网络智能体:在网络导航中学习并利用环境动态 2024 📄 论文 - 💾 代码
MolmoWeb:一个用于自动化网络任务的开放智能体 03/2026 📄 博客 🌍 网站

4.4.2. 无障碍

标题 年份 论文 网站 代码
X-World:无障碍、视觉与自主性的交汇 2021 📄 论文 - -
面向网页无障碍的上下文感知图像描述 2024 📄 论文 - -
通过使用多模态大型语言模型自动进行360度场景描述来提升VR的可访问性 2024 📄 论文 - -

4.4.3. 医疗健康

标题 年份 论文 网站 代码
CARE:基于证据的代理框架,实现多模态医学推理中的临床问责制 03/2026 📄 论文 - -
MedMO:用于医学图像的多模态大型语言模型的基础与理解 02/2026 📄 论文 -
Colon-X:从多模态理解到临床推理,推动智能结肠镜检查的发展 12/2025 📄 论文 -
智能结肠镜检查的前沿 02/2025 📄 论文 - 💾 代码
VisionUnite:一种结合临床知识的眼科视觉-语言基础模型 2024 📄 论文 - 💾 代码
多模态医疗AI:识别并设计针对放射学的具有临床相关性的视觉-语言应用 2024 📄 论文 - -
M-FLAG:使用冻结语言模型和潜在空间几何优化进行医学视觉-语言预训练 2023 📄 论文 - -
MedCLIP:来自未配对的医学图像和文本的对比学习 2022 📄 论文 - 💾 代码
Med-Flamingo:一种多模态医学少样本学习模型 2023 📄 论文 - 💾 代码

4.4.4. 社会公益

标题 年份 论文 网站 代码
分析K-12人工智能教育:大型语言模型对课堂讲授关于学习理论、教学法、工具及人工智能素养的研究 2024 📄 论文 - -
学生而非专家:一条新的教育人工智能流水线,以模拟更人性化和个性化的青春期早期 2024 📄 论文 - -
在农业中利用大型视觉和语言模型:综述 2024 📄 论文 - -
用于预测大豆复种潜在分布区域的视觉-语言模型 2024 📄 论文 - -
视觉-语言模型并非你所需要的全部:分子语言模型的增强策略 2024 📄 论文 - 💾 代码
DrawEduMath:用专家标注的学生手绘数学图像评估视觉语言模型 2024 📄 论文 - -
MultiMath:为大型语言模型架起视觉与数学推理之间的桥梁 2024 📄 论文 - 💾 代码
视觉-语言模型与气象学相遇:开发用于极端天气事件检测的热力图模型 2024 📄 论文 - 💾 代码
他非常聪明,她非常美丽?关于减轻语言建模与生成中的社会偏见 2021 📄 论文 - -
UrbanVLP:用于城市区域画像的多粒度视觉-语言预训练 2024 📄 论文 - -

5. 挑战

5.1 幻觉

标题 年份 论文 网站 代码
HALP:无需生成任何标记即可检测视觉-语言模型中的幻觉 2026年3月 📄 论文 🌍 ACL -
语调很重要:语言语调对视觉-语言模型中幻觉的影响 2026年1月 📄 论文 -
图像字幕中的对象幻觉 2018年 📄 论文 -
大型视觉-语言模型中对象幻觉的评估 2023年 📄 论文 - 💾 代码
检测与预防大型视觉语言模型中的幻觉 2023年 📄 论文 - -
HallE-Control:控制大型多模态模型中的对象幻觉 2023年 📄 论文 - 💾 代码
Hallu-PI:在扰动输入下评估多模态大型语言模型中的幻觉 2024年 📄 论文 - 💾 代码
BEAF:通过观察前后变化来评估视觉-语言模型中的幻觉 2024年 📄 论文 🌍 网站 -
HallusionBench:用于复杂语言幻觉和视觉错觉的大规模视觉-语言模型诊断套件 2023年 📄 论文 - 💾 代码
AUTOHALLUSION:为视觉-语言模型自动生成幻觉基准测试 2024年 📄 论文 🌍 网站 -
通过稳健的指令微调缓解大型多模态模型中的幻觉 2023年 📄 论文 - 💾 代码
Hal-Eval:大型视觉语言模型的通用且细粒度的幻觉评估框架 2024年 📄 论文 - 💾 代码
AMBER:无大语言模型的多维度基准,用于评估多模态大型语言模型的幻觉 2023年 📄 论文 - 💾 代码

5.2 安全性

标题 年份 论文 网站 代码
SaFeR-VLM:通过强化学习将安全性融入多模态推理 2026年(ICLR) 📄 论文 - -
HoliSafe:视觉-语言模型的整体安全评估 2026年(ICLR) 📄 论文 -
越狱动物园:大型语言和视觉-语言模型越狱的综述、现状与展望 2024年 📄 论文 🌍 网站
Safe-VLN:面向连续环境中运行的自主机器人的视觉-语言导航避障 2023年 📄 论文 - -
SafeBench:多模态大型语言模型的安全评估框架 2024年 📄 论文 - -
JailBreakV:评估多模态大型语言模型抵御越狱攻击鲁棒性的基准 2024年 📄 论文 - -
SHIELD:利用多模态大型语言模型进行人脸欺骗与伪造检测的评估基准 2024年 📄 论文 - 💾 代码
图像是对齐的阿喀琉斯之踵:利用视觉漏洞越狱多模态大型语言模型 2024年 📄 论文 - -
针对多模态大型语言模型的越狱攻击 2024年 📄 论文 - -
用于审计机器人基础模型的身体化红队 2025年 📄 论文 🌍 网站
基于大语言模型的机器人的安全护栏 2025年 📄 论文 - -

5.3 公平性

标题 年份 论文 网站 代码
多模态大语言模型的幻觉:综述 2024 📄 论文 - -
大语言模型中的偏见与公平性:综述 2023 📄 论文 - -
多模态人工智能中的公平性与偏见:综述 2024 📄 论文 - -
多模态偏见:在视觉—语言模型中引入超越性别和种族的刻板偏见评估框架 2023 📄 论文 - -
FMBench:在医疗任务上对多模态大语言模型进行公平性基准测试 2024 📄 论文 - -
FairCLIP:在视觉—语言学习中利用公平性 2024 📄 论文 - -
FairMedFM:面向医学影像基础模型的公平性基准测试 2024 📄 论文 - -
面向文化理解的视觉语言模型基准测试 2024 📄 论文 - -

5.4 对齐

5.4.1 多模态对齐

标题 年份 论文 网站 代码
使用指令对比解码缓解大型视觉—语言模型中的幻觉 2024 📄 论文 - -
通过自我改进提升大型视觉语言模型中的视觉—语言模态对齐 2024 📄 论文 - -
单模态视觉和语言模型的对齐评估与学习 2024 📄 论文 🌍 网站 -
扩展多模态对比表示 2023 📄 论文 - 💾 代码
OneLLM:一个框架,用于将所有模态与语言对齐 2023 📄 论文 - 💾 代码
“你所见即你所读”?改进文本—图像对齐评估 2023 📄 论文 🌍 网站 💾 代码
Critic-V:VLM批评家有助于捕捉多模态推理中的VLM错误 2024 📄 论文 🌍 网站 💾 代码

5.4.2 常识与物理对齐

标题 年份 论文 网站 代码
VBench:视频生成模型的综合基准测试套件 2023 📄 论文 🌍 网站 💾 代码
VBench++:视频生成模型的全面且多功能基准测试套件 2024 📄 论文 🌍 网站 💾 代码
PhysBench:针对物理世界理解的VLM基准测试与增强 2025 📄 论文 🌍 网站 💾 代码
VideoPhy:评估视频生成的物理常识 2024 📄 论文 🌍 网站 💾 代码
WorldSimBench:迈向将视频生成模型作为世界模拟器 2024 📄 论文 🌍 网站 -
WorldModelBench:以世界模型的标准评判视频生成模型 2025 📄 论文 🌍 网站 💾 代码
VideoScore:构建自动指标以模拟细粒度的人类反馈来评估视频生成 2024 📄 论文 🌍 网站 💾 代码
WISE:一种基于世界知识的语义评估方法,用于文本—图像生成 2025 📄 论文 - 💾 代码
基于复杂文本对齐和运动感知一致性的内容丰富型AIGC视频质量评估 2025 📄 论文 - 💾 代码
您的大型视觉—语言模型仅需少量注意力头即可实现视觉定位 2025 📄 论文 - -
SpatialVLM:赋予视觉—语言模型空间推理能力 2024 📄 论文 🌍 网站 💾 代码
生成式视频模型是否理解物理原理? 2025 📄 论文 🌍 网站 💾 代码
PhysGen:基于刚体物理的图像—视频生成 2024 📄 论文 🌍 网站 💾 代码
视频生成距离世界模型还有多远?——从物理定律的角度看 2024 📄 论文 🌍 网站 💾 代码
在空间中思考的同时进行推理:多模态思维可视化 2025 📄 论文 - -
VBench-2.0:推进视频生成基准测试套件,以提高内在忠实性 2025 📄 论文 🌍 网站 💾 代码

5.5 高效训练与微调

标题 年份 论文 网站 代码
LoRA-Squeeze:简单有效的LoRA模块后训练与在线训练压缩 2026年2月 📄 论文 - -
GRACE:基于置信度蒸馏的门控关系对齐,用于高效视觉语言模型 2026年1月 📄 论文 -
VLMQ:大型视觉语言模型的后训练量化 2026年(ICLR) 📄 论文 -
VILA:关于视觉语言模型的预训练 2023年 📄 论文 -
SimVLM:弱监督下的简单视觉语言模型预训练 2021年 📄 论文 - -
LoRA:大型语言模型的低秩适应 2021年 📄 论文 - 💾 代码
QLoRA:量化大语言模型的高效微调 2023年 📄 论文 - -
使用人类反馈强化学习训练有益且无害的助手 2022年 📄 论文 - 💾 代码
RLAIF vs. RLHF:利用AI反馈扩展人类反馈强化学习 2023年 📄 论文 - -

5.6 高质量数据集稀缺

标题 年份 论文 网站 代码
视觉语言模型与合成数据桥梁研究综述 2025年 📄 论文 - 💾 代码
Inst-IT:通过显式视觉提示指令微调提升多模态实例理解能力 2024年 📄 论文 网站 💾 代码
SLIP:自监督学习与语言-图像预训练的结合 2021年 📄 论文 - 💾 代码
合成视觉:训练视觉语言模型以理解物理规律 2024年 📄 论文 - -
Synth2:利用合成字幕和图像嵌入提升视觉语言模型性能 2024年 📄 论文 - -
KALIE:无需机器人数据即可微调视觉语言模型以应对开放世界操作任务 2024年 📄 论文 - -
具有世界模型的网络智能体:在网页导航中学习并利用环境动态 2024年 📄 论文 - -

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

142.7k|★★☆☆☆|今天
开发框架Agent语言模型

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|今天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|2天前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频