LLaVA-pp

GitHub
846 61 较难 1 次阅读 昨天语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

LLaVA-pp 是一个旨在增强多模态大模型视觉理解能力的开源项目。它通过将经典的 LLaVA 1.5 架构与微软最新发布的 Phi-3 Mini(3.8B)以及 Meta 推出的 LLaMA-3(8B)大语言模型相结合,显著提升了模型在图像描述、视觉问答及复杂指令跟随方面的表现。

该项目主要解决了现有轻量级或早期多模态模型在处理高难度学术任务及精细指令时能力不足的问题。通过引入更强大的基座语言模型,LLaVA-pp 在多个权威基准测试中取得了优异成果,实现了在小参数量下的高性能推理。其技术亮点在于提供了灵活的微调方案,不仅发布了完全微调的版本,还包含了高效的 LoRA 适配器和独特的 S² 微调模型,方便用户根据算力资源进行选择。

LLaVA-pp 非常适合 AI 研究人员探索多模态前沿技术,也适合开发者快速构建基于最新大模型的视觉应用。项目团队贴心地提供了 Google Colab 在线体验环境和 Hugging Face 演示空间,即使是没有深厚算法背景的普通用户或设计师,也能轻松上手体验 Phi-3-V 和 LLaMA-3-V 的强大视觉交互能力。

使用场景

一家电商初创公司的技术团队正致力于构建一个能自动解析用户上传商品图并生成详细营销文案的智能客服系统。

没有 LLaVA-pp 时

  • 推理成本高昂:部署基于大型多模态模型(如原版 LLaVA)需要昂贵的 GPU 资源,初创公司难以承担高并发下的服务器开销。
  • 细节识别不足:面对复杂的商品纹理或微小标签,旧模型常出现“幻觉”,错误描述颜色或材质,导致生成的文案与实际不符。
  • 指令遵循能力弱:模型难以严格遵循“用幽默风格写一段小红书风格的种草文案”这类复杂指令,输出内容往往刻板生硬。
  • 响应速度慢:在边缘设备或低配服务器上运行大模型延迟极高,用户上传图片后需等待数秒才能收到回复,体验流畅度差。

使用 LLaVA-pp 后

  • 轻量化高效部署:借助集成的 Phi-3 (3.8B) 和 LLaMA-3 (8B) 模型,LLaVA-pp 在保持高性能的同时大幅降低显存占用,使低成本显卡甚至云端实例也能流畅运行。
  • 视觉理解更精准:增强的视觉编码器能准确捕捉商品细微特征(如面料光泽、Logo 细节),彻底消除了描述性错误,确保文案真实性。
  • 复杂指令完美执行:依托最新的 LLaMA-3 和 Phi-3 强大的语言基座,模型能精准拿捏“幽默”、“种草”等风格要求,生成极具吸引力且符合语境的营销文本。
  • 实时交互体验:优化的架构显著提升了推理速度,实现了近乎实时的图文对话,让用户感觉像是在与真人导购交流。

LLaVA-pp 通过将最前沿的轻量级大语言模型与视觉能力深度融合,让中小企业也能以极低门槛拥有精准、快速且懂指令的多模态 AI 应用。

运行环境要求

操作系统
  • 未说明
GPU

必需(基于 LLaVA 架构及大模型训练/推理需求),具体型号和显存大小未说明,通常建议 8GB+ 显存以运行 3.8B 或 8B 参数模型

内存

未说明

依赖
notes该项目是基于 LLaVA 1.5 的扩展,需先克隆 LLaVA 仓库并更新子模块。安装时需强制安装特定版本的 transformers 库。项目提供 Phi-3-V (3.8B) 和 LLaMA-3-V (8B) 两种模型变体,支持预训练、LoRA 微调及全量微调。运行前需根据所选模型手动替换相应的源代码文件(如 train.py, builder.py 等)。
python未说明
transformers==4.40.0 (特定 commit a98c417)
torch (版本未说明,需兼容 transformers)
LLaVA (作为基础代码库)
LLaVA-pp hero image

快速开始

LLaVA++:借助 LLaMA-3 和 Phi-3 扩展视觉能力

Oryx Models

Hanoona Rasheed*, Muhammad Maaz*, Salman KhanFahad Khan

* 共同贡献

穆罕默德·本·扎耶德人工智能大学(MBZUAI)

Google Demo Demo Demo


📢 最新动态

  • 2024年4月30日 - LLaMA-3-V 和 Phi-3-V 的演示现已通过 Hugging Face Spaces 提供。请访问 LLaMA-3-VPhi-3-V 查看!🔥🔥🔥
  • 2024年4月28日 - Phi-3-V 和 LLaMA-3-V 的在线演示已发布,请访问 在线演示 查看!🔥🔥🔥
  • 2024年4月28日 - 添加了 LoRA、全量微调以及 S2 微调模型和相关结果!🔥🔥🔥
  • 2024年4月27日 - 发布了用于与 Phi-3-V-3.8B 模型对话的 Google Colab,请访问 Google Colab 查看!🔥🔥🔥
  • 2024年4月26日 - Phi-3-V 和 LLaVA-3-V 正式发布:我们非常高兴地推出 LLaVA 与 Phi-3 Mini Instruct 及 LLaMA-3 Instruct 模型的全新集成!Hugging Face 🔥🔥🔥

💬 引言

本仓库增强了 LLaVA 1.5 模型的能力,整合了本周发布的最新大型语言模型🔥,包括 Phi-3 Mini Instruct 3.8BLLaMA-3 Instruct 8B

🏆 结果:Phi-3-V 和 LLaVA-3-V

遵循指令的多模态大模型及学术任务导向数据集上的基准对比:

  • 均值计算时未包含 MME 数据集,次优结果已加下划线标注。

🤖 模型库

下表概述了我们模型库中可用的模型。对于每个模型,您都可以找到其 Hugging Face 页面链接。

模型名称 Hugging Face 链接 简介
LLaVA-Phi-3-mini-4k-instruct-pretrain Hugging Face LCS-558K 上预训练。
LLaVA-Phi-3-mini-4k-instruct-lora Hugging Face LoRA 权重在 LLaVA-Instruct-665K 上微调。
LLaVA-Phi-3-mini-4k-instruct Hugging Face 已将 LoRA 权重合并为 Hugging Face 格式。
LLaVA-Phi-3-mini-4k-instruct-FT Hugging Face 全量微调后的模型权重以 Hugging Face 格式提供。
模型名称 Hugging Face 链接 简介
LLaVA-Meta-Llama-3-8B-Instruct-pretrain Hugging Face LCS-558K 上预训练。
LLaVA-Meta-Llama-3-8B-Instruct-lora Hugging Face LoRA 权重在 LLaVA-Instruct-665K 上微调。
LLaVA-Meta-Llama-3-8B-Instruct Hugging Face 已将权重合并为 Hugging Face 格式。
LLaVA-Meta-Llama-3-8B-Instruct-FT Hugging Face 全量微调后的模型权重以 Hugging Face 格式提供。
LLaVA-Meta-Llama-3-8B-Instruct-FT-S2 Hugging Face S2 微调后的模型权重以 Hugging Face 格式提供。

安装

git clone https://github.com/mbzuai-oryx/LLaVA-pp.git
cd LLaVA-pp
git submodule update --init --recursive

您需要从 LLAVA 更新的包:

pip install git+https://github.com/huggingface/transformers@a98c41798cf6ed99e1ff17e3792d6e06a2ff2ff3

🚀 Phi-3-V

要将 Phi-3-V 与 LLaVA 集成,请按照以下步骤更新代码库:

# 复制必要文件
cp Phi-3-V/train.py LLaVA/llava/train/train.py
cp Phi-3-V/llava_phi3.py LLaVA/llava/model/language_model/llava_phi3.py
cp Phi-3-V/builder.py LLaVA/llava/model/builder.py
cp Phi-3-V/model__init__.py LLaVA/llava/model/__init__.py
cp Phi-3-V/main__init__.py LLaVA/llava/__init__.py
cp Phi-3-V/conversation.py LLaVA/llava/conversation.py

# 训练命令
cp scripts/Phi3-V_pretrain.sh LLaVA/Vi-phi3_pretrain.sh
cp scripts/Phi3-V_finetune_lora.sh LLaVA/Vi-phi3_finetune_lora.sh

训练 Phi-3-V

  1. 预训练
cd LLaVA
bash Phi3-V_pretrain.sh
  1. 微调
cd LLaVA
bash Phi3-V_finetune_lora.sh

🚀 LLaMA-3-V

要将 LLaMA-3-V 与 LLaVA 集成,请按照以下步骤更新代码库:

# 复制必要文件
cp LLaMA-3-V/train.py LLaVA/llava/train/train.py
cp LLaMA-3-V/conversation.py LLaVA/llava/conversation.py
cp LLaMA-3-V/builder.py LLaVA/llava/model/builder.py
cp LLaMA-3-V/llava_llama.py LLaVA/llava/model/language_model/llava_llama.py

# 训练命令
cp scripts/LLaMA3-V_pretrain.sh LLaVA/LLaMA3-V_pretrain.sh
cp scripts/LLaMA3-V_finetune_lora.sh LLaVA/LLaMA3-V_finetune_lora.sh

训练 LLaMA-3-V

  1. 预训练
cd LLaVA
bash LLaMA3-V_pretrain.sh
  1. 微调
cd LLaVA
bash LLaMA3-V_finetune_lora.sh

🙏 致谢

我们感谢 LLaVAlmms-evalS2-Wrapper 将其模型和代码以开源形式发布。

如果您遇到任何问题或有任何疑问,请随时创建 issue 或联系 hanoona.bangalath@mbzuai.ac.aemuhammad.maaz@mbzuai.ac.ae

📜 引用

  @misc{hanoona2024LLaVA++,
          title={LLaVA++: 使用 LLaMA-3 和 Phi-3 扩展视觉能力},
          author={Rasheed, Hanoona 和 Maaz, Muhammad 和 Khan, Salman 和 Khan, Fahad S.},
          url={https://github.com/mbzuai-oryx/LLaVA-pp},
          year={2024}
  }

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent