LLaVA-pp

846 61 较难 1 次阅读昨天语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

LLaVA-pp 是一个旨在增强多模态大模型视觉理解能力的开源项目。它通过将经典的 LLaVA 1.5 架构与微软最新发布的 Phi-3 Mini（3.8B）以及 Meta 推出的 LLaMA-3（8B）大语言模型相结合，显著提升了模型在图像描述、视觉问答及复杂指令跟随方面的表现。

该项目主要解决了现有轻量级或早期多模态模型在处理高难度学术任务及精细指令时能力不足的问题。通过引入更强大的基座语言模型，LLaVA-pp 在多个权威基准测试中取得了优异成果，实现了在小参数量下的高性能推理。其技术亮点在于提供了灵活的微调方案，不仅发布了完全微调的版本，还包含了高效的 LoRA 适配器和独特的 S² 微调模型，方便用户根据算力资源进行选择。

LLaVA-pp 非常适合 AI 研究人员探索多模态前沿技术，也适合开发者快速构建基于最新大模型的视觉应用。项目团队贴心地提供了 Google Colab 在线体验环境和 Hugging Face 演示空间，即使是没有深厚算法背景的普通用户或设计师，也能轻松上手体验 Phi-3-V 和 LLaMA-3-V 的强大视觉交互能力。

使用场景

一家电商初创公司的技术团队正致力于构建一个能自动解析用户上传商品图并生成详细营销文案的智能客服系统。

没有 LLaVA-pp 时

推理成本高昂：部署基于大型多模态模型（如原版 LLaVA）需要昂贵的 GPU 资源，初创公司难以承担高并发下的服务器开销。
细节识别不足：面对复杂的商品纹理或微小标签，旧模型常出现“幻觉”，错误描述颜色或材质，导致生成的文案与实际不符。
指令遵循能力弱：模型难以严格遵循“用幽默风格写一段小红书风格的种草文案”这类复杂指令，输出内容往往刻板生硬。
响应速度慢：在边缘设备或低配服务器上运行大模型延迟极高，用户上传图片后需等待数秒才能收到回复，体验流畅度差。

使用 LLaVA-pp 后

轻量化高效部署：借助集成的 Phi-3 (3.8B) 和 LLaMA-3 (8B) 模型，LLaVA-pp 在保持高性能的同时大幅降低显存占用，使低成本显卡甚至云端实例也能流畅运行。
视觉理解更精准：增强的视觉编码器能准确捕捉商品细微特征（如面料光泽、Logo 细节），彻底消除了描述性错误，确保文案真实性。
复杂指令完美执行：依托最新的 LLaMA-3 和 Phi-3 强大的语言基座，模型能精准拿捏“幽默”、“种草”等风格要求，生成极具吸引力且符合语境的营销文本。
实时交互体验：优化的架构显著提升了推理速度，实现了近乎实时的图文对话，让用户感觉像是在与真人导购交流。

LLaVA-pp 通过将最前沿的轻量级大语言模型与视觉能力深度融合，让中小企业也能以极低门槛拥有精准、快速且懂指令的多模态 AI 应用。

运行环境要求

操作系统

未说明

GPU

必需（基于 LLaVA 架构及大模型训练/推理需求），具体型号和显存大小未说明，通常建议 8GB+ 显存以运行 3.8B 或 8B 参数模型

内存

未说明

依赖

notes该项目是基于 LLaVA 1.5 的扩展，需先克隆 LLaVA 仓库并更新子模块。安装时需强制安装特定版本的 transformers 库。项目提供 Phi-3-V (3.8B) 和 LLaMA-3-V (8B) 两种模型变体，支持预训练、LoRA 微调及全量微调。运行前需根据所选模型手动替换相应的源代码文件（如 train.py, builder.py 等）。

python未说明

transformers==4.40.0 (特定 commit a98c417)

torch (版本未说明，需兼容 transformers)

LLaVA (作为基础代码库)

快速开始

LLaVA++：借助 LLaMA-3 和 Phi-3 扩展视觉能力

Oryx Models

Hanoona Rasheed, Muhammad Maaz, Salman Khan 和 Fahad Khan

* 共同贡献

穆罕默德·本·扎耶德人工智能大学（MBZUAI）

📢 最新动态

2024年4月30日 - LLaMA-3-V 和 Phi-3-V 的演示现已通过 Hugging Face Spaces 提供。请访问 LLaMA-3-V 和 Phi-3-V 查看！🔥🔥🔥
2024年4月28日 - Phi-3-V 和 LLaMA-3-V 的在线演示已发布，请访问在线演示查看！🔥🔥🔥
2024年4月28日 - 添加了 LoRA、全量微调以及 S² 微调模型和相关结果！🔥🔥🔥
2024年4月27日 - 发布了用于与 Phi-3-V-3.8B 模型对话的 Google Colab，请访问 Google Colab 查看！🔥🔥🔥
2024年4月26日 - Phi-3-V 和 LLaVA-3-V 正式发布：我们非常高兴地推出 LLaVA 与 Phi-3 Mini Instruct 及 LLaMA-3 Instruct 模型的全新集成！Hugging Face 🔥🔥🔥

💬 引言

本仓库增强了 LLaVA 1.5 模型的能力，整合了本周发布的最新大型语言模型🔥，包括 Phi-3 Mini Instruct 3.8B 和 LLaMA-3 Instruct 8B。

🏆 结果：Phi-3-V 和 LLaVA-3-V

遵循指令的多模态大模型及学术任务导向数据集上的基准对比：

均值计算时未包含 MME 数据集，次优结果已加下划线标注。

🤖 模型库

下表概述了我们模型库中可用的模型。对于每个模型，您都可以找到其 Hugging Face 页面链接。

模型名称	Hugging Face 链接	简介
LLaVA-Phi-3-mini-4k-instruct-pretrain	Hugging Face	在 LCS-558K 上预训练。
LLaVA-Phi-3-mini-4k-instruct-lora	Hugging Face	LoRA 权重在 LLaVA-Instruct-665K 上微调。
LLaVA-Phi-3-mini-4k-instruct	Hugging Face	已将 LoRA 权重合并为 Hugging Face 格式。
LLaVA-Phi-3-mini-4k-instruct-FT	Hugging Face	全量微调后的模型权重以 Hugging Face 格式提供。

模型名称	Hugging Face 链接	简介
LLaVA-Meta-Llama-3-8B-Instruct-pretrain	Hugging Face	在 LCS-558K 上预训练。
LLaVA-Meta-Llama-3-8B-Instruct-lora	Hugging Face	LoRA 权重在 LLaVA-Instruct-665K 上微调。
LLaVA-Meta-Llama-3-8B-Instruct	Hugging Face	已将权重合并为 Hugging Face 格式。
LLaVA-Meta-Llama-3-8B-Instruct-FT	Hugging Face	全量微调后的模型权重以 Hugging Face 格式提供。
LLaVA-Meta-Llama-3-8B-Instruct-FT-S2	Hugging Face	S2 微调后的模型权重以 Hugging Face 格式提供。

安装

git clone https://github.com/mbzuai-oryx/LLaVA-pp.git
cd LLaVA-pp
git submodule update --init --recursive

您需要从 LLAVA 更新的包：

pip install git+https://github.com/huggingface/transformers@a98c41798cf6ed99e1ff17e3792d6e06a2ff2ff3

🚀 Phi-3-V

要将 Phi-3-V 与 LLaVA 集成，请按照以下步骤更新代码库：

# 复制必要文件
cp Phi-3-V/train.py LLaVA/llava/train/train.py
cp Phi-3-V/llava_phi3.py LLaVA/llava/model/language_model/llava_phi3.py
cp Phi-3-V/builder.py LLaVA/llava/model/builder.py
cp Phi-3-V/model__init__.py LLaVA/llava/model/__init__.py
cp Phi-3-V/main__init__.py LLaVA/llava/__init__.py
cp Phi-3-V/conversation.py LLaVA/llava/conversation.py

# 训练命令
cp scripts/Phi3-V_pretrain.sh LLaVA/Vi-phi3_pretrain.sh
cp scripts/Phi3-V_finetune_lora.sh LLaVA/Vi-phi3_finetune_lora.sh

训练 Phi-3-V

预训练

cd LLaVA
bash Phi3-V_pretrain.sh

微调

cd LLaVA
bash Phi3-V_finetune_lora.sh

🚀 LLaMA-3-V

要将 LLaMA-3-V 与 LLaVA 集成，请按照以下步骤更新代码库：

# 复制必要文件
cp LLaMA-3-V/train.py LLaVA/llava/train/train.py
cp LLaMA-3-V/conversation.py LLaVA/llava/conversation.py
cp LLaMA-3-V/builder.py LLaVA/llava/model/builder.py
cp LLaMA-3-V/llava_llama.py LLaVA/llava/model/language_model/llava_llama.py

# 训练命令
cp scripts/LLaMA3-V_pretrain.sh LLaVA/LLaMA3-V_pretrain.sh
cp scripts/LLaMA3-V_finetune_lora.sh LLaVA/LLaMA3-V_finetune_lora.sh

训练 LLaMA-3-V

预训练

cd LLaVA
bash LLaMA3-V_pretrain.sh

微调

cd LLaVA
bash LLaMA3-V_finetune_lora.sh

🙏 致谢

我们感谢 LLaVA、lmms-eval 和 S²-Wrapper 将其模型和代码以开源形式发布。

如果您遇到任何问题或有任何疑问，请随时创建 issue 或联系 hanoona.bangalath@mbzuai.ac.ae 和 muhammad.maaz@mbzuai.ac.ae。

📜 引用

  @misc{hanoona2024LLaVA++,
          title={LLaVA++: 使用 LLaMA-3 和 Phi-3 扩展视觉能力},
          author={Rasheed, Hanoona 和 Maaz, Muhammad 和 Khan, Salman 和 Khan, Fahad S.},
          url={https://github.com/mbzuai-oryx/LLaVA-pp},
          year={2024}
  }

LLaVA++ 快速上手指南

LLaVA++ 是一个增强版的多模态大语言模型项目，它将最新的 LLaMA-3 (8B) 和 Phi-3 Mini (3.8B) 大语言模型与 LLaVA 1.5 的视觉能力相结合，显著提升了视觉指令跟随和学术任务处理能力。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
Python: 3.10 或更高版本
GPU: 支持 CUDA 的 NVIDIA 显卡（训练建议显存 24GB+，推理可根据模型大小调整）
依赖管理: 推荐使用 conda 创建独立环境

前置依赖安装：

# 创建并激活 conda 环境
conda create -n llava-pp python=3.10 -y
conda activate llava-pp

# 安装 PyTorch (请根据实际 CUDA 版本选择，此处以 CUDA 11.8 为例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

提示：国内用户可使用清华或阿里镜像源加速 pip 安装： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

2. 安装步骤

2.1 克隆代码库

首先克隆 LLaVA++ 仓库并初始化子模块（依赖原始 LLaVA 代码）：

git clone https://github.com/mbzuai-oryx/LLaVA-pp.git
cd LLaVA-pp
git submodule update --init --recursive

2.2 安装核心依赖

该项目需要特定版本的 transformers 库，请严格执行以下命令：

pip install git+https://github.com/huggingface/transformers@a98c41798cf6ed99e1ff17e3792d6e06a2ff2ff3

其他通用依赖通常包含在原始 LLaVA 子模块中，如有缺失可参考原始 LLaVA 的 requirements.txt 进行补充。

3. 基本使用

LLaVA++ 提供了预训练好的模型权重，您可以直接下载并使用，无需从头训练。以下是基于 Phi-3-V 模型的快速体验流程（LLaMA-3-V 流程类似）。

3.1 获取模型权重

从 Hugging Face 下载合并后的完整模型权重（推荐直接使用 LLaVA-Phi-3-mini-4k-instruct）：

Phi-3-V 模型地址: MBZUAI/LLaVA-Phi-3-mini-4k-instruct
LLaMA-3-V 模型地址: MBZUAI/LLaVA-Meta-Llama-3-8B-Instruct

(注：国内网络访问 HF 较慢，建议使用镜像站如 hf-mirror.com 或手动下载后上传至服务器)

3.2 代码集成与推理

由于本项目是对 LLaVA 代码库的扩展，使用前需将特定的适配文件复制到主目录。

步骤 A: 集成 Phi-3-V 代码 在项目根目录执行以下命令，将 Phi-3 的适配层注入到 LLaVA 结构中：

# 复制核心逻辑文件
cp Phi-3-V/train.py LLaVA/llava/train/train.py
cp Phi-3-V/llava_phi3.py LLaVA/llava/model/language_model/llava_phi3.py
cp Phi-3-V/builder.py LLaVA/llava/model/builder.py
cp Phi-3-V/model__init__.py LLaVA/llava/model/__init__.py
cp Phi-3-V/main__init__.py LLaVA/llava/__init__.py
cp Phi-3-V/conversation.py LLaVA/llava/conversation.py

步骤 B: 运行推理脚本 集成完成后，您可以使用标准的 LLaVA 推理脚本加载下载好的模型。创建一个简单的 Python 脚本 demo.py：

import torch
from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path, process_images, tokenizer_image_token
from llava.conversation import conv_templates, SeparatorStyle
from PIL import Image

# 配置路径
model_path = "path/to/LLaVA-Phi-3-mini-4k-instruct" # 替换为您的本地模型路径
image_file = "example.jpg" # 替换为您的图片路径

# 加载模型
tokenizer, model, image_processor, context_len = load_pretrained_model(
    model_path=model_path,
    model_base=None,
    model_name=get_model_name_from_path(model_path),
    device="cuda",
    device_map={"": "cuda"},
    torch_dtype=torch.float16
)

# 准备输入
conv = conv_templates["phi3_chat"].copy() # 注意：根据具体模型选择正确的 template，phi3 或 llama3
qs = "Describe this image in detail."
conv.append_message(conv.roles[0], qs)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()

image = Image.open(image_file).convert('RGB')
image_tensor = process_images([image], image_processor, model.config)[0]
input_ids = tokenizer_image_token(prompt, tokenizer, return_tensors='pt').unsqueeze(0).cuda()

# 生成回答
with torch.inference_mode():
    output_ids = model.generate(
        input_ids,
        images=image_tensor.unsqueeze(0).half().cuda(),
        do_sample=True,
        temperature=0.2,
        top_p=None,
        num_beams=1,
        max_new_tokens=512,
        use_cache=True
    )

outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0]
print(outputs)

注意：对于 LLaMA-3-V 模型，请重复上述“代码集成”步骤，但使用 LLaMA-3-V/ 目录下的文件进行复制，并在推理时选择对应的 conv_templates（通常为 llama_3 相关模板）。

3.3 在线体验

如果您暂时不想配置本地环境，可以直接访问官方提供的演示页面：

Phi-3-V Demo: Hugging Face Space
LLaMA-3-V Demo: Hugging Face Space
Google Colab: Phi-3-V Colab Notebook

常见问题

使用 LLaMA-3 模型训练时出现 'TypeError: pad_sequence(): argument padding_value must be float, not NoneType' 错误怎么办？

如何正确安装 LLaVA-pp 及其依赖项以避免训练报错？

微调（Finetune）时遇到 'size mismatch for ... weight/bias' 形状不匹配错误如何解决？

使用 Phi-3 模型训练时报错，提示某些网络字段不支持，该如何解决？

训练 LLaMA-3 模型时，必须设置哪些关键参数以避免 Tokenizer 错误？

遇到 'pip's dependency' 相关的报错是否需要处理？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

使用场景

没有 LLaVA-pp 时

使用 LLaVA-pp 后

运行环境要求

快速开始

LLaVA++：借助 LLaMA-3 和 Phi-3 扩展视觉能力

Hanoona Rasheed*, Muhammad Maaz*, Salman Khan 和 Fahad Khan

穆罕默德·本·扎耶德人工智能大学（MBZUAI）

📢 最新动态

💬 引言

🏆 结果：Phi-3-V 和 LLaVA-3-V

遵循指令的多模态大模型及学术任务导向数据集上的基准对比：

🤖 模型库

安装

🚀 Phi-3-V

训练 Phi-3-V

🚀 LLaMA-3-V

训练 LLaMA-3-V

🙏 致谢

📜 引用

LLaVA++ 快速上手指南

1. 环境准备

2. 安装步骤

2.1 克隆代码库

2.2 安装核心依赖

3. 基本使用

3.1 获取模型权重

3.2 代码集成与推理

3.3 在线体验

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

LLMs-from-scratch

Deep-Live-Cam

Hanoona Rasheed, Muhammad Maaz, Salman Khan 和 Fahad Khan