MGM

3.3k 275 中等 1 次阅读 3天前Apache-2.0图像音频视频语言模型

AI 解读由 AI 自动生成，仅供参考

MGM（Mini-Gemini）是一个强大的多模态视觉语言模型开源框架，旨在同时实现高质量的图像理解、逻辑推理与图像生成。它基于 LLaVA 架构构建，能够灵活支持从 2B 到 34B 参数的多种稠密及混合专家（MoE）大语言模型，并已成功适配 LLaMA3 等最新基座模型。

针对传统多模态模型在处理高分辨率图像时细节丢失或计算成本过高的问题，MGM 创新性地采用了双视觉编码器架构。该架构结合低分辨率全局嵌入与高分辨率局部候选区域，并通过独特的“补丁信息挖掘”技术，在高低分辨率视觉特征间建立精细联系。这种设计让模型既能把握图像整体语境，又能敏锐捕捉细微视觉线索，从而在复杂场景下实现更精准的分析与创作。

MGM 非常适合 AI 研究人员、开发者以及需要处理复杂视觉任务的技术团队使用。研究人员可利用其开放的代码、训练数据及多种预训练权重（如 MGM-7B、MGM-13B 等）进行前沿探索；开发者则可基于其成熟的训练与评估流程，快速构建定制化的多模态应用。无论是学术实验还是工程落地，MGM 都提供了一个高效且扩展性强的解决方案。

使用场景

某电商平台的视觉算法团队正致力于升级其商品详情页的智能助手，旨在让用户能通过上传商品实拍图，直接获取详细的材质分析、搭配建议甚至生成展示海报。

没有 MGM 时

细节识别模糊：传统多模态模型仅支持低分辨率输入，无法看清衣物纹理、标签文字或珠宝刻痕等微小细节，导致回答笼统。
功能割裂严重：理解图片需要用一个模型，生成营销文案或海报草图又需切换另一个工具，开发链路繁琐且上下文容易丢失。
推理成本高昂：为了提升精度强行放大输入图像，导致显存占用激增，难以在大规模并发场景下部署大参数模型。
复杂逻辑缺失：面对“根据这张图的色调推荐三套不同场合的穿搭”这类多步推理任务，模型往往顾此失彼，逻辑连贯性差。

使用 MGM 后

高清细节洞察：MGM 独特的双视觉编码器架构同时利用低分辩率全局嵌入和高分辨率局部候选区，能精准识别面料织法及毫米级瑕疵。
理解生成一体：依托同一套框架，MGM 既能深度解读图片内容，又能直接基于图像特征生成高质量的营销文案或初步设计图，无需切换模型。
高效弹性部署：支持从 2B 到 34B 多种规模的模型（包括 LLaMA3 基座），团队可根据业务流量灵活选择小模型保速度或大模型保质量，显著优化算力成本。
深度逻辑推理：借助补丁级信息挖掘技术，MGM 在处理涉及空间关系、因果推导的复杂指令时表现稳定，能条理清晰地输出多步骤搭配方案。

MGM 通过高分辨率感知与理解生成一体化的突破，让电商视觉助手真正具备了“看得清细节、想得深逻辑、办得全任务”的专业能力。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
官方训练环境为 8x A100 (80GB)
支持 2B-34B 参数模型，显存需求随模型大小增加（2B 模型需较少显存，34B 或 MoE 模型需多卡高显存）
需安装 flash-attn，通常要求 CUDA 11.8+

内存

未说明（建议 64GB+ 以处理大型数据集和模型）

依赖

notes1. 该项目基于 LLaVA 构建，支持密集型和 MoE 大语言模型（2B 到 34B）。2. 若使用 2B 版本，必须确保 transformers 版本 >=4.38.0。3. 训练需安装 flash-attn 且建议使用 --no-build-isolation 参数。4. 数据准备复杂，需下载并整理多个数据集（预训练、微调、评估）至指定目录结构。5. 显存不足时可通过减小 per_device_train_batch_size 并增加 gradient_accumulation_steps 来调整，但需保持全局 batch size 不变。

python3.10

torch

transformers>=4.38.0 (2B 版本必需)

flash-attn

ninja

peft

accelerate

deepspeed

scikit-learn

shortuuid

gradio

快速开始

“Mini-Gemini：挖掘多模态视觉语言模型潜力”的官方仓库

该框架支持从2B到34B的一系列密集型和MoE大型语言模型（LLMs），这些模型能够同时进行图像理解、推理和生成。我们基于LLaVA构建了这个仓库。

发布

[05/03] 🔥 我们现已支持基于LLaMA3的模型！欢迎在此尝试这里。
[04/15] 🔥 Hugging Face演示已上线。这是一个13B-HD版本，欢迎大家观看并试用。
[03/28] 🔥 Mini-Gemini 来了！我们发布了论文、演示、代码、模型以及数据！

演示

我们在本节提供了一些精选示例。更多示例请访问我们的项目页面。也欢迎您在线试用我们的演示！

安装

请按照以下步骤安装所需的软件包。

注意：如果您想使用2B版本，请确保安装最新版本的Transformers库（>=4.38.0）。

克隆本仓库

git clone https://github.com/dvlab-research/MGM.git

安装环境

conda create -n mgm python=3.10 -y
conda activate mgm
cd MGM
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .

安装额外的训练相关包

pip install ninja
pip install flash-attn --no-build-isolation

模型

该框架的概念非常简单：采用双视觉编码器分别提供低分辨率视觉嵌入和高分辨率候选特征；提出了一种补丁信息挖掘方法，在高分辨率区域与低分辨率视觉查询之间进行补丁级别的信息挖掘；最后利用大型语言模型将文本与图像结合起来，实现理解和生成的双重功能。

我们提供了在第一阶段和第二阶段数据上完全微调的所有模型：

模型	低分辨率	高分辨率	基础LLM	视觉编码器	微调数据	微调计划	下载
MGM-2B	336	768	Gemma-2B	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-7B	336	768	Vicuna-7B-v1.5	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-13B	336	768	Vicuna-13B-v1.5	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-8B	336	768	LLaMA-3-8B-Instruct	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-8x7B	336	768	Mixtral-8x7B-Instruct-v0.1	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-34B	336	768	Nous-Hermes-2-Yi-34B	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-7B-HD	672	1536	Vicuna-7B-v1.5	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-13B-HD	672	1536	Vicuna-13B-v1.5	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-8B-HD	672	1536	LLaMA-3-8B-Instruct	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-8x7B-HD	672	1536	Mixtral-8x7B-Instruct-v0.1	CLIP-L	MGM-Instruct	full_ft-1e	ckpt
MGM-34B-HD	672	1536	Nous-Hermes-2-Yi-34B	CLIP-L	MGM-Instruct	full_ft-1e	ckpt

以下是仅在第一阶段数据上预训练的权重：

模型	低分辨率	高分辨率	基础LLM	视觉编码器	预训练数据	微调计划	下载
MGM-2B	336	768	Gemma-2B	CLIP-L	MGM-Pretrain	1e	ckpt
MGM-7B	336	768	Vicuna-7B-v1.5	CLIP-L	MGM-Pretrain	1e	ckpt
MGM-13B	336	768	Vicuna-13B-v1.5	CLIP-L	MGM-Pretrain	1e	ckpt
MGM-8x7B	336	768	Mixtral-8x7B-Instruct-v0.1	CLIP-L	MGM-Pretrain	1e	ckpt
MGM-34B	336	768	Nous-Hermes-2-Yi-34B	CLIP-L	MGM-Pretrain	1e	ckpt

准备

数据集

我们提供了用于模型训练的处理后的数据。对于模型预训练，请下载以下基于图像的训练数据，并按如下方式组织：

-> 表示将数据放入本地文件夹。

LLaVA Images -> data/MGM-Pretrain/images, data/MGM-Finetune/llava/LLaVA-Pretrain/images
ALLaVA Caption -> data/MGM-Pretrain/ALLaVA-4V

对于模型微调，请下载以下指令数据，并按如下方式组织：

-> 表示将数据放入本地文件夹。

COCO train2017 -> data/MGM-Finetune/coco
GQA -> data/MGM-Finetune/gqa
OCR-VQA（我们将所有文件保存为.jpg格式）-> data/MGM-Finetune/ocr_vqa
TextVQA（不包含在训练中）-> data/MGM-Finetune/textvqa
VisualGenome part1, VisualGenome part2 -> data/MGM-Finetune/vg
ShareGPT4V-100K -> data/MGM-Finetune/sam, share_textvqa, wikiart, web-celebrity, web-landmark
LAION GPT4V -> data/MGM-Finetune/gpt4v-dataset
ALLaVA Instruction -> data/MGM-Pretrain/ALLaVA-4V
DocVQA -> data/MGM-Finetune/docvqa
ChartQA -> data/MGM-Finetune/chartqa
DVQA -> data/MGM-Finetune/dvqa
AI2D -> data/MGM-Finetune/ai2d

对于模型评估，请按照此链接进行准备。我们使用了一些额外的基准来进行评估。请下载以下基于图像的训练数据，并按如下方式组织：

-> 表示将数据放入本地文件夹。

MMMU -> data/MGM-Eval/MMMU
MMB -> data/MGM-Eval/MMB
MathVista -> data/MGM-Eval/MathVista

请将预训练数据、微调数据和评估数据分别放入 MGM-Pretrain、MGM-Finetune 和 MGM-Eval 子目录中，遵循结构。

关于元信息，请下载以下文件，并按结构进行组织。

数据文件名	大小
mgm_pretrain.json	1.68 G
mgm_instruction.json	1.79 G
mgm_generation_pure_text.json	0.04 G

重要提示：mgm_generation_pure_text.json 是一个与生成相关的子集。请勿将其与 mgm_instruction.json 合并，因为它已经包含在其中。您可以将此文件与您自定义的 LLM/VLM SFT 数据集合并，以启用推理生成能力。

预训练权重

我们建议用户从以下链接下载预训练权重：CLIP-Vit-L-336, OpenCLIP-ConvNeXt-L, Gemma-2b-it, Vicuna-7b-v1.5, Vicuna-13b-v1.5, Mixtral-8x7B-Instruct-v0.1，以及 Nous-Hermes-2-Yi-34B，并将它们放入 model_zoo 目录中，遵循结构。

结构

在开始训练之前，文件夹结构应按如下方式组织：

MGM
├── mgm
├── scripts
├── work_dirs
│   ├── MGM
│   │   ├── MGM-2B
│   │   ├── ...
├── model_zoo
│   ├── LLM
│   │   ├── gemma
│   │   │   ├── gemma-2b-it
│   │   ├── vicuna
│   │   │   ├── 7B-V1.5
│   │   │   ├── 13B-V1.5
│   │   ├── llama-3
│   │   │   ├── Meta-Llama-3-8B-Instruct
│   │   │   ├── Meta-Llama-3-70B-Instruct
│   │   ├── mixtral
│   │   │   ├── Mixtral-8x7B-Instruct-v0.1
│   │   ├── Nous-Hermes-2-Yi-34B
│   ├── OpenAI
│   │   ├── clip-vit-large-patch14-336
│   │   ├── openclip-convnext-large-d-320-laion2B-s29B-b131K-ft-soup
├── data
│   ├── MGM-Pretrain
│   │   ├── mgm_pretrain.json
│   │   ├── images
│   │   ├── ALLaVA-4V
│   ├── MGM-Finetune
│   │   ├── mgm_instruction.json
│   │   ├── llava
│   │   ├── coco
│   │   ├── gqa
│   │   ├── ocr_vqa
│   │   ├── textvqa
│   │   ├── vg
│   │   ├── gpt4v-dataset
│   │   ├── sam
│   │   ├── share_textvqa
│   │   ├── wikiart
│   │   ├── web-celebrity
│   │   ├── web-landmark
│   │   ├── ALLaVA-4V
│   │   ├── docvqa
│   │   ├── chartqa
│   │   ├── dvqa
│   │   ├── ai2d
│   ├── MGM-Eval
│   │   ├── MMMU
│   │   ├── MMB
│   │   ├── MathVista
│   │   ├── ...

训练

训练过程分为两个阶段：(1) 特征对齐阶段：连接视觉和语言标记；(2) 指令调优阶段：教会模型遵循多模态指令。

我们的模型是在配备 80GB 显存的 8 张 A100 GPU 上训练的。如果使用较少的 GPU 进行训练，可以相应地减少 per_device_train_batch_size 并增加 gradient_accumulation_steps。始终保持全局批量大小不变：per_device_train_batch_size × gradient_accumulation_steps × num_gpus。

请确保在训练前按照准备工作下载并整理好数据。

注意：对于两台机器的训练，请设置 hostfile；对于四台机器的训练，请设置 hostfile_4。

如果您想训练和微调该框架，请运行以下命令，针对 MGM-7B 使用 336 像素的图像尺寸：

bash scripts/llama/train/stage_1_2_full_v7b_336_hr_768.sh

或者针对 MGM-13B 使用 336 像素的图像尺寸：

bash scripts/llama/train/stage_1_2_full_v13b_336_hr_768.sh

由于我们复用了 MGM-7B 的预训练投影器权重，因此可以直接使用 MGM-7B-HD（672 像素）进行第二阶段的指令调优：

bash scripts/llama/train/stage_2_full_v7b_672_hr_1536.sh

更多关于 gemma、llama、mixtral 和 yi 的训练脚本，请参阅 scripts/ 目录。

评估

我们在多个基于图像的基准测试上进行了评估。请按照准备工作下载评估数据，并按照结构中的说明进行组织。

模型	大语言模型	分辨率	链接	TextVQA	MMB	MME	MM-Vet	MMMU_val	MMMU_test	MathVista
MGM-2B	Gemma-2B	336	检查点	56.2	59.8	1341/312	31.1	31.7	29.1	29.4
MGM-7B	Vicuna-7B-v1.5	336	检查点	65.2	69.3	1523/316	40.8	36.1	32.8	31.4
MGM-13B	Vicuna-13B-v1.5	336	检查点	65.9	68.5	1565/322	46.0	38.1	33.5	37.0
MGM-8B	LLaMA-3-8B-Instruct	336	检查点	67.6	72.7	1606/341	47.3	38.2	36.3	--
MGM-8x7B	Mixtral-8x7B-Instruct-v0.1	336	检查点	69.2	75.6	1639/379	45.8	41.8	37.1	41.8
MGM-34B	Nous-Hermes-2-Yi-34B	336	检查点	70.1	79.6	1666/439	53.0	48.7	43.6	38.9
MGM-7B-HD	Vicuna-7B-v1.5	672	检查点	68.4	65.8	1546/319	41.3	36.8	32.9	32.2
MGM-13B-HD	Vicuna-13B-v1.5	672	检查点	70.2	68.6	1597/320	50.5	37.3	35.1	37.0
MGM-8B-HD	LLaMA-3-8B-Instruct	672	检查点	71.6	--	1532/357	--	37.0	--	--
MGM-8x7B-HD	Mixtral-8x7B-Instruct-v0.1	672	检查点	71.9	74.7	1633/356	53.5	40.0	37.0	43.1
MGM-34B-HD	Nous-Hermes-2-Yi-34B	672	检查点	74.1	80.6	1659/482	59.3	48.0	44.9	43.3

如果您想在基于图像的基准测试上评估模型，请使用scripts/MODEL_PATH/eval中的脚本。例如，要使用MGM-7B-HD对TextVQA进行评估，请运行以下命令：

bash scripts/llama/eval/textvqa.sh

更多评估脚本请参见scripts/MODEL_PATH。

命令行推理

无需Gradio界面即可与图像进行对话。它还支持多GPU、4位和8位量化推理。使用4位量化时。请确保您已安装diffusers和PaddleOCR（仅为了更好的OCR体验），并尝试以下命令进行图像和生成推理：

python -m mgm.serve.cli \
    --model-path work_dirs/MGM/MGM-13B-HD \
    --image-file <您的图像路径>

或者尝试更好的OCR体验（请确保已安装PaddleOCR）：

python -m mgm.serve.cli \
    --model-path work_dirs/MGM/MGM-13B-HD \
    --image-file <您的图像路径> \
    --ocr

或者尝试生成推理（请确保已安装diffusers）：

python -m mgm.serve.cli \
    --model-path work_dirs/MGM/MGM-13B-HD \
    --image-file <您的图像路径> \
    --gen

您还可以尝试8位甚至4位以实现高效推理

python -m mgm.serve.cli \
    --model-path work_dirs/MGM/MGM-13B-HD \
    --image-file <您的图像路径> \
    --gen
    --load-8bit

Gradio Web UI

在这里，我们采用了类似于LLaVA的Gradio界面，为我们的模型提供了一个用户友好的界面。要在本地启动Gradio演示，请依次运行以下命令。如果您计划启动多个模型工作节点以比较不同检查点之间的差异，则只需一次启动控制器和Web服务器。

启动控制器

python -m mgm.serve.controller --host 0.0.0.0 --port 10000

启动Gradio Web服务器。

python -m mgm.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

您刚刚启动了Gradio Web界面。现在，您可以使用屏幕上打印的URL打开该界面。您可能会注意到模型列表中没有模型。不用担心，因为我们还没有启动任何模型工作节点。当您启动一个模型工作节点时，它会自动更新。

启动模型工作节点

这是实际在GPU上执行推理的工作节点。每个工作节点负责--model-path中指定的单个模型。

python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/MGM/MGM-13B-HD

等待进程完成模型加载，直到看到“Uvicorn正在运行...”。现在，刷新您的Gradio Web界面，您将看到刚刚启动的模型出现在模型列表中。

您可以根据需要启动任意数量的工作节点，并在同一Gradio界面中比较不同的模型。请保持--controller不变，同时为每个工作节点修改--port和--worker以使用不同的端口号。

python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port <不同于40000，比如40001> --worker http://localhost:<相应地更改，即40001> --model-path work_dirs/MGM/MGM-34B-HD

如果您使用的是配备M1或M2芯片的Apple设备，可以通过使用--device标志指定mps设备：--device mps。

启动模型工作节点（多GPU，当GPU显存≤24GB时）

如果您的GPU显存小于24GB（例如RTX 3090、RTX 4090等），您可以尝试使用多个GPU运行。我们最新的代码库会在您拥有多个GPU时自动尝试使用多GPU。您可以使用CUDA_VISIBLE_DEVICES指定要使用的GPU。下面是一个使用前两个GPU运行的示例。

CUDA_VISIBLE_DEVICES=0,1 python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/MGM/MGM-13B-HD

启动模型工作节点（4位、8位推理，量化）

您可以启动带有量化位数（4位、8位）的模型工作节点，这可以让您以更小的GPU内存占用运行推理。请注意，使用量化位数进行推理可能不如全精度模型准确。只需在您正在执行的模型工作节点命令中添加--load-4bit或--load-8bit即可。下面是一个使用4位量化运行的示例。

python -m mgm.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/MGM/MGM-13B-HD --load-4bit

示例

我们在这一部分提供了一些示例。更多示例可以在我们的项目页面上找到。

高分辨率理解

带推理的生成

引用

如果您觉得本仓库对您的研究有帮助，请考虑引用以下论文：

@article{li2024mgm,
  title={Mini-Gemini: 挖掘多模态视觉语言模型的潜力},
  author={李彦伟、张悦晨、王成耀、钟志胜、陈义欣、褚瑞航、刘绍腾、贾嘉亚},
  journal={arXiv:2403.18814},
  year={2023}
}

致谢

本项目与谷歌公司无任何关联。

我们衷心感谢以下开源项目及其贡献者：

本工作基于 LLaVA 构建。
本工作使用了来自 Gemma、Vicuna、Mixtral 和 Nous-Hermes 的大语言模型。

许可证

本项目的数据和检查点仅用于科研目的，并受相关许可协议约束。它们同样受到 LLaVA、LLaMA、Vicuna 和 GPT-4 许可协议的限制。数据集采用 CC BY NC 4.0 许可（仅允许非商业用途），使用该数据集训练的模型也不得用于科研以外的场景。

MGM (Mini-Gemini) 快速上手指南

MGM 是一个支持多模态理解、推理及生成的视觉语言模型框架，基于 LLaVA 构建，支持从 2B 到 34B 的稠密及 MoE 大语言模型（包括 LLaMA3、Mixtral 等）。

1. 环境准备

操作系统: Linux (推荐 Ubuntu)
Python 版本: 3.10
GPU: 建议使用 NVIDIA GPU (训练需多卡，推理单卡即可，显存需求视模型大小而定)
前置依赖:
- Conda (用于环境管理)
- Git
- CUDA Toolkit (需与 PyTorch 版本匹配)
- 注意: 若使用 2B 版本模型，请确保 transformers 库版本 >= 4.38.0。

2. 安装步骤

2.1 克隆仓库

git clone https://github.com/dvlab-research/MGM.git
cd MGM

2.2 创建并激活虚拟环境

conda create -n mgm python=3.10 -y
conda activate mgm

2.3 安装核心依赖

启用 PEP 660 支持并安装项目包：

pip install --upgrade pip
pip install -e .

2.4 安装训练额外依赖

如需进行模型训练或微调，需安装以下组件（包含 Flash Attention 加速）：

pip install ninja
pip install flash-attn --no-build-isolation

提示: 国内用户若下载 flash-attn 较慢，可尝试使用清华源或阿里源镜像，例如： pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

3.1 模型下载

在运行前，请从 Hugging Face 下载预训练权重。以下是部分主流模型的下载地址：

模型名称	基础 LLM	分辨率类型	下载链接
MGM-7B	Vicuna-7B-v1.5	标准 (336/768)	Hugging Face
MGM-13B-HD	Vicuna-13B-v1.5	高清 (672/1536)	Hugging Face
MGM-8B	LLaMA-3-8B-Instruct	标准	Hugging Face
MGM-8x7B	Mixtral-8x7B	标准	Hugging Face

同时需要下载对应的视觉编码器权重（如 CLIP-Vit-L-336）和基座 LLM 权重，并按项目要求的目录结构存放于 model_zoo 文件夹中。

3.2 目录结构配置

确保文件组织如下（以 MGM-7B 为例）：

MGM
├── model_zoo
│   ├── LLM
│   │   └── vicuna
│   │       └── 7B-V1.5  # 放置 Vicuna 权重
│   ├── OpenAI
│   │   └── clip-vit-large-patch14-336 # 放置 CLIP 权重
├── work_dirs
│   └── MGM
│       └── MGM-7B       # 用于存放训练输出或临时文件

3.3 推理示例

MGM 提供了脚本用于单图推理。假设你已准备好模型权重，可以使用以下命令进行测试（具体脚本路径请参考 scripts 目录下的示例）：

# 示例：运行评估或推理脚本
# 请根据实际下载的模型路径修改 --model-path 和 --image-file 参数
python mgm/eval/model_vqa.py \
    --model-path ./model_zoo/LLM/vicuna/7B-V1.5 \
    --image-file ./images/test_image.jpg \
    --conv-mode vicuna_v1

注：由于原 README 中具体的推理命令在截断部分，建议参考仓库内 scripts/ 目录下的 .sh 文件获取针对特定模型（如 2B, 7B, 13B-HD 等）的最优启动参数。

3.4 在线体验

如果本地资源有限，可直接访问官方提供的 Demo 进行体验：

Hugging Face Spaces: MGM Demo
项目主页 Demo: Mini-Gemini Project Page

常见问题

如何在推理时解决 'OpenCLIPVisionTower' object has no attribute 'device' 错误？

在 ALLaVA 数据集中找不到预训练数据中提到的图片文件名（如 465440.jpeg），原因是什么？

基于 mini-gemini-8x7b-HD 微调后，生成的模型文件只有 4 个 safetensors 而不是预期的 20 个，为什么？

如何从官方提供的检查点（Checkpoint）启动模型，而不是从开源大模型权重开始微调？

预训练阶段的 Loss 值非常高（例如 2.5-2.8 左右），这正常吗？

当前的图像生成方法难以将输入图像作为参考，有什么解决办法或建议吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|6天前

语言模型图像Agent