DeepSeek-VL2

5.3k 1.8k 中等 1 次阅读 2天前MIT语言模型图像其他

AI 解读由 AI 自动生成，仅供参考

DeepSeek-VL2 是深度求索推出的一系列先进的混合专家（MoE）视觉 - 语言模型，旨在大幅提升机器对图像与文本结合内容的理解能力。作为 DeepSeek-VL 的升级版，它不仅能流畅地进行视觉问答，还在光学字符识别（OCR）、复杂文档表格解析、图表分析以及视觉定位等任务上表现出卓越性能，有效解决了传统模型在处理多模态复杂场景时精度不足或响应迟缓的难题。

该系列包含 Tiny、Small 和标准版三种变体，激活参数量分别为 10 亿、28 亿和 45 亿。其核心亮点在于采用了混合专家架构，能够在保持较低计算成本的同时，实现与更大规模稠密模型相媲美甚至更优的效果，达到了开源领域的领先水平。

DeepSeek-VL2 非常适合 AI 研究人员探索多模态前沿技术，也便于开发者将其集成到智能客服、文档自动化处理或教育辅助等应用中。同时，得益于其高效的推理能力，普通用户也能通过在线演示轻松体验高质量的图文交互服务。无论是希望优化现有算法的工程师，还是寻求高效多模态解决方案的团队，DeepSeek-VL2 都是一个值得关注的强大选择。

使用场景

某电商平台的运营团队每天需要处理成千上万张包含复杂表格、手写备注和商品图表的供应商报价单，旨在快速提取关键数据以更新库存系统。

没有 DeepSeek-VL2 时

复杂图表识别率低：传统 OCR 工具无法理解报价单中的嵌套表格和趋势图，导致大量数据需要人工手动录入，效率极低。
手写内容完全失效：对于供应商在图片边缘添加的手写折扣说明或特殊条款，现有模型往往直接忽略或识别为乱码。
多模态关联困难：难以将图片中的视觉元素（如柱状图的高低）与具体的文字描述建立逻辑联系，无法回答“哪款产品利润率最高”这类综合问题。
部署成本高昂：为了达到尚可的准确率，往往需要调用多个大型闭源 API 或部署参数量巨大的稠密模型，推理速度慢且算力成本居高不下。

使用 DeepSeek-VL2 后

精准解析文档结构：DeepSeek-VL2 凭借先进的混合专家（MoE）架构，能完美还原报价单中的复杂表格布局，自动提取行列数据并结构化输出。
无缝识别手写信息：模型具备强大的光学字符识别能力，能准确读取并理解图片中的手写备注，确保促销条款等关键信息不遗漏。
深度视觉推理：DeepSeek-VL2 不仅能“看见”图表，还能“理解”其含义，可直接回答基于图表数据的对比分析问题，辅助决策制定。
高效低成本部署：得益于稀疏激活机制，DeepSeek-VL2 在仅激活少量参数（如 2.8B 版本）的情况下即可实现 SOTA 性能，大幅降低了推理延迟和服务器成本。

DeepSeek-VL2 通过高效的混合专家架构，将非结构化的复杂图文单据转化为可立即使用的商业洞察，实现了从“人工搬运数据”到“智能理解决策”的跨越。

运行环境要求

操作系统

未说明

GPU

必需 NVIDIA GPU
运行 deepseek-vl2-small 需 80GB 显存（或使用增量预填充技术降至 40GB）
运行 deepseek-vl2 需大于 80GB 显存
代码示例显示使用 torch.bfloat16 和 CUDA

内存

未说明

依赖

notes1. 模型包含三个变体：Tiny (1.0B), Small (2.8B), 和完整版的 4.5B 激活参数。2. 默认加载小模型 (deepseek-vl2-tiny) 进行测试，较大模型对显存要求极高。3. 针对显存受限的情况（如 40GB 显卡运行 small 模型），官方提供了‘增量预填充 (Incremental Prefilling)'的技术方案以降低显存占用。4. 模型权重需通过 Hugging Face 下载，代码中需设置 trust_remote_code=True。

python3.8+

torch

transformers

PIL (pillow)

快速开始

1. 引言

隆重推出 DeepSeek-VL2，这是一系列先进的混合专家（MoE）视觉-语言大模型，较其前代产品 DeepSeek-VL 有了显著提升。DeepSeek-VL2 在多项任务中表现出色，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等。该模型系列包含三个版本：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别拥有 10 亿、28 亿和 45 亿激活参数。与现有的开源密集型及 MoE 模型相比，DeepSeek-VL2 在参数量相近或更少的情况下，仍能取得具有竞争力甚至最先进的性能。

DeepSeek-VL2：用于高级多模态理解的混合专家视觉-语言模型

吴志宇*、陈晓康*、潘子正*、刘兴超*、刘文**、戴达迈、高华佐、马一洋、吴承悦、王炳轩、谢振达、吴宇、胡凯、王嘉伟、孙耀峰、李玉坤、剽义士、关康、刘爱欣、谢鑫、游宇翔、董凯、于兴凯、张浩伟、赵亮、王一松、阮冲*** (* 共同第一作者，** 项目负责人，*** 通讯作者)

2. 发布

✅ 2025年2月6日：在 Huggingface Space 上发布了基于 Gradio 的基础演示 deepseek-vl2-small。

✅ 2024年12月25日：Gradio 演示示例、增量预填充及 VLMEvalKit 支持。

✅ 2024年12月13日：DeepSeek-VL2 系列正式发布，包括 DeepSeek-VL2-tiny、DeepSeek-VL2-small、DeepSeek-VL2。

3. 模型下载

我们发布了 DeepSeek-VL2 系列，包括 DeepSeek-VL2-tiny、DeepSeek-VL2-small、DeepSeek-VL2。此举旨在支持学术界和商业界更为广泛且多样化的研究工作。请注意，本模型的使用须遵守许可证章节中所列条款。

Huggingface

模型	序列长度	下载
DeepSeek-VL2-tiny	4096	🤗 Hugging Face
DeepSeek-VL2-small	4096	🤗 Hugging Face
DeepSeek-VL2	4096	🤗 Hugging Face

4. 快速入门

安装

在 Python >= 3.8 环境的基础上，通过运行以下命令安装必要的依赖：

pip install -e .

单张图片的简单推理示例

注意：运行此脚本时，您可能需要 80GB 的 GPU 内存来执行 deepseek-vl2-small，而对于 deepseek-vl2 则需要更大的显存。

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images


# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

## 单张图片对话示例
## 请注意，<|ref|> 和 <|/ref|> 是专为对象定位功能设计的特殊标记。这些特殊标记在普通对话中并不需要。
## 如果您希望体验带有对象定位和推理的落地式描述功能（即同时包含对象定位和推理的回答），则需要在提示语开头添加特殊标记 <|grounding|>。相关示例可在我们的论文第 9 图中找到。
conversation = [
    {
        "role": "<|User|>",
        "content": "<image>\n<|ref|>后面的长颈鹿。<|/ref|>。",
        "images": ["./images/visual_grounding_1.jpeg"],
    },
    {"role": "<|Assistant|>", "content": ""},
]

# 加载图片并准备输入
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

# 运行图像编码器以获取图像嵌入
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# 运行模型以获取响应
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=False)
print(f"{prepare_inputs['sft_format'][0]}", answer)

输出可能如下所示：

<|User|>: <image>
<|ref|>后面的长颈鹿。<|/ref|>.

<|Assistant|>: <|ref|>后面的长颈鹿。<|/ref|><|det|>[[580, 270, 999, 900]]<|/det|><｜end▁of▁sentence｜>

多张图片的简单推理示例

注意：运行此脚本时，使用 deepseek-vl2-small 模型可能需要 80GB 显存，而使用 deepseek-vl2 则需要更大的显存。

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images


# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

# 多张图片/图文混排
conversation = [
    {
        "role": "<|User|>",
        "content": "这是图片1：<image>\n"
                   "这是图片2：<image>\n"
                   "这是图片3：<image>\n 你能告诉我这些图片里都有什么吗？",
        "images": [
            "images/multi_image_1.jpeg",
            "images/multi_image_2.jpeg",
            "images/multi_image_3.jpeg",
        ],
    },
    {"role": "<|Assistant|>", "content": ""}
]

# 加载图片并准备输入
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

# 运行图像编码器以获取图像嵌入
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# 运行模型以获取响应
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=False)
print(f"{prepare_inputs['sft_format'][0]}", answer)

输出可能如下所示：

<|User|>: 这是图片1：<image>
这是图片2：<image>
这是图片3：<image>
 你能告诉我这些图片里都有什么吗？

<|Assistant|>: 图片中展示了三种不同的蔬菜。图片1是胡萝卜，呈橙色，顶部带有绿色叶子；图片2是玉米棒，呈黄色，外面包裹着绿色苞叶；图片3是生的猪肋排，呈粉红色，夹杂着一些脂肪纹理。<｜end▁of▁sentence｜>

增量预填充的简单推理示例

注意：我们使用增量预填充技术，以便在 40GB 显存的 GPU 上运行 deepseek-vl2-small 模型。

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images


# 指定模型路径
model_path = "deepseek-ai/deepseek-vl2-small"
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

# 多张图片/图文混排
conversation = [
    {
        "role": "<|User|>",
        "content": "这是图片1：<image>\n"
                   "这是图片2：<image>\n"
                   "这是图片3：<image>\n 你能告诉我这些图片里都有什么吗？",
        "images": [
            "images/multi_image_1.jpeg",
            "images/multi_image_2.jpeg",
            "images/multi_image_3.jpeg",
        ],
    },
    {"role": "<|Assistant|>", "content": ""}
]

# 加载图片并准备输入
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

with torch.no_grad():
    # 运行图像编码器以获取图像嵌入
    inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

    # 在 40G 显存的 GPU 上运行 vl2-small 时进行增量预填充
    inputs_embeds, past_key_values = vl_gpt.incremental_prefilling(
        input_ids=prepare_inputs.input_ids,
        images=prepare_inputs.images,
        images_seq_mask=prepare_inputs.images_seq_mask,
        images_spatial_crop=prepare_inputs.images_spatial_crop,
        attention_mask=prepare_inputs.attention_mask,
        chunk_size=512 # 预填充大小
    )

    # 运行模型以获取响应
    outputs = vl_gpt.generate(
        inputs_embeds=inputs_embeds,
        input_ids=prepare_inputs.input_ids,
        images=prepare_inputs.images,
        images_seq_mask=prepare_inputs.images_seq_mask,
        images_spatial_crop=prepare_inputs.images_spatial_crop,
        attention_mask=prepare_inputs.attention_mask,
        past_key_values=past_key_values,

        pad_token_id=tokenizer.eos_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=512,

        do_sample=False,
        use_cache=True,
    )

    answer = tokenizer.decode(outputs[0][len(prepare_inputs.input_ids[0]):].cpu().tolist(), skip_special_tokens=False)

print(f"{prepare_inputs['sft_format'][0]}", answer)

输出可能如下所示：

<|User|>: 这是图片1：<image>
这是图片2：<image>
这是图片3：<image>
 你能告诉我这些图片里都有什么吗？

<|Assistant|>: 第一张图片中有胡萝卜。第二张图片中有玉米。第三张图片中有肉。<｜end▁of▁sentence｜>

解析边界框坐标，请参考 parse_ref_bbox。

完整推理示例

# 不使用增量预填充
CUDA_VISIBLE_DEVICES=0 python inference.py --model_path "deepseek-ai/deepseek-vl2"

# 使用增量预填充，在 40G 显存的 GPU 上运行 vl2-small 时
CUDA_VISIBLE_DEVICES=0 python inference.py --model_path "deepseek-ai/deepseek-vl2-small" --chunk_size 512

Gradio 示例

安装必要的依赖：

pip install -e .[gradio]

然后运行以下命令：

# vl2-tiny，总规模3.37B-MoE，激活参数1B，可在单张40GB以下显卡上运行
CUDA_VISIBLE_DEVICES=2 python web_demo.py \
--model_name "deepseek-ai/deepseek-vl2-tiny"  \
--port 37914


# vl2-small，总规模16.1B-MoE，激活参数2.4B
# 若在A100 40GB显卡上运行，需设置 `--chunk_size 512` 进行增量预填充以节省显存，但可能会较慢。
# 若在显存大于40GB的GPU上运行，则可忽略 `--chunk_size 512`，以获得更快的响应速度。
CUDA_VISIBLE_DEVICES=2 python web_demo.py \
--model_name "deepseek-ai/deepseek-vl2-small"  \
--port 37914 \
--chunk_size 512

# # vl2，总规模7.5B-MoE，激活参数4.2B
CUDA_VISIBLE_DEVICES=2 python web_demo.py \
--model_name "deepseek-ai/deepseek-vl2"  \
--port 37914

重要提示：这是一个基础且原生的示例实现，未进行任何部署优化，可能导致性能较慢。对于生产环境，请考虑使用优化后的部署方案，如vllm、sglang、lmdeploy等。这些优化将有助于提升响应速度并降低运行成本。

5. 许可证

本代码仓库采用MIT许可证授权。DeepSeek-VL2模型的使用受DeepSeek模型许可证约束。DeepSeek-VL2系列支持商业用途。

6. 引用

@misc{wu2024deepseekvl2mixtureofexpertsvisionlanguagemodels,
      title={DeepSeek-VL2：面向高级多模态理解的专家混合视觉语言模型},
      author={Zhiyu Wu、Xiaokang Chen、Zizheng Pan、Xingchao Liu、Wen Liu、Damai Dai、Huazuo Gao、Yiyang Ma、Chengyue Wu、Bingxuan Wang、Zhenda Xie、Yu Wu、Kai Hu、Jiawei Wang、Yaofeng Sun、Yukun Li、Yishi Piao、Kang Guan、Aixin Liu、Xin Xie、Yuxiang You、Kai Dong、Xingkai Yu、Haowei Zhang、Liang Zhao、Yisong Wang、Chong Ruan},
      year={2024},
      eprint={2412.10302},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2412.10302},
}

7. 联系方式

如有任何问题，请提交Issue或发送邮件至service@deepseek.com。

DeepSeek-VL2 快速上手指南

DeepSeek-VL2 是一个先进的混合专家（MoE）视觉 - 语言模型系列，包含 Tiny、Small 和标准版三个变体，分别在视觉问答、OCR、文档理解及视觉定位（Visual Grounding）等任务上表现出色。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: >= 3.8
GPU 显存要求:
- deepseek-vl2-tiny: 较低显存即可运行。
- deepseek-vl2-small: 常规推理建议 80GB 显存；若使用增量预填充 (Incremental Prefilling) 技术，可在 40GB 显存上运行。
- deepseek-vl2: 需要更大显存。
依赖库: PyTorch, Transformers 等（将通过安装命令自动解决）。

提示: 国内开发者建议使用国内镜像源加速 Python 包下载，例如在 pip 命令后添加 -i https://pypi.tuna.tsinghua.edu.cn/simple。

2. 安装步骤

克隆项目代码并安装依赖：

git clone https://github.com/deepseek-ai/DeepSeek-VL2.git
cd DeepSeek-VL2
pip install -e .

如需使用清华镜像源加速安装：

pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

单图对话示例

以下示例展示如何加载 deepseek-vl2-tiny 模型并进行单图对话。该示例包含了视觉定位功能（使用 <|ref|> 和 <|/ref|> 标记）。

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images


# specify the path to the model
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

## single image conversation example
## Please note that <|ref|> and <|/ref|> are designed specifically for the object localization feature. These special tokens are not required for normal conversations.
## If you would like to experience the grounded captioning functionality (responses that include both object localization and reasoning), you need to add the special token <|grounding|> at the beginning of the prompt. Examples could be found in Figure 9 of our paper.
conversation = [
    {
        "role": "<|User|>",
        "content": "<image>\n<|ref|>The giraffe at the back.<|/ref|>.",
        "images": ["./images/visual_grounding_1.jpeg"],
    },
    {"role": "<|Assistant|>", "content": ""},
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

# run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# run the model to get the response
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=False)
print(f"{prepare_inputs['sft_format'][0]}", answer)

输出示例：

<|User|>: <image>
<|ref|>The giraffe at the back.<|/ref|>.

<|Assistant|>: <|ref|>The giraffe at the back.<|/ref|><|det|>[[580, 270, 999, 900]]<|/det|><｜end▁of▁sentence｜>

多图对话示例

DeepSeek-VL2 支持多张图片交错输入。

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl2.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl2.utils.io import load_pil_images


# specify the path to the model
model_path = "deepseek-ai/deepseek-vl2-tiny"
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

# multiple images/interleaved image-text
conversation = [
    {
        "role": "<|User|>",
        "content": "This is image_1: <image>\n"
                   "This is image_2: <image>\n"
                   "This is image_3: <image>\n Can you tell me what are in the images?",
        "images": [
            "images/multi_image_1.jpeg",
            "images/multi_image_2.jpeg",
            "images/multi_image_3.jpeg",
        ],
    },
    {"role": "<|Assistant|>", "content": ""}
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

# run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# run the model to get the response
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=False)
print(f"{prepare_inputs['sft_format'][0]}", answer)

低显存优化（增量预填充）

如果您使用的是 deepseek-vl2-small 且显存有限（如 40GB），可以使用 incremental_prefilling 方法进行推理。核心代码片段如下：

# ... (前部分代码与上述示例相同，加载模型和准备数据)

with torch.no_grad():
    # run image encoder to get the image embeddings
    inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

    # incremental_prefilling when using 40G GPU for vl2-small
    inputs_embeds, past_key_values = vl_gpt.incremental_prefilling(
        input_ids=prepare_inputs.input_ids,
        images=prepare_inputs.images,
        attention_mask=prepare_inputs.attention_mask,
        chunk_size=512 # 可根据显存情况调整块大小
    )

    # run the model to get the response using the pre-filled states
    outputs = vl_gpt.language.generate(
        inputs_embeds=inputs_embeds,
        past_key_values=past_key_values,
        attention_mask=prepare_inputs.attention_mask,
        pad_token_id=tokenizer.eos_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=512,
        do_sample=False,
        use_cache=True
    )
    
# ... (后续解码输出逻辑相同)

注意: 完整代码逻辑请参考官方仓库中的详细示例。使用此方法可显著降低峰值显存占用。

常见问题

推理时遇到报错或无法生成结果，如何解决？

如何在多张 GPU 上运行 DeepSeek-VL2 大模型（如 16B 或 27B）？

在 RefCOCO 数据集上评估时准确率极低或边界框格式错误怎么办？

使用多张显卡运行 web_demo.py 时出现 CUDA 显存溢出（OOM）错误，且似乎只用到了一张卡？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频