DeepSeek-VL

4.1k 585 中等 1 次阅读昨天MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

DeepSeek-VL 是一款面向真实世界应用的开源视觉 - 语言模型，旨在让机器像人类一样“看懂”图片并理解其中的文字与逻辑。它不仅能识别普通的自然图像，还能深入解析复杂的科学文献、数学公式、网页布局以及逻辑图表，甚至能辅助具身智能在复杂场景中做出决策，有效解决了传统模型在处理高难度、多模态混合信息时理解能力不足的痛点。

这款工具非常适合 AI 研究人员、开发者以及需要处理大量图文混合数据的专业人士使用。无论是希望构建智能文档分析系统、开发教育辅导应用，还是探索机器人视觉交互的工程师，都能从中获益。同时，其提供的在线演示也让对多模态技术感兴趣的普通用户能够轻松体验。

DeepSeek-VL 的技术亮点在于其强大的通用多模态理解能力，提供了从 13 亿到 70 亿参数的多种模型规格（包含基础版与对话版），兼顾了高性能与部署灵活性。项目采用友好的开源协议，代码遵循 MIT 许可，让社区能够自由地研究、改进并将其集成到各类创新应用中，共同推动视觉与语言理解技术的发展。

使用场景

某在线教育平台的技术团队正致力于将海量扫描版理科教材和手写笔记转化为可交互的数字资源，以支持学生的智能检索与答疑。

没有 DeepSeek-VL 时

复杂公式识别率低：传统 OCR 工具难以准确解析教材中的多行数学公式和化学方程式，常出现符号错乱或结构丢失，导致数字化内容不可用。
图表逻辑无法理解：对于物理电路图或生物流程图，系统只能提取图片文件，无法解读其中的逻辑关系，学生无法通过文字搜索到相关知识点。
人工校对成本高昂：为确保准确性，团队需雇佣大量兼职教师人工核对扫描内容，处理一页含复杂公式的页面平均耗时 15 分钟，项目进度严重滞后。
多模态检索缺失：用户无法通过上传手写错题照片来查找相似题目，系统缺乏“看图说话”的能力，用户体验割裂。

使用 DeepSeek-VL 后

高精度公式还原：DeepSeek-VL 凭借强大的科学文献理解能力，能精准识别并重构复杂的 LaTeX 格式公式，即使是模糊的手写体也能保持极高的准确率。
深度图表语义分析：面对网页截图或科学图表，DeepSeek-VL 不仅能描述画面，还能解释图表背后的逻辑推导过程，使非结构化图片变为可索引的知识库。
自动化流程提效：接入 DeepSeek-VL 后，整页教材的解析实现全自动化，人工仅需抽检，整体处理效率提升 20 倍以上，大幅降低了运营成本。
自然的多模态交互：学生直接上传包含几何图形和手写批注的错题照片，DeepSeek-VL 即可理解题意并生成详细解题步骤，实现了真正的“拍题即懂”。

DeepSeek-VL 通过突破性的视觉 - 语言联合理解能力，将原本沉睡在扫描文档中的复杂理科知识激活为可计算、可交互的智能资产。

运行环境要求

操作系统

未说明

GPU

必需 NVIDIA GPU (代码示例显示使用 .cuda())，需支持 torch.bfloat16，具体显存大小和 CUDA 版本未在文中明确说明（通常 7B 模型建议 16GB+ 显存）

内存

未说明

依赖

notes该工具提供 1.3B 和 7B 两种参数规模的模型（含 base 和 chat 版本）。代码示例显示模型需加载至 GPU 并使用 bfloat16 精度运行。支持单图及多图对话场景。商业使用在遵守模型许可协议的前提下是被允许的。

python3.8+

torch

transformers

gradio (可选，用于 Demo)

快速开始

1. 简介

隆重推出 DeepSeek-VL，一款开源的视觉-语言（VL）模型，专为现实世界的视觉与语言理解应用而设计。DeepSeek-VL 具备通用的多模态理解能力，能够处理逻辑图表、网页、公式识别、科学文献、自然图像以及复杂场景中的具身智能任务。

DeepSeek-VL：迈向现实世界的视觉-语言理解

卢浩宇*、刘文*、张博**、王炳轩、董凯、刘博、孙景翔、任彤铮、李卓书、杨浩、孙耀峰、邓成奇、徐汉威、谢振达、阮冲（*共同第一作者，**项目负责人）

2. 发布

✅ 2024年3月14日：DeepSeek-VL-7B 的演示已在 Hugging Face 上线。

请访问 https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B 查看 DeepSeek-VL-7B 的 Gradio 演示，亲身体验其强大功能！

✅ 2024年3月13日：支持 DeepSeek-VL 的 Gradio 演示。

该演示展示了模型在多种场景下的应用能力。

✅ 2024年3月11日：DeepSeek-VL 系列模型正式发布，包括 DeepSeek-VL-7B-base、DeepSeek-VL-7B-chat、DeepSeek-VL-1.3B-base 和 DeepSeek-VL-1.3B-chat。

此次发布的 DeepSeek-VL 系列模型种类丰富，适用于不同的应用场景。模型分为 7B 和 1.3B 参数量两种规格，每种规格又提供基础版和对话版，以满足不同需求和集成场景。

3. 模型下载

我们向公众开放 DeepSeek-VL 系列模型，包括 1.3B 基础版、1.3B 对话版、7B 基础版和 7B 对话版，旨在支持学术界和商业界更广泛、更多样化的研究。请注意，本模型的使用须遵守许可证章节中的规定。在这些条款下，允许进行商业用途。

Hugging Face

模型	序列长度	下载
DeepSeek-VL-1.3B-base	4096	🤗 Hugging Face
DeepSeek-VL-1.3B-chat	4096	🤗 Hugging Face
DeepSeek-VL-7B-base	4096	🤗 Hugging Face
DeepSeek-VL-7B-chat	4096	🤗 Hugging Face

4. 快速入门

安装

在 Python >= 3.8 环境的基础上，通过运行以下命令安装必要的依赖：

pip install -e .

简单推理示例

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
from deepseek_vl.utils.io import load_pil_images


# 指定模型路径
model_path = "deepseek-ai/deepseek-vl-7b-chat"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

## 单张图片对话示例
conversation = [
    {
        "role": "User",
        "content": "<image_placeholder>请描述这张图片的每个阶段。",
        "images": ["./images/training_pipelines.jpg"],
    },
    {"role": "Assistant", "content": ""},
]

## 多张图片（或上下文学习）对话示例
# conversation = [
#     {
#         "role": "User",
#         "content": "<image_placeholder>前景中有一只什么都没穿的狗，"
#                    "<image_placeholder>一只戴着圣诞帽的狗，"
#                    "<image_placeholder>一只穿着巫师服装的狗，"
#                    "<image_placeholder>那么这只狗到底穿了什么呢？",
#         "images": [
#             "images/dog_a.png",
#             "images/dog_b.png",
#             "images/dog_c.png",
#             "images/dog_d.png",
#         ],
#     },
#     {"role": "Assistant", "content": ""}
# ]

# 加载图像并准备输入
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True
).to(vl_gpt.device)

# 运行图像编码器以获取图像嵌入
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# 运行模型以获取响应
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

命令行聊天

python cli_chat.py --model_path "deepseek-ai/deepseek-vl-7b-chat"

# 或者使用本地路径
python cli_chat.py --model_path "本地模型路径"

Gradio 演示

pip install -e .[gradio]

python deepseek_vl/serve/app_deepseek.py

尽情体验吧！

5. 许可证

本代码仓库采用 MIT 许可证授权。DeepSeek-VL Base/Chat 模型的使用受 DeepSeek 模型许可证约束。DeepSeek-VL 系列（包括 Base 和 Chat）支持商业用途。

6. 引用

@misc{lu2024deepseekvl,
      title={DeepSeek-VL: 实现真实世界的视觉-语言理解},
      author={Haoyu Lu 和 Wen Liu 和 Bo Zhang 和 Bingxuan Wang 和 Kai Dong 和 Bo Liu 和 Jingxiang Sun 和 Tongzheng Ren 和 Zhuoshu Li 和 Hao Yang 和 Yaofeng Sun 和 Chengqi Deng 和 Hanwei Xu 和 Zhenda Xie 和 Chong Ruan},
      year={2024},
      eprint={2403.05525},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}

7. 联系方式

如有任何问题，请提交 Issue 或发送邮件至 service@deepseek.com。

DeepSeek-VL 快速上手指南

DeepSeek-VL 是一款开源的视觉 - 语言（Vision-Language）模型，专为现实世界的多模态理解任务设计。它支持处理逻辑图表、网页、公式识别、科学文献及复杂场景下的图像理解。本指南将帮助您快速在本地部署并运行该模型。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python 版本: >= 3.8
GPU 支持: 需要 NVIDIA GPU 并安装对应的 CUDA 驱动（用于加速推理）
显存要求:
- DeepSeek-VL-1.3B 系列：建议显存 >= 4GB
- DeepSeek-VL-7B 系列：建议显存 >= 16GB (使用 BF16 精度时)

2. 安装步骤

克隆代码库

首先从 GitHub 克隆项目代码：

git clone https://github.com/deepseek-ai/DeepSeek-VL.git
cd DeepSeek-VL

安装依赖

使用 pip 安装必要的 Python 依赖包。国内用户建议使用清华或阿里镜像源以加速下载：

pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：如果您想运行官方的 Gradio Web 演示界面，请执行以下命令安装额外依赖：
pip install -e .[gradio] -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

方式一：Python 脚本推理

以下是一个最简单的单图对话示例，展示如何加载模型并进行图像描述。

前置准备：请确保已下载模型权重（可通过 Hugging Face 下载 deepseek-ai/deepseek-vl-7b-chat），或者代码运行时能自动联网下载。

创建文件 run_inference.py 并填入以下代码：

import torch
from transformers import AutoModelForCausalLM

from deepseek_vl.models import VLChatProcessor, MultiModalityCausalLM
from deepseek_vl.utils.io import load_pil_images


# 指定模型路径 (可以是 HuggingFace ID 或本地路径)
model_path = "deepseek-ai/deepseek-vl-7b-chat"

# 加载处理器和分词器
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

# 加载多模态模型并设置为评估模式，使用 bfloat16 精度以节省显存
vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

# 构建对话数据 (单图示例)
conversation = [
    {
        "role": "User",
        "content": "<image_placeholder>Describe each stage of this image.",
        "images": ["./images/training_pipelines.jpg"], # 请替换为您本地的图片路径
    },
    {"role": "Assistant", "content": ""},
]

# 加载图片并预处理输入
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True
).to(vl_gpt.device)

# 运行图像编码器获取嵌入
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# 生成回复
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

运行脚本：

python run_inference.py

方式二：命令行交互 (CLI Chat)

项目提供了内置的命令行聊天工具，方便进行多轮对话测试。

python cli_chat.py --model_path "deepseek-ai/deepseek-vl-7b-chat"

# 如果使用本地下载的模型文件夹
# python cli_chat.py --model_path "/path/to/local/model"

方式三：启动 Web 界面 (Gradio Demo)

如果您安装了 gradio 依赖，可以启动一个可视化的 Web 界面进行体验：

python deepseek_vl/serve/app_deepseek.py

启动后，终端会显示访问地址（通常为 http://localhost:7860），在浏览器中打开即可上传图片并与模型对话。

常见问题

运行 inference.py 时遇到 'triu_tril_cuda_template not implemented for BFloat16' 错误怎么办？

在 Python 3.10+ 版本中运行时出现 'ImportError: cannot import name Mapping from collections' 错误如何解决？

DeepSeek-VL 是否支持多张图片混合输入？

Base 模型和 Chat 模型有什么区别？

图文交错数据（image-text interleaved data）在训练中用于什么任务？

哪里可以找到 DeepSeek-VL 系列模型的微调和推理最佳实践？

DeepSeek-VL 的视觉编码器设计与 Vary 模型有何不同？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架