DeepSeek-V3.2-Exp

1.6k 157 中等 1 次阅读 2天前MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

DeepSeek-V3.2-Exp 是深度求索推出的一款实验性大语言模型，旨在作为迈向下一代架构的重要探索。它主要解决了长文本场景下计算效率的瓶颈问题，通过引入全新的“深度求索稀疏注意力机制（DSA）”，在保持模型输出质量几乎不变的前提下，显著提升了长上下文训练与推理的速度并降低了成本。

这款模型特别适合 AI 研究人员、开发者以及对大模型底层架构优化感兴趣的技术团队使用。对于需要处理海量文档、长代码库或进行长对话分析的应用场景，DeepSeek-V3.2-Exp 提供了极具价值的验证方案。其核心亮点在于首次实现了细粒度的稀疏注意力控制，这是一种针对 Transformer 架构的高效优化尝试。官方数据显示，在与前代版本 V3.1-Terminus 训练配置严格对齐的情况下，DeepSeek-V3.2-Exp 在 MMLU-Pro、AIME 2025 及代码编程等各类权威基准测试中，性能表现与之持平，证明了其在提升效率的同时并未牺牲智能水平。作为一个开源的实验版本，它为社区探索更高效的大模型架构提供了宝贵的参考与实践基础。

使用场景

某大型法律科技公司的研发团队正在构建一个能自动分析数百页跨国并购合同并生成风险报告的智能系统，需要模型在极长文本中保持高精度的逻辑推理能力。

没有 DeepSeek-V3.2-Exp 时

推理成本高昂：处理单份平均 200 页的合同文档时，传统稠密注意力机制导致显存占用激增，单次推理算力成本过高，难以规模化部署。
长文细节丢失：在超长上下文窗口中，模型容易“遗忘”文档首尾的关键条款关联，导致风险点漏报或误判。
响应延迟严重：生成一份完整分析报告需耗时数分钟，无法满足业务部门对即时反馈的需求，严重拖慢审核流程。
优化验证困难：尝试引入其他稀疏注意力方案时，往往以牺牲模型在复杂法律逻辑推理上的准确性为代价，陷入效率与质量的两难。

使用 DeepSeek-V3.2-Exp 后

显著降低算力开销：借助 DeepSeek Sparse Attention 机制，在处理同等长度合同时大幅减少计算量，使大规模并发处理成为可能，运营成本下降明显。
精准捕捉长程依赖：细粒度的稀疏注意力让模型在处理百页文档时，仍能精准关联前言定义与附录条款，风险识别准确率与旧版本持平甚至更优。
实现秒级报告生成：推理效率的提升将单份合同的分析时间从分钟级压缩至秒级，律师可实时获取初步风险提示，工作流大幅提速。
无损升级架构：DeepSeek-V3.2-Exp 在 MMLU-Pro 等基准测试中证明了其性能与 V3.1-Terminus 相当，团队无需担心引入新架构会导致法律推理能力下降。

DeepSeek-V3.2-Exp 通过创新的稀疏注意力机制，成功打破了长文本处理中“高效率”与“高智商”不可兼得的瓶颈，让超长文档的智能分析既快又准。

运行环境要求

操作系统

Linux

GPU

必需
支持 NVIDIA GPU (如 H200，需配合 SGLang Docker)、AMD GPU (MI350) 或华为 NPU (A2/A3)
运行 671B 模型需多卡并行 (示例中 MP/TP=8)，具体显存需求取决于并行策略和量化方式，未说明单卡最低显存

内存

未说明 (建议根据模型参数量 671B 配置大量系统内存)

依赖

notes1. 该模型为 671B 参数的实验性版本 (DeepSeek-V3.2-Exp)，引入稀疏注意力机制 (DSA)。 2. 官方推荐使用 Docker 部署 SGLang 环境，针对不同硬件 (H200, MI350, NPU) 提供了专用镜像。 3. vLLM 已提供首日支持 (day-0 support)。 4. 本地运行前需先将 HuggingFace 权重转换为推理专用格式。 5. 2025.11.17 更新修复了 RoPE 实现差异问题，请务必使用最新的推理代码。

python未说明

torch

SGLang

vLLM

TileLang

DeepGEMM

FlashMLA

快速开始

DeepSeek-V3.2-Exp

简介

我们很高兴地宣布正式发布DeepSeek-V3.2-Exp，这是我们模型的一个实验性版本。作为迈向下一代架构的中间步骤，V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力机制——一种旨在探索和验证长上下文场景下训练与推理效率优化的稀疏注意力机制。

此次实验性发布代表了我们在更高效Transformer架构方面的持续研究，尤其专注于提升处理长文本序列时的计算效率。

DeepSeek稀疏注意力（DSA）首次实现了细粒度的稀疏注意力，在几乎保持相同模型输出质量的同时，显著提升了长上下文场景下的训练和推理效率。
为了严格评估引入稀疏注意力的影响，我们特意将DeepSeek-V3.2-Exp的训练配置与V3.1-Terminus对齐。在多个领域的公开基准测试中，DeepSeek-V3.2-Exp的表现与V3.1-Terminus相当。

基准测试	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
无工具使用推理模式
MMLU-Pro	85.0	85.0
GPQA-Diamond	80.7	79.9
人类终极考试	21.7	19.8
LiveCodeBench	74.9	74.1
AIME 2025	88.4	89.3
HMMT 2025	86.1	83.6
Codeforces	2046	2121
Aider-Polyglot	76.1	74.5
代理式工具使用
BrowseComp	38.5	40.1
BrowseComp-zh	45.0	47.9
SimpleQA	96.8	97.1
SWE Verified	68.4	67.8
SWE-bench多语言版	57.8	57.9
Terminal-bench	36.7	37.7

更新

2025年11月17日：我们发现先前版本的推理演示代码在索引器模块中的旋转位置嵌入（RoPE）实现上存在差异，可能导致模型性能下降。 具体来说，索引器模块中输入到RoPE的张量需要非交错布局，而MLA模块中的RoPE则期望交错布局。该问题现已解决。请参考更新后的推理演示代码，并注意这一实现细节。

开源内核

对于具有更好可读性和研究目的设计的TileLang内核，请参阅TileLang。

对于高性能CUDA内核，索引器逻辑值内核（包括分页版本）可在DeepGEMM中找到。稀疏注意力内核则发布在FlashMLA中。

如何本地运行

HuggingFace

我们在inference文件夹中提供了更新后的推理演示代码，以帮助社区快速上手我们的模型并理解其架构细节。

首先将Hugging Face模型权重转换为我们的推理演示所需的格式。设置MP以匹配您可用的GPU数量：

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

启动交互式聊天界面，开始探索DeepSeek的能力：

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

SGLang

使用Docker安装

# H200
docker pull lmsysorg/sglang:dsv32

# MI350
docker pull lmsysorg/sglang:dsv32-rocm

# NPU
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

启动命令

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attention

vLLM

vLLM为DeepSeek-V3.2-Exp提供开箱即用的支持。有关最新详情，请参阅食谱。

许可证

本仓库及模型权重采用MIT许可证授权。

引用

@misc{deepseekai2024deepseekv32,
      title={DeepSeek-V3.2-Exp：借助DeepSeek稀疏注意力提升长上下文效率}, 
      author={DeepSeek-AI},
      year={2025},
}

联系方式

如有任何问题，请提交issue或通过service@deepseek.com联系我们。

DeepSeek-V3.2-Exp 快速上手指南

DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性模型版本，引入了 DeepSeek Sparse Attention (DSA) 机制，旨在显著提升长上下文场景下的训练与推理效率，同时保持与 V3.1-Terminus 相当的模型输出质量。

环境准备

系统要求

GPU: 推荐 NVIDIA H200、MI350 或国产昇腾 NPU (A2/A3)。
显存: 根据模型并行度配置，建议多卡环境运行。
操作系统: Linux (Ubuntu 20.04+ 推荐)。
Python: 3.8 及以上版本。
框架依赖: PyTorch, CUDA Toolkit (版本需与显卡驱动匹配)。

前置依赖

确保已安装 git, python3-pip, 以及对应的深度学习框架基础环境。若使用 Docker 方案（推荐），只需安装 Docker 引擎即可。

安装步骤

本项目提供三种主要运行方式：原生 HuggingFace 权重转换、SGLang 部署（推荐高性能场景）和 vLLM 部署。

方案一：使用 SGLang (推荐，支持多种硬件加速)

SGLang 提供了针对该模型优化的 Docker 镜像，是最简便的部署方式。

1. 拉取 Docker 镜像 根据您的硬件选择对应的镜像：

# NVIDIA H200
docker pull lmsysorg/sglang:dsv32

# AMD MI350
docker pull lmsysorg/sglang:dsv32-rocm

# 昇腾 NPU (A2/A3)
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

2. 启动服务 运行以下命令启动推理服务器（示例为 8 张卡并行）：

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attention

方案二：使用 vLLM

vLLM 已提供对 DeepSeek-V3.2-Exp 的原生支持（Day-0 support）。

请参考官方最新部署食谱获取详细配置： https://docs.vllm.ai/projects/recipes/en/latest/DeepSeek/DeepSeek-V3_2-Exp.html

方案三：本地源码运行 (HuggingFace 权重)

如果您需要研究模型架构细节或使用原生 PyTorch 推理，请按以下步骤操作。

1. 克隆仓库并进入目录

git clone https://github.com/deepseek-ai/DeepSeek-V3.2-Exp.git
cd DeepSeek-V3.2-Exp/inference

2. 安装 Python 依赖 (注：具体依赖列表请参考仓库内的 requirements.txt)

3. 转换模型权重 将 HuggingFace 格式的权重转换为推理所需的格式。请设置 MP 为您的 GPU 数量，EXPERTS 通常为 256。

export EXPERTS=256
export MP=8  # 替换为您实际的 GPU 数量
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

基本使用

交互式对话 (原生源码方式)

权重转换完成后，使用 torchrun 启动交互式聊天界面：

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

启动后，您即可在终端中输入提示词与模型进行对话。

API 调用 (SGLang/vLLM 方式)

若使用 SGLang 或 vLLM 启动服务，模型将自动暴露 HTTP API 端点（默认通常为 http://localhost:30000 或 8000）。您可以使用标准的 OpenAI 兼容客户端或 curl 进行测试：

curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-ai/DeepSeek-V3.2-Exp",
    "messages": [{"role": "user", "content": "你好，请介绍一下 DeepSeek-V3.2-Exp 的特点。"}]
  }'

注意：2025.11.17 更新指出，旧版推理代码中 Indexer 模块的 RoPE 实现存在布局问题（非交错 vs 交错），可能导致性能下降。请务必使用仓库中最新更新的 inference 文件夹代码。

常见问题

在 Claude Code 中使用 DeepSeek-V3.2 时遇到 `/compact` 命令不支持的错误怎么办？

编译 `act_quant_kernel` 函数时抛出 `tvm.error.InternalError: stod` 错误如何解决？

在哪里可以找到 DSA W 权重的训练代码？使用 AI 生成的权重无法收敛。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架