DeepSeek-Coder

23.1k 2.8k 中等 1 次阅读今天MIT语言模型

AI 解读由 AI 自动生成，仅供参考

DeepSeek-Coder 是一款专为编程任务打造的高性能开源代码大模型系列，旨在让代码编写更加智能高效。它通过在 2 万亿 token 的高质量数据上进行从零训练（其中 87% 为代码，13% 为中英文自然语言），能够理解并生成超过 80 种编程语言，从常见的 Python、Java 到专业的 CUDA、Solidity 均能胜任。

该工具主要解决了开发者在代码补全、项目级上下文理解及代码填空等场景中的痛点。凭借 16K 的超长上下文窗口和独特的“填空”训练任务，DeepSeek-Coder 不仅能单行补全，更能基于整个项目文件进行精准的代码生成与修复，显著提升了开发效率。在 HumanEval、MBPP 等多个权威基准测试中，其表现超越了同类开源模型，甚至部分版本可媲美 GPT-3.5 Turbo。

DeepSeek-Coder 非常适合软件工程师、算法研究人员以及需要辅助编程的学生使用。无论是希望在本地部署轻量级模型（提供 1B 至 33B 多种尺寸可选）以保护代码隐私的企业团队，还是追求极致性能的资深开发者，都能找到合适的版本。其强大的多语言支持和高性价比的推理能力，使其成为构建智能编程助手或进行代码相关研究的理想选择。

使用场景

某初创团队的后端工程师正在紧急重构一个包含十万行代码的遗留电商系统，需将核心交易模块从 Python 迁移至 Go 语言并修复潜在并发漏洞。

没有 DeepSeek-Coder 时

跨语言迁移效率极低：工程师需手动逐行翻译 Python 逻辑为 Go 代码，不仅耗时数天，还极易因语法习惯差异引入逻辑错误。
上下文理解断裂：面对长达数千行的复杂函数，通用模型受限于短上下文窗口，无法关联项目其他文件中的依赖定义，导致生成的代码无法直接运行。
多语言支持薄弱：在处理涉及 SQL 存储过程与 Shell 部署脚本的混合编程场景时，工具频繁出现语法幻觉，需要人工反复修正。
调试成本高昂：生成的代码缺乏对项目级结构的感知，缺少必要的错误处理机制，导致测试阶段报错频发，排查困难。

使用 DeepSeek-Coder 后

智能项目级迁移：利用其 16K 上下文窗口和项目级预训练能力，DeepSeek-Coder 能一次性读取整个模块，自动完成从 Python 到 Go 的高保真转换，保持原有业务逻辑不变。
精准代码填充：通过“填空式”生成任务，它能准确识别缺失的并发锁机制与接口定义，直接在现有代码框架中补全高质量的 Go 实现。
全栈语言无缝切换：凭借对 80+ 种编程语言的深度掌握，DeepSeek-Coder 在同一会话中流畅处理 Go 主程序、SQL 查询优化及 Docker 配置，无需切换工具。
一次通过率显著提升：生成的代码天然符合项目规范且包含完善的异常处理，在 HumanEval 等基准测试中表现超越同类开源模型，大幅减少后续调试时间。

DeepSeek-Coder 凭借其对项目级上下文的深刻理解和卓越的跨语言能力，将原本需要数天的重构工作压缩至数小时，真正实现了让代码自我编写。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU (代码示例使用 .cuda())，显存需求取决于模型大小：1B/5.7B/6.7B 版本建议 8GB+，33B 版本建议 24GB+ (需使用 bfloat16 精度)

内存

未说明 (建议系统内存大于模型权重大小，33B 模型建议 64GB+)

依赖

notes1. 代码示例明确使用 torch.bfloat16 数据类型和 CUDA 加速，因此需要支持 bfloat16 的较新 NVIDIA 显卡（如 Ampere 架构及以上）和相应 CUDA 版本。2. 提供多种尺寸模型（1B, 5.7B, 6.7B, 33B），请根据硬件条件选择。3. 加载模型时需设置 trust_remote_code=True。4. 支持项目级代码补全，上下文窗口大小为 16K。

python未说明

torch

transformers

快速开始

DeepSeek Coder

[ 首页] | [🤖 与 DeepSeek Coder 聊天] | [🤗 模型下载] | [Discord] | [WeChat (微信)]

论文链接👁️

1. DeepSeek Coder 简介

DeepSeek Coder 是一系列从头开始训练的代码语言模型，总共使用了 2T 的数据进行训练，其中 87% 是代码，13% 是自然语言，涵盖英语和中文两种语言。我们提供了多种规模的代码模型，从 1B 到 33B 不等。每个模型都基于项目级别的代码语料库进行预训练，采用了 16K 的窗口大小以及额外的填空任务，以支持项目级别的代码补全和修复。在编码能力方面，DeepSeek Coder 在多个编程语言和各类基准测试中均达到了开源代码模型中的最先进水平。

result

海量训练数据：从头开始训练，使用了 2T 的数据，其中包括 87% 的代码和 13% 的语言数据，覆盖英语和中文。
高度灵活且可扩展：提供 1B、5.7B、6.7B 和 33B 四种模型规模，用户可以根据自身需求选择最适合的配置。
卓越的模型性能：在 HumanEval、MultiPL-E、MBPP、DS-1000 和 APPS 等公开可用的代码模型基准测试中，性能处于领先地位。
先进的代码补全能力：采用 16K 的窗口大小和填空任务，支持项目级别的代码补全和修复。

支持的编程语言

['ada', 'agda', 'alloy', 'antlr', 'applescript', 'assembly', 'augeas', 'awk', 'batchfile', 'bluespec', 'c', 'c-sharp', 'clojure', 'cmake', 'coffeescript', 'common-lisp', 'cpp', 'css', 'cuda', 'dart', 'dockerfile', 'elixir', 'elm', 'emacs-lisp', 'erlang', 'f-sharp', 'fortran', 'glsl', 'go', 'groovy', 'haskell', 'html', 'idris', 'isabelle', 'java', 'java-server-pages', 'javascript', 'json', 'julia', 'jupyter-notebook', 'kotlin', 'lean', 'literate-agda', 'literate-coffeescript', 'literate-haskell', 'lua', 'makefile', 'maple', 'markdown', 'mathematica', 'matlab', 'ocaml', 'pascal', 'perl', 'php', 'powershell', 'prolog', 'protocol-buffer', 'python', 'r', 'racket', 'restructuredtext', 'rmarkdown', 'ruby', 'rust', 'sas', 'scala', 'scheme', 'shell', 'smalltalk', 'solidity', 'sparql', 'sql', 'stan', 'standard-ml', 'stata', 'systemverilog', 'tcl', 'tcsh', 'tex', 'thrift', 'typescript', 'verilog', 'vhdl', 'visual-basic', 'xslt', 'yacc', 'yaml', 'zig']

2. 评估结果

我们在多个与编码相关的基准测试上对 DeepSeek Coder 进行了评估。此处仅报告 HumanEval（Python 和多语言）、MBPP 以及 DS-1000 上的 pass@1 结果：

table

结果显示，DeepSeek-Coder-Base-33B 显著优于现有的开源代码大模型。与 CodeLlama-34B 相比，在 HumanEval Python、HumanEval 多语言、MBPP 和 DS-1000 上分别领先 7.9%、9.3%、10.8% 和 5.9%。令人惊讶的是，我们的 DeepSeek-Coder-Base-7B 已经达到了 CodeLlama-34B 的性能水平。而经过指令微调后的 DeepSeek-Coder-Instruct-33B 模型，在 HumanEval 上的表现超越了 GPT35-turbo，而在 MBPP 上则与之不相上下。

更多评估细节请参见详细评估结果。

3. 数据构建与模型训练流程

数据构建

步骤 1：从 GitHub 收集代码数据，并应用与 StarCoder Data 相同的过滤规则来清理数据。
步骤 2：解析同一仓库内文件之间的依赖关系，根据依赖顺序重新排列文件位置。
步骤 3：将相互依赖的文件拼接成一个完整的示例，并使用仓库级别的 minhash 进行去重。
步骤 4：进一步过滤掉低质量的代码，例如存在语法错误或可读性较差的代码。

模型训练

步骤 1：初始预训练阶段使用的数据集中包含 87% 的代码、10% 的代码相关语言（如 GitHub Markdown 和 StackExchange）以及 3% 的非代码相关中文语言。在此步骤中，模型使用 1.8T 的数据和 4K 的窗口大小进行预训练。
步骤 2：进一步使用 200B 的数据进行扩展的 16K 窗口大小预训练，最终得到基础模型（DeepSeek-Coder-Base）。
步骤 3：使用 2B 的指令数据进行指令微调，从而得到指令微调后的模型（DeepSeek-Coder-Instruct）。

4. 使用方法

在开始之前，您需要安装必要的依赖项。可以通过运行以下命令来完成：

pip install -r requirements.txt

此外，在 🤗 Hugging Face Space 上也提供了一个演示，您也可以使用 demo 文件夹中的 app.py 在本地运行该演示。（感谢 HF 团队的所有支持）

以下是关于我们模型的一些使用示例。

1) 代码补全

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
input_text = "#write a quick sort algorithm"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

这段代码将输出以下结果：

def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[0]
    left = []
    right = []
    for i in range(1, len(arr)):
        if arr[i] < pivot:
            left.append(arr[i])
        else:
            right.append(arr[i])
    return quick_sort(left) + [pivot] + quick_sort(right)

2) 代码插入

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
input_text = """<｜fim▁begin｜>def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[0]
    left = []
    right = []
<｜fim▁hole｜>
        if arr[i] < pivot:
            left.append(arr[i])
        else:
            right.append(arr[i])
    return quick_sort(left) + [pivot] + quick_sort(right)<｜fim▁end｜>"""
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)[len(input_text):])

这段代码将输出以下结果：

   for i in range(1, len(arr)):

3) 聊天模型推理

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-instruct", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-instruct", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
# tokenizer.eos_token_id 是 <|EOT|> 标记的 ID
outputs = model.generate(inputs, max_new_tokens=512, do_sample=False, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True))

这段代码将输出以下结果：

当然，这里有一个简单的 Python 快速排序算法实现：

def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    else:
        pivot = arr[0]
        less_than_pivot = [x for x in arr[1:] if x <= pivot]
        greater_than_pivot = [x for x in arr[1:] if x > pivot]
        return quick_sort(less_than_pivot) + [pivot] + quick_sort(greater_than_pivot)

# 测试函数
arr = [10, 7, 8, 9, 1, 5]
print("原始数组:", arr)
print("排序后的数组:", quick_sort(arr))

这段代码通过选择数组中的一个“基准”元素，并根据其与基准的关系将其他元素分为两组：小于基准和大于基准。然后，基准元素就位于其最终位置上。接下来，对这两组分别重复上述过程。

如果您不想使用提供的 API apply_chat_template，它会从 tokenizer_config.json 中加载模板，那么您可以使用以下模板与我们的模型进行对话。将 ['content'] 替换为您的指令以及模型之前的回复（如果有的话），模型就会针对当前给出的指令生成回复。

你是一位 AI 编程助手，使用由 DeepSeek 公司开发的 DeepSeek Coder 模型，只回答与计算机科学相关的问题。对于政治敏感问题、安全与隐私问题以及其他非计算机科学类问题，你将拒绝回答。
### 指令：
['content']
### 回答：
['content']
<|EOT|>
### 指令：
['content']
### 回答：

4) 仓库级别的代码补全

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()

input_text = """#utils.py
import torch
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

def load_data():
    iris = datasets.load_iris()
    X = iris.data
    y = iris.target

    # 数据标准化
    scaler = StandardScaler()
    X = scaler.fit_transform(X)

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # 将 numpy 数据转换为 PyTorch 张量
    X_train = torch.tensor(X_train, dtype=torch.float32)
    X_test = torch.tensor(X_test, dtype=torch.float32)
    y_train = torch.tensor(y_train, dtype=torch.int64)
    y_test = torch.tensor(y_test, dtype=torch.int64)

    return X_train, X_test, y_train, y_test

def evaluate_predictions(y_test, y_pred):
    return accuracy_score(y_test, y_pred)

# model.py
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

class IrisClassifier(nn.Module):
    def __init__(self):
        super(IrisClassifier, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(4, 16),
            nn.ReLU(),
            nn.Linear(16, 3)
        )

    def forward(self, x):
        return self.fc(x)

    def train_model(self, X_train, y_train, epochs, lr, batch_size):
        criterion = nn.CrossEntropyLoss()
        optimizer = optim.Adam(self.parameters(), lr=lr)

        # 创建数据加载器以进行批次处理
        dataset = TensorDataset(X_train, y_train)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

        for epoch in range(epochs):
            for batch_X, batch_y in dataloader:
                optimizer.zero_grad()
                outputs = self(batch_X)
                loss = criterion(outputs, batch_y)
                loss.backward()
                optimizer.step()

    def predict(self, X_test):
        with torch.no_grad():
            outputs = self(X_test)
            _, predicted = outputs.max(1)
        return predicted.numpy()


# main.py
from utils import load_data, evaluate_predictions
from model import IrisClassifier as Classifier

def main():
    # 模型训练和评估
"""
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=140)
print(tokenizer.decode(outputs[0]))

在以下场景中，DeepSeek-Coder-6.7B模型能够有效地调用model.py文件中的IrisClassifier类及其成员函数，并使用utils.py文件中的函数，从而正确完成main.py文件中的主函数，实现模型的训练与评估。

完成示例动图

5. 如何微调 DeepSeek-Coder

我们提供了脚本 finetune/finetune_deepseekcoder.py，供用户在其下游任务上对我们的模型进行微调。

该脚本支持使用 DeepSpeed 进行训练。您需要通过以下命令安装所需的依赖包：

pip install -r finetune/requirements.txt

请按照样本数据集格式准备您的训练数据。每行应为一个 JSON 序列化的字符串，包含两个必填字段：instruction 和 output。

数据准备完成后，您可以使用示例 Shell 脚本来微调 deepseek-ai/deepseek-coder-6.7b-instruct。请务必指定 DATA_PATH 和 OUTPUT_PATH，并根据您的具体情况选择合适的超参数（例如：learning_rate、per_device_train_batch_size）。

DATA_PATH="<your_data_path>"
OUTPUT_PATH="<your_output_path>"
MODEL="deepseek-ai/deepseek-coder-6.7b-instruct"

cd finetune && deepspeed finetune_deepseekcoder.py \
    --model_name_or_path $MODEL_PATH \
    --data_path $DATA_PATH \
    --output_dir $OUTPUT_PATH \
    --num_train_epochs 3 \
    --model_max_length 1024 \
    --per_device_train_batch_size 16 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 100 \
    --save_total_limit 100 \
    --learning_rate 2e-5 \
    --warmup_steps 10 \
    --logging_steps 1 \
    --lr_scheduler_type "cosine" \
    --gradient_checkpointing True \
    --report_to "tensorboard" \
    --deepspeed configs/ds_config_zero3.json \
    --bf16 True

6. 详细评估结果

以下评估结果的可复现代码可在 Evaluation 目录中找到。

1) 多语言 HumanEval 基准测试

HumanEval

2) MBPP 基准测试

3) DS-1000 基准测试

DS-1000

4) Program-Aid 数学推理基准测试

Math

使用 vLLM 进行推理

您也可以使用 vLLM 进行高吞吐量推理。

文本补全

from vllm import LLM, SamplingParams

tp_size = 4 # 张量并行度
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=100)
model_name = "deepseek-ai/deepseek-coder-6.7b-base"
llm = LLM(model=model_name, trust_remote_code=True, gpu_memory_utilization=0.9, tensor_parallel_size=tp_size)

prompts = [
    "如果一个国家的所有人都彼此相爱，",
    "研究还应关注那些技术，",
    "为了确定标签是否正确，我们需要"
]
outputs = llm.generate(prompts, sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

聊天补全

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

tp_size = 4 # 张量并行度
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=100)
model_name = "deepseek-ai/deepseek-coder-6.7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, trust_remote_code=True, gpu_memory_utilization=0.9, tensor_parallel_size=tp_size)

messages_list = [
    [{"role": "user", "content": "你是谁？"}],
    [{"role": "user", "content": "你能做什么？"}],
    [{"role": "user", "content": "请简要解释一下 Transformer。"}],
]
prompts = [tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False) for messages in messages_list]

sampling_params.stop = [tokenizer.eos_token]
outputs = llm.generate(prompts, sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

7. 问答

是否可以提供用于模型量化的 tokenizer.model 文件？

DeepSeek Coder 使用 HuggingFace Tokenizer 实现 Bytelevel-BPE 算法，并设计了特殊的预分词器以确保最佳性能。目前尚无直接方法将该分词器转换为 SentencePiece 格式。我们正在致力于开源量化方法，以促进 HuggingFace Tokenizer 的应用。

GGUF (llama.cpp)

我们已向流行的量化库 llama.cpp 提交了一个 PR，旨在全面支持所有 HuggingFace 预分词器，包括我们的预分词器。

在 PR 合并之前，您可以通过以下步骤生成自己的 GGUF 模型：

git clone https://github.com/DOGEwbx/llama.cpp.git
cd llama.cpp
git checkout regex_gpt2_preprocess
# 按照 README 设置环境
make
python3 -m pip install -r requirements.txt
# 生成 GGUF 模型
python convert-hf-to-gguf.py <MODEL_PATH> --outfile <GGUF_PATH> --model-name deepseekcoder

# 以 q4_0 量化为例
./quantize <GGUF_PATH> <OUTPUT_PATH> q4_0
./main -m <OUTPUT_PATH> -n 128 -p <PROMPT>

GPTQ(exllamav2)

更新：exllamav2 已经支持 Huggingface Tokenizer。请拉取最新版本并尝试使用。

请注意，为了获得正确的输出，需将 RoPE 缩放因子设置为 4，更多讨论可参见此 PR。

如何使用 DeepSeek-Coder-Instruct 完成代码？

尽管 DeepSeek-Coder-Instruct 模型在监督微调（SFT）过程中并未专门针对代码补全任务进行训练，但它们仍然具备高效执行代码补全的能力。要启用此功能，只需调整 eos_token_id 参数即可。将 eos_token_id 设置为 32014，而不是 DeepSeek-Coder-Instruct 配置中的默认值 32021。这一修改会促使模型以不同的方式识别序列的结束，从而更好地支持代码补全任务。

8. 资源

awesome-deepseek-coder 是一份关于 DeepSeek Coder 的开源项目精选列表。

9. 许可证

本代码仓库采用 MIT 许可证。DeepSeek Coder 模型的使用则受模型许可证约束。DeepSeek Coder 支持商业用途。

更多详情请参阅 LICENSE-CODE 和 LICENSE-MODEL。

10. 引用

@misc{deepseek-coder,
  author = {郭达亚、朱启浩、杨德健、谢振达、董凯、张文涛、陈冠廷、毕晓、吴Y、李YK、罗富利、熊英飞、梁文峰},
  title = {DeepSeek-Coder：当大型语言模型遇见编程——代码智能的崛起},
  journal = {CoRR},
  volume = {abs/2401.14196},
  year = {2024},
  url = {https://arxiv.org/abs/2401.14196},
}

11. 联系方式

如有任何问题，请提交 Issue 或发送邮件至 service@deepseek.com。

DeepSeek-Coder 快速上手指南

DeepSeek-Coder 是由深度求索（DeepSeek）推出的一系列代码语言模型，支持 80+ 种编程语言。该模型在 2T token 数据上从头训练（含 87% 代码和 13% 自然语言），提供从 1B 到 33B 多种尺寸版本，具备卓越的项目级代码补全、填空及指令遵循能力。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐) 或 Windows/macOS
Python: 3.8 及以上版本
GPU: 推荐使用 NVIDIA GPU 并安装 CUDA 驱动
- 运行 6.7B 模型建议显存 ≥ 16GB (使用 bfloat16 精度)
- 运行 33B 模型建议显存 ≥ 48GB (或使用多卡/量化方案)
前置依赖:
- torch (建议 2.0+)
- transformers (建议 4.35+)
- accelerate

2. 安装步骤

方法一：通过 requirements.txt 安装（推荐）

如果您已克隆官方仓库，请直接运行：

pip install -r requirements.txt

方法二：手动安装核心依赖

若未克隆仓库，可直接安装必要的 Python 包。国内用户建议使用清华或阿里镜像源加速下载：

pip install torch transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：首次加载模型时会自动从 Hugging Face 下载权重。国内网络若连接缓慢，建议配置 Hugging Face 镜像环境变量：
export HF_ENDPOINT=https://hf-mirror.com

3. 基本使用

DeepSeek-Coder 提供两种主要类型的模型：

Base 版 (-base): 适用于代码补全 (Completion) 和代码填空 (Infilling)。
Instruct 版 (-instruct): 适用于对话交互和指令遵循 (Chat)。

以下是最简单的使用示例（以 6.7B 模型为例）：

场景一：代码补全 (Code Completion)

适用于根据注释或上下文生成后续代码。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载 Base 模型
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()

input_text = "#write a quick sort algorithm"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

# 生成代码
outputs = model.generate(**inputs, max_length=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

场景二：代码填空 (Code Insertion)

适用于在现有代码中间插入缺失逻辑（使用 <｜fim▁begin｜>, <｜fim▁hole｜>, <｜fim▁end｜> 标记）。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()

input_text = """<｜fim▁begin｜>def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[0]
    left = []
    right = []
<｜fim▁hole｜>
        if arr[i] < pivot:
            left.append(arr[i])
        else:
            right.append(arr[i])
    return quick_sort(left) + [pivot] + quick_sort(right)<｜fim▁end｜>"""

inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=128)

# 仅输出填充部分
print(tokenizer.decode(outputs[0], skip_special_tokens=True)[len(input_text):])

场景三：对话模式 (Chat / Instruct)

适用于向模型提问或请求编写完整功能模块。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载 Instruct 模型
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-coder-6.7b-instruct", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-coder-6.7b-instruct", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()

messages = [
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

# 应用对话模板
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)

outputs = model.generate(
    inputs, 
    max_new_tokens=512, 
    do_sample=False, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1, 
    eos_token_id=tokenizer.eos_token_id
)

print(tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True))

常见问题

如何在单张 A100 显卡上加速 33B 模型的推理？有模型并行方案吗？

为什么 FIM (Fill-In-the-Middle) 功能无法正常工作，输出乱码？

微调 DeepSeek-Coder 时，自定义数据集应该是什么格式？

微调后保存的模型加载时报错 `mismatched_sizes` 怎么办？

微调后进行 HumanEval 评测报错 `Failed to extract code block with error list index out of range` 是什么原因？

在哪里可以找到 `tokenizer.model` 文件以支持 exllama 等第三方框架？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他