CPM-Bee

2.4k 179 较难 1 次阅读 5天前语言模型

AI 解读由 AI 自动生成，仅供参考

CPM-Bee 是一款由 OpenBMB 推出的百亿参数中英文双语基座大模型。它基于 Transformer 自回归架构，在超万亿级高质量语料上完成预训练，具备强大的语言理解与生成能力。

针对大模型领域开源资源稀缺及商用限制多的痛点，CPM-Bee 实现了完全开源并允许商业使用，打破了技术壁垒。其独特之处在于采用结构化 JSON 格式组织训练数据，使其能更精准地处理填空、翻译、问答、评分预测及选择题等多种基础任务，且在中英双语场景下均表现优异。此外，它还拥有完善的工具链生态支持，涵盖高性能预训练、适配、压缩及推理全流程。

这款模型非常适合科研人员、企业开发者及个人创作者使用。研究者可直接利用其进行学术探索；开发者则能以其为坚实底座，通过微调快速构建面向特定领域的垂直应用（如复杂问答系统或多模态对话助手）；有技术背景的个人也可基于此进行创新实验。作为 CPM-Live 计划的重要里程碑，CPM-Bee 旨在降低大模型使用门槛，推动人工智能技术在各行各业的落地与普及。

使用场景

某跨境电商初创团队急需构建一个能同时处理中英双语商品评论分析与自动回复的智能客服系统，以应对日益增长的全球用户咨询。

没有 CPM-Bee 时

双语能力割裂：团队需分别部署中文和英文两个独立模型，导致系统架构复杂，维护成本翻倍，且难以处理中英文混合输入的“Chinglish"评论。
数据清洗负担重：开源社区中多数基座模型语料质量参差不齐，团队需耗费数周时间自行清洗和筛选海量训练数据，以确保模型不产生有害输出。
商用合规风险高：许多高性能大模型禁止商业使用或授权费用昂贵，初创团队在法律审核上举步维艰，担心产品上线后遭遇版权纠纷。
领域适配困难：缺乏针对电商场景的结构化任务支持（如评分预测、情感填空），直接微调通用模型效果差，需要大量标注数据才能勉强运行。

使用 CPM-Bee 后

原生双语无缝切换：利用 CPM-Bee 在超万亿高质量语料上的预训练优势，单个模型即可完美理解并生成流畅的中英双语内容，轻松应对混合语言场景。
开箱即用的高质量基座：得益于官方严格的语料筛选与清洗，团队可直接基于 CPM-Bee 进行微调，省去了繁琐的数据预处理环节，研发周期缩短 60%。
明确的商用授权保障：依托 CPM-Bee 完全开源且允许商用的协议，团队可放心将其集成至核心产品中，无需担忧法律风险，加速产品上市进程。
结构化任务高效适配：借助 CPM-Bee 对 JSON 格式结构化数据的原生支持，团队仅需少量样本即可教会模型执行“评论评分预测”和“自动生成回复”等特定任务，准确率显著提升。

CPM-Bee 以其卓越的中英双语能力和友好的商用协议，帮助初创团队以最低成本快速构建了高质量的跨境智能客服系统。

运行环境要求

操作系统

未说明

GPU

必需 NVIDIA GPU（需与 CUDA 版本对应），具体显存大小未说明（10B 参数模型通常建议 24GB+ 或多卡并行）

内存

未说明

依赖

notes1. torch 版本必须与本地 CUDA 版本严格对应，否则会导致 BMTrain 安装失败。 2. 建议使用 Anaconda 管理环境。 3. 该模型为基座模型，鼓励用户在特定场景数据上进行适配、微调或对齐后使用。 4. 预训练数据需转换为特定的二进制格式及 JSON 结构（包含<ans>、<mask_xx>等标签），且文本中的'<'字符需转义为'<<'。

python>=3.7

torch>=1.10,<2.0.0

BMTrain

快速开始

CPM-Bee

百亿参数的开源中英文双语基座大模型

模型 • OpenBMB体系 • 性能表现 • 开源协议

✨ 模型介绍

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型，也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构（auto-regressive），在超万亿（trillion）高质量语料上进行预训练，拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

👐 开源可商用：OpenBMB始终秉承“让大模型飞入千家万户”的开源精神，CPM-Bee基座模型将完全开源并且可商用，以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守开源许可协议的前提下，自由地在CPM-Bee基座模型上进行创新。
💫 中英双语性能优异：CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比，同时在中英双语上具有亮眼表现，具体可参见评测任务和结果。
📖 超大规模高质量语料：CPM-Bee基座模型在超万亿语料进行训练，是开源社区内经过语料最多的模型之一。同时，我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。
OpenBMB大模型系统生态支持：OpenBMB大模型系统围绕高性能预训练、适配、压缩、推理开发了一系列工具，CPM-Bee基座模型将配套所有的工具脚本，高效支持开发者进行进阶使用。
🔨 对话和工具使用能力：结合OpenBMB在指令微调和工具学习的探索，我们在CPM-Bee基座模型的基础上进行微调，训练出了具有强大对话和工具使用能力的实例模型，API和内测将于近期开放。

Read this in English.

说明：CPM-Bee是一个基座模型，即从零开始通过预训练得来。我们鼓励用户在自己的场景和数据上适配/微调/对齐后再进行使用。例如，WebCPM 以CPM-Bee为基座，在人类网络检索的序列化数据上进行适配，获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。

本仓库主要提供 CPM-Bee 基座模型

📰 更新信息

[2023/06/30] 基于CPM-Bee的多模态系列模型VisCPM发布，支持多模态对话和文生图！
[2023/06/16] CPM-Bee现已支持🤗Transformers。
[2023/06/08] 更新了使用CPM-Bee进行基础任务微调的教程。
[2023/05/27] 百亿参数，允许商用的中英双语基座模型CPM-Bee开源了，它是CPM-Live的第二个里程碑。

🍯 CPM-Bee系列模型

模型	描述
VisCPM	支持多模态对话和图文双向生成的开源中英双语多模态大模型
WebCPM	支持复杂问答和上网检索的开源中文大模型

🚀 安装和使用

您需要克隆该仓库：

$ git clone -b main --single-branch https://github.com/OpenBMB/CPM-Bee.git

并确保您的环境符合要求：

- python>=3.7
- torch>=1.10,<2.0.0

我们建议使用Anaconda管理环境并从PyPI安装其他依赖项：

$ cd src
$ pip install -r requirements.txt

注意torch版本需与CUDA版本对应，不然会引起安装错误，尤其是torch也是通过pip install -r requirements.txt进行安装时，较为容易出现自动拉取安装的torch版本与本地CUDA版本不对应，导致BMTrain无法安装。

模型

10B模型下载链接（如果要使用🤗Transformers运行模型，请参考这里）。

数据格式

不同于已有基座模型采用非结构化的自由文本形式组织数据，CPM-Bee采用结构化的json格式来组织数据。对于结构化数据，CPM-Bee的基座模型可以准确地进行语义理解，高效完成各类基础任务，包括：填空、文本生成、翻译、问答、评分预测、文本选择题等等，下面给出一些代表性任务的模板：

  "填空":{
    "input": "心理学领域的研究人员发现，做出重要决定的最好方法之一，比如选择一所大学或<mask_0>，都涉及到使用决策工作表。研究优化的心理学家将<mask_1>与理论理想决策进行比较，看看它们有多相似。工作表程序的支持者认为它会产生最优的，也就是说，最好的决策。虽然有<mask_2>可以接受，但它们在本质上都是相似的。",
    "<ans>":{
      "<mask_0>":"",
      "<mask_1>":"",
      "<mask_2>":""
    }
  }

  "文本生成": {
    "input": "今天天气很好，我和妈妈一起去公园，", 
    "prompt": "往后写约100字", 
    "<ans>": ""
  }

  "翻译": {
    "input": "北京是中国的首都", 
    "prompt": "中翻英", 
    "<ans>": ""
  }

  "问答": {
    "input": "NGC 6231是一个位于天蝎座的疏散星团，天球座标为赤经16时54分，赤纬-41度48分，视觉观测大小约45角分，亮度约2.6视星等，距地球5900光年。NGC 6231年龄约为三百二十万年，是一个非常年轻的星团，星团内的最亮星是5等的天蝎座 ζ1星。用双筒望远镜或小型望远镜就能看到个别的行星。NGC 6231在1654年被意大利天文学家乔瓦尼·巴蒂斯特·霍迪尔纳（Giovanni Battista Hodierna）以Luminosae的名字首次纪录在星表中，但是未见记载于夏尔·梅西耶的天体列表和威廉·赫歇尔的深空天体目录。这个天体在1678年被爱德蒙·哈雷（I.7）、1745年被夏西亚科斯（Jean-Phillippe Loys de Cheseaux）（9）、1751年被尼可拉·路易·拉卡伊（II.13）分别再次独立发现。", 
    "question": "NGC 6231的经纬度是多少？", 
    "<ans>": ""
  }

  "评分预测": {
    "input":"之前多次聚餐都选择这里，有各种大小的包房同时能容纳很多人，环境好有特色还有表演，整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊，口感真的不如从前，不过其他菜品都还是不错，烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。",
    "question":"评分是多少？(1-5)",
    "<ans>":""
  }

  "选择题": {
    "input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人，父母首先得从自己做起，要是连自己都做不到，又怎能要求孩子做到呢？", 
    "options": {
      "<option_0>": "少提要求", 
      "<option_1>": "降低标准",
      "<option_2>": "自己先做好",
      "<option_3>": "让孩子拿主意"
    }, 
    "question": "教育孩子时，父母应该：", 
    "<ans>": ""
  }

注意在模型推理时可采用上述模板，在模型训练时需在中""处填上标准答案，如：

  {
    "input": "北京是中国的首都", 
    "prompt": "中翻英", 
    "<ans>": "Beijing is the capital of China"
  }


  {
    "input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人，父母首先得从自己做起，要是连自己都做不到，又怎能要求孩子做到呢？", 
    "options": {
      "<option_0>": "少提要求", 
      "<option_1>": "降低标准",
      "<option_2>": "自己先做好",
      "<option_3>": "让孩子拿主意"
    }, 
    "question": "教育孩子时，父母应该：", 
    "<ans>": "<option_2>"
  }

CPM-Bee在预训练阶段注入了一些json格式，可以直接使用，也支持用户自己设计json格式然后微调模型。所有的json格式需要满足下列条件：
- 输出内容必须使用作为键值来组织；
- 选择题的选项建议使用来组织，且xx为数字；
- 填空题的空白建议使用来组织，且xx为数字；
- 因为"<"在CPM-Bee中会作为识别、、的触发符，所以在数据中文中必须将"<"转化为"<<"进行转义，例如在下面的例子中"1 < 2"、"10 < 8"被转写为"1 << 2"、"10 << 8"：

  {
    "question": "下面哪项是正确的", 
    "options": {
      "<option_0>": "1 << 2", 
      "<option_1>": "10 << 8",
    }, 
    "<ans>": "<option_0>"
  }

模型预训练

数据清洗

需要将每个样本放置为一行，换行进行转义变为\n，格式可为txt也可为json，例如：

txt格式

    ...
    ...
    How can cross training benefit groups like runners, swimmers, or weightlifters?\n\n1. Reduces the risk of injury...\n\n2. Improves overall fitness...
    Are there any particular physical benefits to mindful walking, such as improved posture or increased physical fitness?\n\n1. Choose a quiet and peaceful environment...\n\n2. Start by tuning into your breath and becoming aware of your surroundings...
    ... 
    ...

json格式

    ...
    ...
    {"template": "Does the answer correctly answer the question", "sentence": "Unicode has the explicit aim of transcending ...", "question": "What is the aim of Unicode?", "options": {"<option_0>": "no", "<option_1>": "yes"}, "<ans>": "<option_1>"}
    ... 
    ...

案例：我们提供了wiki(txt格式，纯文本)和flan(json格式，选择题)的样例，可以下载后按下列文件路径中的raw_data进行文件组织，完成后续步骤的尝试。

  CPMBee/
  ├── src
  |   └── ...
  └── raw_data（原始数据位置）
      ├── wiki
      |   └── raw.txt（txt原始数据）
      └── flan
          └── raw.json（json原始数据）

数据集生成
- CPMBee为了高效读取数据以及在分布式文件系统上进行数据集部署，需要将其转化成二进制文件，具体调用src下的build_dataset.py，具体参数包括：
  - --input-path: 导入的原始数据路径，程序会将路径下的文件统一打包进行处理
  - --output-path: 导出的数据集路径
  - --output-name: 导出的数据集名称
  - --data-type: txt/json
  - --min-length: 小于最小长度的数据将被抛弃
  - --max-length: 超过最大长度的数据将被切分
  - txt格式的原始数据将按照min-length和max-length进行切分，然后统一以{'text':'......'}的json格式导出到数据集
- 导出的数据集将有两个文件，一个名为output-name的二进制文件，一个meta.bin文件，meta.bin文件中记录了output-name的元信息，包括：
  - "file_name": meta.bin对应的文件名，一般就是output-name
  - "block_begin": 数据集按块分布存储，数据集所在的开始块，一般是0
  - "block_end": 数据集按块分布存储，数据集所在的结束块，一般是总块数
  - "nbytes": 60221163, 总的数据集大小
  - "nlines": 41733, 总的数据集行数
  - "block_size": 16777216，数据集每块大小
- 案例：我们将样例给定的wiki和flan生成为数据集：
- ```
  $ cd CPMBee/src
  $ python build_dataset.py --input-path ../raw_data/wiki/  --output-path ../datasets/wiki/ --output-name wiki --data-type txt --min-length 100 --max-length 10000
  $ python build_dataset.py --input-path ../raw_data/flan/  --output-path ../datasets/flan/ --output-name flan --data-type json
```
  - 生成之后的文件结构为：
```
CPMBee/
├── src
|   ├── ...
|   └── build_dataset.py
├── raw_data
|   ├── wiki
|   |   └── raw.txt
|   └── flan
|       └── raw.json
└── datasets（生成的数据集）
    ├── wiki（wiki对应的数据集）
    |   └── data
    |       ├── wiki
    |       └── meta.bin
    └── flan（flan对应的数据集）
        └── data
            ├── flan
            └── meta.bin
```

任务转换脚本

对于每个数据集，可以撰写任务转换脚本来对数据集中的json格式进行改写，改写成各类预训练任务。
脚本格式需满足以下格式：
```
    import random
    
    def transform(data, num_sample: int, r: random.Random):
        ...
```
- 对于每个数据集，CPMBee的底层文件系统将会自动导入数据集，读出数据，然后调用任务转换脚本进行改造。
- 转换脚本包含三个输入参数，data为读出样本，num_sample为读出的样本数量（通常为1条，in-context learning设定下会有多条），r为随机生成器。

案例：针对wiki和flan写转换脚本：

wiki脚本

import random

def rand(n: int, r: random.Random):
    return int(r.random() * n)

def transform(data, num_sample: int, r: random.Random):
    # 按照之前的步骤，wiki中的数据都为{'text':'...'}形式
    text = data['text']
    # 随机遮蔽50%~100%的内容进行预测
    mid = rand(len(text) // 2, r)
    # CPMBee需要<来识别特殊键，所以需要将内容中的<转换为<<进行转义
    ipt = text[:mid].replace("<", "<<")
    ans = text[mid:].replace("<", "<<")
    return {"input": ipt,
            "<ans>": ans}

flan脚本

import random

def transform(data, num_sample: int, r: random.Random):
    # 按照之前的步骤，flan中的数据已经是选择题的json格式了，且包含<ans>键，所以直接返回进行训练
    return data

写完任务转换脚本后的文件结构为：

CPMBee/
├── src
|   ├── ...
|   └── build_dataset.py
├── raw_data
|   ├── wiki
|   |   └── raw.txt
|   |
|   └── flan
|       └── raw.json
└── datasets
    ├── wiki
    |   ├── data
    |   |   ├── wiki
    |   |   └── meta.bin
    |   └── transform.py（wiki对应的任务转换脚本）
    └── flan
        ├── data
        |   ├── flan
        |   └── meta.bin
        └── transform.py（flan对应的任务转换脚本）

数据集脚本

所有参与训练的数据集需要一个数据集脚本来进行信息汇总，数据集脚本也是一个json文件，格式如下

  [
      {
          "dataset_name": "wiki",
          "task_name": "lm",
          "weight": 1.0,
          "path": "wiki/data",
          "incontext_weight": [1.0],
          "transforms": "wiki/transform.py"
      },
      {
          "dataset_name": "flan",
          "task_name": "nlu",
          "weight": 1.0,
          "path": "flan/data",
          "incontext_weight": [1.0],
          "transforms": "flan/transform.py"
      }
  ]

其中，包含参数有：
- dataset_name: 数据集名称；
- task_name: 数据集所属任务，task_name+dataset_name将作为训练过程中识别数据集的标签，task_name则可用于训练过程中针对任务分别汇总loss信息；
- weight: 采样权重；
- path: meta.bin、二进制数据对应的路径；
- transforms: 任务转换脚本对应的路径；
- incontext_weight: 训练样本叠加，[1.0]表示100%的概率采样一个样本，[0.8, 0.2]表示20%概率采样两个样本进行拼接，[0.75, 0.1, 0.15]表示15%概率采样三个样本、10%的概率采样两个样本进行拼接。
案例：写完数据集脚本汇总wiki和flan数据集后的文件路径结构

CPMBee/
├── src
|   ├── ...
|   └── build_dataset.py
├── raw_data
|   ├── wiki
|   |   └── raw.txt
|   └── flan
|       └── raw.json
└── datasets
    ├── datasets.json（数据集脚本）
    ├── wiki
    |   ├── data
    |   |   ├── wiki
    |   |   └── meta.bin
    |   └── transform.py
    └── flan
        ├── data
        |   ├── flan
        |   └── meta.bin
        └── transform.py

预训练脚本

预训练脚本如下

  #! /bin/bash
  # 每台机器的卡数
  GPUS_PER_NODE=8
  # 机器台数
  NNODES=1
  # master机器的IP和端口，更多信息可以参考pytorch分布式训练文档
  MASTER_ADDR="localhost"
  MASTER_PORT=12345
  
  OPTS=""
  # model and dataset settings
  # 模型配置
  OPTS+=" --model-config config/cpm-bee-10b.json"
  # 步骤4数据集脚本位置
  OPTS+=" --dataset ../datasets/datasets.json"
  # training settings
  # 训练步数
  OPTS+=" --train-iters 200000"
  # 单卡的batch size
  OPTS+=" --batch-size 2"
  # 样本最大长度，注意CPMBee底层会拼接数据确保max-length的利用效率
  OPTS+=" --max-length 2048"
  # 学习率，如果接着之前的ckpt继续训练，建议改小
  OPTS+=" --lr 0.01"
  # warmup步数
  OPTS+=" --warmup-iters 2000"
  # 学习率下降的机制
  OPTS+=" --lr-decay-style noam"
  # weight decay，这个会结合到AdamW中
  OPTS+=" --weight-decay 0.01"
  # 梯度裁剪的范围
  OPTS+=" --clip-grad 1.0"
  # 混合精度loss加倍系数
  OPTS+=" --loss-scale 1048576"
  # 混合精度loss加倍系数的增长/降低倍数
  OPTS+=" --loss-scale-factor 2"
  # 每隔多少步loss加倍系数进行增长
  OPTS+=" --loss-scale-steps 128"
  # log settings
  # 每隔多少步打印参数均值方差、梯度均值方差
  OPTS+=" --inspect-iters 100"
  # log文件输出路径
  OPTS+=" --log-dir ../logs/train/"
  # tensorboard文件输出路径
  OPTS+=" --tensorboard ../logs/tensorboard/cpm_live_48_4096/"
  # saving ckpts
  # 每隔多少步输出ckpt
  OPTS+=" --save-iters 500"
  # 输出ckpt的路径
  OPTS+=" --save ../results/"
  # 输出ckpt的名称，CPMBee在输出ckpt时会打印步数
  OPTS+=" --save-name cpm_live_checkpoint"
  # loading ckpts，如果加载老的ckpt就把下列注释打开，然后填写MODEL_STEPS
  # MODEL_STEPS="0"
  # OPTS+=" --start-step ${MODEL_STEPS}"
  # OPTS+=" --load ../results/cpm_live_checkpoint-${MODEL_STEPS}.pt"
  # 是否加载历史梯度
  # OPTS+=" --load-grad "
  
  CMD="torchrun --nnodes=${NNODES} --nproc_per_node=${GPUS_PER_NODE} --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} pretrain_cpm_bee.py ${OPTS}"
  
  echo ${CMD}
  $CMD

案例：写完预训练脚本后的文件路径结构

  CPMBee/
  ├── src
  |   ├── scripts
  |   |      └── pretrain_cpm_bee.sh（预训练脚本）
  |   ├── pretrain_cpm_bee.py
  |   └── build_dataset.py
  ├── raw_data
  |   ├── wiki
  |   |   └── raw.txt
  |   └── flan
  |       └── raw.json
  └── datasets
      ├── datasets.json
      ├── wiki
      |   ├── data
      |   |   ├── wiki
      |   |   └── meta.bin
      |   └── transform.py
      └── flan
          ├── data
          |   ├── flan
          |   └── meta.bin
          └── transform.py

预训练命令

  cd CPMBee/src
  bash scripts/pretrain_cpm_bee.sh

案例：写完预训练脚本后的文件路径结构

  CPMBee/
  ├── src
  |   ├── scripts
  |   |      └── pretrain_cpm_bee.sh
  |   ├── pretrain_cpm_bee.py
  |   └── build_dataset.py
  ├── results（ckpt输出路径）
  ├── logs（log文件输出路径）                
  ├── raw_data
  |   ├── wiki
  |   |   └── raw.txt
  |   └── flan
  |       └── raw.json
  └── datasets
      ├── datasets.json
      ├── wiki
      |   ├── data
      |   |   ├── wiki
      |   |   └── meta.bin
      |   └── transform.py
      └── flan
          ├── data
          |   ├── flan
          |   └── meta.bin
          └── transform.py

OpenBMB 衍生功能

基于OpenBMB的大模型系统生态，我们在训练CPM-Bee的过程中实现了全流程高效。同时提供了模型微调（基于BMTrain和OpenDelta）、工具使用（基于BMTools）、模型压缩（基于BMCook）、低资源推理（基于BMInf）的全套脚本，可以协助开发者快速上手和使用CPM-Bee。

模型微调

基于BMTrain和OpenDelta，我们给出了两种微调方案：全参数微调和参数高效的增量微调，可以将CPM-Bee适配到各类下游场景中。

全参数微调：

$ torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py

增量微调：

$ torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py \
--use-delta \

微调流程

要在特定任务上微调模型，您应该准备数据集并按如下方式执行：

调整数据格式。您可以将分类问题集成到选择题的格式中。有关数据格式的更多信息，您可以查看CPM-Bee数据格式
应当注意，由于我们选定<...>作为特殊token的标记，可能与文本中的<混淆，所以您应当对文本数据中的非特殊token的部分，做转义处理。例如，我们有如下数据
```
{"input": "团队配合非常重要，如果不能做到<mask_0>，则可能会造成1+1<2的结果，所以，要更加注意<mask_1>", "<ans>": {"<mask_0>": "", "<mask_1>": ""}}
```

该数据中，<mask_0>与<mask_1>是特殊token，应保持不变，其余<均替换为<<，转义处理后的数据如下:

{"input": "团队配合非常重要，如果不能做到<mask_0>，则可能会造成1+1<<2的结果，所以，要更加注意<mask_1>", "<ans>": {"<mask_0>": "", "<mask_1>": ""}}

将数据集预处理为二进制文件。要构建预处理数据集，您可以运行

$ python preprocess_dataset.py --input your/reformated/data/path --output_path your/binary/data/path --output_name data_name

预处理后，您将获得：

|-- your/binary/data/path
    |-- folder1
    |    |-- data_name
    |    |-- meta.bin
    |-- folder2
         |-- data_name
         |-- meta.bin

微调CPM-Bee 要开始微调，您可以运行：

$ bash scripts/finetune_cpm_bee.sh

或者您可以直接通过torchrun运行finetune_cpm_bee.py。例如，您可以在具有4块GPU的服务器上对CPM-Bee进行增量微调，如下所示：

torchrun --nnodes=1 --nproc_per_node=4 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:12345 finetune_cpm_bee.py \
--model-config your/model/config/path \
--load your/model/checkpoint/path \
--dataset your/binary/data/path/folder1 \
--eval_dataset your/binary/data/path/folder2 \
--use-delta

我们建议您使用上述方案微调，同时您可以参考🤗Transformers，使用您自己的并行化策略来微调CPM-Bee。

模型压缩

基于BMCook，我们对原始的CPM-Bee基座模型进行压缩，提供了多种大小的CPM-Bee模型来适应各种不同的场景。此外，我们针对不同大小的模型都提供了基于🤗Transformers的版本，您可以点击下方链接进入模型仓库查看更多信息。

模型	#Attn层	#FFN层	Attn隐状态维度	FFN隐状态维度	下载	🤗Transformers
CPM-Bee-10B	48	48	4096	10240	链接	链接
CPM-Bee-5B	19	24	4096	10240	链接	链接
CPM-Bee-2B	19	24	2048	5120	链接	链接
CPM-Bee-1B	19	24	1280	1024	链接	链接

模型部署

对于压缩后的CPM-Bee，普通的消费级显卡即可完成快速推理，不同大小的模型所占用的推理资源如下：

模型	推理显存占用	推荐硬件
CPM-Bee-10B	20GB	RTX 3090（24 GB）
CPM-Bee-5B	11 GB	RTX 3090（24 GB）
CPM-Bee-2B	6.7 GB	GTX 1080（8 GB）
CPM-Bee-1B	4.1 GB	GTX 1660（6 GB）

使用本仓库

对于具体的推理任务，您可以根据克隆下来的CPM-Bee仓库编写自己的推理代码。这里我们举一个简单的文本生成示例。

from cpm_live.generation.bee import CPMBeeBeamSearch
from cpm_live.models import CPMBeeTorch, CPMBeeConfig
from cpm_live.tokenizers import CPMBeeTokenizer
import torch

# prepare your input data.
data_list = [
    {"input": "今天天气是真的", "prompt": "往后写一句话", "<ans>": ""}
]

# load model
config = CPMBeeConfig.from_json_file("cpm-bee-5b.json")
ckpt_path = "cpm-bee-5b-ckpt.pt"
tokenizer = CPMBeeTokenizer()
model = CPMBeeTorch(config=config)

# load checkpoints
model.load_state_dict(torch.load(ckpt_path), strict=False)
model.cuda()

# use beam search
beam_search = CPMBeeBeamSearch(
    model=model,
    tokenizer=tokenizer,
)
for data in data_list:
    inference_results = beam_search.generate([data], max_length=100, repetition_penalty=1.1)
    for res in inference_results:
        print(res)

我们还将上面的代码集成到一个python文件text_generation.py中，为了便于推理，可以直接运行该文件：

python text_generation.py

如果您的显存较小，想使用BMInf进行低资源推理:

python text_generation.py --use-bminf --memory-limit 12

如果希望使用CPU进行推理：

python text_generation.py --device cpu

如果希望在推理时加载微调后的delta模型:

python text_generation.py --delta delta.pt

使用🤗Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("openbmb/cpm-bee-10b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("openbmb/cpm-bee-10b", trust_remote_code=True).cuda()
result = model.generate({"input": "今天天气不错，", "<ans>": ""}, tokenizer)
print(result)

我们提供了一个基于🤗Transformers的推理脚本text_generation_hf.py，您可以运行

python text_generation_hf.py

多卡部署：

python text_generation_hf.py --multi-gpu

多卡部署的基础上，加载微调后的delta模型:

python text_generation_hf.py --multi-gpu --delta delta.pt

💫 性能表现

零样本评测

我们对CPM-Bee基座模型进行了全方位的中英文能力评测。在中文的Zero-CLUE评测基准上，CPM-Bee可以大幅超越其他模型，位列中文大模型第一。在英文评测基准上，CPM-Bee也展现出了和开源模型LLaMA相当的效果。

ZeroCLUE中文评测

模型	Score	EPRSTMT	CSLDCP	TNEWSF	IFLYTEKF	OCNLIF	BUSTM	CHIDF	CSLF	CLUEWSCF
CPM-Bee	78.184	85.52	58.99	78.2	58.81	77.73	83.85	89.65	83.6	87.24
Ctyun_Big_Model	76.217	87.25	48.02	77.13	59.62	75.5	90.05	84.6	82.9	81.72
PaddleNLP-UTC	70.547	85.92	58.92	68.27	40.15	74.79	76.7	82.75	70.6	74.48
二郎神-UnifiedMC	70.295	88.71	50.18	71.67	40.58	75.5	80.15	84.85	60.6	81.72

英文评测

模型	Average	BoolQ	PIQA	SIQA	HellaSwag	WinoGrande	ARC-e	ARC-c	OBQA
GPT-3		60.5	81	-	78.9	70.2	68.8	51.4	57.6
Gopher		79.3	81.8	50.6	79.2	70.1	-	-	-
Chinchilla		83.7	81.8	51.3	80.8	74.9	-	-	-
PaLM		84.8	80.5	-	79.7	77	75.2	52.5	50.4
LLaMA-7B	66.13	76.5	79.8	48.9	76.1	70.1	72.8	47.6	57.2
LLaMA-13B	68.08	78.1	80.1	50.4	79.2	73	74.8	52.7	56.4
CPM-Bee	67.80	78.69	77.58	61.11	78.89	61.88	66.88	54.18	63.20

CPM-Bee + 解码器调优

通过使用由OpenBMB和THUNLP联合自研的Decoder Tuning（即将发表于ACL 2023）技术，仅需借助API即可在不访问或修改模型参数的情况下显著提升下游任务的性能。实现代码链接。

样本数	模型	SST2	IMDB	Yelp	AGNews	DBpedia	Yahoo	RTE	SNLI	MNLI-m	MNLI-mm	FewNERD	Avg.
0	CPM-Bee	80.5	89.1	96.6	74.6	71.3	46.7	84.1	45.4	45.6	45.6	1.6	61.9
16	T5-3B	89.9	92.7	94.9	87.7	96.2	66.5	55.8	52.0	52.8	52.2	51.9	72.1
	LLaMA-7B	85.1	90.5	92.8	71.4	89.8	45.1	49.1	35.2	36.3	36.2	54.6	62.4
	Vicuna-13B	82.1	88.8	95.6	86.4	74.4	55.3	62.5	61.4	54.3	48.6	52.1	69.2
	CPM-Bee	92.7	96.2	97.5	85.5	89.8	65.2	86.0	86.4	76.3	76.3	54.6	82.4
64	LLaMA-7B	87.5	85.7	96.9	75.4	93.5	47.4	51.4	39.4	36.2	38.4	59.8	64.7
	Vicuna-13B	92.0	90.8	96.5	87.7	87.8	58.7	59.1	58.7	56.7	48.4	56.8	72.1
	CPM-Bee	94.3	96.5	98.3	88.5	93.5	68.7	87.1	88.9	78.0	79.0	59.8	84.8
256	LLaMA-7B	87.6	88.8	97.1	82.4	94.2	48.5	53.4	39.8	37.3	37.4	59.1	66.0
	Vicuna-13B	93.1	88.7	96.8	89.9	89.1	58.6	58.5	58.7	57.5	48.3	56.6	72.3
	CPM-Bee	94.5	96.7	98.4	89.7	94.2	69.9	87.7	89.4	81.7	80.6	59.1	85.6

📃开源协议

模型协议

CPM-Bee基座采用协议为“通用模型许可协议-来源说明-宣传限制-商业授权”，本模型允许商用，如需将模型用于商业用途，请联系cpm@modelbest.cn来获取书面授权。

声明

作为一个语言模型，CPM-Bee通过学习大量的文本来生成内容，但它无法理解、表达个人观点或价值判断，它所输出的任何内容都不代表模型开发者的观点和立场。因此用户在使用CPM-Bee生成的内容时，应自行负责对其进行评估和验证。

CPM-Bee 快速上手指南

CPM-Bee 是一个完全开源、允许商用的百亿参数中英文双语基座大模型。本指南将帮助您快速完成环境搭建并运行模型。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐)
Python: >= 3.7
PyTorch: >= 1.10, < 2.0.0
CUDA: 需安装与 PyTorch 版本匹配的 CUDA 驱动（重要：版本不匹配会导致 BMTrain 安装失败）
管理工具: 推荐使用 Anaconda 或 Miniconda 管理虚拟环境

2. 安装步骤

2.1 克隆代码仓库

git clone -b main --single-branch https://github.com/OpenBMB/CPM-Bee.git
cd CPM-Bee/src

2.2 创建并激活虚拟环境

建议使用 Conda 创建独立环境：

conda create -n cpmbee python=3.8
conda activate cpmbee

2.3 安装依赖

注意：由于 requirements.txt 自动拉取的 torch 版本可能与本地 CUDA 不兼容，建议先手动安装匹配版本的 torch，再安装其他依赖。

手动安装 PyTorch (请根据实际 CUDA 版本选择，以下为示例):

# 示例：安装 CUDA 11.3 版本的 torch (需 < 2.0.0)
pip install torch==1.13.1+cu113 torchvision==0.14.1+cu113 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu113

安装项目其余依赖:
```
pip install -r requirements.txt
```

3. 基本使用

CPM-Bee 支持通过 🤗 Transformers 库直接加载和推理。

3.1 下载模型

您可以从 Hugging Face 或官方链接下载 10B 模型：

Hugging Face: openbmb/cpm-bee-10b
官方直链: cpm-bee-10b.zip

3.2 代码示例 (基于 Transformers)

确保已安装 transformers 库 (pip install transformers)，然后使用以下代码进行推理：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载分词器和模型
model_name = "openbmb/cpm-bee-10b" # 或者本地路径 "./cpm-bee-10b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

# 准备输入 (CPM-Bee 推荐使用结构化 JSON 格式或纯文本)
# 示例：简单的文本续写
input_text = "今天天气很好，我和妈妈一起去公园，"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

# 生成回答
outputs = model.generate(
    inputs.input_ids, 
    max_new_tokens=50, 
    do_sample=True, 
    temperature=0.7
)

# 解码输出
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

3.3 数据格式说明

CPM-Bee 在预训练时大量使用了结构化 JSON 数据。在进行微调或构建特定任务 Prompt 时，建议遵循以下格式规范以获得最佳效果：

答案键: 必须使用 <ans> 作为答案的键。
特殊符号转义: 原文中的 < 必须转义为 <<，以免被误识别为特殊标记。

示例 (翻译任务):

{
  "input": "北京是中国的首都", 
  "prompt": "中翻英", 
  "<ans>": "Beijing is the capital of China"
}

提示: CPM-Bee 是基座模型，针对具体应用场景（如对话、问答），建议在基座模型基础上使用您的领域数据进行微调（Fine-tuning）或指令对齐。

常见问题

如何在 CPU 环境下部署和推理 CPM-Bee 模型？

增量微调（LoRA）后推理出现乱码或效果不明显怎么办？

CPM-Bee 预训练数据的正确 JSON 格式是什么？

如何准备多任务微调的数据集格式？

微调过程中遇到 Signal 9 (SIGKILL) 错误是什么原因？

如何进行全参数训练而不是增量微调？

text_generation.py 与 text_generation_hf.py 输出结果不一致如何解决？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架