CPM-1-Generate

1.6k 211 较难 1 次阅读 6天前MIT语言模型

AI 解读由 AI 自动生成，仅供参考

CPM-1-Generate 是一个面向中文自然语言处理研究的开源项目，核心提供了参数量达 26 亿的 CPM-LM 预训练模型及其文本生成代码。它旨在解决中文领域大规模语言模型资源匮乏的问题，支持开发者在本地进行文本生成测试，并深入探索零次学习（Zero-shot）和少次学习等前沿场景。

该项目特别适合 AI 研究人员、算法工程师及希望深入理解大模型机制的开发者使用。其技术亮点在于基于 Megatron-LM 架构改造，模型结构与 GPT-2 一致但专为中文优化；支持模型并行策略，允许用户根据显存资源动态调整并行度（如单卡或双卡运行）；同时官方推荐搭配高效推理工具 BMInf，使得在 GTX 1060 及以上消费级显卡上也能流畅运行。此外，项目还内置了针对 OCNLI、TNEWS 等经典中文任务的零次学习评测脚本，并提供了 Docker 镜像以简化复杂的环境配置流程，极大地降低了大模型的研究与实验门槛。

使用场景

某电商初创公司的技术团队急需构建一个能理解中文语境、自动生成高质量商品评论回复的客服系统，以应对大促期间激增的用户互动。

没有 CPM-1-Generate 时

语言适配困难：直接套用国外开源模型（如 GPT-2），生成的中文语句生硬、逻辑不通，难以处理中文特有的成语和网络用语。
资源门槛过高：当时缺乏针对中文优化的大模型，若要训练同等效果的模型，需要耗费数月时间收集海量语料并投入巨额算力成本。
冷启动无解：面对新出现的商品品类或突发舆情，由于缺乏标注数据，传统监督学习模型无法进行零样本（Zero-shot）推理，导致系统暂时瘫痪。
部署环境复杂：自行搭建大规模语言模型推理环境极易遇到依赖冲突，尤其是混合精度训练（FP16）和分布式显存管理，调试周期长达数周。

使用 CPM-1-Generate 后

原生中文理解：直接调用预训练的 26 亿参数中文模型，生成的回复语气自然、用词精准，完美契合本土用户的阅读习惯。
开箱即用：团队通过官方提供的 Docker 镜像快速搭建环境，利用现成的脚本即可在双卡 GPU 上启动服务，将开发周期从数月缩短至几天。
灵活少样本学习：借助其强大的零次/少次学习能力，仅需提供少量示例提示（Prompt），系统即可立即学会处理从未见过的商品类别回复，无需重新训练。
推理效率优化：结合推荐的 BMInf 工具，成功在单张消费级显卡（如 GTX 1060 以上）上实现高效推理，大幅降低了服务器硬件采购成本。

CPM-1-Generate 让中小团队也能以极低的成本和门槛，拥有具备原生中文认知能力的生成式 AI 应用，彻底打破了大模型落地的资源壁垒。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
官方推荐高效推理工具 BMInf 支持 GTX 1060 及以上显卡单卡推理
原生脚本运行需 2 块 GPU，每卡显存占用约 7GB（建议 8GB+）
需安装支持 CUDA 的 APEX 扩展

内存

未说明

依赖

notes1. 官方强烈建议使用 BMInf 进行推理以降低硬件门槛（支持 1060 以上单卡）。2. 原生代码基于 Megatron-LM 修改，默认模型并行度为 2，需双卡运行；可通过 change_mp.py 调整并行度以适应不同显存配置。3. 提供了 Docker 镜像 (dmye/cpm:v0) 以解决 APEX 安装困难问题。4. 模型文件需按特定目录结构放置并校验 SHA1/MD5。5. Tokenization 过程中会对空格和换行符进行特殊字符替换处理。

python未说明

pytorch

nvidia-apex (with CUDA/C++ extensions)

Megatron-LM (modified)

快速开始

CPM-Generate

为了促进中文自然语言处理研究的发展，本项目提供了 CPM-LM (2.6B) 模型的文本生成代码，可用于文本生成的本地测试，并以此为基础进一步研究零次学习/少次学习等场景。[模型下载] [技术报告]

若您想使用CPM-1进行推理，我们建议使用高效推理工具BMInf，支持1060以上显卡单卡推理。

安装

首先安装pytorch等基础依赖，再安装APEX以支持fp16：

pip install -r requirements.txt
git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

考虑apex的安装容易发生问题，我们构建了对应的Docker容器，可以进行快速环境搭建。安装方式如下：

docker pull dmye/cpm:v0

参考运行指令如下：

sudo docker run --gpus '"device=0,1"' -it -v <path>:/CPM  --name=cpm  cpm:v0

其中<path>为代码所在目录，-v进行文件目录挂载

注：感谢qhduan同学提供了基于TensorFlow的使用代码，用作Pytorch之外的备选。

模型

模型下载后文件夹的目录结构需设置如下：

.
├── 80000
│   ├── mp_rank_00_model_states.pt
│   └── mp_rank_01_model_states.pt
└── latest_checkpointed_iteration.txt

为保证下载文件的正确性，文件的checksum如下：

SHA1
71d6b6ad4f47b46724eb82c05da8fb9175e62a7d  80000/mp_rank_00_model_states.pt
42aa247a262e2011fa5e276f1a8389fad6d80edc  80000/mp_rank_01_model_states.pt
MD5
f3f6d2f7d84c6a45290a31dabf79ddac  80000/mp_rank_00_model_states.pt
b0e960be4b5226e759ae6fc5246f9160  80000/mp_rank_01_model_states.pt

使用

提供了命令行交互式生成：

bash scripts/generate_text.sh /path/to/CPM

如不使用交互式输入，可增加第二个参数，告知输入文本的位置

bash scripts/generate_text.sh /path/to/CPM example.txt

运行该脚本需要两块GPU，每张卡的GPU内存占用约为7GB。该项目主要基于 Megatron-LM 进行修改。模型的主体架构与GPT-2一致。

默认的模型并行参数为2，如果需要修改，可以使用change_mp.py，并调整generate_text.sh中的MPSIZE。change_mp.py的使用示例如下：

python change_mp.py /path/to/CPM MPSIZE

这里的/path/to/CPM为模型路径，MPSIZE为一个整数，可以为1或者2的倍数，结果会生成一个新的模型，存储路径为/path/to/CPM_MPSIZE。

Tokenization

Tokenization实现主要在data_util/tokenization_gpt2.py，先对于文本进行分词，再使用 SentencePiece 得到 BPE 的结果。由于 SentencePiece 不能有效编码空格和换行符，在 BPE 之前，我们将文本中的空格和换行符替换为\u2582和\u2583。生成文本的时候也会对应的把生成的\u2582和\u2583替换回空格和换行符。

对应问题已解决。

分类任务零次学习（Zero-shot Learning）

提供了三个任务的零次学习任务脚本以供参考，包括OCNLI、TNEWS和IFLYTEK，数据下载链接。脚本使用方法如下：

# OCNLI
bash scripts/zero-shot-ocnli.sh /path/to/CPM /path/to/dataset
# TNEWS
bash scripts/zero-shot-tnews.sh /path/to/CPM /path/to/dataset
# IFLYTEK
bash scripts/zero-shot-iflytek.sh /path/to/CPM /path/to/dataset

如果想要在完整标签数据上进程TNEWS和IFLYTEK评测，需要将加载数据函数（load_iflytek_data和load_tnews_data）中的sampled_labels设置为True。

小规模模型

CPM-Distill 是 2.6B（26亿）参数 CPM-Large 模型蒸馏版本，参数量为 109M
CPM-Generate-distill 是CPM-Distill的第三方实现，支持Pytorch 和Tensorflow

TODO

~~实验环境的docker镜像~~
~~提供各个任务具体的使用模板~~
~~公开技术报告~~
~~模型并行数可动态调整~~
~~Fine-tune代码~~
~~开源实验中使用的小规模模型参数~~

引用

@article{cpm-v1,
  title={CPM: A Large-scale Generative Chinese Pre-trained Language Model},
  author={Zhang, Zhengyan and Han, Xu, and Zhou, Hao, and Ke, Pei, and Gu, Yuxian and Ye, Deming and Qin, Yujia and Su, Yusheng and Ji, Haozhe and Guan, Jian and Qi, Fanchao and Wang, Xiaozhi and Zheng, Yanan and Zeng, Guoyang and Cao, Huanqi and Chen, Shengqi and Li, Daixuan and Sun, Zhenbo and Liu, Zhiyuan and Huang, Minlie and Han, Wentao and Tang, Jie and Li, Juanzi and Sun, Maosong},
  year={2020}
}

CPM-1-Generate 快速上手指南

CPM-1-Generate 提供了 2.6B 参数的中文预训练语言模型（CPM-LM）的文本生成代码，适用于本地测试及零次/少次学习研究。

提示：若仅需进行推理且希望降低显存占用（支持单卡 GTX 1060 及以上），建议优先使用高效推理工具 BMInf。本指南针对原生 PyTorch 版本的部署与使用。

环境准备

操作系统：Linux (推荐 Ubuntu)
硬件要求：
- GPU：至少 2 张 NVIDIA GPU（运行默认脚本需双卡，单卡显存占用约 7GB）。
- 显存：总计建议 14GB 以上。
软件依赖：
- Python 3.x
- PyTorch (需匹配 CUDA 版本)
- NVIDIA APEX (用于支持 fp16 混合精度训练/推理)
- Docker (可选，推荐用于快速搭建环境)

安装步骤

您可以选择通过源码手动安装或使用官方提供的 Docker 镜像。

方案一：使用 Docker（推荐，避免环境配置问题）

拉取镜像：
```
docker pull dmye/cpm:v0
```
启动容器：将本地代码目录挂载到容器中（请将 <path> 替换为您的实际代码路径）：
```
sudo docker run --gpus '"device=0,1"' -it -v <path>:/CPM  --name=cpm  cpm:v0
```

方案二：手动源码安装

安装基础依赖：
```
pip install -r requirements.txt
```

安装 APEX（必须步骤，以支持 fp16）：

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

注：若编译失败，请确保已安装对应 CUDA 版本的 nvcc 编译器。

基本使用

1. 模型下载与校验

从模型下载页获取模型文件。下载完成后，请确保目录结构如下：

.
├── 80000
│   ├── mp_rank_00_model_states.pt
│   └── mp_rank_01_model_states.pt
└── latest_checkpointed_iteration.txt

重要：请务必校验文件完整性，Checksum 如下：

mp_rank_00_model_states.pt: SHA1 71d6b6ad... / MD5 f3f6d2f7...
mp_rank_01_model_states.pt: SHA1 42aa247a... / MD5 b0e960be...

2. 运行文本生成

项目默认需要 2 块 GPU 运行。

交互式生成（命令行输入提示词）：
```
bash scripts/generate_text.sh /path/to/CPM
```
(将 /path/to/CPM 替换为模型文件夹的实际路径)

非交互式生成（从文件读取输入）：

bash scripts/generate_text.sh /path/to/CPM example.txt

3. 调整模型并行度（可选）

默认模型并行参数 (MPSIZE) 为 2。若您拥有更多或更少的 GPU，可调整此参数：

转换模型格式：
```
python change_mp.py /path/to/CPM MPSIZE
```
- MPSIZE：整数，通常为 1 或 2 的倍数。
- 新生成的模型将保存在 /path/to/CPM_MPSIZE。
修改运行脚本：编辑 scripts/generate_text.sh，将 MPSIZE 变量更新为您设置的数值。
运行新配置：使用新的模型路径运行上述生成命令。

常见问题

运行生成脚本时报错 ZeroDivisionError 或提示需要加载数据集怎么办？

微调后的 fp32 精度模型加载成功但无法生成任何内容，原因是什么？

文本分类任务（如 TNEWS、IFLYTEK）的结果与论文中相差很大，如何解决？

运行生成脚本时出现张量尺寸不匹配错误（The size of tensor a must match the size of tensor b），如何修复？

使用非 fp16 精度（fp32）进行生成时报错，如何处理？

模型生成的结果无法复现或与官方演示不一致，是什么原因？

如何将 2 路模型并行的参数转换以便在 4 路模型并行环境下使用？

模型下载链接显示 NoSuchKey 错误或无法下载怎么办？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架