Chinese-BERT-wwm

10.2k 1.4k 非常简单 1 次阅读昨天Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Chinese-BERT-wwm 是由哈工大讯飞联合实验室推出的一系列中文预训练语言模型，旨在提升中文自然语言处理任务的效果。传统的 BERT 模型在预训练时采用 WordPiece 分词，容易将一个完整的中文词语切分成多个子词单元，导致模型难以捕捉完整的词义信息。Chinese-BERT-wwm 引入了“全词掩码”（Whole Word Masking）技术，在生成训练样本时，将属于同一个词的所有字块同时进行掩码，迫使模型基于完整的词汇上下文进行预测，从而更准确地理解中文语义。

该工具有效解决了原生 BERT 在处理中文时因分词碎片化而导致的语义理解偏差问题，显著提升了在文本分类、命名实体识别、阅读理解等下游任务中的表现。项目不仅提供了基础的 BERT-wwm 模型，还发布了基于更大语料训练的扩展版（ext）、RoBERTa 架构变体以及轻量级的 3 层模型，满足不同场景下的性能与效率需求。

Chinese-BERT-wwm 非常适合从事自然语言处理的研究人员、算法工程师及开发者使用。无论是希望复现学术基线、构建行业应用，还是进行模型微调与蒸馏，用户均可通过 Hugging Face Transformers 或 PaddlePaddle 等主流框架快速加载并集成这些模型，高效开展中文 AI 应用的研发工作。

使用场景

某电商公司的算法团队正在构建一个智能评论分析系统，旨在从海量用户反馈中精准提取产品优缺点及情感倾向。

没有 Chinese-BERT-wwm 时

语义割裂严重：传统分词将“充电宝”切分为“充电”和“宝”，导致模型无法理解这是一个完整商品概念，误判为“正在充电的宝贝”。
实体识别准确率低：在处理如“蓝牙耳机”、“智能手机”等复合词时，因字粒度掩码策略，模型难以捕捉词内字的紧密关联，频繁出现识别错误。
微调收敛缓慢：由于预训练阶段未模拟完整的词掩码场景，下游任务需要更多标注数据和更长训练周期才能达到可用效果。
长尾词汇理解差：对于行业特有的新词或专有名词，基于子词的预测往往支离破碎，无法形成统一的语义表示。

使用 Chinese-BERT-wwm 后

完整词义感知：Chinese-BERT-wwm 采用全词掩码技术，强制模型在预训练时学习“充电宝”等整词的上下文关系，彻底消除语义割裂。
实体抽取更精准：模型能准确识别复合实体边界，将“蓝牙耳机”作为一个整体处理，显著提升了产品名称和关键属性的提取准确率。
训练效率大幅提升：得益于更贴合中文特性的预训练策略，下游情感分类任务在少量数据下即可快速收敛，且最终 F1 值提升明显。
新词适应能力强：即使面对未登录词，只要其构成字在词汇表中，全词掩码机制也能帮助模型更好地推断其整体含义。

Chinese-BERT-wwm 通过还原中文“以词为单位”的语言特性，从根本上解决了字粒度模型带来的语义碎片化问题，让机器真正读懂中文语境。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notesREADME 中未明确列出具体的操作系统、GPU 型号、显存大小、内存需求或 Python 版本。模型可通过 Huggingface Transformers 库加载（支持 PyTorch 和 TensorFlow），也可通过 PaddleHub 加载。Base 模型文件大小约 400MB，Large 模型更大。开源版本不包含 MLM 任务权重，如需进行掩码语言模型任务需使用额外数据进行二次预训练。加载 RoBERTa 系列模型时需注意仍应使用 BertTokenizer 和 BertModel，而非 RobertaTokenizer/RobertaModel。

python未说明

transformers

tensorflow (可选)

paddlehub (可选)

快速开始

Chinese-LLaMA-Alpaca-2 v1.0版本已正式发布！

中文说明 | English

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词掩码（Whole Word Masking）技术的中文预训练模型BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3, RBTL3等。

Pre-Training with Whole Word Masking for Chinese BERT
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Published in IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP)

本项目基于谷歌官方BERT：https://github.com/google-research/bert

查看更多哈工大讯飞联合实验室（HFL）发布的资源：https://github.com/ymcui/HFL-Anthology

新闻

2023/3/28 开源了中文LLaMA&Alpaca大模型，可快速在PC上部署体验，查看：https://github.com/ymcui/Chinese-LLaMA-Alpaca

2023/3/9 我们提出了一种图文多模态预训练模型VLE，查看：https://github.com/iflytek/VLE

2022/11/15 我们提出了中文小型预训练模型MiniRBT。查看：https://github.com/iflytek/MiniRBT

2022/10/29 我们提出了一种融合语言学信息的预训练模型LERT。查看：https://github.com/ymcui/LERT

2022/3/30 我们开源了一种新预训练模型PERT。查看：https://github.com/ymcui/PERT

历史新闻

2021/12/17 哈工大讯飞联合实验室推出模型裁剪工具包TextPruner。查看：https://github.com/airaria/TextPruner

2021/10/24 哈工大讯飞联合实验室发布面向少数民族语言的预训练模型CINO。查看：https://github.com/ymcui/Chinese-Minority-PLM

2021/7/21 由哈工大SCIR多位学者撰写的《自然语言处理：基于预训练模型的方法》已出版，欢迎大家选购。

2021/1/27 所有模型已支持TensorFlow 2，请通过transformers库进行调用或下载。https://huggingface.co/hfl

2020/9/15 我们的论文"Revisiting Pre-Trained Models for Chinese Natural Language Processing"被Findings of EMNLP录用为长文。

2020/8/27 哈工大讯飞联合实验室在通用自然语言理解评测GLUE中荣登榜首，查看GLUE榜单，新闻。

2020/3/23 本目录发布的模型已接入飞桨PaddleHub，查看快速加载

2020/3/11 为了更好地了解需求，邀请您填写调查问卷，以便为大家提供更好的资源。

2020/2/26 哈工大讯飞联合实验室发布知识蒸馏工具TextBrewer

2020/1/20 祝大家鼠年大吉，本次发布了RBT3、RBTL3（3层RoBERTa-wwm-ext-base/large），查看小参数量模型

2019/12/19 本目录发布的模型已接入Huggingface-Transformers，查看快速加载

2019/10/14 发布萝卜塔RoBERTa-wwm-ext-large模型，查看中文模型下载

2019/9/10 发布萝卜塔RoBERTa-wwm-ext模型，查看中文模型下载

2019/7/30 提供了在更大通用语料（5.4B词数）上训练的中文BERT-wwm-ext模型，查看中文模型下载

2019/6/20 初始版本，模型已可通过谷歌下载，国内云盘也已上传完毕，查看中文模型下载

内容导引

章节	描述
简介	介绍BERT-wwm基本原理
中文模型下载	提供了BERT-wwm的下载地址
快速加载	介绍了如何使用🤗Transformers、PaddleHub快速加载模型
模型对比	提供了本目录中模型的参数对比
中文基线系统效果	列举了部分中文基线系统效果
小参数量模型	列举了小参数量模型（3层Transformer）的效果
使用建议	提供了若干使用中文预训练模型的建议
英文模型下载	谷歌官方的英文BERT-wwm下载地址
FAQ	常见问题答疑
引用	本目录的技术报告

简介

Whole Word Masking (wwm)，暂翻译为全词Mask或整词Mask，是谷歌在2019年5月31日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。

需要注意的是，这里的mask指的是广义的mask（替换成[MASK]；保持原词汇；随机替换成另外一个词），并非只局限于单词替换成[MASK]标签的情况。更详细的说明及样例请参考：#4

同理，由于谷歌官方发布的BERT-base, Chinese中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词（CWS）。我们将全词Mask的方法应用在了中文中，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具，即对组成同一个词的汉字全部进行Mask。

下述文本展示了全词Mask的生成样例。 注意：为了方便理解，下述例子中只考虑替换成[MASK]标签的情况。

说明	样例
原始文本	使用语言模型来预测下一个词的probability。
分词文本	使用语言模型来预测下一个词的 probability 。
原始Mask输入	使用语言 [MASK] 型来 [MASK] 测下一个词的 pro [MASK] ##lity 。
全词Mask输入	使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。

中文模型下载

本目录中主要包含base模型，故我们不在模型简称中标注base字样。对于其他大小的模型会标注对应的标记（例如large）。

BERT-large模型：24-layer, 1024-hidden, 16-heads, 330M parameters
BERT-base模型：12-layer, 768-hidden, 12-heads, 110M parameters

注意：开源版本不包含MLM任务的权重；如需做MLM任务，请使用额外数据进行二次预训练（和其他下游任务一样）。

模型简称	语料	🤗HF下载	百度网盘下载
`BERT-wwm, Chinese`	中文维基	HF Link	TensorFlow（密码qfh8）
`BERT-wwm-ext, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码wgnt）
`RoBERTa-wwm-ext, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码vybq）
`RoBERTa-wwm-ext-large, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码dqqe）
`RBT3, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码5a57）
`RBT4, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码sjpt）
`RBT6, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码hniy）
`RBTL3, Chinese`	EXT数据^[1]	HF Link	TensorFlow（密码s6cu）

[1] EXT数据包括：中文维基百科，其他百科、新闻、问答等数据，总词数达5.4B。

PyTorch版本

如需PyTorch版本，

1）请自行通过🤗Transformers提供的转换脚本进行转换。

2）或者通过huggingface官网直接下载PyTorch版权重：https://huggingface.co/hfl

下载方法：点击任意需要下载的模型 → 选择"Files and versions"选项卡 → 下载对应的模型文件。

使用说明

中国大陆境内建议使用百度网盘下载点，境外用户建议使用谷歌下载点，base模型文件大小约400M。以TensorFlow版BERT-wwm, Chinese为例，下载完毕后对zip文件进行解压得到：

chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

其中bert_config.json和vocab.txt与谷歌原版BERT-base, Chinese完全一致。 PyTorch版本则包含pytorch_model.bin, bert_config.json, vocab.txt文件。

快速加载

使用Huggingface-Transformers

依托于🤗transformers库，可轻松调用以上模型。

tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

注意：本目录中的所有模型均使用BertTokenizer以及BertModel加载，请勿使用RobertaTokenizer/RobertaModel！

其中MODEL_NAME对应列表如下：

模型名	MODEL_NAME
RoBERTa-wwm-ext-large	hfl/chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	hfl/chinese-roberta-wwm-ext
BERT-wwm-ext	hfl/chinese-bert-wwm-ext
BERT-wwm	hfl/chinese-bert-wwm
RBT3	hfl/rbt3
RBTL3	hfl/rbtl3

使用PaddleHub

依托PaddleHub，只需一行代码即可完成模型下载安装，十余行代码即可完成文本分类、序列标注、阅读理解等任务。

import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

其中MODULE_NAME对应列表如下：

模型名	MODULE_NAME
RoBERTa-wwm-ext-large	chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	chinese-roberta-wwm-ext
BERT-wwm-ext	chinese-bert-wwm-ext
BERT-wwm	chinese-bert-wwm
RBT3	rbt3
RBTL3	rbtl3

模型对比

针对大家比较关心的一些模型细节进行汇总如下。

-	BERT^Google	BERT-wwm	BERT-wwm-ext	RoBERTa-wwm-ext	RoBERTa-wwm-ext-large
Masking	WordPiece	WWM^[1]	WWM	WWM	WWM
Type	base	base	base	base	large
Data Source	wiki	wiki	wiki+ext^[2]	wiki+ext	wiki+ext
Training Tokens #	0.4B	0.4B	5.4B	5.4B	5.4B
Device	TPU Pod v2	TPU v3	TPU v3	TPU v3	TPU Pod v3-32^[3]
Training Steps	?	100K^MAX128 +100K^MAX512	1M^MAX128 +400K^MAX512	1M^MAX512	2M^MAX512
Batch Size	?	2,560 / 384	2,560 / 384	384	512
Optimizer	AdamW	LAMB	LAMB	AdamW	AdamW
Vocabulary	21,128	~BERT^[4]	~BERT	~BERT	~BERT
Init Checkpoint	Random Init	~BERT	~BERT	~BERT	Random Init

[1] WWM = Whole Word Masking
[2] ext = extended data
[3] TPU Pod v3-32 (512G HBM)等价于4个TPU v3 (128G HBM)
[4] ~BERT表示继承谷歌原版中文BERT的属性

中文基线系统效果

为了对比基线效果，我们在以下几个中文数据集上进行了测试，包括句子级和篇章级任务。对于BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large，我们没有进一步调整最佳学习率，而是直接使用了BERT-wwm的最佳学习率。

最佳学习率：

模型	BERT	ERNIE	BERT-wwm*
CMRC 2018	3e-5	8e-5	3e-5
DRCD	3e-5	8e-5	3e-5
CJRC	4e-5	8e-5	4e-5
XNLI	3e-5	5e-5	3e-5
ChnSentiCorp	2e-5	5e-5	2e-5
LCQMC	2e-5	3e-5	2e-5
BQ Corpus	3e-5	5e-5	3e-5
THUCNews	2e-5	5e-5	2e-5

*代表所有wwm系列模型 (BERT-wwm, BERT-wwm-ext, RoBERTa-wwm-ext, RoBERTa-wwm-ext-large)

下面仅列举部分结果，完整结果请查看我们的技术报告。

注意：为了保证结果的可靠性，对于同一模型，我们运行10遍（不同随机种子），汇报模型性能的最大值和平均值（括号内为平均值）。不出意外，你运行的结果应该很大概率落在这个区间内。

评测指标中，括号内表示平均值，括号外表示最大值。

简体中文阅读理解：CMRC 2018

CMRC 2018数据集是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与SQuAD相同。评测指标为：EM / F1

模型	开发集	测试集	挑战集
BERT	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
ERNIE	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
BERT-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
BERT-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
RoBERTa-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
RoBERTa-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

繁体中文阅读理解：DRCD

DRCD数据集由中国台湾台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。 由于ERNIE中去除了繁体中文字符，故不建议在繁体中文数据上使用ERNIE（或转换成简体中文后再处理）。 评测指标为：EM / F1

模型	开发集	测试集
BERT	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
ERNIE	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
BERT-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
BERT-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
RoBERTa-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
RoBERTa-wwm-ext-large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

司法阅读理解：CJRC

CJRC数据集是哈工大讯飞联合实验室发布的面向司法领域的中文机器阅读理解数据。需要注意的是实验中使用的数据并非官方发布的最终数据，结果仅供参考。评测指标为：EM / F1

模型	开发集	测试集
BERT	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
ERNIE	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
BERT-wwm	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
BERT-wwm-ext	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
RoBERTa-wwm-ext	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
RoBERTa-wwm-ext-large	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

自然语言推断：XNLI

在自然语言推断任务中，我们采用了XNLI数据，需要将文本分成三个类别：entailment，neutral，contradictory。评测指标为：Accuracy

模型	开发集	测试集
BERT	77.8 (77.4)	77.8 (77.5)
ERNIE	79.7 (79.4)	78.6 (78.2)
BERT-wwm	79.0 (78.4)	78.2 (78.0)
BERT-wwm-ext	79.4 (78.6)	78.7 (78.3)
RoBERTa-wwm-ext	80.0 (79.2)	78.8 (78.3)
RoBERTa-wwm-ext-large	82.1 (81.3)	81.2 (80.6)

情感分析：ChnSentiCorp

在情感分析任务中，二分类的情感分类数据集ChnSentiCorp。评测指标为：Accuracy

模型	开发集	测试集
BERT	94.7 (94.3)	95.0 (94.7)
ERNIE	95.4 (94.8)	95.4 (95.3)
BERT-wwm	95.1 (94.5)	95.4 (95.0)
BERT-wwm-ext	95.4 (94.6)	95.3 (94.7)
RoBERTa-wwm-ext	95.0 (94.6)	95.6 (94.8)
RoBERTa-wwm-ext-large	95.8 (94.9)	95.8 (94.9)

句对分类：LCQMC, BQ Corpus

以下两个数据集均需要将一个句对进行分类，判断两个句子的语义是否相同（二分类任务）。

LCQMC

LCQMC由哈工大深圳研究生院智能计算研究中心发布。评测指标为：Accuracy

模型	开发集	测试集
BERT	89.4 (88.4)	86.9 (86.4)
ERNIE	89.8 (89.6)	87.2 (87.0)
BERT-wwm	89.4 (89.2)	87.0 (86.8)
BERT-wwm-ext	89.6 (89.2)	87.1 (86.6)
RoBERTa-wwm-ext	89.0 (88.7)	86.4 (86.1)
RoBERTa-wwm-ext-large	90.4 (90.0)	87.0 (86.8)

BQ Corpus

BQ Corpus由哈工大深圳研究生院智能计算研究中心发布，是面向银行领域的数据集。评测指标为：Accuracy

模型	开发集	测试集
BERT	86.0 (85.5)	84.8 (84.6)
ERNIE	86.3 (85.5)	85.0 (84.6)
BERT-wwm	86.1 (85.6)	85.2 (84.9)
BERT-wwm-ext	86.4 (85.5)	85.3 (84.8)
RoBERTa-wwm-ext	86.0 (85.4)	85.0 (84.6)
RoBERTa-wwm-ext-large	86.3 (85.7)	85.8 (84.9)

篇章级文本分类：THUCNews

篇章级文本分类任务我们选用了由清华大学自然语言处理实验室发布的新闻数据集THUCNews。我们采用的是其中一个子集，需要将新闻分成10个类别中的一个。评测指标为：Accuracy

模型	开发集	测试集
BERT	97.7 (97.4)	97.8 (97.6)
ERNIE	97.6 (97.3)	97.5 (97.3)
BERT-wwm	98.0 (97.6)	97.8 (97.6)
BERT-wwm-ext	97.7 (97.5)	97.7 (97.5)
RoBERTa-wwm-ext	98.3 (97.9)	97.7 (97.5)
RoBERTa-wwm-ext-large	98.3 (97.7)	97.8 (97.6)

小参数量模型

以下是在若干NLP任务上的实验效果，表中只提供测试集结果对比。

模型	CMRC 2018	DRCD	XNLI	CSC	LCQMC	BQ	平均	参数量
RoBERTa-wwm-ext-large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325M
RoBERTa-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102M
RBTL3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61M (59.8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38M (37.3%)

效果相对值比较：

模型	CMRC 2018	DRCD	XNLI	CSC	LCQMC	BQ	平均	分类平均
RoBERTa-wwm-ext-large	102.2% / 101.3%	104.7% / 102.7%	103.0%	100.2%	100.7%	100.9%	101.9%	101.2%
RoBERTa-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87.2% / 93.3%	90.2% / 93.0%	93.9%	98.5%	98.5%	98.4%	94.3%	97.35%
RBT3	85.7% / 91.5%	87.6% / 91.2%	91.8%	97.1%	98.5%	98.0%	92.9%	96.35%

参数量是以XNLI分类任务为基准进行计算
括号内参数量百分比以原始base模型（即RoBERTa-wwm-ext）为基准
RBT3：由RoBERTa-wwm-ext 3层进行初始化，继续训练了1M步
RBTL3：由RoBERTa-wwm-ext-large 3层进行初始化，继续训练了1M步
RBT的名字是RoBERTa三个音节首字母组成，L代表large模型
直接使用RoBERTa-wwm-ext-large前三层进行初始化并进行下游任务的训练将显著降低效果，例如在CMRC 2018上测试集仅能达到42.9/65.3，而RBTL3能达到63.3/83.4

欢迎使用效果更优的中文小型预训练模型MiniRBT：https://github.com/iflytek/MiniRBT

使用建议

初始学习率是非常重要的一个参数（不论是BERT还是其他模型），需要根据目标任务进行调整。
ERNIE的最佳学习率和BERT/BERT-wwm相差较大，所以使用ERNIE时请务必调整学习率（基于以上实验结果，ERNIE需要的初始学习率较高）。
由于BERT/BERT-wwm使用了维基百科数据进行训练，故它们对正式文本建模较好；而ERNIE使用了额外的百度贴吧、知道等网络数据，它对非正式文本（例如微博等）建模有优势。
在长文本建模任务上，例如阅读理解、文档分类，BERT和BERT-wwm的效果较好。
如果目标任务的数据和预训练模型的领域相差较大，请在自己的数据集上进一步做预训练。
如果要处理繁体中文数据，请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。

英文模型下载

为了方便大家下载，顺便带上谷歌官方发布的英文BERT-large (wwm)模型：

BERT-Large, Uncased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters
BERT-Large, Cased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters

FAQ

Q: 这个模型怎么用？
A: 谷歌发布的中文BERT怎么用，这个就怎么用。 文本不需要经过分词，wwm只影响预训练过程，不影响下游任务的输入。

Q: 请问有预训练代码提供吗？
A: 很遗憾，我不能提供相关代码，实现可以参考 #10 和 #13。

Q: 某某数据集在哪里下载？
A: 请查看data目录，任务目录下的README.md标明了数据来源。对于有版权的内容，请自行搜索或与原作者联系获取数据。

Q: 会有计划发布更大模型吗？比如BERT-large-wwm版本？
A: 如果我们从实验中得到更好效果，会考虑发布更大的版本。

Q: 你骗人！无法复现结果😂
A: 在下游任务中，我们采用了最简单的模型。比如分类任务，我们直接使用的是run_classifier.py（谷歌提供）。如果无法达到平均值，说明实验本身存在bug，请仔细排查。最高值存在很多随机因素，我们无法保证能够达到最高值。另外一个公认的因素：降低batch size会显著降低实验效果，具体可参考BERT，XLNet目录的相关Issue。

Q: 我训出来比你更好的结果！
A: 恭喜你。

Q: 训练花了多长时间，在什么设备上训练的？
A: 训练是在谷歌TPU v3版本（128G HBM）完成的，训练BERT-wwm花费约1.5天，BERT-wwm-ext则需要数周时间（使用了更多数据需要迭代更充分）。需要注意的是，预训练阶段我们使用的是LAMB Optimizer（TensorFlow版本实现）。该优化器对大的batch有良好的支持。在微调下游任务时，我们采用的是BERT默认的AdamWeightDecayOptimizer。

Q: ERNIE是谁？
A: 本项目中的ERNIE模型特指百度公司提出的ERNIE，而非清华大学在ACL 2019上发表的ERNIE。

Q: BERT-wwm的效果不是在所有任务都很好
A: 本项目的目的是为研究者提供多元化的预训练模型，自由选择BERT，ERNIE，或者是BERT-wwm。我们仅提供实验数据，具体效果如何还是得在自己的任务中不断尝试才能得出结论。多一个模型，多一种选择。

Q: 为什么有些数据集上没有试？
A: 很坦率的说： 1）没精力找更多的数据； 2）没有必要； 3）没有钞票；

Q: 简单评价一下这几个模型
A: 各有侧重，各有千秋。中文自然语言处理的研究发展需要多方共同努力。

Q: 你预测下一个预训练模型叫什么？
A: 可能叫ZOE吧，ZOE: Zero-shOt Embeddings from language model

Q: 更多关于RoBERTa-wwm-ext模型的细节？
A: 我们集成了RoBERTa和BERT-wwm的优点，对两者进行了一个自然的结合。和之前本目录中的模型之间的区别如下:
1）预训练阶段采用wwm策略进行mask（但没有使用dynamic masking）
2）简单取消Next Sentence Prediction（NSP）loss
3）不再采用先max_len=128然后再max_len=512的训练模式，直接训练max_len=512
4）训练步数适当延长

需要注意的是，该模型并非原版RoBERTa模型，只是按照类似RoBERTa训练方式训练出的BERT模型，即RoBERTa-like BERT。故在下游任务使用、模型转换时请按BERT的方式处理，而非RoBERTa。

引用

如果本项目中的资源或技术对你的研究工作有所帮助，欢迎在论文中引用下述论文。

首选（期刊扩充版）：https://ieeexplore.ieee.org/document/9599397

@journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

或者（会议版本）：https://www.aclweb.org/anthology/2020.findings-emnlp.58

@inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

致谢

第一作者部分受到谷歌TPU Research Cloud计划资助。

免责声明

本项目并非谷歌官方发布的Chinese BERT-wwm模型。同时，本项目不是哈工大或科大讯飞的官方产品。 技术报告中所呈现的实验结果仅表明在特定数据集和超参组合下的表现，并不能代表各个模型的本质。实验结果可能因随机数种子，计算设备而发生改变。该项目中的内容仅供技术研究参考，不作为任何结论性依据。使用者可以在许可证范围内任意使用该模型，但我们不对因使用该项目内容造成的直接或间接损失负责。

关注我们

欢迎关注哈工大讯飞联合实验室官方微信公众号，了解最新的技术动态。

问题反馈

如有问题，请在GitHub Issue中提交。

Chinese-BERT-wwm 快速上手指南

Chinese-BERT-wwm 是由哈工大讯飞联合实验室（HFL）发布的中文预训练模型系列。该模型基于谷歌 BERT 架构，引入了**全词掩码（Whole Word Masking, WWM）**技术，解决了传统中文 BERT 按字切分导致语义割裂的问题，显著提升了中文自然语言处理任务的效果。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, 或 Windows
Python 版本：推荐 Python 3.7+
核心依赖：
- transformers (Hugging Face)
- torch (PyTorch) 或 tensorflow (根据需求选择)
- sentencepiece (部分模型可能需要)

前置依赖安装命令：

# 安装 PyTorch (请访问 pytorch.org 获取适合您 CUDA 版本的安装命令)
# 示例 (CPU 版本):
pip install torch torchvision torchaudio

# 安装 transformers 库
pip install transformers

提示：国内用户若下载依赖较慢，可使用清华源或阿里源加速： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers torch

2. 安装与模型加载

Chinese-BERT-wwm 系列模型已完美集成至 Hugging Face transformers 库，无需手动下载权重文件即可直接通过代码加载。

推荐方案：使用 Hugging Face Transformers

这是最简便的方式，库会自动处理模型的下载和缓存。

注意：本系列所有模型（包括 RoBERTa 变体）在 transformers 中均统一使用 BertTokenizer 和 BertModel 进行加载，请勿使用 RobertaTokenizer。

可用模型列表

模型名称	对应 Identifier (MODEL_NAME)	特点
BERT-wwm	`hfl/chinese-bert-wwm`	基础版，基于中文维基
BERT-wwm-ext	`hfl/chinese-bert-wwm-ext`	增强版，增加额外语料 (5.4B tokens)
RoBERTa-wwm-ext	`hfl/chinese-roberta-wwm-ext`	动态掩码，更大批次训练
RoBERTa-wwm-ext-large	`hfl/chinese-roberta-wwm-ext-large`	大型模型，效果更佳但资源消耗大
RBT3 / RBTL3	`hfl/rbt3` / `hfl/rbtl3`	轻量级模型 (3 层)，适合部署

3. 基本使用

以下是最简单的使用示例，展示如何加载分词器和模型，并对文本进行编码。

示例代码

from transformers import BertTokenizer, BertModel
import torch

# 1. 指定模型名称 (此处以效果较好的 RoBERTa-wwm-ext 为例)
model_name = "hfl/chinese-roberta-wwm-ext"

# 2. 加载分词器和模型
# 自动从 Hugging Face 服务器下载并缓存模型
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# 3. 准备输入文本
text = "自然语言处理是人工智能的重要领域。"

# 4. 文本编码 (添加特殊令牌、截断、填充等)
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512)

# 5. 获取模型输出
with torch.no_grad():
    outputs = model(**inputs)

# 6. 查看结果
# last_hidden_state: [batch_size, sequence_length, hidden_size]
last_hidden_states = outputs.last_hidden_state
print(f"输入形状：{inputs['input_ids'].shape}")
print(f"输出向量形状：{last_hidden_states.shape}")

# 获取 [CLS] 标记的向量 (通常用于句子级分类任务)
cls_vector = last_hidden_states[:, 0, :]
print(f"CLS 向量维度：{cls_vector.shape}")

国内网络加速方案

如果直接从 Hugging Face 官网下载模型速度过慢或失败，建议设置镜像环境变量：

Linux / macOS:

export HF_ENDPOINT=https://hf-mirror.com
python your_script.py

Windows (PowerShell):

$env:HF_ENDPOINT="https://hf-mirror.com"
python your_script.py

设置后，from_pretrained 函数将自动从国内镜像源下载模型文件。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|3天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架