xlnet

6.2k 1.2k 较难 1 次阅读 4天前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

XLNet 是一种先进的无监督语言表示学习方法，旨在提升机器对自然语言的理解能力。它主要解决了传统预训练模型（如 BERT）在建模时因人为掩盖部分文本而导致的训练与预测不一致问题，同时克服了处理长篇文章时上下文记忆不足的局限。

XLNet 的核心亮点在于创新性地采用了“广义自回归预训练”目标，通过随机排列输入顺序来更全面地捕捉文字间的依赖关系；此外，它还集成了 Transformer-XL 架构，显著增强了对长文本语境的处理能力。在阅读理解、情感分析、自然语言推理及文档排序等 20 多项主流任务中，XLNet 的表现均超越了同期的 BERT 模型，取得了业界领先的成果。

这款工具非常适合人工智能研究人员、算法工程师及 NLP 开发者使用。如果您正在构建需要深度理解语义的问答系统、分类器或搜索排序应用，XLNet 提供的预训练模型（包括 Base 和 Large 版本）能帮助您快速搭建高性能基线。虽然普通用户无法直接操作代码，但许多基于 XLNet 优化的后端服务已在无形中提升了大家日常使用的智能助手和搜索体验。

使用场景

某大型电商平台的智能客服团队正在升级其自动问答系统，旨在更精准地理解用户复杂的投诉描述并直接从海量知识库中提取答案。

没有 xlnet 时

长文本理解能力弱：面对用户长篇大论的故障描述，旧模型（如 BERT）因上下文窗口限制，经常遗漏关键的前置条件或后置结果，导致答非所问。
语义歧义处理差：在涉及多重否定或复杂指代（如“我不觉得这个不像坏的”）的句子中，模型极易判断错误，将正面反馈误判为负面。
答案抽取精度低：在阅读理解任务中，模型难以从冗长的商品评论或政策文档中定位到确切的答案片段，准确率徘徊在 78% 左右。
依赖大量标注数据：为了提升特定场景的表现，团队需要耗费数周时间人工标注成千上万条训练数据，成本高昂且迭代缓慢。

使用 xlnet 后

长上下文精准捕捉：借助 Transformer-XL 架构，xlnet 能完整建模超长用户日志，准确关联段落首尾信息，彻底解决长文本遗忘问题。
复杂逻辑推理增强：基于广义自回归预训练目标，xlnet 在处理双重否定及复杂语序时表现卓越，情感分析与意图识别的错误率显著下降。
SOTA 级答案定位：在 SQuAD 等阅读理解基准上，xlnet-Large 将精确匹配率（EM）提升至 86% 以上，能从文档中一次性锁定标准答案。
小样本高效迁移：凭借更强的语言表示学习能力，仅需少量微调数据即可在垂直领域达到最佳效果，大幅缩短了模型上线周期。

xlnet 通过突破性的排列语言建模机制，让机器真正具备了像人类一样灵活理解任意顺序文本的能力，显著提升了复杂场景下的自然语言处理上限。

运行环境要求

操作系统

未说明

GPU

非必需（支持 TPU），若使用 GPU 则需 NVIDIA GPU
XLNet-Large 在序列长度 512 时单卡至少需 16GB 显存（仅能容纳 batch_size=1）
XLNet-Base 在序列长度 512 时需约 8-16GB 显存
文中测试环境为 V100 GPU

内存

未说明（但指出 TPU 通常比普通 GPU 拥有更多内存，复现 SOTA 结果对显存要求极高）

依赖

notes1. 该代码库基于 2019 年发布，主要依赖 TensorFlow 1.13.1 和 Python 2，与现代环境兼容性较差。2. 大多数 SOTA 结果是在 TPU 上产生的，使用 12GB-16GB 显存的 GPU 很难复现 XLNet-Large 的结果，通常需要多卡并行（32-128 张）或减小批次大小/序列长度。3. 目前仅提供带大小写（cased）的预训练模型。4. 评估阶段目前仅支持单 GPU 模式以确保正确性。

pythonPython 2

TensorFlow==1.13.1

SentencePiece

快速开始

引言

XLNet 是一种基于新型广义排列语言建模目标的无监督语言表示学习方法。此外，XLNet 采用 Transformer-XL 作为骨干模型，在处理长上下文的语言任务中表现出色。总体而言，XLNet 在多项下游语言任务上取得了当前最优（SOTA）成绩，包括问答、自然语言推理、情感分析和文档排序等。

有关技术细节和实验结果的详细说明，请参阅我们的论文：

XLNet：用于语言理解的广义自回归预训练

Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

(*: 共同第一作者)

预印本 2019 年

发布说明

2019年7月16日：XLNet-Base。
2019年6月19日：首次发布 XLNet-Large 及其代码。

结果

截至2019年6月19日，XLNet 在20项任务中超越了 BERT，并在18项任务中取得了当前最优成绩。以下是 XLNet-Large 和 BERT-Large 的一些对比，两者的模型规模相近：

阅读理解任务结果

模型	RACE 准确率	SQuAD1.1 EM	SQuAD2.0 EM
BERT-Large	72.0	84.1	78.98
XLNet-Base			80.18
XLNet-Large	81.75	88.95	86.12

表中使用的是 SQuAD 开发集的结果，以排除其他因素的影响，例如使用额外的训练数据或数据增强技术。测试数据可参见 SQuAD 排行榜。

文本分类任务结果

模型	IMDB	Yelp-2	Yelp-5	DBpedia	Amazon-2	Amazon-5
BERT-Large	4.51	1.89	29.32	0.64	2.63	34.17
XLNet-Large	3.79	1.55	27.80	0.62	2.40	32.26

以上数字为错误率。

GLUE 任务结果

模型	MNLI	QNLI	QQP	RTE	SST-2	MRPC	CoLA	STS-B
BERT-Large	86.6	92.3	91.3	70.4	93.2	88.0	60.6	90.0
XLNet-Base	86.8	91.7	91.4	74.0	94.7	88.2	60.2	89.5
XLNet-Large	89.8	93.9	91.8	83.8	95.6	89.2	63.6	91.8

表中使用的是单任务开发集的结果，以排除多任务学习或集成方法等其他因素的影响。

预训练模型

已发布的模型

截至2019年7月16日,已提供以下模型：

XLNet-Large, Cased：24层，1024隐藏单元，16头注意力机制
XLNet-Base, Cased：12层，768隐藏单元，12头注意力机制。该模型是在完整数据集上训练的（与论文中的不同）。

目前我们仅发布了大小写敏感的模型，因为在我们所考虑的任务中，我们发现：(1) 对于基础设置，大小写敏感和不敏感的模型性能相近；(2) 对于大型设置，大小写敏感的模型在某些任务中表现略优。

每个 .zip 文件包含三项内容：

一个 TensorFlow 检查点文件 (xlnet_model.ckpt)，其中包含预训练权重（实际上由3个文件组成）。
一个 Sentence Piece 模型文件 (spiece.model)，用于分词和反向分词。
一个配置文件 (xlnet_config.json)，用于指定模型的超参数。

未来发布计划

我们还计划持续发布更多不同设置下的预训练模型，包括：

一个在维基百科上进行微调的预训练模型。这可用于处理包含维基百科文本的任务，如 SQuAD 和 HotpotQA。
具有其他超参数配置的预训练模型，以针对特定的下游任务。
利用新技术改进的预训练模型。

订阅 Google Groups 上的 XLNet

为了接收有关更新、公告和新发布的通知，我们建议您订阅 Google Groups 上的 XLNet 讨论组。

使用 XLNet 进行微调

截至2019年6月19日,该代码库已在 Python2 环境下使用 TensorFlow 1.13.1 进行了测试。

微调过程中的内存问题

我们论文中大多数 SOTA 结果都是在 TPU 上产生的，而 TPU 的内存通常比普通 GPU 更大。因此，目前使用配备 12GB 至 16GB 内存的 GPU 来复现论文中大部分 XLNet-Large 的 SOTA 结果非常困难（成本高昂），因为一台 16GB 的 GPU 只能容纳长度为 512 的单个序列用于 XLNet-Large。因此，需要大量（32 至 128 张，即等于 batch_size）GPU 才能复现论文中的许多结果。
我们正在尝试梯度累积的方法来缓解内存压力，这可能会在不久的将来的新版本中加入。
在 renatoviolin 的仓库中，已经提出了在资源受限的硬件上微调 XLNet 的替代方法，该方法使用 8GB 显存的 GPU 在 SQuAD2.0 上获得了 86.24 的 F1 分数。

鉴于上述内存问题，我们使用默认的微调脚本（run_classifier.py 和 run_squad.py），并在单个配备 16GB 显存的 GPU 上，使用 TensorFlow 1.13.1 测试了最大批量大小：

系统	序列长度	最大批量大小
`XLNet-Base`	64	120
...	128	56
...	256	24
...	512	8
`XLNet-Large`	64	16
...	128	8
...	256	2
...	512	1

在大多数情况下，可以通过减小批量大小 train_batch_size 或最大序列长度 max_seq_length 来适应现有硬件。性能的下降程度取决于具体任务和可用资源。

文本分类/回归

用于执行分类/回归微调的代码位于 run_classifier.py 中。该文件还包含标准单文档分类、单文档回归以及文档对分类的示例。在此，我们提供两个具体的使用 run_classifier.py 的示例。

从现在开始，我们假设 XLNet-Large 和 XLNet-base 已分别下载到 $LARGE_DIR 和 $BASE_DIR 目录中。

(1) STS-B：句子对相关性回归（使用 GPU）

通过运行此脚本下载 GLUE 数据集，并将其解压到某个目录 $GLUE_DIR 中。

使用 XLNet-Large 在 多 GPU（4 张 V100 GPU）上进行微调，运行以下命令：

CUDA_VISIBLE_DEVICES=0,1,2,3 python run_classifier.py \
  --do_train=True \
  --do_eval=False \
  --task_name=sts-b \
  --data_dir=${GLUE_DIR}/STS-B \
  --output_dir=proc_data/sts-b \
  --model_dir=exp/sts-b \
  --uncased=False \
  --spiece_model_file=${LARGE_DIR}/spiece.model \
  --model_config_path=${LARGE_DIR}/xlnet_config.json \
  --init_checkpoint=${LARGE_DIR}/xlnet_model.ckpt \
  --max_seq_length=128 \
  --train_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=4 \
  --learning_rate=5e-5 \
  --train_steps=1200 \
  --warmup_steps=120 \
  --save_steps=600 \
  --is_regression=True

使用单张 GPU 评估微调结果，运行以下命令：

CUDA_VISIBLE_DEVICES=0 python run_classifier.py \
  --do_train=False \
  --do_eval=True \
  --task_name=sts-b \
  --data_dir=${GLUE_DIR}/STS-B \
  --output_dir=proc_data/sts-b \
  --model_dir=exp/sts-b \
  --uncased=False \
  --spiece_model_file=${LARGE_DIR}/spiece.model \
  --model_config_path=${LARGE_DIR}/xlnet_config.json \
  --max_seq_length=128 \
  --eval_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=1 \
  --eval_all_ckpt=True \
  --is_regression=True

# 预期性能： "eval_pearsonr 0.916+ "

注意事项：

在 GPU 训练的上下文中，num_core_per_host 表示使用的 GPU 数量。
在多 GPU 设置中，train_batch_size 指的是每块 GPU 的批次大小。
eval_all_ckpt 允许在训练结束后评估所有保存的检查点（保存频率由 save_steps 控制），并根据验证集表现选择最佳模型。
data_dir 和 output_dir 分别指“原始数据”和“预处理后的 TFRecords 文件”的目录，而 model_dir 是用于保存检查点和 TensorFlow 事件的工作目录。model_dir 应设置为与 init_checkpoint 不同的独立文件夹。
如果要尝试使用 XLNet-base,只需将 --train_batch_size 设置为 32，并将 --num_core_per_host 设置为 1，同时相应地更改 init_checkpoint 和 model_config_path。
对于显存较小的 GPU，请按比例减少 train_batch_size 并增加 num_core_per_host 来使用相同的训练设置。
重要提示：我们将训练和评估分为“两个阶段”，因为使用多 GPU 进行评估比较复杂（需要正确地在各 GPU 之间划分数据）。为确保准确性，目前我们仅支持单 GPU 评估。

(2) IMDB：电影评论情感分类（使用 TPU V3-8）

通过运行以下命令下载并解压 IMDB 数据集：

wget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
tar zxvf aclImdb_v1.tar.gz

启动一个 Google Cloud TPU V3-8 实例（请参阅 Google Cloud TPU 教程了解如何设置 Cloud TPU）。
设置您的 Google 存储桶路径 $GS_ROOT，并将 IMDB 数据集和预训练检查点移动到您的 Google 存储中。

使用 XLNet-Large 在 TPU 上进行微调，运行以下命令：

python run_classifier.py \
  --use_tpu=True \
  --tpu=${TPU_NAME} \
  --do_train=True \
  --do_eval=True \
  --eval_all_ckpt=True \
  --task_name=imdb \
  --data_dir=${IMDB_DIR} \
  --output_dir=${GS_ROOT}/proc_data/imdb \
  --model_dir=${GS_ROOT}/exp/imdb \
  --uncased=False \
  --spiece_model_file=${LARGE_DIR}/spiece.model \
  --model_config_path=${GS_ROOT}/${LARGE_DIR}/model_config.json \
  --init_checkpoint=${GS_ROOT}/${LARGE_DIR}/xlnet_model.ckpt \
  --max_seq_length=512 \
  --train_batch_size=32 \
  --eval_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=8 \
  --learning_rate=2e-5 \
  --train_steps=4000 \
  --warmup_steps=500 \
  --save_steps=500 \
  --iterations=500

# 预期性能： "eval_accuracy 0.962+ "

注意事项：

要在 IMDB 数据集中获得 SOTA 性能，使用序列长度 512 是 必要的。因此，我们展示了如何使用 TPU V3-8 实现这一点。
或者，可以使用小于 512 的序列长度、更小的批次大小，或切换到 XLNet-base 在 GPU 上进行训练。但预计性能会有所下降。
注意，data_dir 和 spiece_model_file 均使用本地路径而非 Google 存储路径。原因是数据预处理实际上是在本地完成的。因此，使用本地路径可以加快预处理速度。

SQuAD2.0

SQuAD 数据集的相关代码包含在 run_squad.py 中。

运行代码步骤如下：

(1) 将 SQuAD2.0 数据集下载到 $SQUAD_DIR 目录中：

mkdir -p ${SQUAD_DIR} && cd ${SQUAD_DIR}
wget https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v2.0.json
wget https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v2.0.json

(2) 使用脚本 scripts/prepro_squad.sh 进行数据预处理。

由于需要准确地将字符位置（原始数据）映射到 SentencePiece 位置（用于训练），这一过程可能需要较长时间。
如需更快的并行预处理，请参考 run_squad.py 中的 --num_proc 和 --proc_id 标志。

(3) 进行训练和评估。

为了获得最佳性能，XLNet-Large 在训练时应使用序列长度 512 和批次大小 48。

因此，使用 GPU 复现最佳结果相当困难。
如果使用一台 TPU v3-8 进行训练，可以在 TPU 和 Google 存储都设置好之后，直接运行脚本 scripts/tpu_squad_large.sh。
run_squad.py 会自动在 SQuAD 的验证集上进行阈值搜索并输出分数。使用 scripts/tpu_squad_large.sh，预期 F1 分数应在 88.6 左右（我们多次运行的中位数）。

此外，也可以使用 XLNet-Base 在 GPU 上进行训练（例如三张 V100）。一组合理的超参数可在脚本 scripts/gpu_squad_base.sh 中找到。

RACE 阅读理解

阅读理解任务 RACE 的代码包含在 run_race.py 中。

值得注意的是，RACE 数据集中文章的平均长度超过 300 个标记（而非片段），这比 SQuAD 等其他流行的阅读理解数据集要显著更长。
此外，许多问题非常困难，机器需要进行复杂的推理才能解答（请参阅此处的一个示例)。

运行代码的步骤如下：

(1) 从RACE 官方网站下载数据集，并将原始数据解压到 $RACE_DIR 目录下。

(2) 进行训练和评估：

RACE 的当前最优性能（准确率 81.75%）是使用 XLNet-Large 模型、序列长度为 512、批量大小为 32 得到的，这需要在一个 pod 设置中的大型 TPU v3-32 上运行。有关此设置，请参考脚本 script/tpu_race_large_bsz32.sh。
在 TPU v3-8 上使用 XLNet-Large 模型、序列长度为 512、批量大小为 8，可以获得约 80.3% 的准确率（参见 script/tpu_race_large_bsz8.sh）。

使用 Google Colab

我们提供了一个使用带有 GPU 的 Google Colab 的示例。请注意，由于该示例中的硬件资源有限，结果可能不如最佳性能。它主要用作一个示例，应根据实际情况进行修改以最大化性能。

XLNet 的自定义使用

XLNet 抽象层

对于微调任务，您很可能可以直接修改现有的文件，例如 run_classifier.py、run_squad.py 和 run_race.py 来适应您的具体任务。不过，我们也提供了一个 XLNet 的抽象层，以便更灵活地使用。以下是一个示例：

import xlnet

# 此处省略部分代码...
# 初始化 FLAGS
# 初始化 tf.Tensor 实例，包括 input_ids、seg_ids 和 input_mask

# XLNetConfig 包含特定于模型检查点的超参数。
xlnet_config = xlnet.XLNetConfig(json_path=FLAGS.model_config_path)

# RunConfig 包含在预训练和微调过程中可能不同的超参数。
run_config = xlnet.create_run_config(is_training=True, is_finetune=True, FLAGS=FLAGS)

# 构建 XLNet 模型
xlnet_model = xlnet.XLNetModel(
    xlnet_config=xlnet_config,
    run_config=run_config,
    input_ids=input_ids,
    seg_ids=seg_ids,
    input_mask=input_mask)

# 使用最后一个隐藏状态获取序列摘要
summary = xlnet_model.get_pooled_out(summary_type="last")

# 获取序列输出
seq_out = xlnet_model.get_sequence_output()

# 根据 `summary` 或 `seq_out` 构建您的应用

分词

以下是 XLNet 中分词的示例：

import sentencepiece as spm
from prepro_utils import preprocess_text, encode_ids

# 此处省略部分代码...
# 初始化 FLAGS

text = "一个输入文本字符串。"

sp_model = spm.SentencePieceProcessor()
sp_model.Load(FLAGS.spiece_model_file)
text = preprocess_text(text, lower=FLAGS.uncased)
ids = encode_ids(sp_model, text)

其中 FLAGS.spiece_model_file 是与预训练模型位于同一压缩包中的 SentencePiece 模型文件，FLAGS.uncased 是一个布尔值，指示是否进行小写转换。

使用 XLNet 进行预训练

关于在 TPU 上进行预训练，请参考 train.py；而在 GPU 上进行预训练，则可参考 train_gpu.py。首先，我们需要将文本数据预处理为 tfrecords 格式。

python data_utils.py \
	--bsz_per_host=32 \
	--num_core_per_host=16 \
	--seq_len=512 \
	--reuse_len=256 \
	--input_glob=*.txt \
	--save_dir=${SAVE_DIR} \
	--num_passes=20 \
	--bi_data=True \
	--sp_path=spiece.model \
	--mask_alpha=6 \
	--mask_beta=1 \
	--num_predict=85

其中 input_glob 定义了所有输入文本文件，save_dir 是 tfrecords 的输出目录，而 sp_path 是一个Sentence Piece模型。以下是用于训练 Sentence Piece 模型的脚本：

spm_train \
	--input=$INPUT \
	--model_prefix=sp10m.cased.v3 \
	--vocab_size=32000 \
	--character_coverage=0.99995 \
	--model_type=unigram \
	--control_symbols=<cls>,<sep>,<pad>,<mask>,<eod> \
	--user_defined_symbols=<eop>,.,(,),",-,–,£,€ \
	--shuffle_input_sentence \
	--input_sentence_size=10000000

这里使用了特殊符号，包括 control_symbols 和 user_defined_symbols。我们用 <eop> 和 <eod> 分别表示段落结束和文档结束。

传递给 data_utils.py 的输入文本文件必须采用以下格式：

每一行代表一个句子。
空行表示文档结束。
（可选）如果希望对段落结构进行建模，可以在某些行末尾插入 <eop>（不加空格），以表明该句属于某个段落的结尾。

例如，输入文本文件可以是：

这是第一句话。
这是第二句话，也是段落的结尾。<eop>
另一个段落。

这里开始另一篇文档。

预处理完成后，我们就可以开始预训练 XLNet 了。以下是 XLNet-Large 预训练所使用的超参数：

python train.py
  --record_info_dir=$DATA/tfrecords \
  --train_batch_size=2048 \
  --seq_len=512 \
  --reuse_len=256 \
  --mem_len=384 \
  --perm_size=256 \
  --n_layer=24 \
  --d_model=1024 \
  --d_embed=1024 \
  --n_head=16 \
  --d_head=64 \
  --d_inner=4096 \
  --untie_r=True \
  --mask_alpha=6 \
  --mask_beta=1 \
  --num_predict=85

这里仅列出了最重要的几个标志，其他标志可以根据具体应用场景进行调整。

XLNet 快速上手指南

XLNet 是一种基于广义排列语言建模目标的无监督语言表示学习方法，采用 Transformer-XL 作为骨干模型，在长上下文任务中表现优异。本指南将帮助开发者快速完成环境配置、模型下载及微调运行。

环境准备

系统要求

操作系统: Linux (推荐) 或 macOS
Python 版本: Python 2.7 (官方代码库主要基于 Py2 测试，若使用 Py3 需自行适配)
深度学习框架: TensorFlow 1.13.1
硬件建议:
- XLNet-Base: 单张 16GB GPU 可运行（序列长度需调整）。
- XLNet-Large: 显存需求极高。单张 16GB GPU 仅能支持序列长度 512 的 batch_size=1。复现论文 SOTA 结果通常需要使用 TPU 或多卡 GPU 集群。

前置依赖

安装必要的 Python 库：

pip install tensorflow==1.13.1
pip install sentencepiece
pip install numpy

安装步骤

1. 获取源代码

克隆官方仓库：

git clone https://github.com/zihangdai/xlnet.git
cd xlnet

2. 下载预训练模型

目前官方主要提供 Cased 版本模型。请根据需求选择下载 XLNet-Large 或 XLNet-Base。

XLNet-Large (24 层)

mkdir models_large
cd models_large
wget https://storage.googleapis.com/xlnet/released_models/cased_L-24_H-1024_A-16.zip
unzip cased_L-24_H-1024_A-16.zip
# 解压后包含：xlnet_model.ckpt, spiece.model, xlnet_config.json
export LARGE_DIR=$(pwd)
cd ..

XLNet-Base (12 层)

mkdir models_base
cd models_base
wget https://storage.googleapis.com/xlnet/released_models/cased_L-12_H-768_A-12.zip
unzip cased_L-12_H-768_A-12.zip
export BASE_DIR=$(pwd)
cd ..

注意: 国内用户若下载缓慢，可尝试使用代理加速或寻找国内镜像源存储的模型文件。

基本使用

以下以 文本分类/回归任务 (GLUE 数据集 STS-B) 为例，演示如何使用 run_classifier.py 进行微调。

1. 准备数据

下载并解压 GLUE 数据集（以 STS-B 为例）：

# 假设已下载脚本 download_glue_data.py
python download_glue_data.py --data_dir=$GLUE_DIR --tasks=STS-B

2. 单机多卡微调 (GPU)

假设使用 4 张 V100 GPU 进行 XLNet-Large 的微调训练：

CUDA_VISIBLE_DEVICES=0,1,2,3 python run_classifier.py \
  --do_train=True \
  --do_eval=False \
  --task_name=sts-b \
  --data_dir=${GLUE_DIR}/STS-B \
  --output_dir=proc_data/sts-b \
  --model_dir=exp/sts-b \
  --uncased=False \
  --spiece_model_file=${LARGE_DIR}/spiece.model \
  --model_config_path=${LARGE_DIR}/xlnet_config.json \
  --init_checkpoint=${LARGE_DIR}/xlnet_model.ckpt \
  --max_seq_length=128 \
  --train_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=4 \
  --learning_rate=5e-5 \
  --train_steps=1200 \
  --warmup_steps=120 \
  --save_steps=600 \
  --is_regression=True

参数说明:

num_core_per_host: GPU 数量。
train_batch_size: 每张卡的批次大小。
model_dir: 保存检查点的目录，必须与 init_checkpoint 所在目录分开。

3. 单卡评估 (GPU)

训练完成后，使用单张 GPU 评估效果：

CUDA_VISIBLE_DEVICES=0 python run_classifier.py \
  --do_train=False \
  --do_eval=True \
  --task_name=sts-b \
  --data_dir=${GLUE_DIR}/STS-B \
  --output_dir=proc_data/sts-b \
  --model_dir=exp/sts-b \
  --uncased=False \
  --spiece_model_file=${LARGE_DIR}/spiece.model \
  --model_config_path=${LARGE_DIR}/xlnet_config.json \
  --max_seq_length=128 \
  --eval_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=1 \
  --eval_all_ckpt=True \
  --is_regression=True

显存优化提示

若遇到显存不足 (OOM) 错误：

减小 --max_seq_length (如从 512 降至 128)。
减小 --train_batch_size。
对于低显存显卡，建议优先尝试 XLNet-Base 模型，并将 --train_batch_size 设为 32，--num_core_per_host 设为 1。

常见问题

如何从 XLNet 模型中提取词嵌入（Word Embeddings）？

如何在运行提取脚本时强制使用 GPU 而不是 CPU？

在 TPU v3-8 上运行 SQuAD 大型模型脚本时遇到内存不足（OOM）错误怎么办？

在 Colab TPU 上进行预训练时遇到 TensorFlow 版本兼容性问题如何解决？

预训练过程中 Loss 不下降甚至波动增加是否正常？

从头预训练 XLNet 需要多长时间以及推荐什么硬件配置？

如何将训练好的 XLNet 模型导出用于服务（Serving）？

在推理（Inference）模式下仍然得到随机输出怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架