t5x

3k 341 困难 1 次阅读昨天Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

t5x 是一个专为序列模型（尤其是语言模型）打造的高性能研究框架，支持从训练、评估到推理的全流程操作。它本质上是经典 T5 代码库的现代化升级版，基于 JAX 和 Flax 重构，旨在解决大规模模型训练中配置复杂、扩展性差及硬件利用率低等痛点。

该工具采用模块化与可组合的设计架构，让研究人员能够灵活定制实验流程，轻松在单节点或多节点环境下部署任务。无论是想在 Google Cloud 上利用 TPU 进行快速原型验证，还是希望在 SLURM 集群或 NVIDIA H100 GPU 上追求极致算力，t5x 都提供了详尽的支持与优化脚本，显著降低了分布式训练的管理门槛。

t5x 特别适合人工智能研究人员、算法工程师以及对大模型技术有深入探索需求的开发者使用。其独特的技术亮点在于完美融合了 JAX 函数式编程的高效性与 Mesh TensorFlow 的并行策略，不仅实现了代码的简洁优雅，更确保了在超大规模参数下的训练稳定性与速度。对于希望复现前沿成果或开展自定义模型研究的团队而言，这是一个友好且强大的得力助手。

使用场景

某跨国电商团队急需构建一个支持英、德、法三语的高精度商品评论翻译系统，以应对黑五期间的全球流量高峰。

没有 t5x 时

训练效率低下：基于旧版 TensorFlow 的代码难以充分利用云端的 TPU 集群资源，大规模模型训练耗时数周且经常因显存溢出中断。
实验迭代缓慢：修改模型架构或调整超参数需要重写大量底层代码，研究人员无法快速验证新的算法想法。
部署维护困难：训练环境与推理环境不一致，导致模型上线时出现兼容性报错，运维团队需花费大量时间手动对齐配置。
扩展性受限：想要从单语言模型扩展到多语言联合训练时，原有框架缺乏模块化设计，代码耦合度极高，几乎需要重构。

使用 t5x 后

性能显著提升：t5x 基于 JAX 和 Flax 重构，天然支持高性能 TPU 并行计算，将原本数周的训练周期缩短至几天，且运行稳定。
研发敏捷高效：借助其模块化与可组合特性，团队仅需修改少量 Gin 配置文件即可切换模型结构或数据集，极大加速了实验迭代。
全链路一致性：t5x 提供统一的训练、评估和推理接口，消除了环境差异，实现了从实验到生产环境的无缝平滑迁移。
灵活弹性扩展：利用其自服务架构，团队轻松实现了多语言混合训练任务，并能根据业务需求在单节点 GPU 或多主机 TPU 集群间自由切换。

t5x 通过高性能的 JAX 实现与模块化设计，让大规模序列模型的研发布局从“艰难运维”转变为“专注创新”。

运行环境要求

操作系统

Linux

GPU

非必需（主要推荐 TPU）
若使用 GPU，需 NVIDIA 显卡（文档提及 H100 支持 FP8），需配合 SLURM+pyxis 集群或多节点配置
具体显存和 CUDA 版本未在本文档明确说明，建议参考 NVIDIA Rosetta 仓库

内存

未说明

依赖

notes该工具主要基于 Google Cloud TPU VM 环境设计（推荐 v3-8 或更高），核心依赖 JAX 和 Flax 而非 PyTorch。若需在 GPU 上运行以获得最佳性能（特别是 H100），请参考 NVIDIA 维护的 Rosetta 仓库。数据存储和检查点保存需要配置 Google Cloud Storage (GCS) 桶。

python3.8+

jax

flax

tensorstore

seqio

tensorflow-datasets (tfds)

gin-config

xmanager (可选，用于 Vertex AI)

快速开始

T5X

请前往 T5X ReadTheDocs 文档页面。

T5X 是一个模块化、可组合且便于研究的框架，用于在多种规模下高效、可配置、自助式的序列模型（从语言模型开始）训练、评估和推理。

它本质上是基于 Mesh TensorFlow 的 T5 代码库在 JAX 和 Flax 上的新版改进实现。欲了解更多信息，请参阅 T5X 论文。

以下是使用 Google Cloud 上的 TPU 进行模型训练的快速入门指南。更多教程和背景信息，请参阅完整文档。

快速入门（推荐）

T5X 可以通过 XManager 在 Vertex AI 上运行。Vertex AI 是一个用于训练的平台，它可以创建 TPU 实例并在这些 TPU 上运行代码。当作业结束时，Vertex AI 还会自动关闭 TPU。这比手动管理 GCE 虚拟机和 TPU 虚拟机实例要方便得多。

按照先决条件和说明安装 XManager。
根据需要申请 TPU 配额。GCP 项目默认提供 8 个核心，这足以在单个 TPU 主机上运行一次训练实验。如果想要进行多主机训练或并行运行多个试验，则需要更多的配额。请导航至 Quotas。

您需要的配额如下：

服务：Vertex AI API
维度（位置）：us-central1
如果您想运行单主机实验：
- Custom model training TPU V2 cores per region
- Custom model training TPU V3 cores per region
如果您想运行多主机实验：
- Custom model training TPU V2 pod cores per region
- Custom model training TPU V3 pod cores per region

提示：您无法使用多主机配额来运行单主机实验。（即，您不能使用 TPU V2 pod 来运行 tpu_v2=8）

启动位于 t5x/scripts/xm_launch.py 的 xmanager 脚本。

作为示例，我们使用 WMT14 英德翻译任务，该任务在下面的示例部分中有更详细的介绍。

export GOOGLE_CLOUD_BUCKET_NAME=...
export TFDS_DATA_DIR=gs://$GOOGLE_CLOUD_BUCKET_NAME/t5x/data
export MODEL_DIR=gs://$GOOGLE_CLOUD_BUCKET_NAME/t5x/$(date +%Y%m%d)

# 在多主机实验中预先下载数据集。
tfds build wmt_t2t_translate --data_dir=$TFDS_DATA_DIR

git clone https://github.com/google-research/t5x
cd ./t5x/

python3 ./t5x/scripts/xm_launch.py \
  --gin_file=t5x/examples/t5/t5_1_1/examples/base_wmt_from_scratch.gin \
  --model_dir=$MODEL_DIR \
  --tfds_data_dir=$TFDS_DATA_DIR

请查看 gs://$GOOGLE_CLOUD_BUCKET_NAME/t5x/ 中的输出文件，这些文件可以被 TensorBoard 读取。

GPU 使用

注意：NVIDIA 已发布此仓库的更新版本，支持 H100 FP8 并大幅提升了 GPU 性能。有关详细信息和使用说明，请访问 NVIDIA Rosetta 仓库。

T5X 可以轻松地在单节点或使用 SLURM+pyxis 集群的多节点配置中运行于 GPU 上。更多说明请参阅 t5x/contrib/gpu。t5x/contrib/gpu/scripts_gpu 文件夹包含用于在 The Pile 上预训练 T5X，以及在 SQuAD 和 MNLI 上微调的示例脚本。这些脚本及相关的 gin 配置还包含了额外的 GPU 优化，以提高吞吐量。更多示例和说明可以在由 NVIDIA 维护的 NVIDIA Rosetta 仓库中找到，该仓库支持 H100 FP8 并显著提升了 GPU 性能。

安装

请注意，除非另有说明，本文档中的所有命令都应在 TPU 虚拟机实例的命令行中执行。

按照说明设置 Google Cloud Platform (GCP) 帐户并启用 Cloud TPU API。

注意: T5X 也支持 GPU，如果您想使用 GPU 版本，请按照 t5x/contrib/gpu 中的说明操作。
创建 Cloud TPU 虚拟机实例按照此说明进行操作。我们建议您先在单个 v3-8 TPU 上开发工作流（即，--accelerator-type=v3-8），待流程准备就绪后再扩展到 Pod 切片。在本 README 中，我们重点介绍如何使用单个 v3-8 TPU。有关 TPU 架构的更多信息，请参阅此处。
使用 Cloud TPU 虚拟机时，您可以直接通过 SSH 登录到 TPU 虚拟机的宿主机。您可以在宿主机上安装软件包、运行代码等。一旦 TPU 实例创建完毕，即可通过以下命令登录：
```
gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} --zone=${ZONE}
```
其中 TPU_NAME 和 ZONE 是第 2 步中使用的名称和区域。

安装 T5X 和其依赖项。

git clone --branch=main https://github.com/google-research/t5x
cd t5x

python3 -m pip install -e '.[tpu]' -f \
  https://storage.googleapis.com/jax-releases/libtpu_releases.html

创建 Google Cloud Storage (GCS) 存储桶，用于存储数据集和模型检查点。有关创建 GCS 存储桶的说明，请参阅这些 instructions。
（可选）如果您更喜欢 Jupyter/Colab 风格的环境，可以按照 t5x/notebooks 中的步骤设置自定义 Colab 运行环境。

示例：英语到德语的翻译

作为一个示例，我们使用 WMT14 英-德翻译数据集。原始数据集可以在 TensorFlow Datasets 中找到，其名称为 "wmt_t2t_translate"。

T5 将诸如以下的翻译任务

{'en': 'That is good.', 'de': 'Das ist gut.'}

转换为“文本到文本”的形式：

{'inputs': 'translate English to German: That is good.', 'targets': 'Das ist gut.'}

这种表述方式使得多种不同的语言任务能够以统一的方式表达，并且单个编码器-解码器架构就可以在无需任何特定于任务的参数的情况下处理这些任务。更多细节请参阅 T5 论文（Raffel 等人，2019）。

为了构建可扩展的数据管道和评估框架，我们使用了 SeqIO，它是从 T5 库中独立出来的。一个 seqio.Task 将原始数据集、词汇表、预处理（如分词）以及评估指标（如 BLEU [aclanthology.org/P02-1040.pdf]）封装在一起，并提供一个 tf.data 实例。

T5 库提供了许多在 T5 论文中使用过的 seqio.Task。在这个示例中，我们使用 wmt_t2t_ende_v003。

在开始训练或微调之前，您需要先下载 ["wmt_t2t_translate"] 数据集 (https://www.tensorflow.org/datasets/catalog/wmt_t2t_translate)。

# 用于保存处理后数据集的数据目录，格式为 "gs://data_dir"。
TFDS_DATA_DIR="..."

# 确保数据集包是最新的。
python3 -m pip install --upgrade tfds-nightly

# 预先下载数据集。
tfds build wmt_t2t_translate ${TFDS_DATA_DIR}

训练

要运行训练任务，我们使用 t5x/train.py 脚本。

# 用于保存日志、检查点等的模型目录，格式为 "gs://model_dir"。
MODEL_DIR="..."
T5X_DIR="..."  # T5X 仓库被克隆的目录。
TFDS_DATA_DIR="..."

python3 ${T5X_DIR}/t5x/train.py \
  --gin_file="t5x/examples/t5/t5_1_1/examples/base_wmt_from_scratch.gin" \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

本次训练的配置定义在 Gin 文件 base_wmt_from_scratch.gin 中。Gin-config 是一个基于依赖注入来管理配置的库。Gin 的诸多优势之一是允许用户向 T5X 库传递自定义组件（例如自定义模型），而无需修改核心库。关于如何实现这一点，请参阅“自定义组件”部分。

尽管核心库与 Gin 无关，但它是我们提供的示例的核心。因此，我们在 T5X 的上下文中提供了一个简短的 Gin 入门介绍。所有配置都写入 MODEL_DIR 中的一个文件 config.gin，这使得调试和实验复现变得更加容易。

除了 config.json 外，model-info.txt 文件还总结了模型参数（形状、轴名称、分区信息）以及优化器状态。

TensorBoard

要在 TensorBoard 中监控训练过程，由于身份验证问题，最好在您自己的机器上启动 TensorBoard，而不是在 TPU 虚拟机中启动。因此，在您通过 SSH 登录到 TPU 虚拟机的命令行中，启动 TensorBoard 并将 logdir 指向 MODEL_DIR。

# 注意：请在您的机器上运行，而不是在 TPU 虚拟机上！
MODEL_DIR="..."  # 从 TPU 虚拟机复制过来。
tensorboard --logdir=${MODEL_DIR}

或者，您也可以在 Colab 中启动 TensorBoard。在 Colab 单元格中运行

from google.colab import auth
auth.authenticate_user()

以授权 Colab 访问 GCS 存储桶，然后启动 TensorBoard。

%load_ext tensorboard
model_dir = "..."  # 从 TPU 虚拟机复制过来。
%tensorboard --logdir=model_dir

微调

我们可以利用自监督预训练的优势，从我们预训练好的模型之一进行初始化。这里我们使用 T5.1.1 Base 检查点。

# 用于保存日志、检查点等的模型目录，格式为 "gs://model_dir"。
MODEL_DIR="..."

# 用于保存处理后数据集的数据目录，格式为 "gs://data_dir"。
TFDS_DATA_DIR="..."
T5X_DIR="..."  # T5X 仓库被克隆的目录。

python3 ${T5X_DIR}/t5x/train.py \
  --gin_file="t5x/examples/t5/t5_1_1/examples/base_wmt_finetune.gin" \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

注意： 当通过标志传递字符串、字典、列表、元组值或 Bash 变量时，必须将其用引号括起来。对于字符串，需要使用转义引号 (\"<string>\")。例如： --gin.utils.DatasetConfig.split=\"validation\" 或 --gin.MODEL_DIR=\"${MODEL_DIR}\"。

Gin 使更改许多配置变得非常容易。例如，您可以更改 partitioning.PjitPartitioner.num_partitions（覆盖 base_wmt_from_scratch.gin 中的值），以调整并行策略，并将其作为命令行参数传递。

--gin.partitioning.PjitPartitioner.num_partitions=8

评估

要进行离线（即不涉及训练的）评估，可以使用 t5x/eval.py 脚本。

EVAL_OUTPUT_DIR="..."  # 用于写入评估结果的目录
T5X_DIR="..."  # t5x 被克隆的目录，例如 `${HOME}"/t5x"`.
TFDS_DATA_DIR="..."
CHECKPOINT_PATH="..."

python3 ${T5X_DIR}/t5x/eval.py \
  --gin_file="t5x/examples/t5/t5_1_1/examples/base_wmt_eval.gin" \
  --gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\" \
  --gin.EVAL_OUTPUT_DIR=\"${EVAL_OUTPUT_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

推理

要进行推理，可以使用 t5x/infer.py 脚本。在这里，我们使用相同的 seqio.Task，但在推理过程中，我们不会使用目标特征，而是将它们与预测结果一起记录在一个 JSON 文件中。

INFER_OUTPUT_DIR="..."  # 用于写入推理结果的目录
T5X_DIR="..."  # t5x 被克隆的目录，例如 `${HOME}"/t5x"`.
TFDS_DATA_DIR="..."
CHECKPOINT_PATH="..."

python3 ${T5X_DIR}/t5x/infer.py \
  --gin_file="t5x/examples/t5/t5_1_1/examples/base_wmt_infer.gin" \
  --gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\" \
  --gin.INFER_OUTPUT_DIR=\"${INFER_OUTPUT_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

导出为 TensorFlow Saved Model

预训练模型可以导出为 TensorFlow Saved Model，并使用 [优化的 TensorFlow 运行时] (https://cloud.google.com/vertex-ai/docs/predictions/optimized-tensorflow-runtime) 部署到 Vertex AI Prediction 服务。请注意，导出的模型无法在基于开源的 TensorFlow Model Server 上运行。

T5X_DIR="..."  # t5x 被克隆的目录，例如 ${HOME}"/t5x"。
CHECKPOINT_PATH="..."

BATCH_SIZE=None
BEAM_SIZE=1

# 如果计划在 NVIDIA A100 或更新的 GPU 上运行导出的模型，请使用 'bfloat16'；
# 对于其他 GPU，则使用 'float32'。
ACTIVATION_DTYPE=bfloat16

# 版本号必须是数字。我们根据当前日期和时间生成一个版本号。
VERSION=$(date +%Y%m%d%H%M%S)

NAME=t5x_base_${ACTIVATION_DTYPE}  # 模型名称。

# 模型导出路径。请注意，导出脚本会在模型名称后添加 _cpu 后缀。
OUTPUT=${CHECKPOINT_PATH}/saved_model.${NAME}/${VERSION}

declare -a ARGS=(
--gin_file=t5x/examples/t5/t5_1_1/base.gin
--gin_file=t5x/t5x/configs/runs/export.gin
--gin.TASK_FEATURE_LENGTHS="{'inputs': 256, 'targets': 256}"
--gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\"
--gin.MODEL_NAME=\"/ml/${USER}/t5x_base\"
--gin.MODEL_OUTPUT_DIR=\"${OUTPUT}\"
--gin.BEAM_SIZE=${BEAM_SIZE}
--gin.BATCH_SIZE=${BATCH_SIZE}
--gin.export_lib.save.partitioner=None
--gin.export_lib.save.warmup_examples="['hello world']"
--gin.export_lib.ExportableModule.use_batch_function=False
--gin.export_lib.ExportableModule.use_gpu=False
--gin.export_lib.ExportableModule.jit_compile=False
--gin.ACTIVATION_DTYPE=\"${ACTIVATION_DTYPE}\"
--gin.network.T5Config.dtype=\"${ACTIVATION_DTYPE}\"
--gin.utils.RestoreCheckpointConfig.dtype=\"${ACTIVATION_DTYPE}\"
--gin.DROPOUT_RATE=0.0
)

(python3 ${T5X_DIR}/t5x/export.py "${ARGS[@]}")

有关详细参数定义，请参阅 [export.gin] (t5x/configs/runs/export.gin)。

您可以在 NVIDIA A100 40GB 上运行 XL 及更小的模型，在 NVIDIA A100 80GB 上运行 XXL 模型。

自定义组件

[翻译示例] (#example-english-to-german-translation) 使用了 T5X 提供的编码器-解码器模型以及 T5 库中的数据集。本节将展示如何使用您自己的数据集和模型，并通过 Gin 配置文件进行传递。

示例：用户目录中的自定义数据集

对于此示例，我们具有以下目录结构，其中 ${HOME}/dir1/user_dir 表示包含自定义组件的用户目录。

${HOME}
└── dir1
    └── user_dir
        ├── t5_1_1_base_de_en.gin
        └── tasks.py

作为示例，让我们定义一个新的数据集。这里我们使用相同的 Translation 数据集，但我们将翻译任务的方向设置为相反方向，即从德语到英语，而不是从英语到德语。我们在 tasks.py 中定义此任务：

# ${HOME}/dir1/user_dir/tasks.py

import functools
import seqio
import tensorflow_datasets as tfds
from t5.evaluation import metrics
from t5.data import preprocessors

vocabulary = seqio.SentencePieceVocabulary(
    'gs://t5-data/vocabs/cc_all.32000/sentencepiece.model', extra_ids=100)
output_features = {
    'inputs': seqio.Feature(vocabulary=vocabulary),
    'targets': seqio.Feature(vocabulary=vocabulary)
}

seqio.TaskRegistry.add(
    'wmt_t2t_de_en_v003',
    source=seqio.TfdsDataSource(tfds_name='wmt_t2t_translate/de-en:1.0.0'),
    preprocessors=[
        functools.partial(
            preprocessors.translate,
            source_language='de', target_language='en'),
        seqio.preprocessors.tokenize,
        seqio.CacheDatasetPlaceholder(),
        seqio.preprocessors.append_eos_after_trim,
    ],
    metric_fns=[metrics.bleu],
    output_features=output_features)

在 Gin 文件中，大多数设置与 [英德翻译示例] (#example-english-to-german-translation) 中使用的设置相同。因此，我们直接引用该示例中的 Gin 文件。为了使用我们刚刚定义的“wmt_t2t_de_en_v003”任务，我们需要导入任务模块“tasks.py”。请注意，我们使用相对于用户目录的相对路径。这将作为标志指定。

# ${HOME}/dir1/user_dir/t5_1_1_base_de_en.gin
from __gin__ import dynamic_registration
import tasks  # 导入 dir1/user_dir/tasks.py 中定义的任务。

include "t5x-tmp/t5x/examples/t5/t5_1_1/examples/base_wmt_from_scratch.gin"
MIXTURE_OR_TASK_NAME = "wmt_t2t_de_en_v003"

最后，我们通过将用户目录作为 gin_search_paths 标志来启动训练，以便 Gin 文件和 Python 模块可以使用相对路径进行指定。

PROJECT_DIR=${HOME}"/dir1/user_dir"
T5X_DIR="..."  # t5x 被克隆的目录。
TFDS_DATA_DIR="..."
MODEL_DIR="..."
export PYTHONPATH=${PROJECT_DIR}

python3 ${T5X_DIR}/t5x/train.py \
  --gin_search_paths=${PROJECT_DIR} \
  --gin_file="t5_1_1_base_de_en.gin" \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

检查点

原生检查点

我们已发布许多原始 T5 模型及其变体的原生 T5X 格式检查点，以实现最高效率。请参阅 [完整列表] (https://github.com/google-research/t5x/blob/main/docs/models.md)，其中包括匹配的 Gin 配置文件。

这些检查点是从公开的 [Mesh TensorFlow 检查点] (https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#t511) 转换而来的。

与 Mesh TensorFlow 检查点的兼容性

使用 T5 库训练的 Mesh TensorFlow 检查点可以直接加载到 T5X 中。例如，我们可以通过更改 INIT_CHECKPOINT Gin 宏，从 MTF 检查点初始化并重新运行微调示例。

# 用于保存日志、检查点等的模型目录，格式为“gs://model_dir”。
MODEL_DIR="..."

# 用于保存处理后的数据集的目录，格式为“gs://data_dir”。
TFDS_DATA_DIR="..."
T5X_DIR="..."  # t5x 代码库被克隆的目录。

python3 ${T5X_DIR}/t5x/train.py \
  --gin_file="t5x/examples/t5/t5_1_1/examples/base_wmt19_ende_train.gin" \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --gin.MIXTURE_OR_TASK_NAME=\"wmt_t2t_ende_v003\" \
  --gin.INIT_CHECKPOINT=\"gs://t5-data/pretrained_models/t5.1.1.base/model.ckpt-1000000\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

请注意，如果大型模型使用了高并行度，直接从 Mesh TensorFlow 检查点恢复可能会效率较低。这是因为每个主机首先会加载整个模型副本，然后仅保留由模型并行度规范决定的相关切片。如果您经常运行 Mesh TensorFlow 检查点，我们建议使用 [convert_tf_checkpoint 脚本] (t5x/scripts/convert_tf_checkpoint.py) 将检查点转换为 T5X 原生格式。

引用 T5X

请使用以下 BibTeX 条目来引用 T5X。

@article{roberts2022t5x,
  url = {https://arxiv.org/abs/2203.17189},
  author = {Roberts, Adam 和 Chung, Hyung Won 和 Levskaya, Anselm 和 Mishra, Gaurav 和 Bradbury, James 和 Andor, Daniel 和 Narang, Sharan 和 Lester, Brian 和 Gaffney, Colin 和 Mohiuddin, Afroz 和 Hawthorne, Curtis 和 Lewkowycz, Aitor 和 Salcianu, Alex 和 van Zee, Marc 和 Austin, Jacob 和 Goodman, Sebastian 和 Soares, Livio Baldini 和 Hu, Haitang 和 Tsvyashchenko, Sasha 和 Chowdhery, Aakanksha 和 Bastings, Jasmijn 和 Bulian, Jannis 和 Garcia, Xavier 和 Ni, Jianmo 和 Chen, Andrew 和 Kenealy, Kathleen 和 Clark, Jonathan H. 和 Lee, Stephan 和 Garrette, Dan 和 Lee-Thorp, James 和 Raffel, Colin 和 Shazeer, Noam 和 Ritter, Marvin 和 Bosma, Maarten 和 Passos, Alexandre 和 Maitin-Shepard, Jeremy 和 Fiedel, Noah 和 Omernick, Mark 和 Saeta, Brennan 和 Sepassi, Ryan 和 Spiridonov, Alexander 和 Newlan, Joshua 和 Gesmundo, Andrea},
  title = {使用 $\texttt{t5x}$ 和 $\texttt{seqio}$ 扩展模型和数据},
  journal={arXiv 预印本 arXiv:2203.17189},
  year = {2022},
}

注意

这并非 Google 官方支持的产品

T5X 快速上手指南

T5X 是一个基于 JAX 和 Flax 构建的模块化、高性能序列模型框架，适用于大规模语言模型的训练、评估和推理。它是原始 T5 代码库（基于 Mesh TensorFlow）的现代化重构版本。

环境准备

系统要求

硬件: 推荐使用 Google Cloud TPU (v3-8 或更高) 或 NVIDIA GPU (需参考 NVIDIA Rosetta 仓库以获取 H100 FP8 支持)。
操作系统: Linux (TPU VM 或 GPU 服务器)。
云平台: 若使用 TPU，需拥有 Google Cloud Platform (GCP) 账号并启用 Cloud TPU API。
存储: 需要 Google Cloud Storage (GCS) Bucket 用于存放数据集和模型检查点。

前置依赖

Python 3.8+
Git
GCP SDK (仅 TPU 用户需要)
XManager (可选，推荐用于 Vertex AI 自动化部署)

注意: 国内开发者若无法直接访问 GCP 或 HuggingFace，请自行配置网络代理或使用相应的镜像加速服务。

安装步骤

以下命令需在 TPU VM 实例或配置好的 Linux 环境中执行。

克隆仓库

git clone --branch=main https://github.com/google-research/t5x
cd t5x

安装依赖包
- TPU 环境:
```
python3 -m pip install -e '.[tpu]' -f \
  https://storage.googleapis.com/jax-releases/libtpu_releases.html
```
- GPU 环境: 请参考 t5x/contrib/gpu/README.md 或 NVIDIA Rosetta 仓库进行特定安装。

准备数据存储 创建一个 GCS Bucket 用于存储数据和模型输出：

# 替换为您的 bucket 名称
export GOOGLE_CLOUD_BUCKET_NAME="your-bucket-name"
export TFDS_DATA_DIR=gs://$GOOGLE_CLOUD_BUCKET_NAME/t5x/data
export MODEL_DIR=gs://$GOOGLE_CLOUD_BUCKET_NAME/t5x/models/$(date +%Y%m%d)

预处理数据集 (示例：WMT14 英德翻译)

# 确保 tfds 包为最新版本
python3 -m pip install --upgrade tfds-nightly

# 下载并构建数据集
tfds build wmt_t2t_translate --data_dir=$TFDS_DATA_DIR

基本使用

T5X 使用 Gin 配置文件来管理实验参数。以下是最简单的从头开始训练示例。

1. 启动训练任务

使用 t5x/train.py 脚本启动训练。以下示例使用 WMT14 数据集从头训练一个基础模型：

python3 ./t5x/train.py \
  --gin_file=t5x/examples/t5/t5_1_1/examples/base_wmt_from_scratch.gin \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

--gin_file: 指定配置文件路径，定义了模型架构、超参数等。
--gin.MODEL_DIR: 指定模型日志和检查点的保存路径（注意字符串需转义引号）。
--tfds_data_dir: 指定预处理后的数据路径。

2. 监控训练进度 (TensorBoard)

建议在本地机器（而非 TPU VM）上运行 TensorBoard 以避免认证问题，前提是本地已配置好 GCP 凭证。

# 在本地终端执行，将 MODEL_DIR 替换为实际的 GCS 路径
tensorboard --logdir=${MODEL_DIR}

或者在 Colab 中运行：

from google.colab import auth
auth.authenticate_user()

%load_ext tensorboard
model_dir = "gs://your-bucket-name/t5x/models/..." # 替换为实际路径
%tensorboard --logdir=model_dir

3. 微调预训练模型 (可选)

利用自监督预训练优势，加载现有检查点进行微调：

python3 ./t5x/train.py \
  --gin_file=t5x/examples/t5/t5_1_1/examples/base_wmt_finetune.gin \
  --gin.MODEL_DIR=\"${MODEL_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

4. 离线评估

训练完成后，使用 eval.py 对模型进行评估：

CHECKPOINT_PATH="gs://path/to/checkpoint"
EVAL_OUTPUT_DIR="gs://path/to/output"

python3 ./t5x/eval.py \
  --gin_file=t5x/examples/t5/t5_1_1/examples/base_wmt_eval.gin \
  --gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\" \
  --gin.EVAL_OUTPUT_DIR=\"${EVAL_OUTPUT_DIR}\" \
  --tfds_data_dir=${TFDS_DATA_DIR}

提示: 若需修改并行策略或批次大小等参数，可通过命令行直接覆盖 Gin 配置，例如： --gin.partitioning.PjitPartitioner.num_partitions=8

常见问题

保存检查点（checkpoint）后出现段错误（Segmentation Fault）怎么办？

在 Apple M1 芯片上加载模型检查点时遇到 'This event loop is already running' 错误如何解决？

在 TPU Pod 上训练 t5x-XXL 模型时出现 'Fatal Python error: Segmentation fault' 是什么原因？

使用相对路径保存或加载检查点时报错 'Invalid key' 或 'Error reading local file' 怎么处理？

如何确认当前的段错误是否由 tensorstore 版本引起？

在单节点多 GPU（如 8xA100）环境下运行预训练时遇到分区错误怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架