pix2struct

683 60 困难 1 次阅读 1周前Apache-2.0图像其他

AI 解读由 AI 自动生成，仅供参考

Pix2Struct 是一款由谷歌研究院开源的视觉语言理解模型，其核心理念是将“截图解析”作为预训练任务。简单来说，它能让 AI 像人类一样“看懂”屏幕截图，不仅识别图中的文字，还能理解按钮、图表等界面元素的结构与含义，并将其转化为可执行的代码或结构化描述。

这一工具主要解决了传统模型难以深入理解复杂图形用户界面（GUI）的痛点。以往的系统往往只能进行简单的图像分类或文字提取，而 Pix2Struct 通过独特的预训练策略，实现了从像素到结构的端到端映射，显著提升了在图表问答、界面描述生成及屏幕操作自动化等下游任务中的表现。

Pix2Struct 特别适合人工智能研究人员和开发者使用。官方提供了 Base 和 Large 两种规模的预训练模型 checkpoint，并开放了完整的微调代码，支持用户在 TextCaps、ChartQA 等九个专业数据集上进行二次开发。虽然原始预训练数据未直接提供，但项目给出了基于公开 C4 数据集复现数据的完整方案。对于希望探索多模态大模型、构建智能助手或自动化测试工具的技术团队而言，Pix2Struct 提供了一个坚实且灵活的研究基座。

使用场景

某电商公司的无障碍改造团队正致力于将数千个历史商品活动页面的截图自动转化为符合 WCAG 标准的结构化 HTML 代码，以适配视障用户的屏幕阅读器。

没有 pix2struct 时

人工还原成本极高：开发人员需对照截图手动编写 HTML 和 CSS，单个复杂活动页平均耗时 4 小时，且容易遗漏细节。
传统 OCR 丢失布局逻辑：使用常规 OCR 工具只能提取零散文字，无法识别图表数据关系、按钮层级及表单结构，导致生成的代码不可用。
多模态理解能力缺失：面对包含混合排版（如嵌入图表的商品对比图）的界面，现有规则引擎无法推断视觉元素背后的语义功能。
维护迭代困难：一旦前端设计风格变更，硬编码的规则库需全面重写，难以适应快速变化的 UI 趋势。

使用 pix2struct 后

截图一键转代码：利用 pix2struct 的预训练模型，直接输入页面截图即可生成高保真的结构化 HTML 标记，单页处理时间缩短至秒级。
精准还原视觉语义：pix2struct 能深度理解图像中的空间布局，自动将图表转换为数据表格，将图标识别为带 aria-label 的功能按钮。
泛化能力强：基于海量网页截图预训练，pix2struct 无需针对新设计风格重新训练，即可准确解析各类现代前端布局。
自动化流水线集成：团队将 pix2struct 部署于 CI/CD 流程中，每次设计稿更新即自动触发截图解析与无障碍代码生成，大幅降低回归测试成本。

pix2struct 通过将视觉感知转化为结构化语言，彻底打破了从“看图”到“懂图”的技术壁垒，让无障碍改造实现了规模化落地。

运行环境要求

操作系统

Linux

GPU

未说明 (主要依赖 Google Cloud TPU，如 v3-8
本地运行需支持 JAX 的硬件)

内存

未说明

依赖

notes1. 该项目主要设计用于 Google Cloud Platform (GCP) 环境，数据预处理默认使用 Dataflow，模型训练推荐使用 Cloud TPU VM。2. 必须安装 Java (default-jre) 以支持数据处理流程。3. 需要配置 Google Cloud Storage (GCS) 用于存储数据和模型，并设置相应的环境变量 (PIX2STRUCT_DIR, GCP_PROJECT, GCP_REGION)。4. 虽然提供了本地运行数据预处理的选项（通过关闭特定标志），但核心实验流程高度依赖云端基础设施。

python3.9

jax

t5x

apache-beam

pytest

conda

快速开始

Pix2Struct

本仓库包含 Pix2Struct：将截图解析作为视觉语言理解的预训练的代码。

我们发布了 Base 和 Large 模型的预训练检查点，以及在论文中讨论的九个下游任务上对其进行微调的代码。我们无法公开预训练数据，但可以使用 C4 数据集中发布的公开 URL 来复现这些数据。

快速入门

克隆 GitHub 仓库，安装 pix2struct 包，并运行测试以确保所有依赖项已成功安装。

git clone https://github.com/google-research/pix2struct.git
cd pix2struct
conda create -n pix2struct python=3.9
conda activate pix2struct
pip install -e ."[dev]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
pytest

如果尚未安装，您可能需要先安装 Java (sudo apt install default-jre) 和 conda。

我们将使用 Google Cloud Storage (GCS) 来存储数据和模型。在后续文档中，我们假设您自己的存储桶和目录路径位于 PIX2STRUCT_DIR 环境变量中：

export PIX2STRUCT_DIR="gs://<your_bucket>/<path_to_pix2struct_dir>"

运行实验的代码在查找预处理后的数据时会假定该环境变量的存在。

数据预处理

我们的数据预处理脚本默认使用 Dataflow，基于 Apache Beam 库运行。它们也可以通过关闭 -- 后面的标志来在本地运行。

在后续文档中，我们假设 GCP 项目信息位于以下环境变量中：

export GCP_PROJECT=<your_project_id>
export GCP_REGION=<your_region>

以下是预处理每个数据集所需的命令。结果将被写入 $PIX2STRUCT_DIR/data/<task_name>/preprocessed/，这是 tasks.py 中假定的文件结构。

TextCaps

mkdir -p data/textcaps
cd data/textcaps
curl -O https://dl.fbaipublicfiles.com/textvqa/data/textcaps/TextCaps_0.1_train.json
curl -O https://dl.fbaipublicfiles.com/textvqa/data/textcaps/TextCaps_0.1_val.json
curl -O https://dl.fbaipublicfiles.com/textvqa/data/textcaps/TextCaps_0.1_test.json
curl -O https://dl.fbaipublicfiles.com/textvqa/images/train_val_images.zip
curl -O https://dl.fbaipublicfiles.com/textvqa/images/test_images.zip
unzip train_val_images.zip
rm train_val_images.zip
unzip test_images.zip
rm test_images.zip
cd ..
gsutil -m cp -r textcaps_data $PIX2STRUCT_DIR/data/textcaps
python -m pix2struct.preprocessing.convert_textcaps \
  --textcaps_dir=$PIX2STRUCT_DIR/data/textcaps \
  --output_dir=$PIX2STRUCT_DIR/data/textcaps/processed \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

ChartQA

mkdir -p data/chartqa
cd data/chartqa
git clone https://github.com/vis-nlp/ChartQA.git
cp -r ChartQA/ChartQA\ Dataset/* ./
rm -rf ChartQA
cd ..
gsutil -m cp -r chartqa $PIX2STRUCT_DIR/data/chartqa
python -m pix2struct.preprocessing.convert_chartqa \
  --data_dir=$PIX2STRUCT_DIR/data/chartqa \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

RICO 图像

Screen2Words、RefExp 和 Widget Captioning 都需要来自 RICO 数据集的图像。如果您想使用其中任何一个数据集，请在继续之前先处理 RICO 图像。

cd data
wget https://storage.googleapis.com/crowdstf-rico-uiuc-4540/rico_dataset_v0.1/unique_uis.tar.gz
tar xvfz unique_uis.tar.gz
rm unique_uis.tar.gz
gsutil -m cp -r combined $PIX2STRUCT_DIR/data/rico_images

Widget Captioning

如果您尚未设置 RICO，请在继续之前完成此步骤。

mkdir -p data/widget_captioning
cd data/widget_captioning
git clone https://github.com/google-research-datasets/widget-caption.git
cp widget-caption/widget_captions.csv ./
cp widget-caption/split/*.txt ./
mv dev.txt val.txt
rm -rf widget-caption
cd ..
gsutil -m cp -r widget_captioning $PIX2STRUCT_DIR/data/widget_captioning
python -m pix2struct.preprocessing.convert_widget_captioning \
  --data_dir=$PIX2STRUCT_DIR/data/widget_captioning \
  --image_dir=$PIX2STRUCT_DIR/data/rico_images \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

Screen2Words

如果您尚未设置 RICO，请在继续之前完成此步骤。

cd data
git clone https://github.com/google-research-datasets/screen2words.git
gsutil -m cp -r screen2words $PIX2STRUCT_DIR/data/screen2words
python -m pix2struct.preprocessing.convert_screen2words \
  --screen2words_dir=$PIX2STRUCT_DIR/data/screen2words \
  --rico_dir=$PIX2STRUCT_DIR/data/rico_images \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

RefExp

如果您尚未设置 RICO，请在继续之前完成此步骤。

mkdir -p data/refexp
cd data/refexp
wget https://github.com/google-research-datasets/uibert/raw/main/ref_exp/train.tfrecord
wget https://github.com/google-research-datasets/uibert/raw/main/ref_exp/dev.tfrecord
wget https://github.com/google-research-datasets/uibert/raw/main/ref_exp/test.tfrecord
mv dev.tfrecord val.tfrecord
cd ..
gsutil -m cp -r refexp $PIX2STRUCT_DIR/data/refexp
python -m pix2struct.preprocessing.convert_refexp \
  --data_dir=$PIX2STRUCT_DIR/data/refexp \
  --image_dir=$PIX2STRUCT_DIR/data/rico_images \
  -- \
  --runner=DataflowRunner \
  --save main session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

DocVQA

mkdir -p data/docvqa
cd data/docvqa

从官方来源下载 DocVQA（单文档视觉问答）数据集（需注册）。以下步骤假设 train/val/test.tar.gz 文件位于 data/docvqa 目录中。

tar xvf train.tar.gz
tar xvf val.tar.gz
tar xvf test.tar.gz
rm -r *.tar.gz */ocr_results

cd ..
gsutil -m cp -r docvqa $PIX2STRUCT_DIR/data/docvqa
python -m pix2struct.preprocessing.convert_docvqa \
  --data_dir=$PIX2STRUCT_DIR/data/docvqa \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

InfographicVQA

mkdir -p data/infographicvqa
cd data/infographicvqa

从此网站下载 InfographicVQA 任务 1 数据集（需注册）。以下步骤假设 train/val/test.json 和 zip 文件位于 data/infographicvqa 目录中。

for split in train val test
do
  unzip infographicVQA_${split}_v1.0_images.zip
  mv infographicVQA_${split}_v1.0_images $split
  mv infographicVQA_${split}_v1.0.json $split/${split}_v1.0.json
done
rm *.zip

cd ..
gsutil -m cp -r infographicvqa $PIX2STRUCT_DIR/data/infographicvqa
python -m pix2struct.preprocessing.convert_docvqa \
  --data_dir=$PIX2STRUCT_DIR/data/infographicvqa \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

OCR-VQA

mkdir -p data/ocrvqa
cd data/ocrvqa

按照OCR-VQA网站上的说明，将数据下载到 data/ocrvqa 目录中（需爬取数据）。以下步骤假设 data/ocrvqa 包含一个名为 images 的目录和一个名为 dataset.json 的文件。

cd ..
gsutil -m cp -r ocrvqa $PIX2STRUCT_DIR/data/ocrvqa
python -m pix2struct.preprocessing.convert_ocrvqa \
  --data_dir=$PIX2STRUCT_DIR/data/ocrvqa \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

AI2D

mkdir -p data/
cd data/
wget https://ai2-public-datasets.s3.amazonaws.com/diagrams/ai2d-all.zip
unzip ai2d-all.zip
rm ai2d-all.zip
gsutil -m cp -r ai2d $PIX2STRUCT_DIR/data/ai2d
python -m pix2struct.preprocessing.convert_ai2d \
  --data_dir=$PIX2STRUCT_DIR/data/ai2d \
  --test_ids_path=gs://pix2struct-data/ai2d_test_ids.csv \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

运行实验

主要实验是基于T5X库的一个轻量级封装实现的。为简洁起见，我们以在 Screen2Words 数据集上微调预训练的 Pix2Struct 基础模型为例，展示一个工作流程。若要扩展到更大规模的设置，请参阅 T5X 文档。

设置 TPU

按照官方说明，在 Cloud TPU 虚拟机上运行 JAX，这样可以直接通过 ssh 登录到 TPU 主机。

在本示例中，我们使用 v3-8 TPU：

TPU_TYPE=v3-8
TPU_NAME=pix2struct-$TPU_TYPE
TPU_ZONE=europe-west4-a
gcloud compute tpus tpu-vm create $TPU_NAME \
  --zone=$TPU_ZONE \
  --accelerator-type=$TPU_TYPE \
  --version=tpu-vm-base
gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$TPU_ZONE

成功 ssh 到 TPU 主机后，按照“入门”说明安装 pix2struct 包。

训练

以下命令将启动训练循环，该循环由训练步骤与验证集上的评估交替进行组成。

python -m t5x.train \
  --gin_search_paths="pix2struct/configs" \
  --gin_file="models/pix2struct.gin" \
  --gin_file="runs/train.gin" \
  --gin_file="sizes/base.gin" \
  --gin_file="optimizers/adafactor.gin" \
  --gin_file="schedules/screen2words.gin" \
  --gin_file="init/pix2struct_base_init.gin" \
  --gin.MIXTURE_OR_TASK_NAME="'screen2words'" \
  --gin.MODEL_DIR="'$PIX2STRUCT_DIR/experiments/screen2words_base'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 4096, 'targets': 128}" \
  --gin.BATCH_SIZE=32

评估

以下命令将在测试集上评估模型。您需要将检查点路径替换为根据验证性能实际选择的那个。

python -m t5x.eval \
  --gin_search_paths="pix2struct/configs" \
  --gin_file="models/pix2struct.gin" \
  --gin_file="runs/eval.gin" \
  --gin_file="sizes/base.gin" \
  --gin.MIXTURE_OR_TASK_NAME="'screen2words'" \
  --gin.CHECKPOINT_PATH="'$PIX2STRUCT_DIR/experiments/screen2words_base/checkpoint_286600'" \
  --gin.EVAL_OUTPUT_DIR="'$PIX2STRUCT_DIR/experiments/test_exp/test_eval'" \
  --gin.EVAL_SPLIT="'test'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 4096, 'targets': 128}" \
  --gin.BATCH_SIZE=32

微调后的检查点

除了在 configs/init 目录中发布并指定的预训练检查点外，我们还发布了以下所有任务上微调模型的检查点。

任务	GCS 路径（Base）	GCS 路径（Large）
TextCaps	`gs://pix2struct-data/textcaps_base/checkpoint_280400`	`gs://pix2struct-data/textcaps_large/checkpoint_180600`
ChartQA	`gs://pix2struct-data/chartqa_base/checkpoint_287600`	`gs://pix2struct-data/charqa_large/checkpoint_182600`
WidgetCaptioning	`gs://pix2struct-data/widget_captioning_base/checkpoint_281600`	`gs://pix2struct-data/widget_captioning_large/checkpoint_181600`
Screen2Words	`gs://pix2struct-data/screen2words_base/checkpoint_282600`	`gs://pix2struct-data/screen2words_large/checkpoint_183000`
RefExp	`gs://pix2struct-data/refexp_base/checkpoint_290000`	`gs://pix2struct-data/refexp_large/checkpoint_187800`
DocVQA	`gs://pix2struct-data/docvqa_base/checkpoint_284400`	`gs://pix2struct-data/docvqa_large/checkpoint_184000`
InfographicVQA	`gs://pix2struct-data/infographicvqa_base/checkpoint_284000`	`gs://pix2struct-data/infographicvqa_large/checkpoint_182000`
OCR-VQA	`gs://pix2struct-data/ocrvqa_base/checkpoint_290000`	`gs://pix2struct-data/ocrvqa_large/checkpoint_188400`
AI2D	`gs://pix2struct-data/ai2d_base/checkpoint_284400`	`gs://pix2struct-data/ai2d_large/checkpoint_184000`

这些检查点与上述文档中记录的评估命令以及下面提到的两种推理方式兼容。请确保 configs/sizes 下的配置文件与检查点保持一致。

推理

我们提供了两种推理方式。出于测试和演示目的，这些可以在 CPU 上运行。在这种情况下，请将 JAX_PLATFORMS 环境变量设置为 cpu。

命令行示例

我们提供了一个用于对单个样本进行推理的最小化脚本。该路径仅在极小规模下进行了测试，并不适合大规模推理。对于大规模推理，我们建议设置一个带有占位符标签的自定义任务，并按照上述文档运行评估脚本 (t5x.eval)。

在下面的示例中，我们展示了使用在 TextCaps 任务上微调的 Base 尺寸检查点预测图像标题的命令。对于也接受文本提示的任务（如 VQA 中的问题），您还可以通过 text 标志提供问题（除了用 image 标志指定图像之外）。

python -m pix2struct.example_inference \
  --gin_search_paths="pix2struct/configs" \
  --gin_file=models/pix2struct.gin \
  --gin_file=runs/inference.gin \
  --gin_file=sizes/base.gin \
  --gin.MIXTURE_OR_TASK_NAME="'placeholder_pix2struct'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 2048, 'targets': 128}" \
  --gin.BATCH_SIZE=1 \
  --gin.CHECKPOINT_PATH="'gs://pix2struct-data/textcaps_base/checkpoint_280400'" \
  --image=$HOME/test_image.jpg

Web 演示

为了提供更友好的演示体验，我们还提供了上述推理脚本的基于 Web 的替代方案。运行此命令时，Web 演示可在 localhost:8080（或通过 port 标志指定的任何端口）访问，前提是您在本地运行演示。然后您可以上传自定义图像和可选提示，而不是通过命令行指定它们。

python -m pix2struct.demo \
  --gin_search_paths="pix2struct/configs" \
  --gin_file=models/pix2struct.gin \
  --gin_file=runs/inference.gin \
  --gin_file=sizes/base.gin \
  --gin.MIXTURE_OR_TASK_NAME="'placeholder_pix2struct'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 2048, 'targets': 128}" \
  --gin.BATCH_SIZE=1 \
  --gin.CHECKPOINT_PATH="'gs://pix2struct-data/textcaps_base/checkpoint_280400'"

清理

当您完成 TPU VM 的使用后，请记得删除实例：

gcloud compute tpus tpu-vm delete $TPU_NAME --zone=$TPU_ZONE

注意

这不是 Google 官方支持的产品。

Pix2Struct 快速上手指南

Pix2Struct 是一个将截图解析作为预训练任务的视觉语言理解模型。本指南帮助中国开发者快速完成环境搭建、数据预处理及模型微调。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu)
Python: 3.9
依赖工具:
- Conda (用于环境管理)
- Java JDK/JRE (sudo apt install default-jre)
- Git
云资源 (可选但推荐):
- Google Cloud Platform (GCP): 官方脚本默认使用 GCS 存储数据和模型，并使用 Dataflow 进行大规模数据预处理。
- TPU: 训练和评估推荐使用 Cloud TPU VM。
- 注：若仅进行本地小规模测试或推理，可跳过部分云配置，但数据预处理脚本默认依赖 Dataflow 参数。

2. 安装步骤

2.1 克隆代码与创建环境

git clone https://github.com/google-research/pix2struct.git
cd pix2struct

# 创建并激活 Conda 环境
conda create -n pix2struct python=3.9
conda activate pix2struct

# 安装 pix2struct 包及其开发依赖
# 注意：需指定 JAX TPU 释放源
pip install -e ."[dev]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html

# 运行测试以验证安装
pytest

2.2 配置环境变量

项目依赖 Google Cloud Storage (GCS) 存储数据。请设置以下环境变量（替换为您自己的 Bucket 路径）：

export PIX2STRUCT_DIR="gs://<your_bucket>/<path_to_pix2struct_dir>"
export GCP_PROJECT=<your_project_id>
export GCP_REGION=<your_region>

3. 基本使用

Pix2Struct 的核心工作流包括：数据预处理 -> 模型微调 (Training) -> 评估 (Evaluation)。以下以 Screen2Words 任务为例展示最简流程。

3.1 数据预处理

大多数下游任务需要先将原始数据转换为模型可读格式。官方脚本默认使用 Apache Beam (Dataflow) 运行。

示例：准备 Screen2Words 数据

前提：需先下载并处理 RICO 图像数据集（见原文 README "RICO Images" 章节）。

# 1. 下载 Screen2Words 源码数据
mkdir -p data
cd data
git clone https://github.com/google-research-datasets/screen2words.git
gsutil -m cp -r screen2words $PIX2STRUCT_DIR/data/screen2words

# 2. 运行预处理脚本
# 注意：-- 之后的参数传递给 Dataflow Runner
python -m pix2struct.preprocessing.convert_screen2words \
  --screen2words_dir=$PIX2STRUCT_DIR/data/screen2words \
  --rico_dir=$PIX2STRUCT_DIR/data/rico_images \
  -- \
  --runner=DataflowRunner \
  --save_main_session \
  --project=$GCP_PROJECT \
  --region=$GCP_REGION \
  --temp_location=$PIX2STRUCT_DIR/data/temp \
  --staging_location=$PIX2STRUCT_DIR/data/staging \
  --setup_file=./setup.py

其他数据集（如 TextCaps, ChartQA, DocVQA 等）的预处理命令请参考原文 "Data Preprocessing" 章节对应部分。

3.2 模型微调 (Training)

Pix2Struct 基于 T5X 库构建。以下示例展示如何在 TPU 上微调 Base 模型。

第一步：设置 TPU 环境 (如果在本地 GPU/CPU 运行可跳过此步，需调整 gin 配置)

TPU_TYPE=v3-8
TPU_NAME=pix2struct-$TPU_TYPE
TPU_ZONE=europe-west4-a

# 创建 TPU VM
gcloud compute tpus tpu-vm create $TPU_NAME \
  --zone=$TPU_ZONE \
  --accelerator-type=$TPU_TYPE \
  --version=tpu-vm-base

# 连接到 TPU 并在其中重复“安装步骤”
gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$TPU_ZONE

第二步：启动训练

python -m t5x.train \
  --gin_search_paths="pix2struct/configs" \
  --gin_file="models/pix2struct.gin" \
  --gin_file="runs/train.gin" \
  --gin_file="sizes/base.gin" \
  --gin_file="optimizers/adafactor.gin" \
  --gin_file="schedules/screen2words.gin" \
  --gin_file="init/pix2struct_base_init.gin" \
  --gin.MIXTURE_OR_TASK_NAME="'screen2words'" \
  --gin.MODEL_DIR="'$PIX2STRUCT_DIR/experiments/screen2words_base'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 4096, 'targets': 128}" \
  --gin.BATCH_SIZE=32

3.3 模型评估 (Evaluation)

训练完成后，使用以下命令在测试集上评估模型性能。请将 CHECKPOINT_PATH 替换为实际训练中表现最佳的检查点路径。

python -m t5x.eval \
  --gin_search_paths="pix2struct/configs" \
  --gin_file="models/pix2struct.gin" \
  --gin_file="runs/eval.gin" \
  --gin_file="sizes/base.gin" \
  --gin.MIXTURE_OR_TASK_NAME="'screen2words'" \
  --gin.CHECKPOINT_PATH="'$PIX2STRUCT_DIR/experiments/screen2words_base/checkpoint_286600'" \
  --gin.EVAL_OUTPUT_DIR="'$PIX2STRUCT_DIR/experiments/test_exp/test_eval'" \
  --gin.EVAL_SPLIT="'test'" \
  --gin.TASK_FEATURE_LENGTHS="{'inputs': 4096, 'targets': 128}" \
  --gin.BATCH_SIZE=32

提示：如需加载官方提供的预训练权重进行微调，请查阅 configs/init 目录下的配置文件指引。

常见问题

如何在本地电脑上进行预训练或微调？

无法通过 GCS 路径下载微调后的权重文件怎么办？

在 macOS 上运行 `pip install -e .[dev]` 安装失败如何解决？

设置 `GCP_PROJECT` 环境变量时应该填项目名称还是项目 ID？

运行 RefExp 数据处理步骤时报 `missing FLAG.processed_dir` 错误如何解决？

微调后的模型权重在哪里可以下载？

预训练模型是否已发布？是否有推理示例？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|4天前

开发框架图像Agent