tape

736 134 中等 1 次阅读 1周前BSD-3-Clause数据工具语言模型开发框架其他

AI 解读由 AI 自动生成，仅供参考

TAPE（Tasks Assessing Protein Embeddings）是一套专为蛋白质生物学设计的基准测试工具，旨在评估蛋白质嵌入模型的性能。它提供了包含预训练语料库、五个具有生物意义的半监督学习任务（涵盖二级结构预测、接触图预测、远源同源检测等关键领域）、预训练语言模型权重以及完整的评测代码。

在蛋白质研究中，如何有效利用海量未标注序列数据并验证不同深度学习模型的泛化能力是一大挑战。TAPE 通过标准化的数据集和任务设置，解决了以往研究缺乏统一评估标准的问题，让研究人员能够公平地对比不同算法在真实生物场景下的表现。

这套工具非常适合生物信息学研究人员、计算生物学开发者以及从事蛋白质语言模型研究的学者使用。虽然普通用户也能借助其封装好的 Hugging Face API 轻松加载预训练模型进行蛋白质序列编码，但其核心价值在于为专业领域提供可复现的实验框架。

技术亮点方面，TAPE 不仅支持基于 PyTorch 的灵活开发，还深度集成了 Hugging Face Transformers 库，实现了预训练模型的自动下载与缓存。尽管官方建议后续训练工作迁移至 PyTorch Lightning 等更稳健的框架，但 TAPE 依然保留了丰富的模型架构与任务接口，是探索蛋白质序列表示学习不可或缺的基础设施。

使用场景

某生物制药公司的算法团队正致力于从海量未标注蛋白质序列中挖掘潜在的药物靶点，需要快速评估不同深度学习模型对蛋白质功能的预测能力。

没有 tape 时

基准测试构建繁琐：团队需手动收集并清洗五个不同生物学领域的数据集，花费数周时间统一格式才能开始模型对比。
复现论文困难：直接复现顶级会议论文中的预训练模型时，常因 TensorFlow 与 PyTorch 框架版本不兼容或代码缺失而中途受阻。
评估标准不一：缺乏统一的二级结构、接触图预测等任务评估脚本，导致不同模型的实验结果难以横向公平比较。
预训练成本高昂：从头训练蛋白质语言模型需要巨大的算力资源和漫长的等待周期，严重拖慢研发迭代速度。

使用 tape 后

一键加载基准任务：tape 内置了五个标准化的半监督学习任务及预处理数据，团队可在几分钟内搭建好完整的评估流水线。
无缝集成主流框架：通过 Hugging Face API 直接调用已预训练好的 BERT 模型权重，彻底解决了环境配置和代码复现的兼容性难题。
标准化性能对标：利用自带的排行榜代码，团队能立即在荧光性、稳定性等关键指标上与社区最先进模型进行精确对比。
聚焦核心算法创新：借助现成的预训练权重和下游任务微调脚本，研究人员将精力从数据工程转移至模型架构优化上。

tape 通过提供标准化的基准测试套件和开箱即用的预训练模型，将蛋白质表示学习的评估周期从数周缩短至数小时，极大加速了生物计算领域的科研迭代。

运行环境要求

操作系统

未说明

GPU

训练和嵌入生成支持多 GPU 分布式运行（提及 Titan Xp），具体显存和 CUDA 版本未说明，但需支持 PyTorch 半精度训练 (fp16) 和 cublas

内存

未说明（文中提及默认返回平均嵌入以节省内存，若内存不足需调整梯度累积步数）

依赖

notes1. 官方不再推荐直接使用 TAPE 自带代码进行训练，因其不再维护对新版 PyTorch 的兼容性，建议使用 PyTorch Lightning 或 Fairseq 等框架。2. 预训练模型可通过 Hugging Face API 自动下载并缓存。3. 使用 UniRep 模型时需指定特定的 tokenizer，否则可能报 cublas 运行时错误。4. 默认批量大小为 1024，若显存不足需增加梯度累积步数 (gradient_accumulation_steps)。5. 对于 Transformer 类模型，预训练的 pooled_output 不可直接使用，建议取序列输出的平均值。

python未说明

torch

transformers (Hugging Face)

numpy

tape_proteins

快速开始

蛋白质嵌入评估任务（TAPE）

用于在训练好的蛋白质嵌入模型上运行 TAPE 基准测试的数据、权重和代码。我们提供了预训练语料库、五个有监督下游任务、预训练语言模型权重以及基准测试代码。该代码现已更新为使用 PyTorch，因此之前的预训练模型权重和代码将无法使用。旧的 TensorFlow 版本 TAPE 仓库仍可在 https://github.com/songlab-cal/tape-neurips2019 找到。

本仓库并非旨在与原始论文保持最大程度的兼容性和可重复性，而是为了便于使用及未来的开发工作（无论是对我们自身还是对社区）。尽管我们提供了许多相同的功能，但我们并未对所有模型和下游任务的训练进行全方位测试，并且也做出了一些有意的改动。因此，如果您希望复现我们论文中的结果，请使用原始代码。

我们的论文可在 https://arxiv.org/abs/1906.08230 获取。

部分文档尚不完整。我们会逐步补充，但如果您对某些内容需要解释，请提交一个问题，以便我们明确优先改进的方向！

更新：2020年9月26日： 我们不再建议直接使用 TAPE 的训练代码进行训练。虽然它在一段时间内可能仍然有效，但不会针对未来版本的 PyTorch 进行更新。在内部，我们一直在使用不同的框架进行训练（特别是 PyTorch Lightning 和 Fairseq）。我们强烈建议使用类似这些框架的工具，因为它们可以减轻维护与 PyTorch 版本兼容性的负担。TAPE 模型将继续提供，如果当前代码对您有效，您可以继续使用。然而，我们将不再修复训练过程中出现的多 GPU 错误、内存不足错误等问题。

安装

我们建议您使用以下命令将 tape 安装到 Python 的虚拟环境中：

$ pip install tape_proteins

示例

Hugging Face API 加载预训练模型

我们基于优秀的 Hugging Face 库，并将其用作定义模型和提供预训练模型的 API。通过此 API，预训练模型将在需要时自动下载，并缓存以供后续使用。

import torch
from tape import ProteinBertModel, TAPETokenizer
model = ProteinBertModel.from_pretrained('bert-base')
tokenizer = TAPETokenizer(vocab='iupac')  # iupac 是 TAPE 模型的词汇表，UniRep 模型则使用 unirep
sequence = 'GCTVEDRCLIGMGAILLNGCVIGSGSLVAAGALITQ'
token_ids = torch.tensor([tokenizer.encode(sequence)])
output = model(token_ids)
sequence_output = output[0]
pooled_output = output[1]

# 注意：pooled_output 并未针对 Transformer 模型进行训练，未经微调请勿使用。目前更好的做法是直接取 sequence_output 的平均值。

目前可用的预训练模型包括：

bert-base（Transformer 模型）
babbler-1900（UniRep 模型）
xaa、xab、xac、xad、xae（trRosetta 模型）

如果您希望使用特定的预训练模型，请提交一个问题，我们将尽力添加！

使用预训练模型嵌入蛋白质

给定一个输入的 FASTA 文件，您可以通过 tape-embed 命令生成包含蛋白质嵌入的 .npz 文件。

假设这是我们的输入 FASTA 文件：

>seq1
GCTVEDRCLIGMGAILLNGCVIGSGSLVAAGALITQ
>seq2
RTIKVRILHAIGFEGGLMLLTIPMVAYAMDMTLFQAILLDLSMTTCILVYTFIFQWCYDILENR

那么我们可以使用 UniRep 的 babbler-1900 模型对其进行嵌入：

tape-embed unirep my_input.fasta output_filename.npz babbler-1900 --tokenizer unirep

无需手动下载预训练模型——如果需要，它会自动下载。此外，请注意将分词器更改为 unirep 分词器。UniRep 使用不同的词汇表，因此需要使用此分词器。如果遇到 cublas 运行时错误，请务必检查是否正确切换了分词器。

嵌入功能已完全批处理，并会根据机器可用的 GPU 数量自动分配任务。在 Titan Xp 上，每秒大约可以处理 200 条序列。

获得输出文件后，我们可以使用 NumPy 加载它：

arrays = np.load('output_filename.npz', allow_pickle=True)

list(arrays.keys())  # 将输出 FASTA 文件中各条序列的名称（或未命名时为 '0'、'1' 等）。
arrays[<protein_id>]  # 返回一个字典，包含 'pooled' 和 'avg' 键（或使用 --full_sequence_embed 标志时为 'seq'）。

默认情况下，为节省内存，TAPE 会返回序列嵌入的平均值以及通过池化函数生成的池化嵌入。对于某些模型（如 UniRep），池化嵌入经过训练，可以直接使用。而对于其他模型（如 Transformer），池化嵌入未经训练，因此应使用平均嵌入。未来，我们将探索对所有模型的池化嵌入进行自监督训练的方法。

如果您希望获取完整的嵌入而不是平均嵌入，可以在运行 tape-embed 时添加 --full_sequence_embed 标志。

训练语言模型

Tape 提供了两个训练命令：tape-train 和 tape-train-distributed。第一个命令使用标准的 PyTorch 数据分发方式，在所有可用的 GPU 上进行分布式训练。第二个命令则采用类似于 torch.distributed.launch 的多进程机制，按照指定的 GPU 数量进行分布式训练（也可以用于跨多个节点的分布式训练）。我们通常建议使用第二个命令，因为它可以带来 10% 到 15% 的速度提升，但两者都可以正常工作。

例如，要对 Transformer 模型进行掩码语言建模训练，可以运行以下命令：

tape-train-distributed transformer masked_language_modeling --batch_size BS --learning_rate LR --fp16 --warmup_steps WS --nproc_per_node NGPU --gradient_accumulation_steps NSTEPS

在训练过程中，Tape 使用了多种特性：

多进程分布式训练
半精度训练
梯度累积
累积后的梯度 All-Reduce 操作
根据序列长度自动调整批次大小

你最可能需要的第一个特性是 gradient_accumulation_steps。默认情况下，Tape 设置了一个相对较高的批次大小（1024）。这个批次大小是指每次反向传播时使用的批次大小。实际每块 GPU 上处理的样本数量会等于总批次大小除以 GPU 数量再除以梯度累积步数。因此，如果批次大小为 1024、使用 2 块 GPU 且梯度累积步数为 1，则每块 GPU 将处理 512 个样本。如果你遇到显存不足的情况（很可能发生），Tape 会给出明确的错误提示，并建议你增加梯度累积步数。

此外还有其他一些未在此提及的功能。有关所有命令的详细信息，请参阅 tape-train-distributed --help。

评估语言模型

训练好语言模型后，你会在 results 文件夹中找到预训练权重文件。要评估该模型，你可以采取两种方法。一种是直接评估语言建模的准确率或困惑度。tape-train 会在每个 epoch 结束时报告训练集和验证集上的困惑度。然而，根据经验，我们认为语言建模的准确率和困惑度并不是衡量下游任务性能的良好指标。因此，为了更全面地评估语言模型，我们强烈建议你在我们提供的一个或多个下游任务上继续训练你的模型。

训练下游模型

使用 tape-train 命令同样可以训练下游任务模型。只需沿用与训练语言模型相同的语法，并添加 --from_pretrained <path_to_your_saved_results> 标志即可。例如，要在一个预训练的 Transformer 模型上进行二级结构预测训练，可以运行如下命令：

tape-train-distributed transformer secondary_structure \
	--from_pretrained results/<path_to_folder> \
	--batch_size BS \
	--learning_rate LR \
	--fp16 \
  	--warmup_steps WS \
  	--nproc_per_node NGPU \
  	--gradient_accumulation_steps NSTEPS \
  	--num_train_epochs NEPOCH \
  	--eval_freq EF \
  	--save_freq SF

在训练下游模型时，你可能需要不断尝试不同的超参数组合，以获得最佳效果（不同任务和不同模型的最佳超参数可能会有所不同）。需要考虑的参数包括：

* 批次大小
* 学习率
* 预热步数
* 训练轮数

这些参数都会显著影响模型性能，默认设置则是为了最大化语言建模任务的表现，而非下游任务。此外，eval_freq 和 save_freq 参数也很有用，它们分别用于减少验证频率和保存模型的频率。由于下游任务的训练轮数通常较短（而且往往需要更多轮次），适当提高这两个参数可以使训练过程更加高效。

评估下游模型

为了评估你的下游任务模型，我们提供了 tape-eval 命令。该命令会输出你的模型预测结果以及你指定的一组评估指标。目前支持均方误差 (mse)、平均绝对误差 (mae)、斯皮尔曼等级相关系数 (spearmanr) 和准确率 (accuracy)。L/5 精确度指标也将很快加入。

命令的语法如下：

tape-eval MODEL TASK TRAINED_MODEL_FOLDER --metrics METRIC1 METRIC2 ...

例如，要评估一个经过二级结构训练的 Transformer 模型，可以运行：

tape-eval transformer secondary_structure results/<path_to_trained_model> --metrics accuracy

这将报告整体准确率，并在训练好的模型目录中生成一个 results.pkl 文件，供你进一步分析。

trRosetta

我们最近重新实现了 Yang 等人（2020）提出的 trRosetta 模型。原始仓库的链接在这里，它是本次重实现的基础。我们提供了基于 PyTorch 的实现及数据集，方便大家探索和实验该模型。数据可从这里下载。这些数据与原论文中的数据相同，但我们额外提供了训练集和验证集的划分文件，以便你可以复现并训练自己的模型。使用该模型的方法如下：

from tape import TRRosetta
from tape.datasets import TRRosettaDataset

# 下载数据并将其放置在 `<data_path>/trrosetta` 目录下

train_data = TRRosettaDatset('<data_path>', 'train')  # 会对 MSA 进行采样
valid_data = TRRosettaDatset('<data_path>', 'valid')  # 不会对 MSA 进行采样

model = TRRosetta.from_pretrained('xaa')  # 可选值为 'xaa', 'xab', 'xac', 'xad', 'xae'，分别对应不同的集成模型。

batch = train_data.collate_fn([train_data[0]])
loss, predictions = model(**batch)

预测结果可以保存为 .npz 文件，然后输入到 Yang 实验室提供的结构建模脚本中进行进一步处理。

模型与任务列表

当前可用的模型包括：

transformer（提供预训练模型）
resnet
lstm
unirep（提供预训练模型）
onehot（无需预训练）
trrosetta（提供预训练模型）

当前可用的标准任务包括：

language_modeling
masked_language_modeling
secondary_structure
contact_prediction
remote_homology
fluorescence
stability
trrosetta（仅适用于 trrosetta 模型）

具体的模型和任务列表可以在 tape/datasets.py 和 tape/models/modeling*.py 中找到。

添加新模型和新任务

我们已努力使新的代码库更易于理解和扩展。请参阅 examples 文件夹，其中包含如何向 TAPE 添加新模型和新任务的示例。如果你希望看到更多示例，或者认为现有示例有所欠缺，请提交一个问题。

数据

数据应放置在 ./data 文件夹中，不过您也可以根据需要指定其他数据目录。

有监督数据压缩后约为 120MB，解压后约为 2GB。无监督 Pfam 数据集压缩后约为 7GB，解压后约为 19GB。用于训练的数据托管在 AWS 上。默认情况下，我们以 LMDB 格式提供数据——有关加载数据的示例，请参阅 tape/datasets.py。如果您希望下载 TAPE 的所有数据，可以运行 download_data.sh 脚本来完成下载。我们还在下方提供了每个数据集的 LMDB 和 JSON 格式链接。

LMDB 数据

原始数据

原始数据文件以 JSON 格式存储，以实现最大的可移植性。这些数据已被转换为 JSON 格式，因此移除了某些结构（尤其是 NumPy 数组）。因此，它们无法直接加载到提供的 PyTorch 数据集中（尽管只需添加对 np.array 的调用即可轻松完成转换）。

排行榜

我们很快将推出一个排行榜，用于跟踪 TAPE 核心五项任务的进展，请稍后再查看此处的链接。有关当前性能水平的参考信息，请参阅我们论文中的主要表格。排行榜的发布将以遵守以下引用规范为前提。

在此期间，以下是各任务的临时排行榜。该排行榜上报告的所有模型均使用了无监督预训练。

二级结构

排名	模型	准确率（3 类）
1.	One Hot + Alignment	0.80
2.	LSTM	0.75
2.	ResNet	0.75
4.	Transformer	0.73
4.	Bepler	0.73
4.	Unirep	0.73
7.	One Hot	0.69

接触预测

排名	模型	L/5 中长程
1.	One Hot + Alignment	0.64
2.	Bepler	0.40
3.	LSTM	0.39
4.	Transformer	0.36
5.	Unirep	0.34
6.	ResNet	0.29
6.	One Hot	0.29

远程同源性检测

排名	模型	Top 1 准确率
1.	LSTM	0.26
2.	Unirep	0.23
3.	Transformer	0.21
4.	Bepler	0.17
4.	ResNet	0.17
6.	One Hot + Alignment	0.09
6.	One Hot	0.09

荧光

排名	模型	斯皮尔曼等级相关系数
1.	Transformer	0.68
2.	LSTM	0.67
2.	Unirep	0.67
4.	Bepler	0.33
5.	ResNet	0.21
6.	One Hot	0.14

稳定性

排名	模型	斯皮尔曼等级相关系数
1.	Transformer	0.73
1.	Unirep	0.73
1.	ResNet	0.73
4.	LSTM	0.69
5.	Bepler	0.64
6.	One Hot	0.19

引用指南

如果您觉得 TAPE 有用，请引用我们的相关论文。此外，任何使用 TAPE 中提供的数据集的人员都必须说明并引用其所使用的全部数据集组件。生成这些数据需要耗费大量时间和资源，我们坚持要求所有 TAPE 用户对此予以认可。为方便起见，data_refs.bib 文件中包含了所有必要的引用信息。我们也在下方提供了每项数据集的具体引用。

TAPE（我们的论文）：

@inproceedings{tape2019,
author = {Rao, Roshan and Bhattacharya, Nicholas and Thomas, Neil and Duan, Yan and Chen, Xi and Canny, John and Abbeel, Pieter and Song, Yun S},
title = {Evaluating Protein Transfer Learning with TAPE},
booktitle = {Advances in Neural Information Processing Systems}
year = {2019}
}

Pfam（预训练）：

@article{pfam,
author = {El-Gebali, Sara and Mistry, Jaina and Bateman, Alex and Eddy, Sean R and Luciani, Aur{\'{e}}lien and Potter, Simon C and Qureshi, Matloob and Richardson, Lorna J and Salazar, Gustavo A and Smart, Alfredo and Sonnhammer, Erik L L and Hirsh, Layla and Paladin, Lisanna and Piovesan, Damiano and Tosatto, Silvio C E and Finn, Robert D},
doi = {10.1093/nar/gky995},
file = {::},
issn = {0305-1048},
journal = {Nucleic Acids Research},
keywords = {community,protein domains,tandem repeat sequences},
number = {D1},
pages = {D427--D432},
publisher = {Narnia},
title = {{The Pfam protein families database in 2019}},
url = {https://academic.oup.com/nar/article/47/D1/D427/5144153},
volume = {47},
year = {2019}
}

SCOPe：（远程同源性和接触）-

@article{scop,
  title={SCOPe: Structural Classification of Proteins—extended, integrating SCOP and ASTRAL data and classification of new structures},
  author={Fox, Naomi K and Brenner, Steven E and Chandonia, John-Marc},
  journal={Nucleic acids research},
  volume={42},
  number={D1},
  pages={D304--D309},
  year={2013},
  publisher={Oxford University Press}
}

PDB：（二级结构和接触）

@article{pdb,
  title={The protein data bank},
  author={Berman, Helen M and Westbrook, John and Feng, Zukang and Gilliland, Gary and Bhat, Talapady N and Weissig, Helge and Shindyalov, Ilya N and Bourne, Philip E},
  journal={Nucleic acids research},
  volume={28},
  number={1},
  pages={235--242},
  year={2000},
  publisher={Oxford University Press}
}

CASP12：（二级结构和接触）

@article{casp,
author = {Moult, John and Fidelis, Krzysztof and Kryshtafovych, Andriy and Schwede, Torsten and Tramontano, Anna},
doi = {10.1002/prot.25415},
issn = {08873585},
journal = {Proteins: Structure, Function, and Bioinformatics},
keywords = {CASP,community wide experiment,protein structure prediction},
pages = {7--15},
publisher = {John Wiley {\&} Sons, Ltd},
title = {{Critical assessment of methods of protein structure prediction (CASP)-Round XII}},
url = {http://doi.wiley.com/10.1002/prot.25415},
volume = {86},
year = {2018}
}

NetSurfP2.0：（二级结构）

@article{netsurfp,
  title={NetSurfP-2.0: Improved prediction of protein structural features by integrated deep learning},
  author={Klausen, Michael Schantz and Jespersen, Martin Closter and Nielsen, Henrik and Jensen, Kamilla Kjaergaard and Jurtz, Vanessa Isabell and Soenderby, Casper Kaae and Sommer, Morten Otto Alexander and Winther, Ole and Nielsen, Morten and Petersen, Bent and others},
  journal={Proteins: Structure, Function, and Bioinformatics},
  year={2019},
  publisher={Wiley Online Library}
}

ProteinNet：（接触）

@article{proteinnet,
  title={ProteinNet: a standardized data set for machine learning of protein structure},
  author={AlQuraishi, Mohammed},
  journal={arXiv preprint arXiv:1902.00249},
  year={2019}
}

荧光：

@article{sarkisyan2016,
  title={Local fitness landscape of the green fluorescent protein},
  author={Sarkisyan, Karen S and Bolotin, Dmitry A and Meer, Margarita V and Usmanova, Dinara R and Mishin, Alexander S and Sharonov, George V and Ivankov, Dmitry N and Bozhanova, Nina G and Baranov, Mikhail S and Soylemez, Onuralp and others},
  journal={Nature},
  volume={533},
  number={7603},
  pages={397},
  year={2016},
  publisher={Nature Publishing Group}
}

稳定性：

@article{rocklin2017,
  title={Global analysis of protein folding using massively parallel design, synthesis, and testing},
  author={Rocklin, Gabriel J and Chidyausiku, Tamuka M and Goreshnik, Inna and Ford, Alex and Houliston, Scott and Lemak, Alexander and Carter, Lauren and Ravichandran, Rashmi and Mulligan, Vikram K and Chevalier, Aaron and others},
  journal={Science},
  volume={357},
  number={6347},
  pages={168--175},
  year={2017},
  publisher={American Association for the Advancement of Science}
}

TAPE 快速上手指南

TAPE (Tasks Assessing Protein Embeddings) 是一个用于评估蛋白质嵌入模型的基准工具包，提供预训练语料库、五个监督下游任务、预训练语言模型权重及基准测试代码。本项目已迁移至 PyTorch 框架。

环境准备

系统要求：Linux 或 macOS（Windows 支持未明确提及，建议优先使用 Linux）。
Python 版本：建议使用 Python 3.6+。
前置依赖：
- PyTorch (最新稳定版)
- CUDA (如需使用 GPU 加速)
- 建议创建独立的虚拟环境以避免依赖冲突。

安装步骤

推荐使用 pip 在虚拟环境中安装官方发布的包：

# 创建并激活虚拟环境 (可选但推荐)
python -m venv tape_env
source tape_env/bin/activate  # Linux/macOS
# tape_env\Scripts\activate   # Windows

# 安装 tape_proteins
pip install tape_proteins

注意：国内用户若下载缓慢，可尝试添加清华或阿里镜像源： pip install tape_proteins -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

1. 加载预训练模型并生成嵌入 (Python API)

TAPE 集成了 Hugging Face Transformers API，可自动下载并缓存预训练模型。以下示例展示如何加载 bert-base 模型并对蛋白质序列进行编码：

import torch
from tape import ProteinBertModel, TAPETokenizer

# 加载预训练模型 (自动下载 'bert-base')
model = ProteinBertModel.from_pretrained('bert-base')

# 初始化分词器 (TAPE 模型使用 'iupac' 词汇表)
tokenizer = TAPETokenizer(vocab='iupac')

# 示例蛋白质序列
sequence = 'GCTVEDRCLIGMGAILLNGCVIGSGSLVAAGALITQ'

# 编码序列并转换为 Tensor
token_ids = torch.tensor([tokenizer.encode(sequence)])

# 前向传播获取输出
output = model(token_ids)
sequence_output = output[0]  # 序列级输出
pooled_output = output[1]    # 池化输出

# 注意：对于 Transformer 模型，pooled_output 未经过专门训练。
# 建议直接使用 sequence_output 的均值作为序列表示，除非进行了微调。

可用预训练模型列表：

bert-base: Transformer 模型
babbler-1900: UniRep 模型
xaa, xab, xac, xad, xae: trRosetta 模型

2. 批量生成蛋白质嵌入 (命令行工具)

若需处理 FASTA 文件中的大量序列，可使用 tape-embed 命令生成 .npz 格式的特征文件。

输入文件 (input.fasta)：

>seq1
GCTVEDRCLIGMGAILLNGCVIGSGSLVAAGALITQ
>seq2
RTIKVRILHAIGFEGGLMLLTIPMVAYAMDMTLFQAILLDLSMTTCILVYTFIFQWCYDILENR

执行命令：以下命令使用 UniRep (babbler-1900) 模型进行嵌入。注意 UniRep 需指定 --tokenizer unirep。

tape-embed unirep input.fasta output_filename.npz babbler-1900 --tokenizer unirep

模型会自动下载（如需）。
支持多 GPU 自动并行加速。
默认输出包含平均嵌入 (avg) 和池化嵌入 (pooled)。如需完整序列嵌入，请添加 --full_sequence_embed 标志。

读取结果：

import numpy as np

arrays = np.load('output_filename.npz', allow_pickle=True)
print(list(arrays.keys()))  # 查看序列 ID (如 'seq1', 'seq2')

# 获取特定蛋白质的嵌入字典 (包含 'pooled' 和 'avg')
data = arrays['seq1']

3. 下游任务微调示例

使用预训练模型在下游任务（如二级结构预测）上进行微调：

tape-train-distributed transformer secondary_structure \
	--from_pretrained results/<path_to_saved_model> \
	--batch_size 32 \
	--learning_rate 1e-4 \
	--fp16 \
  	--warmup_steps 100 \
  	--nproc_per_node 2 \
  	--gradient_accumulation_steps 4 \
  	--num_train_epochs 10

--from_pretrained: 指向预训练权重路径。
--gradient_accumulation_steps: 显存不足时增大此值以模拟更大 batch size。
--fp16: 启用半精度训练以节省显存并加速。

版本历史

v0.52021/09/07

v0.42020/05/01

常见问题

运行 tape-embed 时遇到 CUDA 内存溢出（OOM）错误但没有明确报错，或者结果明显错误怎么办？

使用 pip 安装 tape_proteins 后，加载预训练模型（如 bert-base）时出现 JSONDecodeError 错误如何解决？

如何使用命令行获取蛋白质序列的嵌入向量（embedding）？

项目是否提供预训练的 LSTM 模型？如果没有，有什么替代方案？

运行 tape-embed 生成 bert-base 嵌入时，为什么只得到 1900 维的向量或者报错？

运行评估任务（如 secondary_structure_8）时出现 OOM 错误怎么办？

运行 tape-embed 时出现 config.json 相关的 URL 错误或 403 Forbidden 错误是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架