proteinnet

913 138 简单 1 次阅读 6天前MIT数据工具开发框架

AI 解读由 AI 自动生成，仅供参考

ProteinNet 是一套专为蛋白质结构机器学习设计的标准化数据集。它整合了蛋白质序列、二级与三级结构、多序列比对（MSA）以及位置特异性评分矩阵（PSSM），并提供了严格划分的训练、验证和测试集。

在生物化学领域，蛋白质结构预测虽至关重要，但机器学习研究者往往因缺乏统一的数据标准和历史版本控制而难以公平评估新算法。ProteinNet 正是为了解决这一痛点而生。它巧妙依托每两年举办一次的 CASP（蛋白质结构预测关键评估）竞赛，利用其“盲测”机制构建测试集，确保评估结果代表当时的技术前沿。更独特的是，ProteinNet 通过回溯历史数据库，重构了每个 CASP 节点之前的数据环境，有效避免了数据泄露，让模型训练与测试的时间界限清晰分明。

这套工具非常适合从事生物信息学、计算生物学以及深度学习领域的研究人员和开发者使用。无论是希望在数据稀缺环境下探索新方法的学者，还是致力于推动 AI 在生命科学领域应用的工程师，都能利用 ProteinNet 快速搭建实验环境，进行公平、可复现的算法对比与研究，从而加速蛋白质结构预测技术的创新突破。

使用场景

某生物计算实验室的研究团队正致力于开发一种基于深度学习的新型蛋白质结构预测模型，急需高质量且无数据泄露风险的数据集进行训练与评估。

没有 proteinnet 时

数据清洗耗时巨大：研究人员需手动从 UniProt 等数据库抓取序列，并自行构建多序列比对（MSA）和位置特异性评分矩阵（PSSM），预处理流程繁琐且易出错。
难以杜绝数据泄露：由于缺乏按时间切分的标准数据集，训练集中可能混入测试阶段已解构的蛋白质信息，导致模型评估虚高，无法反映真实泛化能力。
学术对比不公平：不同团队使用的训练/验证/测试集划分标准不一，使得新提出的算法难以与现有方法进行公平、一致的性能基准对比。
历史复现困难：公共数据库不断更新，无法获取特定 CASP 竞赛时期的“历史快照”，导致无法复现或验证几年前的经典算法效果。

使用 proteinnet 后

开箱即用的标准化数据：proteinnet 直接提供包含序列、二级/三级结构、MSA 及 PSSM 的完整数据包，团队可跳过数周的数据工程，立即投入模型架构设计。
严格的时间隔离机制：借助 proteinnet 基于 CASP 竞赛构建的“时间重置”测试集，确保了训练数据严格早于测试数据，彻底消除了数据泄露隐患，评估结果真实可信。
统一的基准评测体系：利用 proteinnet 固定的训练/验证/测试划分，团队能直接将模型性能与全球其他研究组在同等条件下进行横向对比，显著提升论文说服力。
多时期数据覆盖：通过调用涵盖 CASP 7 至 12 的不同版本数据集，团队既能利用大数据量训练强力模型，也能在小数据场景下验证方法的鲁棒性。

proteinnet 通过提供像 ImageNet 一样标准化的时空隔离数据集，极大地降低了蛋白质结构预测领域的机器学习研发门槛，让算法创新不再受制于数据处理的泥潭。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明（注：构建原始数据需数百万计算小时，原始 MSA 数据达 4TB）

依赖

notesProteinNet 主要是一个标准化数据集而非直接运行的软件模型。它提供文本格式和 TensorFlow TFRecord 格式的数据文件。官方提供基于 TensorFlow 的解析器，社区提供基于 PyTorch 的解析器。若需获取用于构建数据集的原始多序列比对（MSA）数据（约 4TB），需要申请并安装 Globus 客户端进行下载。数据集涵盖 CASP 7 至 12，用于蛋白质结构预测的机器学习研究。

python未说明

TensorFlow (官方解析器)

PyTorch (社区解析器)

Globus Client (用于下载原始数据)

快速开始

ProteinNet

ProteinNet 是一个用于蛋白质结构机器学习的标准化数据集。它提供了蛋白质序列、结构（包括二级结构和三级结构）、多序列比对（MSAs）、位置特异性评分矩阵（PSSMs）以及标准化的训练/验证/测试划分。ProteinNet 基于两年一度的 CASP 评估——该评估对近期解析但尚未公开的蛋白质结构进行盲测——来提供能够推动计算方法前沿发展的测试集。它以一系列数据集的形式组织，涵盖 CASP 7 至 12（为期十年），从而提供不同规模的数据集，便于在数据相对匮乏和丰富的场景下评估新方法。

请注意，这只是一个初步版本。 用于构建这些数据集的原始数据以及 MSA 尚未公开发布。不过，ProteinNet 12 的原始 MSA 数据（4TB）可按需提供。传输需要下载 Globus 客户端。更多信息请参阅原始数据部分。

动机

蛋白质结构预测是生物化学的核心问题之一。尽管这一领域在生物学和化学界已被广泛研究，但在机器学习社区中的关注度却相对较低。我们推测这主要有两个原因：1) 对非领域专家而言，入门门槛较高；2) 缺乏标准化的训练/验证/测试划分，难以实现不同方法之间公平且一致的比较。如果能解决这两个问题，蛋白质结构预测有望成为机器学习研究中继计算机视觉、自然语言处理和语音识别之后的重要创新方向。正如 ImageNet 曾经推动了计算机视觉技术的发展一样，ProteinNet 旨在通过提供标准化的数据集及训练/验证/测试划分，使任何研究团队都能以最小的努力开展蛋白质结构相关的机器学习研究。

方法

每两年一次，会举行 CASP 评估。在这项竞赛中，来自全球的结构预测者会收到一些近期已解析但尚未公开的蛋白质序列，并对其结构进行盲测，随后根据预测的准确性进行评估。因此，CASP 结构为评估预测方法在某一特定时刻的表现提供了一个标准化的基准。ProteinNet 的基本思路是依托 CASP，将 CASP 结构用作测试集。同时，ProteinNet 还为这些测试集补充了训练和验证集，这些集合将“历史记录重置”到每次 CASP 实验开始之前的状态。具体来说，ProteinNet 限制了用于构建 PSSM 和 MSA 的序列及结构，仅使用各次 CASP 开始前可用的数据。这一点至关重要，因为像 BLAST 这样的标准数据库并不保留历史版本。我们使用时间重置后的 UniParc 数据集以及来自 JGI 的宏基因组序列来构建用于生成 MSA 的序列数据库。此外，ProteinNet 还提供了精心划分的验证集，难度从简单（序列相似度 >90%）——可用于评估模型预测蛋白质结构微小变化的能力，如突变——到极其困难（序列相似度 <10%）——可用于评估模型预测全新蛋白质折叠的能力，类似于 CASP 自由建模（FM）类别。从某种意义上讲，我们的验证集构成了一系列迁移性挑战，用以测试模型在数据分布发生变化时的适应能力。我们发现，最难的验证子集甚至超过了 CASP FM 目标的难度。

下载

ProteinNet 记录以两种形式提供：人类可读和机器可读的文本文件，可被任何工具以编程方式使用；以及 TensorFlow 特有的 TFRecord 文件。有关文件格式的更多信息，请参阅文档此处。

CASP7	CASP8	CASP9	CASP10	CASP11	CASP12*
文本版	文本版	文本版	文本版	文本版	文本版
TF Records	TF Records	TF Records	TF Records	TF Records	TF Records

二级结构数据
ASTRAL 条目
PDB 条目

* CASP12 的测试集因受禁运保护的结构而尚未完整。一旦禁运解除，我们将公布所有结构。

文档

PyTorch 解析器

ProteinNet 包含一个官方的基于 TensorFlow 的解析器。Jeppe Hallgren 慷慨地创建了一个基于 PyTorch 的解析器，该解析器可在这里获取。

扩展

SideChainNet 通过添加侧链原子的角度和原子坐标信息，对 ProteinNet 进行了扩展。

引用

请在 BMC 生物信息学期刊中引用 ProteinNet 论文。

致谢

构建该数据集耗费了数百万小时的计算资源，这得益于哈佛医学院系统药理学实验室、哈佛治疗科学项目以及哈佛医学院研究计算部门的慷慨支持。我们还要感谢 Martin Steinegger 和 Milot Mirdita 在 MMseqs2 和 HHblits 软件包方面提供的大量帮助；感谢 Sergey Ovchinnikov 提供宏基因组序列；感谢 Andriy Kryshtafovych 在 CASP 数据方面的协助；以及感谢 Sean Eddy 在 HMMer 软件包方面的帮助。该数据集由哈佛大学哈佛医学院研究信息技术解决方案部门托管。

资助

本研究得到了 NIGMS 资助项目 P50GM107618 和 NCI 资助项目 U54-CA225088 的支持。

ProteinNet 快速上手指南

ProteinNet 是一个用于蛋白质结构机器学习研究的标准化数据集。它基于 CASP（蛋白质结构预测关键评估）竞赛数据，提供了蛋白质序列、二级/三级结构、多序列比对（MSA）和位置特异性评分矩阵（PSSM），并划分了标准的训练/验证/测试集，旨在降低非领域专家的研究门槛并促进方法间的公平比较。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux 或 macOS (Windows 用户建议使用 WSL2 或 Docker)。
Python: 建议版本 3.6 及以上。
深度学习框架:
- TensorFlow: 官方原生支持 TFRecord 格式。
- PyTorch: 社区提供了兼容的解析器（需额外安装）。
存储空间: 根据选择的 CASP 版本（CASP7-12），数据集大小从几百 MB 到数 GB 不等。若需原始 MSA 数据（仅限 CASP12），需预留 4TB 空间并配置 Globus 客户端。
网络环境: 数据托管于哈佛大学服务器，国内下载速度可能较慢，建议配置稳定的网络环境或使用代理加速。目前暂无官方中国镜像源。

安装步骤

ProteinNet 本身是一个数据集而非 Python 包，因此无需通过 pip 安装核心库。您需要根据使用的框架准备相应的解析工具。

1. 准备基础依赖

确保已安装必要的数据处理库：

pip install numpy pandas tqdm

2. 框架特定解析器

TensorFlow 用户: 无需额外安装，直接使用 TensorFlow 内置 API 读取 .tfrecord 文件。
```
pip install tensorflow
```

PyTorch 用户: 推荐使用社区维护的 OpenProtein 项目中的解析脚本。

# 克隆包含 PyTorch 解析器的仓库
git clone https://github.com/OpenProtein/openprotein.git
# 解析器位于 openprotein/preprocessing.py

3. 下载数据集

访问官方下载页面选择所需的 CASP 版本（文本格式或 TFRecord 格式）。以下以命令行下载 CASP12 TFRecord 为例：

# 创建数据目录
mkdir -p proteinnet_data
cd proteinnet_data

# 下载 CASP12 TFRecord 数据 (其他版本替换 URL 即可)
wget https://sharehost.hms.harvard.edu/sysbio/alquraishi/proteinnet/tfrecords/casp12.tar.gz

# 解压数据
tar -xzf casp12.tar.gz

(注：如需二级结构注释等辅助数据，请参考 README 中的 Dropbox 链接手动下载)

基本使用

以下是加载数据的最简示例。

方案 A：使用 TensorFlow (官方推荐)

直接读取 .tfrecord 文件：

import tensorflow as tf

# 定义文件路径
file_path = "proteinnet_data/casp12/train.tfrecord" # 假设解压后的文件名

# 创建数据集对象
dataset = tf.data.TFRecordDataset(file_path)

# 定义解析函数 (需参考官方 docs/proteinnet_records.md 定义 feature description)
def _parse_function(proto):
    # 此处需根据实际 record 结构定义 features，以下为示意
    features = {
        "sequence": tf.io.FixedLenFeature([], tf.string),
        "structure": tf.io.FixedLenFeature([], tf.string),
        # ... 其他字段
    }
    return tf.io.parse_single_example(proto, features)

# 映射解析函数
parsed_dataset = dataset.map(_parse_function)

# 遍历数据
for example in parsed_dataset.take(1):
    print(example['sequence'])

方案 B：使用 PyTorch (社区方案)

利用 OpenProtein 仓库中的预处理脚本进行加载：

import sys
# 引入下载的 OpenProtein 解析模块
sys.path.append('openprotein') 
from preprocessing import ProteinNetParser

# 初始化解析器 (具体参数需参考该仓库文档)
parser = ProteinNetParser()

# 加载数据 (示例路径)
data_path = "proteinnet_data/casp12/train.txt" # 如果使用文本格式
# 注意：PyTorch 解析器通常针对文本格式优化，若需使用 TFRecord 可能需要转换或自定义 Dataset 类

# 模拟获取一条数据
# sequence, structure, msa = parser.parse_entry(entry_line)
print("PyTorch 解析器已就绪，请参考 openprotein/preprocessing.py 实现自定义 Dataset 类。")

数据划分说明

下载的数据包通常已按标准划分为：

Train: 用于模型训练。
Validation: 包含不同难度子集（序列相似度 >90% 到 <10%），用于评估模型泛化能力。
Test: 基于 CASP 竞赛的盲测数据，用于最终基准测试。

在使用时，请根据实验目的选择对应的文件子集。

常见问题

ProteinNet 数据与原始 PDB/mmCIF 文件中的序列长度或模型 ID 为何不一致？

如何解析 ProteinNet 的 TFRecord 数据以便用于 Keras 或 TensorFlow 模型？

论文《End-to-end differentiable learning of protein structure》的代码和模型在哪里下载？

ProteinNet 中类似 '1IQ8_d1iq8b4' 这样的奇怪 ID 格式代表什么意思？

为什么使用 BioPython 读取 PDB 文件时，得到的序列与 ProteinNet 提供的序列不匹配？

是否有比 TFRecord 更容易使用的数据格式供初学者快速上手？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架