ogb

2.1k 407 简单 1 次阅读昨天MIT数据工具开发框架

AI 解读由 AI 自动生成，仅供参考

OGB（Open Graph Benchmark）是一个专为图机器学习领域打造的开源基准平台，旨在提供标准化的数据集、数据加载器及评估工具。在图神经网络研究中，过去常面临数据集格式不统一、划分方式随意以及评估指标不一致等痛点，导致不同算法之间难以进行公平对比。OGB 通过提供覆盖节点、链接和图三个层级的预测任务，有效解决了这一难题。

该平台收录了来自科学计算、社交网络及知识图谱等多个领域的丰富数据，规模从小型单卡可处理到需要多卡分布式训练的大型图应有尽有。其核心亮点在于高度兼容主流深度学习框架（如 PyTorch Geometric 和 DGL），用户仅需几行代码即可自动完成数据下载、预处理及标准化划分。此外，OGB 内置了统一的评估器，确保实验结果的可复现性和可比性。

OGB 非常适合从事图机器学习算法研究的科研人员、希望快速验证模型效果的开发者，以及需要权威基准来评估新方法的工程师使用。无论是学术探索还是工业界应用，OGB 都能帮助用户摆脱繁琐的数据工程负担，将精力集中于核心算法的创新与优化上。

使用场景

某生物制药公司的算法团队正致力于利用图神经网络预测新合成分子的抗病毒活性，以加速药物筛选流程。

没有 ogb 时

数据获取繁琐：研究人员需手动从不同源头下载分子数据集，编写复杂的解析脚本清洗数据，耗时数天且容易出错。
评估标准混乱：团队成员各自定义训练集、验证集和测试集的划分比例，导致模型结果无法横向对比，复现论文性能极其困难。
框架适配成本高：将原始数据转换为 PyTorch Geometric 或 DGL 所需的格式需要大量样板代码，分散了优化模型架构的精力。
指标计算不一：缺乏统一的评估器，不同成员使用的评价指标（如 ROC-AUC 计算方式）存在细微差异，误导了模型选型决策。

使用 ogb 后

一键加载数据：仅需几行代码即可自动下载并预处理标准的 ogbg-molhiv 分子数据集，将数据准备时间从几天缩短至几分钟。
标准化数据划分：ogb 提供官方固定的数据集分割索引，确保所有实验在相同的数据分布下进行，结果具备公平的可比性。
无缝框架集成：内置的数据加载器直接兼容主流图学习框架，自动处理数据格式转换，让团队能专注于核心算法创新。
统一性能评估：调用内置的标准评估器即可得出权威指标，消除了人为计算误差，快速锁定最优模型方案。

ogb 通过提供标准化的数据基准与评估体系，彻底消除了图机器学习研发中的“重复造轮子”现象，让科研人员能全心聚焦于算法突破。

运行环境要求

GPU

未说明（文档仅提及小数据集可在单 GPU 处理，中大规模可能需要多 GPU，无具体型号或显存要求）

内存

未说明

依赖

notes建议安装版本更新至 1.3.6。该工具提供图机器学习的数据集加载器和评估器，兼容 PyTorch Geometric 和 DGL 框架。首次运行会自动下载数据集，中小规模数据集可单卡运行，大规模数据集可能需要多 GPU 或采样/分区技术。

python>=3.6

PyTorch>=1.6

DGL>=0.5.0 或 torch-geometric>=2.0.2

Numpy>=1.16.0

pandas>=0.24.0

urllib3>=1.24.0

scikit-learn>=0.20.0

outdated>=0.2.0

快速开始

概述

开放图基准（OGB）是一套用于图机器学习的基准数据集、数据加载器和评估工具。这些数据集涵盖了多种图机器学习任务和现实世界应用。 OGB 的数据加载器与流行的图深度学习框架完全兼容，包括 PyTorch Geometric 和 Deep Graph Library (DGL)。它们提供自动下载数据集、标准化的数据划分以及统一的性能评估功能。

OGB 的目标是提供覆盖重要图机器学习任务、具有不同规模并涉及丰富领域的图数据集。

图机器学习任务： 我们涵盖了三种基本的图机器学习任务：节点级预测、边级预测和图级预测。

多样化的规模： 小规模图数据集可以在单个 GPU 上处理，而中大规模图可能需要使用多个 GPU 或巧妙的采样/分区技术。

丰富的领域： 图数据集来自不同的领域，从科学领域到社交网络和信息网络，还包括异构知识图谱。

OGB 是一项持续进行的工作，我们计划在未来进一步扩大其覆盖范围。

安装

您可以使用 Python 的包管理器 pip 来安装 OGB。 如果您之前已经安装过 ogb，请确保将其更新至 1.3.6 版本。 发布说明请参见此处。

需求

Python>=3.6
PyTorch>=1.6
DGL>=0.5.0 或 torch-geometric>=2.0.2
Numpy>=1.16.0
pandas>=0.24.0
urllib3>=1.24.0
scikit-learn>=0.20.0
outdated>=0.2.0

使用 pip 安装

推荐使用 Python 的包管理器 pip 来安装 OGB：

pip install ogb

python -c "import ogb; print(ogb.__version__)"
# 这应该打印出 "1.3.6"。否则，请通过以下命令更新版本：
pip install -U ogb

从源代码安装

您也可以从源代码安装 OGB。如果您希望为 OGB 做出贡献，建议采用此方法。

git clone https://github.com/snap-stanford/ogb
cd ogb
pip install -e .

软件包使用

我们重点介绍 OGB 的两个关键特性，即 (1) 易于使用的数据加载器，以及 (2) 标准化的评估工具。

(1) 数据加载器

我们提供了易于使用的 PyTorch Geometric 和 DGL 数据加载器。它们负责数据集的下载以及标准化的数据划分。以下以 PyTorch Geometric 为例，只需几行代码即可完成数据集的准备和划分！当然，DGL 也同样方便！

from ogb.graphproppred import PygGraphPropPredDataset
from torch_geometric.loader import DataLoader

# 下载并处理数据至 './dataset/ogbg_molhiv/'
dataset = PygGraphPropPredDataset(name = 'ogbg-molhiv')

split_idx = dataset.get_idx_split() 
train_loader = DataLoader(dataset[split_idx['train']], batch_size=32, shuffle=True)
valid_loader = DataLoader(dataset[split_idx['valid']], batch_size=32, shuffle=False)
test_loader = DataLoader(dataset[split_idx['test']], batch_size=32, shuffle=False)

(2) 评估工具

我们还提供了标准化的评估工具，便于对不同方法进行评估和比较。评估工具接受一个 input_dict（其格式由 evaluator.expected_input_format 指定）作为输入，并返回一个包含针对特定数据集的性能指标的字典。这种标准化的评估协议使研究人员能够可靠地比较各自的方法。

from ogb.graphproppred import Evaluator

evaluator = Evaluator(name = 'ogbg-molhiv')
# 您可以通过以下方式了解评估工具的输入和输出格式规范：
# print(evaluator.expected_input_format) 
# print(evaluator.expected_output_format) 
input_dict = {'y_true': y_true, 'y_pred': y_pred}
result_dict = evaluator.eval(input_dict) # 例如，{'rocauc': 0.7321}

引用 OGB / OGB-LSC

如果您在工作中使用了 OGB 或 OGB-LSC 的数据集，请引用我们的论文（BibTeX 如下）。

@article{hu2020ogb,
  title={Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  author={Hu, Weihua and Fey, Matthias and Zitnik, Marinka and Dong, Yuxiao and Ren, Hongyu and Liu, Bowen and Catasta, Michele and Leskovec, Jure},
  journal={arXiv preprint arXiv:2005.00687},
  year={2020}
}

@article{hu2021ogblsc,
  title={OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs},
  author={Hu, Weihua and Fey, Matthias and Ren, Hongyu and Nakata, Maho and Dong, Yuxiao and Leskovec, Jure},
  journal={arXiv preprint arXiv:2103.09430},
  year={2021}
}

OGB 快速上手指南

Open Graph Benchmark (OGB) 是一套用于图机器学习的基准数据集、数据加载器和评估器集合。它涵盖了节点、链接和图级别的预测任务，并完美兼容 PyTorch Geometric (PyG) 和 Deep Graph Library (DGL) 框架，提供自动下载、标准化划分及统一性能评估。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux, macOS, Windows
Python: >= 3.6
深度学习框架:
- PyTorch >= 1.6
- 以及以下任一图神经网络库：
  - DGL >= 0.5.0
  - 或 torch-geometric >= 2.0.2
其他依赖:
- Numpy >= 1.16.0
- pandas >= 0.24.0
- scikit-learn >= 0.20.0
- urllib3 >= 1.24.0
- outdated >= 0.2.0

提示：国内用户建议使用清华源或阿里源加速 Python 包的安装。

安装步骤

推荐使用 pip 进行安装。如果您之前安装过 OGB，请务必更新至最新版本 (1.3.6)。

1. 使用 pip 安装（推荐）

pip install ogb -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后，验证版本是否正确：

python -c "import ogb; print(ogb.__version__)"
# 应输出 "1.3.6"。如果不是，请运行以下命令升级：
# pip install -U ogb

2. 从源码安装（可选）

如果您需要贡献代码或使用最新开发版，可从 GitHub 克隆源码安装：

git clone https://github.com/snap-stanford/ogb
cd ogb
pip install -e .

基本使用

OGB 的核心功能包括易用的数据加载器和标准化的评估器。以下以 PyTorch Geometric 为例，展示如何加载 ogbg-molhiv 数据集并进行评估。

1. 数据加载与划分

OGB 会自动处理数据集的下载、预处理以及训练/验证/测试集的标准化划分。

from ogb.graphproppred import PygGraphPropPredDataset
from torch_geometric.loader import DataLoader

# 自动下载并处理数据到 './dataset/ogbg_molhiv/'
dataset = PygGraphPropPredDataset(name='ogbg-molhiv')

# 获取标准化的数据划分索引
split_idx = dataset.get_idx_split() 

# 创建数据加载器
train_loader = DataLoader(dataset[split_idx['train']], batch_size=32, shuffle=True)
valid_loader = DataLoader(dataset[split_idx['valid']], batch_size=32, shuffle=False)
test_loader = DataLoader(dataset[split_idx['test']], batch_size=32, shuffle=False)

2. 模型评估

使用 OGB 提供的标准化评估器，只需传入预测结果即可得到符合该数据集标准的性能指标（如 ROC-AUC）。

from ogb.graphproppred import Evaluator

# 初始化评估器
evaluator = Evaluator(name='ogbg-molhiv')

# 查看输入/输出格式规范（可选）
# print(evaluator.expected_input_format) 
# print(evaluator.expected_output_format) 

# 准备数据：y_true 为真实标签，y_pred 为模型预测值
input_dict = {'y_true': y_true, 'y_pred': y_pred}

# 执行评估，返回包含指标字典（例如 {'rocauc': 0.7321}）
result_dict = evaluator.eval(input_dict)

版本历史

1.3.62023/04/07

1.3.52022/11/02

1.3.42022/08/20

1.3.22021/09/29

1.3.12021/04/07

1.3.02021/03/15

1.2.62021/03/01

1.2.52021/02/24

1.2.42020/12/29

1.2.32020/09/12

1.2.22020/08/12

1.2.12020/06/27

1.2.02020/06/11

1.1.12020/05/05

1.1.02020/05/01

1.0.12020/03/23

常见问题

导入 ogb.graphproppred 时卡住或报错怎么办？

在链接预测任务（如 ogbl-collab）中，GNN 模型是否应该使用完整的邻接矩阵进行训练？

PCQM4Mv2 数据集中的 SDF 文件是否包含氢原子坐标信息？是否需要额外下载 xyz 文件？

OGB 排行榜提交后多久能看到结果？如果一周还没显示正常吗？

在标签传播（Label Propagation）等无参数方法中，允许使用验证集标签进行传播吗？

ogbl-biokg 数据集中的测试边是如何构建负样本的？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent