awesome-graph-self-supervised-learning
awesome-graph-self-supervised-learning 是一个专为图数据自监督学习领域打造的精选资源库,源自 TKDE 期刊论文"Self-supervised learning on graphs: Contrastive, generative, or predictive"的配套代码与文献整理。它旨在解决图神经网络研究中标注数据稀缺、训练成本高昂的痛点,通过系统梳理无需人工标签即可挖掘数据内在价值的学习方法,帮助研究者高效掌握前沿技术。
该资源库特别适合人工智能研究人员、算法工程师及高校师生使用。它将复杂的自监督学习技术清晰地划分为三大核心流派:对比学习(通过数据增强视图间的异同提取特征)、生成式学习(基于重构等任务挖掘数据内部结构)以及预测式学习(利用统计规律或领域知识自动生成标签进行预训练)。此外,它还提供了详尽的训练策略分析、常用图数据集汇总以及开源代码索引。
其独特亮点在于不仅罗列论文,更构建了逻辑严密的分类体系,涵盖了从“全局 - 全局”到“局部 - 上下文”等多种细粒度的对比模式,并总结了具体的实现细节。无论是希望快速入门的新手,还是寻求灵感突破的资深专家,都能从中获得系统的理论指引与实用的工程参考,是探索图表示学习不可或缺的知识地图。
使用场景
某生物制药公司的算法团队正试图利用分子图数据预测新药的毒性,但面临高质量标注数据极度稀缺的困境。
没有 awesome-graph-self-supervised-learning 时
- 选型迷茫:面对对比学习、生成式学习和预测式学习三大类繁杂的论文,团队难以快速厘清技术路线,耗费数周调研仍无法确定最适合分子图特性的方法。
- 复现困难:缺乏统一的代码基准,研究人员需从零复现不同论文的实验,常因超参数设置不当或数据预处理差异导致结果无法对齐,开发效率极低。
- 数据浪费:由于依赖少量有标签数据进行监督训练,模型无法利用海量的无标签分子结构数据,导致在冷启动场景下泛化能力差,预测准确率远低于预期。
- 资源分散:常用的图数据集和开源实现散落在各个独立的 GitHub 仓库中,缺乏系统性整理,团队在数据清洗和环境配置上重复造轮子。
使用 awesome-graph-self-supervised-learning 后
- 路径清晰:借助其清晰的分类体系(如全局 - 全局对比、图自编码等),团队迅速锁定了适合分子属性预测的“上下文对比学习”方案,将技术选型时间从数周缩短至两天。
- 开箱即用:直接引用列表中经过验证的开源代码作为基线,避免了底层实现的陷阱,确保实验结果可复现且具备可比性,大幅加速了原型验证过程。
- 性能突破:利用自监督预训练策略充分挖掘了百万级无标签分子图的内在结构信息,在小样本微调后,毒性预测模型的 AUC 指标显著提升了 15%。
- 生态完备:一站式获取了从常用数据集介绍到具体实现细节的完整资源链,团队得以将精力集中在业务逻辑优化而非基础设施搭建上。
awesome-graph-self-supervised-learning 通过提供系统化的方法论综述与标准化代码资源,帮助开发者在无标签图数据场景中低成本地构建出高性能的表示学习模型。
运行环境要求
未说明
未说明

快速开始
令人惊叹的图自监督学习
一个精心整理的、关于优秀的自监督图表示学习资源列表。受 awesome-deep-vision、awesome-adversarial-machine-learning、awesome-deep-learning-papers、awesome-architecture-search 和 awesome-self-supervised-learning 的启发而创建。
为什么选择自监督?
自监督学习已成为人工智能领域中一个令人兴奋的研究方向。
- Jitendra Malik: “监督是人工智能研究者的鸦片”
- Alyosha Efros: “人工智能革命不会依赖于监督”
- Yann LeCun: “自监督学习是蛋糕本身,有监督学习是蛋糕上的糖霜,强化学习则是蛋糕上的樱桃”
目录
概述
我们将最初在计算机视觉和自然语言处理领域兴起的自监督学习概念扩展到图数据领域,以及时且全面地回顾现有的图自监督学习技术。具体而言,我们根据下图所示,将现有的图自监督学习方法分为三类:对比学习、生成式学习和预测式学习。
- 对比学习:通过对比不同数据增强方法生成的不同视图,利用数据对之间的差异与相似性信息(即“数据间”信息)作为自监督信号。
- 生成式学习:侧重于数据内部所蕴含的信息(即“数据内”信息),通常基于诸如重构等前置任务,利用数据本身的属性和结构作为自监督信号。
- 预测式学习:一般通过简单的统计分析或专家知识从图数据中自动生成标签,并基于这些自动生成的标签设计预测型前置任务来处理数据与标签的关系。
训练策略
考虑到瓶颈编码器、自监督前置任务和下游任务之间的关系,训练策略可分为以下三类:预训练与微调(P&F)、联合学习(JL)以及无监督表征学习(URL),其详细流程如下所示。
- 预训练与微调(P&F):首先使用自监督前置任务对编码器进行无标签节点的预训练。然后将预训练好的编码器参数作为后续有监督微调中编码器的初始化参数。
- 联合学习(JL):在学习有监督下游任务的同时,加入一个具有自监督性质的辅助前置任务。编码器会同时接受前置任务和下游任务的训练。
- 无监督表征学习(URL):首先使用自监督前置任务对编码器进行无标签节点的预训练。随后冻结预训练好的编码器参数,并将其用于带有额外标签的有监督下游任务中。
对比学习
对比学习的一般框架如下所示。两个对比组件可以是局部的、上下文相关的或全局的,分别对应于图中的节点级(红色标记)、子图级(绿色标记)或图级(黄色标记)信息。因此,对比学习可以对比两个视图(在同一尺度或不同尺度上),从而产生两类算法:(1) 同尺度对比,包括 局部-局部(L-L) 对比、上下文-上下文(C-C) 对比和 全局-全局(G-G) 对比;以及 (2) 跨尺度对比,包括 局部-上下文(L-C) 对比、局部-全局(L-G) 对比和 上下文-全局(C-G) 对比。
全局-全局对比
- GraphCL:带有增强的图对比学习。
- IGSD:迭代式图自蒸馏。
- H. Zhang, S. Lin, W. Liu, P. Zhou, J. Tang 等。Arxiv 2020。[pdf]
- DACL:面向领域无关的对比学习。
- V. Verma, M.-T. Luong, K. Kawaguchi, H. Pham 和 Q. V. Le。Arxiv 2020。[pdf]
- LCC:基于标签对比编码的图神经网络用于图分类。
- CCGL:对比级联图学习。
- CSSL:用于图分类的对比自监督学习。
- J. Zeng 和 P. Xie。Arxiv 2020。[pdf]
上下文-上下文对比
- GCC:用于图神经网络预训练的图对比编码。
局部-局部对比
- CDNMF:用于社区发现的对比深度非负矩阵分解。
- GRACE:深度图对比表示学习。
- GCA:具有自适应增强的图对比学习。
- GROC:迈向鲁棒的图对比学习。
- N. Jovanovi´c, Z. Meng, L. Faber 和 R. Wattenhofer。Arxiv 2021。[pdf]
- SEPT:面向推荐的社会感知自监督三重训练。
- STDGI:时空深度图信息最大化。
- F. L. Opolka, A. Solomon, C. Cangea, P. Veliˇckovi´c, P. Li` o 和 R. D. Hjelm。Arxiv 2019。[pdf]
- GMI:通过图互信息最大化进行图表示学习。
- KS2L:自监督平滑图神经网络。
- L. Yu, S. Pei, C. Zhang, L. Ding, J. Zhou, L. Li 和 X. Zhang。Arxiv 2020。[pdf]
- CG3:用于基于图的半监督学习的对比与生成图卷积网络。
- S. Wan, S. Pan, J. Yang 和 C. Gong。Arxiv 2020。[pdf]
- BGRL:图上的自举表示学习。
- SelfGNN:无需显式负采样的自监督图神经网络。
- HeCo:具有协同对比学习的自监督异质图神经网络。
- PT-DGNN:动态图神经网络的预训练。
- COAD:Coad:对抗性微调的对比预训练,用于零样本专家链接。
- Contrast-Reg:通过对比正则化改进图表示学习。
- K. Ma, H. Yang, H. Yang, T. Jin, P. Chen, Y. Chen, B. F. Kamhoua 和 J. Cheng。Arxiv 2021。[pdf]
- C-SWM:结构化世界模型的对比学习。
局部-全局对比
- DGI:深度图信息最大化。
- HDMI:高阶深度多路复用信息最大化。
- B. Jing, C. Park 和 H. Tong。Arxiv 2021。[pdf]
- DMGI:无监督的属性化多路复用网络嵌入。
- MVGRL:图上的多视图对比表示学习。
- HDGI:异质深度图信息最大化。
局部-上下文对比
- CDNMF:用于社区检测的对比深度非负矩阵分解。
- Subg-Con:用于可扩展自监督图表示学习的子图对比。
- Cotext Prediction:图神经网络预训练策略。
- GIC:利用节点聚类级别信息进行无监督图表示学习。
- GraphLoG:基于局部和全局结构的自监督图级表示学习。
- MHCN:用于社交推荐的自监督多通道超图卷积网络。
- EGI:通过最大化自我图信息进行图神经网络的迁移学习。
上下文-全局对比
- MICRO-Graph:基于基元的图表示对比学习。
- InfoGraph:通过最大化互信息实现无监督和半监督的图级表示学习。
- SUGAR:具有强化池化和自监督互信息机制的子图神经网络。
- BiGI:通过最大化互信息进行二分图嵌入。
- HTC:通过互信息最大化集成聚合子图进行图表示学习。
- C. Wang 和 Z. Liu。Arxiv 2021。[pdf]
- DITNet:利用子结构对比的图表示学习进行药物靶点预测。
生成式学习
图自动编码
- CDNMF:用于社区检测的对比深度非负矩阵分解。
- GraphMAE:自监督掩码图自动编码器
- 图补全:自监督何时有助于图卷积网络?
- 节点属性掩码:图上的自监督学习:深入见解与新方向。
- 边属性掩码:图神经网络预训练策略。
- 节点属性与嵌入去噪:具有多个自监督辅助任务的图神经网络模型。
- F. Manessi 和 A. Rozza。Arxiv 2020。[pdf]
- 邻接矩阵重建:图卷积网络的自监督训练。
- Q. Zhu、B. Du 和 P. Yan。Arxiv 2020。[pdf]
- Graph Bert:学习图表示仅需注意力机制。
- Pretrain-Recsys:为冷启动用户和物品表示预训练图神经网络。
- SLAPS:自监督提升图神经网络的结构学习。
- G-BERT:用于药物推荐的图增强型变压器预训练。
图自回归
预测式学习
下面展示了对预测式学习的比较。预测式方法通常会从图数据中自动生成标签,然后基于这些自动生成的标签设计以预测为核心的预训练任务。根据标签获取方式的不同,我们将图数据的预测式学习方法归纳为四类:
- 节点属性预测:预先计算节点的属性,例如节点度,并将其用作自监督标签。
- 基于上下文的预测:可以从图中提取局部或全局的上下文信息,比如节点之间的最短路径长度,作为标签来辅助自监督学习。
- 自训练:应用无监督聚类等算法获得伪标签,再根据预测结果或损失更新上一阶段的伪标签集。
- 基于领域知识的预测:可以提前利用领域知识,如专家经验或专业工具,来获取具有信息量的标签。
节点属性预测
- 节点属性预测:图上的自监督学习——深入见解与新方向。
基于上下文的预测
- S2GRL:通过全局上下文预测进行自监督图表示学习。
- Z. Peng, Y. Dong, M. Luo, X.-M. Wu, 和 Q. Zheng. Arxiv 2020. [pdf]
- PairwiseDistance:图上的自监督学习——深入见解与新方向。
- PairwiseAttsim:图上的自监督学习——深入见解与新方向。
- Distance2Cluster:图上的自监督学习——深入见解与新方向。
- EdgeMask:图上的自监督学习——深入见解与新方向。
- TopoTER:拓扑变换等变表示的无监督学习。
- X. Gao, W. Hu, 和 G.-J. Qi. OpenReview 2021. [pdf]
- 中心性得分排序:用于通用结构特征提取的图神经网络预训练。
- Z. Hu, C. Fan, T. Chen, K.-W. Chang, 和 Y. Sun. Arxiv 2019. [pdf]
- 元路径预测:面向异质图的元路径辅助自监督学习。
- SLiCE:用于异构网络链接预测的上下文嵌入自监督学习。
- Distance2Labeled:图上的自监督学习——深入见解与新方向。
- Distance2Labeled:图上的自监督学习——深入见解与新方向。
- HTM:基于跳数的属性化网络自监督异常检测。
- T. Huang, Y. Pei, V. Menkovski, 和 M. Pechenizkiy. Arxiv 2021. [pdf]
自训练
- 多阶段自训练:半监督学习中图卷积网络的更深层次见解。
- 节点聚类与划分:自监督何时有助于图卷积网络。
- CAGAN:面向无监督图表示学习的聚类感知图神经网络。
- Y. Zhu, Y. Xu, F. Yu, S. Wu, 和 L. Wang. Arxiv 2020. [pdf]
- M3S:针对标注节点较少的图的多阶段自监督学习。
- 保持聚类:用于通用结构特征提取的图神经网络预训练。
- Z. Hu, C. Fan, T. Chen, K.-W. Chang, 和 Y. Sun. Arxiv 2019. [pdf]
- SEF:用于改进图神经网络训练的自监督边特征。
基于领域知识的预测
- 分子属性上下文预测:大规模分子数据上的自监督图Transformer。
- 图级基序预测:大规模分子数据上的自监督图Transformer。
- DrRepair:基于图的自监督程序修复,利用诊断反馈。
以下是对所有调研工作的总结。
方法论细节概览
包括图属性、前置任务、数据增强、目标函数、训练策略以及发表年份。
| 方法 | 图属性 | 预训练任务 | 数据增强 | 目标函数 | 训练策略 | 年份 |
|---|---|---|---|---|---|---|
| CDNMF | 属性图 | 对比学习/L-C + 生成式/AE | 无 | InfoNCE + AE | URL | 2024 |
| 图补全 | 属性图 | 生成式/AE | 属性掩码 | MAE | P&F/JL | 2020 |
| 节点属性掩码 | 属性图 | 生成式/AE | 属性掩码 | MAE | P&F/JL | 2020 |
| 边属性掩码 | 属性图 | 生成式/AE | 属性掩码 | MAE | P&F | 2019 |
| 节点属性与 嵌入去噪 |
属性图 | 生成式/AE | 属性掩码 | MAE | JL | 2020 |
| 邻接矩阵 重建 |
属性图 | 生成式/AE | 属性掩码 边扰动 |
MAE | JL | 2020 |
| Graph Bert | 属性图 | 生成式/AE | 属性掩码 边扰动 |
MAE | P&F | 2020 |
| 预训练-推荐系统 | 属性图 | 生成式/AE | 边扰动 | MAE | P&F | 2021 |
| GPT-GNN | 异质图 | 生成式/AR | 属性掩码 边扰动 |
MAE/InfoNCE | P&F | 2020 |
| GraphCL | 属性图 | 对比学习/G-G | 属性掩码 边扰动 随机游走采样 |
InfoNCE | URL | 2020 |
| IGSD | 属性图 | 对比学习/G-G | 边扰动 边删除 |
InfoNCE | JL/URL | 2020 |
| DACL | 属性图 | 对比学习/G-G | Mixup | InfoNCE | URL | 2020 |
| LCC | 属性图 | 对比学习/G-G | 无 | InfoNCE | JL | 2021 |
| CCGL | 属性图 | 对比学习/G-G | 信息再扩散 | InfoNCE | P&F | 2021 |
| CSSL | 属性图 | 对比学习/G-G | 节点插入 边扰动 均匀采样 |
InfoNCE | P&F/JL/URL | 2020 |
| GCC | 无属性图 | 对比学习/C-C | 随机 游走 采样 | InfoNCE | P&F/URL | 2020 |
| GRACE | 属性图 | 对比学习/L-L | 属性掩码 边扰动 |
InfoNCE | URL | 2020 |
| GCA | 属性图 | 对比学习/L-L | 基于注意力的 | InfoNCE | URL | 2020 |
| GROC | 属性图 | 对比学习/L-L | 基于梯度的 | InfoNCE | URL | 2021 |
| SEPT | 属性图 | 对比学习/L-L | 边扰动 | InfoNCE | JL | 2021 |
| STDGI | 空间-时间图 | 对比学习/L-L | 属性洗牌 | JS估计器 | URL | 2019 |
| GMI | 属性图 | 对比学习/L-L | 无 | SP估计器 | URL | 2020 |
| KS2L | 属性图 | 对比学习/L-L | 无 | InfoNCE | URL | 2020 |
| CG3 | 属性图 | 对比学习/L-L | 无 | InfoNCE | JL | 2020 |
| BGRL | 属性图 | 对比学习/L-L | 属性掩码 边扰动 |
内积 | URL | 2021 |
| SelfGNN | 属性图 | 对比学习/L-L | 属性掩码 边扩散 |
MSE | URL | 2021 |
| HeCo | 异质图 | 对比学习/L-L | 无 | InfoNCE | URL | 2021 |
| PT-DGNN | 动态图 | 对比学习/L-L | 属性掩码 边扰动 |
InforNCE | P&F | 2021 |
| COAD | 属性图 | 对比学习/L-L | 无 | 三元组间隔损失 | P&F | 2020 |
| Contrst-Reg | 属性图 | 对比学习/L-L | 属性洗牌 | InfoNCE | JL | 2021 |
| DGI | 属性图 | 对比学习/L-G | 任意 | JS估计器 | URL | 2019 |
| HDMI | 属性图 | 对比学习/L-G | 属性洗牌 | JS估计器 | URL | 2021 |
| DMGI | 异质图 | 对比学习/L-G | 属性洗牌 | JS估计器/MAE | URL | 2020 |
| MVGRL | 属性图 | 对比学习/L-G | 属性掩码 边扰动 边扩散 随机游走采样 |
DV估计器 JS估计器 NT-Xent InfoNCE |
URL | 2020 |
| HDGI | 异质图 | 对比学习/L-G | 属性洗牌 | JS估计器 | URL | 2019 |
| Subg-Con | 属性图 | 对比学习/L-C | 重要性采样 | 三元组间隔损失 | URL | 2020 |
| 上下文预测 | 属性图 | 对比学习/L-C | 自我网络采样 | 交叉熵 | P&F | 2019 |
| GIC | 属性图 | 对比学习/L-C | 任意 | JS估计器 | URL | 2020 |
| GraphLoG | 属性图 | 对比学习/L-C | 属性掩码 | InfoNCE | URL | 2021 |
| MHCN | 异质图 | 对比学习/L-C | 属性洗牌 | InfoNCE | JL | 2021 |
| EGI | 属性图 | 对比学习/L-C | 自我网络采样 | SP估计器 | P&F | 2020 |
| MICRO-Graph | 属性图 | 对比学习/C-G | 知识采样 | InfoNCE | URL | 2020 |
| InfoGraph | 属性图 | 对比学习/C-G | 无 | SP估计器 | URL | 2019 |
| SUGAR | 属性图 | 对比学习/C-G | BFS采样 | JS估计器 | JL | 2021 |
| BiGI | 异质图 | 对比学习/C-G | 边扰动 自我网络采样 |
JS估计器 | JL | 2021 |
| HTC | 属性图 | 对比学习/C-G | 属性洗牌 | SP估计器 DV估计器 |
URL | 2021 |
| 节点属性预测 | 属性图 | 预测节点属性 | 无 | MAE | P&F/JL | 2020 |
| S2GRL | 属性图 | 预测基于上下文 | 无 | 交叉熵 | URL | 2020 |
| 成对距离 | 属性图 | 预测基于上下文 | 无 | 交叉熵 | P&F/JL | 2020 |
| 成对属性相似度 | 属性图 | 预测基于上下文 | 无 | MAE | P&F/JL | 2020 |
| 到聚类的距离 | 属性图 | 预测基于上下文 | 无 | MAE | P&F/JL | 2020 |
| 边掩码 | 属性图 | 预测基于上下文 | 无 | 交叉熵 | P&F/JL | 2020 |
| TopoTER | 属性图 | 预测基于上下文 | 边扰动 | 交叉熵 | URL | 2021 |
| 中心性得分排序 | 属性图 | 预测基于上下文 | 无 | 交叉熵 | P&F | 2019 |
| 元路径预测 | 异质图 | 预测基于上下文 | 无 | 交叉熵 | JL | 2020 |
| SLiCE | 异质图 | 预测基于上下文 | 无 | 交叉熵 | P&F | 2020 |
| 到已标记的距离 | 属性图 | 预测基于上下文 | 无 | MAE | P&F/JL | 2020 |
| 上下文标签 | 属性图 | 预测基于上下文 | 无 | MAE | P&F/JL | 2020 |
| HCM | 属性图 | 预测基于上下文 | 边扰动 | 贝叶斯 推断 | URL | 2021 |
| 基于上下文的分子 属性预测 |
属性图 | 预测基于领域 | 无 | 交叉熵 | P&F | 2020 |
| 图级基序预测 | 属性图 | 预测基于领域 | 无 | 交叉熵 | P&F | 2020 |
| 多阶段自训练 | 属性图 | 预测自训练 | 无 | 无 | JL | 2018 |
| 节点聚类 | 属性图 | 预测自训练 | 无 | 聚类 | P&F/JL | 2020 |
| 图划分 | 属性图 | 预测自训练 | 无 | 图划分 | P&F/JL | 2020 |
| CAGAN | 属性图 | 预测自训练 | 无 | 聚类 | URL | 2020 |
| M3S | 属性图 | 预测自训练 | 无 | 聚类 | JL | 2020 |
| 保留聚类 | 属性图 | 预测自训练 | 无 | 交叉熵 | P&F | 2019 |
实现细节概览
关于任务级别、评估指标和评估数据集。
| 方法 | 任务级别 | 评估指标 | 数据集 |
|---|---|---|---|
| CDNMF | 节点 | 节点聚类 (Acc, NMI) | Cora, Citeseer, Pubmed |
| 图补全 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| 节点属性掩码 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| 边属性掩码 | 图 | 图分类 (ROC-AUC) | MUTAG, PTC, PPI, BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
| 节点属性与 嵌入去噪 |
节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| 邻接矩阵 重建 |
节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| Graph Bert | 节点 | 节点分类 (Acc) 节点聚类 (NMI) |
Cora, Citeseer, Pubmed |
| 预训练-推荐系统 | 节点/边 | - | ML-1M, MOOCs 和 Last-FM |
| GPT-GNN | 节点/边 | 节点分类 (F1-score) 链接预测 (ROC-AUC) |
OAG, Amazon, Reddit |
| GraphCL | 图 | 图分类 (Acc, ROC-AUC) | NCI1, PROTEINS, D&D, COLLAB, RDT-B, RDT-M5K, GITHUB, MNIST, CIFAR10, MUTAG, IMDB-B, BBBP, Tox21, ToxCast, SIDER, ClinTox, MUV, HIV, BACE, PPI |
| IGSD | 图 | 图分类 (Acc) | MUTAG, PTC_MR, NCI1, IMDB-B, QM9, COLLAB, IMDB-M |
| DACL | 图 | 图分类 (Acc) | MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B, RDT-M5K |
| LCC | 图 | 图分类 (Acc) | IMDB-B, IMDB-M, COLLAB, MUTAG, PROTEINS, PTC, NCI1, D&D |
| CCGL | 图 | 级联图预测 (MSLE) | Weibo, Twitter, ACM, APS, DBLP |
| CSSL | 图 | 图分类 (Acc) | PROTEINS, D&D, NCI1, NCI109, 致突变性 |
| GCC | 节点/图 | 节点分类 (Acc) 图分类 (Acc) |
US-Airport, H-index, COLLAB, IMDB-B, IMDB-M, RDT-B, RDT-M5K |
| GRACE | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, DBLP, Reddit, PPI |
| GCA | 节点 | 节点分类 (Acc) | Wiki-CS, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
| GROC | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Photo, Wiki-CS |
| SEPT | 节点/边 | - | Last-FM, Douban, Yelp |
| STDGI | 节点 | 节点 回归 (MAE, RMSE, MAPE) | METR-LA |
| GMI | 节点/边 | 节点分类 (Acc, Micro-F1) 链接预测 (ROC-AUC) |
Cora, Citeseer, PubMed, Reddit, PPI, BlogCatalog, Flickr |
| KS2L | 节点/边 | 节点分类 (Acc) 链接预测 (ROC-AUC) |
Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS |
| CG3 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS |
| BGRL | 节点 | 节点分类 (Acc, Micro-F1) | Wiki-CS, Amazon-Computers, Amazon-Photo, PPI, Coauthor-CS, Coauthor-Physics, ogbn-arxiv |
| SelfGNN | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
| HeCo | 节点 | 节点分类 (ROC-AUC, Micro-F1, Macro-F1) 节点聚类 (NMI, ARI) |
ACM, DBLP, Freebase, AMiner |
| PT-DGNN | 边 | 链接预测 (ROC-AUC) | HepPh, Math Overflow, Super User |
| COAD | 节点/边 | 节点聚类 (Precision, Recall, F1-score) 链接预测 (HitRatio@K, MRR) |
AMiner, News, LinkedIn |
| Contrast-Reg | 节点/边 | 节点分类 (Acc) 节点聚类 (NMI, Acc, Macro-F1) 链接预测 (ROC-AUC) |
Cora, Citeseer, Pubmed, Reddit, ogbn-arxiv, Wikipedia, ogbn-products, Amazo-Computers, Amazo-Photo |
| DGI | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, Reddit, PPI |
| HDMI | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (NMI) |
ACM, IMDB, DBLP, Amazon |
| DMGI | 节点 | 节点聚类 (NMI) 节点分类 (Acc) |
ACM, IMDB, DBLP, Amazon |
| MVGRL | 节点/图 | 节点分类 (Acc) 节点聚类 (NMI, ARI) 图分类 (Acc) |
Cora, Citeseer, Pubmed, MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B |
| HDGI | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (NMI, ARI) |
ACM, DBLP, IMDB |
| Subg-Con | 节点 | 节点分类 (Acc, Micro-F1) | Cora, Citeseer, Pubmed, PPI, Flickr, Reddit |
| 上下文预测 | 图 | 图分类 (ROC-AUC) | MUTAG, PTC, PPI, BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
| GIC | 节点/边 | 节点分类 (Acc) 节点聚类 (Acc, NMI, ARI) 链接预测 (ROC-AUC, ROC-AP) |
Cora, Citeseer, Pubmed, Amazon-Computers, Amazon-Photo, Coauthor-CS, Coauthor-Physics |
| GraphLoG | 图 | 图分类 (ROC-AUC) | BBBP, Tox21, ToxCast, ClinTox, MUV, HIV, SIDER, BACE |
| MHCN | 节点/边 | - | Last-FM, Douban, Yelp |
| EGI | 节点/边 | 节点分类 (Acc) 链接预测 (ROC-AUC, MRR) |
YAGO, Airport |
| MICRO-Graph | 图 | 图分类 (ROC-AUC) | BBBP, Tox21, ToxCast, ClinTox, HIV, SIDER, BACE |
| InfoGraph | 图 | 图分类 (Acc) | MUTAG, PTC_MR, RDT-B, RDT-M5K, IMDB-B, QM9, IMDB-M |
| SUGAR | 图 | 图分类 (Acc) | MUTAG, PTC, PROTEINS, D&D, NCI1, NCI109 |
| BiGI | 边 | 链接预测 (AUC-ROC, AUC-PR) | DBLP, ML-100K, ML-1M, Wikipedia |
| HTC | 图 | 图分类 (Acc) | MUTAG, PTC_MR, IMDB-B, IMDB-M, RDT-B, QM9, RDT-M5K |
| 节点 属性 预测 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| S2GRL | 节点/边 | 节点分类 (Acc, Micro-F1) 节点聚类 (NMI) 链接预测 (ROC-AUC) |
Cora, Citeseer, Pubmed, PPI, Flickr, BlogCatalog, Reddit |
| 成对距离 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| 成对属性相似度 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| 到簇距离 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| 边掩码 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| TopoTER | 节点/图 | 节点分类 (Acc) 图分类 (Acc) |
Cora, Citeseer, Pubmed, MUTAG, PTC-MR, RDT-B, RDT-M5K, IMDB-B, IMDB-M |
| 中心性得分排序 | 节点/边/图 | 节点分类 (Micro-F1) 链接预测 (Micro-F1) 图分类 (Micro-F1) |
Cora, Pubmed, ML-100K, ML-1M, IMDB-M, IMDB-B |
| 元路径预测 | 节点/边 | 节点分类 (F1-score) 链接预测 (ROC-AUC) |
ACM, IMDB, Last-FM, Book-Crossing |
| SLiCE | 边 | 链接预测 (ROC-AUC, Micro-F1) | Amazon, DBLP, Freebase, Twitter, Healthcare |
| 到已标注距离 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| 上下文标签 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed, Reddit |
| HCM | 节点 | 节点分类 (ROC-AUC) | ACM, Amazon, Enron, BlogCatalog, Flickr |
| 上下文分子 属性预测 |
图 | 图分类 (Acc) 图回归 (MAE) |
BBBP, SIDER, ClinTox, BACE, Tox21, ToxCast, ESOL, FreeSolv, Lipo, QM7, QM8 |
| 图级模式预测 | 图 | 图分类 (Acc) 图回归 (MAE) |
BBBP, SIDER, ClinTox, BACE, Tox21, ToxCast, ESOL, FreeSolv, Lipo, QM7, QM8 |
| 多阶段自训练 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| 节点聚类 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| 图划分 | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| CAGAN | 节点 | 节点分类 (Micro-F1, Macro-F1) 节点聚类 (Micro-F1, Macro-F1, NMI) |
Cora, Citeseer, Pubmed |
| M3S | 节点 | 节点分类 (Acc) | Cora, Citeseer, Pubmed |
| 聚类保持 | 节点/边/图 | 节点分类 (Micro-F1) 链接预测 (Micro-F1) 图分类 (Micro-F1) |
Cora, Pubmed, ML-100K, ML-1M, IMDB-M, IMDB-B |
常用图数据集概览
包括类别、图数量、每张图的节点数、每张图的边数、节点属性的维度、类别数以及引用论文。
| 数据集 | 类别 | #图 | #节点(平均) | #边(平均) | #特征 | #类 |
|---|---|---|---|---|---|---|
| Cora | 引文网络 | 1 | 2708 | 5429 | 1433 | 7 |
| Citeseer | 引文网络 | 1 | 3327 | 4732 | 3703 | 6 |
| Pubmed | 引文网络 | 1 | 19717 | 44338 | 500 | 3 |
| Wiki-CS | 引文网络 | 1 | 11701 | 216123 | 300 | 10 |
| Coauthor-CS | 引文网络 | 1 | 18333 | 81894 | 6805 | 15 |
| Coauthor-Physics | 引文网络 | 1 | 34493 | 247962 | 8415 | 5 |
| DBLP (v12) | 引文网络 | 1 | 4894081 | 45564149 | - | - |
| ogbn-arxiv | 引文网络 | 1 | 169343 | 1166243 | 128 | 40 |
| 社交网络 | 1 | 232965 | 11606919 | 602 | 41 | |
| BlogCatalog | 社交网络 | 1 | 5196 | 171743 | 8189 | 6 |
| Flickr | 社交网络 | 1 | 7575 | 239738 | 12047 | 9 |
| COLLAB | 社交网络 | 5000 | 74.49 | 2457.78 | - | 2 |
| RDT-B | 社交网络 | 2000 | 429.63 | 497.75 | - | 2 |
| RDT-M5K | 社交网络 | 4999 | 508.52 | 594.87 | - | 5 |
| IMDB-B | 社交网络 | 1000 | 19.77 | 96.53 | - | 2 |
| IMDB-M | 社交网络 | 1500 | 13.00 | 65.94 | - | 3 |
| ML-100K | 社交网络 | 1 | 2625 | 100000 | - | 5 |
| ML-1M | 社交网络 | 1 | 9940 | 1000209 | - | 5 |
| PPI | 蛋白质网络 | 24 | 56944 | 818716 | 50 | 121 |
| D&D | 蛋白质网络 | 1178 | 284.32 | 715.65 | 82 | 2 |
| PROTEINS | 蛋白质网络 | 1113 | 39.06 | 72.81 | 4 | 2 |
| NCI1 | 分子图 | 4110 | 29.87 | 32.30 | 37 | 2 |
| MUTAG | 分子图 | 188 | 17.93 | 19.79 | 7 | 2 |
| QM9 (QM7, QM8) | 分子图 | 133885 | - | - | - | - |
| BBBP | 分子图 | 2039 | 24.05 | 25.94 | - | 2 |
| Tox21 | 分子图 | 7831 | 18.51 | 25.94 | - | 12 |
| ToxCast | 分子图 | 8575 | 18.78 | 19.26 | - | 167 |
| ClinTox | 分子图 | 1478 | 26.13 | 27.86 | - | 2 |
| MUV | 分子图 | 93087 | 24.23 | 26.28 | - | 17 |
| HIV | 分子图 | 41127 | 25.53 | 27.48 | - | 2 |
| SIDER | 分子图 | 1427 | 33.64 | 35.36 | - | 27 |
| BACE | 分子图 | 1513 | 34.12 | 36.89 | - | 2 |
| PTC | 分子图 | 344 | 14.29 | 14.69 | 19 | 2 |
| NCI109 | 分子图 | 4127 | 29.68 | 32.13 | - | 2 |
| Mutagenicity | 分子图 | 4337 | 30.32 | 30.77 | - | 2 |
| MNIST | 其他(图像) | - | 70000 | - | 784 | 10 |
| CIFAR10 | 其他(图像) | - | 60000 | - | 1024 | 10 |
| METR-LA | 其他(交通) | 1 | 207 | 1515 | 2 | - |
| Amazon-Computers | 其他(购买) | 1 | 13752 | 245861 | 767 | 10 |
| Amazon-Photo | 其他(购买) | 1 | 7650 | 119081 | 745 | 8 |
| ogbn-products | 其他(购买) | 1 | 2449029 | 61859140 | 100 | 47 |
开源代码概览
贡献
如果您希望帮助完善此列表,请随时与我联系,或按照以下 Markdown 格式提交 pull request:
- 论文名称。
- 作者列表。*会议年份*。[[pdf]](链接) [[代码]](链接)
这是对我们综述的 GitHub 摘要。如果您在研究中觉得本文档有用,请考虑引用:
@article{wu2021self,
title={图上的自监督学习:对比、生成还是预测},
author={吴立荣、林海涛、谭成、高章阳、李斯坦 Z},
journal={IEEE 知识与数据工程汇刊},
year={2021},
publisher={IEEE}
}
反馈
如果您对本工作有任何问题,请随时通过电子邮件与我们联系:
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器