[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-benedekrozemberczki--datasets":3,"tool-benedekrozemberczki--datasets":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",145895,2,"2026-04-08T11:32:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":80,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":86,"env_os":87,"env_gpu":88,"env_ram":88,"env_deps":89,"category_tags":92,"github_topics":94,"view_count":32,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":148},5596,"benedekrozemberczki\u002Fdatasets","datasets","A repository of pretty cool datasets that I collected for network science and machine learning research.","datasets 是一个专为网络科学、图挖掘及机器学习研究打造的开源数据集仓库。它汇集了来自 Twitch、LastFM、Deezer、GitHub、Reddit 等多个真实社交平台的高质量图数据，旨在解决研究人员在算法验证阶段难以获取标准化、大规模真实世界数据的痛点。\n\n无论是高校科研人员还是算法开发者，都能利用 datasets 快速开展节点分类、链路预测、社区发现及回归分析等实验。其独特亮点在于提供了结构清晰且特征丰富的图数据：不仅包含数百万级节点的超大规模社交网络（如 Twitch Gamers），还细致整理了节点属性（如用户喜好、地理位置）与标签信息（如主播语言、流失预测），并明确标注了数据的有向性、时序性等关键属性。这些精心整理的数据集无需繁琐的清洗预处理，即可直接用于评估图嵌入模型或测试深度学习算法的性能，是进行图神经网络研究与教学的理想资源库。","# Datasets ![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fbenedekrozemberczki\u002Fdatasets.svg?color=blue) [![repo size](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002Fbenedekrozemberczki\u002Fdatasets.svg)](https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Farchive\u002Fmaster.zip) [![benedekrozemberczki](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fbenrozemberczki?style=social&logo=twitter)](https:\u002F\u002Ftwitter.com\u002Fintent\u002Ffollow?screen_name=benrozemberczki)\n\nDatasets collected for network science, graph mining, deep learning and general machine learning research.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_31bed9a60170.png\">\n\u003C\u002Fp>\n\n#### Contents   \n\n1. [Twitch Gamers](#twitch-gamers)\n2. [LastFM Asia Social Network](#lastfm-asia-social-network)\n3. [Deezer Europe Social Network](#deezer-europe-social-network)\n4. [GitHub StarGazer Graphs](#github-stargazer-graphs)\n5. [Twitch Ego Nets](#twitch-ego-nets)\n6. [Reddit Thread Graphs](#reddit-thread-graphs)  \n7. [Deezer Ego Nets](#deezer-ego-nets)\n8. [GitHub Social Network](#github-social-network)\n9. [Deezer Social Networks](#deezer-social-networks)\n10. [Facebook Page-Page Networks](#facebook-page-page-networks)  \n11. [Wikipedia Article Networks](#wikipedia-article-networks)\n12. [Twitch Social Networks](#twitch-social-networks)\n13. [Facebook Large Page-Page Network](#facebook-large-page-page-network)\n\n## Twitch Gamers\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n\n### Description\n\u003Cp align=\"justify\">\nA social network of Twitch users collected from the public API in Spring 2018. Nodes are Twitch users and edges are mutual follower relationships between them. The graph forms a single strongly connected component without missing attributes. The machine learning tasks related to the graph are count data regression and node classification. There are 6 specific tasks:\u003C\u002Fp>\n\n- Explicit content streamer identification.\n- Broadcaster language prediction.\n- User lifetime estimation.\n- Churn prediction.\n- Affiliate status identification.\n- View count estimation.\n\n### Links\n\n\n- [Twitch Gamers](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_gamers.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Node labels:** Yes.\n- **Temporal:** No.\n\n\n|   | **Twitch Gamers**  |\n|---|---|\n| **Nodes** |168,114   |\n| **Edges** | 6,797,557 |\n| **Density** |  0.0005 |\n| **Transitvity** | 0.0184|\n\n### Possible tasks\n\n- **Binary node classification**\n- **Multi-class node classification**\n- **Count data regression**\n- **Link prediction**\n- **Community detection**\n- **Community detection with ground truth**\n- **Network visualization**\n\n### Citing\n```bibtex\n>@misc{rozemberczki2021twitch,\n       title = {Twitch Gamers: a Dataset for Evaluating Proximity Preserving and Structural Role-based Node Embeddings}, \n       author = {Benedek Rozemberczki and Rik Sarkar},\n       year = {2021},\n       eprint = {2101.03091},\n       archivePrefix = {arXiv},\n       primaryClass = {cs.SI}\n       }\n```\n\n## LastFM Asia Social Network\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1b63d4451dcc.png\">\n\u003C\u002Fp>\n\n\n\n### Description\n\u003Cp align=\"justify\">\nA social network of LastFM users which was collected from the public API in March 2020. Nodes are LastFM users from Asian countries and edges are mutual follower relationships between them. The vertex features are extracted based on the artists liked by the users. The task related to the graph is multinomial node classification - one has to predict the location of users. This target feature was derived from the country field for each user. \u003C\u002Fp>\n\n### Links\n\n- [LastFM Asia Social Network](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffeather-lastfm-social.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Multinomial.\n- **Temporal:** No.\n\n|   | **LastFM**  |\n|---|---|\n| **Nodes** |7,624  | \n| **Edges** | 27,806  |\n| **Density** |  0.001 | \n| **Transitvity** | 0.179 | \n\n### Possible tasks\n\n- **Multi-class node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n```bibtex\n@inproceedings{feather,\n               title={{Characteristic Functions on Graphs: Birds of a Feather, from Statistical Descriptors to Parametric Models}},\n               author={Benedek Rozemberczki and Rik Sarkar},\n               year={2020},\n\t       pages={1325–1334},\n\t       booktitle={Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n\t       organization={ACM},\n}\n```\n\n\n## Deezer Europe Social Network\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n\n\n### Description\n\u003Cp align=\"justify\">\nA social network of Deezer users which was collected from the public API in March 2020. Nodes are Deezer users from European countries and edges are mutual follower relationships between them. The vertex features are extracted based on the artists liked by the users. The task related to the graph is binary node classification - one has to predict the gender of users. This target feature was derived from the name field for each user. \u003C\u002Fp>\n\n### Links\n\n- [Deezer Europe Social Network](https:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffeather-deezer-social.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Binary.\n- **Temporal:** No.\n\n|   | **Deezer**  |\n|---|---|\n| **Nodes** |28,281 | \n| **Edges** | 92,752  |\n| **Density** |  0.0002 | \n| **Transitvity** | 0.0959 | \n\n### Possible tasks\n\n- **Binary node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n```bibtex\n@inproceedings{feather,\n               title={{Characteristic Functions on Graphs: Birds of a Feather, from Statistical Descriptors to Parametric Models}},\n               author={Benedek Rozemberczki and Rik Sarkar},\n               year={2020},\n\t       pages={1325–1334},\n\t       booktitle={Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n\t       organization={ACM},\n}\n```\n\n## GitHub StarGazer Graphs\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_0ba2aa20e2c2.png\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nThe social networks of developers who starred popular machine learning and web development repositories (with at least 10 stars) until 2019 August. Nodes are users and links are follower relationships. The task is to decide whether a social network belongs to a web or machine learning repository. We only included the largest component (at least with 10 users) of graphs.\u003C\u002Fp>\n\n### Link\n\n- [GitHub StarGazer Graphs + Target](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgithub_stargazers.html)\n\n### Properties\n\n- **Number of graphs:** 12,725\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Graph labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n|   | **Min**  |**Max**  |\n|---|---|---|\n| **Nodes** |10   | 957  | \n| **Density** | 0.003 |0.561   | \n| **Diameter** |  2 | 18 | \n\n### Possible Tasks\n- **Graph classification**\n\n### Citing\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},\n       author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Twitch Ego Nets\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nThe ego-nets of Twitch users who participated in the partnership program in April 2018. Nodes are users and links are friendships. The binary classification task is to predict using the ego-net whether the ego user plays a single or multple games. Players who play a single game usually have a more dense ego-net.\u003C\u002Fp>\n\n### Link\n\n- [Twitch Ego Nets Part](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_ego_nets.html)\n\n### Properties\n\n- **Number of graphs:** 127,094\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Graph labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n|   | **Min**  |**Max**  |\n|---|---|---|\n| **Nodes** |14   | 52  | \n| **Density** | 0.038 |0.967   | \n| **Diameter** |  1 | 2 | \n\n### Possible Tasks\n- **Graph classification**\n\n### Citing\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},\n       author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Reddit Thread Graphs\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_aed593b8e810.png\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nDiscussion and non-discussion based threads from Reddit which we collected in May 2018. Nodes are Reddit users who participate in a discussion and links are replies between them. The task is to predict whether a thread is discussion based or not (binary classification). \u003C\u002Fp>\n\n### Link\n\n- [Reddit Thread Graphs + Target](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Freddit_threads.html)\n\n### Properties\n\n- **Number of graphs:** 203,088\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Graph labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n|   | **Min**  |**Max**  |\n|---|---|---|\n| **Nodes** |11   | 97  | \n| **Density** | 0.021 |0.382   | \n| **Diameter** |  2 | 27 | \n\n### Possible Tasks\n- **Graph classification**\n\n### Citing\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},\n       author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Deezer Ego Nets\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nThe ego-nets of Eastern European users collected from the music streaming service Deezer in February 2020. Nodes are users and edges are mutual follower relationships. The related task is the prediction of gender for the ego node in the graph.\u003C\u002Fp>\n\n### Link\n\n- [Deezer Ego Nets + Target](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fdeezer_ego_nets.html)\n\n### Properties\n\n- **Number of graphs:** 9,629\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Graph labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n|   | **Min**  |**Max**  |\n|---|---|---|\n| **Nodes** |11   | 363  | \n| **Density** | 0.015 |0.909   | \n| **Diameter** |  2 | 2 | \n\n### Possible Tasks\n- **Graph classification**\n\n### Citing\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},\n       author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n\n## GitHub Social Network\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_0ba2aa20e2c2.png\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nA large social network of GitHub developers which was collected from the public API in June 2019. Nodes are developers who have starred at least 10 repositories and edges are mutual follower relationships between them. The vertex features are extracted based on the location, repositories starred, employer and e-mail address. The task related to the graph is binary node classification - one has to predict whether the GitHub user is a web or a machine learning developer. This target feature was derived from the job title of each user.\u003C\u002Fp>\n\n### Link\n\n- [GitHub Web-ML](https:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgithub-social.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n|   | **GitHub**  |\n|---|---|\n| **Nodes** |37,700   | \n| **Edges** | 289,003  |\n| **Density** |  0.001 | \n| **Transitvity** | 0.013| \n\n### Possible Tasks\n- **Binary node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{Multi-Scale Attributed Node Embedding}},\n          journal = {Journal of Complex Networks},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Deezer Social Networks\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nThe data was collected from the music streaming service Deezer (November 2017). These datasets represent friendship networks of users from 3 European countries. Nodes represent the users and edges are the mutual friendships. We reindexed the nodes in order to achieve a certain level of anonimity. The csv files contain the edges - nodes are indexed from 0. The json files contain the genre preferences of users - each key is a user id, the genres loved are given as lists. Genre notations are consistent across users. In each dataset users could like 84 distinct genres. Liked genre lists were compiled based on the liked song lists. The countries included are Romania, Croatia and Hungary. For each dataset we listed the number of nodes an edges.\u003C\u002Fp>\n\n### Links\n\n- [Romania](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n- [Croatia](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n- [Hungary](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Node labels:** Yes. Multi-labeled.\n- **Temporal:** No.\n\n|   | **RO**  | **HR**  | **HU**  |\n|---|---|---|---|\n| **Nodes** |41,773   | 54,573  |  47,538 |\n| **Edges** | 125,826  |498,202 |  222,887 |\n| **Density** |  0.0001 | 0.0004  | 0.0002 |\n| **Transitvity** | 0.0752| 0.1146 | 0.0929 |\n\n### Possible Tasks\n\n- **Node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n\nIf you find these datasets useful in your research, please cite the following paper:\n\n```bibtex\n>@inproceedings{rozemberczki2019gemsec,    \n                title={GEMSEC: Graph Embedding with Self Clustering},    \n                author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},    \n                booktitle={Proceedings of the 2019 IEEE\u002FACM International Conference on Advances in Social Networks Analysis and Mining 2019},    \n                pages={65-72},    \n                year={2019},    \n                organization={ACM}    \n                }\n```\n## Facebook Page-Page Networks\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_b5c3df6ded64.png\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nWe collected data about Facebook pages (November 2017). These datasets represent blue verified Facebook page networks of different categories. Nodes represent the pages and edges are mutual likes among them. The csv files contain the edges - nodes are indexed from 0. We included 8 different distinct types of pages. These are listed below. For each dataset we listed the number of nodes an edges.\n\u003C\u002Fp>\n\n### Links\n\n- [Politicians](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Companies](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Athletes](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Media](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Public Figures](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Artists](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [Government](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [TV Shows](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** No.\n- **Edge features:** No.\n- **Node labels:** No.\n- **Temporal:** No.\n\n|   | **Nodes**  | **Edges**  | **Density**  | **Transitvity**|\n|---|---|---|---|---|\n| **Politicians**|  \t5,908| \t41,729|0.0024|0.3011|\n| **Companies**| \t14,113| \t52,310|0.0005|0.1532|\n| **Athletes**| \t\t13,866| \t86,858|0.0009|0.1292|\n| **News Sites**| \t\t27,917| \t206,259|0.0005|0.1140|\n| **Public Figures**| \t\t11,565| \t67,114|0.0010|0.1666|\n| **Artists**|  \t50,515| \t819,306|0.0006|0.1140|\n| **Government**| \t\t7,057|\t\t89,455|0.0036|0.2238|\n| **TV Shows**| \t\t3,892| \t17,262|0.0023|0.5906|\n\n### Possible Tasks\n\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n\nIf you find these datasets useful in your research, please cite the following paper:\n\n```bibtex\n>@inproceedings{rozemberczki2019gemsec,    \n                title={GEMSEC: Graph Embedding with Self Clustering},    \n                author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},    \n                booktitle={Proceedings of the 2019 IEEE\u002FACM International Conference on Advances in Social Networks Analysis and Mining 2019},    \n                pages={65-72},    \n                year={2019},    \n                organization={ACM}    \n                }\n```\n       \n## Wikipedia Article Networks\n\u003Cp align=\"center\">\n  \u003Cimg width=\"400\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_d4d6050621c2.jpg\">\n\u003C\u002Fp>\n\n### Description\n\u003Cp align=\"justify\">\nThe data was collected from the English Wikipedia (December 2018). These datasets represent page-page networks on specific topics (chameleons, crocodiles and squirrels). Nodes represent articles and edges are mutual links between them. The edges csv files contain the edges - nodes are indexed from 0. The features json files contain the features of articles - each key is a page id, and node features are given as lists. The presence of a feature in the feature list means that an informative noun appeared in the text of the Wikipedia article. The target csv contains the node identifiers and the average monthly traffic between October 2017 and November 2018 for each page.  For each page-page network we listed the number of nodes an edges with some other descriptive statistics.\n\u003C\u002Fp>\n\n### Links\n\n- [Wikipedia Chameleons](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n- [Wikipedia Crocodiles](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n- [Wikipedia Squirrels](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Continuous target.\n- **Temporal:** No.\n\n|   | **Chameleon**  | **Crocodile**  | **Squirrel**  |\n|---|---|---|---|\n| **Nodes** |2,277   | 11,631  |  5,201 |\n| **Edges** | 31,421  |170,918 |  198,493 |\n| **Density** |  0.012 | 0.003  | 0.015 |\n| **Transitvity** | 0.314| 0.026 | 0.348 |\n\n### Possible Tasks\n\n- **Regression**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n\nIf you find these datasets useful in your research, please cite the following paper:\n\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{Multi-Scale Attributed Node Embedding}},\n          journal = {Journal of Complex Networks},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Twitch Social Networks\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n\n### Description\n\u003Cp align=\"justify\">\nThese datasets used for node classification and transfer learning are Twitch user-user networks of gamers who stream in a certain language. Nodes are the users themselves and the links are mutual friendships between them. Vertex features are extracted based on the games played and liked, location and streaming habits. Datasets share the same set of node features, this makes transfer learning across networks possible. These social networks were collected in May 2018. The supervised task related to these networks is binary node classification - one has to predict whether a streamer uses explicit language.\u003C\u002Fp>\n\n### Links\n\n\n- [Germany](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [England](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [Spain](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [France](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [Porutgal](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [Russia](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [Taiwan](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Binary-labeled.\n- **Temporal:** No.\n\n\n|   | **DE**  | **EN**  | **ES**  |**FR**  | **PT**  | **RU**  |**TW**  |\n|---|---|---|---|---|---|---|---|\n| **Nodes** |9,498   | 7,126  |  4,648 |6,549   | 1,912  |  4,385 |2,772 |\n| **Edges** | 153,138  |35,324 |  59,382 |112,666   | 31,299  |  37,304 |63,462 |\n| **Density** |  0.003 | 0.002  | 0.006 | 0.005   | 0.017  |  0.004 |0.017|\n| **Transitvity** | 0.047| 0.042 | 0.084 |0.054   | 0.131  |  0.049 |0.120 |\n\n### Possible tasks\n\n- **Binary node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{Multi-Scale Attributed Node Embedding}},\n          journal = {Journal of Complex Networks},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Facebook Large Page-Page Network\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_b5c3df6ded64.png\">\n\u003C\u002Fp>\n\n\n\n### Description\n\u003Cp align=\"justify\">\nThis webgraph is a page-page graph of verified Facebook sites. Nodes represent official Facebook pages while the links are mutual likes between sites. Node features are extracted from the site descriptions that the page owners created to summarize the purpose of the site. This graph was collected through the Facebook Graph API in November 2017 and restricted to pages from 4 categories which are defined by Facebook. These categories are: politicians, governmental organizations, television shows and companies. The task related to this dataset is multi-class node classification for the 4 site categories. \u003C\u002Fp>\n\n### Links\n\n- [Facebook Large Page-Page](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffacebook-large-page-page-network.html)\n\n### Properties\n\n- **Directed:** No.\n- **Node features:** Yes.\n- **Edge features:** No.\n- **Node labels:** Yes. Multinomial.\n- **Temporal:** No.\n\n|   | **Facebook**  |\n|---|---|\n| **Nodes** |22,470   | \n| **Edges** | 171,002  |\n| **Density** |  0.001 | \n| **Transitvity** | 0.232| \n\n### Possible tasks\n\n- **Multi-class node classification**\n- **Link prediction**\n- **Community detection**\n- **Network visualization**\n\n### Citing\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{Multi-Scale Attributed Node Embedding}},\n          journal = {Journal of Complex Networks},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n--------\n","# 数据集 ![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fbenedekrozemberczki\u002Fdatasets.svg?color=blue) [![仓库大小](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002Fbenedekrozemberczki\u002Fdatasets.svg)](https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Farchive\u002Fmaster.zip) [![benedekrozemberczki](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fbenrozemberczki?style=social&logo=twitter)](https:\u002F\u002Ftwitter.com\u002Fintent\u002Ffollow?screen_name=benrozemberczki)\n\n为网络科学、图挖掘、深度学习及通用机器学习研究收集的数据集。\n\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_31bed9a60170.png\">\n\u003C\u002Fp>\n\n#### 目录   \n\n1. [Twitch 游戏玩家](#twitch-gamers)\n2. [LastFM 亚洲社交网络](#lastfm-asia-social-network)\n3. [Deezer 欧洲社交网络](#deezer-europe-social-network)\n4. [GitHub 星标用户图](#github-stargazer-graphs)\n5. [Twitch 自我中心网络](#twitch-ego-nets)\n6. [Reddit 帖子图](#reddit-thread-graphs)  \n7. [Deezer 自我中心网络](#deezer-ego-nets)\n8. [GitHub 社交网络](#github-social-network)\n9. [Deezer 社交网络](#deezer-social-networks)\n10. [Facebook 页面-页面网络](#facebook-page-page-networks)  \n11. [维基百科文章网络](#wikipedia-article-networks)\n12. [Twitch 社交网络](#twitch-social-networks)\n13. [Facebook 大型页面-页面网络](#facebook-large-page-page-network)\n\n## Twitch 游戏玩家\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n\n### 描述\n\u003Cp align=\"justify\">\n这是一个于2018年春季通过公共API收集的Twitch用户社交网络。节点为Twitch用户，边表示他们之间的互相关注关系。该图形成一个单一的强连通分量，且无缺失属性。与该图相关的机器学习任务包括计数数据回归和节点分类。具体任务共有6项：\u003C\u002Fp>\n\n- 明星内容主播识别。\n- 主播语言预测。\n- 用户生命周期估计。\n- 用户流失预测。\n- 联盟身份识别。\n- 观看次数估计。\n\n### 链接\n\n\n- [Twitch 游戏玩家](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_gamers.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **节点标签:** 有。\n- **时间性:** 无。\n\n\n|   | **Twitch 游戏玩家**  |\n|---|---|\n| **节点** |168,114   |\n| **边** | 6,797,557 |\n| **密度** |  0.0005 |\n| **传递性** | 0.0184|\n\n### 可能的任务\n\n- **二分类节点分类**\n- **多分类节点分类**\n- **计数数据回归**\n- **链接预测**\n- **社区发现**\n- **带真实标签的社区发现**\n- **网络可视化**\n\n### 引用\n```bibtex\n>@misc{rozemberczki2021twitch,\n       title = {Twitch 游戏玩家：用于评估邻近性保持和基于结构角色的节点嵌入的数据集}, \n       author = {Benedek Rozemberczki 和 Rik Sarkar},\n       year = {2021},\n       eprint = {2101.03091},\n       archivePrefix = {arXiv},\n       primaryClass = {cs.SI}\n       }\n```\n\n## LastFM 亚洲社交网络\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1b63d4451dcc.png\">\n\u003C\u002Fp>\n\n\n\n### 描述\n\u003Cp align=\"justify\">\n这是一个于2020年3月通过公共API收集的LastFM用户社交网络。节点为来自亚洲国家的LastFM用户，边表示他们之间的互相关注关系。顶点特征根据用户喜欢的艺术家提取。与该图相关的任务是多分类节点分类——需要预测用户的所在地。这一目标特征是从每位用户的国家字段中推导出来的。\u003C\u002Fp>\n\n### 链接\n\n- [LastFM 亚洲社交网络](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffeather-lastfm-social.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。多类别。\n- **时间性:** 无。\n\n|   | **LastFM**  |\n|---|---|\n| **节点** |7,624  | \n| **边** | 27,806  |\n| **密度** |  0.001 | \n| **传递性** | 0.179 | \n\n### 可能的任务\n\n- **多分类节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n```bibtex\n@inproceedings{feather,\n               title={{图上的特征函数：物以类聚，从统计描述到参数化模型}},\n               author={Benedek Rozemberczki 和 Rik Sarkar},\n               year={2020},\n\t       pages={1325–1334},\n\t       booktitle={第29届ACM国际信息与知识管理会议（CIKM '20）论文集},\n\t       organization={ACM},\n}\n```\n\n\n## Deezer 欧洲社交网络\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n\n\n### 描述\n\u003Cp align=\"justify\">\n这是一个于2020年3月通过公共API收集的Deezer用户社交网络。节点为来自欧洲国家的Deezer用户，边表示他们之间的互相关注关系。顶点特征根据用户喜欢的艺术家提取。与该图相关的任务是二分类节点分类——需要预测用户的性别。这一目标特征是从每位用户的姓名字段中推导出来的。\u003C\u002Fp>\n\n### 链接\n\n- [Deezer 欧洲社交网络](https:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffeather-deezer-social.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。二元。\n- **时间性:** 无。\n\n|   | **Deezer**  |\n|---|---|\n| **节点** |28,281 | \n| **边** | 92,752  |\n| **密度** |  0.0002 | \n| **传递性** | 0.0959 | \n\n### 可能的任务\n\n- **二分类节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n```bibtex\n@inproceedings{feather,\n               title={{图上的特征函数：物以类聚，从统计描述到参数化模型}},\n               author={Benedek Rozemberczki 和 Rik Sarkar},\n               year={2020},\n\t       pages={1325–1334},\n\t       booktitle={第29届ACM国际信息与知识管理会议（CIKM '20）论文集},\n\t       organization={ACM},\n}\n```\n\n## GitHub 星标用户图\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_0ba2aa20e2c2.png\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这些是截至2019年8月为止，对至少拥有10颗星的热门机器学习和Web开发仓库进行过星标的开发者社交网络。节点为用户，边表示关注关系。任务是判断某个社交网络属于Web还是机器学习仓库。我们仅保留了图中的最大连通组件（至少包含10名用户）。\u003C\u002Fp>\n\n### 链接\n\n- [GitHub 星标用户图 + 标签](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgithub_stargazers.html)\n\n### 属性\n\n- **图的数量:** 12,725\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **图标签:** 有。二元标签。\n- **时间性:** 无。\n\n|   | **最小值**  |**最大值**  |\n|---|---|---|\n| **节点** |10   | 957  | \n| **密度** | 0.003 |0.561   | \n| **直径** |  2 | 18 |\n\n### 可能的任务\n- **图分类**\n\n### 引用\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: 一个面向 API 的开源 Python 框架，用于图上的无监督学习}},\n       author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Twitch 自我网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这是 2018 年 4 月参与合作计划的 Twitch 用户的自我网络。节点代表用户，边代表好友关系。二分类任务是利用自我网络预测该用户是玩单款游戏还是多款游戏。通常只玩一款游戏的玩家其自我网络更为密集。\u003C\u002Fp>\n\n### 链接\n\n- [Twitch 自我网络部分](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_ego_nets.html)\n\n### 属性\n\n- **图的数量:** 127,094\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **图标签:** 有。二元标签。\n- **时间性:** 无。\n\n|   | **最小值**  |**最大值**  |\n|---|---|---|\n| **节点数** |14   | 52  | \n| **密度** | 0.038 |0.967   | \n| **直径** |  1 | 2 | \n\n### 可能的任务\n- **图分类**\n\n### 引用\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: 一个面向 API 的开源 Python 框架，用于图上的无监督学习}},\n       author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Reddit 帖子图\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_aed593b8e810.png\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这是我们于 2018 年 5 月收集的 Reddit 上的讨论型和非讨论型帖子。节点是参与讨论的 Reddit 用户，边则是他们之间的回复关系。任务是预测某个帖子是否属于讨论型（二分类）。\u003C\u002Fp>\n\n### 链接\n\n- [Reddit 帖子图 + 目标](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Freddit_threads.html)\n\n### 属性\n\n- **图的数量:** 203,088\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **图标签:** 有。二元标签。\n- **时间性:** 无。\n\n|   | **最小值**  |**最大值**  |\n|---|---|---|\n| **节点数** |11   | 97  | \n| **密度** | 0.021 |0.382   | \n| **直径** |  2 | 27 | \n\n### 可能的任务\n- **图分类**\n\n### 引用\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: 一个面向 API 的开源 Python 框架，用于图上的无监督学习}},\n       author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n## Deezer 自我网络\n\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这是 2020 年 2 月从音乐流媒体服务 Deezer 收集的东欧用户自我网络。节点是用户，边是相互关注关系。相关任务是对图中自我节点的性别进行预测。\u003C\u002Fp>\n\n### 链接\n\n- [Deezer 自我网络 + 目标](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fdeezer_ego_nets.html)\n\n### 属性\n\n- **图的数量:** 9,629\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **图标签:** 有。二元标签。\n- **时间性:** 无。\n\n|   | **最小值**  |**最大值**  |\n|---|---|---|\n| **节点数** |11   | 363  | \n| **密度** | 0.015 |0.909   | \n| **直径** |  2 | 2 | \n\n### 可能的任务\n- **图分类**\n\n### 引用\n\n```bibtex\n@inproceedings{karateclub,\n       title = {{Karate Club: 一个面向 API 的开源 Python 框架，用于图上的无监督学习}},\n       author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},\n       year = {2020},\n       pages = {3125–3132},\n       booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},\n       organization = {ACM},\n}\n```\n\n\n## GitHub 社交网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_0ba2aa20e2c2.png\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这是一个大型的 GitHub 开发者社交网络，数据于 2019 年 6 月通过公共 API 收集。节点是至少星标过 10 个仓库的开发者，边则是他们之间的相互关注关系。顶点特征基于位置、星标过的仓库、雇主和电子邮件地址提取。与该图相关的任务是二分类节点分类——需要预测 GitHub 用户是 Web 开发者还是机器学习开发者。这一目标特征是从每位用户的职位名称中推导出来的。\u003C\u002Fp>\n\n### 链接\n\n- [GitHub Web-ML](https:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgithub-social.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。二元标签。\n- **时间性:** 无。\n\n|   | **GitHub**  |\n|---|---|\n| **节点数** |37,700   | \n| **边数** | 289,003  | \n| **密度** |  0.001 | \n| **传递性** | 0.013| \n\n### 可能的任务\n- **二分类节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek 和 Allen, Carl 和 Sarkar, Rik},\n          title = {{多尺度属性化节点嵌入}},\n          journal = {复杂网络期刊},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Deezer 社交网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_8feaf94b33b8.jpg\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n这些数据于 2017 年 11 月从音乐流媒体服务 Deezer 收集。这些数据集代表来自 3 个欧洲国家的用户友谊网络。节点代表用户，边则是相互的好友关系。为了达到一定的匿名性，我们对节点进行了重新编号。CSV 文件包含边的信息——节点从 0 开始编号。JSON 文件则包含用户的流派偏好——每个键是用户 ID，喜爱的流派以列表形式给出。流派标注在所有用户之间保持一致。每个数据集中，用户可以喜欢 84 种不同的流派。喜爱的流派列表是根据用户点赞的歌曲列表整理而成。涉及的国家包括罗马尼亚、克罗地亚和匈牙利。对于每个数据集，我们都列出了节点和边的数量。\u003C\u002Fp>\n\n### 链接\n\n- [罗马尼亚](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n- [克罗地亚](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n- [匈牙利](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Deezer.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **节点标签:** 有。多标签。\n- **时序性:** 无。\n\n|   | **RO**  | **HR**  | **HU**  |\n|---|---|---|---|\n| **节点数** |41,773   | 54,573  |  47,538 |\n| **边数** | 125,826  |498,202 |  222,887 |\n| **密度** |  0.0001 | 0.0004  | 0.0002 |\n| **传递性** | 0.0752| 0.1146 | 0.0929 |\n\n### 可能的任务\n\n- **节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n\n如果您在研究中使用了这些数据集，请引用以下论文：\n\n```bibtex\n>@inproceedings{rozemberczki2019gemsec,    \n                title={GEMSEC: Graph Embedding with Self Clustering},    \n                author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},    \n                booktitle={Proceedings of the 2019 IEEE\u002FACM International Conference on Advances in Social Networks Analysis and Mining 2019},    \n                pages={65-72},    \n                year={2019},    \n                organization={ACM}    \n                }\n```\n## Facebook 页面间网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_b5c3df6ded64.png\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n我们于2017年11月收集了关于Facebook页面的数据。这些数据集代表了不同类别的蓝色认证Facebook页面网络。节点表示页面，边表示页面之间的相互点赞关系。CSV文件包含边的信息——节点从0开始编号。我们包含了8种不同的页面类型，如下所示。对于每个数据集，我们都列出了节点和边的数量。\n\u003C\u002Fp>\n\n### 链接\n\n- [政治人物](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [公司](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [运动员](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [媒体](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [公众人物](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [艺术家](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [政府](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n- [电视节目](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fgemsec-Facebook.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 无。\n- **边特征:** 无。\n- **节点标签:** 无。\n- **时序性:** 无。\n\n|   | **节点数**  | **边数**  | **密度**  | **传递性**|\n|---|---|---|---|---|\n| **政治人物**|  \t5,908| \t41,729|0.0024|0.3011|\n| **公司**| \t14,113| \t52,310|0.0005|0.1532|\n| **运动员**| \t\t13,866| \t86,858|0.0009|0.1292|\n| **新闻网站**| \t\t27,917| \t206,259|0.0005|0.1140|\n| **公众人物**| \t\t11,565| \t67,114|0.0010|0.1666|\n| **艺术家**|  \t50,515| \t819,306|0.0006|0.1140|\n| **政府**| \t\t7,057|\t\t89,455|0.0036|0.2238|\n| **电视节目**| \t\t3,892| \t17,262|0.0023|0.5906|\n\n### 可能的任务\n\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n\n如果您在研究中使用了这些数据集，请引用以下论文：\n\n```bibtex\n>@inproceedings{rozemberczki2019gemsec,    \n                title={GEMSEC: Graph Embedding with Self Clustering},    \n                author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},    \n                booktitle={Proceedings of the 2019 IEEE\u002FACM International Conference on Advances in Social Networks Analysis and Mining 2019},    \n                pages={65-72},    \n                year={2019},    \n                organization={ACM}    \n                }\n```\n       \n## Wikipedia 文章网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"400\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_d4d6050621c2.jpg\">\n\u003C\u002Fp>\n\n### 描述\n\u003Cp align=\"justify\">\n数据来源于英文维基百科（2018年12月）。这些数据集代表特定主题（变色龙、鳄鱼和松鼠）的页面间网络。节点表示文章，边表示文章之间的相互链接。边的CSV文件包含边的信息——节点从0开始编号。特征的JSON文件包含文章的特征信息，每个键为页面ID，节点特征以列表形式给出。如果特征列表中包含某项特征，则表明该特征所代表的信息性名词曾出现在维基百科文章的文本中。目标CSV文件包含节点标识符以及2017年10月至2018年11月期间各页面的平均月度流量。对于每种页面间网络，我们都列出了节点和边的数量，并附上了一些其他描述性统计信息。\n\u003C\u002Fp>\n\n### 链接\n\n- [维基百科变色龙](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n- [维基百科鳄鱼](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n- [维基百科松鼠](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Fwikipedia-article-networks.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。连续型目标。\n- **时序性:** 无。\n\n|   | **变色龙**  | **鳄鱼**  | **松鼠**  |\n|---|---|---|---|\n| **节点数** |2,277   | 11,631  |  5,201 |\n| **边数** | 31,421  |170,918 |  198,493 |\n| **密度** |  0.012 | 0.003  | 0.015 |\n| **传递性** | 0.314| 0.026 | 0.348 |\n\n### 可能的任务\n\n- **回归分析**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n\n如果您在研究中使用了这些数据集，请引用以下论文：\n\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{Multi-Scale Attributed Node Embedding}},\n          journal = {Journal of Complex Networks},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Twitch 社交网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_1a0fdd679509.png\">\n\u003C\u002Fp>\n\n\n### 描述\n\u003Cp align=\"justify\">\n用于节点分类和迁移学习的数据集是Twitch平台上以特定语言进行直播的游戏主播用户间的社交网络。节点即用户自身，边则表示用户之间的互相关注关系。节点特征基于用户玩过的游戏、喜欢的游戏、所在地区以及直播习惯提取。这些数据集共享相同的节点特征集合，因此可以在不同网络之间进行迁移学习。这些社交网络数据收集于2018年5月。与这些网络相关的监督任务是二分类问题——需要预测某位主播是否使用粗俗语言。\u003C\u002Fp>\n\n### 链接\n\n\n- [德国](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [英格兰](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [西班牙](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [法国](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [葡萄牙](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [俄罗斯](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n- [台湾](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch-social-networks.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。二分类标签。\n- **时序性:** 无。\n\n\n|   | **德语**  | **英语**  | **西班牙语**  |**法语**  | **葡萄牙语**  | **俄语**  |**繁体中文**  |\n|---|---|---|---|---|---|---|---|\n| **节点数** |9,498   | 7,126  |  4,648 |6,549   | 1,912  |  4,385 |2,772 |\n| **边数** | 153,138  |35,324 |  59,382 |112,666   | 31,299  |  37,304 |63,462 |\n| **密度** |  0.003 | 0.002  | 0.006 | 0.005   | 0.017  |  0.004 |0.017|\n| **传递性** | 0.047| 0.042 | 0.084 |0.054   | 0.131  |  0.049 |0.120 |\n\n### 可能的任务\n\n- **二分类节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{多尺度属性节点嵌入}},\n          journal = {复杂网络期刊},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n## Facebook 大型页面-页面网络\n\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_readme_b5c3df6ded64.png\">\n\u003C\u002Fp>\n\n\n\n### 描述\n\u003Cp align=\"justify\">\n该网页图是经过验证的 Facebook 网站之间的页面-页面图。节点代表官方 Facebook 页面，而边则表示网站之间的相互点赞关系。节点特征是从页面所有者为总结网站目的而编写的网站描述中提取的。该图于 2017 年 11 月通过 Facebook Graph API 收集，并仅限于 Facebook 定义的 4 类页面：政治人物、政府组织、电视节目和公司。与该数据集相关的任务是对这 4 类网站进行多分类节点分类。\u003C\u002Fp>\n\n### 链接\n\n- [Facebook 大型页面-页面网络](http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ffacebook-large-page-page-network.html)\n\n### 属性\n\n- **有向性:** 无。\n- **节点特征:** 有。\n- **边特征:** 无。\n- **节点标签:** 有。多项式标签。\n- **时序性:** 无。\n\n|   | **Facebook**  |\n|---|---|\n| **节点数** |22,470   | \n| **边数** | 171,002  |\n| **密度** |  0.001 | \n| **传递性** | 0.232| \n\n### 可能的任务\n\n- **多分类节点分类**\n- **链接预测**\n- **社区发现**\n- **网络可视化**\n\n### 引用\n```bibtex\n>@article{musae,\n          author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},\n          title = {{多尺度属性节点嵌入}},\n          journal = {复杂网络期刊},\n          volume = {9},\n          number = {2},\n          year = {2021},\n}\n```\n--------","# Datasets 快速上手指南\n\n`datasets` 是一个专为网络科学、图挖掘、深度学习和通用机器学习研究收集的高质量数据集集合。它包含了来自 Twitch、LastFM、Deezer、GitHub、Reddit 等平台的社交网络数据，适用于节点分类、图分类、链路预测和社区发现等任务。\n\n## 环境准备\n\n在开始使用前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows\n*   **Python 版本**: Python 3.7 或更高版本\n*   **前置依赖**:\n    *   `pip` (Python 包管理工具)\n    *   推荐安装基础科学计算库：`numpy`, `scipy`, `pandas` (用于数据处理和分析)\n    *   可选：图神经网络框架（如 `PyTorch Geometric`, `DGL`）或图学习库（如 `Karate Club`），以便直接利用这些数据进行模型训练。\n\n## 安装步骤\n\n该仓库主要提供数据集的下载链接和描述文档，通常不需要通过 `pip` 安装特定的 Python 包来“运行”它。您需要根据需求下载对应的数据文件。\n\n### 1. 克隆仓库（获取文档与脚本）\n如果您需要查看完整的数据描述或相关的预处理脚本，可以克隆 GitHub 仓库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets.git\ncd datasets\n```\n\n### 2. 下载数据\n由于数据集文件较大，建议直接访问 README 中提供的 **SNAP (Stanford Network Analysis Platform)** 官方链接进行下载。\n\n*   **国内加速方案**：如果直接访问 SNAP 官网速度较慢，可以尝试使用国内镜像站或代理加速，或者在仓库的 `data` 目录（如果有）中查找是否有预置的下载脚本。\n*   **示例下载命令** (以 Twitch Gamers 为例，需替换为实际数据文件 URL)：\n\n```bash\n# 进入您存放数据的目录\nmkdir -p data\u002Ftwitch_gamers\ncd data\u002Ftwitch_gamers\n\n# 使用 wget 或 curl 下载 (请替换为 README 中对应数据集的实际 .csv 或 .graph 文件链接)\n# 例如：\nwget http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_gamers_edges.csv\nwget http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_gamers_features.csv\nwget http:\u002F\u002Fsnap.stanford.edu\u002Fdata\u002Ftwitch_gamers_target.csv\n```\n\n> **注意**：每个数据集的具体文件结构（边列表、特征矩阵、标签文件）请参考上文各章节的 \"Links\" 部分。\n\n## 基本使用\n\n下载完成后，您可以使用 Python (`pandas` 或 `networkx`) 快速加载并探索数据。以下以 **Twitch Gamers** 数据集为例，展示如何加载并进行简单的统计分析。\n\n### 示例：加载 Twitch Gamers 数据\n\n假设您已下载了 `twitch_gamers_edges.csv` (边), `twitch_gamers_features.csv` (节点特征), 和 `twitch_gamers_target.csv` (标签)。\n\n```python\nimport pandas as pd\nimport networkx as nx\n\n# 1. 加载边列表构建图\n# 假设边文件包含 'from', 'to' 列\nedges = pd.read_csv('twitch_gamers_edges.csv')\nG = nx.from_pandas_edgelist(edges, source='from', target='to')\n\nprint(f\"图节点数: {G.number_of_nodes()}\")\nprint(f\"图边数: {G.number_of_edges()}\")\n\n# 2. 加载节点特征\n# 假设特征文件第一列为节点 ID\nfeatures = pd.read_csv('twitch_gamers_features.csv', index_col=0)\nprint(f\"特征维度: {features.shape}\")\n\n# 3. 加载标签 (例如：预测是否为显式内容主播)\ntargets = pd.read_csv('twitch_gamers_target.csv', index_col=0)\nprint(f\"标签分布:\\n{targets['target_column_name'].value_counts()}\") # 请替换为实际的列名\n\n# 4. 简单任务示例：提取子图进行可视化或输入模型\n# 选取前 100 个节点构成的子图\nsubgraph_nodes = list(G.nodes())[:100]\nsubgraph = G.subgraph(subgraph_nodes)\n\nprint(\"数据加载完成，可传入 PyTorch Geometric 或 DGL 进行后续训练。\")\n```\n\n### 典型应用场景\n\n根据数据集特性，您可以快速开展以下任务：\n\n*   **节点分类**: 使用 `LastFM Asia` 或 `Deezer Europe` 数据，基于用户听歌偏好（节点特征）预测用户地理位置或性别。\n*   **图分类**: 使用 `GitHub StarGazer Graphs` 或 `Reddit Thread Graphs`，判断整个子图是属于“机器学习”还是\"Web 开发”类别，或是“讨论型”线程。\n*   **链路预测**: 在 `Facebook Page-Page` 网络中预测页面之间的潜在关注关系。\n\n---\n*更多数据集的详细属性（如有向\u002F无向、是否含时间戳、具体任务类型）请参阅各章节的描述部分。*","某高校研究团队正致力于开发一种基于图神经学习的用户地域预测模型，需要大量真实的社交网络数据来训练和验证算法。\n\n### 没有 datasets 时\n- **数据搜集耗时极长**：研究人员需手动编写爬虫调用 Twitch 或 LastFM 的公开 API，不仅耗费数周时间清洗数据，还常因接口限制导致数据不完整。\n- **特征工程门槛高**：原始数据缺乏标准化的节点特征（如用户喜欢的艺术家列表）和明确的标签（如国家代码），团队需自行构建复杂的特征提取管道。\n- **基准对比困难**：由于缺乏统一的公开数据集，不同研究使用的数据分布各异，导致模型性能无法在公平的标准下进行横向对比。\n- **格式兼容性问题**：收集到的数据格式杂乱（JSON、CSV 混用），每次实验前都需编写额外的转换脚本才能适配 PyTorch Geometric 等主流框架。\n\n### 使用 datasets 后\n- **一键获取高质量数据**：直接调用 datasets 库即可下载已清洗好的\"Twitch Gamers\"或\"LastFM Asia\"图谱，包含完整的节点、边及标签，将数据准备周期从数周缩短至几分钟。\n- **开箱即用的特征与标签**：工具预置了丰富的节点特征（如音乐偏好向量）和多分类标签（如用户所属国家），研究人员可立即投入模型训练，无需重复造轮子。\n- **标准化评估基准**：利用库中统一划分的数据集，团队能迅速复现论文结果，并在公认的基准上与全球最新算法进行公平的性能比对。\n- **无缝对接主流框架**：提供的数据格式天然兼容深度学习库，消除了格式转换的繁琐步骤，让开发者能专注于算法逻辑的优化而非数据预处理。\n\ndatasets 通过将分散杂乱的科研数据转化为标准化的“即插即用”资源，极大地降低了图机器学习的研究门槛并加速了创新迭代。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbenedekrozemberczki_datasets_31bed9a6.png","benedekrozemberczki","Benedek Rozemberczki","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbenedekrozemberczki_4cc882ba.png","Machine Learning Research Scientist at Google| PhD from The University of Edinburgh.","@google","United Kingdom","benedek.rozemberczki@gmail.com","benrozemberczki",null,"https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki",652,83,"2026-03-15T11:59:26","MIT",1,"","未说明",{"notes":90,"python":88,"dependencies":91},"该仓库主要提供用于网络科学、图挖掘和机器学习研究的数据集描述（如 Twitch, LastFM, Deezer, GitHub, Reddit 等），README 中未包含具体的代码运行环境、依赖库或硬件需求信息。用户需根据下游具体任务自行配置环境。",[],[16,14,93],"其他",[95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114],"network-science","network-analysis","data-science","machine-learning","gcn","graph-embedding","network-embedding","community-detection","link-prediction","node-classification","graph-convolution","node-embedding","graph-neural-network","gnn","dimensionality-reduction","deepwalk","node2vec","graph2vec","benchmark","dataset","2026-03-27T02:49:30.150509","2026-04-09T01:05:50.736298",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},25385,"Twitch 社交网络数据集中的目标变量是哪一列？其他列代表什么含义？","目标变量是 'mature' 列，用于二分类任务（预测主播是否使用露骨语言）。关于其他列（id, days, views, partner, new_id）的具体含义以及是否可用于监督任务，建议参考论文《Multi-Scale Attributed Node Embedding》（https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.03091.pdf），其中对数据集和特征有更详细的解释。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F5",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},25386,"下载的数据集压缩包中 CSV 文件只包含 git-lfs 指针内容，如何获取真实数据？","这是由于部分数据集（如 Facebook Large, Deezer Europe）的文件托管在 Git LFS 上，直接下载压缩包可能只包含指针文件。维护者已意识到该问题并更新了相关下载链接。如果遇到此问题，请检查项目页面是否有更新的直接下载链接，或尝试配置本地 git lfs 环境后重新拉取。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F11",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},25387,"LastfmAsia 和 DeezerEurope 数据集中的节点特征向量具体代表什么？","是的，特征向量中的每个数字对应于用户喜欢的艺术家的 ID。这些特征是基于用户喜欢的艺术家提取的，向量中的数值直接代表艺术家的标识符，而非抽象的嵌入表示。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F8",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},25388,"Github Web-ML 数据集中的特征文件（git_feature.json）长度不一致，应该如何处理？","不需要填充 0。该文件表示的是一个稀疏二进制特征矩阵。JSON 中的键（keys）代表节点 ID（行索引），对应的值列表代表该节点拥有的特征索引（列索引）。这是一种稀疏表示法，直接使用即可，无需转换为稠密矩阵或进行填充。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F3",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},25389,"Twitch 和 GitHub 数据集中的特征索引具体代表什么含义（例如游戏 ID 或仓库 ID）？","特征索引的具体映射关系（即哪个数字代表哪个游戏或仓库）在 Issue 中未直接列出。维护者建议查阅相关的研究论文（如《Multi-Scale Attributed Node Embedding》或数据集对应的原始论文），文中详细说明了特征提取过程和索引含义。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F7",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},25390,"GitHub Web-ML 数据集中描述的文本特征（位置、邮箱等）是如何转换为数值向量的？","具体的特征工程和转换方法（如何将文本信息转换为 `musae_git_features.json` 中的数值向量）在 Issue 回复中未详细展开。维护者指引用户阅读相关论文以获取关于特征提取和数值化过程的完整技术细节。","https:\u002F\u002Fgithub.com\u002Fbenedekrozemberczki\u002Fdatasets\u002Fissues\u002F13",[149],{"id":150,"version":151,"summary_zh":80,"released_at":152},162695,"v_00001","2021-05-08T19:47:27"]