datasets
datasets 是一个专为网络科学、图挖掘及机器学习研究打造的开源数据集仓库。它汇集了来自 Twitch、LastFM、Deezer、GitHub、Reddit 等多个真实社交平台的高质量图数据,旨在解决研究人员在算法验证阶段难以获取标准化、大规模真实世界数据的痛点。
无论是高校科研人员还是算法开发者,都能利用 datasets 快速开展节点分类、链路预测、社区发现及回归分析等实验。其独特亮点在于提供了结构清晰且特征丰富的图数据:不仅包含数百万级节点的超大规模社交网络(如 Twitch Gamers),还细致整理了节点属性(如用户喜好、地理位置)与标签信息(如主播语言、流失预测),并明确标注了数据的有向性、时序性等关键属性。这些精心整理的数据集无需繁琐的清洗预处理,即可直接用于评估图嵌入模型或测试深度学习算法的性能,是进行图神经网络研究与教学的理想资源库。
使用场景
某高校研究团队正致力于开发一种基于图神经学习的用户地域预测模型,需要大量真实的社交网络数据来训练和验证算法。
没有 datasets 时
- 数据搜集耗时极长:研究人员需手动编写爬虫调用 Twitch 或 LastFM 的公开 API,不仅耗费数周时间清洗数据,还常因接口限制导致数据不完整。
- 特征工程门槛高:原始数据缺乏标准化的节点特征(如用户喜欢的艺术家列表)和明确的标签(如国家代码),团队需自行构建复杂的特征提取管道。
- 基准对比困难:由于缺乏统一的公开数据集,不同研究使用的数据分布各异,导致模型性能无法在公平的标准下进行横向对比。
- 格式兼容性问题:收集到的数据格式杂乱(JSON、CSV 混用),每次实验前都需编写额外的转换脚本才能适配 PyTorch Geometric 等主流框架。
使用 datasets 后
- 一键获取高质量数据:直接调用 datasets 库即可下载已清洗好的"Twitch Gamers"或"LastFM Asia"图谱,包含完整的节点、边及标签,将数据准备周期从数周缩短至几分钟。
- 开箱即用的特征与标签:工具预置了丰富的节点特征(如音乐偏好向量)和多分类标签(如用户所属国家),研究人员可立即投入模型训练,无需重复造轮子。
- 标准化评估基准:利用库中统一划分的数据集,团队能迅速复现论文结果,并在公认的基准上与全球最新算法进行公平的性能比对。
- 无缝对接主流框架:提供的数据格式天然兼容深度学习库,消除了格式转换的繁琐步骤,让开发者能专注于算法逻辑的优化而非数据预处理。
datasets 通过将分散杂乱的科研数据转化为标准化的“即插即用”资源,极大地降低了图机器学习的研究门槛并加速了创新迭代。
运行环境要求
未说明
未说明

快速开始
数据集

为网络科学、图挖掘、深度学习及通用机器学习研究收集的数据集。
目录
- Twitch 游戏玩家
- LastFM 亚洲社交网络
- Deezer 欧洲社交网络
- GitHub 星标用户图
- Twitch 自我中心网络
- Reddit 帖子图
- Deezer 自我中心网络
- GitHub 社交网络
- Deezer 社交网络
- Facebook 页面-页面网络
- 维基百科文章网络
- Twitch 社交网络
- Facebook 大型页面-页面网络
Twitch 游戏玩家
描述
这是一个于2018年春季通过公共API收集的Twitch用户社交网络。节点为Twitch用户,边表示他们之间的互相关注关系。该图形成一个单一的强连通分量,且无缺失属性。与该图相关的机器学习任务包括计数数据回归和节点分类。具体任务共有6项:
- 明星内容主播识别。
- 主播语言预测。
- 用户生命周期估计。
- 用户流失预测。
- 联盟身份识别。
- 观看次数估计。
链接
属性
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 节点标签: 有。
- 时间性: 无。
| Twitch 游戏玩家 | |
|---|---|
| 节点 | 168,114 |
| 边 | 6,797,557 |
| 密度 | 0.0005 |
| 传递性 | 0.0184 |
可能的任务
- 二分类节点分类
- 多分类节点分类
- 计数数据回归
- 链接预测
- 社区发现
- 带真实标签的社区发现
- 网络可视化
引用
>@misc{rozemberczki2021twitch,
title = {Twitch 游戏玩家:用于评估邻近性保持和基于结构角色的节点嵌入的数据集},
author = {Benedek Rozemberczki 和 Rik Sarkar},
year = {2021},
eprint = {2101.03091},
archivePrefix = {arXiv},
primaryClass = {cs.SI}
}
LastFM 亚洲社交网络
描述
这是一个于2020年3月通过公共API收集的LastFM用户社交网络。节点为来自亚洲国家的LastFM用户,边表示他们之间的互相关注关系。顶点特征根据用户喜欢的艺术家提取。与该图相关的任务是多分类节点分类——需要预测用户的所在地。这一目标特征是从每位用户的国家字段中推导出来的。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。多类别。
- 时间性: 无。
| LastFM | |
|---|---|
| 节点 | 7,624 |
| 边 | 27,806 |
| 密度 | 0.001 |
| 传递性 | 0.179 |
可能的任务
- 多分类节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
@inproceedings{feather,
title={{图上的特征函数:物以类聚,从统计描述到参数化模型}},
author={Benedek Rozemberczki 和 Rik Sarkar},
year={2020},
pages={1325–1334},
booktitle={第29届ACM国际信息与知识管理会议(CIKM '20)论文集},
organization={ACM},
}
Deezer 欧洲社交网络
描述
这是一个于2020年3月通过公共API收集的Deezer用户社交网络。节点为来自欧洲国家的Deezer用户,边表示他们之间的互相关注关系。顶点特征根据用户喜欢的艺术家提取。与该图相关的任务是二分类节点分类——需要预测用户的性别。这一目标特征是从每位用户的姓名字段中推导出来的。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。二元。
- 时间性: 无。
| Deezer | |
|---|---|
| 节点 | 28,281 |
| 边 | 92,752 |
| 密度 | 0.0002 |
| 传递性 | 0.0959 |
可能的任务
- 二分类节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
@inproceedings{feather,
title={{图上的特征函数:物以类聚,从统计描述到参数化模型}},
author={Benedek Rozemberczki 和 Rik Sarkar},
year={2020},
pages={1325–1334},
booktitle={第29届ACM国际信息与知识管理会议(CIKM '20)论文集},
organization={ACM},
}
GitHub 星标用户图
描述
这些是截至2019年8月为止,对至少拥有10颗星的热门机器学习和Web开发仓库进行过星标的开发者社交网络。节点为用户,边表示关注关系。任务是判断某个社交网络属于Web还是机器学习仓库。我们仅保留了图中的最大连通组件(至少包含10名用户)。
链接
属性
- 图的数量: 12,725
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 图标签: 有。二元标签。
- 时间性: 无。
| 最小值 | 最大值 | |
|---|---|---|
| 节点 | 10 | 957 |
| 密度 | 0.003 | 0.561 |
| 直径 | 2 | 18 |
可能的任务
- 图分类
引用
@inproceedings{karateclub,
title = {{Karate Club: 一个面向 API 的开源 Python 框架,用于图上的无监督学习}},
author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},
organization = {ACM},
}
Twitch 自我网络
描述
这是 2018 年 4 月参与合作计划的 Twitch 用户的自我网络。节点代表用户,边代表好友关系。二分类任务是利用自我网络预测该用户是玩单款游戏还是多款游戏。通常只玩一款游戏的玩家其自我网络更为密集。
链接
属性
- 图的数量: 127,094
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 图标签: 有。二元标签。
- 时间性: 无。
| 最小值 | 最大值 | |
|---|---|---|
| 节点数 | 14 | 52 |
| 密度 | 0.038 | 0.967 |
| 直径 | 1 | 2 |
可能的任务
- 图分类
引用
@inproceedings{karateclub,
title = {{Karate Club: 一个面向 API 的开源 Python 框架,用于图上的无监督学习}},
author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},
organization = {ACM},
}
Reddit 帖子图
描述
这是我们于 2018 年 5 月收集的 Reddit 上的讨论型和非讨论型帖子。节点是参与讨论的 Reddit 用户,边则是他们之间的回复关系。任务是预测某个帖子是否属于讨论型(二分类)。
链接
属性
- 图的数量: 203,088
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 图标签: 有。二元标签。
- 时间性: 无。
| 最小值 | 最大值 | |
|---|---|---|
| 节点数 | 11 | 97 |
| 密度 | 0.021 | 0.382 |
| 直径 | 2 | 27 |
可能的任务
- 图分类
引用
@inproceedings{karateclub,
title = {{Karate Club: 一个面向 API 的开源 Python 框架,用于图上的无监督学习}},
author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},
organization = {ACM},
}
Deezer 自我网络
描述
这是 2020 年 2 月从音乐流媒体服务 Deezer 收集的东欧用户自我网络。节点是用户,边是相互关注关系。相关任务是对图中自我节点的性别进行预测。
链接
属性
- 图的数量: 9,629
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 图标签: 有。二元标签。
- 时间性: 无。
| 最小值 | 最大值 | |
|---|---|---|
| 节点数 | 11 | 363 |
| 密度 | 0.015 | 0.909 |
| 直径 | 2 | 2 |
可能的任务
- 图分类
引用
@inproceedings{karateclub,
title = {{Karate Club: 一个面向 API 的开源 Python 框架,用于图上的无监督学习}},
author = {Benedek Rozemberczki 和 Oliver Kiss 和 Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {第 29 届 ACM 国际信息与知识管理会议论文集 (CIKM '20)},
organization = {ACM},
}
GitHub 社交网络
描述
这是一个大型的 GitHub 开发者社交网络,数据于 2019 年 6 月通过公共 API 收集。节点是至少星标过 10 个仓库的开发者,边则是他们之间的相互关注关系。顶点特征基于位置、星标过的仓库、雇主和电子邮件地址提取。与该图相关的任务是二分类节点分类——需要预测 GitHub 用户是 Web 开发者还是机器学习开发者。这一目标特征是从每位用户的职位名称中推导出来的。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。二元标签。
- 时间性: 无。
| GitHub | |
|---|---|
| 节点数 | 37,700 |
| 边数 | 289,003 |
| 密度 | 0.001 |
| 传递性 | 0.013 |
可能的任务
- 二分类节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
>@article{musae,
author = {Rozemberczki, Benedek 和 Allen, Carl 和 Sarkar, Rik},
title = {{多尺度属性化节点嵌入}},
journal = {复杂网络期刊},
volume = {9},
number = {2},
year = {2021},
}
Deezer 社交网络
描述
这些数据于 2017 年 11 月从音乐流媒体服务 Deezer 收集。这些数据集代表来自 3 个欧洲国家的用户友谊网络。节点代表用户,边则是相互的好友关系。为了达到一定的匿名性,我们对节点进行了重新编号。CSV 文件包含边的信息——节点从 0 开始编号。JSON 文件则包含用户的流派偏好——每个键是用户 ID,喜爱的流派以列表形式给出。流派标注在所有用户之间保持一致。每个数据集中,用户可以喜欢 84 种不同的流派。喜爱的流派列表是根据用户点赞的歌曲列表整理而成。涉及的国家包括罗马尼亚、克罗地亚和匈牙利。对于每个数据集,我们都列出了节点和边的数量。
链接
属性
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 节点标签: 有。多标签。
- 时序性: 无。
| RO | HR | HU | |
|---|---|---|---|
| 节点数 | 41,773 | 54,573 | 47,538 |
| 边数 | 125,826 | 498,202 | 222,887 |
| 密度 | 0.0001 | 0.0004 | 0.0002 |
| 传递性 | 0.0752 | 0.1146 | 0.0929 |
可能的任务
- 节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
如果您在研究中使用了这些数据集,请引用以下论文:
>@inproceedings{rozemberczki2019gemsec,
title={GEMSEC: Graph Embedding with Self Clustering},
author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},
booktitle={Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2019},
pages={65-72},
year={2019},
organization={ACM}
}
Facebook 页面间网络
描述
我们于2017年11月收集了关于Facebook页面的数据。这些数据集代表了不同类别的蓝色认证Facebook页面网络。节点表示页面,边表示页面之间的相互点赞关系。CSV文件包含边的信息——节点从0开始编号。我们包含了8种不同的页面类型,如下所示。对于每个数据集,我们都列出了节点和边的数量。
链接
属性
- 有向性: 无。
- 节点特征: 无。
- 边特征: 无。
- 节点标签: 无。
- 时序性: 无。
| 节点数 | 边数 | 密度 | 传递性 | |
|---|---|---|---|---|
| 政治人物 | 5,908 | 41,729 | 0.0024 | 0.3011 |
| 公司 | 14,113 | 52,310 | 0.0005 | 0.1532 |
| 运动员 | 13,866 | 86,858 | 0.0009 | 0.1292 |
| 新闻网站 | 27,917 | 206,259 | 0.0005 | 0.1140 |
| 公众人物 | 11,565 | 67,114 | 0.0010 | 0.1666 |
| 艺术家 | 50,515 | 819,306 | 0.0006 | 0.1140 |
| 政府 | 7,057 | 89,455 | 0.0036 | 0.2238 |
| 电视节目 | 3,892 | 17,262 | 0.0023 | 0.5906 |
可能的任务
- 链接预测
- 社区发现
- 网络可视化
引用
如果您在研究中使用了这些数据集,请引用以下论文:
>@inproceedings{rozemberczki2019gemsec,
title={GEMSEC: Graph Embedding with Self Clustering},
author={Rozemberczki, Benedek and Davies, Ryan and Sarkar, Rik and Sutton, Charles},
booktitle={Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2019},
pages={65-72},
year={2019},
organization={ACM}
}
Wikipedia 文章网络
描述
数据来源于英文维基百科(2018年12月)。这些数据集代表特定主题(变色龙、鳄鱼和松鼠)的页面间网络。节点表示文章,边表示文章之间的相互链接。边的CSV文件包含边的信息——节点从0开始编号。特征的JSON文件包含文章的特征信息,每个键为页面ID,节点特征以列表形式给出。如果特征列表中包含某项特征,则表明该特征所代表的信息性名词曾出现在维基百科文章的文本中。目标CSV文件包含节点标识符以及2017年10月至2018年11月期间各页面的平均月度流量。对于每种页面间网络,我们都列出了节点和边的数量,并附上了一些其他描述性统计信息。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。连续型目标。
- 时序性: 无。
| 变色龙 | 鳄鱼 | 松鼠 | |
|---|---|---|---|
| 节点数 | 2,277 | 11,631 | 5,201 |
| 边数 | 31,421 | 170,918 | 198,493 |
| 密度 | 0.012 | 0.003 | 0.015 |
| 传递性 | 0.314 | 0.026 | 0.348 |
可能的任务
- 回归分析
- 链接预测
- 社区发现
- 网络可视化
引用
如果您在研究中使用了这些数据集,请引用以下论文:
>@article{musae,
author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},
title = {{Multi-Scale Attributed Node Embedding}},
journal = {Journal of Complex Networks},
volume = {9},
number = {2},
year = {2021},
}
Twitch 社交网络
描述
用于节点分类和迁移学习的数据集是Twitch平台上以特定语言进行直播的游戏主播用户间的社交网络。节点即用户自身,边则表示用户之间的互相关注关系。节点特征基于用户玩过的游戏、喜欢的游戏、所在地区以及直播习惯提取。这些数据集共享相同的节点特征集合,因此可以在不同网络之间进行迁移学习。这些社交网络数据收集于2018年5月。与这些网络相关的监督任务是二分类问题——需要预测某位主播是否使用粗俗语言。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。二分类标签。
- 时序性: 无。
| 德语 | 英语 | 西班牙语 | 法语 | 葡萄牙语 | 俄语 | 繁体中文 | |
|---|---|---|---|---|---|---|---|
| 节点数 | 9,498 | 7,126 | 4,648 | 6,549 | 1,912 | 4,385 | 2,772 |
| 边数 | 153,138 | 35,324 | 59,382 | 112,666 | 31,299 | 37,304 | 63,462 |
| 密度 | 0.003 | 0.002 | 0.006 | 0.005 | 0.017 | 0.004 | 0.017 |
| 传递性 | 0.047 | 0.042 | 0.084 | 0.054 | 0.131 | 0.049 | 0.120 |
可能的任务
- 二分类节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
>@article{musae,
author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},
title = {{多尺度属性节点嵌入}},
journal = {复杂网络期刊},
volume = {9},
number = {2},
year = {2021},
}
Facebook 大型页面-页面网络
描述
该网页图是经过验证的 Facebook 网站之间的页面-页面图。节点代表官方 Facebook 页面,而边则表示网站之间的相互点赞关系。节点特征是从页面所有者为总结网站目的而编写的网站描述中提取的。该图于 2017 年 11 月通过 Facebook Graph API 收集,并仅限于 Facebook 定义的 4 类页面:政治人物、政府组织、电视节目和公司。与该数据集相关的任务是对这 4 类网站进行多分类节点分类。
链接
属性
- 有向性: 无。
- 节点特征: 有。
- 边特征: 无。
- 节点标签: 有。多项式标签。
- 时序性: 无。
| 节点数 | 22,470 |
| 边数 | 171,002 |
| 密度 | 0.001 |
| 传递性 | 0.232 |
可能的任务
- 多分类节点分类
- 链接预测
- 社区发现
- 网络可视化
引用
>@article{musae,
author = {Rozemberczki, Benedek and Allen, Carl and Sarkar, Rik},
title = {{多尺度属性节点嵌入}},
journal = {复杂网络期刊},
volume = {9},
number = {2},
year = {2021},
}
版本历史
v_000012021/05/08常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备