game-datasets
game-datasets 是一个专为游戏人工智能与数据挖掘领域打造的精选资源库。它系统性地整理了大量高质量的游戏数据集、实用开发工具以及相关学术资料,旨在解决研究人员和开发者在构建智能游戏应用时面临的“数据难找、工具分散”的痛点。
无论是需要训练强化学习模型的研究员,还是希望分析玩家行为的数据科学家,亦或是想要获取实时电竞数据的游戏开发者,都能在这里找到所需的支持。资源库涵盖了从经典主机游戏到移动端、Web 端的多平台数据接口(API),包括暴雪战网、Steam 数据库、Dota 2 开放数据、宝可梦全世代数据等知名来源,同时也收录了关于超级马里奥制造器等特定游戏的解析工具。
除了原始数据,game-datasets 还提供了市场研究资料、专业书籍推荐及各类辅助工具,帮助用户更高效地完成从数据获取到模型验证的全流程工作。项目采用开放的社区协作模式,持续更新维护,确保资源的时效性与实用性。对于希望深入探索游戏智能技术、开展数据驱动型游戏设计的专业人士而言,这是一个不可多得的入门指南与实战宝库。
使用场景
一家独立游戏工作室的数据分析师正试图构建一个预测模型,以评估新游戏在 Steam 平台的潜在销量与用户评价趋势。
没有 game-datasets 时
- 数据源分散且难寻:团队需要在 GitHub、Kaggle 及各个游戏论坛中盲目搜索,花费数周时间才凑齐零散的 CS:GO 或 Dota 2 比赛记录。
- 接口文档缺失:即使找到了如 Riot Games 或 Battle.net 的原始 API,也缺乏统一的调用指南和示例代码,导致开发环境配置反复报错。
- 数据格式不统一:收集到的数据集结构各异,有的缺少关键字段,有的包含大量噪声,清洗和标准化工作占据了 80% 的项目时间。
- 合规风险不明:难以确认某些爬取数据的使用许可,存在侵犯版权或违反服务条款的法律隐患。
使用 game-datasets 后
- 资源一站式获取:直接通过 game-datasets 索引到经过筛选的高质量数据集,如 OpenDota 的实时比赛数据和 Steam Spy 的销售估算,半天内即可完成数据储备。
- 开发效率倍增:利用列表中整理的 API 文档和工具链接(如 IGDB 和 Giant Bomb),快速打通数据管道,无需重复造轮子。
- 数据质量可控:采纳库中推荐的成熟数据集,字段定义清晰且经过社区验证,大幅减少了数据预处理的工作量。
- 授权清晰安心:每个条目均标注了明确的许可证信息(如 CC-BY-4.0),确保商业分析项目的合法合规性。
game-datasets 将原本耗时数月的数据筹备期压缩至几天,让团队能专注于核心算法优化而非繁琐的数据搜集。
运行环境要求
未说明
未说明

快速开始
:video_game: 优秀的游戏数据集 
在计算机科学中,人工智能(AI)是指机器所表现出的智能。其定义为:人工智能研究是关于“智能代理”的研究——即任何能够感知其环境并采取行动以实现其目标的设备 Russell 等人 (2016)。
与此同时,数据挖掘(DM)是从数据集中发现模式的过程,涉及机器学习、统计学和数据库系统的方法;数据挖掘的重点在于从数据集中提取信息 Han (2011)。
本仓库旨在指导如何在数字游戏中使用人工智能或数据挖掘。您可以在这里找到数据集、工具和资料,用于构建您的_应用程序_或_数据集_。
贡献
如您有任何建议或问题,请提交一个议题。若想参与贡献,请阅读此处,然后提交一个拉取请求。
目录
API
API 是指“一组函数和过程,允许创建访问操作系统、应用程序或其他服务的功能或数据的应用程序”(Google)。
- Battle.net - 由 Blizzard 开发的游戏集合。
- Battlefield 4 统计 - 玩家的统计数据、排名和进度。
- BoardGameGeek - 棋盘游戏数据。
- 反恐精英 - 反恐精英:全球攻势(CSGO)的数据解析。
- Giant Bomb - 游戏数据及玩家评论。
- IGDB - 来自任何平台的游戏通用信息。
- 漫威开发者 - 关于漫威庞大漫画库的信息。
- metacritc - 游戏评论与评分。
- NEXARDA - 游戏及价格数据。
- OpenCritic - 游戏评论聚合平台。
- OpenDota - 提供 Dota 2 数据的平台。
- PandaScore - 实时电子竞技数据。
- PokéAPI - 全世代宝可梦数据。
- Riot Games - 在线游戏、对战历史及排位统计。
- smm-course-search - 搜索《超级马里奥制造》游戏中的关卡。
- smm-course-viewer - 读取《超级马里奥制造》存档中的关卡。
- smm-maker-profile - 获取《超级马里奥制造》游戏中的用户资料。
- Steam 数据库 - 一系列用于处理 Steam 数据的工具。官网。
- Steambase - Steam 数据工具与洞察。官网。
- Steam Spy - 基于 Steam 用户资料的游戏统计数据。
- Steam Web API - Steam 查询工具。
- TGDB - 来自任何平台的游戏通用信息。官网。
- TrendingNow.games - 实时热门 Steam 游戏数据,提供免费的 CSV、RSS 和 JSON 格式数据源,每小时更新。
- vgchartzScrape - 来自 VGChartz 的爬虫。
- WhatoPlay - 游戏评论与评分聚合平台,同时也是帮助发现新游戏的推荐引擎。
- Xbox LIVE API - 游戏、应用、用户统计及消息。论文。
人工智能
- CyberBattleSim - 用于研究自动化智能体的实验平台。官网。
- Daimonin - 等距视角大型多人在线角色扮演游戏。
- Deliantra - 中世纪背景下的冒险游戏。
- 地牢与洞穴生成 - 用于地牢和关卡的构造式生成方法。
- 地牢爬行:石汤 - 类Roguelike冒险游戏。
- 格斗游戏AI竞赛 - 格斗游戏控制器。
- FlightGear飞行模拟器 - 飞行模拟器。
- 通用视频游戏AI - 用于通用视频游戏的控制器。论文。
- Two Sigma的Halite - 在太空对战中收集卤石。
- 花火牌比赛 - 桌游比赛。
- 无限超级马里奥兄弟 - 超级马里奥比赛。平台跳跃类AI的前身。官网。
- Malmo - 基于Minecraft游戏构建的平台。
- microRTS - RTS游戏比赛。PT-BR。
- MiniDungeons - 程序化地牢风格游戏。
- Morai-Maker-Engine - 合作游戏关卡编辑器。论文。
- 吃豆人小姐 - 吃豆人游戏比赛。
- OpenLieroX - Liero(类似Worms)游戏。
- openmw - 开放世界角色扮演游戏。官网。
- 平台跳跃AI - 超级马里奥比赛。
- polyworld - 人工生命系统。
- qengine - 复古游戏引擎。
- 复古大赛 - SEGA Genesis游戏比赛。官网。
- Robocode - 机器人坦克对战比赛。
- Showdown AI竞赛 - 宝可梦对战比赛。
- 星际争霸AI竞赛 - 星际争霸游戏比赛。
- 基于文本的冒险AI竞赛 - 文本冒险游戏比赛。官网。
- The Genius - 国际象棋引擎。
- 开放赛车模拟器 - 赛车模拟器。
- 荒岛素食者 - 岛上生存冒险游戏。
- veloren - 沙盒游戏。官网。
- Vindinium - 多人回合制Roguelike比赛。文档。
- 视觉毁灭战士AI竞赛 - 毁灭战士游戏比赛。
- Wargus - 实时战略游戏。官网。
移动端
网页端
- Digger - Boulderdash游戏。
- 打鸭子 - 打鸭子射击游戏。游玩。
- 无限超级马里奥兄弟 - 超级马里奥兄弟。游玩。
- 突袭!竞技场 - 击退中世纪怪物大军。游玩。
- 星际飞船 - 经典星际飞船游戏。
- TapAI - 用户通过点击屏幕进行互动的游戏。
- WebNES - 在网页浏览器中玩NES游戏。游玩。
图书
- Drachen, A. Mirza-Babaei, P. Nacke, L. (2018). 游戏用户研究. 牛津。
- El-Nasr, S. Drachen, A. Canossa, A. (2013). 游戏分析:最大化玩家数据的价值. Sprigner。
- Han, J., Pei, J., Kamber, M. (2011). 数据挖掘:概念与技术. Elsevier。
- Hennig-Thurau, T. Houston, M. (2018). 娱乐科学:电影、游戏、音乐和书籍的数据分析与实践理论. Springer。
- Loh, A. Sheng, Y. Ifenthaler, D. (2015). 严肃游戏分析:绩效测量、评估和改进的方法论. Springer。
- Millington, Ian, Funge, John (2020). 游戏中的人工智能,第三版. CRC Press。
- Russell, S. J., Norvig, P. (2016). 人工智能:现代方法. 马来西亚;培生教育有限公司。
- Yannakakis, G. N., Togelius, J. (2018). 人工智能与游戏. Springer。
数据集
- (LoL) 英雄联盟排位赛数据 - 排位赛对局详情。
- 1.7万款苹果应用商店策略游戏 - 苹果应用商店中的策略游戏。
- 2018年国际足联世界杯参赛球队名单 - 参加世界杯各队的球员名单。
- 32万条Roblox应用谷歌商店评论 - Roblox应用在谷歌商店的用户评论。
- 38万次“猜大还是小”游戏数据集 - 猜数字游戏的真实数据。
- 帝国时代2:决定版22.5万场游戏数据 - 22.5万场《帝国时代2》比赛中的对战、结果及游戏状态数据。
- 动物森友会新视野目录 - 包含物品、村民、服装、鱼类/昆虫等的全面清单。
- 桌游数据 - 来自各类桌游的数据。
- 桌游数据集 - 来自BoardGameGeek的桌游数据集。
- 桌游数据集 - 来自BoardGameGeek的桌游属性及评分数据。
- 在线桌游对局记录 - 桌游对局的完整记录。
- bravefrontier_data - 手机游戏数据,包括道具和任务信息。
- CartolaFC - 流行的巴西虚拟足球游戏(2014年至2017年)。
- 国际象棋游戏数据集(Lichess) - 国际象棋对局数据,包含每步走法、胜负、等级分、开局细节等。
- 皇室战争数据集 - 卡牌数据。
- 完整的FIFA 2017全球球员数据集 - 球员数据。
- Steam游戏行为多样性研究 - 历史性游戏数据。
- 四子连珠数据集 - 四子连珠游戏对局。
- CS:GO竞技匹配数据 - 各回合伤害记录。
- CS:GO Steam评论 - Steam平台上的用户评论。
- Clash Royale游戏玩家数据 - Clash Royale游戏中的玩家数据。
- 魔兽争霸III中的怪物数据 - 魔兽争霸III游戏中怪物的相关数据。
- dnddata - 龙与地下城角色数据集。
- Dota 2比赛结果(UCI) - Dota 2比赛的结果数据。
- 艾尔登法环Steam评论 - Steam平台上的用户评论。
- FIFA 18完整球员数据集 - 球员及其各项属性数据。
- 堡垒之夜统计_80场比赛 - 结束时的游戏统计数据。
- 堡垒之夜:大逃杀武器属性 - 武器的各项统计数据。
- GamingVideoSET - 用于游戏视频流应用的数据集。论文
- GOSU.AI Dota 2游戏聊天记录 - 来自比赛回放的聊天记录。
- GTA-3D数据集 - 侠盗猎车手5中的2D和3D图像。
- 炉石传说卡牌 - 卡牌收藏。
- 魔法门之英雄无敌3单位 - 游戏中的单位数据。
- 炉石传说历史 - 牌组集合。
- 霍格沃茨之遗评论 - 《霍格沃茨之遗》的评论列表。
- LCS 2017夏季赛梦幻联赛选手与队伍数据 - 选手和队伍的相关数据。
- 英雄联盟钻石段位10分钟排位赛 - 排位赛分类数据。
- 2016年英雄联盟召唤师ID及数据 - 游戏相关数据。
- 万智牌卡牌 - 卡牌数据。
- 史上最多游玩游戏 - Steam平台上的游戏统计数据。
- NBA球员 - 1996年至2019赛季的生物特征、个人资料及基础数据统计。
- 老派Runescape投票数据 - 历史投票数据。
- OpenDota - Dota 2比赛的持续数据库。
- 守望先锋游戏记录 - 单个玩家在数千场对局中的统计数据。
- 守望先锋排位赛数据 - 玩家及对局数据。
- 守望先锋 - 英雄特性。
- 流亡者之路游戏统计 - 玩家数据。
- 平台体验数据集 - 超级马里奥兄弟对局数据。论文。
- 用于数据挖掘和机器学习的宝可梦 - 前六代共721只宝可梦的统计数据。
- Pokémon GO图鉴 - 宝可梦百科全书。
- 带统计数据的宝可梦 - 包含统计数据和属性的宝可梦数据。
- 宝可梦奇妙交换结果 - 宝可梦月球版中奇妙交换的结果。
- 宝可梦挑战:Weedle的洞穴 - 宝可梦对战数据。
- PokémonGO - 宝可梦及对战统计数据。
- Predict'em All - 宝可梦在PokémonGo中随时间出现的情况。
- 绝地求生比赛死亡与统计 - 比赛数据。
- 拼字游戏 - Quackle游戏对局数据。
- 自动驾驶汽车 - 行为克隆完整指南。
- SkillCraft-StarCraft - StarCraft 2职业联赛水平的表现。
- SMMnet - 来自超级马里奥制造者的网络数据。
- StarCraft 2(UCI) - 比赛数据流。论文。
- StarCraft II比赛历史 - 比赛结果。
- StarCraft II回放分析 - 回放数据的汇总。
- 星际争霸:侦察敌军 - 职业级玩家的侦察行动。
- StarData - 比赛、视频等。官网,论文。
- 超级王牌 - 恐龙2 - 该游戏的卡片。
- Terra Mystica Snellman统计 - 游戏日志和统计数据。
- 完整的宝可梦数据集 - 来自所有世代的宝可梦数据。
- Quick, Draw! 数据集 - 涵盖345个类别的5000万幅绘画作品。
- Travian建筑 - 建筑的时间、成本及奖励。
- 魔兽世界角色历史 - 记录集合。
- 魔兽世界战场 - 战场详细信息。
相关资源
- 电脑游戏数据集 - 游戏世界:全面的电脑游戏数据集。
- Google Play商店应用 - 来自Play商店的应用数据。
- JVC游戏评论 - 来自JeuxVideo.com的视频游戏数据。
- Kickstarter数据集 - 项目详情。
- Metacritic游戏 - 来自metacritc的游戏数据。
- NEXARDA特许经营品牌 - 来自nexarda.com的特许经营品牌数据。
- NEXARDA游戏 - 来自nexarda.com的游戏数据。
- NEXARDA工作室 - 来自nexarda.com的开发者和发行商数据。
- 任天堂游戏 - 从metacritc抓取的跨平台任天堂游戏。
- 超过13,000款Steam游戏 - Steam平台上视频游戏的价格信息。
- PC游戏销量 - 最畅销PC游戏的数据集。
- PEW-游戏-宽带 - 关于视频游戏的问题。
- Steam游戏数据 - 结合了Steam API和Steam Spy的数据。
- Steam游戏数据集 - 从Steam搜索系统抓取的数据集。
- Steam评论数据集 - Steam用户评论。
- Steam商店游戏 - 从Steam和SteamSpy API抓取的27,000款游戏信息。
- Steam视频游戏 - Steam用户的互动数据。
- Vandal游戏评论 - 来自Vandal.com的游戏数据。
- 视频游戏数据 - 已发布的视频游戏。
- 带评分的视频游戏销量 - 来自metacritc的视频游戏销量和评分。
- 视频游戏销量 - 游戏的销售数据。
- 视频游戏数据 - 视频游戏简介。
- 视频游戏评论 - 在JeuxVideo.com上的评论。
- 2019年视频游戏销量 - 游戏的销量和评分。
市场研究
- 欧睿国际,视频游戏 - 战略市场研究员。
- Grand View Research,数字媒体 - 联合市场研究报告。
- Newzoo - 对游戏市场的见解。无与伦比的洞察力和价值。
- Statista,视频游戏 - 市场和观点研究机构以及来自经济部门的数据。
其他
- Academic Torrents - 分享海量数据集。
- Awesome ACG - 与动漫、漫画和游戏相关的技术。
- Awesome Esports - 使用视频游戏进行的竞技比赛。
- Awesome Gamedev - 开源游戏集合。
- AWS数据集 - 亚马逊公共数据集。
- data.world - 数据集。
- datasets-games - 各种游戏的数据集。
- Coding游戏 - 用于教授编程语言的游戏。
- GitHub上的游戏 - 在GitHub上托管的热门视频游戏。
- GitHub活动数据 - 来自开源GitHub仓库的活动数据。
- Gym OpenAI - 用于强化学习算法的游戏工具包。
- Kaggle - 数据科学竞赛、数据集和项目。
- Libre Game Wiki - 自由游戏百科全书。
- Open HTML5 Games - JavaScript和HTML5游戏。
- 开源游戏 - 开源游戏(PT-BR)。
- Reddit - 数据集 - 数据集论坛。
- UCI - 数据集。
许可证
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
lobehub
LobeHub 是一个致力于工作与生活的智能体协作平台,旨在帮助用户发现、构建并与不断成长的 AI 智能体队友协同工作。它解决了当前 AI 应用中单点交互效率低、难以形成规模化协作网络的问题,将“智能体”确立为工作的基本单元,让人类与 AI 能够共同进化。 无论是开发者、研究人员还是普通用户,都能通过 LobeHub 轻松设计多智能体协作流程。平台支持一键安装 MCP 插件、访问丰富的智能体市场,并提供本地与云端数据库管理、多用户协作等高级功能。其独特的技术亮点包括对多种大模型服务商的兼容、本地大模型部署支持、视觉识别、语音对话(TTS/STT)、文生图以及思维链(Chain of Thought)等能力。此外,LobeHub 还具备分支对话、工件生成、文件上传与知识库集成等实用特性,并适配桌面端、移动端及 PWA 场景,支持自定义主题。 通过开源与自托管选项,LobeHub 为构建人机共演的未来协作网络提供了灵活、可扩展的基础设施。
scikit-learn
scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最