awesome-chatgpt-dataset

GitHub
763 65 非常简单 1 次阅读 2天前GPL-3.0语言模型数据工具
AI 解读 由 AI 自动生成,仅供参考

awesome-chatgpt-dataset 是一个专为大语言模型(LLM)训练者打造的优质数据集精选库。它旨在解决开发者在微调专属聊天机器人时,面临的高质量指令数据难寻找、难整合的痛点。通过汇总从数学推理、代码生成到安全对齐等多领域的开源数据集,该项目让用户能轻松解锁训练自己"ChatGPT"的潜力。

该资源特别适合 AI 研究人员、算法工程师以及希望深入探索模型微调的开发者使用。其核心亮点在于提供了便捷的混合数据集构建方案:用户只需克隆仓库,利用内置的预处理脚本,即可自由挑选并合并不同规模(从 1K 到数十万条不等)的数据集,一键上传至 Hugging Face。列表详细标注了每个数据集的规模、语言、来源及许可协议,并按大小排序,方便用户根据算力资源和应用场景快速匹配。无论是需要少量高质量样本进行实验,还是寻求大规模数据用于全面训练,awesome-chatgpt-dataset 都能提供清晰、透明的数据支持,助力高效开展大模型对齐与优化工作。

使用场景

某初创教育科技公司希望快速构建一个专攻“高中数学解题”的垂直领域大模型,以辅助学生理解复杂公式与定理。

没有 awesome-chatgpt-dataset 时

  • 数据搜集耗时极长:团队需在 Hugging Face 等平台手动搜索分散的数学数据集,花费数周时间筛选,却难以找到包含定理推导的高质量语料。
  • 领域针对性不足:找到的通用对话数据(如日常闲聊)占比过高,导致模型在解答涉及物理、金融跨学科数学题时逻辑混乱,幻觉严重。
  • 预处理工程繁重:不同来源的数据格式千差万别,工程师需编写大量定制脚本进行清洗和对齐,严重拖慢了模型微调的启动进度。
  • 安全与评估缺失:缺乏专门针对错误推理的对抗性样本和安全标注数据,模型容易输出错误的解题步骤且难以通过自动化基准测试。

使用 awesome-chatgpt-dataset 后

  • 一键获取精准语料:直接通过工具定位并下载 TheoremQA(覆盖 350+ 定理)和 GSM-IC(含干扰项的数学题),瞬间构建起高质量的专业训练集。
  • 灵活混合数据集:利用提供的 preprocess.py 脚本,轻松将数学专项数据与 LIMA 等通用指令数据按比例合并,显著提升了模型的逻辑推理与泛化能力。
  • 大幅降低工程门槛:工具自动处理了数据格式统一与上传 Hugging Face 的流程,让算法团队能将精力集中在模型架构优化而非数据清洗上。
  • 内置评估与安全增强:引入 WildGuardMixBFCL 等数据集进行对抗训练与功能调用评估,确保模型输出不仅准确,而且符合安全规范。

awesome-chatgpt-dataset 通过提供结构化、多领域的精选数据集,将垂直大模型的冷启动周期从数周缩短至数天,让开发者能真正专注于模型能力的深度定制。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该仓库主要是一个数据集列表和简单的预处理脚本集合,用于合并和上传数据集到 HuggingFace Hub。README 中未提及具体的训练环境、GPU 显存或深度学习框架(如 PyTorch/TensorFlow)的版本要求。运行 `preprocess.py` 脚本通常仅需基础的 Python 环境和网络访问权限以下载/处理数据,具体资源需求取决于用户选择的数据集大小及后续实际训练任务。
python未说明
awesome-chatgpt-dataset hero image

快速开始

令人惊叹的ChatGPT数据集

替代文本

解锁大语言模型的强大能力:探索这些数据集,训练属于你自己的ChatGPT!

自选混合数据集

git clone https://github.com/voidful/awesome-chatgpt-dataset.git
cd awesome-chatgpt-dataset/mixed/dataset

挑选你想要使用的数据集,然后合并并上传:

python preprocess.py 你的数据集名称_to_HuggingFaceHub

数据集详情

按数据集大小排序(小 → 大)。大小未知的条目将显示在最后。

数据集名称 大小 语言 来源 许可证
TheoremQA 1K 英语 我们标注了800个问答对,涵盖数学、电气工程与计算机科学、物理和金融领域的350多个定理。 MIT
LIMA 1K 英语 LIMA:对齐中的“少即是多”。 CC BY-NC-SA 4.0
WildGuardMix 1.7K 英语 包含常规/对抗性提示及多标注者标签的安全训练混合数据集。 ODC-BY
Berkeley Function Calling Leaderboard (BFCL) 2K 英语 + 代码 覆盖多种语言下并行/多调用场景的函数/工具调用评估。 -
im-feeling-curious 3K 英语 摘自谷歌的“I’m Feeling Curious”事实库。 -
Puffin 3K 英语 精确包含3,000个多轮对话示例;每条回复均由GPT‑4生成。 Apache-2.0
cc_sbu_align 4K 英语 MiniGPT‑4对齐数据(图像–文本)。 BSD-3-Clause
QA-Feedback 4K 英语 基于人工反馈重构的ASQA数据集。 -
SLF5K 5K 英语 带有语言反馈的摘要生成数据集(5,000个独特样本)。 Apache-2.0
blended_skill_talk 7K 英语 7,000段融合个性、同理心和知识的对话。 -
GSM‑IC 8K 英语 包含无关背景信息(干扰句)的小学数学题。 -
ChatAlpaca‑10K 10K 英语 10,000个多轮对话(基于Alpaca模型)。 Apache-2.0
PKU‑SafeRLHF‑10K 10K 英语 第一轮安全RLHF数据,包含安全偏好。 -
Dolly‑15K 15K 英语 Databricks众包的15,000条指令记录。 CC BY-3.0
WebGPT (comparisons) 20K 英语 用于WebGPT奖励模型的人类偏好比较数据集。 -
CodeAlpaca‑20K 20K 英语 20,022组指令–代码对,用于代码生成任务。 -
HelpSteer2 21K 英语 开源的助益性数据,用于奖励模型和偏好学习。 CC BY-4.0
openapi-function-invocations‑25k 25K 英语 合成+提取的OpenAPI函数调用轨迹数据集。 MIT
LongForm 28K 英语 反向指令的长文本生成数据集。 MIT
Chatbot Arena Conversations 33K 英语 33,000条清理后的Arena聊天记录,附带成对偏好。 -
HC3 37K 英语、中文 37,175条指令,包含人类与LLM的回答。 -
Anthropic HH Golden 45K 英语 有益且无害的偏好数据;黄金子集。 -
Mol‑Instructions 48K 英语 面向LLM的生物分子指令数据集。 CC BY-4.0
RefGPT 50K 英语、中文 成本效益高的流水线,用于生成带参考文献的多轮问答。 -
arxiv‑math‑instruct‑50k 50K 英语 从arXiv数学摘要中提取的问答对。 -
arxiv‑math‑instruct‑50k (ArtifactAI) 51K 英语 T5生成的问题;GPT‑3.5回答。 -
Traditional Chinese Alpaca 52K 繁体中文 由ChatGPT API翻译的Alpaca数据集。 Apache-2.0
Cabrita Dataset 52K 葡萄牙语 Alpaca被翻译成葡萄牙语。 -
Japanese Alpaca 52K 日语 由ChatGPT API翻译的Alpaca数据集。 CC BY-NC-4.0;OpenAI条款
Alpaca Dataset 52K 英语 由OpenAI完成的175条种子指令。 CC BY-NC-4.0;OpenAI条款
Alpaca Data Cleaned 52K 英语 清理后的Alpaca 52K数据集。 -
Alpaca GPT‑4 Data 52K 英语 相同的提示,由GPT‑4完成。 -
Alpaca GPT‑4 Chinese 52K 中文 针对中文提示的GPT‑4完成内容。 -
xLAM Function Calling 60K 60K 英语 面向可执行智能体的结构化工具调用数据集。 Apache-2.0
Dynosaur 66K 英语 动态增长范式,用于指令整理。 Apache-2.0
Finance 69K 英语 68,912条金融相关指令。 -
WizardLM evol 70K 英语 进化型指令微调数据集(WizardLM)。 -
Vicuna Dataset 75K 英语 约10万条ShareGPT聊天记录(精选)。 -
InstructionTranslation 80K 多语言 M2M‑12B翻译的指令(≤512 tokens)。 MIT
Self‑Instruct 82K 英语 52K条种子指令;82K个输入输出对。 -
OASST1 89K 多语言 人类生成的助手对话(35种语言)。 Apache-2.0
HH‑RLHF 91K 英语 有益/无害的RLHF配对数据集。 MIT
Guanaco Dataset 98K 英语、简体中文、繁体中文、日语 跨语言的175个Alpaca任务。 GPL-3.0
InstructionWild 104K 英语、中文 以429条指令为种子;约52K条自动生成。 仅限研究用途;OpenAI条款
CAMEL Dataset 107K 英语 多角色、主题多样的指令对话。 -
TAPIR‑Cleaned 117K 英语 清理后的IFTTT规则数据集,用于指令微调。 CC BY-NC-4.0
OASST2 (final) 135K 多语言 Open Assistant对话发布2(训练+验证)。 Apache-2.0
WizardLM Evol‑Instruct V2 143K 英语 143K条混合进化数据集。 -
LLaVA Visual Instruct 150K 150K 英语 GPT生成的多模态指令对。 CC BY-NC-4.0
ProsocialDialog 166K 英语 165,681条亲社会指令及反馈。 -
M2Lingual 175K 多语言 多语言混合模态(代码+文本)聊天/指令SFT。 -
COIG 191K 中文 中国开放指令通用模型。 Apache-2.0
orca‑chat 198K 英语 清理、修剪后的Orca风格对话子集。 -
OpenR1‑Math‑220k 220K 英语 DeepSeek‑R1蒸馏的数学轨迹(已验证)。 Apache-2.0
Unnatural Instructions 241K 英语 大规模创意/多样化指令语料库。 MIT
WildJailbreak 262K 英语 合成越狱及良性对比提示。 ODC-BY
SHP 358K 英语 385K条Reddit上的18个主题的偏好配对数据集。 Reddit——可撤销、非独家许可
Dromedary 361K 英语 Dromedary‑Verbose‑Clone合成指令。 CC BY-NC-4.0
UltraChat 404K 英语 双API生成(用户 vs 助手),用于质量控制。 CC BY-NC-4.0
IGN Clean Instruct 500K 509K 英语 约508K条来自Ultrachat的高质量指令。 Apache-2.0
ELI5 559K 英语 长篇社区问答(“像对待五岁小孩一样解释”)。 -
GPT4All 806K 多语言 LAION OIG + StackOverflow + P3提示;OpenAI输出。 -
Instruct 889K 英语 888,969条英语指令(增强版)。 MIT
MOSS 1M 中文 GPT‑3.5‑turbo生成的中文SFT数据集。 Apache-2.0 + AGPL-3.0
WildChat 1.0M 英语 实际场景下的用户–LLM聊天数据集(许可证已更新)。 ODC-BY
smolTalk 1.1M 英语 超紧凑型多轮聊天,适用于小型SFT。 Apache-2.0
Open‑PerfectBlend 1.42M 英语 多样化、去重后的聊天混合数据集,适用于通用SFT。 Apache-2.0
The Tome 1.75M 英语 由Arcee整理的大规模清理后指令数据集。 MIT
NaturalReasoning 2.8M 英语 2.8M道具有挑战性的推理题(已净化)。 CC BY-NC-4.0
LaMini‑Instruction 3.0M 英语 约2.58M–3M条指令–回应对(GPT‑3.5)。 CC BY-NC-4.0
OpenOrca (full) 3.0M 英语 GPT‑4/3.5增强的FLAN集合。 -
WildChat‑4.8M (无毒子集) 3.20M 英语 WildChat 4.8M中的无毒过滤版本。 ODC-BY
Infinity‑Instruct 8.9M 多语言 7.4M基础数据 + 约1.5M聊天指令数据集。 CC BY-SA 4.0
BELLE‑10M 10M 中文 跨领域、多类型的中文指令数据集。 仅限研究用途;OpenAI条款
Firefly 16M 中文 23个NLP任务中超过160万条中文指令(扩展语料库)。 -
OIG‑43M 43M 多语言 LAION + Together + OntoCord组成的复合指令池。 -
xP3 79M 多语言 来自46种语言、16个任务的提示数据集中的78,883,588条指令。 -

未知/混合大小(为完整性保留;格式与原文一致)

数据集名称 大小 语言 来源 许可证
CodeParrot - python 180GB Python 文件(每个小于1MB),2000多万个文件。 -
Alpaca‑CoT - 多语言 带有思维链轨迹的指令数据。 odc-by
stack-exchange-paired - 英语 用于偏好建模的 StackExchange 问答对。 cc-by-sa-4.0
LangChainDatasets - 英语 用于评估链条和智能体的社区数据集。 -
ParlAI - 英语 对话研究平台,包含多项任务和数据集。 -
GPTeacher - 英语 为通用 SFT 整合的指令数据集。 -
Wizard‑LM Chinese Evol - 中文 中文 evol‑instruct 语料库。 -
MultiWOZ - 英语 多领域 Wizard‑of‑Oz 对话语料库。 -
ToolACE - 英语 多工具调用 SFT(函数、API JSON、工具计划)。 -
UltraFeedback(清理后的二值化) - 英语 UltraFeedback 偏好数据经过清理和二值化处理。 cc-by-nc-4.0
glaive‑function‑calling‑v2 - 英语 包含工具模式和参数的函数调用 SFT 数据集。 apache-2.0

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|6天前
Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

151.9k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|6天前
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|1周前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|2天前
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|4天前
语言模型数据工具其他