awesome-chatgpt-dataset
awesome-chatgpt-dataset 是一个专为大语言模型(LLM)训练者打造的优质数据集精选库。它旨在解决开发者在微调专属聊天机器人时,面临的高质量指令数据难寻找、难整合的痛点。通过汇总从数学推理、代码生成到安全对齐等多领域的开源数据集,该项目让用户能轻松解锁训练自己"ChatGPT"的潜力。
该资源特别适合 AI 研究人员、算法工程师以及希望深入探索模型微调的开发者使用。其核心亮点在于提供了便捷的混合数据集构建方案:用户只需克隆仓库,利用内置的预处理脚本,即可自由挑选并合并不同规模(从 1K 到数十万条不等)的数据集,一键上传至 Hugging Face。列表详细标注了每个数据集的规模、语言、来源及许可协议,并按大小排序,方便用户根据算力资源和应用场景快速匹配。无论是需要少量高质量样本进行实验,还是寻求大规模数据用于全面训练,awesome-chatgpt-dataset 都能提供清晰、透明的数据支持,助力高效开展大模型对齐与优化工作。
使用场景
某初创教育科技公司希望快速构建一个专攻“高中数学解题”的垂直领域大模型,以辅助学生理解复杂公式与定理。
没有 awesome-chatgpt-dataset 时
- 数据搜集耗时极长:团队需在 Hugging Face 等平台手动搜索分散的数学数据集,花费数周时间筛选,却难以找到包含定理推导的高质量语料。
- 领域针对性不足:找到的通用对话数据(如日常闲聊)占比过高,导致模型在解答涉及物理、金融跨学科数学题时逻辑混乱,幻觉严重。
- 预处理工程繁重:不同来源的数据格式千差万别,工程师需编写大量定制脚本进行清洗和对齐,严重拖慢了模型微调的启动进度。
- 安全与评估缺失:缺乏专门针对错误推理的对抗性样本和安全标注数据,模型容易输出错误的解题步骤且难以通过自动化基准测试。
使用 awesome-chatgpt-dataset 后
- 一键获取精准语料:直接通过工具定位并下载
TheoremQA(覆盖 350+ 定理)和GSM-IC(含干扰项的数学题),瞬间构建起高质量的专业训练集。 - 灵活混合数据集:利用提供的
preprocess.py脚本,轻松将数学专项数据与LIMA等通用指令数据按比例合并,显著提升了模型的逻辑推理与泛化能力。 - 大幅降低工程门槛:工具自动处理了数据格式统一与上传 Hugging Face 的流程,让算法团队能将精力集中在模型架构优化而非数据清洗上。
- 内置评估与安全增强:引入
WildGuardMix和BFCL等数据集进行对抗训练与功能调用评估,确保模型输出不仅准确,而且符合安全规范。
awesome-chatgpt-dataset 通过提供结构化、多领域的精选数据集,将垂直大模型的冷启动周期从数周缩短至数天,让开发者能真正专注于模型能力的深度定制。
运行环境要求
- 未说明
未说明
未说明

快速开始
令人惊叹的ChatGPT数据集
解锁大语言模型的强大能力:探索这些数据集,训练属于你自己的ChatGPT!
自选混合数据集
git clone https://github.com/voidful/awesome-chatgpt-dataset.git cd awesome-chatgpt-dataset/mixed/dataset挑选你想要使用的数据集,然后合并并上传:
python preprocess.py 你的数据集名称_to_HuggingFaceHub
数据集详情
按数据集大小排序(小 → 大)。大小未知的条目将显示在最后。
| 数据集名称 | 大小 | 语言 | 来源 | 许可证 |
|---|---|---|---|---|
| TheoremQA | 1K | 英语 | 我们标注了800个问答对,涵盖数学、电气工程与计算机科学、物理和金融领域的350多个定理。 | MIT |
| LIMA | 1K | 英语 | LIMA:对齐中的“少即是多”。 | CC BY-NC-SA 4.0 |
| WildGuardMix | 1.7K | 英语 | 包含常规/对抗性提示及多标注者标签的安全训练混合数据集。 | ODC-BY |
| Berkeley Function Calling Leaderboard (BFCL) | 2K | 英语 + 代码 | 覆盖多种语言下并行/多调用场景的函数/工具调用评估。 | - |
| im-feeling-curious | 3K | 英语 | 摘自谷歌的“I’m Feeling Curious”事实库。 | - |
| Puffin | 3K | 英语 | 精确包含3,000个多轮对话示例;每条回复均由GPT‑4生成。 | Apache-2.0 |
| cc_sbu_align | 4K | 英语 | MiniGPT‑4对齐数据(图像–文本)。 | BSD-3-Clause |
| QA-Feedback | 4K | 英语 | 基于人工反馈重构的ASQA数据集。 | - |
| SLF5K | 5K | 英语 | 带有语言反馈的摘要生成数据集(5,000个独特样本)。 | Apache-2.0 |
| blended_skill_talk | 7K | 英语 | 7,000段融合个性、同理心和知识的对话。 | - |
| GSM‑IC | 8K | 英语 | 包含无关背景信息(干扰句)的小学数学题。 | - |
| ChatAlpaca‑10K | 10K | 英语 | 10,000个多轮对话(基于Alpaca模型)。 | Apache-2.0 |
| PKU‑SafeRLHF‑10K | 10K | 英语 | 第一轮安全RLHF数据,包含安全偏好。 | - |
| Dolly‑15K | 15K | 英语 | Databricks众包的15,000条指令记录。 | CC BY-3.0 |
| WebGPT (comparisons) | 20K | 英语 | 用于WebGPT奖励模型的人类偏好比较数据集。 | - |
| CodeAlpaca‑20K | 20K | 英语 | 20,022组指令–代码对,用于代码生成任务。 | - |
| HelpSteer2 | 21K | 英语 | 开源的助益性数据,用于奖励模型和偏好学习。 | CC BY-4.0 |
| openapi-function-invocations‑25k | 25K | 英语 | 合成+提取的OpenAPI函数调用轨迹数据集。 | MIT |
| LongForm | 28K | 英语 | 反向指令的长文本生成数据集。 | MIT |
| Chatbot Arena Conversations | 33K | 英语 | 33,000条清理后的Arena聊天记录,附带成对偏好。 | - |
| HC3 | 37K | 英语、中文 | 37,175条指令,包含人类与LLM的回答。 | - |
| Anthropic HH Golden | 45K | 英语 | 有益且无害的偏好数据;黄金子集。 | - |
| Mol‑Instructions | 48K | 英语 | 面向LLM的生物分子指令数据集。 | CC BY-4.0 |
| RefGPT | 50K | 英语、中文 | 成本效益高的流水线,用于生成带参考文献的多轮问答。 | - |
| arxiv‑math‑instruct‑50k | 50K | 英语 | 从arXiv数学摘要中提取的问答对。 | - |
| arxiv‑math‑instruct‑50k (ArtifactAI) | 51K | 英语 | T5生成的问题;GPT‑3.5回答。 | - |
| Traditional Chinese Alpaca | 52K | 繁体中文 | 由ChatGPT API翻译的Alpaca数据集。 | Apache-2.0 |
| Cabrita Dataset | 52K | 葡萄牙语 | Alpaca被翻译成葡萄牙语。 | - |
| Japanese Alpaca | 52K | 日语 | 由ChatGPT API翻译的Alpaca数据集。 | CC BY-NC-4.0;OpenAI条款 |
| Alpaca Dataset | 52K | 英语 | 由OpenAI完成的175条种子指令。 | CC BY-NC-4.0;OpenAI条款 |
| Alpaca Data Cleaned | 52K | 英语 | 清理后的Alpaca 52K数据集。 | - |
| Alpaca GPT‑4 Data | 52K | 英语 | 相同的提示,由GPT‑4完成。 | - |
| Alpaca GPT‑4 Chinese | 52K | 中文 | 针对中文提示的GPT‑4完成内容。 | - |
| xLAM Function Calling 60K | 60K | 英语 | 面向可执行智能体的结构化工具调用数据集。 | Apache-2.0 |
| Dynosaur | 66K | 英语 | 动态增长范式,用于指令整理。 | Apache-2.0 |
| Finance | 69K | 英语 | 68,912条金融相关指令。 | - |
| WizardLM evol | 70K | 英语 | 进化型指令微调数据集(WizardLM)。 | - |
| Vicuna Dataset | 75K | 英语 | 约10万条ShareGPT聊天记录(精选)。 | - |
| InstructionTranslation | 80K | 多语言 | M2M‑12B翻译的指令(≤512 tokens)。 | MIT |
| Self‑Instruct | 82K | 英语 | 52K条种子指令;82K个输入输出对。 | - |
| OASST1 | 89K | 多语言 | 人类生成的助手对话(35种语言)。 | Apache-2.0 |
| HH‑RLHF | 91K | 英语 | 有益/无害的RLHF配对数据集。 | MIT |
| Guanaco Dataset | 98K | 英语、简体中文、繁体中文、日语 | 跨语言的175个Alpaca任务。 | GPL-3.0 |
| InstructionWild | 104K | 英语、中文 | 以429条指令为种子;约52K条自动生成。 | 仅限研究用途;OpenAI条款 |
| CAMEL Dataset | 107K | 英语 | 多角色、主题多样的指令对话。 | - |
| TAPIR‑Cleaned | 117K | 英语 | 清理后的IFTTT规则数据集,用于指令微调。 | CC BY-NC-4.0 |
| OASST2 (final) | 135K | 多语言 | Open Assistant对话发布2(训练+验证)。 | Apache-2.0 |
| WizardLM Evol‑Instruct V2 | 143K | 英语 | 143K条混合进化数据集。 | - |
| LLaVA Visual Instruct 150K | 150K | 英语 | GPT生成的多模态指令对。 | CC BY-NC-4.0 |
| ProsocialDialog | 166K | 英语 | 165,681条亲社会指令及反馈。 | - |
| M2Lingual | 175K | 多语言 | 多语言混合模态(代码+文本)聊天/指令SFT。 | - |
| COIG | 191K | 中文 | 中国开放指令通用模型。 | Apache-2.0 |
| orca‑chat | 198K | 英语 | 清理、修剪后的Orca风格对话子集。 | - |
| OpenR1‑Math‑220k | 220K | 英语 | DeepSeek‑R1蒸馏的数学轨迹(已验证)。 | Apache-2.0 |
| Unnatural Instructions | 241K | 英语 | 大规模创意/多样化指令语料库。 | MIT |
| WildJailbreak | 262K | 英语 | 合成越狱及良性对比提示。 | ODC-BY |
| SHP | 358K | 英语 | 385K条Reddit上的18个主题的偏好配对数据集。 | Reddit——可撤销、非独家许可 |
| Dromedary | 361K | 英语 | Dromedary‑Verbose‑Clone合成指令。 | CC BY-NC-4.0 |
| UltraChat | 404K | 英语 | 双API生成(用户 vs 助手),用于质量控制。 | CC BY-NC-4.0 |
| IGN Clean Instruct 500K | 509K | 英语 | 约508K条来自Ultrachat的高质量指令。 | Apache-2.0 |
| ELI5 | 559K | 英语 | 长篇社区问答(“像对待五岁小孩一样解释”)。 | - |
| GPT4All | 806K | 多语言 | LAION OIG + StackOverflow + P3提示;OpenAI输出。 | - |
| Instruct | 889K | 英语 | 888,969条英语指令(增强版)。 | MIT |
| MOSS | 1M | 中文 | GPT‑3.5‑turbo生成的中文SFT数据集。 | Apache-2.0 + AGPL-3.0 |
| WildChat | 1.0M | 英语 | 实际场景下的用户–LLM聊天数据集(许可证已更新)。 | ODC-BY |
| smolTalk | 1.1M | 英语 | 超紧凑型多轮聊天,适用于小型SFT。 | Apache-2.0 |
| Open‑PerfectBlend | 1.42M | 英语 | 多样化、去重后的聊天混合数据集,适用于通用SFT。 | Apache-2.0 |
| The Tome | 1.75M | 英语 | 由Arcee整理的大规模清理后指令数据集。 | MIT |
| NaturalReasoning | 2.8M | 英语 | 2.8M道具有挑战性的推理题(已净化)。 | CC BY-NC-4.0 |
| LaMini‑Instruction | 3.0M | 英语 | 约2.58M–3M条指令–回应对(GPT‑3.5)。 | CC BY-NC-4.0 |
| OpenOrca (full) | 3.0M | 英语 | GPT‑4/3.5增强的FLAN集合。 | - |
| WildChat‑4.8M (无毒子集) | 3.20M | 英语 | WildChat 4.8M中的无毒过滤版本。 | ODC-BY |
| Infinity‑Instruct | 8.9M | 多语言 | 7.4M基础数据 + 约1.5M聊天指令数据集。 | CC BY-SA 4.0 |
| BELLE‑10M | 10M | 中文 | 跨领域、多类型的中文指令数据集。 | 仅限研究用途;OpenAI条款 |
| Firefly | 16M | 中文 | 23个NLP任务中超过160万条中文指令(扩展语料库)。 | - |
| OIG‑43M | 43M | 多语言 | LAION + Together + OntoCord组成的复合指令池。 | - |
| xP3 | 79M | 多语言 | 来自46种语言、16个任务的提示数据集中的78,883,588条指令。 | - |
未知/混合大小(为完整性保留;格式与原文一致)
| 数据集名称 | 大小 | 语言 | 来源 | 许可证 |
|---|---|---|---|---|
| CodeParrot | - | python | 180GB Python 文件(每个小于1MB),2000多万个文件。 | - |
| Alpaca‑CoT | - | 多语言 | 带有思维链轨迹的指令数据。 | odc-by |
| stack-exchange-paired | - | 英语 | 用于偏好建模的 StackExchange 问答对。 | cc-by-sa-4.0 |
| LangChainDatasets | - | 英语 | 用于评估链条和智能体的社区数据集。 | - |
| ParlAI | - | 英语 | 对话研究平台,包含多项任务和数据集。 | - |
| GPTeacher | - | 英语 | 为通用 SFT 整合的指令数据集。 | - |
| Wizard‑LM Chinese Evol | - | 中文 | 中文 evol‑instruct 语料库。 | - |
| MultiWOZ | - | 英语 | 多领域 Wizard‑of‑Oz 对话语料库。 | - |
| ToolACE | - | 英语 | 多工具调用 SFT(函数、API JSON、工具计划)。 | - |
| UltraFeedback(清理后的二值化) | - | 英语 | UltraFeedback 偏好数据经过清理和二值化处理。 | cc-by-nc-4.0 |
| glaive‑function‑calling‑v2 | - | 英语 | 包含工具模式和参数的函数调用 SFT 数据集。 | apache-2.0 |
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。