awesome-chatgpt-dataset

763 65 非常简单 1 次阅读 2天前GPL-3.0语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

awesome-chatgpt-dataset 是一个专为大语言模型（LLM）训练者打造的优质数据集精选库。它旨在解决开发者在微调专属聊天机器人时，面临的高质量指令数据难寻找、难整合的痛点。通过汇总从数学推理、代码生成到安全对齐等多领域的开源数据集，该项目让用户能轻松解锁训练自己"ChatGPT"的潜力。

该资源特别适合 AI 研究人员、算法工程师以及希望深入探索模型微调的开发者使用。其核心亮点在于提供了便捷的混合数据集构建方案：用户只需克隆仓库，利用内置的预处理脚本，即可自由挑选并合并不同规模（从 1K 到数十万条不等）的数据集，一键上传至 Hugging Face。列表详细标注了每个数据集的规模、语言、来源及许可协议，并按大小排序，方便用户根据算力资源和应用场景快速匹配。无论是需要少量高质量样本进行实验，还是寻求大规模数据用于全面训练，awesome-chatgpt-dataset 都能提供清晰、透明的数据支持，助力高效开展大模型对齐与优化工作。

使用场景

某初创教育科技公司希望快速构建一个专攻“高中数学解题”的垂直领域大模型，以辅助学生理解复杂公式与定理。

没有 awesome-chatgpt-dataset 时

数据搜集耗时极长：团队需在 Hugging Face 等平台手动搜索分散的数学数据集，花费数周时间筛选，却难以找到包含定理推导的高质量语料。
领域针对性不足：找到的通用对话数据（如日常闲聊）占比过高，导致模型在解答涉及物理、金融跨学科数学题时逻辑混乱，幻觉严重。
预处理工程繁重：不同来源的数据格式千差万别，工程师需编写大量定制脚本进行清洗和对齐，严重拖慢了模型微调的启动进度。
安全与评估缺失：缺乏专门针对错误推理的对抗性样本和安全标注数据，模型容易输出错误的解题步骤且难以通过自动化基准测试。

使用 awesome-chatgpt-dataset 后

一键获取精准语料：直接通过工具定位并下载 TheoremQA（覆盖 350+ 定理）和 GSM-IC（含干扰项的数学题），瞬间构建起高质量的专业训练集。
灵活混合数据集：利用提供的 preprocess.py 脚本，轻松将数学专项数据与 LIMA 等通用指令数据按比例合并，显著提升了模型的逻辑推理与泛化能力。
大幅降低工程门槛：工具自动处理了数据格式统一与上传 Hugging Face 的流程，让算法团队能将精力集中在模型架构优化而非数据清洗上。
内置评估与安全增强：引入 WildGuardMix 和 BFCL 等数据集进行对抗训练与功能调用评估，确保模型输出不仅准确，而且符合安全规范。

awesome-chatgpt-dataset 通过提供结构化、多领域的精选数据集，将垂直大模型的冷启动周期从数周缩短至数天，让开发者能真正专注于模型能力的深度定制。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该仓库主要是一个数据集列表和简单的预处理脚本集合，用于合并和上传数据集到 HuggingFace Hub。README 中未提及具体的训练环境、GPU 显存或深度学习框架（如 PyTorch/TensorFlow）的版本要求。运行 `preprocess.py` 脚本通常仅需基础的 Python 环境和网络访问权限以下载/处理数据，具体资源需求取决于用户选择的数据集大小及后续实际训练任务。

python未说明

快速开始

令人惊叹的ChatGPT数据集

替代文本

解锁大语言模型的强大能力：探索这些数据集，训练属于你自己的ChatGPT！

自选混合数据集

git clone https://github.com/voidful/awesome-chatgpt-dataset.git
cd awesome-chatgpt-dataset/mixed/dataset

挑选你想要使用的数据集，然后合并并上传：

python preprocess.py 你的数据集名称_to_HuggingFaceHub

数据集详情

按数据集大小排序（小 → 大）。大小未知的条目将显示在最后。

数据集名称	大小	语言	来源	许可证
TheoremQA	1K	英语	我们标注了800个问答对，涵盖数学、电气工程与计算机科学、物理和金融领域的350多个定理。	MIT
LIMA	1K	英语	LIMA：对齐中的“少即是多”。	CC BY-NC-SA 4.0
WildGuardMix	1.7K	英语	包含常规/对抗性提示及多标注者标签的安全训练混合数据集。	ODC-BY
Berkeley Function Calling Leaderboard (BFCL)	2K	英语 + 代码	覆盖多种语言下并行/多调用场景的函数/工具调用评估。	-
im-feeling-curious	3K	英语	摘自谷歌的“I’m Feeling Curious”事实库。	-
Puffin	3K	英语	精确包含3,000个多轮对话示例；每条回复均由GPT‑4生成。	Apache-2.0
cc_sbu_align	4K	英语	MiniGPT‑4对齐数据（图像–文本）。	BSD-3-Clause
QA-Feedback	4K	英语	基于人工反馈重构的ASQA数据集。	-
SLF5K	5K	英语	带有语言反馈的摘要生成数据集（5,000个独特样本）。	Apache-2.0
blended_skill_talk	7K	英语	7,000段融合个性、同理心和知识的对话。	-
GSM‑IC	8K	英语	包含无关背景信息（干扰句）的小学数学题。	-
ChatAlpaca‑10K	10K	英语	10,000个多轮对话（基于Alpaca模型）。	Apache-2.0
PKU‑SafeRLHF‑10K	10K	英语	第一轮安全RLHF数据，包含安全偏好。	-
Dolly‑15K	15K	英语	Databricks众包的15,000条指令记录。	CC BY-3.0
WebGPT (comparisons)	20K	英语	用于WebGPT奖励模型的人类偏好比较数据集。	-
CodeAlpaca‑20K	20K	英语	20,022组指令–代码对，用于代码生成任务。	-
HelpSteer2	21K	英语	开源的助益性数据，用于奖励模型和偏好学习。	CC BY-4.0
openapi-function-invocations‑25k	25K	英语	合成+提取的OpenAPI函数调用轨迹数据集。	MIT
LongForm	28K	英语	反向指令的长文本生成数据集。	MIT
Chatbot Arena Conversations	33K	英语	33,000条清理后的Arena聊天记录，附带成对偏好。	-
HC3	37K	英语、中文	37,175条指令，包含人类与LLM的回答。	-
Anthropic HH Golden	45K	英语	有益且无害的偏好数据；黄金子集。	-
Mol‑Instructions	48K	英语	面向LLM的生物分子指令数据集。	CC BY-4.0
RefGPT	50K	英语、中文	成本效益高的流水线，用于生成带参考文献的多轮问答。	-
arxiv‑math‑instruct‑50k	50K	英语	从arXiv数学摘要中提取的问答对。	-
arxiv‑math‑instruct‑50k (ArtifactAI)	51K	英语	T5生成的问题；GPT‑3.5回答。	-
Traditional Chinese Alpaca	52K	繁体中文	由ChatGPT API翻译的Alpaca数据集。	Apache-2.0
Cabrita Dataset	52K	葡萄牙语	Alpaca被翻译成葡萄牙语。	-
Japanese Alpaca	52K	日语	由ChatGPT API翻译的Alpaca数据集。	CC BY-NC-4.0；OpenAI条款
Alpaca Dataset	52K	英语	由OpenAI完成的175条种子指令。	CC BY-NC-4.0；OpenAI条款
Alpaca Data Cleaned	52K	英语	清理后的Alpaca 52K数据集。	-
Alpaca GPT‑4 Data	52K	英语	相同的提示，由GPT‑4完成。	-
Alpaca GPT‑4 Chinese	52K	中文	针对中文提示的GPT‑4完成内容。	-
xLAM Function Calling 60K	60K	英语	面向可执行智能体的结构化工具调用数据集。	Apache-2.0
Dynosaur	66K	英语	动态增长范式，用于指令整理。	Apache-2.0
Finance	69K	英语	68,912条金融相关指令。	-
WizardLM evol	70K	英语	进化型指令微调数据集（WizardLM）。	-
Vicuna Dataset	75K	英语	约10万条ShareGPT聊天记录（精选）。	-
InstructionTranslation	80K	多语言	M2M‑12B翻译的指令（≤512 tokens）。	MIT
Self‑Instruct	82K	英语	52K条种子指令；82K个输入输出对。	-
OASST1	89K	多语言	人类生成的助手对话（35种语言）。	Apache-2.0
HH‑RLHF	91K	英语	有益/无害的RLHF配对数据集。	MIT
Guanaco Dataset	98K	英语、简体中文、繁体中文、日语	跨语言的175个Alpaca任务。	GPL-3.0
InstructionWild	104K	英语、中文	以429条指令为种子；约52K条自动生成。	仅限研究用途；OpenAI条款
CAMEL Dataset	107K	英语	多角色、主题多样的指令对话。	-
TAPIR‑Cleaned	117K	英语	清理后的IFTTT规则数据集，用于指令微调。	CC BY-NC-4.0
OASST2 (final)	135K	多语言	Open Assistant对话发布2（训练+验证）。	Apache-2.0
WizardLM Evol‑Instruct V2	143K	英语	143K条混合进化数据集。	-
LLaVA Visual Instruct 150K	150K	英语	GPT生成的多模态指令对。	CC BY-NC-4.0
ProsocialDialog	166K	英语	165,681条亲社会指令及反馈。	-
M2Lingual	175K	多语言	多语言混合模态（代码+文本）聊天/指令SFT。	-
COIG	191K	中文	中国开放指令通用模型。	Apache-2.0
orca‑chat	198K	英语	清理、修剪后的Orca风格对话子集。	-
OpenR1‑Math‑220k	220K	英语	DeepSeek‑R1蒸馏的数学轨迹（已验证）。	Apache-2.0
Unnatural Instructions	241K	英语	大规模创意/多样化指令语料库。	MIT
WildJailbreak	262K	英语	合成越狱及良性对比提示。	ODC-BY
SHP	358K	英语	385K条Reddit上的18个主题的偏好配对数据集。	Reddit——可撤销、非独家许可
Dromedary	361K	英语	Dromedary‑Verbose‑Clone合成指令。	CC BY-NC-4.0
UltraChat	404K	英语	双API生成（用户 vs 助手），用于质量控制。	CC BY-NC-4.0
IGN Clean Instruct 500K	509K	英语	约508K条来自Ultrachat的高质量指令。	Apache-2.0
ELI5	559K	英语	长篇社区问答（“像对待五岁小孩一样解释”）。	-
GPT4All	806K	多语言	LAION OIG + StackOverflow + P3提示；OpenAI输出。	-
Instruct	889K	英语	888,969条英语指令（增强版）。	MIT
MOSS	1M	中文	GPT‑3.5‑turbo生成的中文SFT数据集。	Apache-2.0 + AGPL-3.0
WildChat	1.0M	英语	实际场景下的用户–LLM聊天数据集（许可证已更新）。	ODC-BY
smolTalk	1.1M	英语	超紧凑型多轮聊天，适用于小型SFT。	Apache-2.0
Open‑PerfectBlend	1.42M	英语	多样化、去重后的聊天混合数据集，适用于通用SFT。	Apache-2.0
The Tome	1.75M	英语	由Arcee整理的大规模清理后指令数据集。	MIT
NaturalReasoning	2.8M	英语	2.8M道具有挑战性的推理题（已净化）。	CC BY-NC-4.0
LaMini‑Instruction	3.0M	英语	约2.58M–3M条指令–回应对（GPT‑3.5）。	CC BY-NC-4.0
OpenOrca (full)	3.0M	英语	GPT‑4/3.5增强的FLAN集合。	-
WildChat‑4.8M (无毒子集)	3.20M	英语	WildChat 4.8M中的无毒过滤版本。	ODC-BY
Infinity‑Instruct	8.9M	多语言	7.4M基础数据 + 约1.5M聊天指令数据集。	CC BY-SA 4.0
BELLE‑10M	10M	中文	跨领域、多类型的中文指令数据集。	仅限研究用途；OpenAI条款
Firefly	16M	中文	23个NLP任务中超过160万条中文指令（扩展语料库）。	-
OIG‑43M	43M	多语言	LAION + Together + OntoCord组成的复合指令池。	-
xP3	79M	多语言	来自46种语言、16个任务的提示数据集中的78,883,588条指令。	-

未知/混合大小（为完整性保留；格式与原文一致）

数据集名称	大小	语言	来源	许可证
CodeParrot	-	python	180GB Python 文件（每个小于1MB），2000多万个文件。	-
Alpaca‑CoT	-	多语言	带有思维链轨迹的指令数据。	odc-by
stack-exchange-paired	-	英语	用于偏好建模的 StackExchange 问答对。	cc-by-sa-4.0
LangChainDatasets	-	英语	用于评估链条和智能体的社区数据集。	-
ParlAI	-	英语	对话研究平台，包含多项任务和数据集。	-
GPTeacher	-	英语	为通用 SFT 整合的指令数据集。	-
Wizard‑LM Chinese Evol	-	中文	中文 evol‑instruct 语料库。	-
MultiWOZ	-	英语	多领域 Wizard‑of‑Oz 对话语料库。	-
ToolACE	-	英语	多工具调用 SFT（函数、API JSON、工具计划）。	-
UltraFeedback（清理后的二值化）	-	英语	UltraFeedback 偏好数据经过清理和二值化处理。	cc-by-nc-4.0
glaive‑function‑calling‑v2	-	英语	包含工具模式和参数的函数调用 SFT 数据集。	apache-2.0

awesome-chatgpt-dataset 快速上手指南

本指南帮助开发者快速克隆并筛选适合的大语言模型（LLM）训练数据集，用于微调自己的 ChatGPT 类模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (WSL 推荐)
Python 版本：Python 3.8 或更高版本
依赖工具：
- git：用于克隆仓库
- pip：用于安装 Python 依赖（如 datasets, huggingface_hub 等，通常脚本会自动处理或需根据 requirements.txt 安装）
网络环境：由于数据托管在 Hugging Face Hub，建议配置网络加速。
- 国内加速方案：推荐使用 Hugging Face 国内镜像源。
```
export HF_ENDPOINT=https://hf-mirror.com
```

安装步骤

克隆仓库 使用 git 将项目代码下载到本地：

git clone https://github.com/voidful/awesome-chatgpt-dataset.git

进入数据集目录 切换到包含混合数据集脚本的目录：
```
cd awesome-chatgpt-dataset/mixed/dataset
```
安装 Python 依赖 如果目录下有 requirements.txt，请执行：
```
pip install -r requirements.txt
```
(注：若无需额外依赖即可运行 preprocess.py，可跳过此步，直接确保已安装 huggingface_hub 和 datasets 库)

基本使用

该工具的核心功能是让你从列表中挑选任意数据集，合并后上传至你自己的 Hugging Face Hub 账户，以便进行模型训练。

1. 选择数据集

参考项目 README 中的 "Dataset Detail" 表格，根据数据量大小、语言（支持中文数据集如 MOSS, COIG, Alpaca Chinese 等）和许可证选择你需要的数据集名称。

2. 执行预处理与上传

运行 preprocess.py 脚本，指定你想要使用的数据集名称以及目标 Hugging Face Hub 的数据集名称。

命令格式：

python preprocess.py <your_dataset_name_to_HuggingFaceHub>

使用示例： 假设你想使用中文指令数据集 MOSS 并将其上传到你账号下的 my-llm-data/moss-cn 数据集：

# 设置国内镜像加速 (可选但推荐)
export HF_ENDPOINT=https://hf-mirror.com

# 执行脚本，将选定的数据合并并推送到你的 Hub
python preprocess.py my-llm-data/moss-cn

注意：运行前请确保你已通过 huggingface-cli login 登录了拥有写入权限的 Hugging Face 账号。

3. 后续操作

脚本执行完成后，数据将出现在你的 Hugging Face Hub 仓库中。你可以直接在 LLM 训练框架（如 LLaMA-Factory, DeepSpeed, Axolotl 等）中引用该数据集路径进行微调训练。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.9k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|6天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|2天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|4天前

语言模型数据工具其他