awesome-instruction-datasets
awesome-instruction-datasets 是一个专为大语言模型领域打造的开源资源库,汇集了训练 ChatLLM 所需的高质量指令数据集。在微调类似 ChatGPT 或 Llama 的模型时,数据往往是最大的瓶颈之一。awesome-instruction-datasets 解决了数据源分散、筛选困难的问题,将全球范围内优质的指令微调与 RLHF 数据集集中整理,极大降低了获取成本。
这里适合自然语言处理研究人员、AI 工程师以及深度学习学生使用。无论你是想复现经典模型,还是探索新的训练方法,都能在此找到灵感。其独特之处在于分类清晰,不仅包含 Alpaca、OpenAssistant 等知名英文数据集,还收录了 Belle、Firefly 等中文资源,并明确标注了语言标签。此外,它还涵盖了 RLHF 相关数据,为模型对齐提供关键支持。通过整合这些核心资源,awesome-instruction-datasets 助力社区加速研发,让大模型训练变得更加高效和便捷。
使用场景
某初创公司技术团队计划基于 LLaMA 微调一个垂直领域的法律问答机器人,急需构建高质量的指令微调数据集。
没有 awesome-instruction-datasets 时
- 需要在多个代码托管平台手动搜索零散的数据集,信息分散且效率低下。
- 面对海量开源项目,难以快速筛选出适合中文场景的高质量指令数据。
- 不清楚各数据集的开源许可证,直接使用可能面临法律合规风险。
- 花费大量时间在数据清洗和格式转换上,挤占了模型训练与调优的时间。
使用 awesome-instruction-datasets 后
- awesome-instruction-datasets 直接聚合了 Alpaca、BELLE 等知名数据集的官方链接,无需二次查找。
- 通过语言标签(CN/EN)和类型分类(Prompt/RLHF),迅速锁定适合法律场景的中文指令集。
- 明确区分了有许可证和无许可证的数据源,确保后续商业化使用的安全性。
- 获取标准化数据格式,大幅减少预处理工作,让团队能更快验证模型效果。
awesome-instruction-datasets 通过整合优质资源,显著降低了大模型微调的数据门槛与开发成本。
运行环境要求
- 未说明
未说明
未说明

快速开始
中文 | 英文
目录
- 优秀提示词数据集
- 目录
- 简介
- 提示词数据集
- 人类反馈强化学习 (RLHF) 数据集
- 模板
- 提示词数据集列表
- Alpaca -Stanford
- Instruction in the Wild
- JosephusCheung/GuanacoDataset
- Stanford Human Preferences Dataset (SHP)
- Hello-SimpleAI/HC3
- Hello-SimpleAI/HC3-Chinese
- allenai/prosocial-dialog
- allenai/natural-instructions
- PhoebusSi/Alpaca-CoT
- nomic-ai/gpt4all
- bigscience/xP3
- teknium1/GPTeacher
- thunlp/UltraChat
- cascip/ChatAlpaca
- YeungNLP/firefly-train-1.1M)
- orhonovich/unnatural-instructions
- Instruction-Tuning-with-GPT-4/GPT-4-LLM
- databrickslabs/dolly
- OpenAssistant/oasst1
- BELLE/data/1.5M
- alpaca_chinese_dataset
- Med-ChatGLM/data
- pCLUE
- COIG
- 人类反馈强化学习 (RLHF) 数据集列表
- Anthropic/hh-rlhf
- HuggingFaceH4/stack-exchange-preferences
- stanfordnlp/SHP
- Instruction-Tuning-with-GPT-4/GPT-4-LLM
- Natural Instruction / Super-Natural Instruction
- BigScience/P3
- xMTF - BigScience
- HH-RLHF - Anthropic
- Unnatural Instruction
- Self-Instruct
- UnifiedSKG - HKU
- Google/Flan Collection
- InstructDial
- ChatGPT Distillation Data
- Open Instruction Generalist (OIG).
- OpenAI WebGPT.
- OpenAI Summarization.
- 无许可信息的数据集
- 贡献
- 许可证
简介
欢迎来到 "awesome-prompt-datasets",这是一个全面的高质量开源指令微调数据集集合,用于训练基于对话的大型语言模型(ChatGPT, LLaMA, Alpaca)。
指令微调 (Instruction Tuning) / 人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 数据集是像 ChatGPT 这样遵循指令的大型语言模型 (LLMs) 的关键组成部分。本仓库致力于提供一份全面的指令微调数据集列表,这些数据集被用于各种大型语言模型中,使研究人员和开发者更容易访问和利用这些资源。
通过 "awesome-prompt-dataset",您可以加速在自然语言处理 (Natural Language Processing, NLP) 领域的研发工作,并解锁创新的新机遇。让我们一起探索无限可能!
提示词数据集
参考 此链接 (@yaodongC),我们根据以下规则对每个收集到的数据集进行了标记:
(语言) 语言标签:
- EN: 英语指令数据集
- CN: 中文指令数据集
- ML: [多语言] 多种语言的指令数据集
(任务) 任务标签:
- MT: [多任务] 包含多个任务的数据集
- TS: [特定任务] 针对特定任务定制的数据集
(生成) 生成方法:
- HG: [人工生成数据集] 由人类创建的数据集
- SI: [自指令] 使用自指令 (Self-Instruct) 方法生成的数据集
- MIX: [混合数据集] 包含人工和机器生成数据的数据集
- COL: [数据集集合] 由其他数据集集合而成的数据集
统计信息
| 项目 | 数据集 | 组织 | 数量 | 语言 | 任务 | 生成 | 类型 | 来源 | 链接 |
|---|---|---|---|---|---|---|---|---|---|
| 思维链 (Chain of Thought) | cot_data |few_shot_data | 74771 | EN/CN | MT | HG | 使用思维链 (CoT) 推理的指令 | 在现有数据上标注 CoT | 下载 | |
| GPT4all | nomic-ai/gpt4all-j-prompt-generations | nomic-ai | 806199 | EN | MT | COL | 代码、故事和对话 | 从 GPT-3.5-turbo 蒸馏 | 下载 |
| GPTeacher | GPT-4 General-Instruct |Roleplay-Instruct |Code-Instruct | Toolformer | teknium1 | 29013 | EN | MT | SI | 通用、角色扮演、Toolformer | GPT-4 & Toolformer | 下载 |
| Guanaco | JosephusCheung/GuanacoDataset | JosephusCheung | 534610 | ML | MT | SI | 各种语言任务 | text-davinci-003 | 下载 |
| HC3 | Hello-SimpleAI/HC3 | Hello-SimpleAI | 万得资讯 | 37175 | EN/CN | TS | MIX | 对话评估 | 人类或 ChatGPT | 下载 |
| HC3-Chinese | Hello-SimpleAI/HC3-Chinese | Hello-SimpleAI|万得资讯 | 13k | CN | TS | MIX | 对话评估 | 人类或 ChatGPT | |
| alpaca | tatsu-lab/alpaca | tatsu-lab | 52002 | EN | MT | SI | 通用指令 | text-davinci-003 | 下载 |
| AlpacaDataCleaned | yahma/alpaca-cleaned | yahma | 52k | EN | MT | SI | 通用指令 | text-davinci-003 | 下载 |
| Chinese-LLaMA-Alpaca | alpaca_data_zh_51k | ymcui(讯飞) | 51k | CN | MT | SI | 通用指令 | text-davinci-003 | |
| Luotuo-Chinese-LLM 骆驼 | trans_chinese_alpaca_data | LC1332(商汤) | 52k | CN | MT | SI | 通用指令 | text-davinci-003 | |
| Natural Instructions | Allen AI 61 task|1.5k task | Allen AI | 5040134 | ML | MT | COL | 多样的自然语言处理 (NLP) 任务 | 人工标注数据集集合 | 下载 |
| belle_cn | BelleGroup/train_1M_CN |BelleGroup/train_0.5M_CN | BelleGroup(链家) | 1079517 | CN | TS/MT | SI | 通用、数学推理、对话 | text-davinci-003 | 下载 |
| instinwild | instinwild_ch | instinwild_en | 52191 | EN/CN | MT | SI | 生成、开放问答 (QA)、头脑风暴 | text-davinci-003 | 下载 | |
| 华驼 (HuaTuo) | 中文医学知识 |肝癌 | SCIR-HI(哈工大) | 8K | CN | TS | SI | 公开和自建的中文医学知识库 | GPT-3.5 | |
| prosocial dialog | allenai/prosocial-dialog | allenai | 165681 | EN | TS | MIX | 对话 | GPT-3 重写问题 + 人工反馈手动 | 下载 |
| finance_en | gbharti/finance-alpaca | 68912 | EN | TS | COL | 金融相关问答 | GPT-3.5 | 下载 | |
| xP3 | bigscience/xP3 | bigscience | 78883588 | ML | MT | COL | 涵盖 46 种语言和 16 个自然语言处理 (NLP) 任务的提示与数据集集合 | 人工标注数据集集合 | 下载 |
| firefly | YeungNLP/firefly-train-1.1M | 1649398 | CN | MT | COL | 23 个自然语言处理 (NLP) 任务 | 人工标注数据集集合 | 下载 | |
| instruct | swype/instruct | 888969 | EN | MT | COL | GPT4All, Alpaca、开源 Meta 数据集的增强版 | 使用 AllenAI 提供的先进自然语言处理 (NLP) 工具进行增强 | 下载 | |
| Code Alpaca | sahil280114/codealpaca | 20022 | EN | TS | SI | 代码生成、编辑、优化 | text-davinci-003 | 下载 | |
| Alpaca_GPT4 | alpaca_gpt4_data|alpaca_gpt4_data_zh |comparison_data_v2 | 微软 | 52002 | EN/CN | MT | SI | 通用指令 | 使用 Alpaca 由 GPT-4 生成 | 下载 |
| webGPT | openai/webgpt_comparisons | openai | 18994 | EN | TS | MIX | 信息检索 (IR) 问答 | 微调后的 GPT-3,每条指令有两个输出,选择更好的一个 | 下载 |
| dolly 2.0 | databricks/databricks-dolly-15k | databricks | 15015 | EN | TS | HG | 封闭问答、摘要等,以维基百科为参考 | 人工标注 | 下载 |
| mosaicml/llm-foundry | mosaicml/dolly_hhrlhf | mosaicml | 59.3K | EN | TS | HG | 该数据集是 Databrick's dolly-15k 数据集和 Anthropic's HH-RLHF 过滤子集的组合。 | 人工标注 | |
| baize 白泽 | alpaca_chat_data.json |medical_chat_data.json | quora_chat_data.json |stackoverflow_chat_data.json | project-baize | 653699 | EN | MT | COL | 来自 Alpaca、Quora、StackOverflow 和 MedQuAD 问题的集合 | 人工标注数据集集合 | 下载 |
| hh-rlhf | Anthropic/hh-rlhf | Anthropic | 284517 | EN | TS | MIX | 对话 | 人类与 RLHF 模型之间的对话 | 下载 |
| OIG(part) | laion/OIG | laion | 49237 | EN | MT | COL | 源自各种任务,例如问答 | 使用数据增强,人工标注数据集集合 | 下载 |
| GAOKAO | Fill-in-the-blank_Questions | Multiple-choice_Questions | Open-ended_Questions | OpenLMLab | 2785 | CN | MT | COL | 考试中的选择题、填空题和开放式问题 | 人工 annotated | 下载 |
| camel | 骆驼 | camel-ai/code|camel-ai/biology |camel-ai/physics |camel-ai/chemistry |camel-ai/math | camel-ai | 760620 | EN | MT | SI | AI 社会、代码、数学、物理、化学、生物领域的角色扮演对话 | gpt-3.5-turbo | 下载 |
| FLAN-Muffin | Muennighoff/flan | 1764800 | EN | MT | COL | 60 个自然语言处理 (NLP) 任务 | 人工标注数据集集合 | 下载 | |
| COIG | COIG | BAAI|智源 | 298428 | CN | MT | COL | 收集自考试、翻译、人类价值对齐指令和反事实修正多轮对话 | 使用自动工具和人工验证 | 下载 |
| GPT4Tools | gpt4tools_71k.json | StevenGrove | 71446 | EN | MT | SI | 一系列工具相关指令 | gpt-3.5-turbo | 下载 |
| ShareChat | RyokoAI/ShareGPT52K | RyokoAI | 1663241 | EN | MT | MIX | 通用指令 | 众包收集人与 ChatGPT 之间的对话 (ShareGPT) | 下载 |
| Auto CoT | kojima-takeshi188/zero_shot_cot/dataset |kojima-takeshi188/zero_shot_cot/log | amazon-science | EN | 下载 | |||||
| MOSS(复旦 Moss) | fnlp/moss-002-sft-data| moss-003-sft-data | fnlp | 1583595 | EN/CN | SI | 下载 | |||
| ultrachat | stingning/ultrachat | thnlp | 28247446 | EN | 下载 | ||||
| StackLLaMA | lvwerra/stack-exchange-paired | todo | EN | HG | |||||
| Self-Instruct | yizhongw/self-instruct | 82 K | EN | SI | SI | ||||
| Zhihu-KOL | Zhihu-KOL | Openassisent | 100 w | SI | HG | 用于训练 Open Assistant 的知乎数据 | |||
| stanfordnlp/SHP | stanfordnlp/SHP | stanfordnlp | 385 k | EN | MT | HG | 对回复的人类偏好 | ||
| LAION-AI/Open-Assistant | OpenAssistant/oasst1 | Openassisent | 84.4k | EN | MT | HG | OpenAssistant 对话数据集 (OASST1) | 人类生成,人工标注 | |
| akoksal/LongForm | akoksal/LongForm | akoksal/LongForm | 30k | EN | SI | HG | 从现有语料库(如 C4 和维基百科)中选择一组多样化的人工文档,并通过大语言模型 (LLM) 为给定文档生成指令。 | ||
| sail-sg/symbolic-instruction-tuning | sail/symbolic-instruction-tuning | sail-sg | 800K | ML | SI | 人类合成示例 | |||
| 医疗问答 michael-wzhu/PromptCBLUE | michaelwzhu/ChatMed_Consult_Dataset | michael-wzhu | 110113 | CN | SI | 互联网上的医疗问诊问题 (110,113),反映了真实世界的不同用户/患者的医疗问诊需求。目前 response 都是由 OpenAI GPT-3.5引擎回答的。 |
|||
| mbzuai-nlp/LaMini-LM | MBZUAI/LaMini-instruction | MBZUAI/LaMini-instruction | 2.58M | EN | MT | SI | 通过离线蒸馏从大型语言模型中提取知识 | ||
| pCLUE | pCLUE | 120 万 | |||||||
| WizardLM | victor123/evol_instruct_70k | WizardLM | 70k | EN | MT | ||||
RLHF(人类反馈强化学习)数据集
统计信息
| Project | Links | Org | Nums | Lang | Summary |
|---|---|---|---|---|---|
| webgpt_comparisons | Openai | 19,578 | 英语 | 在 WebGPT 论文 中,作者从人类反馈中训练了一个奖励模型(Reward Model)。他们使用该奖励模型训练了一个长文本回答问答模型,以与人类偏好对齐。这是 WebGPT 项目结束时标记为适合奖励建模的所有比较的集合。总共有 19,578 个比较样本。 | |
| SHP | stanfordnlp | 349 K | 英语 | SHP 是一个包含 38.5 万个集体人类偏好的数据集,涉及 18 个不同主题领域(从烹饪到法律咨询)的问题/指令的回答。这些偏好旨在反映一个回答相对于另一个回答的帮助程度,并用于训练 RLHF 奖励模型和自然语言生成(NLG)评估模型(例如:SteamSHP)。 | |
| rlhf-reward-datasets | yitingxie | 76.3 k | 英语 | ||
| Dahoas/full-hh-rlhf | Dahoas | 112 k | 英语 | 将 Anthropic 的 HH 数据集重新格式化为提示词(Prompt)、被选择(Chosen)、被拒绝(Rejected)样本。 | |
| Dahoas/synthetic-instruct-gptj-pairwise | Dahoas | 英语 | |||
| Dahoas/rm-static | Dahoas | 76.3k | 英语 | hh-static 的划分版本,用于监督微调(Supervised Fine-tuning)后训练奖励模型。 | |
| Anthropic/hh-rlhf | Anthropic | 22k | 英语 | 此 RLHF 数据集是一个迭代的“在线”数据集,包含来自 520 亿参数语言模型的数据。它包含 2.2 万个帮助性比较数据,且不含红队测试(Red-teaming)数据。 | |
| Instruction-Tuning-with-GPT-4/GPT-4-LLM | Instruction-Tuning-with-GPT-4 | 52k | 英语 | 对三个模型(GPT-4、GPT-3.5 和 OPT-IML)生成的 Alpaca 提示词响应进行排名(注意:数据由 GPT-4 模型评估,而非人工)。通过要求 GPT-4 对质量进行评分来实现。作者认为"GPT-4 能够识别并修正自己的错误,并能准确判断响应的质量”。 |
|
| thu-coai/Safety-Prompts | thu-coai/Safety-Prompts | thu-coai | 100k | 中文 | 中文安全提示词(Prompts),用于评估和提升大模型的安全性,使模型输出与人类价值观对齐。 |
| Chatgpt-Comparison-Detection project | Hello-SimpleAI/HC3 | 24.3K | 英语 | 人类 ChatGPT 对比语料库,针对约 2.4 万个问题,包含 6 万个人类回答和 2.7 万个 ChatGPT 回答。 |
Open ChatLLMs
| 发布时间 | 模型名称 | 基座 | 模型规模 | 数据集 | 实例数量 | 语言 |
|---|---|---|---|---|---|---|
| 2022-12 | GPT-3 Self Inst. | GPT-3 | 175B | Self-Instruct | 82 k | 英文 |
| 2023-03-03 | alpaca | LLaMA | 7B | alpaca_data | 52 k | 英文 |
| 2023-03-19 | alpaca-lora | LLaMA | 7B 13B 30B | alpaca_data、alpaca_data_cleaned | 52 k | 英文 |
| 2023-03-23 | Chinese-Vicuna | LLaMA | 7B 13B | BELLE、GuanacoDataset | 1M | 中文 |
| 2023-03-24 | Alpaca-CoT | LLaMA | 7B | dataset | ---- | 英文 中文 |
| 2023-03-25 | dolly | dolly | 6B | alpaca_data | 52 k | 英文 |
| 2023-03-25 | guanaco | LLaMA | 7B | GuanacoDataset | 534 k | 英文 中文 日文 德文 |
| 2023-03-28 | Chinese-LLaMA-Alpaca | LLaMA | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Self-Instruct | 2M | 中文 |
| 2023-03-29 | ColossalChat | LLaMA | 7B 13B | InstructionWild | 104 k | 英文 中文 |
| 2023-03-31 | Luotuo | LLaMA ChatGLM | 7B 6B | trans_chinese_alpaca_data | 52k | 中文 |
| 2023-03-31 | cerebras-lora-alpaca | Cerebras-GPT | 2.7B | AlpacaDataCleaned | 52k | 英文 |
模板
将新项目追加到文件末尾
[{Project-name}/{Dataset-name}]{https://github.com/link/to/project}
- [paper/project link](link)
- [dataset link](link)
- Related work: (if applicable)
Some introductions ...
提示词数据集列表
Alpaca -Stanford
斯坦福发布的 Alpaca 是一个基于 Meta AI LLaMA 模型的用于指令微调 (instruct-tuning) 的微调 (fine-tuning) 模型。
Alpaca 使用 GPT-3.5 自动生成了 52k 条指令数据,并用于微调 LLaMA 模型。实验结果表明,它在某些任务上可以达到甚至超越 GPT-3.5 的性能。
Instruction in the Wild
指令微调 (Instruction Tuning) 是 ChatGPT 的关键组成部分。OpenAI 使用了他们基于用户的指令数据集,但不幸的是,该数据集并未开源。Self-Instruct 发布了一个小型指令数据集,包含由人工编写的 175 条指令。斯坦福 Alpaca 团队基于上述 175 条种子指令 (seed instructions),通过 text-davinci-003 模型生成了 52K 条指令。
本项目旨在构建一个更大且更多样化的指令数据集。为此,我们从 ChatGPT 的使用截图中收集了 429 条指令,并发布了中英文版本。我们发现这些指令非常多样化,尽管规模仍然较小。我们遵循 Alpaca 的方法生成了 52K 条指令及其回复。所有数据均可在 data 目录中找到。
注意:这是一个进行中的项目。我们仍在收集和整理我们的数据。我们尽早发布此数据集以加速我们的 LLM (大型语言模型) 研究。我们也将在不久后发布一份白皮书。
JosephusCheung/GuanacoDataset
- 数据生成模型:text-davinci-003
- 成本:$6000
52K 条指令数据是通过修改后的 self-instruct 流程生成的,包含人工编写的 429 个种子任务。
斯坦福人类偏好数据集 (SHP)
SHP 是一个包含 38.5 万条关于 18 个不同主题领域(从烹饪到法律咨询)的问题/指令回复的集体人类偏好数据集。这些偏好旨在反映一个回复相较于另一个回复的帮助程度,并 intended to be used for training RLHF(人类反馈强化学习)奖励模型和 NLG(自然语言生成)评估模型 (e.g., SteamSHP)。
每个示例都是一个 Reddit 帖子,包含一个问题/指令以及该帖子的两个顶级评论,其中一条评论被 Reddit 用户(集体)更偏好。SHP 利用了这样一个事实:如果评论 A 是在评论 B 之后撰写的,但仍然拥有更高的得分,那么 A 显然比 B 更受偏好。如果 A 是在 B 之前撰写的,我们就不能得出这个结论,因为其较高的得分可能是由于可见性更高所致。我们选择的数据中,偏好标签旨在反映哪个回复更有用,而不是哪个危害更小,后者是许多过去工作的重点。
SHP 与 Anthropic 的 HH-RLHF 数据集 有何不同?最显著的是,SHP 中的所有数据都是自然发生且由人类编写的,而 HH-RLHF 中的回复是由机器编写的,这为我们提供了两种可以互补的不同分布。
Hello-SimpleAI/HC3
- 摘要:首个真人 -ChatGPT 对比语料库(英文版),名为 HC3 数据集
- 数据生成模型:
gpt-3.5,human generated - 论文:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
- 成本:无
Hello-SimpleAI/HC3-Chinese
- 摘要:首个真人 -ChatGPT 对比语料库(中文版),名为 HC3 数据集
- 数据生成模型:
gpt-3.5,human generated - 论文:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
- 成本:无
allenai/prosocial-dialog
- 摘要:ProsocialDialog 是首个大规模多轮英语对话数据集,旨在教导对话代理(Conversational Agents)根据社会规范对问题内容进行回应。
- 数据生成模型:
gpt-3.5,human generated - 论文:ProsocialDialog: A Prosocial Backbone for Conversational Agents
- 成本:无
allenai/natural-instructions
- 摘要:一项社区努力,旨在创建大量
1,616 个多样化的 NLP(自然语言处理)任务及其自然语言定义/指令。 - 数据生成模型:
Human generated - 论文:Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
- 成本:无
PhoebusSi/Alpaca-CoT
- 摘要:一个基于 LLaMA 和 Alpaca 的 Chain-of-Thoughts(思维链)推理数据集。注意:他们的仓库将持续收集各种指令微调(Instruction Tuning)数据集。Github Repo
- 论文:无
- 成本:无
nomic-ai/gpt4all
- 摘要:gpt4all 利用三个公开可用的数据集:1.laion/OIG, 2.pacovaldez/stackoverflow-questions 3. bigscience/bloomz-p3 的子集
- 数据生成模型:无
- 论文:GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo
- 成本:$500
bigscience/xP3
- 摘要:[提示词资源(Prompt-resource)] xP3(跨语言公共提示池)是一个涵盖 46 种语言和 16 个 NLP 任务的提示词 & 数据集集合。
- 数据生成模型:无
- 论文:Crosslingual Generalization through Multitask Finetuning
- 成本:无
teknium1/GPTeacher
- 摘要:一组由 GPT-4 生成的模块化数据集集合,包括 General-Instruct、Roleplay-Instruct、Code-Instruct 和 Toolformer
- 数据生成模型:
GPT-4 - 论文:无
- 成本:无
thunlp/UltraChat
- 摘要:UltraChat 旨在构建一个开源、大规模、多轮的对话数据。UltraChat 的第一部分(即“关于世界的问题”板块)已发布,包含 28 万个多样且信息丰富的对话。更多关于写作和创作、现有材料协助的对话即将推出。
- 数据生成模型:
GPT-3.5-turbo - 论文:无
- 成本:无
cascip/ChatAlpaca
- 摘要:基于 Stanford Alpaca 数据,ChatAlpaca 将数据扩展到多轮指令及其相应的回复。更多数据(2 万条)及中文翻译版即将推出。
- 数据生成模型:
GPT-3.5-turbo - 论文:无
- 成本:无
- 相关:(tatsu-lab/Alpaca)|52K|EN|MT|SI
YeungNLP/firefly-train-1.1M)
- 摘要:结合人工编写指令模板的 23 个任务的中文数据集。
- 数据生成模型:无
- 论文:无
- 成本:无
orhonovich/unnatural-instructions
- 摘要:通过向语言模型提供三条指令种子示例并诱导出第四条,生成 6.4 万条示例。然后通过提示模型重写每条指令,将集合扩展至 24 万条。
- 数据生成模型:
text-davinci-002 - 论文:Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor
- 成本:无
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 摘要:5.2 万条由 GPT-4 生成的指令跟随(Instruction-following)数据,使用原始 Alpaca 提示词及 ChatGPT 翻译成中文的 Alpaca 提示词 + 9 千条由 GPT-4 使用 Unnatural Instruction 中的提示词生成的指令跟随数据。
- 数据生成模型:
GPT-4 - 论文:Instruction Tuning with GPT-4
- 成本:无
- 相关: -(tatsu-lab/Alpaca)|52K|EN|MT|SI -(orhonovich/unnatural-instructions)|240K|EN|MT|MIX
databrickslabs/dolly
- 简介:该数据集由数千名 Databricks 员工生成,涵盖了 InstructGPT 论文中概述的几种行为类别,包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和摘要。
- 数据生成模型:N/A
- 论文:Free Dolly
- 成本:N/A
OpenAssistant/oasst1
- 简介:OpenAssistant 对话(OASST1),一个由人类生成、人工标注的助手风格对话语料库,包含 161,443 条消息,分布在 66,497 个对话树中,涵盖 35 种不同语言,并标注了 461,292 个质量评分。
- 数据生成模型:N/A
- 论文:OpenAssistant Conversations - Democratizing Large Language Model Alignment
- 成本:N/A
BELLE/data/1.5M
- 下载地址:https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
- 数据量:1.5M
- 生成方式:self-instruct,使用了中文种子任务,以及 openai 的 text-davinci-003 接口
- 涉及任务:包含 175 个种子任务,https://github.com/LianjiaTech/BELLE/blob/main/data/1.5M/zh_seed_tasks.json
- 数据示例:https://huggingface.co/datasets
alpaca_chinese_dataset
- 下载地址:https://github.com/hikariming/alpaca_chinese_dataset
- 数据量:52k
- 生成方式:借助 chatgpt 对原始的 stanford_alpaca 做机器翻译,并加入人工校验来保证质量
- 涉及任务:与原始的 stanford_alpaca 一致,可以在原项目的 seed_task.json 中查到全部任务
Med-ChatGLM/data
- 下载地址:https://github.com/SCIR-HI/Med-ChatGLM
- 数据量:7k
- 生成方式:利用 GPT3.5 接口围绕医学知识库构建问答数据,并设置了多种 Prompt 形式来充分利用知识
- 涉及任务:医学领域相关的问答,包含并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗
pCLUE
- 下载地址:https://github.com/CLUEbenchmark/pCLUE
- 数据量:1.2M
- 生成方式:通过原有的 NLP 任务数据集,结合特定的 prompt 模板生成
- 涉及任务:包含 9 个 NLP 数据集,涉及的 NLP 任务有 文本分类/自然语言推理/语义匹配/指代消解/关键词识别/阅读理解
COIG
数据量:
- Translated Instructions (67,798)
- Exam Instructions (63,532)
- Human Value Alignment Instructions (34,471)
- Counterfactural Correction Multi-round Chat (13,653)
- Leetcode Instructions (11,737)
生成方式:融合了多个领域的数据,具体可以参考论文 Chinese Open Instruction Generalist: A Preliminary Release
https://github.com/FreedomIntelligence/InstructionZoo
https://github.com/lightaime/camel
RLHF 数据集列表 (Reinforcement Learning from Human Feedback)
Anthropic/hh-rlhf
- 简介:此 RLHF 数据集是一个迭代的“在线”数据集,包含来自 52B 语言模型的数据。它包含 22k 有用性比较和无红队测试数据。
- 数据生成模型:
Anthropic RL-CAI 52B - 论文:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- 成本:N/A
HuggingFaceH4/stack-exchange-preferences
- 简介:此数据集包含来自 Stack Overflow 数据转储的问题和答案,用于偏好模型训练。
- 数据生成模型:N/A
- 论文:A General Language Assistant as a Laboratory for Alignment
- 成本:N/A
stanfordnlp/SHP
- 简介:每个示例都是一个带有问题/指令的 Reddit 帖子及其一对顶级评论,其中一条评论更受 Reddit 用户(集体)青睐。
- 数据生成模型:N/A
- 论文:N/A
- 成本:N/A
Instruction-Tuning-with-GPT-4/GPT-4-LLM
- 简介:排名响应(注意:数据由
GPT-4模型评估而非人类)的 Alpaca 提示词来自三个模型(GPT-4, GPT-3.5 和 OPT-IML),通过要求 GPT-4 评估质量。作者认为"GPT-4 能够识别并修复自己的错误,并能准确判断响应的质量”。 - 数据生成模型:
GPT-4 - 论文:Instruction Tuning with GPT-4
- 成本:N/A
- 相关: -(tatsu-lab/Alpaca)|52K|EN|MT|SI
Natural Instruction / Super-Natural Instruction
Allen AI 是第一个尝试将指令作为提示词并微调大语言模型(LLM)的组织。在 Natural Instruction 论文中,你可以基本理解指令的标注思路。
在其提出的数据集中,包含了 61 种不同的 NLP 任务。
Super-Natural Instruction 是 Natural Instruction 的超密集版本,包含超过 1,600 种不同的 NLP 任务,并且有超过 76 种不同类型的 NLP 任务(例如:分类、提取、序列标注)。
BigScience/P3
BigScience 由 Hugging Face 和法国国家科学研究中心 (CNRS)、IDRIS、GENCI 等联合组织。它是最大的开源大语言模型组织之一。
BigScience 于 2021 年底开发了 PromptSource 项目,并开源了一系列工具包以帮助研究人员基于现有的 NLP 任务构建提示词。到目前为止,PromptSource 项目包含针对 270 个 NLP 任务的 2000 多个提示模板。
在此基础上,BigScience 构建了 P3 数据集。你可以在 Hugging Face Hub 上找到 P3 数据,P3 的数据规模在 100M-1B 之间。
xMTF - BigScience
基于英文提示词(Prompt),BigScience 将其提示词扩展到了多种非英语语言。
该项目包含 13 个自然语言处理(NLP)任务,并支持 46 种不同的语言。对应的提示词包含不定数量的语言。
在基于多语言的基础上进行微调(fine-tuning)后,BLOOM 和 T0 都实现了理想的跨语言能力。
HH-RLHF - Anthropic
Anthropic 旗下的 Claude 是 ChatGPT 的主要竞争对手之一。
Anthropic 开源了其在自家产品线中使用的 RLHF(基于人类反馈的强化学习)数据集。
HH-RLHF 项目的初衷是训练有益且无害(Helpful and Harmless, HH)的大语言模型(LLM)。因此,除了项目回复的质量外,是否包含有害信息也体现在其人类反馈中。
该论文记录了如何利用 RLHF 数据的行为来使模型与人类价值观对齐,并记录了数据集的构建方法和标准。
Unnatural Instruction
使用 LLM 独立生成指令数据是指令微调(instruction-tuning)领域的活跃方向。
Unnatural Instruction 使用 GPT3 (text-davinci-002) 生成 64k 指令提示词数据。并使用同一模型重写这 64k 提示词,最终获得 240k 指令数据。
论文表明,Instruct-Tuning 中由 LLM 生成的提示词表现良好,甚至超越了在 P3 等数据上微调的 T0 等模型。
Self-Instruct
Self-Instruct 也是利用 LLM 为指令微调生成提示词的想法。不过,它使用了更细粒度的生成过程。
引入了任务池(Task pool)和质量过滤(Quality filtering)等概念,以部分缓解自指类型数据的噪声问题。
UnifiedSKG - HKU
UnifiedSKG 在文本到文本(Text-to-Text)框架中增加了知识定位(knowledge grounding),即在提示词 - 输出(prompt-output)框架中,增加了结构化数据作为辅助。
例如,一些 NLP 任务严重依赖结构化知识库/数据库。UnifiedSKG 的思路是将所需的数据库序列化并嵌入到提示词中。如下图所示。
UnifiedSKG 代表了 LLM 领域的一个方向,试图利用结构化知识来提升性能。
Google/Flan Collection
在此项目中,Google 将其自身的 Flan 2021 数据与一些开源指令数据(P3, super-natural instruction 等)合并。
在 Flan Collection 的论文中,Google 还总结了 Flan 系列模型训练/推理的一些关键点,可能具有良好的参考价值。
Flan Collection 将来自 Flan 2021、P3、Super-Natural Instructions 以及数十个其他数据集编译到一个地方,并将它们格式化为零样本(zero-shot)、少样本(few-shot)和思维链(chain-of-thought)模板的混合体。
-
InstructDial
InstructDial 尝试在特定任务类型上进行指令微调。实验结果表明,在对话指令数据上微调后,模型在对话任务上的表现优于非常大的任务集。
ChatGPT Distillation Data
公共用户共享对话(ShareGPT):使用公共 API 收集了 ShareGPT 上用户分享的约 60K 个对话。为了保持数据质量,我们在用户查询级别进行了去重,并移除了任何非英语对话。这留下了大约 30K 个示例。
人类 ChatGPT 对比语料库(HC3):我们使用了 HC3 英文数据集 中的人类和 ChatGPT 回答,其中包含约 60K 个人类回答和 27K 个 ChatGPT 回答,针对约 24K 个问题,总共约有 87K 个问题 - 回答示例。
Open Instruction Generalist (OIG).
我们使用了 LAION 整理的开放 指令通用数据集 的手动选择组件子集。具体来说,我们使用了小学数学指令、诗歌转歌曲、以及剧情剧本书籍对话数据集。这总共产生了约 30k 个示例。
OpenAI WebGPT.
在 WebGPT 论文 中,作者从人类反馈中训练了一个奖励模型。他们使用该奖励模型训练了一个长文问答模型,以符合人类偏好。这是 WebGPT 项目结束时标记为适合奖励建模的所有比较数据集。总共有 19,578 个比较。
数据集中的每个示例包含一个问题的两个模型答案及其关联的元数据。每个答案都有人类的偏好评分,可用于确定哪个答案更好。
OpenAI Summarization.
OpenAI 摘要数据集包含约 93K 个示例,每个示例由人类对模型生成的摘要的反馈组成。人类评估者从两个选项中选择了更好的摘要。
无许可信息的数据集
alespalla/chatbot_instruction_prompts
- 总结:
tatsu-lab/alpaca,Dahoas/instruct-human-assistant-prompt,allenai/prosocial-dialog的汇编 - 数据生成模型:N/A
- 论文:N/A
- 成本:N/A
贡献
我们的目标是让这个仓库变得更好。如果您有兴趣贡献,请参见此处获取贡献说明。
许可证
Awesome-Prompt-Dataset 根据 Apache 2.0 许可证发布。
参考资料
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。