awesome-instruction-datasets

728 41 非常简单 2 次阅读昨天Apache-2.0数据工具语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

awesome-instruction-datasets 是一个专为大语言模型领域打造的开源资源库，汇集了训练 ChatLLM 所需的高质量指令数据集。在微调类似 ChatGPT 或 Llama 的模型时，数据往往是最大的瓶颈之一。awesome-instruction-datasets 解决了数据源分散、筛选困难的问题，将全球范围内优质的指令微调与 RLHF 数据集集中整理，极大降低了获取成本。

这里适合自然语言处理研究人员、AI 工程师以及深度学习学生使用。无论你是想复现经典模型，还是探索新的训练方法，都能在此找到灵感。其独特之处在于分类清晰，不仅包含 Alpaca、OpenAssistant 等知名英文数据集，还收录了 Belle、Firefly 等中文资源，并明确标注了语言标签。此外，它还涵盖了 RLHF 相关数据，为模型对齐提供关键支持。通过整合这些核心资源，awesome-instruction-datasets 助力社区加速研发，让大模型训练变得更加高效和便捷。

使用场景

某初创公司技术团队计划基于 LLaMA 微调一个垂直领域的法律问答机器人，急需构建高质量的指令微调数据集。

没有 awesome-instruction-datasets 时

需要在多个代码托管平台手动搜索零散的数据集，信息分散且效率低下。
面对海量开源项目，难以快速筛选出适合中文场景的高质量指令数据。
不清楚各数据集的开源许可证，直接使用可能面临法律合规风险。
花费大量时间在数据清洗和格式转换上，挤占了模型训练与调优的时间。

使用 awesome-instruction-datasets 后

awesome-instruction-datasets 直接聚合了 Alpaca、BELLE 等知名数据集的官方链接，无需二次查找。
通过语言标签（CN/EN）和类型分类（Prompt/RLHF），迅速锁定适合法律场景的中文指令集。
明确区分了有许可证和无许可证的数据源，确保后续商业化使用的安全性。
获取标准化数据格式，大幅减少预处理工作，让团队能更快验证模型效果。

awesome-instruction-datasets 通过整合优质资源，显著降低了大模型微调的数据门槛与开发成本。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该仓库为指令微调数据集的资源聚合列表（Awesome List），本身不包含可执行代码或安装脚本，因此没有特定的运行环境要求。用户需根据实际选用的数据集及下游模型训练任务（如 LLaMA、ChatGLM 等）自行配置相应的深度学习环境。

python未说明

未说明

快速开始

优秀指令数据集

中文 | 英文

简介

欢迎来到 "awesome-prompt-datasets"，这是一个全面的高质量开源指令微调数据集集合，用于训练基于对话的大型语言模型（ChatGPT, LLaMA, Alpaca）。

指令微调 (Instruction Tuning) / 人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 数据集是像 ChatGPT 这样遵循指令的大型语言模型 (LLMs) 的关键组成部分。本仓库致力于提供一份全面的指令微调数据集列表，这些数据集被用于各种大型语言模型中，使研究人员和开发者更容易访问和利用这些资源。

通过 "awesome-prompt-dataset"，您可以加速在自然语言处理 (Natural Language Processing, NLP) 领域的研发工作，并解锁创新的新机遇。让我们一起探索无限可能！

提示词数据集

参考此链接 (@yaodongC)，我们根据以下规则对每个收集到的数据集进行了标记：

(语言) 语言标签:

EN: 英语指令数据集
CN: 中文指令数据集
ML: [多语言] 多种语言的指令数据集

(任务) 任务标签:

MT: [多任务] 包含多个任务的数据集
TS: [特定任务] 针对特定任务定制的数据集

(生成) 生成方法:

HG: [人工生成数据集] 由人类创建的数据集
SI: [自指令] 使用自指令 (Self-Instruct) 方法生成的数据集
MIX: [混合数据集] 包含人工和机器生成数据的数据集
COL: [数据集集合] 由其他数据集集合而成的数据集

统计信息

项目	数据集	组织	数量	语言	任务	生成	类型	来源	链接
思维链 (Chain of Thought)	cot_data \|few_shot_data	Google	74771	EN/CN	MT	HG	使用思维链 (CoT) 推理的指令	在现有数据上标注 CoT	下载
GPT4all	nomic-ai/gpt4all-j-prompt-generations	nomic-ai	806199	EN	MT	COL	代码、故事和对话	从 GPT-3.5-turbo 蒸馏	下载
GPTeacher	GPT-4 General-Instruct \|Roleplay-Instruct \|Code-Instruct \| Toolformer	teknium1	29013	EN	MT	SI	通用、角色扮演、Toolformer	GPT-4 & Toolformer	下载
Guanaco	JosephusCheung/GuanacoDataset	JosephusCheung	534610	ML	MT	SI	各种语言任务	text-davinci-003	下载
HC3	Hello-SimpleAI/HC3	Hello-SimpleAI \| 万得资讯	37175	EN/CN	TS	MIX	对话评估	人类或 ChatGPT	下载
HC3-Chinese	Hello-SimpleAI/HC3-Chinese	Hello-SimpleAI\|万得资讯	13k	CN	TS	MIX	对话评估	人类或 ChatGPT
alpaca	tatsu-lab/alpaca	tatsu-lab	52002	EN	MT	SI	通用指令	text-davinci-003	下载
AlpacaDataCleaned	yahma/alpaca-cleaned	yahma	52k	EN	MT	SI	通用指令	text-davinci-003	下载
Chinese-LLaMA-Alpaca	alpaca_data_zh_51k	ymcui(讯飞)	51k	CN	MT	SI	通用指令	text-davinci-003
Luotuo-Chinese-LLM 骆驼	trans_chinese_alpaca_data	LC1332(商汤)	52k	CN	MT	SI	通用指令	text-davinci-003
Natural Instructions	Allen AI 61 task\|1.5k task	Allen AI	5040134	ML	MT	COL	多样的自然语言处理 (NLP) 任务	人工标注数据集集合	下载
belle_cn	BelleGroup/train_1M_CN \|BelleGroup/train_0.5M_CN	BelleGroup(链家)	1079517	CN	TS/MT	SI	通用、数学推理、对话	text-davinci-003	下载
instinwild	instinwild_ch \| instinwild_en		52191	EN/CN	MT	SI	生成、开放问答 (QA)、头脑风暴	text-davinci-003	下载
华驼 (HuaTuo)	中文医学知识 \|肝癌	SCIR-HI(哈工大)	8K	CN	TS	SI	公开和自建的中文医学知识库	GPT-3.5
prosocial dialog	allenai/prosocial-dialog	allenai	165681	EN	TS	MIX	对话	GPT-3 重写问题 + 人工反馈手动	下载
finance_en	gbharti/finance-alpaca		68912	EN	TS	COL	金融相关问答	GPT-3.5	下载
xP3	bigscience/xP3	bigscience	78883588	ML	MT	COL	涵盖 46 种语言和 16 个自然语言处理 (NLP) 任务的提示与数据集集合	人工标注数据集集合	下载
firefly	YeungNLP/firefly-train-1.1M		1649398	CN	MT	COL	23 个自然语言处理 (NLP) 任务	人工标注数据集集合	下载
instruct	swype/instruct		888969	EN	MT	COL	GPT4All, Alpaca、开源 Meta 数据集的增强版	使用 AllenAI 提供的先进自然语言处理 (NLP) 工具进行增强	下载
Code Alpaca	sahil280114/codealpaca		20022	EN	TS	SI	代码生成、编辑、优化	text-davinci-003	下载
Alpaca_GPT4	alpaca_gpt4_data\|alpaca_gpt4_data_zh \|comparison_data_v2	微软	52002	EN/CN	MT	SI	通用指令	使用 Alpaca 由 GPT-4 生成	下载
webGPT	openai/webgpt_comparisons	openai	18994	EN	TS	MIX	信息检索 (IR) 问答	微调后的 GPT-3，每条指令有两个输出，选择更好的一个	下载
dolly 2.0	databricks/databricks-dolly-15k	databricks	15015	EN	TS	HG	封闭问答、摘要等，以维基百科为参考	人工标注	下载
mosaicml/llm-foundry	mosaicml/dolly_hhrlhf	mosaicml	59.3K	EN	TS	HG	该数据集是 Databrick's dolly-15k 数据集和 Anthropic's HH-RLHF 过滤子集的组合。	人工标注
baize 白泽	alpaca_chat_data.json \|medical_chat_data.json \| quora_chat_data.json \|stackoverflow_chat_data.json	project-baize	653699	EN	MT	COL	来自 Alpaca、Quora、StackOverflow 和 MedQuAD 问题的集合	人工标注数据集集合	下载
hh-rlhf	Anthropic/hh-rlhf	Anthropic	284517	EN	TS	MIX	对话	人类与 RLHF 模型之间的对话	下载
OIG(part)	laion/OIG	laion	49237	EN	MT	COL	源自各种任务，例如问答	使用数据增强，人工标注数据集集合	下载
GAOKAO	Fill-in-the-blank_Questions \| Multiple-choice_Questions \| Open-ended_Questions	OpenLMLab	2785	CN	MT	COL	考试中的选择题、填空题和开放式问题	人工 annotated	下载
camel \| 骆驼	camel-ai/code\|camel-ai/biology \|camel-ai/physics \|camel-ai/chemistry \|camel-ai/math	camel-ai	760620	EN	MT	SI	AI 社会、代码、数学、物理、化学、生物领域的角色扮演对话	gpt-3.5-turbo	下载
FLAN-Muffin	Muennighoff/flan		1764800	EN	MT	COL	60 个自然语言处理 (NLP) 任务	人工标注数据集集合	下载
COIG	COIG	BAAI\|智源	298428	CN	MT	COL	收集自考试、翻译、人类价值对齐指令和反事实修正多轮对话	使用自动工具和人工验证	下载
GPT4Tools	gpt4tools_71k.json	StevenGrove	71446	EN	MT	SI	一系列工具相关指令	gpt-3.5-turbo	下载
ShareChat	RyokoAI/ShareGPT52K	RyokoAI	1663241	EN	MT	MIX	通用指令	众包收集人与 ChatGPT 之间的对话 (ShareGPT)	下载
Auto CoT	kojima-takeshi188/zero_shot_cot/dataset \|kojima-takeshi188/zero_shot_cot/log	amazon-science		EN					下载
MOSS（复旦 Moss）	fnlp/moss-002-sft-data\| moss-003-sft-data	fnlp	1583595	EN/CN	SI				下载
ultrachat	stingning/ultrachat	thnlp	28247446	EN					下载
StackLLaMA	lvwerra/stack-exchange-paired		todo	EN		HG
Self-Instruct	yizhongw/self-instruct		82 K	EN	SI	SI
Zhihu-KOL	Zhihu-KOL	Openassisent	100 w		SI	HG	用于训练 Open Assistant 的知乎数据
stanfordnlp/SHP	stanfordnlp/SHP	stanfordnlp	385 k	EN	MT	HG		对回复的人类偏好
LAION-AI/Open-Assistant	OpenAssistant/oasst1	Openassisent	84.4k	EN	MT	HG	OpenAssistant 对话数据集 (OASST1)	人类生成，人工标注
akoksal/LongForm	akoksal/LongForm	akoksal/LongForm	30k	EN	SI	HG		从现有语料库（如 C4 和维基百科）中选择一组多样化的人工文档，并通过大语言模型 (LLM) 为给定文档生成指令。
sail-sg/symbolic-instruction-tuning	sail/symbolic-instruction-tuning	sail-sg	800K	ML	SI			人类合成示例
医疗问答 michael-wzhu/PromptCBLUE	michaelwzhu/ChatMed_Consult_Dataset	michael-wzhu	110113	CN	SI			互联网上的医疗问诊问题 (110,113)，反映了真实世界的不同用户/患者的医疗问诊需求。目前 response 都是由 OpenAI `GPT-3.5`引擎回答的。
mbzuai-nlp/LaMini-LM	MBZUAI/LaMini-instruction	MBZUAI/LaMini-instruction	2.58M	EN	MT	SI		通过离线蒸馏从大型语言模型中提取知识
pCLUE	pCLUE		120 万
WizardLM	victor123/evol_instruct_70k	WizardLM	70k	EN	MT

RLHF（人类反馈强化学习）数据集

统计信息

Project	Links	Org	Nums	Lang	Summary
webgpt_comparisons		Openai	19,578	英语	在 WebGPT 论文中，作者从人类反馈中训练了一个奖励模型（Reward Model）。他们使用该奖励模型训练了一个长文本回答问答模型，以与人类偏好对齐。这是 WebGPT 项目结束时标记为适合奖励建模的所有比较的集合。总共有 19,578 个比较样本。
SHP		stanfordnlp	349 K	英语	SHP 是一个包含 38.5 万个集体人类偏好的数据集，涉及 18 个不同主题领域（从烹饪到法律咨询）的问题/指令的回答。这些偏好旨在反映一个回答相对于另一个回答的帮助程度，并用于训练 RLHF 奖励模型和自然语言生成（NLG）评估模型（例如：SteamSHP）。
rlhf-reward-datasets		yitingxie	76.3 k	英语
Dahoas/full-hh-rlhf		Dahoas	112 k	英语	将 Anthropic 的 HH 数据集重新格式化为提示词（Prompt）、被选择（Chosen）、被拒绝（Rejected）样本。
Dahoas/synthetic-instruct-gptj-pairwise		Dahoas		英语
Dahoas/rm-static		Dahoas	76.3k	英语	hh-static 的划分版本，用于监督微调（Supervised Fine-tuning）后训练奖励模型。
Anthropic/hh-rlhf		Anthropic	22k	英语	此 RLHF 数据集是一个迭代的“在线”数据集，包含来自 520 亿参数语言模型的数据。它包含 2.2 万个帮助性比较数据，且不含红队测试（Red-teaming）数据。
Instruction-Tuning-with-GPT-4/GPT-4-LLM		Instruction-Tuning-with-GPT-4	52k	英语	对三个模型（GPT-4、GPT-3.5 和 OPT-IML）生成的 Alpaca 提示词响应进行排名（注意：数据由 `GPT-4` 模型评估，而非人工）。通过要求 GPT-4 对质量进行评分来实现。作者认为"GPT-4 能够识别并修正自己的错误，并能准确判断响应的质量”。
thu-coai/Safety-Prompts	thu-coai/Safety-Prompts	thu-coai	100k	中文	中文安全提示词（Prompts），用于评估和提升大模型的安全性，使模型输出与人类价值观对齐。
Chatgpt-Comparison-Detection project	Hello-SimpleAI/HC3		24.3K	英语	人类 ChatGPT 对比语料库，针对约 2.4 万个问题，包含 6 万个人类回答和 2.7 万个 ChatGPT 回答。

Open ChatLLMs

发布时间	模型名称	基座	模型规模	数据集	实例数量	语言
2022-12	GPT-3 Self Inst.	GPT-3	175B	Self-Instruct	82 k	英文
2023-03-03	alpaca	LLaMA	7B	alpaca_data	52 k	英文
2023-03-19	alpaca-lora	LLaMA	7B 13B 30B	alpaca_data、alpaca_data_cleaned	52 k	英文
2023-03-23	Chinese-Vicuna	LLaMA	7B 13B	BELLE、GuanacoDataset	1M	中文
2023-03-24	Alpaca-CoT	LLaMA	7B	dataset	----	英文中文
2023-03-25	dolly	dolly	6B	alpaca_data	52 k	英文
2023-03-25	guanaco	LLaMA	7B	GuanacoDataset	534 k	英文中文日文德文
2023-03-28	Chinese-LLaMA-Alpaca	LLaMA	7B	alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、Self-Instruct	2M	中文
2023-03-29	ColossalChat	LLaMA	7B 13B	InstructionWild	104 k	英文中文
2023-03-31	Luotuo	LLaMA ChatGLM	7B 6B	trans_chinese_alpaca_data	52k	中文
2023-03-31	cerebras-lora-alpaca	Cerebras-GPT	2.7B	AlpacaDataCleaned	52k	英文

模板

将新项目追加到文件末尾


[{Project-name}/{Dataset-name}]{https://github.com/link/to/project}

- [paper/project link](link)
- [dataset link](link)
- Related work: (if applicable)

Some introductions ...

提示词数据集列表

Alpaca -Stanford

论文/项目链接
数据集链接
数据生成模型：text-davinci-003
成本：$600

斯坦福发布的 Alpaca 是一个基于 Meta AI LLaMA 模型的用于指令微调 (instruct-tuning) 的微调 (fine-tuning) 模型。

Alpaca 使用 GPT-3.5 自动生成了 52k 条指令数据，并用于微调 LLaMA 模型。实验结果表明，它在某些任务上可以达到甚至超越 GPT-3.5 的性能。

Instruction in the Wild

论文/项目链接
数据集链接
数据生成模型：text-davinci-003

指令微调 (Instruction Tuning) 是 ChatGPT 的关键组成部分。OpenAI 使用了他们基于用户的指令数据集，但不幸的是，该数据集并未开源。Self-Instruct 发布了一个小型指令数据集，包含由人工编写的 175 条指令。斯坦福 Alpaca 团队基于上述 175 条种子指令 (seed instructions)，通过 text-davinci-003 模型生成了 52K 条指令。

本项目旨在构建一个更大且更多样化的指令数据集。为此，我们从 ChatGPT 的使用截图中收集了 429 条指令，并发布了中英文版本。我们发现这些指令非常多样化，尽管规模仍然较小。我们遵循 Alpaca 的方法生成了 52K 条指令及其回复。所有数据均可在 data 目录中找到。

注意：这是一个进行中的项目。我们仍在收集和整理我们的数据。我们尽早发布此数据集以加速我们的 LLM (大型语言模型) 研究。我们也将在不久后发布一份白皮书。

JosephusCheung/GuanacoDataset

数据生成模型：text-davinci-003
成本：$6000

52K 条指令数据是通过修改后的 self-instruct 流程生成的，包含人工编写的 429 个种子任务。

斯坦福人类偏好数据集 (SHP)

数据链接

SHP 是一个包含 38.5 万条关于 18 个不同主题领域（从烹饪到法律咨询）的问题/指令回复的集体人类偏好数据集。这些偏好旨在反映一个回复相较于另一个回复的帮助程度，并 intended to be used for training RLHF（人类反馈强化学习）奖励模型和 NLG（自然语言生成）评估模型 (e.g., SteamSHP)。

每个示例都是一个 Reddit 帖子，包含一个问题/指令以及该帖子的两个顶级评论，其中一条评论被 Reddit 用户（集体）更偏好。SHP 利用了这样一个事实：如果评论 A 是在评论 B 之后撰写的，但仍然拥有更高的得分，那么 A 显然比 B 更受偏好。如果 A 是在 B 之前撰写的，我们就不能得出这个结论，因为其较高的得分可能是由于可见性更高所致。我们选择的数据中，偏好标签旨在反映哪个回复更有用，而不是哪个危害更小，后者是许多过去工作的重点。

SHP 与 Anthropic 的 HH-RLHF 数据集有何不同？最显著的是，SHP 中的所有数据都是自然发生且由人类编写的，而 HH-RLHF 中的回复是由机器编写的，这为我们提供了两种可以互补的不同分布。

Hello-SimpleAI/HC3

摘要：首个真人 -ChatGPT 对比语料库（英文版），名为 HC3 数据集
数据生成模型：gpt-3.5, human generated
论文：How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
成本：无

Hello-SimpleAI/HC3-Chinese

摘要：首个真人 -ChatGPT 对比语料库（中文版），名为 HC3 数据集
数据生成模型：gpt-3.5, human generated
论文：How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
成本：无

allenai/prosocial-dialog

摘要：ProsocialDialog 是首个大规模多轮英语对话数据集，旨在教导对话代理（Conversational Agents）根据社会规范对问题内容进行回应。
数据生成模型：gpt-3.5, human generated
论文：ProsocialDialog: A Prosocial Backbone for Conversational Agents
成本：无

allenai/natural-instructions

摘要：一项社区努力，旨在创建大量 1,616 个多样化的 NLP（自然语言处理）任务 及其自然语言定义/指令。
数据生成模型：Human generated
论文：Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
成本：无

PhoebusSi/Alpaca-CoT

摘要：一个基于 LLaMA 和 Alpaca 的 Chain-of-Thoughts（思维链）推理数据集。注意：他们的仓库将持续收集各种指令微调（Instruction Tuning）数据集。Github Repo
论文：无
成本：无

nomic-ai/gpt4all

摘要：gpt4all 利用三个公开可用的数据集：1.laion/OIG, 2.pacovaldez/stackoverflow-questions 3. bigscience/bloomz-p3 的子集
数据生成模型：无
论文：GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo
成本：$500

bigscience/xP3

摘要：[提示词资源（Prompt-resource）] xP3（跨语言公共提示池）是一个涵盖 46 种语言和 16 个 NLP 任务的提示词 & 数据集集合。
数据生成模型：无
论文：Crosslingual Generalization through Multitask Finetuning
成本：无

teknium1/GPTeacher

摘要：一组由 GPT-4 生成的模块化数据集集合，包括 General-Instruct、Roleplay-Instruct、Code-Instruct 和 Toolformer
数据生成模型：GPT-4
论文：无
成本：无

thunlp/UltraChat

摘要：UltraChat 旨在构建一个开源、大规模、多轮的对话数据。UltraChat 的第一部分（即“关于世界的问题”板块）已发布，包含 28 万个多样且信息丰富的对话。更多关于写作和创作、现有材料协助的对话即将推出。
数据生成模型：GPT-3.5-turbo
论文：无
成本：无

cascip/ChatAlpaca

摘要：基于 Stanford Alpaca 数据，ChatAlpaca 将数据扩展到多轮指令及其相应的回复。更多数据（2 万条）及中文翻译版即将推出。
数据生成模型：GPT-3.5-turbo
论文：无
成本：无
相关：(tatsu-lab/Alpaca)|52K|EN|MT|SI

YeungNLP/firefly-train-1.1M)

摘要：结合人工编写指令模板的 23 个任务的中文数据集。
数据生成模型：无
论文：无
成本：无

orhonovich/unnatural-instructions

摘要：通过向语言模型提供三条指令种子示例并诱导出第四条，生成 6.4 万条示例。然后通过提示模型重写每条指令，将集合扩展至 24 万条。
数据生成模型：text-davinci-002
论文：Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor
成本：无

Instruction-Tuning-with-GPT-4/GPT-4-LLM

摘要：5.2 万条由 GPT-4 生成的指令跟随（Instruction-following）数据，使用原始 Alpaca 提示词及 ChatGPT 翻译成中文的 Alpaca 提示词 + 9 千条由 GPT-4 使用 Unnatural Instruction 中的提示词生成的指令跟随数据。
数据生成模型：GPT-4
论文：Instruction Tuning with GPT-4
成本：无
相关： -(tatsu-lab/Alpaca)|52K|EN|MT|SI -(orhonovich/unnatural-instructions)|240K|EN|MT|MIX

databrickslabs/dolly

简介：该数据集由数千名 Databricks 员工生成，涵盖了 InstructGPT 论文中概述的几种行为类别，包括头脑风暴、分类、封闭式问答、生成、信息提取、开放式问答和摘要。
数据生成模型：N/A
论文：Free Dolly
成本：N/A

OpenAssistant/oasst1

简介：OpenAssistant 对话（OASST1），一个由人类生成、人工标注的助手风格对话语料库，包含 161,443 条消息，分布在 66,497 个对话树中，涵盖 35 种不同语言，并标注了 461,292 个质量评分。
数据生成模型：N/A
论文：OpenAssistant Conversations - Democratizing Large Language Model Alignment
成本：N/A

BELLE/data/1.5M

下载地址：https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
数据量：1.5M
生成方式：self-instruct，使用了中文种子任务，以及 openai 的 text-davinci-003 接口
涉及任务：包含 175 个种子任务，https://github.com/LianjiaTech/BELLE/blob/main/data/1.5M/zh_seed_tasks.json
数据示例：https://huggingface.co/datasets

alpaca_chinese_dataset

下载地址：https://github.com/hikariming/alpaca_chinese_dataset
数据量：52k
生成方式：借助 chatgpt 对原始的 stanford_alpaca 做机器翻译，并加入人工校验来保证质量
涉及任务：与原始的 stanford_alpaca 一致，可以在原项目的 seed_task.json 中查到全部任务

Med-ChatGLM/data

下载地址：https://github.com/SCIR-HI/Med-ChatGLM
数据量：7k
生成方式：利用 GPT3.5 接口围绕医学知识库构建问答数据，并设置了多种 Prompt 形式来充分利用知识
涉及任务：医学领域相关的问答，包含并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗

pCLUE

下载地址：https://github.com/CLUEbenchmark/pCLUE
数据量：1.2M
生成方式：通过原有的 NLP 任务数据集，结合特定的 prompt 模板生成
涉及任务：包含 9 个 NLP 数据集，涉及的 NLP 任务有文本分类/自然语言推理/语义匹配/指代消解/关键词识别/阅读理解

COIG

下载地址：https://huggingface.co/datasets/BAAI/COIG
数据量：
- Translated Instructions (67,798)
- Exam Instructions (63,532)
- Human Value Alignment Instructions (34,471)
- Counterfactural Correction Multi-round Chat (13,653)
- Leetcode Instructions (11,737)
生成方式：融合了多个领域的数据，具体可以参考论文 Chinese Open Instruction Generalist: A Preliminary Release

https://github.com/FreedomIntelligence/InstructionZoo

https://github.com/lightaime/camel

RLHF 数据集列表 (Reinforcement Learning from Human Feedback)

Anthropic/hh-rlhf

简介：此 RLHF 数据集是一个迭代的“在线”数据集，包含来自 52B 语言模型的数据。它包含 22k 有用性比较和无红队测试数据。
数据生成模型：Anthropic RL-CAI 52B
论文：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
成本：N/A

HuggingFaceH4/stack-exchange-preferences

简介：此数据集包含来自 Stack Overflow 数据转储的问题和答案，用于偏好模型训练。
数据生成模型：N/A
论文：A General Language Assistant as a Laboratory for Alignment
成本：N/A

stanfordnlp/SHP

简介：每个示例都是一个带有问题/指令的 Reddit 帖子及其一对顶级评论，其中一条评论更受 Reddit 用户（集体）青睐。
数据生成模型：N/A
论文：N/A
成本：N/A

Instruction-Tuning-with-GPT-4/GPT-4-LLM

简介：排名响应（注意：数据由 GPT-4 模型评估而非人类）的 Alpaca 提示词来自三个模型（GPT-4, GPT-3.5 和 OPT-IML），通过要求 GPT-4 评估质量。作者认为"GPT-4 能够识别并修复自己的错误，并能准确判断响应的质量”。
数据生成模型：GPT-4
论文：Instruction Tuning with GPT-4
成本：N/A
相关： -(tatsu-lab/Alpaca)|52K|EN|MT|SI

Natural Instruction / Super-Natural Instruction

Allen AI 是第一个尝试将指令作为提示词并微调大语言模型（LLM）的组织。在 Natural Instruction 论文中，你可以基本理解指令的标注思路。

在其提出的数据集中，包含了 61 种不同的 NLP 任务。

Super-Natural Instruction 是 Natural Instruction 的超密集版本，包含超过 1,600 种不同的 NLP 任务，并且有超过 76 种不同类型的 NLP 任务（例如：分类、提取、序列标注）。

BigScience/P3

BigScience 由 Hugging Face 和法国国家科学研究中心 (CNRS)、IDRIS、GENCI 等联合组织。它是最大的开源大语言模型组织之一。

BigScience 于 2021 年底开发了 PromptSource 项目，并开源了一系列工具包以帮助研究人员基于现有的 NLP 任务构建提示词。到目前为止，PromptSource 项目包含针对 270 个 NLP 任务的 2000 多个提示模板。

在此基础上，BigScience 构建了 P3 数据集。你可以在 Hugging Face Hub 上找到 P3 数据，P3 的数据规模在 100M-1B 之间。

xMTF - BigScience

基于英文提示词（Prompt），BigScience 将其提示词扩展到了多种非英语语言。

该项目包含 13 个自然语言处理（NLP）任务，并支持 46 种不同的语言。对应的提示词包含不定数量的语言。

在基于多语言的基础上进行微调（fine-tuning）后，BLOOM 和 T0 都实现了理想的跨语言能力。

HH-RLHF - Anthropic

Anthropic 旗下的 Claude 是 ChatGPT 的主要竞争对手之一。

Anthropic 开源了其在自家产品线中使用的 RLHF（基于人类反馈的强化学习）数据集。

HH-RLHF 项目的初衷是训练有益且无害（Helpful and Harmless, HH）的大语言模型（LLM）。因此，除了项目回复的质量外，是否包含有害信息也体现在其人类反馈中。

该论文记录了如何利用 RLHF 数据的行为来使模型与人类价值观对齐，并记录了数据集的构建方法和标准。

Unnatural Instruction

使用 LLM 独立生成指令数据是指令微调（instruction-tuning）领域的活跃方向。

Unnatural Instruction 使用 GPT3 (text-davinci-002) 生成 64k 指令提示词数据。并使用同一模型重写这 64k 提示词，最终获得 240k 指令数据。

论文表明，Instruct-Tuning 中由 LLM 生成的提示词表现良好，甚至超越了在 P3 等数据上微调的 T0 等模型。

Self-Instruct

Self-Instruct 也是利用 LLM 为指令微调生成提示词的想法。不过，它使用了更细粒度的生成过程。

引入了任务池（Task pool）和质量过滤（Quality filtering）等概念，以部分缓解自指类型数据的噪声问题。

UnifiedSKG - HKU

UnifiedSKG 在文本到文本（Text-to-Text）框架中增加了知识定位（knowledge grounding），即在提示词 - 输出（prompt-output）框架中，增加了结构化数据作为辅助。

例如，一些 NLP 任务严重依赖结构化知识库/数据库。UnifiedSKG 的思路是将所需的数据库序列化并嵌入到提示词中。如下图所示。

UnifiedSKG 代表了 LLM 领域的一个方向，试图利用结构化知识来提升性能。

Google/Flan Collection

在此项目中，Google 将其自身的 Flan 2021 数据与一些开源指令数据（P3, super-natural instruction 等）合并。

在 Flan Collection 的论文中，Google 还总结了 Flan 系列模型训练/推理的一些关键点，可能具有良好的参考价值。

Flan Collection 将来自 Flan 2021、P3、Super-Natural Instructions 以及数十个其他数据集编译到一个地方，并将它们格式化为零样本（zero-shot）、少样本（few-shot）和思维链（chain-of-thought）模板的混合体。

InstructDial

InstructDial 尝试在特定任务类型上进行指令微调。实验结果表明，在对话指令数据上微调后，模型在对话任务上的表现优于非常大的任务集。

ChatGPT Distillation Data

公共用户共享对话（ShareGPT）：使用公共 API 收集了 ShareGPT 上用户分享的约 60K 个对话。为了保持数据质量，我们在用户查询级别进行了去重，并移除了任何非英语对话。这留下了大约 30K 个示例。

人类 ChatGPT 对比语料库（HC3）：我们使用了 HC3 英文数据集中的人类和 ChatGPT 回答，其中包含约 60K 个人类回答和 27K 个 ChatGPT 回答，针对约 24K 个问题，总共约有 87K 个问题 - 回答示例。

Open Instruction Generalist (OIG).

我们使用了 LAION 整理的开放指令通用数据集的手动选择组件子集。具体来说，我们使用了小学数学指令、诗歌转歌曲、以及剧情剧本书籍对话数据集。这总共产生了约 30k 个示例。

OpenAI WebGPT.

在 WebGPT 论文中，作者从人类反馈中训练了一个奖励模型。他们使用该奖励模型训练了一个长文问答模型，以符合人类偏好。这是 WebGPT 项目结束时标记为适合奖励建模的所有比较数据集。总共有 19,578 个比较。

数据集中的每个示例包含一个问题的两个模型答案及其关联的元数据。每个答案都有人类的偏好评分，可用于确定哪个答案更好。

OpenAI Summarization.

OpenAI 摘要数据集包含约 93K 个示例，每个示例由人类对模型生成的摘要的反馈组成。人类评估者从两个选项中选择了更好的摘要。

无许可信息的数据集

alespalla/chatbot_instruction_prompts

总结：tatsu-lab/alpaca ,Dahoas/instruct-human-assistant-prompt ,allenai/prosocial-dialog 的汇编
数据生成模型：N/A
论文：N/A
成本：N/A

贡献

我们的目标是让这个仓库变得更好。如果您有兴趣贡献，请参见此处获取贡献说明。

许可证

Awesome-Prompt-Dataset 根据 Apache 2.0 许可证发布。

参考资料

Awesome Instruction Datasets 快速上手指南

简介

awesome-instruction-datasets 是一个高质量开源指令微调数据集的集合库，旨在帮助研究人员和开发者快速访问和利用用于训练 ChatGPT、LLaMA、Alpaca 等基于对话的大语言模型（LLM）的数据资源。本指南将指导您如何获取该资源列表并加载其中的数据集。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / Windows / macOS
Python 版本：>= 3.8

核心依赖库：

pip install transformers datasets torch accelerate

Git 工具：用于克隆仓库

安装步骤

由于本项目为数据集索引仓库，主要操作是克隆代码库并配置数据下载源。

1. 克隆仓库

git clone https://github.com/yaodongC/awesome-instruction-dataset.git
cd awesome-instruction-dataset

2. 配置国内镜像加速（推荐）

为了加快 HuggingFace 数据集的下载速度，建议在运行前设置环境变量指向国内镜像。

export HF_ENDPOINT=https://hf-mirror.com
# 或者使用 ModelScope
# export HF_ENDPOINT=https://modelscope.cn/api/v1/staging/hub

3. 验证环境

确保 datasets 库已正确安装并可联网访问：

import datasets
print(datasets.__version__)

基本使用

1. 浏览数据集列表

打开项目根目录下的 README.md 文件，查看分类标签：

Lang Tags: EN (英文), CN (中文), ML (多语言)
Task Tags: MT (多任务), TS (特定任务)
Gen Tags: HG (人工生成), SI (自指令生成), MIX (混合)

例如，表格中列出了 BelleGroup/train_1M_CN 或 yahma/alpaca-cleaned 等具体数据集名称。

2. 加载并使用数据集

您可以直接使用 HuggingFace datasets 库加载列表中推荐的任意数据集。以下以加载清洗后的 Alpaca 数据集为例：

from datasets import load_dataset

# 加载示例数据集
dataset = load_dataset("yahma/alpaca-cleaned")

# 查看数据格式
print(dataset['train'][0])

# 转换为适合训练的格式
data = dataset['train'].shuffle().select(range(100))

3. 结合训练框架

加载数据后，可将其传入 LoRA、LLaMA-Factory 或其他微调框架进行模型训练。具体参数需参考各数据集对应的原始论文或官方文档。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架