awesome-instruction-dataset

GitHub
1.1k 56 非常简单 1 次阅读 2周前语言模型数据工具开发框架
AI 解读 由 AI 自动生成,仅供参考

awesome-instruction-dataset 是一个专为训练指令跟随型大语言模型(如 ChatGPT、LLaMA、Alpaca)而整理的开源数据集合集。它致力于解决开发者在微调模型时面临的数据分散、格式不一及获取困难等痛点,提供了一站式的资源索引。

该资源库主要面向 AI 研究人员和大模型开发者,帮助他们快速找到适合特定任务的高质量数据。其核心亮点在于分类清晰且覆盖全面:不仅包含纯文本指令数据,还收录了视觉 - 语言多模态指令数据(如图像问答),以及用于红队测试和人类反馈强化学习(RLHF)的关键数据集。此外,每个数据集都详细标注了语言类型(支持中、英及多语言)、任务范围(通用或多任务)、数据来源(人工生成、自指令生成或混合数据)以及样本规模。

无论是希望构建多模态对话系统,还是专注于提升模型在特定领域的指令理解能力,用户都能在此找到经过筛选的优质资源。通过整合来自 Alpaca、LLaVA、GPT-4-LLM 等多个知名项目的数据集,awesome-instruction-dataset 极大地降低了大模型微调的门槛,加速了从研究到应用的转化过程。

使用场景

某初创团队希望基于 LLaMA 架构构建一个支持中英双语的垂直领域医疗咨询助手,但面临高质量训练数据匮乏的难题。

没有 awesome-instruction-dataset 时

  • 数据搜集耗时极长:团队成员需手动在 GitHub、Hugging Face 等平台分散搜索,难以区分哪些数据集包含中文或特定医疗任务,效率低下。
  • 数据质量参差不齐:缺乏统一标准,容易混入未经清洗的噪声数据或未标注来源的机器生成内容,导致模型出现“幻觉”或回答不专业。
  • 多模态能力缺失:若想增加“看片诊断”功能,很难快速找到像 LLaVA 或 MiniGPT-4 那样成熟的图文指令对数据集,被迫放弃多模态研发。
  • 合规与安全风险高:缺少专门的 RLHF(人类反馈强化学习)和红队测试数据集,模型可能输出有害建议,无法满足医疗行业的严谨性要求。

使用 awesome-instruction-dataset 后

  • 一站式精准获取:直接通过标签筛选出"CN(中文)”、"MT(多任务)”及"HG(人工生成)”的数据集(如 Firefly 或 HC3-Chinese),半天内即可凑齐千万级高质量语料。
  • 结构化分类清晰:利用其明确的生成方法标签(SI/MIX/HG),团队能快速组合出自指令数据与人工校验数据,显著提升了模型在复杂问诊中的逻辑稳定性。
  • 多模态快速集成:直接调用列表中集成的视觉指令数据集,顺利将图像识别能力融入模型,实现了上传检查单即可解读的功能。
  • 安全对齐有保障:引入专门的 prosocial-dialog 和红队测试数据集进行微调,有效抑制了模型的错误医疗建议,大幅降低了上线风险。

awesome-instruction-dataset 通过聚合全球优质的指令微调资源,将原本数周的数据工程压缩至数天,让开发者能专注于模型核心能力的打磨而非数据搬运。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个指令微调数据集的集合列表(Awesome List),本身不包含可执行的代码库或训练脚本,因此没有特定的运行环境、GPU、内存或依赖库要求。用户需根据列表中引用的具体子项目(如 MiniGPT-4, LLaVA, Alpaca 等)的独立文档来配置相应的运行环境。
python未说明
awesome-instruction-dataset hero image

快速开始

令人惊叹的文本/视觉指令微调数据集

一个用于训练基于聊天的(文本和多模态)大型语言模型(如GPT-4、ChatGPT、LLaMA、Alpaca)的开源指令微调数据集合集。 我们目前包含三种类型的数据集:

  1. 视觉指令微调数据集(例如,图像-指令-答案)
  2. 文本指令微调数据集。
  3. 红队测试 | 人类反馈强化学习(RLHF)数据集

指令微调/人类反馈强化学习(RLHF)数据集是像ChatGPT这样的遵循指令的大型语言模型的关键组成部分。这个仓库致力于提供用于各种大型语言模型中指令微调的全面数据集列表,使研究人员和开发者更容易获取和使用这些资源。

用于训练你的大型语言模型的代码库列表:

规模:指令微调对的数量

语言标签:

  • EN:英文指令数据集
  • CN:中文指令数据集
  • ML:[多语言] 多种语言的指令数据集

任务标签:

  • MT:[多任务] 包含多个任务的数据集
  • TS:[特定任务] 针对特定任务定制的数据集

生成方式:

  • HG:[人工生成数据集] 由人类创建的数据集
  • SI:[自我指导] 使用自我指导方法生成的数据集
  • MIX:[混合数据集] 包含人类和机器生成的数据
  • COL:[集合数据集] 由其他数据集集合而成的数据集

目录

  1. 模板
  2. 多模态指令数据集
  3. 指令遵循数据集
  4. 人类反馈强化学习(RLHF)数据集
  5. 允许商业使用的许可

模板

将新项目添加到文件末尾

## [({owner}/{project-name)|标签}]{https://github.com/link/to/project}

- 摘要:
- 数据生成模型:
- 论文:
- 许可证:
- 相关:(如果适用)

多模态指令数据集

(Vision-CAIR/MiniGPT-4)|5K|EN|MT|MIX

(haotian-liu/LLaVA)|150K|EN|MT|MIX

  • 摘要:LLaVA Visual Instruct 150K是一组由GPT生成的多模态指令遵循数据。它专为视觉指令微调以及构建面向GPT-4视觉/语言能力的大规模多模态模型而设计。
  • 模态:文本、图像
  • 数据生成模型:GPT-4-0314
  • 论文:视觉指令微调
  • 许可证:CC BY-NC 4.0

[({sunrainyg}/{InstructCV)|EN|MT|MIX}]{https://github.com/AlaaLab/InstructCV}

  • 摘要:指令微调的文本到图像扩散模型作为视觉通用模型
  • 模态:文本、图像
  • 论文:InstructCV
  • 许可证:CC BY-NC 4.0

指令遵循数据集

(tatsu-lab/Alpaca)|52K|EN|MT|SI

  • 摘要:基于修改后的 self-instruct 流程,结合人工编写的 175 个种子任务 生成的 52K 数据。
  • 数据生成模型:text-davinci-003
  • 论文:alpaca-blog
  • 许可证:CC BY-NC 4.0

(gururise/Cleaned Alpaca)|52K|EN|MT|SI

  • 摘要:一个对 Alpaca 52K 数据集进行手动清洗的项目。
  • 数据生成模型:text-davinci-003
  • 论文:无
  • 许可证:CC BY-NC 4.0

(XueFuzhao/InstructionWild)|52K|EN|CN|MT|SI

  • 摘要:基于修改后的 self-instruct 流程,结合人工编写的 429 个种子任务 生成的 52K 数据。
  • 数据生成模型:text-davinci-003
  • 论文:无
  • 许可证:InstructWild 数据集仅用于非商业研究目的。

(JosephusCheung/GuanacoDataset)|534K|ML|MT|SI

  • 摘要:基于修改后的 self-instruct 流程,结合人工编写的 429 个种子任务 生成的 52K 指令数据。
  • 数据生成模型:text-davinci-003
  • 许可证:GPL-3.0

(Hello-SimpleAI/HC3)|24K|EN|MT|MIX

(Hello-SimpleAI/HC3-Chinese)|13K|CN|MT|MIX

(allenai/prosocial-dialog)|58K|EN|MT|MIX

(allenai/natural-instructions)|1.6K|ML|MT|HG

(bigscience/xP3)|N/A|ML|MT|MIX

(PhoebusSi/Alpaca-CoT)|500k|ML|MT|COL

  • 摘要:一个基于 LLaMA 和 Alpaca 的思维链推理数据集。注意:该仓库将持续收集并整合各种指令调优数据集。GitHub 仓库
  • 论文:无
  • 许可证:Apache License 2.0

(nomic-ai/gpt4all)|437k|EN|MT|COL

(teknium1/GPTeacher)|20k+|EN|MT|SI

  • 摘要:由 GPT-4 生成的一系列模块化数据集,包括 General-Instruct、Roleplay-Instruct、Code-Instruct 和 Toolformer。
  • 数据生成模型:GPT-4
  • 论文:无
  • 许可证:MIT License

(google-research/FLAN)|N/A|EN|MT|MIX

(thunlp/UltraChat)|280k|EN|TS|MIX

  • 摘要:UltraChat 旨在构建一个开源、大规模且多轮的对话数据集。UltraChat 的第一部分(即“关于世界的问题”领域)已发布,包含 28 万条多样且信息丰富的对话。未来还将推出更多关于写作与创作、现有资料辅助等方面的对话。
  • 数据生成模型:GPT-3.5-turbo
  • 论文:无
  • 许可证:CC BY-NC 4.0

(cascip/ChatAlpaca)|10k|EN|MT|MIX

  • 摘要:基于斯坦福Alpaca数据集,ChatAlpaca将数据扩展至多轮指令及其对应响应。更多数据(2万条)及中文翻译版本即将发布。
  • 数据生成模型:GPT-3.5-turbo
  • 论文:无
  • 许可证:Apache License 2.0
  • 相关:(tatsu-lab/Alpaca)|5.2万|英|MT|SI

(YeungNLP/firefly-train-1.1M)|110万|中|MT|COL

  • 摘要:包含23个任务的中文数据集,并结合人工编写的指令模板。
  • 数据生成模型:无
  • 论文:无
  • 许可证:无

(orhonovich/unnatural-instructions)|24万|英|MT|MIX

(Instruction-Tuning-with-GPT-4/GPT-4-LLM)|5.2万|英|中|MT|SI

(databrickslabs/dolly)|1.5万|英|MT|HG

  • 摘要:该数据集由数千名Databricks员工在InstructGPT论文中列出的几类行为场景下生成,包括头脑风暴、分类、封闭式问答、生成、信息抽取、开放式问答和摘要等。
  • 数据生成模型:无
  • 论文:免费Dolly
  • 许可证:CC BY-SA 3.0

(OpenAssistant/oasst1)|16.1万|ML|MT|HG

(RyokoAI/ShareGPT52K)|9万|ML|MT|SI

  • 摘要:通过ShareGPT API抓取的9万条对话,这些对话在API关闭前被收集,包括用户提问以及来自OpenAI ChatGPT的回复。
  • 数据生成模型:GPT-4GPT-3.5
  • 论文:无
  • 许可证:CC0 1.0 Universal

(zjunlp/Mol-Instructions)|204.3万|ML|MT|MIX

基于人类反馈的强化学习(RLHF)| 红队测试数据集

(Anthropic/hh-rlhf)|2.2万|英|MT|MIX

(thu-coai/Safety-Prompts)|10万|中文|机器翻译|混合

  • 摘要:用于评估和提升大语言模型安全性的中文安全提示。该仓库包含10万个中文安全场景提示及ChatGPT的响应,覆盖多种安全场景和指令攻击。可用于全面评估和改进模型安全性,同时增强模型的安全知识,使模型输出更符合人类价值观。
  • 数据生成模型:GPT-3.5
  • 论文:中文大型语言模型的安全性评估
  • 许可证:Apache License 2.0

(HuggingFaceH4/stack-exchange-preferences)|1074.1万|英文|时间序列|Hugging Face

(stanfordnlp/SHP)|38.5万|英文|机器翻译|Hugging Face

  • 摘要:每个样本是一个Reddit帖子,包含一个问题或指令以及该帖子中的两个顶级评论,其中一个评论更受Reddit用户(总体)青睐。
  • 数据生成模型:无
  • 论文:无
  • 许可证:无

(Instruction-Tuning-with-GPT-4/GPT-4-LLM)|5.2万|英文|机器翻译|混合

(Reddit/eli5)|50万|英文|机器翻译|Hugging Face

允许商业使用的许可证

注意:虽然这些许可证允许商业使用,但它们在署名、分发或修改方面可能有不同的要求。在将任何许可证用于商业项目之前,请务必仔细阅读其具体条款。

允许商业使用的许可证:

  1. Apache License 2.0
  2. MIT License
  3. BSD 3-Clause License
  4. BSD 2-Clause License
  5. GNU Lesser General Public License v3.0 (LGPLv3)
  6. GNU Affero General Public License v3.0 (AGPLv3)
  7. Mozilla Public License 2.0 (MPL-2.0)
  8. Eclipse Public License 2.0 (EPL-2.0)
  9. Microsoft Public License (Ms-PL)
  10. Creative Commons Attribution 4.0 International (CC BY 4.0)
  11. Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
  12. zlib License
  13. Boost Software License 1.0

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|4天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

148.6k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|昨天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|3天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|3天前
语言模型图像Agent