llm-datasets

GitHub
4.4k 358 非常简单 1 次阅读 昨天数据工具语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

llm-datasets 是一份精心整理的开源资源清单,专注于为大语言模型(LLM)的后训练阶段提供高质量数据集与相关工具。在大模型开发中,数据质量直接决定模型表现,而构建兼具准确性、多样性和复杂度的数据集往往耗时费力。llm-datasets 通过汇聚经过筛选的通用及垂直领域指令数据集(涵盖数学、代码、多轮对话等),并明确标注许可协议,有效解决了开发者寻找可靠训练数据的难题。

该资源特别适合 AI 研究人员、大模型工程师以及希望微调自有模型的开发团队使用。其核心亮点在于不仅提供了如 Nemotron、smoltalk2 等前沿数据集的详细信息,还明确了构建优质数据的三大标准:事实准确、场景多样以及逻辑复杂。此外,清单强调所有收录资源大多采用宽松许可证(如 Apache 2.0、MIT 等),极大降低了商业应用的法律风险。无论是想要复现先进模型能力,还是为特定领域定制助手,llm-datasets 都能为用户提供坚实的数据基础,助力高效完成监督微调(SFT)工作。

使用场景

某初创团队正试图将开源基座模型微调为专属的金融客服助手,急需高质量指令数据来适配多轮对话与复杂推理场景。

没有 llm-datasets 时

  • 筛选成本极高:工程师需在 Hugging Face 海量仓库中手动大海捞针,难以辨别哪些数据集包含高质量的数学推导或代码单元测试样本。
  • 数据质量失控:因缺乏权威参考,误用了事实性错误或逻辑单一的脏数据,导致模型在回答专业金融问题时频繁产生幻觉。
  • 领域覆盖狭窄:自建数据仅覆盖单一语种和简单问答,模型面对多语言混合输入或复杂多轮交互时表现僵硬,泛化能力极差。
  • 合规风险隐蔽:花费数周整理的数据集最终发现许可证不兼容(如非商用限制),迫使项目推倒重来,严重拖慢上线进度。

使用 llm-datasets 后

  • 精准定位资源:直接查阅 curated 列表,快速锁定如 open-perfectblend 等经过验证的通用数据集,瞬间获得涵盖聊天、代码与数学的优质样本。
  • 质量基准明确:依据列表中对“准确性、多样性、复杂性”的定义,直接采用包含逐步推理痕迹和多语言支持的数据,显著提升模型逻辑能力。
  • 场景覆盖全面:利用列表中推荐的 Nemotron 等多语言大规模数据集,让模型轻松胜任跨国金融咨询与复杂案情分析,不再受限于分布外数据。
  • 授权清晰无忧:所有推荐数据集均明确标注为 Apache 2.0 或 MIT 等宽松协议,团队可放心用于商业产品微调,彻底规避法律隐患。

llm-datasets 通过提供经过严格筛选的后训练数据清单,将团队从繁琐的数据清洗与合规排查中解放出来,使其能专注于核心模型架构的优化。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具(llm-datasets)并非一个需要本地安装运行环境的软件库,而是一个 curated list(精选列表),用于整理和推荐用于大语言模型后训练(Post-training)的数据集资源。用户只需访问提供的 Hugging Face 链接即可获取数据,无需配置特定的 GPU、内存或 Python 依赖环境来运行此列表本身。
python未说明
llm-datasets hero image

快速开始

Image

𝕏 在X上关注我 • 🤗 Hugging Face • 💻 博客 • 📙 大模型工程师手册

后训练阶段的数据集和工具精选列表。


👍 什么是优质的数据集?

数据是大模型开发中最宝贵的资产。在构建高质量数据集时,我们主要关注以下三个特性:

  • 准确性:样本应事实准确,并与对应的指令高度相关。这可能需要使用数学求解器或代码单元测试来验证。
  • 多样性:尽可能覆盖多种使用场景,以确保模型不会遇到分布外的情况。高多样性对于提升模型的泛化能力至关重要。
  • 复杂性:样本应具备多轮对话、多语言支持、高质量的文本表达,并在适当的情况下包含逐步推理过程。

为了确保数据集的质量,必须结合多种技术手段,例如人工审核、基于规则的过滤等启发式方法,以及通过判别型大模型或奖励模型进行打分评估。

📅 指令数据集

当模型已经在下一个词预测任务上完成预训练后,通过监督微调(SFT)可以将其转化为能够回答问题并遵循指令的助手模型。在SFT过程中,模型会学习对话模板,并针对一个或多个领域进行专业化训练。

[!NOTE] 除非另有说明,此处列出的所有数据集均采用宽松许可协议(如Apache 2.0、MIT、CC-BY-4.0等)。

通用类

通用数据集提供了多种类型数据的均衡混合,包括对话、代码和数学等。这些数据集可用于创建能够处理各类查询的通用模型。

数据集 样本数 作者 发布日期 备注
Nemotron-Post-Training-Dataset-v2 634万 英伟达 2025年8月 包含西班牙语、法语、德语、意大利语和日语五种语言的大规模数据集,涵盖数学、代码、通用推理及指令遵循任务。用于训练Nemotron-Nano-9B-v2
smoltalk2 338万 Hugging Face 2025年7月 用于训练带有和不带推理轨迹的SmolLM3模型的数据集。包含OpenThoughts3、Tulu 3以及多语言数据。详情请参阅SmolLM3博客文章
open-perfectblend 142万 Xu等人、Labonne 2024年10月 这篇论文中描述的数据集的开源复现。这是一份坚实的通用指令数据集,包含对话、数学、代码及指令遵循数据。
orca-agentinstruct-1M-v1 105万 微软 2024年11月 AgentInstruct数据集的一个子集(约25个样本),专为Orca-3-Mistral设计,以网络公开的原始文本作为种子数据。
tulu3-sft-mixture 93.9万 AllenAI 2024年11月 (CC-BY-NC-4.0)用于训练Tulu 3的SFT混合数据集。该数据集结合了公开数据和新的合成版本,其中还包括基于角色设定的回答以增强多样性。
FuseChat-Mixture 9.5万 Wan等人 2024年2月 一份全面的训练数据集,涵盖了不同风格和能力,既有真人撰写的内容,也有模型生成的样本。详情请参阅FuseChat论文

数学

大语言模型在数学推理和形式逻辑方面常常表现不佳,因此催生了专门的数据集。这些数据集通常包含系统性思维和逐步推理的内容。

数据集 样本数 作者 发布日期 备注
MegaScience 125万 GAIR-NLP 2025年7月 (CC-BY-NC-SA-4.0) 高质量的跨领域科学数据集,并附有消融实验。论文链接:这里
OpenThoughts3-1.2M 120万 OpenThoughts 2024年6月 混合数据集,包含85万数学、25万代码和10万科学样本,由QwQ-32B标注。
NuminaMath-CoT 85.9万 李佳等 2024年7月 用于赢得首届AI数学奥林匹克竞赛进步奖的数据集。工具集成推理版本请见:这里
AM-Thinking-v1-Distilled (Math) 55.8万 a-m-team 2025年5月 经过验证的数学数据集,由AM-Thinking-v1和Qwen3-235B-A22B提炼而来。论文链接:这里
OmniThought-0528) 36.5万 阿里巴巴-PAI 2025年6月 从DeepSeek-R1和QwQ-32B提炼出的数学、代码和科学样本,附带冗长性和复杂度评分。
Orca-Math 20万 Mitra等 2024年2月 使用GPT4-Turbo生成的小学数学应用题。相关论文请见:Orca-Math论文

代码

代码是大语言模型面临的另一大挑战领域。包含多种编程语言示例的代码数据集被用来微调大语言模型,以提升其理解、生成和分析代码的能力。

数据集 样本数 作者 发布日期 备注
Ling-Coder-SFT 448万 InclusionAI 2025年3月 大规模中英文代码数据集,涵盖20种编程语言及各类主题。技术报告请见:这里
rStar-Coder 100万 微软 2025年5月 大规模竞赛类代码问题数据集,针对LiveCodeBench、HumanEval和MBPP。论文链接:这里
opc-sft-stage2 43.6万 黄等人 2024年11月 OpenCoder第二阶段使用的数据集,基于四个种子数据集。相关论文请见:OpenCoder论文
AM-Thinking-v1-Distilled (Code) 32.4万 a-m-team 2025年5月 经过验证的代码数据集,由AM-Thinking-v1和Qwen3-235B-A22B提炼而来。论文链接:这里
CodeFeedback-Filtered-Instruction 15.7万 郑等人 2024年2月 Magicoder-OSS-Instruct、ShareGPT(Python)、Magicoder-Evol-Instruct和Evol-Instruct-Code的过滤版。
synthetic_tex_to_sql 10万 Gretel.ai 2024年4月 合成文本转SQL样本(约2300万 tokens),覆盖多个领域。

指令遵循

指令遵循是指正确执行用户提示中的约束条件的能力,例如“只写两段”、“用法语作答”等。强大的指令遵循能力是现代大语言模型的必备素质。

数据集 样本数 作者 发布日期 备注
AutoIF-instruct-61k-with-funcs 6.15万 迪奥等人 2024年10月 基于Qwen的AutoIF库,使用这段代码和gpt-4o-mini生成的样本。
ifeval-like-data 5.63万 Argilla 2024年10月 仅使用“过滤后”的子集。样本由Qwen2.5-72B生成,并通过lm-evaluation-harness进行验证。
tulu-3-sft-personas-instruction-following 3万 AllenAI 2024年11月 基于Ge等人,2024年提出的方法论,使用人物角色创建的合成样本。

多语言

从零开始学习新语言是一种预训练任务,但提供多语言指令样本有助于提升目标语言上的性能。

数据集 数量 作者 日期 备注
luth-sft 57万 kurakurai 2025年8月 法语/英语数据集,包含原始数据且标注质量较高。更多详情请参阅技术报告
aya 数据集 20.4万 Singh 等人 2024年2月 由开放科学社区通过 Aya 注释平台整理的多语言指令微调数据集。
M2Lingual 17.5万 ServiceNow AI 2024年6月 覆盖70多种语言和20项自然语言处理任务的数据集,基于 GPT-4 生成,并采用基于任务的分类体系进行引导式演化。更多细节请参阅M2Lingual论文。

代理与函数调用

函数调用使大型语言模型(LLMs)能够根据用户提示推断出参数并执行预定义的函数,而不是生成标准的文本响应。这使得 LLMs 可以无缝集成到外部系统中,执行复杂操作,并提供更准确、更具上下文相关性的响应。

数据集 数量 作者 日期 备注
xlam-function-calling-60k 6万 Salesforce 2024年6月 使用专为函数调用应用生成可验证数据而设计的数据生成流水线创建的样本
FunReason-MT 1.7万 Hao 等人 2025年10月 包含复杂轨迹的多轮函数调用数据集,需要环境-API 图交互及思维链推理。详情请参阅FunReason-MT 论文
hermes-function-calling-v1 1.16万 Nous 2024年8月 汇编了 Hermes 2 Pro 系列模型中使用的结构化输出和函数调用数据。
ToolACE 1.13万 Liu 等人 2024年8月 通过智能体流水线自我进化合成过程,精心筛选出全面的 API 库
APIGen-MT-5k 5千 Salesforce 2025年4月 (CC-BY-NC-4.0)通过模拟智能体与人类互动,并结合经过验证的任务蓝图生成的多轮智能体轨迹。详情请参阅APIGen-MT 论文

真实对话

真实世界的对话为我们提供了关于人们如何自然地与 LLMs 交互的宝贵见解,帮助我们识别最重要的应用场景并理解典型的使用模式。

数据集 数量 作者 日期 备注
WildChat-4.8M 320万 Allen AI 2025年8月 人类用户与 ChatGPT 之间的无有害内容对话,经 OpenAI 审核 API 过滤。详情请参阅WildChat 论文
lmsys-chat-1m 100万 LMSYS 2023年9月 来自 25 种 LLM 的真实对话,收集于 2023 年 4 月至 8 月期间 Vicuna 演示版和 Chatbot Arena 网站上的 21 万个唯一 IP 地址。
arena-human-preference-100k 11万 LMSYS 2025年2月 2024 年 6 月至 8 月间在 Chatbot Arena 上收集的人类偏好评估数据。用于Arena Explorer进行对话分析和分类,包含预先计算好的嵌入向量。

⚖️ 偏好数据集

与指令数据不同,偏好数据集由被选择和被拒绝的回答组成。偏好对齐用于使大语言模型的回答符合人类偏好,从而采用期望的风格和价值观。

数据集 样本数 作者 发布日期 备注
Skywork-Reward-Preference-80K-v0.2 77k Skywork 2024 该偏好对子数据集来源于HelpSteer2、OffsetBias、WildGuard和Magpie等公开资源。
ultrafeedback-binarized-preferences-cleaned 61.1k Argilla 2023 这是UltraChat数据集的去污版本,由GPT-4打分后将其二值化为“被选择”和“被拒绝”的回答。
Infinity-Preference 59k BAAI 2024年9月 使用Infinity-Instruct的标注系统,按任务调整偏好属性权重。每条指令都配有一对来自Gemma-2-9B-IT的偏好样本。
Code-Preference-Pairs 53k Vezora 2024年7月 代码示例对子,其中被选择的样本正确,而被拒绝的样本包含错误。
orpo-dpo-mix-40k 44k Argilla, Labonne 2024年5月 结合了以下高质量的DPO数据集,大部分来自Argilla。
HelpSteer3 40.5k Wang et al. 2024年10月 多属性助益性数据集,包含40,476个偏好样本和40,821个反馈样本,涵盖通用、STEM、代码及多语言领域(共14种语言)。详见HelpSteer3论文
chatbot_arena_conversations 33k LMSYS 2023年7月 清洗后的真实对话数据,包含成对的人类偏好,这些数据于2023年4月至6月在Chatbot Arena上收集。
FalseReject 28.8k Amazon Science 2025年5月 (CC-BY-NC-4.0)用于缓解LLM在44个安全相关类别中过度拒绝行为的数据集。包含对抗性生成但无害的提示,以及上下文感知的回答。详见FalseReject论文
tulu-3-pref-personas-instruction-following 19.9k AllenAI 2024年11月 以被选择和被拒绝的回答形式提供的指令遵循数据,用于训练模型遵守精确的约束条件。
Human-Like-DPO-Dataset 10.9k Weyaxi 2024年5月 训练模型输出更人性化而非通常由LLM生成的正式化内容。

🔧 工具

本节列出的工具可以帮助您评估、生成和探索数据集。首先从各种来源(开源或非开源)汇集可用数据,并应用诸如数据去重和质量检查之类的过滤器。如果初始数据集较小或不足,可以考虑通过合成方式生成额外数据来填补空白。然后通过评估模型性能、识别不足之处并收集或生成数据来迭代地探索和优化数据集,以弥补这些缺陷。

数据抓取

  • Trafilatura:一款Python和命令行工具,用于在网络上抓取文本和元数据。曾用于创建RefinedWeb
  • Marker:可快速将PDF转换为Markdown文本。

数据过滤

  • 基于规则的过滤:根据黑名单词汇列表移除样本,例如拒绝回复和“作为AI助手”开头的内容(示例)。
  • SemHash:基于蒸馏模型快速生成嵌入向量的模糊去重工具。
  • Argilla:一个允许多人协作手动过滤和标注数据集的平台。
  • judges:一个包含多种分类器和评分器的小型LLM法官库(处于早期开发阶段)。

数据生成

  • Curator:一种易于使用的合成数据生成工具,可用于围绕LLM构建流水线、进行批量处理,并实时查看数据生成进度。
  • Distilabel:一个通用框架,可通过UltraFeedback和DEITA等技术生成和增强数据(SFT、DPO)。
  • Augmentoolkit:一个框架,可利用开源和闭源模型将原始文本转化为数据集。
  • Data Prep Kit:适用于代码和语言领域的数据准备框架,包含Python、Ray和Spark模块,规模覆盖从笔记本电脑到数据中心。

数据探索

  • Lilac:用于数据集探索、整理和质量控制的工具。
  • Nomic Atlas:与指令型数据交互以发现洞察并存储嵌入向量。
  • text-clustering:Hugging Face 提供的文本数据聚类框架。
  • Autolabel:利用主流语言模型自动为数据打标签。

致谢

特别感谢 geronimi73Bytes-ExplorereuclaiseRishabhMaheshwaryParagEkbote 的贡献。

参考文献

如果某个数据集未被正确引用,请告知我。

  • 魏林·蒋等,“Vicuna:一款开源聊天机器人,以90%*的ChatGPT质量令人印象深刻”,2023年。
  • 曹一涵等,“指令挖掘:当数据挖掘遇上大语言模型微调”,2023年。
  • 苏巴布拉塔·穆克吉等,“Orca:从GPT-4复杂解释轨迹中逐步学习”,2023年。
  • 周春霆等,“LIMA:对齐之道,少即是多”,2023年。
  • 苏里亚·古纳塞卡尔等,“只需教科书就够了”,2023年。
  • 陈立昌等,“AlpaGasus:用更少的数据训练出更好的Alpaca”,2024年。
  • 蔡征等,“InternLM2技术报告”,2024年。
  • 袁利凡等,“借助偏好树推进LLM推理通才的发展”,2024年。
  • 刘伟等,“什么才是对齐任务中的优质数据?——指令微调中自动数据选择的全面研究”,2024年。
  • 王兴尧等,“MINT:在多轮交互中结合工具与语言反馈评估LLM”,2024年。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

141.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|今天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent