[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mlabonne--llm-datasets":3,"tool-mlabonne--llm-datasets":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":78,"stars":82,"forks":83,"last_commit_at":84,"license":78,"difficulty_score":85,"env_os":86,"env_gpu":87,"env_ram":87,"env_deps":88,"category_tags":91,"github_topics":92,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":96,"updated_at":97,"faqs":98,"releases":99},4633,"mlabonne\u002Fllm-datasets","llm-datasets","Curated list of datasets and tools for post-training.","llm-datasets 是一份精心整理的开源资源清单，专注于为大语言模型（LLM）的后训练阶段提供高质量数据集与相关工具。在大模型开发中，数据质量直接决定模型表现，而构建兼具准确性、多样性和复杂度的数据集往往耗时费力。llm-datasets 通过汇聚经过筛选的通用及垂直领域指令数据集（涵盖数学、代码、多轮对话等），并明确标注许可协议，有效解决了开发者寻找可靠训练数据的难题。\n\n该资源特别适合 AI 研究人员、大模型工程师以及希望微调自有模型的开发团队使用。其核心亮点在于不仅提供了如 Nemotron、smoltalk2 等前沿数据集的详细信息，还明确了构建优质数据的三大标准：事实准确、场景多样以及逻辑复杂。此外，清单强调所有收录资源大多采用宽松许可证（如 Apache 2.0、MIT 等），极大降低了商业应用的法律风险。无论是想要复现先进模型能力，还是为特定领域定制助手，llm-datasets 都能为用户提供坚实的数据基础，助力高效完成监督微调（SFT）工作。","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Fi.imgur.com\u002FSekZcgb.png\" alt=\"Image\">\n  \u003Cp>\n    𝕏 \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fmaximelabonne\">Follow me on X\u003C\u002Fa> • \n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmlabonne\">Hugging Face\u003C\u002Fa> • \n    💻 \u003Ca href=\"https:\u002F\u002Fmaximelabonne.substack.com\u002F\">Blog\u003C\u002Fa> • \n    📙 \u003Ca href=\"https:\u002F\u002Fpackt.link\u002Fa\u002F9781836200079\">LLM Engineer's Handbook\u003C\u002Fa>\n  \u003C\u002Fp>\n   \u003Cp>\u003Cem>Curated list of datasets and tools for post-training.\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\n## 👍 What is a good dataset?\n\nData is the most valuable asset in LLM development. When building a high-quality dataset, we target the three following characteristics:\n\n* **Accuracy**: Samples should be factually correct and relevant to their corresponding instructions. This can involve using solvers for math and unit tests for code.\n* **Diversity**: You want to cover as many use cases as possible to make sure you're never out of distribution. High diversity is essential as it leads to better generalization.\n* **Complexity**: Samples should be multi-turn, multilingual, well-written, and include step-by-step reasoning when relevant.\n\nTo ensure the quality of a dataset, it is essential to combine various techniques, such as manuals reviews, heuristics like rule-based filtering, and scoring via judge LLMs or reward models.\n\n## 📅 Instruction Datasets\n\nOnce a model has been pre-trained on a next-token prediction task, Supervised Fine-Tuning (SFT) is used to turn it into an assistant capable of answering questions and following instructions. During SFT, models learn a chat template and are specialized in one or more domains.\n\n> [!NOTE]\n> Unless specified otherwise, all datasets listed here are under permissive licenses (Apache 2.0, MIT, CC-BY-4.0, etc.).\n\n### General\n\nGeneral-purpose datasets offer balanced mixtures of different types of data, including chat, code, and math. These datasets can be used to create general-purpose models that can handle various types of queries.\n\n| Dataset                                                                                               | #     | Authors            | Date     | Notes                                                                                                                                                                                                                                                        |\n| ----------------------------------------------------------------------------------------------------- | ----- | ------------------ | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [Nemotron-Post-Training-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v2)   | 6.34M  | Nvidia            | Aug 2025 | Large-scale dataset with five target languages (Spanish, French, German, Italian, Japanese) for math, code, general reasoning, and instruction following. Used to train [Nemotron-Nano-9B-v2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14444).                                                                       |\n| [smoltalk2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceTB\u002Fsmoltalk2)                                  | 3.38M | Hugging Face       | July 2025 | Dataset used to train SmolLM3 models with and without reasoning traces. Includes OpenThoughts3, Tulu 3, and multilingual data. See the [SmolLM3 blog post](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmollm3).                              |\n| [open-perfectblend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Fopen-perfectblend)                       | 1.42M | Xu et al., Labonne | Oct 2024 | Open reproduction of the dataset described [in this paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.20370). It's a solid general-purpose instruction dataset with chat, math, code, and instruction-following data.                                                        |\n| [orca-agentinstruct-1M-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Forca-agentinstruct-1M-v1-cleaned) | 1.05M | Microsoft          | Nov 2024 | Subset of the AgentInstruct dataset (~25 samples) designed for Orca-3-Mistral, using raw text publicly available on the web as seed data.                                                                                                                    |\n| [tulu3-sft-mixture](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-sft-mixture)                       | 939k  | AllenAI                | Nov 2024 | (CC-BY-NC-4.0) SFT mixture used to train the [Tulu 3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fallenai\u002Ftulu-3-models-673b8e0dc3512e30e7dc54f5). It uses public datasets and new synthetic versions, including persona-based answers for diversity.                 |\n| [FuseChat-Mixture](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFuseAI\u002FFuseChat-Mixture)                           | 95k   | Wan et al.         | Feb 2024 | Comprehensive training dataset covering different styles and capabilities, featuring both human-written and model-generated samples. See [FuseChat paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16107).                                                                 |\n\n\n### Math\n\nLLMs often struggle with mathematical reasoning and formal logic, which has led to the creation of specialized datasets. These datasets can include systematic thinking and step-by-step reasoning.\n\n| Dataset                                                                             | #    | Authors       | Date      | Notes |\n| ----------------------------------------------------------------------------------- | ---- | ------------- | --------- | ------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [MegaScience](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMegaScience\u002FMegaScience)              | 1.25M | GAIR-NLP | July 2025 | (CC-BY-NC-SA-4.0) High-quality scientific dataset with diverse domains and ablation studies. See the paper [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16812). |\n| [OpenThoughts3-1.2M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopen-thoughts\u002FOpenThoughts3-1.2M)     | 1.2M  | OpenThoughts        | Jun 2024  | Mixture with 850k math, 250k code, 100k science samples, annotated with QwQ-32B. |\n| [NuminaMath-CoT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAI-MO\u002FNuminaMath-CoT)              | 859k | Jia Li et al. | July 2024 | Data used to win the first progress prize of the AI Math Olympiad. See the tool-integrated reasoning version [here](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAI-MO\u002FNuminaMath-TIR). |\n| [AM-Thinking-v1-Distilled (Math)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fa-m-team\u002FAM-Thinking-v1-Distilled\u002Fblob\u002Fmain\u002Fmath.jsonl) | 558k | a-m-team | May 2025 | Math dataset with verified responses distilled from AM-Thinking-v1 and Qwen3-235B-A22B. See the paper [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14464). |\n| [OmniThought-0528)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Falibaba-pai\u002FOmniThought-0528) | 365k | Alibaba-PAI  | Jun 2025 | Math, coding, and science samples distilled from DeepSeek-R1 and QwQ-32B with verbosity and complexity scores. |\n| [Orca-Math](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmicrosoft\u002Forca-math-word-problems-200k) | 200k | Mitra et al.  | Feb 2024  | Grade school math world problems generated using GPT4-Turbo. See [Orca-Math paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14830.pdf). |\n\n### Code\n\nCode is another challenging domain for LLMs. Code datasets, containing diverse programming language examples, are used to fine-tune LLMs and enhance their ability to understand, generate, and analyze code.\n\n| Dataset                                                                                                      | #     | Authors        | Date     | Notes                                                                  |\n| ------------------------------------------------------------------------------------------------------------ | ----- | -------------- | -------- | ---------------------------------------------------------------------- |\n| [Ling-Coder-SFT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FinclusionAI\u002FLing-Coder-SFT)                                 | 4.48M | InclusionAI   | Mar 2025 | Large-scale coding dataset in English and Chinese with 20 programming languages and various topics. See their [tech report](http:\u002F\u002Farxiv.org\u002Fabs\u002F2503.17793). |\n| [rStar-Coder](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmicrosoft\u002FrStar-Coder)                                         | 1M    | Microsoft | May 2025 | Large-scale competitive code problem dataset, targeting LiveCodeBench, HumanEval, and MBPP. See the paper [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21297). |\n| [opc-sft-stage2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenCoder-LLM\u002Fopc-sft-stage2)                               | 436k  | Huang et al.   | Nov 2024 | Dataset used in OpenCoder's Stage 2, based on four seed datasets. See [OpenCoder paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04905). |\n| [AM-Thinking-v1-Distilled (Code)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fa-m-team\u002FAM-Thinking-v1-Distilled\u002Fblob\u002Fmain\u002Fcode.jsonl) | 324k | a-m-team  | May 2025 | Code dataset with verified responses distilled from AM-Thinking-v1 and Qwen3-235B-A22B. See the paper [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14464). |\n| [CodeFeedback-Filtered-Instruction](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fm-a-p\u002FCodeFeedback-Filtered-Instruction) | 157k  | Zheng et al.   | Feb 2024 | Filtered version of Magicoder-OSS-Instruct, ShareGPT (Python), Magicoder-Evol-Instruct, and Evol-Instruct-Code. |\n| [synthetic_tex_to_sql](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgretelai\u002Fsynthetic_text_to_sql)                       | 100k  | Gretel.ai      | Apr 2024 | Synthetic text-to-SQL samples (~23M tokens), covering diverse domains. \n### Instruction following\n\nInstruction following corresponds to the ability to properly follow constraints in the user prompt, such as \"write only two paragraphs\", \"write your answer in French\", etc. Strong instruction-following capabilities is a must-have for modern LLMs.\n\n| Dataset                                                                                                                        | #     | Authors     | Date     | Notes                                                                                                                                                                      |\n| ------------------------------------------------------------------------------------------------------------------------------ | ----- | ----------- | -------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [AutoIF-instruct-61k-with-funcs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FPost-training-Data-Flywheel\u002FAutoIF-instruct-61k-with-funcs)   | 61.5k | Diao et al. | Oct 2024 | Samples generated with [this code](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002FPost-Training-Data-Flywheel\u002Ftree\u002Fmain\u002FIF-generation) and gpt-4o-mini, based on Qwen's [AutoIF](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FAutoIF) library. |\n| [ifeval-like-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fifeval-like-data)                                                   | 56.3k | Argilla     | Oct 2024 | Only use the \"filtered\" subset. Samples generated by Qwen2.5-72B and verified with lm-evaluation-harness.                                                                  |\n| [tulu-3-sft-personas-instruction-following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-sft-personas-instruction-following) | 30k   | AllenAI         | Nov 2024 | Synthetic samples created with personas, following the methodology introduced by [Ge et al., 2024](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.20094).                                      |\n\n### Multilingual\n\nLearning new languages \"from scratch\" is a pre-training task, but providing multilingual instruction samples is useful to boost performance in the languages of interest.\n\n| Dataset                                                                                                       | #     | Authors                      | Date     | Notes                                                                             |\n| ------------------------------------------------------------------------------------------------------------- | ----- | ---------------------------- | -------- | --------------------------------------------------------------------------------- |\n| [luth-sft ](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkurakurai\u002Fluth-sft)                          | 570K  | kurakurai | August 2025 | French\u002FEnglish dataset with original data and good curation. More details in the [tech report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05846v1).|\n| [aya dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FCohereForAI\u002Faya_dataset) | 204k | Singh et al. | Feb 2024 | Multilingual instruction fine-tuning dataset curated by an open-science community via Aya Annotation Platform. |\n| [M2Lingual](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FServiceNow-AI\u002FM2Lingual)                          | 175K  | ServiceNow AI | June 2024 | Dataset spanning 70+ languages and 20 NLP tasks generated from GPT-4 using task-based taxonomy guided evolutions. More details in [M2Lingual](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16783) paper.|\n\n### Agent & Function calling\n\nFunction calling allows large language models (LLMs) to execute predefined functions with parameters inferred from user prompts, rather than generating standard text responses. This enables LLMs to seamlessly integrate with external systems, perform complex operations, and provide more accurate and contextually relevant responses.\n\n| Dataset                                                                                               | #     | Authors         | Date     | Notes                                                                                                                                                                                                                                         |\n| ----------------------------------------------------------------------------------------------------- | ----- | --------------- | -------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [xlam-function-calling-60k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002Fxlam-function-calling-60k)     | 60k   | Salesforce      | Jun 2024 | Samples created using a data generation pipeline designed to produce verifiable data for function-calling applications                                                                                                                        |\n| [FunReason-MT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBingguang\u002FFunReason-MT)                                | 17k   | Hao et al.      | Oct 2025 | Multi-turn function calling dataset with complex trajectories requiring environment-API graph interactions and chain-of-thought reasoning. See [FunReason-MT paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24645).                                        |\n| [hermes-function-calling-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FNousResearch\u002Fhermes-function-calling-v1) | 11.6k | Nous            | Aug 2024 | Compilation of structured output and function calling data used in the Hermes 2 Pro series of models.                                                                                                                                         |\n| [ToolACE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTeam-ACE\u002FToolACE)                                           | 11.3k | Liu et al.      | Aug 2024 | Agentic pipeline self-evolution synthesis process to curate a comprehensive API pool                                                                                                                                                          |\n| [APIGen-MT-5k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002FAPIGen-MT-5k)                               | 5k    | Salesforce      | Apr 2025 | (CC-BY-NC-4.0) Multi-turn agentic trajectories generated via simulated agent-human interplay with verified task blueprints. See [APIGen-MT paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03601).                            |\n\n\n### Real conversations\n\nReal-world conversations provide valuable insights into how people naturally interact with LLMs, helping us identify the most important use cases and understand typical usage patterns.\n\n| Dataset                                                              | #     | Authors     | Date     | Notes                                                                                                                                                  |\n| -------------------------------------------------------------------- | ----- | ----------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [WildChat-4.8M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat-4.8M) | 3.2M | Allen AI | Aug 2025 | Non-toxic conversations between human users and ChatGPT, filtered using OpenAI Moderation API. See [WildChat paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.01470). |\n| [lmsys-chat-1m](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Flmsys-chat-1m) | 1M    | LMSYS       | Sep 2023 | Real-world conversations with 25 LLMs, collected from 210K unique IP addresses on the Vicuna demo and Chatbot Arena website from April to August 2023. |\n| [arena-human-preference-100k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmarena-ai\u002Farena-human-preference-100k)           | 110k  | LMSYS             | Feb 2025 | Human preference evaluations collected from Chatbot Arena between June-August 2024. Used in [Arena Explorer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.04132) for conversation analysis and categorization. Includes precomputed embeddings.                                                                      |\n\n## ⚖️ Preference dataset\n\nUnlike instruction data, preference datasets consist of chosen and rejected answers. Preference alignment is used to align LLM's answers with human preferences to adopt the desired style and values.\n\n| Dataset                                                                                                                            | #     | Authors          | Date     | Notes                                                                                                                                                                     |\n| ---------------------------------------------------------------------------------------------------------------------------------- | ----- | ---------------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [Skywork-Reward-Preference-80K-v0.2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSkywork\u002FSkywork-Reward-Preference-80K-v0.2)                   | 77k   | Skywork          | 2024     | Preference pairs compiled from public sources like HelpSteer2, OffsetBias, WildGuard, and Magpie.                                                                         |\n| [ultrafeedback-binarized-preferences-cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fultrafeedback-binarized-preferences-cleaned) | 61.1k | Argilla          | 2023     | Decontaminated version of the UltraChat dataset, scored by GPT-4 and binarized into \"chosen\" and \"rejected\" answers based on these scores.                                |\n| [Infinity-Preference](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FInfinity-Preference)                                                    | 59k   | BAAI             | Sep 2024 | Adjusts preference attribute weights per task using Infinity-Instruct's labeling system. Each instruction is accompanied by a preference pair sampled from Gemma-2-9B-IT. |\n| [Code-Preference-Pairs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVezora\u002FCode-Preference-Pairs)                                              | 53k   | Vezora           | Jul 2024 | Pairs of code examples, where the chosen sample is correct and the rejected one contains a bug.                                                                           |\n| [orpo-dpo-mix-40k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Forpo-dpo-mix-40k)                                                      | 44k   | Argilla, Labonne | May 2024 | Combination of the following high-quality DPO datasets, mostly from Argilla.                                                                                              |\n| [HelpSteer3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer3)                                                  | 40.5k | Wang et al.       | Oct 2024 | Multi-attribute helpfulness dataset with 40,476 preference samples and 40,821 feedback samples across General, STEM, Code, and Multilingual domains (14 languages). See [HelpSteer3 paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.11475).                                                                     |\n| [chatbot_arena_conversations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fchatbot_arena_conversations)                                   | 33k   | LMSYS            | Jul 2023 | Cleaned real conversations with pairwise human preferences collected on the [Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-05-03-arena\u002F) from April to June 2023             |\n| [FalseReject](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAmazonScience\u002FFalseReject)                                        | 28.8k | Amazon Science    | May 2025 | (CC-BY-NC-4.0) Dataset for mitigating over-refusal behavior in LLMs across 44 safety-related categories. Contains adversarially generated but benign prompts with context-aware responses. See [FalseReject paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08054).                                             |\n| [tulu-3-pref-personas-instruction-following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-pref-personas-instruction-following)   | 19.9k | AllenAI              | Nov 2024 | Instruction following data in the form of chosen and rejected answers to teach the model to follow precise constraints.                                                   |\n| [Human-Like-DPO-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHumanLLMs\u002FHuman-Like-DPO-Dataset)                                         | 10.9k | Weyaxi           | May 2024 | Teach to output more human-like answers instead of the formal slop LLMS usually output.                                                                                   |\n\n## 🔧 Tools\n\nTools listed in this section can help you evaluate, generate, and explore datasets. Start by aggregating available data from various sources (open-source or not) and applying filters like data deduplication and data quality. If the initial dataset is small or insufficient, consider synthetically generating additional data to fill the gap. Iteratively explore and refine the dataset by assessing model performance, identifying gaps, and collecting or generating data to address those shortcomings.\n\n### Data scraping\n\n* [**Trafilatura**](https:\u002F\u002Fgithub.com\u002Fadbar\u002Ftrafilatura): Python and command-line tool to gather text and metadata on the web. Used for the creation of [RefinedWeb](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01116).\n* [**Marker**](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker): Quickly convert PDFs to markdown text.\n\n### Data filtering\n\n* **Rule-based filtering**: Remove samples based on a list of unwanted words, like refusals and \"As an AI assistant\" ([example](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcognitivecomputations\u002FWizardLM_alpaca_evol_instruct_70k_unfiltered\u002Fblob\u002Fmain\u002Fwizardlm_clean.py)).\n* [**SemHash**](https:\u002F\u002Fgithub.com\u002FMinishLab\u002Fsemhash): Fuzzy deduplication based on fast embedding generation with a distilled model.\n* [**Argilla**](https:\u002F\u002Fargilla.io\u002F): Platform that allows you to manually filter and annotate datasets in a collaborative way.\n* [**judges**](https:\u002F\u002Fgithub.com\u002Fquotient-ai\u002Fjudges): Small library of LLM judges with various classifiers and graders (early development).\n\n### Data generation\n\n* [**Curator**](https:\u002F\u002Fgithub.com\u002Fbespokelabsai\u002Fcurator\u002F): Synthetic data generation tool that makes it easy to build pipelines around LLMs, use batching, and view data in progress.\n* [**Distilabel**](https:\u002F\u002Fgithub.com\u002Fargilla-io\u002Fdistilabel): General-purpose framework that can generate and augment data (SFT, DPO) with techniques like UltraFeedback and DEITA.\n* [**Augmentoolkit**](https:\u002F\u002Fgithub.com\u002Fe-p-armstrong\u002Faugmentoolkit): Framework to convert raw text into datasets using open-source and closed-source models.\n* [**Data Prep Kit**](https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit): Framework for data preparation for both code and language, with modules in Python, Ray, and Spark, and a wide range of scale from laptops to data centers.\n\n### Data exploration\n\n* [**Lilac**](https:\u002F\u002Fwww.lilacml.com\u002F): Tool for exploration, curation, and quality control of datasets.\n* [**Nomic Atlas**](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fnomic): Interact with instructed data to find insights and store embeddings.\n* [**text-clustering**](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftext-clustering): A framework from Huggingface for clustering textual data.\n* [**Autolabel**](https:\u002F\u002Fgithub.com\u002Frefuel-ai\u002Fautolabel): Automatically label data using popular language models.\n\n## Acknowledgments\n\nSpecial thanks to [geronimi73](https:\u002F\u002Fgithub.com\u002Fgeronimi73), [Bytes-Explorer](https:\u002F\u002Fgithub.com\u002FBytes-Explorer), [euclaise](https:\u002F\u002Fgithub.com\u002Feuclaise), [RishabhMaheshwary](https:\u002F\u002Fgithub.com\u002FRishabhMaheshwary), and [ParagEkbote](https:\u002F\u002Fgithub.com\u002FParagEkbote) for their PRs.\n\n## References\n\nPlease let me know if a dataset is not properly credited.\n\n- Wei-Lin Chiang et al, \"Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality,\" 2023.\n- Yihan Cao et al, \"Instruction Mining: When Data Mining Meets Large Language Model Finetuning,\" 2023.\n- Subhabrata Mukherjee et al, \"Orca: Progressive Learning from Complex Explanation Traces of GPT-4,\" 2023.\n- Chunting Zhou et al, \"LIMA: Less Is More for Alignment,\" 2023.\n- Suriya Gunasekar et al, \"Textbooks Are All You Need,\" 2023.\n- Lichang Chen et al, \"AlpaGasus: Training A Better Alpaca with Fewer Data,\" 2024.\n- Zheng Cai et al, \"InternLM2 Technical Report,\" 2024.\n- Lifan Yuan et al, \"Advancing LLM Reasoning Generalists with Preference Trees,\" 2024.\n- Wei Liu et al, \"What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning,\" 2024.\n- Xingyao Wang et al, \"MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback,\" 2024.\n","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Fi.imgur.com\u002FSekZcgb.png\" alt=\"Image\">\n  \u003Cp>\n    𝕏 \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fmaximelabonne\">在X上关注我\u003C\u002Fa> • \n    🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmlabonne\">Hugging Face\u003C\u002Fa> • \n    💻 \u003Ca href=\"https:\u002F\u002Fmaximelabonne.substack.com\u002F\">博客\u003C\u002Fa> • \n    📙 \u003Ca href=\"https:\u002F\u002Fpackt.link\u002Fa\u002F9781836200079\">大模型工程师手册\u003C\u002Fa>\n  \u003C\u002Fp>\n   \u003Cp>\u003Cem>后训练阶段的数据集和工具精选列表。\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\u003Cbr\u002F>\n\n## 👍 什么是优质的数据集？\n\n数据是大模型开发中最宝贵的资产。在构建高质量数据集时，我们主要关注以下三个特性：\n\n* **准确性**：样本应事实准确，并与对应的指令高度相关。这可能需要使用数学求解器或代码单元测试来验证。\n* **多样性**：尽可能覆盖多种使用场景，以确保模型不会遇到分布外的情况。高多样性对于提升模型的泛化能力至关重要。\n* **复杂性**：样本应具备多轮对话、多语言支持、高质量的文本表达，并在适当的情况下包含逐步推理过程。\n\n为了确保数据集的质量，必须结合多种技术手段，例如人工审核、基于规则的过滤等启发式方法，以及通过判别型大模型或奖励模型进行打分评估。\n\n## 📅 指令数据集\n\n当模型已经在下一个词预测任务上完成预训练后，通过监督微调（SFT）可以将其转化为能够回答问题并遵循指令的助手模型。在SFT过程中，模型会学习对话模板，并针对一个或多个领域进行专业化训练。\n\n> [!NOTE]\n> 除非另有说明，此处列出的所有数据集均采用宽松许可协议（如Apache 2.0、MIT、CC-BY-4.0等）。\n\n### 通用类\n\n通用数据集提供了多种类型数据的均衡混合，包括对话、代码和数学等。这些数据集可用于创建能够处理各类查询的通用模型。\n\n| 数据集                                                                                               | 样本数     | 作者            | 发布日期     | 备注                                                                                                                                                                                                                                                        |\n| ----------------------------------------------------------------------------------------------------- | ----- | ------------------ | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [Nemotron-Post-Training-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v2)   | 634万  | 英伟达            | 2025年8月 | 包含西班牙语、法语、德语、意大利语和日语五种语言的大规模数据集，涵盖数学、代码、通用推理及指令遵循任务。用于训练[Nemotron-Nano-9B-v2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14444)。                                                                       |\n| [smoltalk2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceTB\u002Fsmoltalk2)                                  | 338万 | Hugging Face       | 2025年7月 | 用于训练带有和不带推理轨迹的SmolLM3模型的数据集。包含OpenThoughts3、Tulu 3以及多语言数据。详情请参阅[SmolLM3博客文章](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fsmollm3)。                              |\n| [open-perfectblend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Fopen-perfectblend)                       | 142万 | Xu等人、Labonne | 2024年10月 | 对[这篇论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.20370)中描述的数据集的开源复现。这是一份坚实的通用指令数据集，包含对话、数学、代码及指令遵循数据。                                                        |\n| [orca-agentinstruct-1M-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Forca-agentinstruct-1M-v1-cleaned) | 105万 | 微软          | 2024年11月 | AgentInstruct数据集的一个子集（约25个样本），专为Orca-3-Mistral设计，以网络公开的原始文本作为种子数据。                                                                                                                    |\n| [tulu3-sft-mixture](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-sft-mixture)                       | 93.9万  | AllenAI                | 2024年11月 | （CC-BY-NC-4.0）用于训练[Tulu 3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fallenai\u002Ftulu-3-models-673b8e0dc3512e30e7dc54f5)的SFT混合数据集。该数据集结合了公开数据和新的合成版本，其中还包括基于角色设定的回答以增强多样性。                 |\n| [FuseChat-Mixture](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFuseAI\u002FFuseChat-Mixture)                           | 9.5万   | Wan等人         | 2024年2月 | 一份全面的训练数据集，涵盖了不同风格和能力，既有真人撰写的内容，也有模型生成的样本。详情请参阅[FuseChat论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16107)。                                                                 |\n\n### 数学\n\n大语言模型在数学推理和形式逻辑方面常常表现不佳，因此催生了专门的数据集。这些数据集通常包含系统性思维和逐步推理的内容。\n\n| 数据集                                                                             | 样本数 | 作者       | 发布日期      | 备注 |\n| ----------------------------------------------------------------------------------- | ---- | ------------- | --------- | ------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [MegaScience](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMegaScience\u002FMegaScience)              | 125万 | GAIR-NLP | 2025年7月 | (CC-BY-NC-SA-4.0) 高质量的跨领域科学数据集，并附有消融实验。论文链接：[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16812)。 |\n| [OpenThoughts3-1.2M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopen-thoughts\u002FOpenThoughts3-1.2M)     | 120万  | OpenThoughts        | 2024年6月  | 混合数据集，包含85万数学、25万代码和10万科学样本，由QwQ-32B标注。 |\n| [NuminaMath-CoT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAI-MO\u002FNuminaMath-CoT)              | 85.9万 | 李佳等   | 2024年7月 | 用于赢得首届AI数学奥林匹克竞赛进步奖的数据集。工具集成推理版本请见：[这里](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAI-MO\u002FNuminaMath-TIR)。 |\n| [AM-Thinking-v1-Distilled (Math)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fa-m-team\u002FAM-Thinking-v1-Distilled\u002Fblob\u002Fmain\u002Fmath.jsonl) | 55.8万 | a-m-team | 2025年5月 | 经过验证的数学数据集，由AM-Thinking-v1和Qwen3-235B-A22B提炼而来。论文链接：[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14464)。 |\n| [OmniThought-0528)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Falibaba-pai\u002FOmniThought-0528) | 36.5万 | 阿里巴巴-PAI  | 2025年6月 | 从DeepSeek-R1和QwQ-32B提炼出的数学、代码和科学样本，附带冗长性和复杂度评分。 |\n| [Orca-Math](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmicrosoft\u002Forca-math-word-problems-200k) | 20万 | Mitra等   | 2024年2月  | 使用GPT4-Turbo生成的小学数学应用题。相关论文请见：[Orca-Math论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14830.pdf)。 |\n\n### 代码\n\n代码是大语言模型面临的另一大挑战领域。包含多种编程语言示例的代码数据集被用来微调大语言模型，以提升其理解、生成和分析代码的能力。\n\n| 数据集                                                                                                      | 样本数 | 作者        | 发布日期     | 备注                                                                  |\n| ------------------------------------------------------------------------------------------------------------ | ----- | -------------- | -------- | ---------------------------------------------------------------------- |\n| [Ling-Coder-SFT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FinclusionAI\u002FLing-Coder-SFT)                                 | 448万 | InclusionAI   | 2025年3月 | 大规模中英文代码数据集，涵盖20种编程语言及各类主题。技术报告请见：[这里](http:\u002F\u002Farxiv.org\u002Fabs\u002F2503.17793)。 |\n| [rStar-Coder](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmicrosoft\u002FrStar-Coder)                                         | 100万    | 微软 | 2025年5月 | 大规模竞赛类代码问题数据集，针对LiveCodeBench、HumanEval和MBPP。论文链接：[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21297)。 |\n| [opc-sft-stage2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenCoder-LLM\u002Fopc-sft-stage2)                               | 43.6万  | 黄等人   | 2024年11月 | OpenCoder第二阶段使用的数据集，基于四个种子数据集。相关论文请见：[OpenCoder论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04905)。 |\n| [AM-Thinking-v1-Distilled (Code)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fa-m-team\u002FAM-Thinking-v1-Distilled\u002Fblob\u002Fmain\u002Fcode.jsonl) | 32.4万 | a-m-team  | 2025年5月 | 经过验证的代码数据集，由AM-Thinking-v1和Qwen3-235B-A22B提炼而来。论文链接：[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14464)。 |\n| [CodeFeedback-Filtered-Instruction](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fm-a-p\u002FCodeFeedback-Filtered-Instruction) | 15.7万  | 郑等人   | 2024年2月 | Magicoder-OSS-Instruct、ShareGPT（Python）、Magicoder-Evol-Instruct和Evol-Instruct-Code的过滤版。 |\n| [synthetic_tex_to_sql](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgretelai\u002Fsynthetic_text_to_sql)                       | 10万  | Gretel.ai      | 2024年4月 | 合成文本转SQL样本（约2300万 tokens），覆盖多个领域。 |\n### 指令遵循\n\n指令遵循是指正确执行用户提示中的约束条件的能力，例如“只写两段”、“用法语作答”等。强大的指令遵循能力是现代大语言模型的必备素质。\n\n| 数据集                                                                                                                        | 样本数 | 作者     | 发布日期     | 备注                                                                                                                                                                      |\n| ------------------------------------------------------------------------------------------------------------------------------ | ----- | ----------- | -------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [AutoIF-instruct-61k-with-funcs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FPost-training-Data-Flywheel\u002FAutoIF-instruct-61k-with-funcs)   | 6.15万 | 迪奥等人 | 2024年10月 | 基于Qwen的[AutoIF](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FAutoIF)库，使用[这段代码](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002FPost-Training-Data-Flywheel\u002Ftree\u002Fmain\u002FIF-generation)和gpt-4o-mini生成的样本。 |\n| [ifeval-like-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fifeval-like-data)                                                   | 5.63万 | Argilla     | 2024年10月 | 仅使用“过滤后”的子集。样本由Qwen2.5-72B生成，并通过lm-evaluation-harness进行验证。                                                                  |\n| [tulu-3-sft-personas-instruction-following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-sft-personas-instruction-following) | 3万   | AllenAI         | 2024年11月 | 基于[Ge等人，2024年](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.20094)提出的方法论，使用人物角色创建的合成样本。                                      |\n\n### 多语言\n\n从零开始学习新语言是一种预训练任务，但提供多语言指令样本有助于提升目标语言上的性能。\n\n| 数据集                                                                                                       | 数量     | 作者                      | 日期     | 备注                                                                             |\n| ------------------------------------------------------------------------------------------------------------- | ----- | ---------------------------- | -------- | --------------------------------------------------------------------------------- |\n| [luth-sft ](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkurakurai\u002Fluth-sft)                          | 57万  | kurakurai | 2025年8月 | 法语\u002F英语数据集，包含原始数据且标注质量较高。更多详情请参阅[技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05846v1)。|\n| [aya 数据集](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FCohereForAI\u002Faya_dataset) | 20.4万 | Singh 等人 | 2024年2月 | 由开放科学社区通过 Aya 注释平台整理的多语言指令微调数据集。 |\n| [M2Lingual](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FServiceNow-AI\u002FM2Lingual)                          | 17.5万  | ServiceNow AI | 2024年6月 | 覆盖70多种语言和20项自然语言处理任务的数据集，基于 GPT-4 生成，并采用基于任务的分类体系进行引导式演化。更多细节请参阅[M2Lingual](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.16783)论文。|\n\n### 代理与函数调用\n\n函数调用使大型语言模型（LLMs）能够根据用户提示推断出参数并执行预定义的函数，而不是生成标准的文本响应。这使得 LLMs 可以无缝集成到外部系统中，执行复杂操作，并提供更准确、更具上下文相关性的响应。\n\n| 数据集                                                                                               | 数量     | 作者         | 日期     | 备注                                                                                                                                                                                                                                         |\n| ----------------------------------------------------------------------------------------------------- | ----- | --------------- | -------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [xlam-function-calling-60k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002Fxlam-function-calling-60k)     | 6万   | Salesforce      | 2024年6月 | 使用专为函数调用应用生成可验证数据而设计的数据生成流水线创建的样本                                                                                                                        |\n| [FunReason-MT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBingguang\u002FFunReason-MT)                                | 1.7万   | Hao 等人      | 2025年10月 | 包含复杂轨迹的多轮函数调用数据集，需要环境-API 图交互及思维链推理。详情请参阅[FunReason-MT 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.24645)。                                        |\n| [hermes-function-calling-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FNousResearch\u002Fhermes-function-calling-v1) | 1.16万 | Nous            | 2024年8月 | 汇编了 Hermes 2 Pro 系列模型中使用的结构化输出和函数调用数据。                                                                                                                                         |\n| [ToolACE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTeam-ACE\u002FToolACE)                                           | 1.13万 | Liu 等人      | 2024年8月 | 通过智能体流水线自我进化合成过程，精心筛选出全面的 API 库                                                                                                                                                          |\n| [APIGen-MT-5k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002FAPIGen-MT-5k)                               | 5千    | Salesforce      | 2025年4月 | （CC-BY-NC-4.0）通过模拟智能体与人类互动，并结合经过验证的任务蓝图生成的多轮智能体轨迹。详情请参阅[APIGen-MT 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03601)。                            |\n\n\n### 真实对话\n\n真实世界的对话为我们提供了关于人们如何自然地与 LLMs 交互的宝贵见解，帮助我们识别最重要的应用场景并理解典型的使用模式。\n\n| 数据集                                                              | 数量     | 作者     | 日期     | 备注                                                                                                                                                  |\n| -------------------------------------------------------------------- | ----- | ----------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------ |\n| [WildChat-4.8M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat-4.8M) | 320万 | Allen AI | 2025年8月 | 人类用户与 ChatGPT 之间的无有害内容对话，经 OpenAI 审核 API 过滤。详情请参阅[WildChat 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.01470)。 |\n| [lmsys-chat-1m](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Flmsys-chat-1m) | 100万    | LMSYS       | 2023年9月 | 来自 25 种 LLM 的真实对话，收集于 2023 年 4 月至 8 月期间 Vicuna 演示版和 Chatbot Arena 网站上的 21 万个唯一 IP 地址。 |\n| [arena-human-preference-100k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmarena-ai\u002Farena-human-preference-100k)           | 11万  | LMSYS             | 2025年2月 | 2024 年 6 月至 8 月间在 Chatbot Arena 上收集的人类偏好评估数据。用于[Arena Explorer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.04132)进行对话分析和分类，包含预先计算好的嵌入向量。                                                                      |\n\n## ⚖️ 偏好数据集\n\n与指令数据不同，偏好数据集由被选择和被拒绝的回答组成。偏好对齐用于使大语言模型的回答符合人类偏好，从而采用期望的风格和价值观。\n\n| 数据集                                                                                                                            | 样本数 | 作者          | 发布日期 | 备注                                                                                                                                                                     |\n| ---------------------------------------------------------------------------------------------------------------------------------- | ----- | ---------------- | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |\n| [Skywork-Reward-Preference-80K-v0.2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSkywork\u002FSkywork-Reward-Preference-80K-v0.2)                   | 77k   | Skywork          | 2024     | 该偏好对子数据集来源于HelpSteer2、OffsetBias、WildGuard和Magpie等公开资源。                                                                         |\n| [ultrafeedback-binarized-preferences-cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fultrafeedback-binarized-preferences-cleaned) | 61.1k | Argilla          | 2023     | 这是UltraChat数据集的去污版本，由GPT-4打分后将其二值化为“被选择”和“被拒绝”的回答。                                                                |\n| [Infinity-Preference](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FInfinity-Preference)                                                    | 59k   | BAAI             | 2024年9月 | 使用Infinity-Instruct的标注系统，按任务调整偏好属性权重。每条指令都配有一对来自Gemma-2-9B-IT的偏好样本。                                               |\n| [Code-Preference-Pairs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVezora\u002FCode-Preference-Pairs)                                              | 53k   | Vezora           | 2024年7月 | 代码示例对子，其中被选择的样本正确，而被拒绝的样本包含错误。                                                                                           |\n| [orpo-dpo-mix-40k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Forpo-dpo-mix-40k)                                                      | 44k   | Argilla, Labonne | 2024年5月 | 结合了以下高质量的DPO数据集，大部分来自Argilla。                                                                                              |\n| [HelpSteer3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer3)                                                  | 40.5k | Wang et al.       | 2024年10月 | 多属性助益性数据集，包含40,476个偏好样本和40,821个反馈样本，涵盖通用、STEM、代码及多语言领域（共14种语言）。详见[HelpSteer3论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.11475)。                                                                     |\n| [chatbot_arena_conversations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fchatbot_arena_conversations)                                   | 33k   | LMSYS            | 2023年7月 | 清洗后的真实对话数据，包含成对的人类偏好，这些数据于2023年4月至6月在[Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-05-03-arena\u002F)上收集。             |\n| [FalseReject](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAmazonScience\u002FFalseReject)                                        | 28.8k | Amazon Science    | 2025年5月 | （CC-BY-NC-4.0）用于缓解LLM在44个安全相关类别中过度拒绝行为的数据集。包含对抗性生成但无害的提示，以及上下文感知的回答。详见[FalseReject论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08054)。                                             |\n| [tulu-3-pref-personas-instruction-following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Ftulu-3-pref-personas-instruction-following)   | 19.9k | AllenAI              | 2024年11月 | 以被选择和被拒绝的回答形式提供的指令遵循数据，用于训练模型遵守精确的约束条件。                                                   |\n| [Human-Like-DPO-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHumanLLMs\u002FHuman-Like-DPO-Dataset)                                         | 10.9k | Weyaxi           | 2024年5月 | 训练模型输出更人性化而非通常由LLM生成的正式化内容。                                                                                   |\n\n## 🔧 工具\n\n本节列出的工具可以帮助您评估、生成和探索数据集。首先从各种来源（开源或非开源）汇集可用数据，并应用诸如数据去重和质量检查之类的过滤器。如果初始数据集较小或不足，可以考虑通过合成方式生成额外数据来填补空白。然后通过评估模型性能、识别不足之处并收集或生成数据来迭代地探索和优化数据集，以弥补这些缺陷。\n\n### 数据抓取\n\n* [**Trafilatura**](https:\u002F\u002Fgithub.com\u002Fadbar\u002Ftrafilatura)：一款Python和命令行工具，用于在网络上抓取文本和元数据。曾用于创建[RefinedWeb](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01116)。\n* [**Marker**](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker)：可快速将PDF转换为Markdown文本。\n\n### 数据过滤\n\n* **基于规则的过滤**：根据黑名单词汇列表移除样本，例如拒绝回复和“作为AI助手”开头的内容（[示例](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcognitivecomputations\u002FWizardLM_alpaca_evol_instruct_70k_unfiltered\u002Fblob\u002Fmain\u002Fwizardlm_clean.py)）。\n* [**SemHash**](https:\u002F\u002Fgithub.com\u002FMinishLab\u002Fsemhash)：基于蒸馏模型快速生成嵌入向量的模糊去重工具。\n* [**Argilla**](https:\u002F\u002Fargilla.io\u002F)：一个允许多人协作手动过滤和标注数据集的平台。\n* [**judges**](https:\u002F\u002Fgithub.com\u002Fquotient-ai\u002Fjudges)：一个包含多种分类器和评分器的小型LLM法官库（处于早期开发阶段）。\n\n### 数据生成\n\n* [**Curator**](https:\u002F\u002Fgithub.com\u002Fbespokelabsai\u002Fcurator\u002F)：一种易于使用的合成数据生成工具，可用于围绕LLM构建流水线、进行批量处理，并实时查看数据生成进度。\n* [**Distilabel**](https:\u002F\u002Fgithub.com\u002Fargilla-io\u002Fdistilabel)：一个通用框架，可通过UltraFeedback和DEITA等技术生成和增强数据（SFT、DPO）。\n* [**Augmentoolkit**](https:\u002F\u002Fgithub.com\u002Fe-p-armstrong\u002Faugmentoolkit)：一个框架，可利用开源和闭源模型将原始文本转化为数据集。\n* [**Data Prep Kit**](https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit)：适用于代码和语言领域的数据准备框架，包含Python、Ray和Spark模块，规模覆盖从笔记本电脑到数据中心。\n\n### 数据探索\n\n* [**Lilac**](https:\u002F\u002Fwww.lilacml.com\u002F)：用于数据集探索、整理和质量控制的工具。\n* [**Nomic Atlas**](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fnomic)：与指令型数据交互以发现洞察并存储嵌入向量。\n* [**text-clustering**](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftext-clustering)：Hugging Face 提供的文本数据聚类框架。\n* [**Autolabel**](https:\u002F\u002Fgithub.com\u002Frefuel-ai\u002Fautolabel)：利用主流语言模型自动为数据打标签。\n\n## 致谢\n\n特别感谢 [geronimi73](https:\u002F\u002Fgithub.com\u002Fgeronimi73)、[Bytes-Explorer](https:\u002F\u002Fgithub.com\u002FBytes-Explorer)、[euclaise](https:\u002F\u002Fgithub.com\u002Feuclaise)、[RishabhMaheshwary](https:\u002F\u002Fgithub.com\u002FRishabhMaheshwary) 和 [ParagEkbote](https:\u002F\u002Fgithub.com\u002FParagEkbote) 的贡献。\n\n## 参考文献\n\n如果某个数据集未被正确引用，请告知我。\n\n- 魏林·蒋等，“Vicuna：一款开源聊天机器人，以90%*的ChatGPT质量令人印象深刻”，2023年。\n- 曹一涵等，“指令挖掘：当数据挖掘遇上大语言模型微调”，2023年。\n- 苏巴布拉塔·穆克吉等，“Orca：从GPT-4复杂解释轨迹中逐步学习”，2023年。\n- 周春霆等，“LIMA：对齐之道，少即是多”，2023年。\n- 苏里亚·古纳塞卡尔等，“只需教科书就够了”，2023年。\n- 陈立昌等，“AlpaGasus：用更少的数据训练出更好的Alpaca”，2024年。\n- 蔡征等，“InternLM2技术报告”，2024年。\n- 袁利凡等，“借助偏好树推进LLM推理通才的发展”，2024年。\n- 刘伟等，“什么才是对齐任务中的优质数据？——指令微调中自动数据选择的全面研究”，2024年。\n- 王兴尧等，“MINT：在多轮交互中结合工具与语言反馈评估LLM”，2024年。","# llm-datasets 快速上手指南\n\n`llm-datasets` 并非一个需要安装的软件库或框架，而是一个由社区维护的**高质量大模型后训练（Post-training）数据集精选列表**。本指南将帮助开发者快速理解其核心价值，并指导如何获取和使用其中列出的数据集进行模型微调。\n\n## 环境准备\n\n由于本项目本质是数据资源索引，无需特定的系统环境或运行时依赖。使用前请确保具备以下条件：\n\n*   **硬件要求**：具备足够的存储空间（数据集大小从几百 MB 到数十 GB 不等）和 GPU 资源用于后续的微调训练。\n*   **前置依赖**：\n    *   Python 3.8+\n    *   `datasets` 库（Hugging Face 官方提供，用于加载数据）\n    *   `transformers` 库（用于模型加载与训练）\n    *   Hugging Face 账号（部分数据集可能需要登录同意协议）\n\n安装必要依赖：\n```bash\npip install datasets transformers accelerate\n```\n\n> **国内加速建议**：建议使用 Hugging Face 中国镜像源以加快数据下载速度。\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装步骤\n\n本项目无需执行传统的“安装”命令。使用方式主要分为两种：\n\n1.  **在线浏览**：直接访问项目的 [Hugging Face Collection](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fmlabonne\u002Fllm-datasets-66e7eb7009b824a0c5b64f8d) 或 GitHub 页面查看最新列表。\n2.  **程序化调用**：通过 `datasets` 库直接加载列表中推荐的数据集。\n\n## 基本使用\n\n以下是如何使用 Python 加载列表中典型数据集的示例。\n\n### 1. 加载通用指令数据集 (General)\n以 `open-perfectblend` 为例，这是一个包含聊天、数学、代码和指令遵循的综合数据集。\n\n```python\nfrom datasets import load_dataset\n\n# 加载数据集\ndataset = load_dataset(\"mlabonne\u002Fopen-perfectblend\", split=\"train\")\n\n# 查看第一条数据\nprint(dataset[0])\n# 输出示例：{'instruction': '...', 'input': '...', 'output': '...'}\n```\n\n### 2. 加载数学推理数据集 (Math)\n以 `NuminaMath-CoT` 为例，该数据集包含逐步推理过程，适合提升模型的数学能力。\n\n```python\nfrom datasets import load_dataset\n\n# 加载数学思维链数据集\nmath_dataset = load_dataset(\"AI-MO\u002FNuminaMath-CoT\", split=\"train\")\n\n# 检查数据量\nprint(f\"总样本数：{len(math_dataset)}\")\n# 查看包含推理步骤的样本\nprint(math_dataset[100]['solution'])\n```\n\n### 3. 加载代码数据集 (Code)\n以 `Ling-Coder-SFT` 为例，支持中英文及多种编程语言。\n\n```python\nfrom datasets import load_dataset\n\n# 加载代码数据集\ncode_dataset = load_dataset(\"inclusionAI\u002FLing-Coder-SFT\", split=\"train\")\n\n# 筛选 Python 相关数据（假设数据集中有 language 字段）\npython_samples = code_dataset.filter(lambda x: \"python\" in x.get('language', '').lower())\nprint(f\"Python 样本数量：{len(python_samples)}\")\n```\n\n### 4. 数据预处理提示\n加载后的数据通常需要根据您的微调框架（如 LLaMA-Factory, Axolotl, TRL 等）转换为特定的 JSONL 格式。以下是一个简单的转换示例，将标准字段映射为 `messages` 格式：\n\n```python\ndef convert_to_messages(example):\n    return {\n        \"messages\": [\n            {\"role\": \"user\", \"content\": example[\"instruction\"] + \"\\n\" + example.get(\"input\", \"\")},\n            {\"role\": \"assistant\", \"content\": example[\"output\"]}\n        ]\n    }\n\n# 应用转换\nformatted_dataset = dataset.map(convert_to_messages)\n```\n\n通过以上步骤，您可以迅速利用 `llm-datasets` 列表中推荐的优质数据开始您的大模型微调工作。","某初创团队正试图将开源基座模型微调为专属的金融客服助手，急需高质量指令数据来适配多轮对话与复杂推理场景。\n\n### 没有 llm-datasets 时\n- **筛选成本极高**：工程师需在 Hugging Face 海量仓库中手动大海捞针，难以辨别哪些数据集包含高质量的数学推导或代码单元测试样本。\n- **数据质量失控**：因缺乏权威参考，误用了事实性错误或逻辑单一的脏数据，导致模型在回答专业金融问题时频繁产生幻觉。\n- **领域覆盖狭窄**：自建数据仅覆盖单一语种和简单问答，模型面对多语言混合输入或复杂多轮交互时表现僵硬，泛化能力极差。\n- **合规风险隐蔽**：花费数周整理的数据集最终发现许可证不兼容（如非商用限制），迫使项目推倒重来，严重拖慢上线进度。\n\n### 使用 llm-datasets 后\n- **精准定位资源**：直接查阅 curated 列表，快速锁定如 `open-perfectblend` 等经过验证的通用数据集，瞬间获得涵盖聊天、代码与数学的优质样本。\n- **质量基准明确**：依据列表中对“准确性、多样性、复杂性”的定义，直接采用包含逐步推理痕迹和多语言支持的数据，显著提升模型逻辑能力。\n- **场景覆盖全面**：利用列表中推荐的 `Nemotron` 等多语言大规模数据集，让模型轻松胜任跨国金融咨询与复杂案情分析，不再受限于分布外数据。\n- **授权清晰无忧**：所有推荐数据集均明确标注为 Apache 2.0 或 MIT 等宽松协议，团队可放心用于商业产品微调，彻底规避法律隐患。\n\nllm-datasets 通过提供经过严格筛选的后训练数据清单，将团队从繁琐的数据清洗与合规排查中解放出来，使其能专注于核心模型架构的优化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmlabonne_llm-datasets_dc4cd13f.png","mlabonne","Maxime Labonne","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmlabonne_a4da2cd9.jpg","Head of Post-Training @ Liquid AI","Liquid AI","London, United Kingdom",null,"maximelabonne","https:\u002F\u002Fmlabonne.github.io\u002Fblog","https:\u002F\u002Fgithub.com\u002Fmlabonne",4404,358,"2026-04-06T04:05:38",1,"","未说明",{"notes":89,"python":87,"dependencies":90},"该工具（llm-datasets）并非一个需要本地安装运行环境的软件库，而是一个 curated list（精选列表），用于整理和推荐用于大语言模型后训练（Post-training）的数据集资源。用户只需访问提供的 Hugging Face 链接即可获取数据，无需配置特定的 GPU、内存或 Python 依赖环境来运行此列表本身。",[],[16,35,14],[93,94,95],"data","dataset","llm","2026-03-27T02:49:30.150509","2026-04-07T06:15:01.003524",[],[]]