[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-voidful--awesome-chatgpt-dataset":3,"tool-voidful--awesome-chatgpt-dataset":65},[4,18,28,36,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[14,13,27],"语言模型",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[27,15,13,14],{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":24,"last_commit_at":42,"category_tags":43,"status":17},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[14,27],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":24,"last_commit_at":50,"category_tags":51,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[15,16,52,53,13,54,27,14,55],"视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[27,16,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":80,"owner_website":83,"owner_url":84,"languages":85,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":62,"env_os":94,"env_gpu":94,"env_ram":94,"env_deps":95,"category_tags":98,"github_topics":99,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":105,"updated_at":106,"faqs":107,"releases":108},6978,"voidful\u002Fawesome-chatgpt-dataset","awesome-chatgpt-dataset","Unlock the Power of LLM: Explore These Datasets to Train Your Own ChatGPT!","awesome-chatgpt-dataset 是一个专为大语言模型（LLM）训练者打造的优质数据集精选库。它旨在解决开发者在微调专属聊天机器人时，面临的高质量指令数据难寻找、难整合的痛点。通过汇总从数学推理、代码生成到安全对齐等多领域的开源数据集，该项目让用户能轻松解锁训练自己\"ChatGPT\"的潜力。\n\n该资源特别适合 AI 研究人员、算法工程师以及希望深入探索模型微调的开发者使用。其核心亮点在于提供了便捷的混合数据集构建方案：用户只需克隆仓库，利用内置的预处理脚本，即可自由挑选并合并不同规模（从 1K 到数十万条不等）的数据集，一键上传至 Hugging Face。列表详细标注了每个数据集的规模、语言、来源及许可协议，并按大小排序，方便用户根据算力资源和应用场景快速匹配。无论是需要少量高质量样本进行实验，还是寻求大规模数据用于全面训练，awesome-chatgpt-dataset 都能提供清晰、透明的数据支持，助力高效开展大模型对齐与优化工作。","# awesome-chatgpt-dataset\n![Alt Text](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvoidful_awesome-chatgpt-dataset_readme_315bdb0d811c.gif)    \n\n## Unlock the Power of LLM: Explore These Datasets to Train Your Own ChatGPT!\n\n## Select your own mixed dataset\n> ```bash\n> git clone https:\u002F\u002Fgithub.com\u002Fvoidful\u002Fawesome-chatgpt-dataset.git\n> cd awesome-chatgpt-dataset\u002Fmixed\u002Fdataset\n> ```\n> pick whatever dataset you want to use, then merge and upload:\n> ```bash\n> python preprocess.py your_dataset_name_to_HuggingFaceHub\n> ```\n\n## Dataset Detail\n\n*Sorted by dataset size (small → large). Items with unknown size appear at the end.*\n\nDataset Name | Size | Languages | Source | License\n---|---|---|---|---\n[TheoremQA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTIGER-Lab\u002FTheoremQA) | 1K | English | We annotated 800 QA pairs covering 350+ theorems spanning across Math, EE&CS, Physics and Finance. | mit\n[LIMA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FGAIR\u002Flima) | 1K | English | LIMA: Less Is More for Alignment. | cc-by-nc-sa-4.0\n[WildGuardMix](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fwildguardmix) | 1.7K | English | Safety training mixture with vanilla\u002Fadversarial prompts and multi-annotator labels. | odc-by\n[Berkeley Function Calling Leaderboard (BFCL)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgorilla-llm\u002FBerkeley-Function-Calling-Leaderboard) | 2K | English + code | Function\u002Ftool-calling eval covering parallel\u002Fmulti-call scenarios across languages. | -\n[im-feeling-curious](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fxiyuez\u002Fim-feeling-curious) | 3K | English | Extract from Google’s “I’m Feeling Curious” facts. | -\n[Puffin](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLDJnr\u002FPuffin) | 3K | English | Exactly 3,000 multi-turn examples; each response via GPT‑4. | apache-2.0\n[cc_sbu_align](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVision-CAIR\u002Fcc_sbu_align) | 4K | English | MiniGPT‑4 alignment data (image–text). | bsd-3-clause\n[QA-Feedback](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftasksource\u002FQA-Feedback) | 4K | English | Re‑constructed ASQA with human feedback. | -\n[SLF5K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJeremyAlain\u002FSLF5K) | 5K | English | Summarization with Language Feedback (5K unique samples). | apache-2.0\n[blended_skill_talk](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fblended_skill_talk) | 7K | English | 7k conversations blending personality, empathy, and knowledge. | -\n[GSM‑IC](https:\u002F\u002Fgithub.com\u002Fgoogle-research-datasets\u002FGSM-IC) | 8K | English | Grade‑School Math with Irrelevant Context (distractor sentences). | -\n[ChatAlpaca‑10K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fflpelerin\u002FChatAlpaca-10k) | 10K | English | 10,000 multi‑turn conversations (Alpaca‑based). | apache-2.0\n[PKU‑SafeRLHF‑10K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FPKU-Alignment\u002FPKU-SafeRLHF-10K) | 10K | English | First‑round Safe‑RLHF data with safety preferences. | -\n[Dolly‑15K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatabricks\u002Fdatabricks-dolly-15k) | 15K | English | 15k instruction records crowdsourced by Databricks. | cc-by-3.0\n[WebGPT (comparisons)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenai\u002Fwebgpt_comparisons) | 20K | English | Human preference comparisons for WebGPT reward modeling. | -\n[CodeAlpaca‑20K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fsahil2801\u002FCodeAlpaca-20k) | 20K | English | 20,022 instruction–code pairs for code generation. | -\n[HelpSteer2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer2) | 21K | English | Open-source helpfulness data for reward models and preference learning. | cc-by-4.0\n[openapi-function-invocations‑25k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Funaidedelf87777\u002Fopenapi-function-invocation-25k) | 25K | English | Synthetic + extracted OpenAPI function-call traces. | mit\n[LongForm](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fakoksal\u002Flongform-651a946d99cf1a4e396060a8) | 28K | English | Reverse‑instruction long‑text generation dataset. | mit\n[Chatbot Arena Conversations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fchatbot_arena_conversations) | 33K | English | 33K cleaned Arena chats with pairwise preferences. | -\n[HC3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3) | 37K | English, Chinese | 37,175 instructions with human vs LLM answers. | -\n[Anthropic HH Golden](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAnthropic\u002Fhh-rlhf) | 45K | English | Helpful & Harmless preference data; golden subset. | -\n[Mol‑Instructions](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzjunlp\u002FMol-Instructions) | 48K | English | Biomolecular instruction dataset for LLMs. | cc-by-4.0\n[RefGPT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fxusenlinzy\u002Frefgpt-1.0) | 50K | English, Chinese | Cost‑effective pipeline to generate multi‑turn Q&A with references. | -\n[arxiv‑math‑instruct‑50k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLIAMF-USP\u002Farxiv-math-instruct-50k) | 50K | English | QA pairs derived from arXiv math abstracts. | -\n[arxiv‑math‑instruct‑50k (ArtifactAI)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FArtifactAI\u002Farxiv-math-instruct-50k) | 51K | English | T5‑generated questions; GPT‑3.5 answers. | -\n[Traditional Chinese Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvoidful\u002Falpaca-trad-chinese) | 52K | Traditional Chinese | Alpaca translated by ChatGPT API. | apache-2.0\n[Cabrita Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcabrita-labs\u002Fcabrita-instruct-52k) | 52K | Portuguese | Alpaca translated to Portuguese. | -\n[Japanese Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstudioml-staging\u002Fjapanese-alpaca-data) | 52K | Japanese | Alpaca translated by ChatGPT API. | cc-by-nc-4.0; OpenAI terms\n[Alpaca Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftatsu-lab\u002Falpaca) | 52K | English | 175 seed instructions completed by OpenAI. | cc-by-nc-4.0; OpenAI terms\n[Alpaca Data Cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyahma\u002Falpaca-cleaned) | 52K | English | Cleaned Alpaca 52K. | -\n[Alpaca GPT‑4 Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvicgalle\u002Falpaca-gpt4) | 52K | English | Same prompts, GPT‑4 completions. | -\n[Alpaca GPT‑4 Chinese](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM) | 52K | Chinese | GPT‑4 completions for Chinese prompts. | -\n[xLAM Function Calling 60K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002Fxlam-function-calling-60k) | 60K | English | Structured tool-calling data for executable agents. | apache-2.0\n[Dynosaur](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYUWEI995\u002Fdynosaur) | 66K | English | Dynamic growth paradigm for instruction curation. | apache-2.0\n[Finance](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgbharti\u002Ffinance-alpaca) | 69K | English | 68,912 finance‑related instructions. | -\n[WizardLM evol](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002Fevol-instruct) | 70K | English | Evolutionary instruction tuning data (WizardLM). | -\n[Vicuna Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fvicuna) | 75K | English | ~100k ShareGPT conversations (curated). | -\n[InstructionTranslation](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInstruction-Tuning-with-GPT-4\u002FInstruction-Translation) | 80K | Multi-lingual | M2M‑12B translated instructions (≤512 tokens). | mit\n[Self‑Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyizhongw\u002Fself_instruct) | 82K | English | 52K seed instructions; 82K I\u002FO pairs. | -\n[OASST1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst1) | 89K | Multi-lingual | Human‑generated assistant conversations (35 languages). | apache-2.0\n[HH‑RLHF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAnthropic\u002Fhh-rlhf) | 91K | English | Helpful\u002Fharmless RLHF pairs. | mit\n[Guanaco Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJosephusCheung\u002FGuanacoDataset) | 98K | En, Zh‑CN, Zh‑HK\u002FTW, Ja | 175 Alpaca tasks across languages. | gpl-3.0\n[InstructionWild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FXueFuzhao\u002FInstructionWild) | 104K | English, Chinese | Seeded 429 instructions; ~52K generated. | research-only; OpenAI terms\n[CAMEL Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcamel-ai\u002Fmath) | 107K | English | Multi‑role, topic‑diverse instruction dialogues. | -\n[TAPIR‑Cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvoidful\u002FTapir-Cleaned) | 117K | English | Cleaned IFTTT rule dataset for instruction tuning. | cc-by-nc-4.0\n[OASST2 (final)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst2) | 135K | Multi-lingual | Open Assistant Conversations Release 2 (train+val). | apache-2.0\n[WizardLM Evol‑Instruct V2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002FWizardLM_evol_instruct_V2_196k) | 143K | English | 143K mixture‑evolved data. | -\n[LLaVA Visual Instruct 150K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002FLLaVA-Instruct-150K) | 150K | English | GPT‑generated multimodal instruction pairs. | cc-by-nc-4.0\n[ProsocialDialog](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fprosocial-dialog) | 166K | English | 165,681 prosocial instructions and feedback. | -\n[M2Lingual](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FServiceNow-AI\u002FM2lingual) | 175K | Multi-lingual | Multilingual mixed‑modal (code+text) chat\u002Finstruct SFT. | -\n[COIG](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FCOIG) | 191K | Chinese | Chinese Open Instruction Generalist. | apache-2.0\n[orca‑chat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpen-Orca\u002FOpenOrca) | 198K | English | Cleaned, pruned conversation‑style Orca subset. | -\n[OpenR1‑Math‑220k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopen-r1\u002FOpenR1-Math-220k) | 220K | English | DeepSeek‑R1 distilled math traces (verified). | apache-2.0\n[Unnatural Instructions](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fnatural-instructions) | 241K | English | Large creative\u002Fdiverse instruction corpus. | mit\n[WildJailbreak](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fwildjailbreak) | 262K | English | Synthetic jailbreak and benign contrastive prompts. | odc-by\n[SHP](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstanfordnlp\u002FSHP) | 358K | English | 385K Reddit preference pairs across 18 topics. | reddit – revocable, non‑exclusive\n[Dromedary](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMBZUAI\u002FLaMini-instruction) | 361K | English | Dromedary‑Verbose‑Clone synthetic instructions. | cc-by-nc-4.0\n[UltraChat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceH4\u002Fultrachat_200k) | 404K | English | Dual‑API generation (user vs assistant) for quality control. | cc-by-nc-4.0\n[IGN Clean Instruct 500K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fteknium\u002Fign_clean_instruct_dataset_500k) | 509K | English | ~508k Ultrachat‑sourced, high‑quality instructions. | apache-2.0\n[ELI5](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Feli5) | 559K | English | Long‑form community Q&A (“Explain Like I’m Five”). | -\n[GPT4All](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all_prompt_generations) | 806K | Multi-lingual | LAION OIG + StackOverflow + P3 prompts; OpenAI outputs. | -\n[Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyizhongw\u002Fself_instruct) | 889K | English | 888,969 English instructions (augmented). | mit\n[MOSS](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffnlp\u002Fmoss-003-sft-data) | 1M | Chinese | GPT‑3.5‑turbo generated Chinese SFT data. | apache-2.0 + agpl-3.0\n[WildChat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat) | 1.0M | English | In‑the‑wild user–LLM chat dataset (license updated). | odc-by\n[smolTalk](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceTB\u002Fsmoltalk) | 1.1M | English | Ultra‑compact multi‑turn chat for small‑scale SFT. | apache-2.0\n[Open‑PerfectBlend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Fopen-perfectblend) | 1.42M | English | Diverse, deduped chat blend for general SFT. | apache-2.0\n[The Tome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Farcee-ai\u002FThe-Tome) | 1.75M | English | Large cleaned instruction dataset curated by Arcee. | mit\n[NaturalReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffacebook\u002Fnatural_reasoning) | 2.8M | English | 2.8M challenging reasoning questions (decontaminated). | cc-by-nc-4.0\n[LaMini‑Instruction](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMBZUAI\u002FLaMini-instruction) | 3.0M | English | ~2.58M–3M instruction–response pairs (GPT‑3.5). | cc-by-nc-4.0\n[OpenOrca (full)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpen-Orca\u002FOpenOrca) | 3.0M | English | GPT‑4\u002F3.5 augmented FLAN collection. | -\n[WildChat‑4.8M (nontoxic subset)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat) | 3.20M | English | Nontoxic filtered split of WildChat 4.8M. | odc-by\n[Infinity‑Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FInfinity-Instruct) | 8.9M | Multi-lingual | 7.4M base + ~1.5M chat instruction data. | cc-by-sa-4.0\n[BELLE‑10M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_1M_CN) | 10M | Chinese | Multi‑type Chinese instructions across domains. | research-only; OpenAI terms\n[Firefly](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYeungNLP\u002Ffirefly-train-1.1M) | 16M | Chinese | 1.6M+ Chinese instructions across 23 NLP tasks (expanded corpora). | -\n[OIG‑43M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flaion\u002FOIG) | 43M | Multi-lingual | LAION + Together + OntoCord composite instruction pool. | -\n[xP3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fbigscience\u002FxP3) | 79M | Multi-lingual | 78,883,588 instructions from prompted datasets across 46 languages & 16 tasks. | -\n\n### Unknown \u002F mixed-size (kept for completeness; format consistent with original)\n\nDataset Name | Size | Languages | Source | License\n---|---|---|---|---\n[CodeParrot](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodeparrot\u002Fcodeparrot-clean) | - | python | 180GB Python files (\u003C1MB each), 20M+ files. | -\n[Alpaca‑CoT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FQingyiSi\u002FAlpaca-CoT) | - | Multi-lingual | Instruction data with chain‑of‑thought traces. | odc-by\n[stack-exchange-paired](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstanfordnlp\u002Fstack-exchange-paired) | - | English | StackExchange Q&A pairs for preference modeling. | cc-by-sa-4.0\n[LangChainDatasets](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\u002Ftree\u002Fmaster\u002Fcookbook) | - | English | Community datasets to evaluate chains & agents. | -\n[ParlAI](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FParlAI) | - | English | Dialog research platform with many tasks\u002Fdatasets. | -\n[GPTeacher](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fteknium\u002FGPTeacher-General-Instruct) | - | English | Instruction datasets consolidated for general SFT. | -\n[Wizard‑LM Chinese Evol](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002FWizardLM_Chinese_instruct_dataset) | - | Chinese | Chinese evol‑instruct corpus. | -\n[MultiWOZ](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmulti_woz_v22) | - | English | Multi‑domain Wizard‑of‑Oz dialog dataset. | -\n[ToolACE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTeam-ACE\u002FToolACE) | - | English | Multi‑tool calling SFT (functions, API JSON, tool plans). | -\n[UltraFeedback (cleaned binarized)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fultrafeedback-binarized-preferences-cleaned) | - | English | UltraFeedback preferences cleaned & binarized. | cc-by-nc-4.0\n[glaive‑function‑calling‑v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fglaiveai\u002Fglaive-function-calling-v2) | - | English | Function‑calling SFT dataset with tool schemas & arguments. | apache-2.0\n","# 令人惊叹的ChatGPT数据集\n![替代文本](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvoidful_awesome-chatgpt-dataset_readme_315bdb0d811c.gif)    \n\n## 解锁大语言模型的强大能力：探索这些数据集，训练属于你自己的ChatGPT！\n\n## 自选混合数据集\n> ```bash\n> git clone https:\u002F\u002Fgithub.com\u002Fvoidful\u002Fawesome-chatgpt-dataset.git\n> cd awesome-chatgpt-dataset\u002Fmixed\u002Fdataset\n> ```\n> 挑选你想要使用的数据集，然后合并并上传：\n> ```bash\n> python preprocess.py 你的数据集名称_to_HuggingFaceHub\n> ```\n\n## 数据集详情\n\n*按数据集大小排序（小 → 大）。大小未知的条目将显示在最后。*\n\n数据集名称 | 大小 | 语言 | 来源 | 许可证\n---|---|---|---|---\n[TheoremQA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTIGER-Lab\u002FTheoremQA) | 1K | 英语 | 我们标注了800个问答对，涵盖数学、电气工程与计算机科学、物理和金融领域的350多个定理。 | MIT\n[LIMA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FGAIR\u002Flima) | 1K | 英语 | LIMA：对齐中的“少即是多”。 | CC BY-NC-SA 4.0\n[WildGuardMix](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fwildguardmix) | 1.7K | 英语 | 包含常规\u002F对抗性提示及多标注者标签的安全训练混合数据集。 | ODC-BY\n[Berkeley Function Calling Leaderboard (BFCL)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgorilla-llm\u002FBerkeley-Function-Calling-Leaderboard) | 2K | 英语 + 代码 | 覆盖多种语言下并行\u002F多调用场景的函数\u002F工具调用评估。 | -\n[im-feeling-curious](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fxiyuez\u002Fim-feeling-curious) | 3K | 英语 | 摘自谷歌的“I’m Feeling Curious”事实库。 | -\n[Puffin](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLDJnr\u002FPuffin) | 3K | 英语 | 精确包含3,000个多轮对话示例；每条回复均由GPT‑4生成。 | Apache-2.0\n[cc_sbu_align](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVision-CAIR\u002Fcc_sbu_align) | 4K | 英语 | MiniGPT‑4对齐数据（图像–文本）。 | BSD-3-Clause\n[QA-Feedback](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftasksource\u002FQA-Feedback) | 4K | 英语 | 基于人工反馈重构的ASQA数据集。 | -\n[SLF5K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJeremyAlain\u002FSLF5K) | 5K | 英语 | 带有语言反馈的摘要生成数据集（5,000个独特样本）。 | Apache-2.0\n[blended_skill_talk](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fblended_skill_talk) | 7K | 英语 | 7,000段融合个性、同理心和知识的对话。 | -\n[GSM‑IC](https:\u002F\u002Fgithub.com\u002Fgoogle-research-datasets\u002FGSM-IC) | 8K | 英语 | 包含无关背景信息（干扰句）的小学数学题。 | -\n[ChatAlpaca‑10K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fflpelerin\u002FChatAlpaca-10k) | 10K | 英语 | 10,000个多轮对话（基于Alpaca模型）。 | Apache-2.0\n[PKU‑SafeRLHF‑10K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FPKU-Alignment\u002FPKU-SafeRLHF-10K) | 10K | 英语 | 第一轮安全RLHF数据，包含安全偏好。 | -\n[Dolly‑15K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fdatabricks\u002Fdatabricks-dolly-15k) | 15K | 英语 | Databricks众包的15,000条指令记录。 | CC BY-3.0\n[WebGPT (comparisons)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenai\u002Fwebgpt_comparisons) | 20K | 英语 | 用于WebGPT奖励模型的人类偏好比较数据集。 | -\n[CodeAlpaca‑20K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fsahil2801\u002FCodeAlpaca-20k) | 20K | 英语 | 20,022组指令–代码对，用于代码生成任务。 | -\n[HelpSteer2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer2) | 21K | 英语 | 开源的助益性数据，用于奖励模型和偏好学习。 | CC BY-4.0\n[openapi-function-invocations‑25k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Funaidedelf87777\u002Fopenapi-function-invocation-25k) | 25K | 英语 | 合成+提取的OpenAPI函数调用轨迹数据集。 | MIT\n[LongForm](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fakoksal\u002Flongform-651a946d99cf1a4e396060a8) | 28K | 英语 | 反向指令的长文本生成数据集。 | MIT\n[Chatbot Arena Conversations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fchatbot_arena_conversations) | 33K | 英语 | 33,000条清理后的Arena聊天记录，附带成对偏好。 | -\n[HC3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHello-SimpleAI\u002FHC3) | 37K | 英语、中文 | 37,175条指令，包含人类与LLM的回答。 | -\n[Anthropic HH Golden](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAnthropic\u002Fhh-rlhf) | 45K | 英语 | 有益且无害的偏好数据；黄金子集。 | -\n[Mol‑Instructions](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzjunlp\u002FMol-Instructions) | 48K | 英语 | 面向LLM的生物分子指令数据集。 | CC BY-4.0\n[RefGPT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fxusenlinzy\u002Frefgpt-1.0) | 50K | 英语、中文 | 成本效益高的流水线，用于生成带参考文献的多轮问答。 | -\n[arxiv‑math‑instruct‑50k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLIAMF-USP\u002Farxiv-math-instruct-50k) | 50K | 英语 | 从arXiv数学摘要中提取的问答对。 | -\n[arxiv‑math‑instruct‑50k (ArtifactAI)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FArtifactAI\u002Farxiv-math-instruct-50k) | 51K | 英语 | T5生成的问题；GPT‑3.5回答。 | -\n[Traditional Chinese Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvoidful\u002Falpaca-trad-chinese) | 52K | 繁体中文 | 由ChatGPT API翻译的Alpaca数据集。 | Apache-2.0\n[Cabrita Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcabrita-labs\u002Fcabrita-instruct-52k) | 52K | 葡萄牙语 | Alpaca被翻译成葡萄牙语。 | -\n[Japanese Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstudioml-staging\u002Fjapanese-alpaca-data) | 52K | 日语 | 由ChatGPT API翻译的Alpaca数据集。 | CC BY-NC-4.0；OpenAI条款\n[Alpaca Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftatsu-lab\u002Falpaca) | 52K | 英语 | 由OpenAI完成的175条种子指令。 | CC BY-NC-4.0；OpenAI条款\n[Alpaca Data Cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyahma\u002Falpaca-cleaned) | 52K | 英语 | 清理后的Alpaca 52K数据集。 | -\n[Alpaca GPT‑4 Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvicgalle\u002Falpaca-gpt4) | 52K | 英语 | 相同的提示，由GPT‑4完成。 | -\n[Alpaca GPT‑4 Chinese](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInstruction-Tuning-with-GPT-4\u002FGPT-4-LLM) | 52K | 中文 | 针对中文提示的GPT‑4完成内容。 | -\n[xLAM Function Calling 60K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSalesforce\u002Fxlam-function-calling-60k) | 60K | 英语 | 面向可执行智能体的结构化工具调用数据集。 | Apache-2.0\n[Dynosaur](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYUWEI995\u002Fdynosaur) | 66K | 英语 | 动态增长范式，用于指令整理。 | Apache-2.0\n[Finance](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fgbharti\u002Ffinance-alpaca) | 69K | 英语 | 68,912条金融相关指令。 | -\n[WizardLM evol](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002Fevol-instruct) | 70K | 英语 | 进化型指令微调数据集（WizardLM）。 | -\n[Vicuna Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flmsys\u002Fvicuna) | 75K | 英语 | 约10万条ShareGPT聊天记录（精选）。 | -\n[InstructionTranslation](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FInstruction-Tuning-with-GPT-4\u002FInstruction-Translation) | 80K | 多语言 | M2M‑12B翻译的指令（≤512 tokens）。 | MIT\n[Self‑Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyizhongw\u002Fself_instruct) | 82K | 英语 | 52K条种子指令；82K个输入输出对。 | -\n[OASST1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst1) | 89K | 多语言 | 人类生成的助手对话（35种语言）。 | Apache-2.0\n[HH‑RLHF](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FAnthropic\u002Fhh-rlhf) | 91K | 英语 | 有益\u002F无害的RLHF配对数据集。 | MIT\n[Guanaco Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FJosephusCheung\u002FGuanacoDataset) | 98K | 英语、简体中文、繁体中文、日语 | 跨语言的175个Alpaca任务。 | GPL-3.0\n[InstructionWild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FXueFuzhao\u002FInstructionWild) | 104K | 英语、中文 | 以429条指令为种子；约52K条自动生成。 | 仅限研究用途；OpenAI条款\n[CAMEL Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcamel-ai\u002Fmath) | 107K | 英语 | 多角色、主题多样的指令对话。 | -\n[TAPIR‑Cleaned](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fvoidful\u002FTapir-Cleaned) | 117K | 英语 | 清理后的IFTTT规则数据集，用于指令微调。 | CC BY-NC-4.0\n[OASST2 (final)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst2) | 135K | 多语言 | Open Assistant对话发布2（训练+验证）。 | Apache-2.0\n[WizardLM Evol‑Instruct V2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002FWizardLM_evol_instruct_V2_196k) | 143K | 英语 | 143K条混合进化数据集。 | -\n[LLaVA Visual Instruct 150K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002FLLaVA-Instruct-150K) | 150K | 英语 | GPT生成的多模态指令对。 | CC BY-NC-4.0\n[ProsocialDialog](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fprosocial-dialog) | 166K | 英语 | 165,681条亲社会指令及反馈。 | -\n[M2Lingual](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FServiceNow-AI\u002FM2lingual) | 175K | 多语言 | 多语言混合模态（代码+文本）聊天\u002F指令SFT。 | -\n[COIG](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FCOIG) | 191K | 中文 | 中国开放指令通用模型。 | Apache-2.0\n[orca‑chat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpen-Orca\u002FOpenOrca) | 198K | 英语 | 清理、修剪后的Orca风格对话子集。 | -\n[OpenR1‑Math‑220k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopen-r1\u002FOpenR1-Math-220k) | 220K | 英语 | DeepSeek‑R1蒸馏的数学轨迹（已验证）。 | Apache-2.0\n[Unnatural Instructions](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fnatural-instructions) | 241K | 英语 | 大规模创意\u002F多样化指令语料库。 | MIT\n[WildJailbreak](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002Fwildjailbreak) | 262K | 英语 | 合成越狱及良性对比提示。 | ODC-BY\n[SHP](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstanfordnlp\u002FSHP) | 358K | 英语 | 385K条Reddit上的18个主题的偏好配对数据集。 | Reddit——可撤销、非独家许可\n[Dromedary](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMBZUAI\u002FLaMini-instruction) | 361K | 英语 | Dromedary‑Verbose‑Clone合成指令。 | CC BY-NC-4.0\n[UltraChat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceH4\u002Fultrachat_200k) | 404K | 英语 | 双API生成（用户 vs 助手），用于质量控制。 | CC BY-NC-4.0\n[IGN Clean Instruct 500K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fteknium\u002Fign_clean_instruct_dataset_500k) | 509K | 英语 | 约508K条来自Ultrachat的高质量指令。 | Apache-2.0\n[ELI5](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Feli5) | 559K | 英语 | 长篇社区问答（“像对待五岁小孩一样解释”）。 | -\n[GPT4All](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all_prompt_generations) | 806K | 多语言 | LAION OIG + StackOverflow + P3提示；OpenAI输出。 | -\n[Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyizhongw\u002Fself_instruct) | 889K | 英语 | 888,969条英语指令（增强版）。 | MIT\n[MOSS](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffnlp\u002Fmoss-003-sft-data) | 1M | 中文 | GPT‑3.5‑turbo生成的中文SFT数据集。 | Apache-2.0 + AGPL-3.0\n[WildChat](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat) | 1.0M | 英语 | 实际场景下的用户–LLM聊天数据集（许可证已更新）。 | ODC-BY\n[smolTalk](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FHuggingFaceTB\u002Fsmoltalk) | 1.1M | 英语 | 超紧凑型多轮聊天，适用于小型SFT。 | Apache-2.0\n[Open‑PerfectBlend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmlabonne\u002Fopen-perfectblend) | 1.42M | 英语 | 多样化、去重后的聊天混合数据集，适用于通用SFT。 | Apache-2.0\n[The Tome](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Farcee-ai\u002FThe-Tome) | 1.75M | 英语 | 由Arcee整理的大规模清理后指令数据集。 | MIT\n[NaturalReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffacebook\u002Fnatural_reasoning) | 2.8M | 英语 | 2.8M道具有挑战性的推理题（已净化）。 | CC BY-NC-4.0\n[LaMini‑Instruction](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FMBZUAI\u002FLaMini-instruction) | 3.0M | 英语 | 约2.58M–3M条指令–回应对（GPT‑3.5）。 | CC BY-NC-4.0\n[OpenOrca (full)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpen-Orca\u002FOpenOrca) | 3.0M | 英语 | GPT‑4\u002F3.5增强的FLAN集合。 | -\n[WildChat‑4.8M (无毒子集)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fallenai\u002FWildChat) | 3.20M | 英语 | WildChat 4.8M中的无毒过滤版本。 | ODC-BY\n[Infinity‑Instruct](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBAAI\u002FInfinity-Instruct) | 8.9M | 多语言 | 7.4M基础数据 + 约1.5M聊天指令数据集。 | CC BY-SA 4.0\n[BELLE‑10M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_1M_CN) | 10M | 中文 | 跨领域、多类型的中文指令数据集。 | 仅限研究用途；OpenAI条款\n[Firefly](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FYeungNLP\u002Ffirefly-train-1.1M) | 16M | 中文 | 23个NLP任务中超过160万条中文指令（扩展语料库）。 | -\n[OIG‑43M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flaion\u002FOIG) | 43M | 多语言 | LAION + Together + OntoCord组成的复合指令池。 | -\n[xP3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fbigscience\u002FxP3) | 79M | 多语言 | 来自46种语言、16个任务的提示数据集中的78,883,588条指令。 | -\n\n### 未知\u002F混合大小（为完整性保留；格式与原文一致）\n\n数据集名称 | 大小 | 语言 | 来源 | 许可证\n---|---|---|---|---\n[CodeParrot](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodeparrot\u002Fcodeparrot-clean) | - | python | 180GB Python 文件（每个小于1MB），2000多万个文件。 | -\n[Alpaca‑CoT](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FQingyiSi\u002FAlpaca-CoT) | - | 多语言 | 带有思维链轨迹的指令数据。 | odc-by\n[stack-exchange-paired](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstanfordnlp\u002Fstack-exchange-paired) | - | 英语 | 用于偏好建模的 StackExchange 问答对。 | cc-by-sa-4.0\n[LangChainDatasets](https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\u002Ftree\u002Fmaster\u002Fcookbook) | - | 英语 | 用于评估链条和智能体的社区数据集。 | -\n[ParlAI](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FParlAI) | - | 英语 | 对话研究平台，包含多项任务和数据集。 | -\n[GPTeacher](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fteknium\u002FGPTeacher-General-Instruct) | - | 英语 | 为通用 SFT 整合的指令数据集。 | -\n[Wizard‑LM Chinese Evol](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FWizardLM\u002FWizardLM_Chinese_instruct_dataset) | - | 中文 | 中文 evol‑instruct 语料库。 | -\n[MultiWOZ](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fmulti_woz_v22) | - | 英语 | 多领域 Wizard‑of‑Oz 对话语料库。 | -\n[ToolACE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FTeam-ACE\u002FToolACE) | - | 英语 | 多工具调用 SFT（函数、API JSON、工具计划）。 | -\n[UltraFeedback（清理后的二值化）](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fargilla\u002Fultrafeedback-binarized-preferences-cleaned) | - | 英语 | UltraFeedback 偏好数据经过清理和二值化处理。 | cc-by-nc-4.0\n[glaive‑function‑calling‑v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fglaiveai\u002Fglaive-function-calling-v2) | - | 英语 | 包含工具模式和参数的函数调用 SFT 数据集。 | apache-2.0","# awesome-chatgpt-dataset 快速上手指南\n\n本指南帮助开发者快速克隆并筛选适合的大语言模型（LLM）训练数据集，用于微调自己的 ChatGPT 类模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows (WSL 推荐)\n*   **Python 版本**：Python 3.8 或更高版本\n*   **依赖工具**：\n    *   `git`：用于克隆仓库\n    *   `pip`：用于安装 Python 依赖（如 `datasets`, `huggingface_hub` 等，通常脚本会自动处理或需根据 `requirements.txt` 安装）\n*   **网络环境**：由于数据托管在 Hugging Face Hub，建议配置网络加速。\n    *   **国内加速方案**：推荐使用 Hugging Face 国内镜像源。\n      ```bash\n      export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n      ```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    使用 git 将项目代码下载到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fvoidful\u002Fawesome-chatgpt-dataset.git\n    ```\n\n2.  **进入数据集目录**\n    切换到包含混合数据集脚本的目录：\n    ```bash\n    cd awesome-chatgpt-dataset\u002Fmixed\u002Fdataset\n    ```\n\n3.  **安装 Python 依赖**\n    如果目录下有 `requirements.txt`，请执行：\n    ```bash\n    pip install -r requirements.txt\n    ```\n    *(注：若无需额外依赖即可运行 `preprocess.py`，可跳过此步，直接确保已安装 `huggingface_hub` 和 `datasets` 库)*\n\n## 基本使用\n\n该工具的核心功能是让你从列表中挑选任意数据集，合并后上传至你自己的 Hugging Face Hub 账户，以便进行模型训练。\n\n### 1. 选择数据集\n参考项目 README 中的 \"Dataset Detail\" 表格，根据**数据量大小**、**语言**（支持中文数据集如 MOSS, COIG, Alpaca Chinese 等）和**许可证**选择你需要的数据集名称。\n\n### 2. 执行预处理与上传\n运行 `preprocess.py` 脚本，指定你想要使用的数据集名称以及目标 Hugging Face Hub 的数据集名称。\n\n**命令格式：**\n```bash\npython preprocess.py \u003Cyour_dataset_name_to_HuggingFaceHub>\n```\n\n**使用示例：**\n假设你想使用中文指令数据集 `MOSS` 并将其上传到你账号下的 `my-llm-data\u002Fmoss-cn` 数据集：\n\n```bash\n# 设置国内镜像加速 (可选但推荐)\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n\n# 执行脚本，将选定的数据合并并推送到你的 Hub\npython preprocess.py my-llm-data\u002Fmoss-cn\n```\n\n*注意：运行前请确保你已通过 `huggingface-cli login` 登录了拥有写入权限的 Hugging Face 账号。*\n\n### 3. 后续操作\n脚本执行完成后，数据将出现在你的 Hugging Face Hub 仓库中。你可以直接在 LLM 训练框架（如 LLaMA-Factory, DeepSpeed, Axolotl 等）中引用该数据集路径进行微调训练。","某初创教育科技公司希望快速构建一个专攻“高中数学解题”的垂直领域大模型，以辅助学生理解复杂公式与定理。\n\n### 没有 awesome-chatgpt-dataset 时\n- **数据搜集耗时极长**：团队需在 Hugging Face 等平台手动搜索分散的数学数据集，花费数周时间筛选，却难以找到包含定理推导的高质量语料。\n- **领域针对性不足**：找到的通用对话数据（如日常闲聊）占比过高，导致模型在解答涉及物理、金融跨学科数学题时逻辑混乱，幻觉严重。\n- **预处理工程繁重**：不同来源的数据格式千差万别，工程师需编写大量定制脚本进行清洗和对齐，严重拖慢了模型微调的启动进度。\n- **安全与评估缺失**：缺乏专门针对错误推理的对抗性样本和安全标注数据，模型容易输出错误的解题步骤且难以通过自动化基准测试。\n\n### 使用 awesome-chatgpt-dataset 后\n- **一键获取精准语料**：直接通过工具定位并下载 `TheoremQA`（覆盖 350+ 定理）和 `GSM-IC`（含干扰项的数学题），瞬间构建起高质量的专业训练集。\n- **灵活混合数据集**：利用提供的 `preprocess.py` 脚本，轻松将数学专项数据与 `LIMA` 等通用指令数据按比例合并，显著提升了模型的逻辑推理与泛化能力。\n- **大幅降低工程门槛**：工具自动处理了数据格式统一与上传 Hugging Face 的流程，让算法团队能将精力集中在模型架构优化而非数据清洗上。\n- **内置评估与安全增强**：引入 `WildGuardMix` 和 `BFCL` 等数据集进行对抗训练与功能调用评估，确保模型输出不仅准确，而且符合安全规范。\n\nawesome-chatgpt-dataset 通过提供结构化、多领域的精选数据集，将垂直大模型的冷启动周期从数周缩短至数天，让开发者能真正专注于模型能力的深度定制。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvoidful_awesome-chatgpt-dataset_ed794c28.png","voidful","Eric Lam","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fvoidful_892d5d31.png","👩‍🎓PhD@NTU Speech Lab. \r\nFormerly, Microsoft Research Intern.",null,"Taiwan","voidful.stack@gmail.com","https:\u002F\u002Feric-lam.com","https:\u002F\u002Fgithub.com\u002Fvoidful",[86],{"name":87,"color":88,"percentage":89},"Python","#3572A5",100,763,65,"2026-04-10T07:34:08","GPL-3.0","未说明",{"notes":96,"python":94,"dependencies":97},"该仓库主要是一个数据集列表和简单的预处理脚本集合，用于合并和上传数据集到 HuggingFace Hub。README 中未提及具体的训练环境、GPU 显存或深度学习框架（如 PyTorch\u002FTensorFlow）的版本要求。运行 `preprocess.py` 脚本通常仅需基础的 Python 环境和网络访问权限以下载\u002F处理数据，具体资源需求取决于用户选择的数据集大小及后续实际训练任务。",[],[27,16],[100,101,102,103,104],"awesome","chatgpt","dataset","gpt4","instructions","2026-03-27T02:49:30.150509","2026-04-13T06:11:20.905121",[],[]]