[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Mooler0410--LLMsPracticalGuide":3,"tool-Mooler0410--LLMsPracticalGuide":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":16},6590,"gpt4all","nomic-ai\u002Fgpt4all","GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。\n\n对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。\n\n技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。",77307,"2026-04-11T06:52:37",[15,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":80,"owner_url":81,"languages":78,"stars":82,"forks":83,"last_commit_at":84,"license":78,"difficulty_score":54,"env_os":85,"env_gpu":85,"env_ram":85,"env_deps":86,"category_tags":89,"github_topics":90,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":95,"updated_at":96,"faqs":97,"releases":128},6936,"Mooler0410\u002FLLMsPracticalGuide","LLMsPracticalGuide","A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers)","LLMsPracticalGuide 是一份精心整理的大语言模型（LLM）实战指南资源库，旨在帮助从业者 navigating 庞大且快速演进的 LLM 领域。它基于权威综述论文《Harnessing the Power of LLMs in Practice》构建，不仅收录了丰富的学习资源、代码示例和学术论文，还独家绘制了一张“大语言模型演化树”，清晰梳理了从 BERT 到 GPT 等主流模型的发展脉络与技术流派。\n\n面对大模型技术更新快、应用门槛高、许可协议复杂等痛点，LLMsPracticalGuide 提供了系统化的解决方案。它将内容划分为模型架构、数据策略（预训练\u002F微调\u002F测试数据）、NLP 任务应用及效率优化等模块，并特别增加了模型商用与科研的使用限制说明，帮助用户规避法律与合规风险。\n\n这份资源非常适合 AI 开发者、研究人员以及希望将大模型落地到生产环境的技术团队。无论是想深入了解模型原理，还是寻找特定任务的实现方案，亦或是需要确认模型的授权范围，都能在这里找到实用的指引。通过结构化的知识梳理和持续的社区更新，LLMsPracticalGuide 让大模型的学习与应用变得","LLMsPracticalGuide 是一份精心整理的大语言模型（LLM）实战指南资源库，旨在帮助从业者 navigating 庞大且快速演进的 LLM 领域。它基于权威综述论文《Harnessing the Power of LLMs in Practice》构建，不仅收录了丰富的学习资源、代码示例和学术论文，还独家绘制了一张“大语言模型演化树”，清晰梳理了从 BERT 到 GPT 等主流模型的发展脉络与技术流派。\n\n面对大模型技术更新快、应用门槛高、许可协议复杂等痛点，LLMsPracticalGuide 提供了系统化的解决方案。它将内容划分为模型架构、数据策略（预训练\u002F微调\u002F测试数据）、NLP 任务应用及效率优化等模块，并特别增加了模型商用与科研的使用限制说明，帮助用户规避法律与合规风险。\n\n这份资源非常适合 AI 开发者、研究人员以及希望将大模型落地到生产环境的技术团队。无论是想深入了解模型原理，还是寻找特定任务的实现方案，亦或是需要确认模型的授权范围，都能在这里找到实用的指引。通过结构化的知识梳理和持续的社区更新，LLMsPracticalGuide 让大模型的学习与应用变得更加直观高效。","\u003Ch1 align=\"center\">The Practical Guides for Large Language Models \u003C\u002Fh1>\n\n\n\u003Cp align=\"center\">\n\t\u003Cimg src=\"https:\u002F\u002Fcamo.githubusercontent.com\u002F64f8905651212a80869afbecbf0a9c52a5d1e70beab750dea40a994fa9a9f3c6\u002F68747470733a2f2f617765736f6d652e72652f62616467652e737667\" alt=\"Awesome\" data-canonical-src=\"https:\u002F\u002Fawesome.re\u002Fbadge.svg\" style=\"max-width: 100%;\">\t     \n\u003C\u002Fp>\n\nA curated (still actively updated) list of practical guide resources of LLMs. It's based on our survey paper: [Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13712) and efforts from @[xinyadu](https:\u002F\u002Fgithub.com\u002Fxinyadu). The survey is partially based on the second half of this [Blog](https:\u002F\u002Fjingfengyang.github.io\u002Fgpt). We also build an evolutionary tree of modern Large Language Models (LLMs) to trace the development of language models in recent years and highlights some of the most well-known models. \n\nThese sources aim to help practitioners navigate the vast landscape of large language models (LLMs) and their applications in natural language processing (NLP) applications. We also include their usage restrictions based on the model and data licensing information.\nIf you find any resources in our repository helpful, please feel free to use them (don't forget to cite our paper! 😃). We welcome pull requests to refine this figure! \n\n\u003Cp align=\"center\">\n\u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_459e74c40be0.jpg\"\u002F>\n\u003C\u002Fp>\n\n\n```bibtex\n    @article{yang2023harnessing,\n        title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, \n        author={Jingfeng Yang and Hongye Jin and Ruixiang Tang and Xiaotian Han and Qizhang Feng and Haoming Jiang and Bing Yin and Xia Hu},\n        year={2023},\n        eprint={2304.13712},\n        archivePrefix={arXiv},\n        primaryClass={cs.CL}\n    }\n```\n\n## Latest News💥\n- We added usage and restrictions section.\n- We used PowerPoint to plot the figure and released the source file [pptx](.\u002Fsource\u002Ffigure_gif.pptx) for our GIF figure. [4\u002F27\u002F2023]\n- We released the source file for the still version [pptx](.\u002Fsource\u002Ffigure_still.pptx), and replaced the figure in this repo with the still version. [4\u002F29\u002F2023]\n- Add AlexaTM, UniLM, UniLMv2 to the figure, and correct the logo for Tk. [4\u002F29\u002F2023]\n- Add usage and Restrictions (for commercial and research purposes) section. Credits to [Dr. Du](https:\u002F\u002Fgithub.com\u002Fxinyadu).  [5\u002F8\u002F2023]\n\n\n\n\n## Other Practical Guides for LLMs\n\n- **Why did all of the public reproduction of GPT-3 fail? In which tasks should we use GPT-3.5\u002FChatGPT?** 2023, [Blog](https:\u002F\u002Fjingfengyang.github.io\u002Fgpt) \n- **Building LLM applications for production**, 2023, [Blog](https:\u002F\u002Fhuyenchip.com\u002F2023\u002F04\u002F11\u002Fllm-engineering.html)\n- **Data-centric Artificial Intelligence**, 2023, [Repo](https:\u002F\u002Fgithub.com\u002Fdaochenzha\u002Fdata-centric-AI)\u002F[Blog](https:\u002F\u002Ftowardsdatascience.com\u002Fwhat-are-the-data-centric-ai-concepts-behind-gpt-models-a590071bb727)\u002F[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10158)\n\n\n## Catalog\n* [The Practical Guides for Large Language Models ](#the-practical-guides-for-large-language-models-)\n   * [Practical Guide for Models](#practical-guide-for-models)\n      * [BERT-style Language Models: Encoder-Decoder or Encoder-only](#bert-style-language-models-encoder-decoder-or-encoder-only)\n      * [GPT-style Language Models: Decoder-only](#gpt-style-language-models-decoder-only)\n   * [Practical Guide for Data](#practical-guide-for-data)\n      * [Pretraining data](#pretraining-data)\n      * [Finetuning data](#finetuning-data)\n      * [Test data\u002Fuser data](#test-datauser-data)\n   * [Practical Guide for NLP Tasks](#practical-guide-for-nlp-tasks)\n      * [Traditional NLU tasks](#traditional-nlu-tasks)\n      * [Generation tasks](#generation-tasks)\n      * [Knowledge-intensive tasks](#knowledge-intensive-tasks)\n      * [Abilities with Scaling](#abilities-with-scaling)\n      * [Specific tasks](#specific-tasks)\n      * [Real-World ''Tasks''](#real-world-tasks)\n      * [Efficiency](#efficiency)\n      * [Trustworthiness](#trustworthiness)\n      * [Benchmark Instruction Tuning](#benchmark-instruction-tuning)\n      * [Alignment](#alignment)\n         * [Safety Alignment (Harmless)](#safety-alignment-harmless)\n         * [Truthfulness Alignment (Honest)](#truthfulness-alignment-honest)\n         * [Practical Guides for Prompting (Helpful)](#practical-guides-for-prompting-helpful)\n         * [Alignment Efforts of Open-source Communtity](#alignment-efforts-of-open-source-communtity)\n   * [Usage and Restractions (Models and Data)](#Usage-and-Restrictions)\n\n## Practical Guide for Models\n\n### BERT-style Language Models: Encoder-Decoder or Encoder-only\n\n- BERT **BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding**, 2018, [Paper](https:\u002F\u002Faclanthology.org\u002FN19-1423.pdf)\n- RoBERTa **RoBERTa: A Robustly Optimized BERT Pretraining Approach**, 2019, [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692)\n- DistilBERT **DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter**, 2019, [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n- ALBERT **ALBERT: A Lite BERT for Self-supervised Learning of Language Representations**, 2019, [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11942)\n- UniLM **Unified Language Model Pre-training for Natural Language Understanding and Generation**, 2019 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.03197)\n- ELECTRA **ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS**, 2020, [Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n- T5 **\"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer\"**. *Colin Raffel et al.* JMLR 2019. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)\n- GLM **\"GLM-130B: An Open Bilingual Pre-trained Model\"**. 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)\n- AlexaTM **\"AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model\"**. *Saleh Soltan et al.* arXiv 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448)\n- ST-MoE **ST-MoE: Designing Stable and Transferable Sparse Expert Models**. 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08906)\n\n\n### GPT-style Language Models: Decoder-only\n\n- GPT **Improving Language Understanding by Generative Pre-Training**. 2018. [Paper](https:\u002F\u002Fs3-us-west-2.amazonaws.com\u002Fopenai-assets\u002Fresearch-covers\u002Flanguage-unsupervised\u002Flanguage_understanding_paper.pdf)\n- GPT-2 **Language Models are Unsupervised Multitask Learners**. 2018. [Paper](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf)\n- GPT-3 **\"Language Models are Few-Shot Learners\"**. NeurIPS 2020. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)\n- OPT **\"OPT: Open Pre-trained Transformer Language Models\"**. 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)\n- PaLM **\"PaLM: Scaling Language Modeling with Pathways\"**. *Aakanksha Chowdhery et al.* arXiv 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n- BLOOM  **\"BLOOM: A 176B-Parameter Open-Access Multilingual Language Model\"**. 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)\n- MT-NLG **\"Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model\"**. 2021. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990)\n- GLaM **\"GLaM: Efficient Scaling of Language Models with Mixture-of-Experts\"**. ICML 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905)\n- Gopher **\"Scaling Language Models: Methods, Analysis & Insights from Training Gopher\"**. 2021. [Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2)\n- chinchilla **\"Training Compute-Optimal Large Language Models\"**. 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)\n- LaMDA **\"LaMDA: Language Models for Dialog Applications\"**. 2021. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)\n- LLaMA **\"LLaMA: Open and Efficient Foundation Language Models\"**. 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1)\n- GPT-4 **\"GPT-4 Technical Report\"**. 2023. [Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2)\n- BloombergGPT **BloombergGPT: A Large Language Model for Finance**, 2023, [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17564)\n- GPT-NeoX-20B: **\"GPT-NeoX-20B: An Open-Source Autoregressive Language Model\"**. 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n- PaLM 2: **\"PaLM 2 Technical Report\"**. 2023. [Tech.Report](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10403)\n- LLaMA 2: **\"Llama 2: Open foundation and fine-tuned chat models\"**. 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09288)\n- Claude 2: **\"Model Card and Evaluations for Claude Models\"**. 2023. [Model Card](https:\u002F\u002Fwww-files.anthropic.com\u002Fproduction\u002Fimages\u002FModel-Card-Claude-2.pdf)\n\n\n\n## Practical Guide for Data\n\n\n### Pretraining data\n- **RedPajama**, 2023. [Repo](https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FRedPajama-Data)\n- **The Pile: An 800GB Dataset of Diverse Text for Language Modeling**, Arxiv 2020. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027)\n- **How does the pre-training objective affect what large language models learn about linguistic properties?**, ACL 2022. [Paper](https:\u002F\u002Faclanthology.org\u002F2022.acl-short.16\u002F)\n- **Scaling laws for neural language models**, 2020. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08361)\n- **Data-centric artificial intelligence: A survey**, 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10158)\n- **How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources**, 2022. [Blog](https:\u002F\u002Fyaofu.notion.site\u002FHow-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1)\n### Finetuning data\n- **Benchmarking zero-shot text classification: Datasets, evaluation and entailment approach**, EMNLP 2019. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.00161)\n- **Language Models are Few-Shot Learners**, NIPS 2020. [Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html)\n- **Does Synthetic Data Generation of LLMs Help Clinical Text Mining?** Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04360)\n### Test data\u002Fuser data\n- **Shortcut learning of large language models in natural language understanding: A survey**, Arxiv 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11857)\n- **On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective** Arxiv, 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095)\n- **SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems** Arxiv 2019. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.00537)\n\n\n\n\n\n## Practical Guide for NLP Tasks\nWe build a decision flow for choosing LLMs or fine-tuned models~\\protect\\footnotemark for user's NLP applications. The decision flow helps users assess whether their downstream NLP applications at hand meet specific conditions and, based on that evaluation, determine whether LLMs or fine-tuned models are the most suitable choice for their applications.\n\u003Cp align=\"center\">\n\u003Cimg width=\"500\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_c296f001a6bf.png\"\u002F>  \n\u003C\u002Fp>\n\n### Traditional NLU tasks\n\n- **A benchmark for toxic comment classification on civil comments dataset** Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11125)\n- **Is chatgpt a general-purpose natural language processing task solver?** Arxiv 2023[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06476)\n- **Benchmarking large language models for news summarization** Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13848)\n### Generation tasks\n- **News summarization and evaluation in the era of gpt-3** Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.12356)\n- **Is chatgpt a good translator? yes with gpt-4 as the engine** Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.08745)\n- **Multilingual machine translation systems from Microsoft for WMT21 shared task**, WMT2021 [Paper](https:\u002F\u002Faclanthology.org\u002F2021.wmt-1.54\u002F)\n- **Can ChatGPT understand too? a comparative study on chatgpt and fine-tuned bert**, Arxiv 2023, [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.10198.pdf)\n\n\n\n\n### Knowledge-intensive tasks\n- **Measuring massive multitask language understanding**, ICLR 2021 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300)\n- **Beyond the imitation game: Quantifying and extrapolating the capabilities of language models**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)\n- **Inverse scaling prize**, 2022 [Link](https:\u002F\u002Fgithub.com\u002Finverse-scaling\u002Fprize)\n- **Atlas: Few-shot Learning with Retrieval Augmented Language Models**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.03299)\n- **Large Language Models Encode Clinical Knowledge**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.13138)\n\n\n### Abilities with Scaling\n\n- **Training Compute-Optimal Large Language Models**, NeurIPS 2022 [Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=iBBcRUlOAPR)\n- **Scaling Laws for Neural Language Models**, Arxiv 2020 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08361)\n- **Solving math word problems with process- and outcome-based feedback**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14275)\n- **Chain of thought prompting elicits reasoning in large language models**, NeurIPS 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)\n- **Emergent abilities of large language models**, TMLR 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07682)\n- **Inverse scaling can become U-shaped**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.02011)\n- **Towards Reasoning in Large Language Models: A Survey**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10403)\n\n\n### Specific tasks\n- **Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks**, Arixv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442)\n- **PaLI: A Jointly-Scaled Multilingual Language-Image Model**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06794)\n- **AugGPT: Leveraging ChatGPT for Text Data Augmentation**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13007)\n- **Is gpt-3 a good data annotator?**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10450)\n- **Want To Reduce Labeling Cost? GPT-3 Can Help**, EMNLP findings 2021 [Paper](https:\u002F\u002Faclanthology.org\u002F2021.findings-emnlp.354\u002F)\n- **GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation**, EMNLP findings 2021 [Paper](https:\u002F\u002Faclanthology.org\u002F2021.findings-emnlp.192\u002F)\n- **LLM for Patient-Trial Matching: Privacy-Aware Data Augmentation Towards Better Performance and Generalizability**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16756)\n- **ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15056)\n- **G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16634)\n- **GPTScore: Evaluate as You Desire**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04166)\n- **Large Language Models Are State-of-the-Art Evaluators of Translation Quality**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14520)\n- **Is ChatGPT a Good NLG Evaluator? A Preliminary Study**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04048)\n\n### Real-World ''Tasks''\n- **Sparks of Artificial General Intelligence: Early experiments with GPT-4**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712)\n\n### Efficiency\n1. Cost\n- **Openai’s gpt-3 language model: A technical overview**, 2020. [Blog Post](https:\u002F\u002Flambdalabs.com\u002Fblog\u002Fdemystifying-gpt-3)\n- **Measuring the carbon intensity of ai in cloud instances**, FaccT 2022. [Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3531146.3533234)\n- **In AI, is bigger always better?**, Nature Article 2023. [Article](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fd41586-023-00641-w)\n- **Language Models are Few-Shot Learners**, NeurIPS 2020. [Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2020\u002Ffile\u002F1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf)\n- **Pricing**, OpenAI. [Blog Post](https:\u002F\u002Fopenai.com\u002Fpricing)\n2. Latency\n- HELM: **Holistic evaluation of language models**, Arxiv 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)\n3. Parameter-Efficient Fine-Tuning\n- **LoRA: Low-Rank Adaptation of Large Language Models**, Arxiv 2021. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)\n- **Prefix-Tuning: Optimizing Continuous Prompts for Generation**, ACL 2021. [Paper](https:\u002F\u002Faclanthology.org\u002F2021.acl-long.353\u002F)\n- **P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks**, ACL 2022. [Paper](https:\u002F\u002Faclanthology.org\u002F2022.acl-short.8\u002F)\n- **P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks**, Arxiv 2022. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07602)\n4. Pretraining System\n- **ZeRO: Memory Optimizations Toward Training Trillion Parameter Models**, Arxiv 2019. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)\n- **Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism**, Arxiv 2019. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)\n- **Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM**, Arxiv 2021. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.04473)\n- **Reducing Activation Recomputation in Large Transformer Models**, Arxiv 2021. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.04473)\n\n\n### Trustworthiness\n1. Robustness and Calibration\n- **Calibrate before use: Improving few-shot performance of language models**, ICML 2021. [Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv139\u002Fzhao21c.html)\n- **SPeC: A Soft Prompt-Based Calibration on Mitigating Performance Variability in Clinical Notes Summarization**, Arxiv 2023. [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13035)\n  \n2. Spurious biases\n- **Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning**, Findings of ACL 2023 [Paper](https:\u002F\u002Faclanthology.org\u002F2023.findings-acl.284\u002F)\n- **Shortcut learning of large language models in natural language understanding: A survey**, 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11857)\n- **Mitigating gender bias in captioning system**, WWW 2020 [Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3442381.3449950)\n- **Calibrate Before Use: Improving Few-Shot Performance of Language Models**, ICML 2021 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)\n- **Shortcut Learning in Deep Neural Networks**, Nature Machine Intelligence 2020 [Paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs42256-020-00257-z)\n- **Do Prompt-Based Models Really Understand the Meaning of Their Prompts?**, NAACL 2022 [Paper](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.167\u002F)\n  \n3. Safety issues\n- **GPT-4 System Card**, 2023 [Paper](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4-system-card.pdf)\n- **The science of detecting llm-generated texts**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.07205.pdf)\n- **How stereotypes are shared through language: a review and introduction of the aocial categories and stereotypes communication (scsc) framework**, Review of Communication Research, 2019 [Paper](https:\u002F\u002Fresearch.vu.nl\u002Fen\u002Fpublications\u002Fhow-stereotypes-are-shared-through-language-a-review-and-introduc)\n- **Gender shades: Intersectional accuracy disparities in commercial gender classification**, FaccT 2018 [Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv81\u002Fbuolamwini18a\u002Fbuolamwini18a.pdf)\n\n\n### Benchmark Instruction Tuning\n\n- FLAN: **Finetuned Language Models Are Zero-Shot Learners**, Arxiv 2021 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)\n- T0: **Multitask Prompted Training Enables Zero-Shot Task Generalization**, Arxiv 2021 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)\n- **Cross-task generalization via natural language crowdsourcing instructions**, ACL 2022 [Paper](https:\u002F\u002Faclanthology.org\u002F2022.acl-long.244.pdf)\n- Tk-INSTRUCT: **Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks**, EMNLP 2022 [Paper](https:\u002F\u002Faclanthology.org\u002F2022.emnlp-main.340\u002F)\n- FLAN-T5\u002FPaLM: **Scaling Instruction-Finetuned Language Models**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)\n- **The Flan Collection: Designing Data and Methods for Effective Instruction Tuning**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)\n- **OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)\n\n### Alignment\n\n- **Deep Reinforcement Learning from Human Preferences**, NIPS 2017 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741)\n- **Learning to summarize from human feedback**, Arxiv 2020 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.01325)\n- **A General Language Assistant as a Laboratory for Alignment**, Arxiv 2021 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)\n- **Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862)\n- **Teaching language models to support answers with verified quotes**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11147)\n- InstructGPT: **Training language models to follow instructions with human feedback**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)\n- **Improving alignment of dialogue agents via targeted human judgements**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375)\n- **Scaling Laws for Reward Model Overoptimization**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10760)\n- Scalable Oversight: **Measuring Progress on Scalable Oversight for Large Language Models**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.03540.pdf)\n\n#### Safety Alignment (Harmless)\n\n- **Red Teaming Language Models with Language Models**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.03286)\n- **Constitutional ai: Harmlessness from ai feedback**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073)\n- **The Capacity for Moral Self-Correction in Large Language Models**, Arxiv 2023 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.07459)\n- **OpenAI: Our approach to AI safety**, 2023 [Blog](https:\u002F\u002Fopenai.com\u002Fblog\u002Four-approach-to-ai-safety)\n\n#### Truthfulness Alignment (Honest)\n\n- **Reinforcement Learning for Language Models**, 2023 [Blog](https:\u002F\u002Fgist.github.com\u002Fyoavg\u002F6bff0fecd65950898eba1bb321cfbd81)\n\n#### Practical Guides for Prompting (Helpful)\n\n- **OpenAI Cookbook**. [Blog](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fopenai-cookbook\u002Fblob\u002Fmain\u002Ftechniques_to_improve_reliability.md)\n- **Prompt Engineering**. [Blog](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-03-15-prompt-engineering\u002F)\n- **ChatGPT Prompt Engineering for Developers!** [Course](https:\u002F\u002Fwww.deeplearning.ai\u002Fshort-courses\u002Fchatgpt-prompt-engineering-for-developers\u002F)\n\n#### Alignment Efforts of Open-source Communtity\n\n- **Self-Instruct: Aligning Language Model with Self Generated Instructions**, Arxiv 2022 [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)\n- **Alpaca**. [Repo](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca)\n- **Vicuna**. [Repo](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat)\n- **Dolly**. [Blog](https:\u002F\u002Fwww.databricks.com\u002Fblog\u002F2023\u002F04\u002F12\u002Fdolly-first-open-commercially-viable-instruction-tuned-llm)\n- **DeepSpeed-Chat**. [Blog](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeedExamples\u002Ftree\u002Fmaster\u002Fapplications\u002FDeepSpeed-Chat)\n- **GPT4All**. [Repo](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fgpt4all)\n- **OpenAssitant**. [Repo](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant)\n- **ChatGLM**. [Repo](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B)\n- **MOSS**. [Repo](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS)\n- **Lamini**. [Repo](https:\u002F\u002Fgithub.com\u002Flamini-ai\u002Flamini\u002F)\u002F[Blog](https:\u002F\u002Flamini.ai\u002Fblog\u002Fintroducing-lamini)\n\n## Usage and Restrictions\n\n\u003C!-- We build a decision flow for choosing LLMs or fine-tuned models~\\protect\\footnotemark for user's NLP applications.  -->\n\u003C!-- The decision flow helps users assess whether their downstream NLP applications at hand meet specific conditions and, based on that evaluation, determine whether LLMs or fine-tuned models are the most suitable choice for their applications. -->\n\nWe build a table summarizing the LLMs usage restrictions (e.g. for commercial and research purposes). In particular, we provide the information from the models and their pretraining data's perspective.\nWe urge the users in the community to refer to the licensing information for public models and data and use them in a responsible manner.\nWe urge the developers to pay special attention to licensing, make them transparent and comprehensive, to prevent any unwanted and unforeseen usage.\n\n\u003Ctable class=\"table table-bordered table-hover table-condensed\">\n    \u003Cthead>\u003Ctr>\u003Cth title=\"Field #1\">LLMs\u003C\u002Fth>\n    \u003Cth title=\"Field #2\" colspan=\"3\" align=\"center\">Model\u003C\u002Fth>\n    \u003C!-- \u003Cth title=\"Field #3\">\u003C\u002Fth> -->\n    \u003C!-- \u003Cth title=\"Field #4\">\u003C\u002Fth> -->\n    \u003Cth title=\"Field #5\" colspan=\"2\" align=\"center\">Data\u003C\u002Fth>\n    \u003C!-- \u003Cth title=\"Field #6\">\u003C\u002Fth> -->\n    \u003C\u002Ftr>\u003C\u002Fthead>\n    \u003Ctbody>\u003Ctr>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>\u003Cb>License\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>Commercial Use\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>Other noteable restrictions\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>License\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>Corpus\u003Cb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>Encoder-only\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctr>\n    \u003Ctd>BERT series of models (general domain)\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>BooksCorpus, English Wikipedia\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>RoBERTa\u003C\u002Ftd>\n    \u003Ctd>MIT license\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>BookCorpus, CC-News, OpenWebText, STORIES\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>ERNIE\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>English Wikipedia\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>SciBERT\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>BERT corpus, \u003Ca href=\"https:\u002F\u002Faclanthology.org\u002FN18-3011.pdf\">1.14M papers from Semantic Scholar\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>LegalBERT\u003C\u002Ftd>\n    \u003Ctd>CC BY-SA 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public (except data from the \u003Ca href=\"https:\u002F\u002Fcase.law\u002F\">Case Law Access Project\u003C\u002Fa>)\u003C\u002Ftd>\n    \u003Ctd>EU legislation,  US court cases, etc.\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BioBERT\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.nlm.nih.gov\u002Fdatabases\u002Fdownload\u002Fterms_and_conditions.html\">PubMed\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>PubMed, PMC\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>Encoder-Decoder\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctr>\n    \u003Ctd>T5\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>C4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Flan-T5\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>C4, Mixture of tasks (Fig 2 in paper)\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BART\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>RoBERTa corpus \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GLM\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>BooksCorpus and English Wikipedia\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>ChatGLM\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\u002Fblob\u002Fmain\u002FMODEL_LICENSE\">ChatGLM License\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>No use for illegal purposes or military research, no harm the public interest of society\u003C\u002Ftd>\n    \u003Ctd>N\u002FA\u003C\u002Ftd>\n    \u003Ctd>1T tokens of Chinese and English corpus\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>Decoder-only\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctd>GPT2 \u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-2\u002Fblob\u002Fmaster\u002FLICENSE\">Modified MIT License\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>Use GPT-2 responsibly and clearly indicate your content was created using GPT-2.\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>WebText\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GPT-Neo\u003C\u002Ftd>\n    \u003Ctd>MIT license\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fpile.eleuther.ai\u002F\">Pile\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GPT-J\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>Pile\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Dolly\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI\u003C\u002Ftd>\n    \u003Ctd>Pile, Self-Instruct\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; GPT4ALL-J\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all-j-prompt-generations\">GPT4All-J dataset\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Pythia\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>Pile\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Dolly v2\u003C\u002Ftd>\n    \u003Ctd>MIT license\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>Pile, databricks-dolly-15k\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>OPT\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Fblob\u002Fmain\u002Fprojects\u002FOPT\u002FMODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4\">OPT-175B LICENSE AGREEMENT\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>No development relating to surveillance research and military, no harm the public interest of society\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>RoBERTa corpus, the Pile, PushShift.io Reddit\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; OPT-IML\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Fblob\u002Fmain\u002Fprojects\u002FOPT\u002FMODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4\">OPT-175B LICENSE AGREEMENT\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>same to OPT\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>OPT corpus, Extended version of Super-NaturalInstructions\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>YaLM\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Unspecified\u003C\u002Ftd>\n    \u003Ctd>Pile, Teams collected Texts in Russian\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BLOOM\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fbigscience.huggingface.co\u002Fblog\u002Fthe-bigscience-rail-license\">The BigScience RAIL License\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>No use of generating verifiably false information with the purpose of harming others; \u003Cbr\u002F>content without expressly disclaiming that the text is machine generated\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>ROOTS corpus (Lauren¸con et al., 2022)\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; BLOOMZ\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fbigscience.huggingface.co\u002Fblog\u002Fthe-bigscience-rail-license\">The BigScience RAIL License\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>same to BLOOM\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>ROOTS corpus, xP3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Galactica\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpaperswithcode\u002Fgalai\u002Fblob\u002Fmain\u002FLICENSE-MODEL.md\">CC BY-NC 4.0\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>N\u002FA\u003C\u002Ftd>\n    \u003Ctd>The Galactica Corpus\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>LLaMA\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA\u002Fviewform\">Non-commercial bespoke license\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>No development relating to surveillance research and military, no harm the public interest of society\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>CommonCrawl, C4, Github, Wikipedia, etc.\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Alpaca\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI\u003C\u002Ftd>\n    \u003Ctd>LLaMA corpus, Self-Instruct\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Vicuna\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Subject to terms of Use of the data generated by OpenAI; \u003Cbr\u002F>Privacy Practices of ShareGPT\u003C\u002Ftd>\n    \u003Ctd>LLaMA corpus, 70K conversations from \u003Ca href=\"http:\u002F\u002Fsharegpt.com\u002F\">ShareGPT.com\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; GPT4ALL\u003C\u002Ftd>\n    \u003Ctd>GPL Licensed LLaMa\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all_prompt_generations\">GPT4All dataset\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>OpenLLaMA\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.together.xyz\u002Fblog\u002Fredpajama\">RedPajama\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>CodeGeeX\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX\u002Fblob\u002Fmain\u002FMODEL_LICENSE\">The CodeGeeX License\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>No use for illegal purposes or military research\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>Pile, CodeParrot, etc.\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>StarCoder\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fbigcode\u002Fbigcode-model-license-agreement\">BigCode OpenRAIL-M v1 license\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>No use of generating verifiably false information with the purpose of harming others; \u003Cbr\u002F>content without expressly disclaiming that the text is machine generated\u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.15533.pdf\">The Stack\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctd>MPT-7B\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>Public\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934\">mC4 (english)\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.15533.pdf\">The Stack\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fwww.together.xyz\u002Fblog\u002Fredpajama\">RedPajama\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Faclanthology.org\u002F2020.acl-main.447\u002F\">S2ORC\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctr>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftiiuae\u002Ffalcon-40b\">falcon\u003C\u002Fa>\u003C\u002Ftd>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftiiuae\u002Ffalcon-40b\u002Fblob\u002Fmain\u002FLICENSE.txt\">TII Falcon LLM License\u003C\u002Fa>\u003C\u002Ftd>\n        \u003Ctd>✅\u002F❌\u003C\u002Ftd>\n        \u003Ctd>Available under a license allowing commercial use\u003C\u002Ftd>\n        \u003Ctd>Public\u003C\u002Ftd>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftiiuae\u002Ffalcon-refinedweb\">RefinedWeb\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C\u002Ftbody>\u003C\u002Ftable>\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_fd8463f53c3e.png)](https:\u002F\u002Fstar-history.com\u002F#Mooler0410\u002FLLMsPracticalGuide&Date)\n\n","\u003Ch1 align=\"center\">大型语言模型实用指南\u003C\u002Fh1>\n\n\n\u003Cp align=\"center\">\n\t\u003Cimg src=\"https:\u002F\u002Fcamo.githubusercontent.com\u002F64f8905651212a80869afbecbf0a9c52a5d1e70beab750dea40a994fa9a9f3c6\u002F68747470733a2f2f617765736f6d652e72652f62616467652e737667\" alt=\"Awesome\" data-canonical-src=\"https:\u002F\u002Fawesome.re\u002Fbadge.svg\" style=\"max-width: 100%;\">\t     \n\u003C\u002Fp>\n\n这是一份精心整理（仍在持续更新）的大型语言模型实用指南资源列表。该列表基于我们的综述论文：《在实践中释放大型语言模型的力量：ChatGPT及之后的综述》（arXiv:2304.13712），以及@[xinyadu](https:\u002F\u002Fgithub.com\u002Fxinyadu) 的贡献。这篇综述部分参考了这篇博客的后半部分内容：[Blog](https:\u002F\u002Fjingfengyang.github.io\u002Fgpt)。我们还构建了一棵现代大型语言模型的演化树，以追溯近年来语言模型的发展历程，并重点介绍了几款最为知名的模型。\n\n这些资源旨在帮助从业者更好地理解大型语言模型及其在自然语言处理（NLP）领域的广泛应用。此外，我们还根据模型和数据的许可信息，列出了它们的使用限制。\n\n如果您觉得本仓库中的任何资源对您有所帮助，请随时使用它们（别忘了引用我们的论文哦！😃）。我们也欢迎通过 Pull Request 来不断完善这张图！\n\n\u003Cp align=\"center\">\n\u003Cimg width=\"600\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_459e74c40be0.jpg\"\u002F>\n\u003C\u002Fp>\n\n\n```bibtex\n    @article{yang2023harnessing,\n        title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, \n        author={Jingfeng Yang and Hongye Jin and Ruixiang Tang and Xiaotian Han and Qizhang Feng and Haoming Jiang and Bing Yin and Xia Hu},\n        year={2023},\n        eprint={2304.13712},\n        archivePrefix={arXiv},\n        primaryClass={cs.CL}\n    }\n```\n\n## 最新消息💥\n- 我们新增了使用与限制部分。\n- 我们使用 PowerPoint 绘制了图表，并发布了源文件 [pptx](.\u002Fsource\u002Ffigure_gif.pptx)，用于生成 GIF 动画图。[2023年4月27日]\n- 我们发布了静态版本的源文件 [pptx](.\u002Fsource\u002Ffigure_still.pptx)，并用静态版本替换了仓库中的图片。[2023年4月29日]\n- 在图表中添加了 AlexaTM、UniLM 和 UniLMv2，并修正了 Tk 的标志。[2023年4月29日]\n- 新增了使用与限制（针对商业和研究用途）部分。特别感谢 [Dr. Du](https:\u002F\u002Fgithub.com\u002Fxinyadu) 的贡献。[2023年5月8日]\n\n\n\n\n## 其他大型语言模型实用指南\n\n- **为什么所有公开的 GPT-3 复现都失败了？我们在哪些任务中应该使用 GPT-3.5\u002FChatGPT？** 2023年，[博客](https:\u002F\u002Fjingfengyang.github.io\u002Fgpt) \n- **构建用于生产的大型语言模型应用**，2023年，[博客](https:\u002F\u002Fhuyenchip.com\u002F2023\u002F04\u002F11\u002Fllm-engineering.html)\n- **以数据为中心的人工智能**，2023年，[仓库](https:\u002F\u002Fgithub.com\u002Fdaochenzha\u002Fdata-centric-AI)\u002F[博客](https:\u002F\u002Ftowardsdatascience.com\u002Fwhat-are-the-data-centric-ai-concepts-behind-gpt-models-a590071bb727)\u002F[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10158)\n\n\n## 目录\n* [大型语言模型实用指南](#the-practical-guides-for-large-language-models-)\n   * [模型实用指南](#practical-guide-for-models)\n      * [BERT 类语言模型：编码器-解码器或仅编码器](#bert-style-language-models-encoder-decoder-or-encoder-only)\n      * [GPT 类语言模型：仅解码器](#gpt-style-language-models-decoder-only)\n   * [数据实用指南](#practical-guide-for-data)\n      * [预训练数据](#pretraining-data)\n      * [微调数据](#finetuning-data)\n      * [测试数据\u002F用户数据](#test-datauser-data)\n   * [NLP 任务实用指南](#practical-guide-for-nlp-tasks)\n      * [传统 NLU 任务](#traditional-nlu-tasks)\n      * [生成任务](#generation-tasks)\n      * [知识密集型任务](#knowledge-intensive-tasks)\n      * [规模扩展带来的能力](#abilities-with-scaling)\n      * [特定任务](#specific-tasks)\n      * [现实世界“任务”](#real-world-tasks)\n      * [效率](#efficiency)\n      * [可信性](#trustworthiness)\n      * [基准指令微调](#benchmark-instruction-tuning)\n      * [对齐](#alignment)\n         * [安全对齐（无害）](#safety-alignment-harmless)\n         * [真实性对齐（诚实）](#truthfulness-alignment-honest)\n         * [提示工程实用指南（有益）](#practical-guides-for-prompting-helpful)\n         * [开源社区的对齐努力](#alignment-efforts-of-open-source-communtity)\n   * [使用与限制（模型和数据）](#Usage-and-Restrictions)\n\n## 模型实用指南\n\n### BERT 类语言模型：编码器-解码器或仅编码器\n\n- BERT **BERT：面向语言理解的深度双向 Transformer 预训练**，2018年，[论文](https:\u002F\u002Faclanthology.org\u002FN19-1423.pdf)\n- RoBERTa **RoBERTa：一种鲁棒优化的 BERT 预训练方法**，2019年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692)\n- DistilBERT **DistilBERT，BERT 的蒸馏版：更小、更快、更便宜、更轻量**，2019年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.01108)\n- ALBERT **ALBERT：用于自监督语言表示学习的精简版 BERT**，2019年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11942)\n- UniLM **统一语言模型预训练：用于自然语言理解和生成**，2019年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.03197)\n- ELECTRA **ELECTRA：将文本编码器作为判别器而非生成器进行预训练**，2020年，[论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n- T5 **“探索迁移学习的极限：一种统一的文本到文本 Transformer”**。*Colin Raffel 等人* JMLR 2019。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)\n- GLM **“GLM-130B：一个开放的双语预训练模型”**。2022年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)\n- AlexaTM **“AlexaTM 20B：利用大规模多语言 Seq2Seq 模型进行少样本学习”**。*Saleh Soltan 等人* arXiv 2022。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448)\n- ST-MoE **ST-MoE：设计稳定且可迁移的稀疏专家模型**。2022年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08906)\n\n### GPT 类语言模型：仅解码器架构\n\n- GPT **通过生成式预训练提升语言理解能力**。2018 年。[论文](https:\u002F\u002Fs3-us-west-2.amazonaws.com\u002Fopenai-assets\u002Fresearch-covers\u002Flanguage-unsupervised\u002Flanguage_understanding_paper.pdf)\n- GPT-2 **语言模型是无监督的多任务学习者**。2018 年。[论文](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf)\n- GPT-3 **“语言模型是少样本学习者”**。NeurIPS 2020。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)\n- OPT **“OPT：开放的预训练 Transformer 语言模型”**。2022 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)\n- PaLM **“PaLM：通过 Pathways 扩展语言建模”**。*Aakanksha Chowdhery 等人* arXiv 2022。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)\n- BLOOM **“BLOOM：一个拥有 1760 亿参数的开源多语言语言模型”**。2022 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)\n- MT-NLG **“使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一个大规模生成式语言模型”**。2021 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990)\n- GLaM **“GLaM：基于专家混合的高效语言模型扩展方法”**。ICML 2022。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905)\n- Gopher **“语言模型的扩展：方法、分析及从 Gopher 训练中获得的洞见”**。2021 年。[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2)\n- chinchilla **“训练计算最优的大规模语言模型”**。2022 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)\n- LaMDA **“LaMDA：面向对话应用的语言模型”**。2021 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)\n- LLaMA **“LLaMA：开放且高效的基座语言模型”**。2023 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1)\n- GPT-4 **“GPT-4 技术报告”**。2023 年。[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2)\n- BloombergGPT **BloombergGPT：用于金融的大规模语言模型**，2023 年，[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17564)\n- GPT-NeoX-20B：**“GPT-NeoX-20B：一个开源的自回归语言模型”**。2022 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)\n- PaLM 2：**“PaLM 2 技术报告”**。2023 年。[技术报告](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10403)\n- LLaMA 2：**“Llama 2：开放的基础模型和微调后的聊天模型”**。2023 年。[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09288)\n- Claude 2：**“Claude 模型的模型卡片与评估”**。2023 年。[模型卡片](https:\u002F\u002Fwww-files.anthropic.com\u002Fproduction\u002Fimages\u002FModel-Card-Claude-2.pdf)\n\n\n\n## 数据实用指南\n\n\n### 预训练数据\n- **RedPajama**，2023 年。[仓库](https:\u002F\u002Fgithub.com\u002Ftogethercomputer\u002FRedPajama-Data)\n- **The Pile：用于语言建模的 800GB 多样化文本数据集**，Arxiv 2020。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027)\n- **预训练目标如何影响大型语言模型对语言特性的学习？** ACL 2022。[论文](https:\u002F\u002Faclanthology.org\u002F2022.acl-short.16\u002F)\n- **神经网络语言模型的缩放法则**，2020 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08361)\n- **以数据为中心的人工智能：综述**，2023 年。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10158)\n- **GPT 是如何获得其能力的？追溯语言模型涌现能力的来源**，2022 年。[博客](https:\u002F\u002Fyaofu.notion.site\u002FHow-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1)\n### 微调数据\n- **零样本文本分类基准测试：数据集、评估与蕴含方法**，EMNLP 2019。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.00161)\n- **语言模型是少样本学习者**，NIPS 2020。[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html)\n- **LLM 的合成数据生成是否有助于临床文本挖掘？** Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04360)\n### 测试数据\u002F用户数据\n- **自然语言理解中大型语言模型的捷径学习：综述**，Arxiv 2023。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11857)\n- **关于 ChatGPT 的鲁棒性：对抗性和分布外视角**，Arxiv 2023。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095)\n- **SuperGLUE：一个更具挑战性的通用语言理解系统基准测试**，Arxiv 2019。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.00537)\n\n\n\n\n\n## NLP 任务实用指南\n我们为用户的 NLP 应用构建了一个选择 LLM 或微调模型的决策流程~\\protect\\footnotemark。该决策流程帮助用户评估其下游 NLP 任务是否满足特定条件，并根据评估结果确定 LLM 还是微调模型更适合其应用。\n\u003Cp align=\"center\">\n\u003Cimg width=\"500\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_c296f001a6bf.png\"\u002F>  \n\u003C\u002Fp>\n\n### 传统 NLU 任务\n\n- **针对 civil comments 数据集的毒性评论分类基准测试** Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11125)\n- **ChatGPT 是不是通用的自然语言处理任务求解器？** Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06476)\n- **大型语言模型在新闻摘要方面的基准测试** Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13848)\n### 生成任务\n- **GPT-3 时代的新闻摘要与评估** Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.12356)\n- **ChatGPT 是不是优秀的翻译工具？是的，以 GPT-4 为引擎** Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.08745)\n- **微软为 WMT21 共享任务提供的多语言机器翻译系统**，WMT2021 [论文](https:\u002F\u002Faclanthology.org\u002F2021.wmt-1.54\u002F)\n- **ChatGPT 能否也理解？ChatGPT 与微调后 BERT 的比较研究**，Arxiv 2023，[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2302.10198.pdf)\n\n\n\n\n### 知识密集型任务\n- **衡量大规模多任务语言理解能力**，ICLR 2021 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300)\n- **超越模仿游戏：量化并推断语言模型的能力**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)\n- **逆向缩放奖**，2022 [链接](https:\u002F\u002Fgithub.com\u002Finverse-scaling\u002Fprize)\n- **Atlas：基于检索增强的语言模型的少样本学习**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.03299)\n- **大型语言模型编码了临床知识**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.13138)\n\n### 具有规模效应的能力\n\n- **训练计算最优的大语言模型**，NeurIPS 2022 [论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=iBBcRUlOAPR)\n- **神经语言模型的规模定律**，Arxiv 2020 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08361)\n- **通过过程与结果反馈解决数学应用题**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14275)\n- **思维链提示在大语言模型中激发推理能力**，NeurIPS 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)\n- **大语言模型的涌现能力**，TMLR 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.07682)\n- **反向缩放可能呈现U型曲线**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.02011)\n- **迈向大语言模型中的推理：综述**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10403)\n\n\n### 具体任务\n- **图像作为外语：BEiT预训练用于所有视觉及视觉-语言任务**，Arixv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442)\n- **PaLI：联合规模化的多语言语言-图像模型**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06794)\n- **AugGPT：利用ChatGPT进行文本数据增强**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13007)\n- **GPT-3是优秀的数据标注者吗？**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10450)\n- **想降低标注成本吗？GPT-3可以帮忙**，EMNLP findings 2021 [论文](https:\u002F\u002Faclanthology.org\u002F2021.findings-emnlp.354\u002F)\n- **GPT3Mix：利用大规模语言模型进行文本增强**，EMNLP findings 2021 [论文](https:\u002F\u002Faclanthology.org\u002F2021.findings-emnlp.192\u002F)\n- **用于患者试验匹配的LLM：面向隐私保护的数据增强以提升性能和泛化能力**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16756)\n- **ChatGPT在文本标注任务中优于众包工作者**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15056)\n- **G-Eval：使用GPT-4进行更符合人类期望的NLG评估**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16634)\n- **GPTScore：按您需求进行评估**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04166)\n- **大语言模型是当前最先进的翻译质量评估工具**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14520)\n- **ChatGPT是优秀的NLG评估者吗？一项初步研究**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04048)\n\n### 真实世界的“任务”\n- **通用人工智能的火花：GPT-4的早期实验**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712)\n\n### 效率\n1. 成本\n- **OpenAI的GPT-3语言模型：技术概述**，2020年。[博客文章](https:\u002F\u002Flambdalabs.com\u002Fblog\u002Fdemystifying-gpt-3)\n- **衡量云实例中人工智能的碳强度**，FaccT 2022。[论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3531146.3533234)\n- **在人工智能领域，越大是否总是越好？**，Nature文章 2023年。[文章](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fd41586-023-00641-w)\n- **语言模型是少样本学习者**，NeurIPS 2020。[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2020\u002Ffile\u002F1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf)\n- **定价**，OpenAI。[博客文章](https:\u002F\u002Fopenai.com\u002Fpricing)\n2. 延迟\n- HELM：**语言模型的整体评估**，Arxiv 2022。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)\n3. 参数高效的微调\n- **LoRA：大语言模型的低秩适应**，Arxiv 2021。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)\n- **Prefix-Tuning：优化连续提示以进行生成**，ACL 2021。[论文](https:\u002F\u002Faclanthology.org\u002F2021.acl-long.353\u002F)\n- **P-Tuning：提示调优在不同规模和任务上可与微调相媲美**，ACL 2022。[论文](https:\u002F\u002Faclanthology.org\u002F2022.acl-short.8\u002F)\n- **P-Tuning v2：提示调优在不同规模和任务上均可与微调相媲美**，Arxiv 2022。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07602)\n4. 预训练系统\n- **ZeRO：面向万亿参数模型训练的内存优化**，Arxiv 2019。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)\n- **Megatron-LM：利用模型并行性训练数十亿参数的语言模型**，Arxiv 2019。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)\n- **使用Megatron-LM在GPU集群上高效训练大规模语言模型**，Arxiv 2021。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.04473)\n- **减少大型Transformer模型中的激活重计算**，Arxiv 2021。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.04473)\n\n\n### 可信度\n1. 鲁棒性和校准\n- **使用前先校准：提升语言模型的少样本性能**，ICML 2021。[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv139\u002Fzhao21c.html)\n- **SPeC：基于软提示的校准，用于缓解临床笔记摘要中的性能波动**，Arxiv 2023。[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13035)\n  \n2. 虚假偏见\n- **大语言模型可能是懒惰的学习者：分析上下文学习中的捷径**，ACL 2023发现 [论文](https:\u002F\u002Faclanthology.org\u002F2023.findings-acl.284\u002F)\n- **自然语言理解中大语言模型的捷径学习：综述**，2023年 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.11857)\n- **缓解字幕系统中的性别偏见**，WWW 2020 [论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3442381.3449950)\n- **使用前先校准：提升语言模型的少样本性能**，ICML 2021 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)\n- **深度神经网络中的捷径学习**，Nature Machine Intelligence 2020 [论文](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs42256-020-00257-z)\n- **基于提示的模型真的理解其提示的含义吗？**，NAACL 2022 [论文](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.167\u002F)\n  \n3. 安全问题\n- **GPT-4系统卡片**，2023年 [论文](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4-system-card.pdf)\n- **检测LLM生成文本的科学**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.07205.pdf)\n- **刻板印象如何通过语言传播：社会类别与刻板印象沟通（SCSC）框架的回顾与介绍**，传播学研究评论，2019年 [论文](https:\u002F\u002Fresearch.vu.nl\u002Fen\u002Fpublications\u002Fhow-stereotypes-are-shared-through-language-a-review-and-introduc)\n- **性别阴影：商业性别分类中的交叉准确性差异**，FaccT 2018 [论文](https:\u002F\u002Fproceedings.mlr.press\u002Fv81\u002Fbuolamwini18a\u002Fbuolamwini18a.pdf)\n\n### 基准指令微调\n\n- FLAN：**微调后的语言模型是零样本学习者**，Arxiv 2021 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)\n- T0：**多任务提示训练实现零样本任务泛化**，Arxiv 2021 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)\n- **通过自然语言众包指令实现跨任务泛化**，ACL 2022 [论文](https:\u002F\u002Faclanthology.org\u002F2022.acl-long.244.pdf)\n- Tk-INSTRUCT：**Super-NaturalInstructions：基于1600多种NLP任务的声明式指令实现泛化**，EMNLP 2022 [论文](https:\u002F\u002Faclanthology.org\u002F2022.emnlp-main.340\u002F)\n- FLAN-T5\u002FPaLM：**扩展指令微调语言模型**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)\n- **FLAN数据集：为有效指令微调设计数据与方法**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)\n- **OPT-IML：从泛化的视角扩展语言模型指令元学习**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)\n\n### 对齐\n\n- **基于人类偏好深度强化学习**，NIPS 2017 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741)\n- **从人类反馈中学习总结**，Arxiv 2020 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.01325)\n- **通用语言助手作为对齐的实验室**，Arxiv 2021 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)\n- **利用人类反馈强化学习训练有益且无害的助手**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862)\n- **教导语言模型用经过验证的引文支持答案**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11147)\n- InstructGPT：**通过人类反馈训练语言模型遵循指令**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)\n- **通过有针对性的人类判断改进对话代理的对齐性**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375)\n- **奖励模型过度优化的规模定律**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10760)\n- 可扩展监督：**衡量大型语言模型可扩展监督的进展**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.03540.pdf)\n\n#### 安全性对齐（无害）\n\n- **用语言模型对抗语言模型**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.03286)\n- **Constitutional AI：来自AI反馈的无害性**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073)\n- **大型语言模型的道德自我修正能力**，Arxiv 2023 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.07459)\n- **OpenAI：我们的人工智能安全方法**，2023 [博客](https:\u002F\u002Fopenai.com\u002Fblog\u002Four-approach-to-ai-safety)\n\n#### 真实性对齐（诚实）\n\n- **语言模型的强化学习**，2023 [博客](https:\u002F\u002Fgist.github.com\u002Fyoavg\u002F6bff0fecd65950898eba1bb321cfbd81)\n\n#### 提示工程实用指南（有益）\n\n- **OpenAI烹饪书**。[博客](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fopenai-cookbook\u002Fblob\u002Fmain\u002Ftechniques_to_improve_reliability.md)\n- **提示工程**。[博客](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-03-15-prompt-engineering\u002F)\n- **面向开发者的ChatGPT提示工程！** [课程](https:\u002F\u002Fwww.deeplearning.ai\u002Fshort-courses\u002Fchatgpt-prompt-engineering-for-developers\u002F)\n\n#### 开源社区的对齐努力\n\n- **Self-Instruct：使用自生成指令对齐语言模型**，Arxiv 2022 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)\n- **Alpaca**。[仓库](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca)\n- **Vicuna**。[仓库](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat)\n- **Dolly**。[博客](https:\u002F\u002Fwww.databricks.com\u002Fblog\u002F2023\u002F04\u002F12\u002Fdolly-first-open-commercially-viable-instruction-tuned-llm)\n- **DeepSpeed-Chat**。[博客](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeedExamples\u002Ftree\u002Fmaster\u002Fapplications\u002FDeepSpeed-Chat)\n- **GPT4All**。[仓库](https:\u002F\u002Fgithub.com\u002Fnomic-ai\u002Fgpt4all)\n- **OpenAssitant**。[仓库](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FOpen-Assistant)\n- **ChatGLM**。[仓库](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B)\n- **MOSS**。[仓库](https:\u002F\u002Fgithub.com\u002FOpenLMLab\u002FMOSS)\n- **Lamini**。[仓库](https:\u002F\u002Fgithub.com\u002Flamini-ai\u002Flamini\u002F) \u002F [博客](https:\u002F\u002Flamini.ai\u002Fblog\u002Fintroducing-lamini)\n\n## 使用与限制\n\n\u003C!-- 我们构建了一个用于用户NLP应用选择LLM或微调模型的决策流程~\\protect\\footnotemark。 -->\n\u003C!-- 该决策流程帮助用户评估其当前的下游NLP应用是否满足特定条件，并据此判断LLM或微调模型哪一种更适合他们的应用。 -->\n\n我们制作了一张表格，总结了LLM的使用限制（例如商业用途和研究用途）。特别是，我们从模型及其预训练数据的角度提供了相关信息。\n我们敦促社区用户参考公开模型和数据的许可信息，并以负责任的方式使用它们。\n我们还敦促开发者特别关注许可问题，确保其透明且全面，以防止任何不希望发生或未预料到的使用情况。\n\n\u003Ctable class=\"table table-bordered table-hover table-condensed\">\n    \u003Cthead>\u003Ctr>\u003Cth title=\"字段 #1\">大语言模型\u003C\u002Fth>\n    \u003Cth title=\"字段 #2\" colspan=\"3\" align=\"center\">模型\u003C\u002Fth>\n    \u003C!-- \u003Cth title=\"字段 #3\">\u003C\u002Fth> -->\n    \u003C!-- \u003Cth title=\"字段 #4\">\u003C\u002Fth> -->\n    \u003Cth title=\"字段 #5\" colspan=\"2\" align=\"center\">数据\u003C\u002Fth>\n    \u003C!-- \u003Cth title=\"字段 #6\">\u003C\u002Fth> -->\n    \u003C\u002Ftr>\u003C\u002Fthead>\n    \u003Ctbody>\u003Ctr>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>\u003Cb>许可证\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>商业用途\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>其他值得注意的限制\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>许可证\u003Cb>\u003C\u002Ftd>\n    \u003Ctd>\u003Cb>语料库\u003Cb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>仅编码器\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctr>\n    \u003Ctd>BERT系列模型（通用领域）\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>BooksCorpus、英文维基百科\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>RoBERTa\u003C\u002Ftd>\n    \u003Ctd>MIT许可证\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>BookCorpus、CC-News、OpenWebText、STORIES\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>ERNIE\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>英文维基百科\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>SciBERT\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>BERT语料库、\u003Ca href=\"https:\u002F\u002Faclanthology.org\u002FN18-3011.pdf\">来自Semantic Scholar的114万篇论文\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>LegalBERT\u003C\u002Ftd>\n    \u003Ctd>CC BY-SA 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开（除来自\u003Ca href=\"https:\u002F\u002Fcase.law\u002F\">Case Law Access Project\u003C\u002Fa>的数据外）\u003C\u002Ftd>\n    \u003Ctd>欧盟立法、美国法院案例等\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BioBERT\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.nlm.nih.gov\u002Fdatabases\u002Fdownload\u002Fterms_and_conditions.html\">PubMed\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>PubMed、PMC\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>编码器-解码器\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctr>\n    \u003Ctd>T5\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>C4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Flan-T5\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>C4、任务混合体（论文图2）\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BART\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>RoBERTa语料库\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GLM\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>BooksCorpus和英文维基百科\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>ChatGLM\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\u002Fblob\u002Fmain\u002FMODEL_LICENSE\">ChatGLM许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>不得用于非法目的或军事研究，不得损害社会公共利益\u003C\u002Ftd>\n    \u003Ctd>N\u002FA\u003C\u002Ftd>\n    \u003Ctd>中英文语料共1T tokens\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n        \u003Ctd colspan=\"6\" align=\"left\">\u003Cb>仅解码器\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctd>GPT2 \u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-2\u002Fblob\u002Fmaster\u002FLICENSE\">修改后的MIT许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>应负责任地使用GPT-2，并明确注明内容由GPT-2生成。\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>WebText\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GPT-Neo\u003C\u002Ftd>\n    \u003Ctd>MIT许可证\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fpile.eleuther.ai\u002F\">Pile\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>GPT-J\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>Pile\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Dolly\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0，受OpenAI生成数据使用条款约束\u003C\u002Ftd>\n    \u003Ctd>Pile、Self-Instruct\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; GPT4ALL-J\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all-j-prompt-generations\">GPT4All-J数据集\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Pythia\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>Pile\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Dolly v2\u003C\u002Ftd>\n    \u003Ctd>MIT许可证\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>Pile、databricks-dolly-15k\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>OPT\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Fblob\u002Fmain\u002Fprojects\u002FOPT\u002FMODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4\">OPT-175B许可协议\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>不得从事监控研究和军事相关开发，不得损害社会公共利益\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>RoBERTa语料库、Pile、PushShift.io Reddit\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; OPT-IML\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Fblob\u002Fmain\u002Fprojects\u002FOPT\u002FMODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4\">OPT-175B许可协议\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>与OPT相同\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>OPT语料库、Super-NaturalInstructions扩展版\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>YaLM\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>未指定\u003C\u002Ftd>\n    \u003Ctd>Pile、俄语团队收集的文本\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>BLOOM\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fbigscience.huggingface.co\u002Fblog\u002Fthe-bigscience-rail-license\">BigScience RAIL许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>不得利用该模型生成可验证的虚假信息以伤害他人；\u003Cbr\u002F>内容需明确声明并非机器生成\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>ROOTS语料库（Lauren¸con等人，2022年）\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; BLOOMZ\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fbigscience.huggingface.co\u002Fblog\u002Fthe-bigscience-rail-license\">BigScience RAIL许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>与BLOOM相同\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>ROOTS语料库、xP3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>Galactica\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpaperswithcode\u002Fgalai\u002Fblob\u002Fmain\u002FLICENSE-MODEL.md\">CC BY-NC 4.0\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>N\u002FA\u003C\u002Ftd>\n    \u003Ctd>Galactica语料库\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>LLaMA\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA\u002Fviewform\">非商业定制许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>不得从事监控研究和军事相关开发，不得损害社会公共利益\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>CommonCrawl、C4、Github、维基百科等\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Alpaca\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0，受OpenAI生成数据使用条款约束\u003C\u002Ftd>\n    \u003Ctd>LLaMA语料库、Self-Instruct\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; Vicuna\u003C\u002Ftd>\n    \u003Ctd>CC BY NC 4.0\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>受OpenAI生成数据使用条款及ShareGPT隐私政策约束\u003C\u002Ftd>\n    \u003Ctd>LLaMA语料库、来自\u003Ca href=\"http:\u002F\u002Fsharegpt.com\u002F\">ShareGPT.com\u003C\u002Fa>的7万条对话\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>---&gt; GPT4ALL\u003C\u002Ftd>\n    \u003Ctd>GPL授权的LLaMa\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnomic-ai\u002Fgpt4all_prompt_generations\">GPT4All数据集\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>OpenLLaMA\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.together.xyz\u002Fblog\u002Fredpajama\">RedPajama\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>CodeGeeX\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX\u002Fblob\u002Fmain\u002FMODEL_LICENSE\">CodeGeeX许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>❌\u003C\u002Ftd>\n    \u003Ctd>不得用于非法目的或军事研究\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>Pile、CodeParrot等\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>StarCoder\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fbigcode\u002Fbigcode-model-license-agreement\">BigCode OpenRAIL-M v1许可证\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd>不得利用该模型生成可验证的虚假信息以伤害他人；\u003Cbr\u002F>内容需明确声明并非机器生成\u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.15533.pdf\">The Stack\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctd>MPT-7B\u003C\u002Ftd>\n    \u003Ctd>Apache 2.0\u003C\u002Ftd>\n    \u003Ctd>✅\u003C\u002Ftd>\n    \u003Ctd> \u003C\u002Ftd>\n    \u003Ctd>公开\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934\">mC4（英语）\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.15533.pdf\">The Stack\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.together.xyz\u002Fblog\u002Fredpajama\">RedPajama\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Faclanthology.org\u002F2020.acl-main.447\u002F\">S2ORC\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctr>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftiiuae\u002Ffalcon-40b\">falcon\u003C\u002Fa>\u003C\u002Ftd>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftiiuae\u002Ffalcon-40b\u002Fblob\u002Fmain\u002FLICENSE.txt\">TII Falcon LLM许可证\u003C\u002Fa>\u003C\u002Ftd>\n        \u003Ctd>✅\u002F❌\u003C\u002Ftd>\n        \u003Ctd>可在允许商业使用的许可下使用\u003C\u002Ftd>\n        \u003Ctd>公开\u003C\u002Ftd>\n        \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftiiuae\u002Ffalcon-refinedweb\">RefinedWeb\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C\u002Ftbody>\u003C\u002Ftable>\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_readme_fd8463f53c3e.png)](https:\u002F\u002Fstar-history.com\u002F#Mooler0410\u002FLLMsPracticalGuide&Date)","# LLMsPracticalGuide 快速上手指南\n\nLLMsPracticalGuide 并非一个可安装的软件库或 Python 包，而是一个**精选的大语言模型（LLM）实践指南资源列表**。它基于综述论文《Harnessing the Power of LLMs in Practice》，整理了模型架构、数据准备、任务应用、对齐策略及使用限制等核心资料。\n\n本指南将帮助开发者快速访问和利用该仓库中的核心资源。\n\n## 环境准备\n\n由于本项目主要是文档、论文链接和资源索引，**无需安装特定的运行时环境或依赖库**。\n\n*   **系统要求**：任意操作系统（Windows, macOS, Linux）。\n*   **前置依赖**：\n    *   现代 Web 浏览器（用于查看在线论文和博客）。\n    *   Git（可选，用于克隆仓库获取本地资源，如进化树图谱源文件）。\n    *   Microsoft PowerPoint（可选，用于编辑仓库中提供的 `.pptx` 图谱源文件）。\n\n## 安装步骤（获取资源）\n\n你可以通过以下两种方式获取资源：\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面查看所有分类指南和论文链接：\n*   仓库地址：https:\u002F\u002Fgithub.com\u002Fjingfengyang\u002FLLMsPracticalGuide\n\n### 方式二：克隆到本地\n如果你需要下载图谱图片（`.jpg`）或 PPT 源文件（`.pptx`），请使用以下命令：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fjingfengyang\u002FLLMsPracticalGuide.git\ncd LLMsPracticalGuide\n```\n\n> **提示**：如果在国内访问 GitHub 速度较慢，可使用国内镜像加速（如 `ghproxy.com`）：\n> ```bash\n> git clone https:\u002F\u002Fghproxy.com\u002Fhttps:\u002F\u002Fgithub.com\u002Fjingfengyang\u002FLLMsPracticalGuide.git\n> ```\n\n## 基本使用\n\n本项目的核心用法是**根据需求查阅对应的资源章节**。以下是针对中国开发者的常用场景指引：\n\n### 1. 选择适合的模型架构\n根据你的应用场景，参考 `Practical Guide for Models` 章节：\n*   **理解类任务 (NLU)**：查看 **BERT-style** 部分（如 BERT, RoBERTa, GLM）。\n    *   *推荐关注*：**GLM-130B** (清华团队开源的双语预训练模型)。\n*   **生成类任务 (NLG)**：查看 **GPT-style** 部分（如 LLaMA, ChatGLM, Baichuan 等衍生资源）。\n    *   *推荐关注*：**LLaMA 2**, **ChatGLM** 系列相关论文链接。\n\n### 2. 准备训练与微调数据\n在 `Practical Guide for Data` 章节查找数据集：\n*   **预训练数据**：参考 **RedPajama** 或 **The Pile** 的仓库链接。\n*   **微调数据**：查看关于 Zero-shot 分类或合成数据生成的论文链接。\n\n### 3. 解决具体 NLP 任务\n利用 `Practical Guide for NLP Tasks` 中的决策流程图 (`imgs\u002Fdecision.png`)：\n*   判断你的任务是需要通用大模型 (LLM) 还是微调后的小模型。\n*   查阅 **Traditional NLU tasks** (如文本分类)、**Generation tasks** (如摘要、翻译) 或 **Knowledge-intensive tasks** (如问答) 下的基准测试论文。\n\n### 4. 查看模型使用限制\n务必阅读 `Usage and Restractions` 部分（如有更新），了解各模型在**商业用途**和**研究用途**上的许可证限制，避免合规风险。\n\n### 5. 引用项目\n如果在研究中使用了该资源列表，请在论文中引用：\n\n```bibtex\n@article{yang2023harnessing,\n    title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, \n    author={Jingfeng Yang and Hongye Jin and Ruixiang Tang and Xiaotian Han and Qizhang Feng and Haoming Jiang and Bing Yin and Xia Hu},\n    year={2023},\n    eprint={2304.13712},\n    archivePrefix={arXiv},\n    primaryClass={cs.CL}\n}\n```","某初创公司的算法团队正计划为电商客服系统选型并微调一个大语言模型，以处理复杂的售后咨询。\n\n### 没有 LLMsPracticalGuide 时\n- **模型选型迷茫**：面对数百个开源模型，团队难以理清 BERT 式与 GPT 式架构的演进脉络，无法快速锁定适合生成任务的基座模型。\n- **合规风险隐蔽**：在缺乏明确指引的情况下，容易忽略模型的商用许可限制，可能导致后续产品上线面临法律纠纷。\n- **数据准备低效**：不清楚不同任务（如知识密集型 vs 传统 NLU）对预训练和微调数据的具体要求，导致数据清洗方向错误，浪费算力资源。\n- **技术调研碎片化**：需要花费数天时间在 arXiv、博客和论坛间拼凑信息，难以形成系统化的落地方案，严重拖慢项目进度。\n\n### 使用 LLMsPracticalGuide 后\n- **路径清晰可视**：通过直观的\"LLM 进化树”，团队迅速定位到适合对话生成的 Decoder-only 模型家族，大幅缩短选型决策时间。\n- **授权一目了然**：直接查阅工具整理的“使用与限制”章节，快速筛选出支持商业闭源部署的模型，从源头规避合规隐患。\n- **数据策略精准**：参考针对特定 NLP 任务的实践指南，团队明确了构建高质量微调数据集的标准，显著提升了模型在售后场景的表现。\n- **资源一站获取**：依托基于综述论文整理的结构化资源库，团队在几小时内就完成了从理论调研到工程落地的完整路径规划。\n\nLLMsPracticalGuide 将碎片化的大模型知识转化为可执行的导航图，帮助开发者在纷繁的技术浪潮中精准避坑、高效落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMooler0410_LLMsPracticalGuide_459e74c4.jpg","Mooler0410",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMooler0410_e6915549.jpg","https:\u002F\u002Fmooler0410.github.io\u002FpuguJin\u002F","https:\u002F\u002Fgithub.com\u002FMooler0410",10157,786,"2026-04-11T02:03:28","",{"notes":87,"python":85,"dependencies":88},"该仓库（LLMsPracticalGuide）并非一个可执行的软件工具或模型代码库，而是一份关于大语言模型（LLM）的实践指南资源列表（包含论文、博客、数据集链接等）。因此，它没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户只需通过浏览器查看内容或克隆仓库即可，无需配置运行环境。",[],[15],[91,92,93,94],"large-language-models","natural-language-processing","nlp","survey","2026-03-27T02:49:30.150509","2026-04-13T04:04:31.500250",[98,103,108,113,118,123],{"id":99,"question_zh":100,"answer_zh":101,"source_url":102},31251,"论文中的进化树图（Fig 1）是使用什么工具绘制的？","该图主要是使用 Microsoft PowerPoint 手工绘制的，并配合人工修饰。作者已上传了相关的源文件（gif 源文件），用户可以参考或直接使用。未来团队计划推出基于 JavaScript 的版本。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F3",{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},31252,"是否可以在我的论文或研究中引用或使用 LLM 进化树图片？","可以。作者明确允许用户在适当引用和归属的前提下，在其论文、研究或项目中复用 LLM 进化树的图片甚至 PPTX 源文件。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F17",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},31253,"为什么 GLM 模型在表格中被归类为 Decoder-only，而在图中被归类为 Encoder-Decoder？","这是一个分类不一致的疏忽。GLM 的架构比较特殊，最初被归入 Decoder-only 家族，但在制作动态图时，团队认为将其归为 Encoder-Decoder 更为合适。表格未同步更新，作者承诺会在下一个 arXiv 版本中修复此错误。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F4",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},31254,"仅使用自然语言理解（NLU）进行用户意图分类的应用，是否属于“模仿人类”（Mimicking Human）？","不属于。这类应用通常被视为传统的 NLU 任务。关于“模仿人类”的具体定义和讨论，建议参考论文的第 4.5 节。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F7",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},31255,"决策流程图（decision.png）中的\"Fine-tuned Models\"是指小型 NLP 模型还是微调后的大语言模型（LLM）？","在该图的语境下，\"Fine-tuned Models\"通常指针对特定任务进行过微调的小型传统 NLP 模型，用于与无需微调即可处理复杂任务的大语言模型（LLM）形成对比，特别是在涉及上下文包含足够知识 versus 需要涌现能力（如推理）的任务场景中。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F27",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},31256,"发现图表中存在拼写错误（如\"real-word\"应为\"real world\"）或不一致的格式，会修复吗？","作者非常感谢用户的反馈，并表示会尽快修复这些拼写错误和格式不一致的问题（包括大小写规范等）。","https:\u002F\u002Fgithub.com\u002FMooler0410\u002FLLMsPracticalGuide\u002Fissues\u002F6",[]]