[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-RUCAIBox--LLMSurvey":3,"tool-RUCAIBox--LLMSurvey":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":76,"owner_url":77,"languages":78,"stars":103,"forks":104,"last_commit_at":105,"license":75,"difficulty_score":106,"env_os":107,"env_gpu":108,"env_ram":108,"env_deps":109,"category_tags":112,"github_topics":113,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":125,"updated_at":126,"faqs":127,"releases":168},7878,"RUCAIBox\u002FLLMSurvey","LLMSurvey","The official GitHub page for the survey paper \"A Survey of Large Language Models\".","LLMSurvey 是一个专注于大语言模型（LLM）的开源学术资源库，旨在系统性地整理和呈现该领域的前沿论文与技术进展。面对大模型研究爆发式增长、文献海量且分散的现状，它依据权威综述论文《A Survey of Large Language Models》的框架，将零散的研究成果梳理成清晰的知识体系，帮助使用者快速把握技术脉络。\n\n该项目不仅汇集了基础理论、架构演进及应用案例，还紧跟时事更新了关于“长链式思维（Long CoT）推理”等最新热门范式的内容，深入探讨了数据构建、训练方法及测试时扩展策略。此外，团队还推出了配套的中文入门书籍，专门为零基础或初学者提供详尽的技术路线图。\n\nLLMSurvey 特别适合人工智能领域的研究人员、高校学生以及希望深入理解大模型底层逻辑的开发者使用。无论是需要撰写综述、寻找创新灵感，还是希望系统学习大模型技术栈，这里都能提供高效、准确的文献指引和结构化的知识支持，是进入大语言模型世界的优质导航站。","# LLMSurvey\n\n\n> A collection of papers and resources related to Large Language Models. \n>\n> The organization of papers refers to our survey [**\"A Survey of Large Language Models\"**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.18223). [![Paper page](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fpaper-page-sm-dark.svg)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2303.18223)\n>\n> Please let us know if you find out a mistake or have any suggestions by e-mail: batmanfly@gmail.com\n>\n> (we suggest ccing another email francis_kun_zhou@163.com meanwhile, in case of any unsuccessful delivery issue.)\n>\n>\n> If you find our survey useful for your research, please cite the following paper:\n\n```\n@article{LLMSurvey,\n    title={A Survey of Large Language Models},\n    author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and Du, Yifan and Yang, Chen and Chen, Yushuo and Chen, Zhipeng and Jiang, Jinhao and Ren, Ruiyang and Li, Yifan and Tang, Xinyu and Liu, Zikang and Liu, Peiyu and Nie, Jian-Yun and Wen, Ji-Rong},\n    year={2023},\n    journal={arXiv preprint arXiv:2303.18223},\n    url={http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.18223}\n}\n```\n\n## 🚀(New) We have released the Chinese book of our survey!\n\nThe Chinese book focuses on providing explanations for beginners in the field of LLMs, aiming to present a comprehensive framework and roadmap for LLMs. This book is suitable for senior undergraduate students and junior graduate students with a foundation in deep learning and can serve as an introductory technical book.\nYou can download the Chinese book at [https:\u002F\u002Fllmbook-zh.github.io\u002F](https:\u002F\u002Fllmbook-zh.github.io\u002F).\n\nHere is our [Chinese book sales page](https:\u002F\u002Fitem.jd.com\u002F14901508.html).\n\n![chinese_version](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_b1f687efd281.jpg)\n\n## 🚀(New) The content about long CoT reasoning \n\nIn our latest version, we add new content of the recent popular reasoning paradigm by allocating more time to thinking before responding to a problem. We focus on long CoT reasoning which is the mainstream approach taken by recent LLMs, such as DeepSeek-R1 and OpenAI's o-series models. We first discuss the reasoning patterns and advantages of the long CoT paradigm. Then we present the construction approaches of long CoT data, including data distillation, search-based data synthesis, and multi-agent collaboration. Moreover, we introduce the commonly-used two training methods: long CoT instruction tuning and scaling reinforcement learning training. Finally, we conduct a in-depth discussion about recent test-time scaling efforts for LLMs.\n\n\u003Cdiv align=center>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_2491dca2cd76.png\" alt=\"Cover\" width=\"60%\"\u002F>\u003C\u002Fdiv>\n\n## The trends of the number of papers related to LLMs on arXiv\n\nHere are the trends of the cumulative numbers of arXiv papers that contain the keyphrases “language model” (since June 2018)\nand “large language model” (since October 2019), respectively.\n\n![arxiv_llms](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_05caef3b5e63.png)\n\nThe statistics are calculated using exact match by querying the keyphrases in title or abstract by months. We set different x-axis ranges for the two keyphrases, because “language models” have been explored at an earlier time. We label the points corresponding to important landmarks in the research progress of LLMs. A sharp increase occurs after the release of ChatGPT: the average number of published arXiv papers that contain “large language model” in title or abstract goes from 0.40 per day to 8.58 per day.\n\n\n\n## Technical Evolution of GPT-series Models\n\nA brief illustration for the technical evolution of GPT-series models. We plot this figure mainly based on the papers, blog articles and official APIs from OpenAI. Here, solid lines denote that there exists an explicit evidence (e.g., the official statement that a new model is developed based on a base model) on the evolution path between two models, while dashed lines denote a relatively weaker evolution relation.\n\n\n\n![gpt-series](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_34f678a274b3.png)\n\n\n\n## Evolutionary Graph of LLaMA Family\n\nAn evolutionary graph of the research work conducted on LLaMA. Due to the huge number, we cannot include all\nthe LLaMA variants in this figure, even much excellent work. \n\n\n\n![LLaMA_family](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_26931c1560be.png)\n\n\n\nTo support incremental update, **we share the source file of this figure, and welcome the readers to include the desired models by submitting the pull requests on our GitHub page. If you're instrested, please request by application.**\n\n\n\n\n## Prompts\n\nWe collect some useful tips for designing prompts that are collected from online notes and experiences from our authors, where we also show the related ingredients and principles (introduced in Section 8.1). \n\n![prompt examples](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_81733703f1cc.png)\n\nPlease click [here](Prompts\u002FREADME.md) to view more detailed information.\n\n**Welcome everyone to provide us with more relevant tips in the form of [issues](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F34)**. After selection, we will regularly update them on GitHub and indicate the source.\n\n\n\n## Experiments\n\n### Instruction Tuning Experiments\n\nWe will explore the effect of different types of instructions in fine-tuning LLMs (i.e., 7B LLaMA26), as well as examine the usefulness of several instruction improvement strategies.\n\n\n\n![instruction_tuning_table](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_6d463fab50bc.png)\n\n\n\nPlease click [here](Experiments\u002FREADME.md) to view more detailed information.\n\n### Ability Evaluaition Experiments\n\nWe conduct a fine-grained evaluation on the abilities discussed in Section 7.1 and Section 7.2. For each kind of ability, we select representative tasks and datasets for conducting evaluation experiments to examine the corresponding performance of LLMs. \n\n\n\n![ability_main](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_a57dd17dfe6a.png)\n\n\n\nPlease click [here](Experiments\u002FREADME.md) to view more detailed information.\n\n\n\n**We also call for support of computing power for conducting more comprehensive experiments.**\n\n\n\n## Table of Contents\n\n- [LLMSurvey](#llmsurvey)\n  - [Chinese Version](#chinese-version)\n  - [🚀(New) The trends of the number of papers related to LLMs on arXiv](#new-the-trends-of-the-number-of-papers-related-to-llms-on-arxiv)\n  - [🚀(New) Technical Evolution of GPT-series Models](#new-technical-evolution-of-gpt-series-models)\n  - [🚀(New) Evolutionary Graph of LLaMA Family](#new-evolutionary-graph-of-llama-family)\n  - [🚀(New) Prompts](#new-prompts)\n  - [🚀(New) Experiments](#new-experiments)\n    - [Instruction Tuning Experiments](#instruction-tuning-experiments)\n    - [Ability Evaluaition Experiments](#ability-evaluaition-experiments)\n  - [Table of Contents](#table-of-contents)\n  - [Timeline of LLMs](#timeline-of-llms)\n  - [List of LLMs](#list-of-llms)\n  - [Paper List](#paper-list)\n    - [Resources of LLMs](#resources-of-llms)\n      - [Publicly Available Models](#publicly-available-models)\n      - [Closed-source Models](#closed-source-models)\n      - [Commonly Used Corpora](#commonly-used-corpora)\n      - [Library Resource](#library-resource)\n      - [Deep Learning Frameworks](#deep-learning-frameworks)\n    - [Pre-training](#pre-training)\n      - [Data Collection](#data-collection)\n      - [Architecture](#architecture)\n        - [Mainstream Architectures](#mainstream-architectures)\n        - [Detailed Configuration](#detailed-configuration)\n        - [Analysis](#analysis)\n      - [Training Algorithms](#training-algorithms)\n      - [Pre-training on Code](#pre-training-on-code)\n        - [LLMs for Program Synthesis](#llms-for-program-synthesis)\n        - [NLP Tasks Formatted as Code](#nlp-tasks-formatted-as-code)\n    - [Adaptation Tuning](#adaptation-tuning)\n      - [Instruction Tuning](#instruction-tuning)\n      - [Alignment Tuning](#alignment-tuning)\n      - [Parameter-Efficient Model Adaptation](#parameter-efficient-model-adaptation)\n      - [Memory-Efficient Model Adaptation](#memory-efficient-model-adaptation)\n    - [Utilization](#utilization)\n      - [In-Context Learning (ICL)](#in-context-learning-icl)\n      - [Chain-of-Thought Reasoning (CoT)](#chain-of-thought-reasoning-cot)\n      - [Planning for Complex Task Solving](#planning-for-complex-task-solving)\n    - [Capacity Evaluation](#capacity-evaluation)\n    - [The Team](#the-team)\n  - [Acknowledgments](#acknowledgments)\n  - [Update Log](#update-log)\n\n## Timeline of LLMs\n\n![LLMs_timeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_ffd187663fee.png)\n\n\n\n\n\n## List of LLMs\n\n\u003Ctable class=\"tg\">\n\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-nrix\" align=\"center\" rowspan=\"2\">Category\u003C\u002Fth>\n    \u003Cth class=\"tg-baqh\" align=\"center\" rowspan=\"2\">model\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\" align=\"center\" rowspan=\"2\">Release Time\u003C\u002Fth>\n    \u003Cth class=\"tg-baqh\" align=\"center\" rowspan=\"2\">Size(B)\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\" align=\"center\" rowspan=\"2\">Link\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\" align=\"center\" rowspan=\"27\">Publicly \u003Cbr>Accessbile\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">T5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2019\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">mT5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PanGu-α\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F05\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.12369\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CPM-2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F05\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">198\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10715\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">T0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-NeoX-20B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F02\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CodeGen\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">16\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Tk-Instruct\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F04\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">UL2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F02\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05131\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">OPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F05\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">YaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F06\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">100\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyandex\u002FYaLM-100B\">GitHub\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">NLLB\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F07\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">55\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04672\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">BLOOM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F07\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">176\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F08\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">130\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-T5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">mT0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Galatica\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\" align=\"center\" align=\"center\">2022\u002F11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\" align=\"center\">120\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">BLOOMZ\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">176\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">OPT-IML\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Pythia\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F01\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01373\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">LLaMA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F02\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">65\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Vicuna\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F\">Blog\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ChatGLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\">GitHub\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CodeGeeX\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Alpaca\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fcrfm.stanford.edu\u002F2023\u002F03\u002F13\u002Falpaca.html\">Blog\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Koala\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F04\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fbair.berkeley.edu\u002Fblog\u002F2023\u002F04\u002F03\u002Fkoala\u002F\">Blog\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Mistral\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F09\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fmistral.ai\u002Fnews\u002Fannouncing-mistral-7b\u002F\">Blog\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\" align=\"center\" rowspan=\"31\">Closed\u003Cbr>Source\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GShard\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2020\u002F01\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\" align=\"center\">600\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16668v1\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2020\u002F05\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">LaMDA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F05\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">137\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">HyperCLOVA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F06\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">82\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Codex\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F07\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ERNIE 3.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\" align=\"center\">2021\u002F07\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.02137\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Jurassic-1\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F08\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">178\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fassets.website-files.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\" align=\"center\">FLAN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">137\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">MT-NLG\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">530\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Yuan 1.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">245\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04725\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Anthropic\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">52\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">WebGPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Gopher\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">280\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ERNIE 3.0 Titan\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">260\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.12731\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GLaM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021\u002F12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">1200\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">InstructGPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F01\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">AlphaCode\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F02\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">41\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Chinchilla\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F03\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F04\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Cohere\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F06\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">54\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fcohere.ai\u002F\">Homepage\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">AlexaTM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F08\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Luminous\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F09\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fdocs.aleph-alpha.com\u002Fdocs\u002Fintroduction\u002Fluminous\u002F\">Docs\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Sparrow\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F09\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375v1\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">WeLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F09\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.10372\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">U-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-U-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022\u002F10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">-\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PanGU-Σ\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023\u002F3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">1085\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10845\">Paper\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n## Paper List\n\n### Resources of LLMs\n\n#### Publicly Available Models\n\n1. \u003Cu>T5\u003C\u002Fu>: **\"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer\"**. *Colin Raffel et al.* JMLR 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Ft5-11b)]\n2. \u003Cu>mT5\u003C\u002Fu>: **\"mT5: A massively multilingual pre-trained text-to-text transformer\"**. *Linting Xue* et al. NAACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fmt5-xxl\u002Ftree\u002Fmain)]\n3. \u003Cu>PanGu-α\u003C\u002Fu>: **\"PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation\"**. *Wei Zeng et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.12369)] [[Checkpoint](https:\u002F\u002Fopeni.pcl.ac.cn\u002FPCL-Platform.Intelligence\u002FPanGu-Alpha)]\n4. \u003Cu>CPM-2\u003C\u002Fu>: **\"CPM-2: Large-scale Cost-effective Pre-trained Language Models\"**. *Zhengyan Zhang et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10715)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM)]\n5. \u003Cu>T0\u003C\u002Fu>: **\"Multitask Prompted Training Enables Zero-Shot Task Generalization\"**. *Victor Sanh et al.* ICLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002FT0)]\n6. \u003Cu>GPT-NeoX-20B\u003C\u002Fu>: **\"GPT-NeoX-20B: An Open-Source Autoregressive Language Model\"**. *Sid Black et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002FEleutherAI\u002Fgpt-neox-20b\u002Ftree\u002Fmain)]\n7. \u003Cu>CodeGen\u003C\u002Fu>: **\"CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis\"**. *Erik Nijkamp et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002FSalesforce\u002Fcodegen-16B-nl)]\n8. \u003Cu>Tk-Instruct\u003C\u002Fu>: **\"Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks\"**. *Yizhong Wang et al.* EMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fallenai\u002Ftk-instruct-11b-def-pos)]\n9. \u003Cu>UL2\u003C\u002Fu>: **\"UL2: Unifying Language Learning Paradigms\"**. *Yi Tay et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05131)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fgoogle-research\u002Ftree\u002Fmaster\u002Ful2)]\n10. \u003Cu>OPT\u003C\u002Fu>: **\"OPT: Open Pre-trained Transformer Language Models\"**. *Susan Zhang et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Ftree\u002Fmain\u002Fprojects\u002FOPT)]\n11. \u003Cu>NLLB\u003C\u002Fu>: **\"No Language Left Behind: Scaling Human-Centered Machine Translation\"**. *NLLB Team.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04672)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq\u002Ftree\u002Fnllb)]\n12. \u003Cu>BLOOM\u003C\u002Fu>: **\"BLOOM: A 176B-Parameter Open-Access Multilingual Language Model\"**. *BigScience Workshop*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloom)]\n13. \u003Cu>GLM\u003C\u002Fu>: **\"GLM-130B: An Open Bilingual Pre-trained Model\"**. *Aohan Zeng et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-130B)]\n14. \u003Cu>Flan-T5\u003C\u002Fu>: **\"Scaling Instruction-Finetuned Language Models\"**. *Hyung Won Chung et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ft5x\u002Fblob\u002Fmain\u002Fdocs\u002Fmodels.md#flan-t5-checkpoints)]\n15. \u003Cu>mT0 && BLOOMZ\u003C\u002Fu>: **\"Crosslingual Generalization through Multitask Finetuning\"**. *Niklas Muennighoff et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf)]\n16. \u003Cu>Galactica\u003C\u002Fu>: **\"Galactica: A Large Language Model for Science\"**. *Ross Taylor et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fgalactica-120b)]\n17. \u003Cu>OPT-IML\u003C\u002Fu>: **\"OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization\"**. *Srinivasan et al.* . arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fopt-iml-30b)]\n18. \u003Cu>CodeGeeX\u003C\u002Fu>: **\"CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X\"**. *Qinkai Zheng et al.* . arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX)]\n19. \u003Cu>Pythia\u003C\u002Fu>: **\"Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling\"**. *Stella Biderman et al.* . arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01373)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Fpythia)]\n20. \u003Cu>LLaMA\u003C\u002Fu>: **\"LLaMA: Open and Efficient Foundation Language Models\"**. *Hugo Touvron et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama)]\n\n#### Closed-source Models\n\n1. \u003Cu>GShard\u003C\u002Fu>: **\"GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding\"**. *Dmitry Lepikhin et al.* ICLR 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16668v1)]\n2. \u003Cu>GPT-3\u003C\u002Fu>: **\"Language Models are Few-Shot Learners\"**. *Tom B. Brown et al.* NeurIPS 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)]\n3. \u003Cu>LaMDA\u003C\u002Fu>: **\"LaMDA: Language Models for Dialog Applications\"**. *Romal Thoppilan et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)]\n4. \u003Cu>HyperCLOVA\u003C\u002Fu>: **\"What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers\"**. *Boseop Kim et al.* EMNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650)]\n5. \u003Cu>CodeX\u003C\u002Fu>: **\"Evaluating Large Language Models Trained on Code\"**. *Mark Chen et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374)]\n6. \u003Cu>ERNIE 3.0\u003C\u002Fu>: **\"ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation\"**. *Yu Sun et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.02137)]\n7. \u003Cu>Jurassic-1\u003C\u002Fu>: **\"Jurassic-1: Technical details and evaluation\"**. *Opher Lieber et al.* 2021. [[Paper](https:\u002F\u002Fassets.website-files.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf)]\n8. \u003Cu>FLAN\u003C\u002Fu>: **\"Finetuned Language Models Are Zero-Shot Learners\"**. *Jason Wei et al.* ICLR 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)]\n9. \u003Cu>MT-NLG\u003C\u002Fu>: **\"Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model\"**. *Shaden Smith et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990)]\n10. \u003Cu>Yuan 1.0\u003C\u002Fu>: **\"Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning\"**. *Shaohua Wu et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04725)]\n11. \u003Cu>Anthropic\u003C\u002Fu>: **\"A General Language Assistant as a Laboratory for Alignment\"** . *Amanda Askell et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)]\n12. \u003Cu>WebGPT\u003C\u002Fu>: **\"WebGPT: Browser-assisted question-answering with human feedback\"** . *Reiichiro Nakano et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)]\n13. \u003Cu>Gopher\u003C\u002Fu>: **\"Scaling Language Models: Methods, Analysis & Insights from Training Gopher\"**.  *Jack W. Rae et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2)]\n14. \u003Cu>ERNIE 3.0 Titan\u003C\u002Fu>: **\"ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation\"**.  *Shuohuan Wang et al. *arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.12731)]\n15. \u003Cu>GLaM\u003C\u002Fu>: **\"GLaM: Efficient Scaling of Language Models with Mixture-of-Experts\"**. *Nan Du et al.* ICML 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905)]\n16. \u003Cu>InstructGPT\u003C\u002Fu>: **\"Training language models to follow instructions with human feedback\"**. *Long Ouyang et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1)]\n17. \u003Cu>AlphaCode\u003C\u002Fu>: **\"Competition-Level Code Generation with AlphaCode\"**. *Yujia Li et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1)]\n18. \u003Cu>Chinchilla\u003C\u002Fu>: **\"Training Compute-Optimal Large Language Models\"**. *Jordan Hoffmann et al.* arXiv. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)]\n19. \u003Cu>PaLM\u003C\u002Fu>: **\"PaLM: Scaling Language Modeling with Pathways\"**. *Aakanksha Chowdhery et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)]\n20. \u003Cu>AlexaTM\u003C\u002Fu>: **\"AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model\"**. *Saleh Soltan et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448)]\n21. \u003Cu>Sparrow\u003C\u002Fu>: **\"Improving alignment of dialogue agents via targeted human judgements\"**. *Amelia Glaese et al.* . arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375v1)]\n22. \u003Cu>WeLM\u003C\u002Fu>: **\"WeLM: A Well-Read Pre-trained Language Model for Chinese\"**. *Hui Su et al.* . arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.10372)]\n23. \u003Cu>U-PaLM\u003C\u002Fu>: **\"Transcending Scaling Laws with 0.1% Extra Compute\"**. *Yi Tay et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399)]\n24. \u003Cu>Flan-PaLM && Flan-U-PaLM\u003C\u002Fu>: **\"Scaling Instruction-Finetuned Language Models\"**. *Hyung Won Chung et al.* arXiv. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] \n25. \u003Cu>GPT-4\u003C\u002Fu>: **\"GPT-4 Technical Report\"**. *OpenAI*. arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2)]\n26. \u003Cu>PanGu-Σ\u003C\u002Fu>: **\"PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing\"**. *Xiaozhe Ren et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10845)]\n\n#### Commonly Used Corpora\n\n1. \u003Cu>BookCorpus\u003C\u002Fu>: **\"Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books\"**. *Yukun Zhu et al.*  ICCV 2015. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1506.06724v1)] [[Source](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fbookcorpus)]\n2. \u003Cu>Guntenburg\u003C\u002Fu>: [[Source](https:\u002F\u002Fwww.gutenberg.org\u002F)]\n3. \u003Cu>CommonCrawl\u003C\u002Fu>: [[Source](https:\u002F\u002Fcommoncrawl.org\u002F)]\n4. \u003Cu>C4\u003C\u002Fu>: **\"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer\"**. *Colin Raffel et al.* JMLR 2019. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683v3)] [[Source](https:\u002F\u002Fwww.tensorflow.org\u002Fdatasets\u002Fcatalog\u002Fc4)]\n5. \u003Cu>CC-stories-R\u003C\u002Fu>: **\"A Simple Method for Commonsense Reasoning\"**. *Trieu H. Trinh el al.* arXiv 2018. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1806.02847v2)] [[Source](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fspacemanidol\u002Fcc-stories)]\n6. \u003Cu>CC-NEWS\u003C\u002Fu>: **\"RoBERTa: A Robustly Optimized BERT Pretraining Approach\"**. *Yinhan Liu et al.* arXiv 2019. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692v1)] [[Source](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcc_news)]\n7. \u003Cu>REALNEWs\u003C\u002Fu>: **\"Defending Against Neural Fake News\"**. *Rowan Zellers et al.* NeurIPS 2019. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1905.12616v3)] [[Source](https:\u002F\u002Fgithub.com\u002Frowanz\u002Fgrover\u002Ftree\u002Fmaster\u002Frealnews)]\n8. \u003Cu>OpenWebText\u003C\u002Fu>: [[Source](https:\u002F\u002Fskylion007.github.io\u002FOpenWebTextCorpus\u002F)]\n9. \u003Cu>Pushshift.io\u003C\u002Fu>: **\"The Pushshift Reddit Dataset\"**. *Jason Baumgartner et al*. AAAI 2020. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08435v1)] [[Source](https:\u002F\u002Ffiles.pushshift.io\u002Freddit\u002F)]\n10. \u003Cu>Wikipedia\u003C\u002Fu>: [[Source](https:\u002F\u002Fdumps.wikimedia.org\u002F)]\n11. \u003Cu>BigQuery\u003C\u002Fu>:  [[Source](https:\u002F\u002Fcloud.google.com\u002Fbigquery\u002Fpublic-data?hl=zh-cn)]\n12. \u003Cu>The Pile\u003C\u002Fu>: **\"The Pile: An 800GB Dataset of Diverse Text for Language Modeling\"**. *Leo Gao et al*. arxiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027v1)] [[Source](https:\u002F\u002Fpile.eleuther.ai\u002F)]\n13. \u003Cu>ROOTS\u003C\u002Fu>: **\"The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset\"**. *Laurençon et al*. NeurIPS 2022 Datasets and Benchmarks Track. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03915)]\n\n#### Library Resource\n\n1. \u003Cu>Transformers\u003C\u002Fu>: **\"Transformers: State-of-the-Art Natural Language Processing\"**. *Thomas Wolf et al.* EMNLP 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.03771)] [[Source](https:\u002F\u002Fhuggingface.co\u002F)]\n2. \u003Cu>DeepSpeed\u003C\u002Fu>: **\"Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters\"**. *Rasley et al.* KDD 2020. [[Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3394486.3406703)] [[Source](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)]\n3. \u003Cu>Megatron-LM\u003C\u002Fu>: **\"Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism\"**. *Mohammad Shoeybi et al.* arXiv 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053)] [[Source](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM)]\n4. \u003Cu>JAX\u003C\u002Fu>:  [[Source](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fjax)]\n5. \u003Cu>Colossal-AI\u003C\u002Fu>: **\"Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training\"**. *Zhengda Bian et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14883v2)] [[Source](https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FColossalAI)]\n6. \u003Cu>BMTrain\u003C\u002Fu>: [[Source](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTrain)]\n7. \u003Cu>FastMoE\u003C\u002Fu>: **\"FastMoE: A Fast Mixture-of-Expert Training System\"**.  *Jiaao He et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.13262)] [[Source](https:\u002F\u002Fgithub.com\u002Flaekov\u002Ffastmoe)]\n\n#### Deep Learning Frameworks\n\n1. \u003Cu>Pytorch\u003C\u002Fu>: **\"PyTorch: An Imperative Style, High-Performance Deep Learning Library\"**. *Adam Paszke el al.* NeurIPS 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.01703)] [[Source](https:\u002F\u002Fpytorch.org\u002F)]\n2. \u003Cu>TensorFlow\u003C\u002Fu>: **\"TensorFlow: A system for large-scale machine learning\"**. *Martín Abadi et al.* OSDI 2016. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1605.08695)] [[Source](https:\u002F\u002Fwww.tensorflow.org\u002F)] \n3. \u003Cu>MXNet\u003C\u002Fu>: **\"MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems\"**. *Tianqi Chen et al.* arXiv 2015. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.01274)] [[Source](https:\u002F\u002Fgithub.com\u002Fapache\u002Fmxnet)] \n4. \u003Cu>PaddlePaddle\u003C\u002Fu>: **\"PaddlePaddle: An Open-Source Deep Learning Platform from Industrial Practice\"** . *Yanjun Ma et al.* Frontiers of Data and Domputing 2019.  [[Paper](http:\u002F\u002Fwww.jfdc.cnic.cn\u002FEN\u002Fabstract\u002Fabstract2.shtml)] [[Source](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddle)] \n5. \u003Cu>MindSpore\u003C\u002Fu>: **\"Huawei MindSpore AI Development Framework\"** . *Huawei Technologies Co., Ltd.* Artificial Intelligence Technology 2022. [[Paper](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-981-19-2879-6_5)] [[Source](https:\u002F\u002Fgithub.com\u002Fmindspore-ai\u002Fmindspore)] \n6. \u003Cu>OneFlow\u003C\u002Fu>: **\"OneFlow: Redesign the Distributed Deep Learning Framework from Scratch\"** . *Jinhui Yuan et al.* arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15032)] [[Source](https:\u002F\u002Fgithub.com\u002FOneflow-Inc\u002Foneflow)] \n\n### Pre-training\n#### Data Collection\n\n1. **\"The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset\"**. *Laurençon et al*. NeurIPS 2022 Datasets and Benchmarks Track. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03915)]\n1. **\"Deduplicating Training Data Makes Language Models Better\"**. *Katherine Lee et al*. ACL 2022. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.06499)]\n1. **\"Deduplicating Training Data Mitigates Privacy Risks in Language Models\"**. *Nikhil Kandpal et al*. ICML 2022. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.06539)]\n1. **\"Scaling Laws and Interpretability of Learning from Repeated Data\"**. *Danny Hernandez et al*. arXiv 2022. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10487)]\n1. **\"A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity\"**. *Shayne Longpre et al*. arXiv 2023. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13169)]\n\n#### Architecture\n\n##### Mainstream Architectures\n\n**Causal Decoder**\n\n1. **\"Language Models are Few-Shot Learners\"**. *Tom B. Brown et al*. NeurIPS 2020. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)]\n1. **\"OPT: Open Pre-trained Transformer Language Models\"**. *Susan Zhang et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)]\n1. **\"BLOOM: A 176B-Parameter Open-Access Multilingual Language Model\"**. *Teven Le Scao et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)]\n1. **\"Training Compute-Optimal Large Language Models\"**. *Jordan Hoffmann et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)]\n1. **\"Scaling Language Models: Methods, Analysis & Insights from Training Gopher\"**. *Jack W. Rae et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446)]\n1. **\"Galactica: A Large Language Model for Science\"**. *Ross Taylor et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)]\n1. **\"PaLM: Scaling Language Modeling with Pathways\"**. *Aakanksha Chowdhery et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)]\n1. **\"Jurassic-1: Technical Details and Evaluation\"**. *Opher Lieber et al*. AI21 Labs. [[paper](https:\u002F\u002Fuploads-ssl.webflow.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf)]\n1. **\"LaMDA: Language Models for Dialog Applications\"**. *Romal Thoppilan et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)]\n\n**Prefix Decoder**\n1. **\"GLM-130B: An Open Bilingual Pre-trained Model\"**. *Aohan Zeng et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)]\n1. **\"GLM: General Language Model Pretraining with Autoregressive Blank Infilling\"**. *Zhengxiao Du et al*. ACL 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2103.10360)]\n1. **\"Transcending Scaling Laws with 0.1% Extra Compute\"**. *Yi Tay et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399)]\n\n**MoE**\n1. **\"Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity\"**. *William Fedus et al*. JMLR. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.03961)]\n1. **\"Unified Scaling Laws for Routed Language Models\"**. *Aidan Clark et al*. ICML 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01169)]\n\n**SSM**\n1. **\"Pretraining Without Attention\"**. *Junxiong Wang et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10544)]\n1. **\"Efficiently Modeling Long Sequences with Structured State Spaces\"**. *Albert Gu et al*. ICLR 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2111.00396)]\n1. **\"Long Range Language Modeling via Gated State Spaces\"**. *Harsh Mehta et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2206.13947)]\n1. **\"Hungry Hungry Hippos: Towards Language Modeling with State Space Models\"**. *Daniel Y. Fu et al*. ICLR 2023. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.14052)]\n\n##### Detailed Configuration\n\n**Layer Normalization**\n1. \u003Cu>RMSNorm\u003C\u002Fu>: **\"Root Mean Square Layer Normalization\"**. *Biao Zhang et al*. NeurIPS 2019. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)]\n1. \u003Cu>DeepNorm\u003C\u002Fu>: **\"DeepNet: Scaling Transformers to 1,000 Layers\"**. *Hongyu Wang et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555)]\n1. \u003Cu>Sandwich-LN\u003C\u002Fu>: **\"CogView: Mastering Text-to-Image Generation via Transformers\"**. *Ming Ding et al*. NeirIPS 2021. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13290)]\n\n**Position Encoding**\n1. \u003Cu>T5 bias\u003C\u002Fu>: **\"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer\"**. *Colin Raffel et al.* JMLR 2019. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)]\n1. \u003Cu>ALiBi\u003C\u002Fu>: **\"Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation\"**. *Ofir Press et al*. ICLR 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.12409)]\n1. \u003Cu>RoPE\u003C\u002Fu>: **\"RoFormer: Enhanced Transformer with Rotary Position Embedding\"**. *Jianlin Su et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864)]\n1. \u003Cu>xPos\u003C\u002Fu>: **\"A Length-Extrapolatable Transformer\"**. *Yutao Sun et al*. arXiv 2022. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10554)]\n\n**Attention**\n1. \u003Cu>Multi-query attention\u003C\u002Fu>: **\"Fast Transformer Decoding: One Write-Head is All You Need\"**. *Noam Shazeer*. arXiv 2019. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.02150)]\n1. \u003Cu>FlashAttention\u003C\u002Fu>: **\"FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness\"**. *Tri Dao et al*. NeurIPS 2022. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14135)]\n1. \u003Cu>PagedAttention\u003C\u002Fu>: **\"vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention\"**. *Woosuk Kwon et al*.  2023.  paper(Stay Tuned) [[Offical WebSite](https:\u002F\u002Fvllm.ai\u002F)]\n\n##### Analysis\n\n1. **\"What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?\"**. *Thomas Wang et al*. ICML 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05832)]\n1. **\"What Language Model to Train if You Have One Million GPU Hours?\"**. *Teven Le Scao et al*. Findings of EMNLP 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.15424)]\n1. **\"Examining Scaling and Transfer of Language Model Architectures for Machine Translation\"**. *Biao Zhang et al*. ICML 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.00528)]\n1. **\"Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?\"**. *Yi Tay et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10551)]\n1. **\"Do Transformer Modifications Transfer Across Implementations and Applications?\"**. *Sharan Narang et al*. EMNLP 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2102.11972)]\n\n#### Training Algorithms\n\n1. **\"Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism\"**. *Mohammad Shoeybi et al*. arXiv 2019. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053)]\n1. **\"An Efficient 2D Method for Training Super-Large Deep Learning Models\"**. *Qifan Xu et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2104.05343)]\n1. **\"Tesseract: Parallelize the Tensor Parallelism Efficiently\"**. *Boxiang Wang et al*. ICPP 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2105.14500)]\n1. **\"Maximizing Parallelism in Distributed Training for Huge Neural Networks\"**. *Zhengda Bian et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2105.14450)]\n1. **\"GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism\"**. *Yanping Huang et al*. NeurIPS 2019. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06965)]\n1. **\"PipeDream: Fast and Efficient Pipeline Parallel DNN Training\"**. *Aaron Harlap et al*. arXiv 2018. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1806.03377)]\n1. **\"ZeRO: Memory Optimizations Toward Training Trillion Parameter Models\"**. *Samyam Rajbhandari et al*. SC 2020. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)]\n1. **\"ZeRO-Offload: Democratizing Billion-Scale Model Training\"**. *Jie Ren et al*. USENIX 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06840)]\n\n#### Pre-training on Code\n\n##### LLMs for Program Synthesis\n\n1. **\"Evaluating Large Language Models Trained on Code\"**. *Mark Chen et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374)]\n1. **\"Program Synthesis with Large Language Models\"**. *Jacob Austin et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07732)]\n1. **\"Show Your Work: Scratchpads for Intermediate Computation with Language Models\"**. *Maxwell Nye et al*. arXiv 2021. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00114)]\n1. **\"A Systematic Evaluation of Large Language Models of Code\"**. *Frank F. Xu et al*. arXiv 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.13169)]\n1. **\"Competition-Level Code Generation with AlphaCode\"**. *Yujia Li et al*. Science. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814)]\n1. **\"CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis\"**. *Erik Nijkamp et al*. ICLR 2023. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)]\n1. **\"InCoder: A Generative Model for Code Infilling and Synthesis\"**. *Daniel Fried et al*. ICLR 2023. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05999)]\n1. **\"CodeT: Code Generation with Generated Tests\"**. *Bei Chen et al*. ICLR 2023. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10397)]\n1. **\"StarCoder: may the source be with you!\"**. *Raymond Li et al*. arXiv 2023. [[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06161)]\n\n##### NLP Tasks Formatted as Code\n\n1. **\"Language Models of Code are Few-Shot Commonsense Learners\"**. *Aman Madaan et al*. EMNLP 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07128)]\n1. **\"Autoformalization with Large Language Models\"**. *Yuhuai Wu et al*. NeurIPS 2022. [[paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12615)]\n\n### Adaptation Tuning\n\n#### Instruction Tuning\n\n1. **\"Multi-Task Deep Neural Networks for Natural Language Understanding\"**. *Xiaodong Liu et al*. ACL 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.11504)] [[Homepage](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)]\n1. **\"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer\"**. *Colin Raffel et al*. JMLR 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftext-to-text-transfer-transformer#released-model-checkpoints)]\n1. **\"Muppet: Massive Multi-task Representations with Pre-Finetuning\"**. *Armen Aghajanyan et al*. EMNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11038)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fmodels?other=arxiv:2101.11038)]\n1. **\"Cross-Task Generalization via Natural Language Crowdsourcing Instructions\"**. *Swaroop Mishra et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08773)] [[Collection](https:\u002F\u002Finstructions.apps.allenai.org\u002F#data)]\n1. **\"Finetuned Language Models Are Zero-Shot Learners\"**. *Jason Wei et al*. ICLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)] [[Homepage](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **\"Multitask Prompted Training Enables Zero-Shot Task Generalization\"**. *Victor Sanh et al*. ICLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002FT0#how-to-use)]\n1. **\"PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts\"**. *Stephen H. Bach et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01279)] [[Collection](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fpromptsource)]\n1.  **\"Training language models to follow instructions with human feedback\"**. *Long Ouyang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)]\n1. **\"Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks\"**. *Yizhong Wang et al*. EMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705)] [[Collection](https:\u002F\u002Finstructions.apps.allenai.org\u002F#data)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002Fmodels?search=tk-instruct-)]\n1. **\"MVP: Multi-task Supervised Pre-training for Natural Language Generation\"**. *Tianyi Tang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.12131)] [[Collection](https:\u002F\u002Fhuggingface.co\u002FRUCAIBox)] [[Checkpoint](https:\u002F\u002Fhuggingface.co\u002FRUCAIBox)]\n1. **\"Crosslingual Generalization through Multitask Finetuning\"**. *Niklas Muennighoff et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786)] [[Collection](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf#data)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf#models)]\n1. **\"Scaling Instruction-Finetuned Language Models\"**. *Hyung Won Chung et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] [[Homepage](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **\"Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor\"**. *Or Honovich et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09689)] [[Homepage](https:\u002F\u002Fgithub.com\u002Forhonovich\u002Funnatural-instructions)]\n1. **\"Self-Instruct: Aligning Language Model with Self Generated Instructions\"**. *Yizhong Wang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)] [[Homepage](https:\u002F\u002Fgithub.com\u002Fyizhongw\u002Fself-instruct)]\n1. **\"OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization\"**. *Srinivasan Iyer et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)] [[Checkpoint](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Ftree\u002Fmain\u002Fprojects\u002FOPT-IML)]\n1. **\"The Flan Collection: Designing Data and Methods for Effective Instruction Tuning\"**. *Shayne Longpre et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)] [[Homepage](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **\"Is Prompt All You Need No. A Comprehensive and Broader View of Instruction Learning\"**. *Renze Lou et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10475)]\n1. **\"Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning\"**. *Hao Chen et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09246)]\n1. **\"LIMA: Less Is More for Alignment\"**. *Chunting Zhou*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11206)]\n\n\n#### Alignment Tuning\n\n1. **\"TAMER: Training an Agent Manually via Evaluative Reinforcement\"**. *W. Bradley Knox et al*. ICDL 2008. [[Paper](https:\u002F\u002Fwww.cs.utexas.edu\u002F~bradknox\u002Fpapers\u002Ficdl08-knox.pdf)]\n1. **\"Interactive Learning from Policy-Dependent Human Feedback\"**. *James MacGlashan et al*. ICML 2017. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06049)]\n1. **\"Deep Reinforcement Learning from Human Preferences\"**. *Paul Christiano et al*. NIPS 2017. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741)]\n1. **\"Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces\"**. *Garrett Warnell et al*. AAAI 2018. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.10163)]\n1. **\"Fine-Tuning Language Models from Human Preferences\"**. *Daniel M. Ziegler et al*. arXiv 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593)]\n1. **\"Learning to summarize from human feedback\"**. *Nisan Stiennon et al*. NeurIPS 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.01325)]\n1. **\"Alignment of Language Agents\"**. *Zachary Kenton et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.14659)]\n1. **\"Recursively Summarizing Books with Human Feedback\"**. *Jeff Wu et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10862)]\n1. **\"A General Language Assistant as a Laboratory for Alignment\"**. *Amanda Askell et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)]\n1. **\"WebGPT: Browser-assisted question-answering with human feedback\"**. *Reiichiro Nakano et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)]\n1. **\"Training language models to follow instructions with human feedback\"**. *Long Ouyang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)]\n1. **\"Teaching language models to support answers with verified quotes\"**. *Jacob Menick et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11147)]\n1. **\"Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback\"**. *Yuntao Bai et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862)]\n1. **\"Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning\"**. *Deborah Cohen et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.02294)]\n1. **\"Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned\"**. *Deep Ganguli et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07858)]\n1. **\"Improving alignment of dialogue agents via targeted human judgements\"**. *Amelia Glaese et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375)]\n1. **\"Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization\"**. *Rajkumar Ramamurthy et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.01241)]\n1. **\"Scaling Laws for Reward Model Overoptimization\"**. *Leo Gao et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10760)]\n1. **\"The Wisdom of Hindsight Makes Language Models Better Instruction Followers\"**. *Tianjun Zhang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05206)]\n1. **\"RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment\"**. *Hanze Dong et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06767)]\n1. **\"Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment\"**. *Rishabh Bhardwaj et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09662)]\n\n#### Parameter-Efficient Model Adaptation\n1. **\"Parameter-Efficient Transfer Learning for NLP\"**. *Neil Houlsby et al*. ICML 2019. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.00751)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fadapter-bert)]\n1. **\"MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer\"**. *Jonas Pfeiffer et al*. EMNLP 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00052)] [[GitHub](https:\u002F\u002Fgithub.com\u002FAdapter-Hub\u002Fadapter-transformers)]\n1. **\"AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts\"**. *Taylor Shin et al*. EMNLP 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.15980)] [[GitHub](https:\u002F\u002Fucinlp.github.io\u002Fautoprompt\u002F)]\n1. **\"Prefix-Tuning: Optimizing Continuous Prompts for Generation\"**. *Xiang Lisa Li et al*. ACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00190)] [[GitHub](https:\u002F\u002Fgithub.com\u002FXiangLi1999\u002FPrefixTuning)]\n1. **\"GPT Understands, Too\"**. *Xiao Liu et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.10385)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FP-tuning)]\n1. **\"The Power of Scale for Parameter-Efficient Prompt Tuning\"**. *Brian Lester et al*. EMNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08691)]\n1. **\"LoRA: Low-Rank Adaptation of Large Language Models\"**. *Edward J. Hu et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLoRA)]\n1. **\"Towards a Unified View of Parameter-Efficient Transfer Learning\"**. *Junxian He et al*. ICLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04366)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fjxhe\u002Funify-parameter-efficient-tuning)]\n1. **\"P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks\"**. *Xiao Liu et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07602)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FP-tuning-v2)]\n1. **\"DyLoRA: Parameter-Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation\"**. *Mojtaba Valipour et al*. EACL 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07558)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FKD-NLP\u002Ftree\u002Fmain\u002FDyLoRA)]\n1. **\"Parameter-efficient fine-tuning of large-scale pre-trained language models\"**. *Ning Ding et al*. Nat Mach Intell. [[Paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs42256-023-00626-4)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FOpenDelta)]\n1. **\"Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning\"**. *Qingru Zhang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10512)] [[GitHub](https:\u002F\u002Fgithub.com\u002FQingruZhang\u002FAdaLoRA)]\n1. **\"LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention\"**. *Renrui Zhang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16199)] [[GitHub](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter)]\n1. **\"LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models\"**. *Zhiqiang Hu et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01933)] [[GitHub](https:\u002F\u002Fgithub.com\u002FAGI-Edgerunners\u002FLLM-Adapters)]\n\n\n#### Memory-Efficient Model Adaptation\n1. **\"A Survey of Quantization Methods for Efficient Neural Network Inference\"**. *Amir Gholami et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.13630)]\n1. **\"8-bit Optimizers via Block-wise Quantization\"**. *Tim Dettmers et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02861)]\n1. **\"Compression of Generative Pre-trained Language Models via Quantization\"**. *Chaofan Tao et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.10705)]\n1. **\"ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers\"**. *Zhewei Yao et al*. NeurIPS 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.01861)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)]\n1. **\"LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale\"**. *Tim Dettmers et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.07339)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTimDettmers\u002Fbitsandbytes)]\n1. **\"GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers\"**. *Elias Frantar et al*. ICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.17323)] [[GitHub](https:\u002F\u002Fgithub.com\u002FIST-DASLab\u002Fgptq)]\n1. **\"SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models\"**. *Guangxuan Xiao et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10438)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fsmoothquant)]\n1. **\"The case for 4-bit precision: k-bit Inference Scaling Laws\"**. *Tim Dettmers et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09720)]\n1. **\"ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation\"**. *Zhewei Yao et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08302)]\n1. **\"QLoRA: Efficient Finetuning of Quantized LLMs\"**. *Tim Dettmers et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fartidoro\u002Fqlora)]\n1. **\"LLM-QAT: Data-Free Quantization Aware Training for Large Language Models\"**. *Zechun Liu et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17888)]\n1. **\"AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration\"**. *Ji Lin et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00978)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fllm-awq)]\n\n\n### Utilization\n\n#### In-Context Learning (ICL)\n\n1. **\"An Information-theoretic Approach to Prompt Engineering Without Ground Truth Labels\"**. *Taylor Sorensen et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11364)]\n2. **\"What Makes Good In-Context Examples for GPT-3?\"**. *Jiachang Liu et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06804)]\n3. **\"Learning to retrieve prompts for in-context learning\"**. *Ohad Rubin et al*. NAACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08633)]\n4. **\"Diverse demonstrations improve in-context compositional generalization\"**. *Itay Levy et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06800)]\n5. **\"Demystifying Prompts in Language Models via Perplexity Estimation\"**. *Hila Gonen et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04037)]\n6. **\"Active Example Selection for In-Context Learning\"**. *Yiming Zhang et al*. EMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.04486)]\n7. **\"Self-adaptive In-context Learning\"**. *Zhiyong Wu et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10375)]\n8. **\"Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity\"**. *Yao Lu et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08786)]\n9. **\"Structured Prompting: Scaling In-Context Learning to 1,000 Examples\"**. *Hao, Yaru et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06713)]\n10. **\"The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning\"**. *Ye, Xi et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)]\n11. **\"Cross-Task Generalization via Natural Language Crowdsourcing Instructions\"**. *Swaroop Mishra et al*. ACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08773)]\n12. **\"Prompt-Augmented Linear Probing: Scaling Beyond the Limit of Few-shot In-Context Learner\"**. *Hyunsoo Cho et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10873)]\n13. **\"An Explanation of In-context Learning as Implicit Bayesian Inference\"**. S*ang Michael Xie et al*. ICLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.02080)]\n14. **\"Calibrate Before Use: Improving Few-Shot Performance of Language Models\"**. *Zihao Zhao et al*. ICML 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)]\n15. **\"Data distributional properties drive emergent in-context learning in transformers\"**. *Stephanie C. Y. Chan et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05055)]\n16. **\"In-context Learning and Induction Heads\"**. *Catherine Olsson et al*. arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11895)]\n17. **\"On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model\"**. *Seongjin Shin et al*. NAACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.13509)]\n18. **\"Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?\"**. *Sewon Min et al*. EMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.12837)]\n19. **\"Rethinking the Role of Scale for In-Context Learning: An Interpretability-based Case Study at 66 Billion Scale\"**. *Hritik Bansal et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09095)]\n20. **\"Transformers as algorithms: Generalization and implicit model selection in in-context learning\"**. *Yingcong Li et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07067)]\n21. **\"Transformers learn in-context by gradient descent\"**. *Johannes von Oswald et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.07677)]\n22. **\"What learning algorithm is in-context learning? investigations with linear models\"**. *Ekin Aky{\\\"{u}}rek et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.15661)]\n23. **\"A Survey for In-context Learning\"**. *Qingxiu Dong et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00234)]\n24. **What In-Context Learning \"Learns\" In-Context: Disentangling Task Recognition and Task Learning**. *Jane Pan et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09731)]\n25. **The Learnability of In-Context Learning**. *Noam Wies et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.07895)]\n26. **Do Prompt-Based Models Really Understand the Meaning of Their Prompts?** *Albert Webson et al*. NAACL 2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.167\u002F)]\n27. **Larger language models do in-context learning differently**. *Jerry Wei*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03846)]\n28. **Meta-in-context learning in large language models**. *Julian Coda-Forno*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.12907)]\n29. **Symbol tuning improves in-context learning in language models**. *Jerry Wei*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08298)]\n\n#### Chain-of-Thought Reasoning (CoT)\n\n1. **\"Automatic Chain of Thought Prompting in Large Language Models\"**. *Zhuosheng Zhang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)]\n2. **\"Chain of Thought Prompting Elicits Reasoning in Large Language Models\"**. *Jason Wei et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)]\n3. **\"STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning\"**. *Zelikman et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465)]\n4. **\"Large language models are zero-shot reasoners\"**. *Takeshi Kojima et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)]\n5. **\"Automatic Chain of Thought Prompting in Large Language Models\"**. *Zhuosheng Zhang et al*. arXiv. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)]\n6. **\"Complexity-Based Prompting for Multi-Step Reasoning\"**. *Yao Fu et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00720)]\n7. **\"Language Models are Multilingual Chain-of-Thought Reasoners\"**. *Freda Shi et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03057)]\n8. **\"Rationale-Augmented Ensembles in Language Models\"**. *Xuezhi Wang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00747)]\n9. **\"Least-to-Most Prompting Enables Complex Reasoning in Large Language Models\"**. *Denny Zhou et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10625)]\n10. **\"Multimodal Chain-of-Thought Reasoning in Language Models\"**. *Zhuosheng Zhang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00923)]\n11. **\"Self-Consistency Improves Chain of Thought Reasoning in Language Models\"**. *Xuezhi Wang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11171)]\n12. **\"Large Language Models Can Self-Improve\"**. *Jiaxin Huang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11610)]\n13. **\"Training Verifiers to Solve Math Word Problems\"**. *Karl Cobbe et al*. arXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168)]\n14. **\"On the Advance of Making Language Models Better Reasoners\"**. *Yifei Li et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02336)]\n15. **\"Large Language Models are reasoners with Self-Verification\"**. *Yixuan Weng et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09561)]\n16. **\"Teaching small language models to reason\"**. *Lucie Charlotte Magister et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08410)]\n17. **\"Large language models are reasoning teachers\"**. *Namgyu Ho et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10071)]\n18. **\"The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning\"**. *Ye, Xi et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)]\n19. **\"Scaling Instruction-Finetuned Language Models\"**. *Hyung Won Chung et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)]\n20. **\"Solving Quantitative Reasoning Problems with Language Models\"**. *Aitor Lewkowycz et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)]\n21. **\"Text and patterns: For effective chain of thought, it takes two to tango\"**. *Aman Madaan et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07686)]\n22. **\"Challenging BIG-Bench tasks and whether chain-of-thought can solve them\"**. *Mirac Suzgun et al*. arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261)]\n23. **\"Reasoning with Language Model Prompting: A Survey\"**. *Shuofei Qiao et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09597)]\n24. **\"Towards Reasoning in Large Language Models: A Survey\"**. *Jie Huang et al*. arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10403)]\n\n#### Planning for Complex Task Solving\n\n1. **Least-to-Most Prompting Enables Complex Reasoning in Large Language Models**. *Denny Zhou et al*. ICLR 2023. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=WZH7099tgfM)]\n2. **PAL: Program-aided Language Models**. *Luyu Gao et al*. ICML 2023. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=M1fd9Z00sj)]\n3. **Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models**. *Lei Wang et al*. ACL 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091)]\n4. **ProgPrompt: Generating Situated Robot Task Plans using Large Language Models**. *Ishika Singh et al*. ICRA 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11302)]\n5. **Tree of Thoughts: Deliberate Problem Solving with Large Language Models**. *Shunyu Yao et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)]\n6. **Voyager: An Open-Ended Embodied Agent with Large Language Models**. *Guanzhi Wang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)]\n7. **Reflexion: Language Agents with Verbal Reinforcement Learning**. *Noah Shinn et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366)]\n8. **Multimodal Procedural Planning via Dual Text-Image Prompting**. *Yujie Lu et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01795)]\n9. **Self-planning Code Generation with Large Language Model**. *Xue Jiang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689)]\n10. **Decomposed Prompting: A Modular Approach for Solving Complex Tasks**. *Tushar Khot et al*. ICLR 2023 [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=_nGgzQjzaRy)]\n11. **Toolformer: Language Models Can Teach Themselves to Use Tools**. *Timo Schick et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)]\n12. **HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face**. *Yongliang Shen et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)]\n13. **Faithful Chain-of-Thought Reasoning**. *Qing Lyu et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13379)]\n14. **LLM+P: Empowering Large Language Models with Optimal Planning Proficiency**. *Bo Liu et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11477)]\n15. **Reasoning with Language Model is Planning with World Model**. *Shibo Hao et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992)]\n16. **Generative Agents: Interactive Simulacra of Human Behavior**. *Joon Sung Park et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)]\n17. **ReAct: Synergizing Reasoning and Acting in Language Models**. *Shunyu Yao et al*. ICLR 2023. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=WE_vluYUL-X)]\n18. **ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models**. *Zhipeng Chen et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14323)]\n19. **Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents**. *Zihao Wang et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560)]\n20. **AdaPlanner: Adaptive Planning from Feedback with Language Models**. *Haotian Sun et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653)]\n\n\n### Capacity Evaluation\n\n1. **\"Measuring Massive Multitask Language Understanding\"**. *Dan Hendrycks et al.* ICLR 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300v3)]\n2. **\"Persistent Anti-Muslim Bias in Large Language Models\"**. *Abubakar Abid et al.* AIES 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.05783v2)]\n3. **\"Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models\"**. *Alex Tamkin et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2102.02503v1)]\n4. **\"BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments\"**. *Sanjana Srivastava et al.* CoRL 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.03332v1)]\n5. **\"Program Synthesis with Large Language Models\"**. *Jacob Austin et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07732v1)]\n6. **\"Training Verifiers to Solve Math Word Problems\"**. *Karl Cobbe et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168v2)]\n7. **\"Show Your Work: Scratchpads for Intermediate Computation with Language Models\"**. *Maxwell I. Nye et al.* arXiv 2021. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00114v1)]\n8. **\"Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents\"**. *Wenlong Huang et al.* ICML 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.07207v2)]\n9. **\"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models\"**. *Jason Wei et al.* NeurIPS 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903v6)]\n10. **\"Training language models to follow instructions with human feedback\"**. *Long Ouyang et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1)]\n11. **\"Competition-Level Code Generation with AlphaCode\"**. *Yujia Li et al.* Science 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1)]\n12. **\"Do As I Can, Not As I Say: Grounding Language in Robotic Affordances\"**. *Michael Ahn et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691v2)]\n13. **\"Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback\"**. *Yuntao Bai et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862v1)]\n14. **\"Autoformalization with Large Language Models\"**. *Yuhuai Wu et al.* NeurIPS 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12615v1)]\n15. **\"Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models\"**. *Aarohi Srivastava et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)]\n16. **\"Exploring Length Generalization in Large Language Models\"**. *Cem Anil et al.* NeurIPS 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04901v2)]\n17. **\"Few-shot Learning with Retrieval Augmented Language Models\"**. *Gautier Izacard et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.03299)]\n18. **\"Limitations of Language Models in Arithmetic and Symbolic Induction\"**. *Jing Qian et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2208.05051v1)]\n19. **\"Code as Policies: Language Model Programs for Embodied Control\"**. *Jacky Liang et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07753v3)]\n20. **\"ProgPrompt: Generating Situated Robot Task Plans using Large Language Models\"**. *Ishika Singh et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11302v1)]\n21. **\"Law Informs Code: A Legal Informatics Approach to Aligning Artificial Intelligence with Humans\"**. *John J. Nay et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.13020v13)]\n22. **\"Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought\"**. *Abulhair Saparov et al.* ICLR 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.01240v4)]\n23. **\"Language Models are Multilingual Chain-of-Thought Reasoners\"**. *Freda Shi et al.* ICLR 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03057v1)]\n24. **\"Re3: Generating Longer Stories With Recursive Reprompting and Revision\"**. *Kevin Yang et al.* EMNLP 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06774v3)]\n25. **\"Language Models of Code are Few-Shot Commonsense Learners\"**. *Aman Madaan et al.* EMNLP 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07128v3)]\n26. **\"Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them\"**. *Mirac Suzgun et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261v1)]\n27. **\"Large Language Models Can Self-Improve\"**. *Jiaxin Huang et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11610)]\n28. **\"Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs\"**. *Albert Q. Jiang et al.* ICLR 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.12283v3)]\n29. **\"Holistic Evaluation of Language Models\"**. *Percy Liang et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)]\n30. **\"PAL: Program-aided Language Models\"**. *Luyu Gao et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10435)]\n31. **\"Legal Prompt Engineering for Multilingual Legal Judgement Prediction\"**. *Dietrich Trautmann et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02199v1)]\n32. **\"How Does ChatGPT Perform on the Medical Licensing Exams? The Implications of Large Language Models for Medical Education and Knowledge Assessment\"**. *Aidan Gilson et al.* medRxiv 2022. [[Paper](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2022.12.23.22283901v1)]\n33. **\"ChatGPT: The End of Online Exam Integrity?\"**. *Teo Susnjak et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09292v1)]\n34. **\"Large Language Models are reasoners with Self-Verification\"**. *Yixuan Weng et al.* arXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09561)]\n35. **\"Self-Instruct: Aligning Language Model with Self Generated Instructions\"**. *Yizhong Wang et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560v1)]\n36. **\"ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports\"**. *Katharina Jeblick et al.* arXiv 2022. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.14882v1)]\n37. **\"The End of Programming\"**. *Matt Welsh et al.* ACM 2023. [[Paper](https:\u002F\u002Fcacm.acm.org\u002Fmagazines\u002F2023\u002F1\u002F267976-the-end-of-programming\u002Ffulltext)]\n38. **\"Chatgpt goes to law school\"**. *Choi Jonathan H et al.* SSRN 2023. [[Paper](https:\u002F\u002Fpapers.ssrn.com\u002Fsol3\u002Fpapers.cfm?abstract_id=4335905)]\n39. **\"How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection\"**. *Biyang Guo et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07597v1)]\n40. **\"Is ChatGPT A Good Translator? A Preliminary Study\"**. *Wenxiang Jiao et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.08745v3)]\n41. **\"Could an Artificial-Intelligence agent pass an introductory physics course?\"**. *Gerd Kortemeyer et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12127v2)]\n42. **\"Mathematical Capabilities of ChatGPT\"**. *Simon Frieder et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13867v1)]\n43. **\"Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models\"**. *Zhihong Shao et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00618v1)]\n44. **\"Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning\"**. *Thomas Carta et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02662v1)]\n45. **\"Evaluating ChatGPT as an Adjunct for Radiologic Decision-Making\"**. *Arya Yao et al.* medRxiv 2023. [[Paper](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2023.02.02.23285399v1)]\n46. **\"Theory of Mind May Have Spontaneously Emerged in Large Language Models\"**. *Michal Kosinski et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02083v3)]\n47. **\"A Categorical Archive of ChatGPT Failures\"**. *Ali Borji et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03494v7)]\n48. **\"A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity\"**. *Yejin Bang et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04023v2)]\n49. **\"Toolformer: Language Models Can Teach Themselves to Use Tools\"**. *Timo Schick et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761v1)]\n50. **\"Is ChatGPT a General-Purpose Natural Language Processing Task Solver?\"**. *Chengwei Qin et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06476v2)]\n51. **\"How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation\"**. *Hendy Amr et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.09210)]\n52. **\"Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT\"**. *Qihuang Zhong et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10198v2)]\n53. **\"Zero-Shot Information Extraction via Chatting with ChatGPT\"**. *Xiang Wei et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10205v1)]\n54. **\"ChatGPT: Jack of all trades, master of none\"**. *Jan Kocon et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10724v1)]\n55. **\"On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective\"**. *Jindong Wang et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095v4)]\n56. **\"Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback\"**. *Baolin Peng et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12813v3)]\n57. **\"An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP)\"**. *Paulo Shakarian et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13814v2)]\n58. **\"How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks\"**. *Chen Xuanting et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00293v1)]\n59. **\"The utility of ChatGPT for cancer treatment information\"**. *Shen Chen et al.* medRxiv 2023. [[Paper](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2023.03.16.23287316v1)]\n60. **\"Can ChatGPT Assess Human Personalities? A General Evaluation Framework\"**. *Haocong Rao et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01248v2)]\n61. **\"Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT.\"**. *Mostafa M. Amin et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03186v1)]\n62. **\"Exploring the Feasibility of ChatGPT for Event Extraction.\"**. *Jun Gao et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03836v2)]\n63. **\"Does Synthetic Data Generation of LLMs Help Clinical Text Mining?\"**. *Tang Ruixiang et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04360v1)]\n64. **\"Consistency Analysis of ChatGPT\"**. *Myeongjun Jang et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06273v1)]\n65. **\"Self-planning Code Generation with Large Language Model\"**. *Shun Zhang et al.* ICLR 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689v1)]\n66. **\"Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions\"**. *Yiming Tan et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.07992)]\n67. **\"GPT-4 Technical Report\"**. *OpenAI et al.* OpenAI 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v3)]\n68. **\"A Short Survey of Viewing Large Language Models in Legal Aspect\"**. *Zhongxiang Sun et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09136v1)]\n69. **\"ChatGPT Participates in a Computer Science Exam\"**. *Sebastian Bordt et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09461v2)]\n70. **\"A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models\"**. *Junjie Ye et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10420v1)]\n71. **\"On the Educational Impact of ChatGPT: Is Artificial Intelligence Ready to Obtain a University Degree?\"**. *Kamil Malinka et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11146v1)]\n72. **\"Sparks of Artificial General Intelligence: Early experiments with GPT-4\"**. *S'ebastien Bubeck et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712v3)]\n73. **\"Is ChatGPT A Good Keyphrase Generator? A Preliminary Study\"**. *Mingyang Song et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13001v1)]\n74. **\"Capabilities of GPT-4 on Medical Challenge Problems\"**. *Harsha Nori et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13375v1)]\n75. **\"Can we trust the evaluation on ChatGPT?\"**. *Rachith Aiyappa et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12767)]\n76. **\"ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks\"**. *Fabrizio Gilardi et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15056v1)]\n77. **\"Evaluation of ChatGPT for NLP-based Mental Health Applications\"**. *Bishal Lamichhane et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15727v1)]\n78. **\"ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models\"**. *Bian Ning et al.* arXiv 2023. [[Paper](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16421v1)]\n79. **\"Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams\"**. *Desnes Nunes et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17003v1)]\n80. **\"Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure\"**. *Philipp Koralus et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17276v1)]\n81. **\"Yes but.. Can ChatGPT Identify Entities in Historical Documents?\"**. *Carlos-Emiliano González-Gallardo et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17322v1)]\n82. **\"Uncovering ChatGPT's Capabilities in Recommender Systems\"**. *Sunhao Dai et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02182)]\n83. **\"Editing Large Language Models: Problems, Methods, and Opportunities\"**. *Yunzhi Yao et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13172)]\n84. **\"Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity\"**. *Terry Yue Zhuo et al.* arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12867)]\n85. **\"On Robustness of Prompt-based Semantic Parsing with Large Pre-trained Language Model: An Empirical Study on Codex\"**. *Terry Yue Zhuo et al.* EACL 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12868)]\n86. **\"A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets\"**. Laskar et al.* ACL'23. [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18486)\n87. **\"Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment\"**. *Rishabh Bhardwaj et al*. arXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09662)]\n88. **”A Comprehensive Study of Knowledge Editing for Large Language Models“**. *Ningyu Zhang et al*. arXiv 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01286)]\n\n### The Team\n\nHere is the list of our student contributors in each section.\n\n| Section                       | Student Contributors                                                 |\n| ----------------------------- | -------------------------------------------------------------------- |\n| The whole paper               | Kun Zhou, Junyi Li                                                   |\n| Overview && Resources of LLMs | Yingqian Min (Lead), Chen Yang                                       |\n| Pretraining                   | Yupeng Hou (Lead), Junjie Zhang, Zican Dong, Yushuo Chen             |\n| Adaptaion Tuning              | Tianyi Tang (Lead), Jinhao Jiang, Ruiyang Ren, Zikang Liu, Peiyu Liu |\n| Utilization                   | Xiaolei Wang (Lead), Yifan Du, Xinyu Tang                            |\n| Capacity Evaluation           | Beichen Zhang (Lead), Zhipeng Chen, Yifan Li                         |\n\n## Acknowledgments\n\nThe authors would like to thank Yankai Lin and Yutao Zhu for proofreading  this paper. Since the first release of this paper, we have received a number of valuable comments from the readers. We sincerely thank the readers who have written to us with constructive suggestions and comments: Tyler Suard, Damai Dai, Liang Ding,  Stella Biderman,  Kevin Gray,  Jay Alammar and Yubo Feng.\n\n## Update Log\n\n| Version                  | Time       | Update Content                                               |\n| ------------------------ | ---------- | ------------------------------------------------------------ |\n| V1                       | 2023\u002F03\u002F31 | The initial version.                                         |\n| V2                       | 2023\u002F04\u002F09 | Add the affiliation information.\u003Cbr\u002F>Revise Figure 1 and Table 1 and clarify the \u003Cbr\u002F>corresponding selection criterion for LLMs.\u003Cbr\u002F>Improve the writing.\u003Cbr\u002F>Correct some minor errors. |\n| V3                       | 2023\u002F04\u002F11 | Correct the errors for library resources.                    |\n| V4                       | 2023\u002F04\u002F12 | Revise Figure 1 and Table 1 and clarify the release date of LLMs. |\n| V5                       | 2023\u002F04\u002F16 | Add a new Section 2.2 about\u003Cbr\u002F>the technical evolution of GPT-series models. |\n| V6                       | 2023\u002F04\u002F24 | Add some new models in Table 1 and Figure 1.\u003Cbr\u002F>Add the discussion about scaling laws.\u003Cbr\u002F>Add some explanations about the\u003Cbr\u002F>model sizes for emergent abilities (Section 2.1).\u003Cbr\u002F>Add an illustrative figure for the attention patterns \u003Cbr\u002F>for different architectures in Figure 4.\u003Cbr\u002F>Add the detailed formulas in Table 4. |\n| V7                       | 2023\u002F04\u002F25 | Revise some copy errors in figures and tables.               |\n| V8                       | 2023\u002F04\u002F27 | Add efficient tuning in Section 5.3                          |\n| V9                       | 2023\u002F04\u002F28 | Revise  Section 5.3                                          |\n| V10                      | 2023\u002F05\u002F07 | Revise Table 1, Table 2, and some minor points.              |\n| V11 \u003Cbr\u002F> (major revision) | 2023\u002F06\u002F29 | – Section 1: add Figure 1 for the trends of published\u003Cbr\u002F>LLM papers in arXiv;\u003Cbr\u002F>– Section 2: add Figure 3 for GPT’s evolution and the\u003Cbr\u002F>corresponding discussion;\u003Cbr\u002F>– Section 3: add Figure 4 for LLaMA family and the\u003Cbr\u002F>corresponding discussion;\u003Cbr\u002F>– Section 5: add latest discussion about the synthetic\u003Cbr\u002F>data formatting of instruction tuning in Section 5.1.1,\u003Cbr\u002F>the empirical analysis for instruction tuning in Sec-\u003Cbr\u002F>tion 5.1.4, parameter-efficient model adaptation in\u003Cbr\u002F>Section 5.3 and memory-efficient adaptation in Sec-\u003Cbr\u002F>tion 5.4;\u003Cbr\u002F>– Section 6: add latest discussion about the underlying\u003Cbr\u002F>mechanism of ICL 6.1.3, planning for complex task\u003Cbr\u002F>solving in Section 6.3;\u003Cbr\u002F>– Section 7: add Table 10 for representative datasets for\u003Cbr\u002F>evaluating advanced abilities of LLMs, and empirical\u003Cbr\u002F>ability evaluation in Section 7.3.2;\u003Cbr\u002F>– Section 8: add prompt design;\u003Cbr\u002F>– Section 9: add the discussions on applications of\u003Cbr\u002F>LLMs in finance and scientific research domains; |\n| V12 \u003Cbr\u002F> (major revision) | 2023\u002F09\u002F10 | – Claim the copyrights of the figures and tables in this paper;\u003Cbr\u002F>– Add latest LLMs, techniques and their descriptions in Section 3, Section 4, Section 5, Section 6 and Section 7;\u003Cbr\u002F>– Section 4: add latest discussion about the decoding strategy in Section 4.2.4;\u003Cbr\u002F>– Section 5: add latest discussion about the practical tricks for instruction tuning in Section 5.1.2, the empirical analysis on LLaMA (13B) for instruction tuning in Section 5.1.4, practical strategies for RLHF in Section 5.2.3, alignment without RLHF in Section 5.2.4 and remarks on SFT and RLHF in Section 5.2.5;\u003Cbr\u002F>– Section 6: update the content about the planning for complex task solving in Section 6.4;\u003Cbr\u002F>– Section 7: add discussions about evaluation approaches in Section 7.3.2, Table 15 for the category of existing evaluation work, and update empirical ability evaluation in Section 7.4 and the results on Table 16;\u003Cbr\u002F>– Section 6.1.1: add new prompt examples in Table 12;|\n| V13 \u003Cbr\u002F> (major revision) | 2023\u002F11\u002F23 | – Section 1: add Figure 2 for the evolution process of four generations of language models;\u003Cbr\u002F>– Section 2: add more discussion about scaling laws and how emergent abilities relate to scaling laws;\u003Cbr\u002F>– Section 3: add latest LLMs in Figure 3 and Table 1, latest APIs in Section 3.1, commonly used datasets for instruction tuning and alignment tuning in Section 3.3, and several libraries in Section 3.4;\u003Cbr\u002F>– Section 4: add latest discussion about the data scheduling, including data mixtures and data curriculum in Section 4.1.3; add summary of data preparation in Section 4.1.4; add discussion about modeling long context in Section 9.1; add discussion about decoding efficiency issues and add latest decoding strategies in Section 4.2.4;\u003Cbr\u002F>– Section 5: add latest discussion about instance construction and tuning strategies in Section 5.1; add latest discussion about process-supervised RLHF in Section 5.2.3, and the empirical study on quantized LLaMA models (7B and 13B) in Section 9.5.1;\u003Cbr\u002F>– Section 6: add latest discussion about prompt optimization in Section 6.1.2, and update the content about chain-of-thought prompting in Section 6.3;\u003Cbr\u002F>– Section 8: add latest discussion about LLM for research directions in Section 8.1;\u003Cbr\u002F>– Section 10: revise the content in the several aspects.|\n| V14 | 2024\u002F09\u002F25 | – Section 3: reorganize the content of “public available model checkpoints” into multiple series; add the latest LLMs in Figure 3.\u003Cbr\u002F>– Section 4: add LLM-based data filtering and selection methods in Section 4.1.2; update Section 4.2.1, “Emergent Architectures” to include more discussions about SSM-based architectures; add Table 6 to compare parallelism and complexity of different architectures.\u003Cbr\u002F>– Section 5: add latest discussion about instruction quality improvement and instruction selection in Section 5.1.1; add latest discussion about practical strategies for RLHF and process-supervised RLHF in Section 5.2.3; update the content about supervised alignment tuning in Section 5.2.4.\u003Cbr\u002F>– Section 6: add latest papers about discrete prompt optimization in Section 6.1.2.\u003Cbr\u002F>– Section 9: add latest discussion about advanced topics, including long context modeling, LLM-based agent, analysis and optimization for training and inference, model inference, model compression, retrieval-augmented generation, and hallucination. |\n| V15 | 2024\u002F10\u002F12 | – Correct the errors in Section 8.1.5. |\n| V16 | 2025\u002F03\u002F11 | – Section 9.8: add latest papers about long CoT reasoning, including the analysis of reasoning patterns and advantages, construction of long CoT data (i.e., distillation, search-based, and multi-agent collaboration), and training methods (i.e., instruction tuning and reinforcement learning). |\n","# LLMSurvey\n\n\n> 一系列与大型语言模型相关的论文和资源合集。 \n>\n> 论文的组织方式参考了我们的综述[**《大型语言模型综述》**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.18223)。 [![论文页面](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fraw\u002Fmain\u002Fpaper-page-sm-dark.svg)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2303.18223)\n>\n> 如果您发现任何错误或有任何建议，请通过电子邮件告知我们：batmanfly@gmail.com\n>\n> （我们建议同时抄送另一封邮件 francis_kun_zhou@163.com，以防出现投递失败的情况。）\n>\n>\n> 如果您认为我们的综述对您的研究有所帮助，请引用以下论文：\n\n```\n@article{LLMSurvey,\n    title={A Survey of Large Language Models},\n    author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and Du, Yifan and Yang, Chen and Chen, Yushuo and Chen, Zhipeng and Jiang, Jinhao and Ren, Ruiyang and Li, Yifan and Tang, Xinyu and Liu, Zikang and Liu, Peiyu and Nie, Jian-Yun and Wen, Ji-Rong},\n    year={2023},\n    journal={arXiv preprint arXiv:2303.18223},\n    url={http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.18223}\n}\n```\n\n## 🚀（新）我们发布了该综述的中文版！\n\n中文版专注于为LLM领域的初学者提供解释说明，旨在呈现一个全面的LLM框架与路线图。本书适合具备深度学习基础的高年级本科生及低年级研究生阅读，可作为入门级技术书籍使用。\n您可以在[https:\u002F\u002Fllmbook-zh.github.io\u002F](https:\u002F\u002Fllmbook-zh.github.io\u002F)下载中文版。\n\n以下是我们的[中文版销售页面](https:\u002F\u002Fitem.jd.com\u002F14901508.html)。\n\n![chinese_version](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_b1f687efd281.jpg)\n\n## 🚀（新）关于长链式思维推理的内容 \n\n在最新版本中，我们新增了近期流行的推理范式内容——即在回答问题前分配更多时间进行思考。我们重点介绍了长链式思维推理这一主流方法，它被DeepSeek-R1和OpenAI的o系列模型等近期LLM所采用。首先，我们讨论了长链式思维推理的模式及其优势；随后，我们阐述了长链式思维推理数据的构建方法，包括数据蒸馏、基于搜索的数据合成以及多智能体协作等。此外，我们还介绍了两种常用的训练方法：长链式思维推理指令调优和规模化的强化学习训练。最后，我们深入探讨了近期针对LLM的测试时扩展技术。\n\n\u003Cdiv align=center>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_2491dca2cd76.png\" alt=\"Cover\" width=\"60%\"\u002F>\u003C\u002Fdiv>\n\n## arXiv上与LLM相关论文数量的变化趋势\n\n以下是自2018年6月起包含关键词“language model”以及自2019年10月起包含关键词“large language model”的arXiv论文累计数量变化趋势。\n\n![arxiv_llms](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_05caef3b5e63.png)\n\n统计数据是通过每月查询标题或摘要中的关键词并进行精确匹配计算得出的。由于“language models”这一主题较早被研究，因此我们为这两个关键词设置了不同的横轴范围。我们标注了LLM研究进程中一些重要里程碑对应的点。ChatGPT发布后，相关论文数量出现了显著增长：平均每天发表的包含“large language model”关键词的arXiv论文数量从0.40篇增至8.58篇。\n\n\n\n## GPT系列模型的技术演进\n\n简要展示了GPT系列模型的技术演进过程。本图主要基于OpenAI发布的论文、博客文章及官方API绘制而成。其中，实线表示两代模型之间存在明确证据（例如，官方声明某新模型是在基础模型之上开发的），而虚线则表示两者之间的演进关系相对较弱。\n\n\n\n![gpt-series](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_34f678a274b3.png)\n\n\n\n## LLaMA家族演化图\n\n展示了LLaMA相关研究工作的演化关系。由于变体众多，即使有许多优秀的工作，我们也无法将所有LLaMA变体都纳入此图中。 \n\n\n\n![LLaMA_family](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_26931c1560be.png)\n\n\n\n为了支持增量更新，**我们分享了该图的源文件，并欢迎读者通过向我们的GitHub页面提交拉取请求来添加所需的模型。如果您感兴趣，请提交申请。**\n\n\n\n\n## 提示词\n\n我们收集了一些设计提示词的实用技巧，这些技巧来源于网络笔记以及作者们的实践经验。同时，我们也展示了相关的要素与原则（详见第8.1节）。 \n\n![prompt examples](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_81733703f1cc.png)\n\n请点击[这里](Prompts\u002FREADME.md)查看更详细的信息。\n\n**欢迎大家以[issues](https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F34)的形式向我们提供更多相关技巧。** 经过筛选后，我们会定期在GitHub上更新这些内容，并注明来源。\n\n\n\n## 实验\n\n### 指令调优实验\n\n我们将探索不同类型指令在微调LLM（即7B LLaMA26）时的效果，并考察几种指令改进策略的实用性。\n\n\n\n![instruction_tuning_table](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_6d463fab50bc.png)\n\n\n\n请点击[这里](Experiments\u002FREADME.md)查看更详细的信息。\n\n### 能力评估实验\n\n我们对第7.1节和第7.2节中讨论的能力进行了细粒度评估。对于每一种能力，我们选取了具有代表性的任务和数据集来进行评估实验，以检验LLM在相应方面的表现。 \n\n\n\n![ability_main](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_a57dd17dfe6a.png)\n\n\n\n请点击[这里](Experiments\u002FREADME.md)查看更详细的信息。\n\n\n\n**我们也呼吁大家提供算力支持，以便开展更为全面的实验。**\n\n## 目录\n\n- [LLMSurvey](#llmsurvey)\n  - [中文版](#chinese-version)\n  - [🚀(新) arXiv上与LLM相关的论文数量趋势](#new-the-trends-of-the-number-of-papers-related-to-llms-on-arxiv)\n  - [🚀(新) GPT系列模型的技术演进](#new-technical-evolution-of-gpt-series-models)\n  - [🚀(新) LLaMA家族的演化图谱](#new-evolutionary-graph-of-llama-family)\n  - [🚀(新) 提示词](#new-prompts)\n  - [🚀(新) 实验](#new-experiments)\n    - [指令微调实验](#instruction-tuning-experiments)\n    - [能力评估实验](#ability-evaluaition-experiments)\n  - [目录](#table-of-contents)\n  - [LLM时间线](#timeline-of-llms)\n  - [LLM列表](#list-of-llms)\n  - [论文列表](#paper-list)\n    - [LLM相关资源](#resources-of-llms)\n      - [公开可用模型](#publicly-available-models)\n      - [闭源模型](#closed-source-models)\n      - [常用语料库](#commonly-used-corpora)\n      - [库资源](#library-resource)\n      - [深度学习框架](#deep-learning-frameworks)\n    - [预训练](#pre-training)\n      - [数据收集](#data-collection)\n      - [架构](#architecture)\n        - [主流架构](#mainstream-architectures)\n        - [详细配置](#detailed-configuration)\n        - [分析](#analysis)\n      - [训练算法](#training-algorithms)\n      - [代码预训练](#pre-training-on-code)\n        - [用于程序合成的LLM](#llms-for-program-synthesis)\n        - [以代码形式表示的NLP任务](#nlp-tasks-formatted-as-code)\n    - [适配性微调](#adaptation-tuning)\n      - [指令微调](#instruction-tuning)\n      - [对齐微调](#alignment-tuning)\n      - [参数高效的模型适配](#parameter-efficient-model-adaptation)\n      - [内存高效的模型适配](#memory-efficient-model-adaptation)\n    - [应用](#utilization)\n      - [上下文学习（ICL）](#in-context-learning-icl)\n      - [思维链推理（CoT）](#chain-of-thought-reasoning-cot)\n      - [复杂任务求解中的规划](#planning-for-complex-task-solving)\n    - [能力评估](#capacity-evaluation)\n    - [团队](#the-team)\n  - [致谢](#acknowledgments)\n  - [更新日志](#update-log)\n\n## LLM时间线\n\n![LLMs_timeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_readme_ffd187663fee.png)\n\n\n\n\n\n## LLM列表\n\n\u003Ctable class=\"tg\">\n\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-nrix\" align=\"center\" rowspan=\"2\">类别\u003C\u002Fth>\n    \u003Cth class=\"tg-baqh\" align=\"center\" rowspan=\"2\">模型\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\" align=\"center\" rowspan=\"2\">发布时间\u003C\u002Fth>\n    \u003Cth class=\"tg-baqh\" align=\"center\" rowspan=\"2\">参数量（B）\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\" align=\"center\" rowspan=\"2\">链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\" align=\"center\" rowspan=\"27\">公开\u003Cbr>可访问\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">T5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2019年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">mT5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PanGu-α\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年5月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.12369\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CPM-2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年5月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">198\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10715\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">T0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-NeoX-20B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年2月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CodeGen\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">16\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Tk-Instruct\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年4月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">UL2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年2月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05131\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">OPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年5月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">YaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年6月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">100\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyandex\u002FYaLM-100B\">GitHub\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">NLLB\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年7月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">55\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04672\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">BLOOM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年7月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">176\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年8月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">130\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-T5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">11\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">mT0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年11月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Galatica\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年11月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">120\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">BLOOMZ\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年11月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">176\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">OPT-IML\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Pythia\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年1月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01373\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">LLaMA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年2月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">65\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Vicuna\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-03-30-vicuna\u002F\">博客\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ChatGLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">6\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B\">GitHub\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">CodeGeeX\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Alpaca\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fcrfm.stanford.edu\u002F2023\u002F03\u002F13\u002Falpaca.html\">博客\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Koala\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年4月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">13\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fbair.berkeley.edu\u002Fblog\u002F2023\u002F04\u002F03\u002Fkoala\u002F\">博客\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Mistral\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年9月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">7\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fmistral.ai\u002Fnews\u002Fannouncing-mistral-7b\u002F\">博客\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-nrix\" align=\"center\" rowspan=\"31\">闭源\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GShard\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2020年1月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">600\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16668v1\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2020年5月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">LaMDA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年5月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">137\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">HyperCLOVA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年6月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">82\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Codex\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年7月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">12\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ERNIE 3.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年7月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.02137\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Jurassic-1\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年8月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">178\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Fassets.website-files.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">FLAN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">137\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">MT-NLG\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">530\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Yuan 1.0\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">245\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04725\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Anthropic\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">52\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">WebGPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Gopher\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">280\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">ERNIE 3.0 Titan\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">260\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.12731\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GLaM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2021年12月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">1200\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">InstructGPT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年1月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">175\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">AlphaCode\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年2月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">41\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Chinchilla\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年4月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Cohere\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年6月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">54\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Fcohere.ai\u002F\">官网\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">AlexaTM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年8月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">20\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Luminous\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年9月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Fdocs.aleph-alpha.com\u002Fdocs\u002Fintroduction\u002Fluminous\u002F\">文档\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Sparrow\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年9月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">70\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375v1\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">WeLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年9月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">10\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.10372\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">U-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">Flan-U-PaLM\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2022年10月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">540\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">GPT-4\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">—\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">PanGU-Σ\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\">2023年3月\u003C\u002Ftd>\n    \u003Ctd class=\"tg-baqh\" align=\"center\">1085\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\" align=\"center\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10845\">论文\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 论文列表\n\n### 大语言模型资源\n\n#### 公开可用模型\n\n1. \u003Cu>T5\u003C\u002Fu>：**“使用统一的文本到文本Transformer探索迁移学习的极限”**。*Colin Raffel等*，JMLR 2019年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Ft5-11b)]\n2. \u003Cu>mT5\u003C\u002Fu>：**“mT5：一个大规模多语言预训练文本到文本Transformer”**。*Linting Xue* 等，NAACL 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11934)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fmt5-xxl\u002Ftree\u002Fmain)]\n3. \u003Cu>PanGu-α\u003C\u002Fu>：**“PanGu-α：具有自动并行计算的大规模自回归预训练中文语言模型”**。*Wei Zeng等*，arXiv 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.12369)] [[检查点](https:\u002F\u002Fopeni.pcl.ac.cn\u002FPCL-Platform.Intelligence\u002FPanGu-Alpha)]\n4. \u003Cu>CPM-2\u003C\u002Fu>：**“CPM-2：大规模、高性价比的预训练语言模型”**。*Zhengyan Zhang等*，arXiv 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.10715)] [[检查点](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM)]\n5. \u003Cu>T0\u003C\u002Fu>：**“多任务提示训练实现零样本任务泛化”**。*Victor Sanh等*，ICLR 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002FT0)]\n6. \u003Cu>GPT-NeoX-20B\u003C\u002Fu>：**“GPT-NeoX-20B：一个开源的自回归语言模型”**。*Sid Black等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.06745)] [[检查点](https:\u002F\u002Fhuggingface.co\u002FEleutherAI\u002Fgpt-neox-20b\u002Ftree\u002Fmain)]\n7. \u003Cu>CodeGen\u003C\u002Fu>：**“CodeGen：一个用于代码的开放大型语言模型，具备多轮程序合成能力”**。*Erik Nijkamp等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)] [[检查点](https:\u002F\u002Fhuggingface.co\u002FSalesforce\u002Fcodegen-16B-nl)]\n8. \u003Cu>Tk-Instruct\u003C\u002Fu>：**“Super-NaturalInstructions：通过1600多个NLP任务上的声明式指令实现泛化”**。*Yizhong Wang等*，EMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fallenai\u002Ftk-instruct-11b-def-pos)]\n9. \u003Cu>UL2\u003C\u002Fu>：**“UL2：统一语言学习范式”**。*Yi Tay等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05131)] [[检查点](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fgoogle-research\u002Ftree\u002Fmaster\u002Ful2)]\n10. \u003Cu>OPT\u003C\u002Fu>：**“OPT：开放的预训练Transformer语言模型”**。*Susan Zhang等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)] [[检查点](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Ftree\u002Fmain\u002Fprojects\u002FOPT)]\n11. \u003Cu>NLLB\u003C\u002Fu>：**“不让任何语言掉队：以人为本的机器翻译规模化”**。*NLLB团队*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04672)] [[检查点](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq\u002Ftree\u002Fnllb)]\n12. \u003Cu>BLOOM\u003C\u002Fu>：**“BLOOM：一个拥有1760亿参数的开源多语言语言模型”**。*BigScience Workshop*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloom)]\n13. \u003Cu>GLM\u003C\u002Fu>：**“GLM-130B：一个开放的双语预训练模型”**。*Aohan Zeng等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)] [[检查点](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FGLM-130B)]\n14. \u003Cu>Flan-T5\u003C\u002Fu>：**“指令微调语言模型的扩展”**。*Hyung Won Chung等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] [[检查点](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ft5x\u002Fblob\u002Fmain\u002Fdocs\u002Fmodels.md#flan-t5-checkpoints)]\n15. \u003Cu>mT0 && BLOOMZ\u003C\u002Fu>：**“通过多任务微调实现跨语言泛化”**。*Niklas Muennighoff等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786)] [[检查点](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf)]\n16. \u003Cu>Galactica\u003C\u002Fu>：**“Galactica：一个面向科学的大语言模型”**。*Ross Taylor等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fgalactica-120b)]\n17. \u003Cu>OPT-IML\u003C\u002Fu>：**“OPT-IML：从泛化的视角扩展语言模型指令元学习”**。*Srinivasan等*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fopt-iml-30b)]\n18. \u003Cu>CodeGeeX\u003C\u002Fu>：**“CodeGeeX：一个用于代码生成的预训练模型，在HumanEval-X上进行多语言评估”**。*Qinkai Zheng等*，arXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17568)] [[检查点](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCodeGeeX)]\n19. \u003Cu>Pythia\u003C\u002Fu>：**“Pythia：一套用于分析大型语言模型在训练和扩展过程中的工具”**。*Stella Biderman等*，arXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01373)] [[检查点](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Fpythia)]\n20. \u003Cu>LLaMA\u003C\u002Fu>：**“LLaMA：开放且高效的基座语言模型”**。*Hugo Touvron等*，arXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13971v1)] [[检查点](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama)]\n\n#### 封闭源模型\n\n1. \u003Cu>GShard\u003C\u002Fu>：**“GShard：通过条件计算与自动分片扩展巨型模型”**。*德米特里·列皮欣等* ICLR 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2006.16668v1)]\n2. \u003Cu>GPT-3\u003C\u002Fu>：**“语言模型是少样本学习者”**。*汤姆·B·布朗等* NeurIPS 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)]\n3. \u003Cu>LaMDA\u003C\u002Fu>：**“LaMDA：面向对话应用的语言模型”**。*罗马尔·托皮兰等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)]\n4. \u003Cu>HyperCLOVA\u003C\u002Fu>：**“大规模语言模型能带来哪些改变？对HyperCLOVA的深入研究：数十亿参数级韩语生成式预训练Transformer”**。*金宝涉等* EMNLP 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.04650)]\n5. \u003Cu>CodeX\u003C\u002Fu>：**“评估基于代码训练的大规模语言模型”**。*马克·陈等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374)]\n6. \u003Cu>ERNIE 3.0\u003C\u002Fu>：**“ERNIE 3.0：大规模知识增强型预训练，用于语言理解和生成”**。*孙宇等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.02137)]\n7. \u003Cu>Jurassic-1\u003C\u002Fu>：**“Jurassic-1：技术细节与评估”**。*奥弗·利伯等* 2021。[[论文](https:\u002F\u002Fassets.website-files.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf)]\n8. \u003Cu>FLAN\u003C\u002Fu>：**“微调后的语言模型是零样本学习者”**。*杰森·魏等* ICLR 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)]\n9. \u003Cu>MT-NLG\u003C\u002Fu>：**“利用DeepSpeed和Megatron训练Megatron-Turing NLG 530B，一个大规模生成式语言模型”**。*沙登·史密斯等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11990)]\n10. \u003Cu>Yuan 1.0\u003C\u002Fu>：**“Yuan 1.0：在零样本和少样本学习中表现优异的大规模预训练语言模型”**。*吴绍华等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04725)]\n11. \u003Cu>Anthropic\u003C\u002Fu>：**“作为对齐研究实验室的通用语言助手”**。*阿曼达·阿斯克尔等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)]\n12. \u003Cu>WebGPT\u003C\u002Fu>：**“WebGPT：结合浏览器辅助与人类反馈的问答系统”**。*中野玲一郎等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)]\n13. \u003Cu>Gopher\u003C\u002Fu>：**“语言模型的规模化：方法、分析及训练Gopher的经验与洞见”**。*杰克·W·雷等* arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446v2)]\n14. \u003Cu>ERNIE 3.0 Titan\u003C\u002Fu>：**“ERNIE 3.0 Titan：探索更大规模的知识增强型预训练，用于语言理解和生成”**。*王硕焕等* arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.12731)]\n15. \u003Cu>GLaM\u003C\u002Fu>：**“GLaM：基于专家混合的高效语言模型扩展”**。*南杜等* ICML 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.06905)]\n16. \u003Cu>InstructGPT\u003C\u002Fu>：**“利用人类反馈训练语言模型遵循指令”**。*龙欧阳等* arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1)]\n17. \u003Cu>AlphaCode\u003C\u002Fu>：**“使用AlphaCode实现竞赛级别的代码生成”**。*李宇嘉等* arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1)]\n18. \u003Cu>Chinchilla\u003C\u002Fu>：**“训练计算最优的大规模语言模型”**。*乔丹·霍夫曼等* arXiv。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)]\n19. \u003Cu>PaLM\u003C\u002Fu>：**“PaLM：借助Pathways扩展语言建模”**。*阿坎克莎·乔德赫里等* arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)]\n20. \u003Cu>AlexaTM\u003C\u002Fu>：**“AlexaTM 20B：利用大规模多语言Seq2Seq模型进行少样本学习”**。*萨利赫·索尔坦等* arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.01448)]\n21. \u003Cu>Sparrow\u003C\u002Fu>：**“通过有针对性的人类判断改进对话代理的对齐性”**。*阿米莉亚·格莱泽等* arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375v1)]\n22. \u003Cu>WeLM\u003C\u002Fu>：**“WeLM：一款博学的中文预训练语言模型”**。*苏辉等* arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.10372)]\n23. \u003Cu>U-PaLM\u003C\u002Fu>：**“以额外0.1%的计算资源超越缩放定律”**。*易泰等* arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399)]\n24. \u003Cu>Flan-PaLM && Flan-U-PaLM\u003C\u002Fu>：**“指令微调语言模型的规模化”**。*郑炯源等* arXiv。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] \n25. \u003Cu>GPT-4\u003C\u002Fu>：**“GPT-4技术报告”**。*OpenAI* arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v2)]\n26. \u003Cu>PanGu-Σ\u003C\u002Fu>：**“PanGu-Σ：迈向采用稀疏异构计算的万亿参数语言模型”**。*任晓哲等* arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10845)]\n\n#### 常用语料库\n\n1. \u003Cu>BookCorpus\u003C\u002Fu>：**“对齐书籍与电影：通过观看电影和阅读书籍实现类似故事的视觉解释”**。*朱玉坤等* ICCV 2015。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1506.06724v1)] [[来源](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fbookcorpus)]\n2. \u003Cu>古腾堡\u003C\u002Fu>：[[来源](https:\u002F\u002Fwww.gutenberg.org\u002F)]\n3. \u003Cu>CommonCrawl\u003C\u002Fu>：[[来源](https:\u002F\u002Fcommoncrawl.org\u002F)]\n4. \u003Cu>C4\u003C\u002Fu>：**“利用统一的文本到文本Transformer探索迁移学习的极限”**。*科林·拉菲尔等* JMLR 2019。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683v3)] [[来源](https:\u002F\u002Fwww.tensorflow.org\u002Fdatasets\u002Fcatalog\u002Fc4)]\n5. \u003Cu>CC-stories-R\u003C\u002Fu>：**“一种简单的常识推理方法”**。*特里乌·H·郑等* arXiv 2018。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1806.02847v2)] [[来源](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fspacemanidol\u002Fcc-stories)]\n6. \u003Cu>CC-NEWS\u003C\u002Fu>：**“RoBERTa：一种鲁棒优化的BERT预训练方法”**。*刘银汉等* arXiv 2019。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1907.11692v1)] [[来源](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcc_news)]\n7. \u003Cu>REALNEWs\u003C\u002Fu>：**“防御神经网络生成的假新闻”**。*罗温·泽勒斯等* NeurIPS 2019。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1905.12616v3)] [[来源](https:\u002F\u002Fgithub.com\u002Frowanz\u002Fgrover\u002Ftree\u002Fmaster\u002Frealnews)]\n8. \u003Cu>OpenWebText\u003C\u002Fu>：[[来源](https:\u002F\u002Fskylion007.github.io\u002FOpenWebTextCorpus\u002F)]\n9. \u003Cu>Pushshift.io\u003C\u002Fu>：**“Pushshift Reddit数据集”**。*杰森·鲍姆加特纳等* AAAI 2020。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2001.08435v1)] [[来源](https:\u002F\u002Ffiles.pushshift.io\u002Freddit\u002F)]\n10. \u003Cu>维基百科\u003C\u002Fu>：[[来源](https:\u002F\u002Fdumps.wikimedia.org\u002F)]\n11. \u003Cu>BigQuery\u003C\u002Fu>：[[来源](https:\u002F\u002Fcloud.google.com\u002Fbigquery\u002Fpublic-data?hl=zh-cn)]\n12. \u003Cu>The Pile\u003C\u002Fu>：**“The Pile：一个800GB的多样化文本数据集，用于语言建模”**。*利奥·高等* arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00027v1)] [[来源](https:\u002F\u002Fpile.eleuther.ai\u002F)]\n13. \u003Cu>ROOTS\u003C\u002Fu>：**“BigScience ROOTS语料库：一个1.6TB的复合多语言数据集”**。*洛朗松等* NeurIPS 2022数据集与基准赛道。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03915)]\n\n#### 库资源\n\n1. \u003Cu>Transformer\u003C\u002Fu>：**“Transformer：自然语言处理的最先进方法”**。*托马斯·沃尔夫等*，EMNLP 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.03771)] [[源码](https:\u002F\u002Fhuggingface.co\u002F)]\n2. \u003Cu>DeepSpeed\u003C\u002Fu>：**“DeepSpeed：系统优化使训练超过1000亿参数的深度学习模型成为可能”**。*拉斯利等*，KDD 2020。[[论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3394486.3406703)] [[源码](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)]\n3. \u003Cu>Megatron-LM\u003C\u002Fu>：**“Megatron-LM：使用模型并行训练数十亿参数的语言模型”**。*穆罕默德·绍伊比等*，arXiv 2019。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053)] [[源码](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM)]\n4. \u003Cu>JAX\u003C\u002Fu>：[[源码](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fjax)]\n5. \u003Cu>Colossal-AI\u003C\u002Fu>：**“Colossal-AI：用于大规模并行训练的统一深度学习系统”**。*卞正达等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14883v2)] [[源码](https:\u002F\u002Fgithub.com\u002Fhpcaitech\u002FColossalAI)]\n6. \u003Cu>BMTrain\u003C\u002Fu>：[[源码](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTrain)]\n7. \u003Cu>FastMoE\u003C\u002Fu>：**“FastMoE：一种快速的专家混合训练系统”**。*何家傲等*，arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.13262)] [[源码](https:\u002F\u002Fgithub.com\u002Flaekov\u002Ffastmoe)]\n\n#### 深度学习框架\n\n1. \u003Cu>PyTorch\u003C\u002Fu>：**“PyTorch：一种命令式、高性能的深度学习库”**。*亚当·帕什克等*，NeurIPS 2019。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.01703)] [[源码](https:\u002F\u002Fpytorch.org\u002F)]\n2. \u003Cu>TensorFlow\u003C\u002Fu>：**“TensorFlow：一个用于大规模机器学习的系统”**。*马丁·阿巴迪等*，OSDI 2016。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1605.08695)] [[源码](https:\u002F\u002Fwww.tensorflow.org\u002F)]\n3. \u003Cu>MXNet\u003C\u002Fu>：**“MXNet：一种灵活高效的机器学习库，适用于异构分布式系统”**。*陈天奇等*，arXiv 2015。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.01274)] [[源码](https:\u002F\u002Fgithub.com\u002Fapache\u002Fmxnet)]\n4. \u003Cu>PaddlePaddle\u003C\u002Fu>：**“PaddlePaddle：一个源自工业实践的开源深度学习平台”**。*马延军等*，数据与计算前沿 2019。[[论文](http:\u002F\u002Fwww.jfdc.cnic.cn\u002FEN\u002Fabstract\u002Fabstract2.shtml)] [[源码](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddle)]\n5. \u003Cu>MindSpore\u003C\u002Fu>：**“华为MindSpore AI开发框架”**。*华为技术有限公司*，人工智能技术 2022。[[论文](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-981-19-2879-6_5)] [[源码](https:\u002F\u002Fgithub.com\u002Fmindspore-ai\u002Fmindspore)]\n6. \u003Cu>OneFlow\u003C\u002Fu>：**“OneFlow：从头设计分布式深度学习框架”**。*袁金辉等*，arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15032)] [[源码](https:\u002F\u002Fgithub.com\u002FOneflow-Inc\u002Foneflow)]\n\n### 预训练\n#### 数据收集\n\n1. **“BigScience ROOTS语料库：一个1.6TB的多语言复合数据集”**。*洛朗松等*，NeurIPS 2022数据集与基准测试赛道。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03915)]\n1. **“去重训练数据能使语言模型更好”**。*凯瑟琳·李等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.06499)]\n1. **“去重训练数据可降低语言模型中的隐私风险”**。*尼基尔·坎德帕尔等*，ICML 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.06539)]\n1. **“重复数据学习的扩展规律与可解释性”**。*丹尼·埃尔南德斯等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10487)]\n1. **“预训练者关于训练数据的指南：衡量数据年代、领域覆盖、质量和毒性的影响”**。*谢恩·隆普雷等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13169)]\n\n#### 架构\n\n##### 主流架构\n\n**因果解码器**\n\n1. **“语言模型是少样本学习者”**。*汤姆·B·布朗等*，NeurIPS 2020。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165)]\n1. **“OPT：开放的预训练Transformer语言模型”**。*苏珊·张等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.01068)]\n1. **“BLOOM：一个拥有1760亿参数的开源多语言语言模型”**。*特文·勒·斯考等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05100)]\n1. **“训练计算最优的大规模语言模型”**。*乔丹·霍夫曼等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.15556)]\n1. **“语言模型的扩展：来自Gopher训练的方法、分析与见解”**。*杰克·W·雷等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.11446)]\n1. **“Galactica：一个用于科学领域的大型语言模型”**。*罗斯·泰勒等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)]\n1. **“PaLM：通过Pathways扩展语言建模”**。*阿坎克沙·乔杜里等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.02311)]\n1. **“Jurassic-1：技术细节与评估”**。*奥弗·利伯等*，AI21 Labs。[[论文](https:\u002F\u002Fuploads-ssl.webflow.com\u002F60fd4503684b466578c0d307\u002F61138924626a6981ee09caf6_jurassic_tech_paper.pdf)]\n1. **“LaMDA：用于对话应用的语言模型”**。*罗马尔·托皮兰等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08239)]\n\n**前缀解码器**\n1. **“GLM-130B：一个开放的双语预训练模型”**。*敖汉·曾等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02414)]\n1. **“GLM：基于自回归空白填充的通用语言模型预训练”**。*郑晓·杜等*，ACL 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2103.10360)]\n1. **“以0.1%的额外计算超越扩展定律”**。*易泰等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11399)]\n\n**MoE**\n1. **“Switch Transformer：通过简单高效的稀疏性扩展到万亿参数模型”**。*威廉·费杜斯等*，JMLR。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.03961)]\n1. **“路由语言模型的统一扩展定律”**。*艾丹·克拉克等*，ICML 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01169)]\n\n**SSM**\n1. **“无需注意力机制的预训练”**。*王俊雄等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10544)]\n1. **“利用结构化状态空间高效建模长序列”**。*阿尔伯特·顾等*，ICLR 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2111.00396)]\n1. **“通过门控状态空间进行长距离语言建模”**。*哈什·梅塔等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2206.13947)]\n1. **“饥饿的河马：迈向基于状态空间模型的语言建模”**。*丹尼尔·Y·傅等*，ICLR 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.14052)]\n\n##### 详细配置\n\n**层归一化**\n1. \u003Cu>RMSNorm\u003C\u002Fu>：**“均方根层归一化”**。*张彪等*，NeurIPS 2019。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07467)]\n1. \u003Cu>DeepNorm\u003C\u002Fu>：**“DeepNet：将Transformer扩展到1000层”**。*王洪宇等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555)]\n1. \u003Cu>Sandwich-LN\u003C\u002Fu>：**“CogView：通过Transformer掌握文本到图像生成”**。*丁明等*，NeirIPS 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13290)]\n\n**位置编码**\n1. \u003Cu>T5偏置\u003C\u002Fu>：**“探索统一文本到文本Transformer的迁移学习极限”**。*科林·拉法尔等人*，JMLR 2019年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)]\n1. \u003Cu>ALiBi\u003C\u002Fu>：**“训练短、测试长：带有线性偏置的注意力机制实现输入长度外推”**。*奥菲尔·普雷斯等人*，ICLR 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.12409)]\n1. \u003Cu>RoPE\u003C\u002Fu>：**“RoFormer：带旋转位置嵌入的增强型Transformer”**。*苏建林等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2104.09864)]\n1. \u003Cu>xPos\u003C\u002Fu>：**“一种可进行长度外推的Transformer”**。*孙宇涛等人*，arXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10554)]\n\n**注意力机制**\n1. \u003Cu>多查询注意力\u003C\u002Fu>：**“快速Transformer解码：一个写头就足够了”**。*诺姆·沙泽尔*，arXiv 2019年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1911.02150)]\n1. \u003Cu>FlashAttention\u003C\u002Fu>：**“FlashAttention：具有IO感知的快速且内存高效的精确注意力机制”**。*Tri Dao等人*，NeurIPS 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14135)]\n1. \u003Cu>PagedAttention\u003C\u002Fu>：**“vLLM：使用PagedAttention实现简单、快速且廉价的LLM服务”**。*权宇锡等人*，2023年。论文（敬请期待）[[官方网站](https:\u002F\u002Fvllm.ai\u002F)]\n\n##### 分析\n\n1. **“哪种语言模型架构和预训练目标最适合零样本泛化？”**。*托马斯·王等人*，ICML 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05832)]\n1. **“如果你有一百万GPU小时，应该训练哪种语言模型？”**。*特文·勒·斯考等人*，EMNLP 2022年发现。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.15424)]\n1. **“考察语言模型架构在机器翻译中的扩展与迁移”**。*张彪等人*，ICML 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.00528)]\n1. **“缩放定律与模型架构：归纳偏置如何影响模型的扩展性？”**。*泰伊毅等人*，arXiv 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10551)]\n1. **“Transformer的改进是否能在不同实现和应用之间迁移？”**。*沙兰·纳朗等人*，EMNLP 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2102.11972)]\n\n#### 训练算法\n\n1. **“Megatron-LM：利用模型并行训练数十亿参数的语言模型”**。*穆罕默德·绍伊比等人*，arXiv 2019年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08053)]\n1. **“一种高效训练超大规模深度学习模型的2D方法”**。*徐启凡等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2104.05343)]\n1. **“Tesseract：高效并行化张量并行”**。*王博翔等人*，ICPP 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2105.14500)]\n1. **“最大化分布式训练中巨大神经网络的并行度”**。*边正达等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2105.14450)]\n1. **“GPipe：利用流水线并行高效训练巨型神经网络”**。*黄燕平等人*，NeurIPS 2019年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06965)]\n1. **“PipeDream：快速高效的流水线并行DNN训练”**。*亚伦·哈普拉普等人*，arXiv 2018年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1806.03377)]\n1. **“ZeRO：面向万亿参数模型训练的内存优化技术”**。*萨米亚姆·拉吉班达里等人*，SC 2020年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F1910.02054)]\n1. **“ZeRO-Offload：让十亿级模型训练平民化”**。*任杰等人*，USENIX 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06840)]\n\n#### 基于代码的预训练\n\n##### 用于程序合成的LLM\n\n1. **“评估基于代码训练的大规模语言模型”**。*马克·陈等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2107.03374)]\n1. **“利用大语言模型进行程序合成”**。*雅各布·奥斯汀等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07732)]\n1. **“展示你的工作：语言模型的中间计算草稿板”**。*麦克斯韦尔·奈等人*，arXiv 2021年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00114)]\n1. **“对代码类大语言模型的系统性评估”**。*弗兰克·F·徐等人*，arXiv 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2202.13169)]\n1. **“AlphaCode：具备竞赛级别代码生成能力”**。*李宇嘉等人*，Science杂志。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814)]\n1. **“CodeGen：一款开源的大规模代码语言模型，支持多轮程序合成”**。*埃里克·尼坎普等人*，ICLR 2023年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13474)]\n1. **“InCoder：一款用于代码补全与合成的生成模型”**。*丹尼尔·弗里德等人*，ICLR 2023年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05999)]\n1. **“CodeT：通过生成测试进行代码生成”**。*陈贝等人*，ICLR 2023年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10397)]\n1. **“StarCoder：愿源代码与你同在！”**。*雷蒙德·李等人*，arXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.06161)]\n\n##### 以代码形式呈现的NLP任务\n\n1. **“代码类语言模型是少样本常识学习者”**。*阿曼·马丹等人*，EMNLP 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07128)]\n1. **“利用大语言模型进行自动形式化”**。*吴宇怀等人*，NeurIPS 2022年。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12615)]\n\n\n\n### 适应性微调\n\n#### 指令微调\n\n1. **“用于自然语言理解的多任务深度神经网络”**。*Xiaodong Liu 等*。ACL 2019。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.11504)] [[主页](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)]\n1. **“利用统一的文本到文本 Transformer 探索迁移学习的极限”**。*Colin Raffel 等*。JMLR 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.10683)] [[检查点](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftext-to-text-transfer-transformer#released-model-checkpoints)]\n1. **“Muppet：通过预微调实现的大规模多任务表示”**。*Armen Aghajanyan 等*。EMNLP 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11038)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fmodels?other=arxiv:2101.11038)]\n1. **“通过自然语言众包指令实现跨任务泛化”**。*Swaroop Mishra 等*。ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08773)] [[数据集](https:\u002F\u002Finstructions.apps.allenai.org\u002F#data)]\n1. **“微调后的语言模型是零样本学习者”**。*Jason Wei 等*。ICLR 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.01652)] [[主页](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **“多任务提示训练实现零样本任务泛化”**。*Victor Sanh 等*。ICLR 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08207)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002FT0#how-to-use)]\n1. **“PromptSource：自然语言提示的集成开发环境与存储库”**。*Stephen H. Bach 等*。ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.01279)] [[数据集](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fpromptsource)]\n1. **“通过人类反馈训练语言模型以遵循指令”**。*Long Ouyang 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)]\n1. **“Super-NaturalInstructions：基于 1600 多个 NLP 任务的声明式指令实现泛化”**。*Yizhong Wang 等*。EMNLP 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.07705)] [[数据集](https:\u002F\u002Finstructions.apps.allenai.org\u002F#data)] [[检查点](https:\u002F\u002Fhuggingface.co\u002Fmodels?search=tk-instruct-)]\n1. **“MVP：面向自然语言生成的多任务监督预训练”**。*Tianyi Tang 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.12131)] [[模型库](https:\u002F\u002Fhuggingface.co\u002FRUCAIBox)] [[检查点](https:\u002F\u002Fhuggingface.co\u002FRUCAIBox)]\n1. **“通过多任务微调实现跨语言泛化”**。*Niklas Muennighoff 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01786)] [[数据集](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf#data)] [[模型](https:\u002F\u002Fgithub.com\u002Fbigscience-workshop\u002Fxmtf#models)]\n1. **“指令微调语言模型的规模化”**。*Hyung Won Chung 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)] [[主页](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **“Unnatural Instructions：几乎无需人工即可调优语言模型”**。*Or Honovich 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09689)] [[主页](https:\u002F\u002Fgithub.com\u002Forhonovich\u002Funnatural-instructions)]\n1. **“Self-Instruct：通过自我生成的指令对齐语言模型”**。*Yizhong Wang 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)] [[主页](https:\u002F\u002Fgithub.com\u002Fyizhongw\u002Fself-instruct)]\n1. **“OPT-IML：从泛化的视角看语言模型指令元学习的规模化”**。*Srinivasan Iyer 等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.12017)] [[检查点](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmetaseq\u002Ftree\u002Fmain\u002Fprojects\u002FOPT-IML)]\n1. **“Flan 数据集：为有效指令调优设计的数据与方法”**。*Shayne Longpre 等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13688)] [[主页](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002FFLAN)]\n1. **“提示就是全部吗？关于指令学习的全面且更广阔的视角”**。*Renze Lou 等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10475)]\n1. **“也许只需 0.5% 的数据：低训练数据指令调优的初步探索”**。*Hao Chen 等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09246)]\n1. **“LIMA：对齐之道，少即是多”**。*Chunting Zhou*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11206)]\n\n\n#### 对齐调优\n\n1. **“TAMER：通过评估性强化手动训练智能体”**。*W. 布拉德利·诺克斯等*。ICDL 2008。[[论文](https:\u002F\u002Fwww.cs.utexas.edu\u002F~bradknox\u002Fpapers\u002Ficdl08-knox.pdf)]\n1. **“基于策略依赖型人类反馈的交互式学习”**。*詹姆斯·麦克格拉申等*。ICML 2017。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06049)]\n1. **“基于人类偏好深度强化学习”**。*保罗·克里斯蒂亚诺等*。NIPS 2017。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741)]\n1. **“Deep TAMER：高维状态空间中的交互式智能体塑造”**。*加雷特·沃内尔等*。AAAI 2018。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1709.10163)]\n1. **“基于人类偏好微调语言模型”**。*丹尼尔·M·齐格勒等*。arXiv 2019。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.08593)]\n1. **“从人类反馈中学习总结”**。*尼桑·斯蒂农等*。NeurIPS 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2009.01325)]\n1. **“语言智能体对齐”**。*扎卡里·肯顿等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.14659)]\n1. **“利用人类反馈递归总结书籍”**。*杰夫·吴等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10862)]\n1. **“通用语言助手作为对齐研究的实验室”**。*阿曼达·阿斯克尔等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00861)]\n1. **“WebGPT：基于浏览器辅助、结合人类反馈的问答系统”**。*中野玲一郎等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)]\n1. **“利用人类反馈训练语言模型遵循指令”**。*龙欧阳等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155)]\n1. **“教导语言模型用经过验证的引文支持答案”**。*雅各布·梅尼克等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11147)]\n1. **“通过人类反馈强化学习训练有益且无害的助手”**。*白云涛等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862)]\n1. **“利用强化学习进行开放式对话中的动态规划”**。*黛博拉·科恩等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.02294)]\n1. **“红队测试语言模型以减少危害：方法、规模效应及经验教训”**。*迪普·甘古利等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07858)]\n1. **“通过有针对性的人类判断改进对话智能体对齐”**。*阿米莉亚·格莱泽等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.14375)]\n1. **“强化学习（不）适用于自然语言处理吗？——自然语言策略优化的基准、基线与构建模块”**。*拉朱库马尔·拉马穆尔蒂等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.01241)]\n1. **“奖励模型过度优化的规模法则”**。*李奥·高等*。arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10760)]\n1. **“事后智慧使语言模型更善于遵循指令”**。*张天俊等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.05206)]\n1. **“RAFT：用于生成式基础模型对齐的奖励排序微调”**。*董汉泽等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.06767)]\n1. **“使用话语链进行安全对齐的大型语言模型红队测试”**。*里沙布·巴德瓦杰等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09662)]\n\n#### 参数高效模型适配\n1. **“面向NLP的参数高效迁移学习”**。*尼尔·豪尔斯比等*。ICML 2019。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.00751)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fadapter-bert)]\n1. **“MAD-X：基于适配器的多任务跨语言迁移框架”**。*乔纳斯·普菲弗等*。EMNLP 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.00052)] [[GitHub](https:\u002F\u002Fgithub.com\u002FAdapter-Hub\u002Fadapter-transformers)]\n1. **“AUTOPROMPT：利用自动生成的提示从语言模型中提取知识”**。*泰勒·辛等*。EMNLP 2020。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.15980)] [[GitHub](https:\u002F\u002Fucinlp.github.io\u002Fautoprompt\u002F)]\n1. **“前缀调优：优化连续提示以用于生成任务”**。*李香丽等*。ACL 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.00190)] [[GitHub](https:\u002F\u002Fgithub.com\u002FXiangLi1999\u002FPrefixTuning)]\n1. **“GPT也懂了”**。*刘晓等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.10385)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FP-tuning)]\n1. **“规模效应对参数高效提示调优的重要性”**。*布莱恩·莱斯特等*。EMNLP 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08691)]\n1. **“LoRA：大型语言模型的低秩适配”**。*爱德华·J·胡等*。arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.09685)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FLoRA)]\n1. **“迈向参数高效迁移学习的统一视角”**。*何俊贤等*。ICLR 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.04366)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fjxhe\u002Funify-parameter-efficient-tuning)]\n1. **“P-Tuning v2：提示调优在不同规模和任务上均可与微调相媲美”**。*刘晓等*。ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07602)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FP-tuning-v2)]\n1. **“DyLoRA：采用动态无搜索低秩适配进行预训练模型的参数高效调优”**。*莫杰塔巴·瓦利普尔等*。EACL 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07558)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FKD-NLP\u002Ftree\u002Fmain\u002FDyLoRA)]\n1. **“大规模预训练语言模型的参数高效微调”**。*丁宁等*。Nature Machine Intelligence。[[论文](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs42256-023-00626-4)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FOpenDelta)]\n1. **“参数高效微调的自适应预算分配”**。*张清如等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10512)] [[GitHub](https:\u002F\u002Fgithub.com\u002FQingruZhang\u002FAdaLoRA)]\n1. **“LLaMA-Adapter：零初始化注意力机制下的语言模型高效微调”**。*张仁瑞等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16199)] [[GitHub](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter)]\n1. **“LLM-Adapters：用于大型语言模型参数高效微调的一系列适配器”**。*胡志强等*。arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01933)] [[GitHub](https:\u002F\u002Fgithub.com\u002FAGI-Edgerunners\u002FLLM-Adapters)]\n\n#### 内存高效模型适配\n1. **“用于高效神经网络推理的量化方法综述”**。*Amir Gholami 等*，arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.13630)]\n1. **“基于分块量化的8位优化器”**。*Tim Dettmers 等*，arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.02861)]\n1. **“通过量化压缩生成式预训练语言模型”**。*Chaofan Tao 等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.10705)]\n1. **“ZeroQuant：面向大规模Transformer的高效且经济的后训练量化”**。*Zhewei Yao 等*，NeurIPS 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.01861)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)]\n1. **“LLM.int8()：面向大规模Transformer的8位矩阵乘法”**。*Tim Dettmers 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.07339)] [[GitHub](https:\u002F\u002Fgithub.com\u002FTimDettmers\u002Fbitsandbytes)]\n1. **“GPTQ：面向生成式预训练Transformer的高精度后训练量化”**。*Elias Frantar 等*，ICLR 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.17323)] [[GitHub](https:\u002F\u002Fgithub.com\u002FIST-DASLab\u002Fgptq)]\n1. **“SmoothQuant：面向大型语言模型的高精度高效后训练量化”**。*Guangxuan Xiao 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10438)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fsmoothquant)]\n1. **“4位精度的理由：k位推理缩放法则”**。*Tim Dettmers 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09720)]\n1. **“ZeroQuant-V2：从全面研究到低秩补偿，探索LLM中的后训练量化”**。*Zhewei Yao 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08302)]\n1. **“QLoRA：量化LLM的高效微调”**。*Tim Dettmers 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14314)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fartidoro\u002Fqlora)]\n1. **“LLM-QAT：面向大型语言模型的无数据量化感知训练”**。*Zechun Liu 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17888)]\n1. **“AWQ：面向LLM压缩与加速的激活感知权重量化”**。*Ji Lin 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00978)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmit-han-lab\u002Fllm-awq)]\n\n\n\n\n### 应用\n\n#### 上下文学习（ICL）\n\n1. **“一种无需真实标签的信息论提示工程方法”**。*Taylor Sorensen 等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11364)]\n2. **“什么样的上下文示例对GPT-3有效？”**。*Jiachang Liu 等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06804)]\n3. **“学习检索用于上下文学习的提示”**。*Ohad Rubin 等*，NAACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08633)]\n4. **“多样化的演示可以提升上下文组合泛化能力”**。*Itay Levy 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06800)]\n5. **“通过困惑度估计揭秘语言模型中的提示”**。*Hila Gonen 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04037)]\n6. **“面向上下文学习的主动示例选择”**。*Yiming Zhang 等*，EMNLP 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.04486)]\n7. **“自适应上下文学习”**。*Zhiyong Wu 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10375)]\n8. **“奇妙有序的提示及其寻找方法：克服少样本提示顺序敏感性”**。*Yao Lu 等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08786)]\n9. **“结构化提示：将上下文学习扩展至1,000个示例”**。*Hao、Yaru 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.06713)]\n10. **“文本推理中少样本提示解释的不可靠性”**。*Ye、Xi 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)]\n11. **“通过自然语言众包指令实现跨任务泛化”**。*Swaroop Mishra 等*，ACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08773)]\n12. **“提示增强的线性探测：突破少样本上下文学习者的极限”**。*Hyunsoo Cho 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10873)]\n13. **“将上下文学习解释为隐式贝叶斯推断”**。*Sang Michael Xie 等*，ICLR 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.02080)]\n14. **“使用前先校准：提升语言模型的少样本性能”**。*Zihao Zhao 等*，ICML 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)]\n15. **“数据分布特性驱动了Transformer中的涌现式上下文学习”**。*Stephanie C. Y. Chan 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.05055)]\n16. **“上下文学习与归纳头”**。*Catherine Olsson 等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11895)]\n17. **“预训练语料对大型语言模型上下文学习的影响”**。*Seongjin Shin 等*，NAACL 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.13509)]\n18. **“重新思考演示的作用：是什么让上下文学习奏效？”**。*Sewon Min 等*，EMNLP 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.12837)]\n19. **“重新思考规模在上下文学习中的作用：一项基于可解释性的660亿参数案例研究”**。*Hritik Bansal 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09095)]\n20. **“Transformer作为算法：上下文学习中的泛化与隐式模型选择”**。*Yingcong Li 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07067)]\n21. **“Transformer通过梯度下降进行上下文学习”**。*Johannes von Oswald 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.07677)]\n22. **“上下文学习到底是一种什么学习算法？基于线性模型的探究”**。*Ekin Aky{\\\"{u}}rek 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.15661)]\n23. **“上下文学习综述”**。*Qingxiu Dong 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.00234)]\n24. **“上下文学习到底‘学’到了什么：任务识别与任务学习的解耦”**。*Jane Pan 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.09731)]\n25. **“上下文学习的可学习性”**。*Noam Wies 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.07895)]\n26. **“基于提示的模型真的理解其提示的含义吗？”**。*Albert Webson 等*，NAACL 2022。[[论文](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.167\u002F)]\n27. **“更大的语言模型进行上下文学习的方式不同”**。*Jerry Wei*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03846)]\n28. **“大型语言模型中的元上下文学习”**。*Julian Coda-Forno*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.12907)]\n29. **“符号调优可以提升语言模型中的上下文学习”**。*Jerry Wei*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08298)]\n\n#### 思维链推理（CoT）\n\n1. **“大型语言模型中的自动思维链提示”**。*Zhuosheng Zhang 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)]\n2. **“思维链提示激发大型语言模型的推理能力”**。*Jason Wei 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)]\n3. **“STaR：自训练推理器——以推理促进推理”**。*Zelikman 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465)]\n4. **“大型语言模型是零样本推理者”**。*Takeshi Kojima 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916)]\n5. **“大型语言模型中的自动思维链提示”**。*Zhuosheng Zhang 等*，arXiv。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)]\n6. **“基于复杂度的多步推理提示”**。*Yao Fu 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00720)]\n7. **“语言模型是多语言思维链推理者”**。*Freda Shi 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03057)]\n8. **“语言模型中的理由增强集成”**。*Xuezhi Wang 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00747)]\n9. **“由简入繁的提示策略使大型语言模型具备复杂推理能力”**。*Denny Zhou 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10625)]\n10. **“语言模型中的多模态思维链推理”**。*Zhuosheng Zhang 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00923)]\n11. **“自我一致性提升语言模型的思维链推理能力”**。*Xuezhi Wang 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11171)]\n12. **“大型语言模型可以自我改进”**。*Jiaxin Huang 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11610)]\n13. **“训练验证器解决数学应用题”**。*Karl Cobbe 等*，arXiv 2021。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168)]\n14. **“关于提升语言模型推理能力的进展”**。*Yifei Li 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02336)]\n15. **“大型语言模型是具有自我验证功能的推理者”**。*Yixuan Weng 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09561)]\n16. **“教导小型语言模型进行推理”**。*Lucie Charlotte Magister 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08410)]\n17. **“大型语言模型是推理教师”**。*Namgyu Ho 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10071)]\n18. **“文本推理中少样本提示解释的不可靠性”**。*Ye, Xi 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)]\n19. **“指令微调语言模型的扩展”**。*Hyung Won Chung 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)]\n20. **“利用语言模型解决定量推理问题”**。*Aitor Lewkowycz 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)]\n21. **“文本与模式：有效的思维链需要双方协作”**。*Aman Madaan 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07686)]\n22. **“挑战BIG-Bench任务及思维链是否能解决它们”**。*Mirac Suzgun 等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261)]\n23. **“语言模型提示下的推理：综述”**。*Shuofei Qiao 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09597)]\n24. **“迈向大型语言模型的推理：综述”**。*Jie Huang 等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10403)]\n\n#### 复杂任务解决规划\n\n1. **由简入繁的提示策略使大型语言模型具备复杂推理能力**。*Denny Zhou 等*，ICLR 2023。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=WZH7099tgfM)]\n2. **PAL：程序辅助语言模型**。*Luyu Gao 等*，ICML 2023。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=M1fd9Z00sj)]\n3. **计划—求解提示：通过大型语言模型改进零样本思维链推理**。*Lei Wang 等*，ACL 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091)]\n4. **ProgPrompt：利用大型语言模型生成情境化的机器人任务计划**。*Ishika Singh 等*，ICRA 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11302)]\n5. **思维之树：利用大型语言模型进行深思熟虑的问题解决**。*Shunyu Yao 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)]\n6. **Voyager：一个基于大型语言模型的开放式具身智能体**。*Guanzhi Wang 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)]\n7. **Reflexion：具有言语强化学习能力的语言代理**。*Noah Shinn 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366)]\n8. **通过双模态文本-图像提示进行多模态程序化规划**。*Yujie Lu 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01795)]\n9. **利用大型语言模型进行自我规划的代码生成**。*Xue Jiang 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689)]\n10. **分解式提示：一种用于解决复杂任务的模块化方法**。*Tushar Khot 等*，ICLR 2023 [[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=_nGgzQjzaRy)]\n11. **Toolformer：语言模型可自我教授如何使用工具**。*Timo Schick 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)]\n12. **HuggingGPT：利用ChatGPT及其在Hugging Face中的伙伴解决AI任务**。*Yongliang Shen 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)]\n13. **忠实的思维链推理**。*Qing Lyu 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13379)]\n14. **LLM+P：用最优规划能力赋能大型语言模型**。*Bo Liu 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11477)]\n15. **语言模型的推理即基于世界模型的规划**。*Shibo Hao 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992)]\n16. **生成式代理：人类行为的交互式模拟物**。*Joon Sung Park 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)]\n17. **ReAct：在语言模型中协同推理与行动**。*Shunyu Yao 等*，ICLR 2023。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=WE_vluYUL-X)]\n18. **ChatCoT：基于聊天型大型语言模型的工具增强思维链推理**。*Zhipeng Chen 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14323)]\n19. **描述、解释、计划与选择：利用大型语言模型进行交互式规划，可实现开放世界的多任务智能体**。*Zihao Wang 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560)]\n20. **AdaPlanner：基于反馈的自适应规划系统，由语言模型驱动**。*Haotian Sun 等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653)]\n\n\n\n\n### 能力评估\n\n1. **“衡量大规模多任务语言理解能力”**。*丹·亨德里克斯等*，ICLR 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2009.03300v3)]\n2. **“大型语言模型中的持续性反穆斯林偏见”**。*阿布巴卡尔·阿比德等*，AIES 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2101.05783v2)]\n3. **“理解大型语言模型的能力、局限性及社会影响”**。*亚历克斯·塔姆金等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2102.02503v1)]\n4. **“BEHAVIOR：虚拟、交互式和生态环境中日常家务活动的基准测试”**。*桑贾娜·斯里瓦斯塔瓦等*，CoRL 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.03332v1)]\n5. **“基于大型语言模型的程序合成”**。*雅各布·奥斯汀等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07732v1)]\n6. **“训练验证器解决数学应用题”**。*卡尔·科布等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2110.14168v2)]\n7. **“展示你的思路：面向语言模型中间计算的草稿纸”**。*麦克斯韦尔·I·奈伊等*，arXiv 2021。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2112.00114v1)]\n8. **“语言模型作为零样本规划器：为具身智能体提取可操作知识”**。*黄文龙等*，ICML 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.07207v2)]\n9. **“思维链提示能够激发大型语言模型的推理能力”**。*杰森·魏等*，NeurIPS 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903v6)]\n10. **“利用人类反馈训练语言模型遵循指令”**。*欧阳隆等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02155v1)]\n11. **“AlphaCode实现竞赛级代码生成”**。*李宇嘉等*，Science 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814v1)]\n12. **“知行合一：将语言与机器人可用性相结合”**。*迈克尔·安等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691v2)]\n13. **“通过人类反馈强化学习训练有益且无害的助手”**。*白云涛等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05862v1)]\n14. **“基于大型语言模型的自动形式化”**。*吴宇怀等*，NeurIPS 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12615v1)]\n15. **“超越图灵测试：量化并外推语言模型的能力”**。*阿罗希·斯里瓦斯塔瓦等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.04615)]\n16. **“探索大型语言模型的长度泛化能力”**。*切姆·阿尼尔等*，NeurIPS 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04901v2)]\n17. **“基于检索增强语言模型的少样本学习”**。*高蒂埃·伊扎卡德等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.03299)]\n18. **“语言模型在算术与符号归纳方面的局限性”**。*钱静等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2208.05051v1)]\n19. **“代码即策略：用于具身控制的语言模型程序”**。*梁杰克等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.07753v3)]\n20. **“ProgPrompt：利用大型语言模型生成情境化的机器人任务计划”**。*伊希卡·辛格等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.11302v1)]\n21. **“法律指导代码：一种法律信息学方法，使人工智能与人类保持一致”**。*约翰·J·奈等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2209.13020v13)]\n22. **“语言模型是贪婪的推理者：对思维链的系统性形式化分析”**。*阿布尔海尔·萨帕罗夫等*，ICLR 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.01240v4)]\n23. **“语言模型是多语言思维链推理者”**。*史弗雷达等*，ICLR 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03057v1)]\n24. **“Re3：通过递归式重提示与修订生成更长的故事”**。*凯文·杨等*，EMNLP 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06774v3)]\n25. **“代码语言模型是少样本常识学习者”**。*阿曼·马丹等*，EMNLP 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.07128v3)]\n26. **“挑战BIG-Bench任务及思维链是否能解决它们”**。*米拉克·苏兹贡等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261v1)]\n27. **“大型语言模型可以自我改进”**。*黄佳欣等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11610)]\n28. **“起草、草拟并证明：用非正式证明引导形式化定理证明器”**。*阿尔伯特·Q·姜等*，ICLR 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2210.12283v3)]\n29. **“语言模型的整体评估”**。*珀西·梁等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)]\n30. **“PAL：程序辅助语言模型”**。*高璐瑜等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10435)]\n31. **“多语言法律判决预测的法律提示工程”**。*迪特里希·特劳特曼等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.02199v1)]\n32. **“ChatGPT在医学执业资格考试中的表现如何？大型语言模型对医学教育与知识评估的影响”**。*艾丹·吉尔森等*，medRxiv 2022。[[论文](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2022.12.23.22283901v1)]\n33. **“ChatGPT：线上考试诚信的终结者？”**。*特奥·苏斯尼亚克等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09292v1)]\n34. **“大型语言模型是具有自我验证能力的推理者”**。*翁一轩等*，arXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09561)]\n35. **“Self-Instruct：使语言模型与自动生成的指令对齐”**。*王义中等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560v1)]\n36. **“ChatGPT让医学变得易懂：简化放射学报告的探索性案例研究”**。*卡塔琳娜·耶布利克等*，arXiv 2022。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2212.14882v1)]\n37. **“编程的终结”**。*马特·威尔什等*，ACM 2023。[[论文](https:\u002F\u002Fcacm.acm.org\u002Fmagazines\u002F2023\u002F1\u002F267976-the-end-of-programming\u002Ffulltext)]\n38. **“ChatGPT上法学院”**。*乔伊·乔纳森·H等*，SSRN 2023。[[论文](https:\u002F\u002Fpapers.ssrn.com\u002Fsol3\u002Fpapers.cfm?abstract_id=4335905)]\n39. **“ChatGPT距离人类专家还有多远？对比语料库、评估与检测”**。*郭碧洋等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07597v1)]\n40. **“ChatGPT是优秀的翻译吗？一项初步研究”**。*焦文祥等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.08745v3)]\n41. **“人工智能代理能否通过大学物理入门课程？”**。*格尔德·科尔特迈耶等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12127v2)]\n42. **“ChatGPT的数学能力”**。*西蒙·弗里德尔等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.13867v1)]\n43. **“合成提示：为大型语言模型生成思维链示范”**。*邵志宏等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00618v1)]\n44. **“利用在线强化学习将大型语言模型置于交互环境中”**。*托马斯·卡尔塔等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02662v1)]\n45. **“评估ChatGPT作为放射学决策的辅助工具”**。*姚阿雅等*，medRxiv 2023。[[论文](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2023.02.02.23285399v1)]\n46. **“心智理论可能已在大型语言模型中自发涌现”**。*米哈尔·科辛斯基等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02083v3)]\n47. **“ChatGPT失败案例的分类汇编”**。*阿里·博尔吉等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03494v7)]\n48. **“对ChatGPT在推理、幻觉和交互性方面的多任务、多语言、多模态评估”**。*方艺珍等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04023v2)]\n49. **“Toolformer：语言模型可以自我教授如何使用工具”**。*蒂莫·希克等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761v1)]\n50. **“ChatGPT是通用自然语言处理任务求解器吗？”**。*秦成伟等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.06476v2)]\n51. **“GPT模型在机器翻译方面有多好？一项全面评估”**。*亨迪·阿姆尔等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.09210)]\n52. **“ChatGPT也能理解吗？ChatGPT与微调BERT的比较研究”**。*钟启煌等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10198v2)]\n53. **“通过与ChatGPT对话进行零样本信息抽取”**。*向伟等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10205v1)]\n54. **“ChatGPT：样样通，样样松”**。*扬·科孔等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.10724v1)]\n55. **“关于ChatGPT鲁棒性的对抗性和分布外视角”**。*王金东等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095v4)]\n56. **“核对事实并再试一次：利用外部知识和自动化反馈改进大型语言模型”**。*彭宝林等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12813v3)]\n57. **“对ChatGPT在数学文字问题（MWP）上的独立评估”**。*保罗·沙卡里安等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13814v2)]\n58. **“GPT-3.5对前代模型的鲁棒性如何？一项关于语言理解任务的综合研究”**。*陈宣婷等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00293v1)]\n59. **“ChatGPT在癌症治疗信息中的实用性”**。*沈晨等*，medRxiv 2023。[[论文](https:\u002F\u002Fwww.medrxiv.org\u002Fcontent\u002F10.1101\u002F2023.03.16.23287316v1)]\n60. **“ChatGPT能否评估人类性格？一个通用评估框架”**。*饶浩聪等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01248v2)]\n61. **“情感计算会从基础模型和通用人工智能中诞生吗？对ChatGPT的首次评估”**。*穆斯塔法·M·阿敏等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03186v1)]\n62. **“探索ChatGPT用于事件抽取的可行性”**。*高俊等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03836v2)]\n63. **“LLM的合成数据生成是否有助于临床文本挖掘？”**。*唐瑞翔等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04360v1)]\n64. **“ChatGPT的一致性分析”**。*张明俊等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06273v1)]\n65. **“利用大型语言模型进行自我规划的代码生成”**。*张顺等*，ICLR 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689v1)]\n66. **“评估ChatGPT作为问答系统解答复杂问题的能力”**。*谭一鸣等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.07992)]\n67. **“GPT-4技术报告”**。*OpenAI等*，OpenAI 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08774v3)]\n68. **“从法律视角审视大型语言模型的简短综述”**。*孙仲翔等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09136v1)]\n69. **“ChatGPT参加计算机科学考试”**。*塞巴斯蒂安·博尔特等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09461v2)]\n70. **“GPT-3和GPT-3.5系列模型的综合能力分析”**。*叶俊杰等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10420v1)]\n71. **“关于ChatGPT的教育影响：人工智能准备好获得大学学位了吗？”**。*卡米尔·马林卡等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11146v1)]\n72. **“通用人工智能的火花：GPT-4的早期实验”**。*塞巴斯蒂安·布贝克等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712v3)]\n73. **“ChatGPT是优秀的关键词生成器吗？一项初步研究”**。*宋明阳等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13001v1)]\n74. **“GPT-4在医学挑战性问题上的能力”**。*哈莎·诺里等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13375v1)]\n75. **“我们能信任对ChatGPT的评估吗？”**。*拉奇特·艾亚帕等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12767)]\n76. **“ChatGPT在文本标注任务上优于众包工作者”**。*法布里齐奥·吉拉尔迪等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15056v1)]\n77. **“评估ChatGPT在基于NLP的心理健康应用中的作用”**。*比沙尔·拉米查内等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.15727v1)]\n78. **“ChatGPT是知识渊博但经验不足的求解者：对大型语言模型中常识问题的探究”**。*卞宁等*，arXiv 2023。[[论文](http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16421v1)]\n79. **“评估GPT-3.5和GPT-4模型在巴西大学入学考试中的表现”**。*德斯内斯·努内斯等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17003v1)]\n80. **“人中有人才：论GPT在成功与失败中均趋向于常识”**。*菲利普·科拉卢斯等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17276v1)]\n81. **“但是……ChatGPT能否识别历史文献中的实体？”**。*卡洛斯-埃米利亚诺·冈萨雷斯-加利亚多等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17322v1)]\n82. **“揭示ChatGPT在推荐系统中的能力”**。*戴顺浩等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02182)]\n83. **“编辑大型语言模型：问题、方法与机遇”**。*姚云芝等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13172)]\n84. **“通过越狱对ChatGPT进行红队测试：偏见、鲁棒性、可靠性和毒性”**。*朱跃天等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12867)]\n85. **“基于提示的语义解析在大型预训练语言模型中的鲁棒性：对Codex的实证研究”**。*朱跃天等*，EACL 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12868)]\n86. **“对ChatGPT在基准数据集上的系统性研究和综合评估”**。*拉斯卡尔等*，ACL'23。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18486)]\n87. **“利用话语链对大型语言模型进行红队测试以实现安全对齐”**。*里沙布·巴德瓦杰等*，arXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09662)]\n88. **“大型语言模型知识编辑的综合研究”**。*张宁宇等*，arXiv 2024。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01286)]\n\n### 团队\n\n以下是各章节的学生贡献者名单。\n\n| 章节                       | 学生贡献者                                                 |\n| ----------------------------- | -------------------------------------------------------------------- |\n| 整篇论文               | 周坤、李俊毅                                                   |\n| 大模型概述与资源 | 敏英倩（负责人）、杨晨                                       |\n| 预训练                   | 侯宇鹏（负责人）、张俊杰、董子灿、陈雨硕             |\n| 适配性微调              | 唐天一（负责人）、蒋金浩、任瑞阳、刘子康、刘沛宇 |\n| 应用                     | 王晓磊（负责人）、杜一凡、唐欣宇                            |\n| 能力评估           | 张北辰（负责人）、陈志鹏、李一凡                         |\n\n## 致谢\n\n作者谨向林彦凯和朱宇涛表示感谢，感谢他们对本文的校对工作。自本文首次发布以来，我们收到了来自读者的诸多宝贵意见。在此，我们衷心感谢那些为我们提供建设性建议和评论的读者：泰勒·苏尔德、戴大迈、丁亮、斯特拉·比德曼、凯文·格雷、杰伊·阿拉马尔以及冯宇博。\n\n## 更新日志\n\n| 版本                  | 时间       | 更新内容                                               |\n| ------------------------ | ---------- | ------------------------------------------------------------ |\n| V1                       | 2023\u002F03\u002F31 | 初版。                                         |\n| V2                       | 2023\u002F04\u002F09 | 增加机构信息。\u003Cbr\u002F>修订图1和表1，并明确LLM的相应选择标准。\u003Cbr\u002F>优化文字表述。\u003Cbr\u002F>修正了一些小错误。 |\n| V3                       | 2023\u002F04\u002F11 | 修正了文献资源中的错误。                    |\n| V4                       | 2023\u002F04\u002F12 | 修订图1和表1，明确LLM的发布日期。 |\n| V5                       | 2023\u002F04\u002F16 | 新增2.2节，介绍GPT系列模型的技术演进。 |\n| V6                       | 2023\u002F04\u002F24 | 在表1和图1中新增部分模型。\u003Cbr\u002F>增加关于规模定律的讨论。\u003Cbr\u002F>补充关于涌现能力所需模型规模的说明（2.1节）。\u003Cbr\u002F>在图4中添加不同架构注意力模式的示意图。\u003Cbr\u002F>在表4中补充详细公式。 |\n| V7                       | 2023\u002F04\u002F25 | 修订图表中的一些错别字。               |\n| V8                       | 2023\u002F04\u002F27 | 在5.3节中增加高效微调的内容                          |\n| V9                       | 2023\u002F04\u002F28 | 修订5.3节                                          |\n| V10                      | 2023\u002F05\u002F07 | 修订表1、表2以及一些细节。              |\n| V11 \u003Cbr\u002F>（重大修订）     | 2023\u002F06\u002F29 | – 第1节：新增图1，展示arXiv上已发表LLM论文的趋势；\u003Cbr\u002F>– 第2节：新增图3，展示GPT的演进过程及相应讨论；\u003Cbr\u002F>– 第3节：新增图4，展示LLaMA家族及其相关讨论；\u003Cbr\u002F>– 第5节：新增关于指令微调中合成数据格式化的最新讨论（5.1.1节）、指令微调的实证分析（5.1.4节）、参数高效的模型适配（5.3节）以及内存高效的适配（5.4节）；\u003Cbr\u002F>– 第6节：新增关于ICL底层机制的最新讨论（6.1.3节）、复杂任务规划解决的相关内容（6.3节）；\u003Cbr\u002F>– 第7节：新增用于评估LLM高级能力的代表性数据集表格（表10），以及7.3.2节中的实证能力评估；\u003Cbr\u002F>– 第8节：增加提示设计；\u003Cbr\u002F>– 第9节：增加LLM在金融和科研领域的应用讨论； |\n| V12 \u003Cbr\u002F>（重大修订）     | 2023\u002F09\u002F10 | – 声明本文中所有图表的版权；\u003Cbr\u002F>– 在第3、4、5、6和7节中加入最新的LLM、技术及其描述；\u003Cbr\u002F>– 第4节：新增关于解码策略的最新讨论（4.2.4节）；\u003Cbr\u002F>– 第5节：新增关于指令微调实用技巧的讨论（5.1.2节）、针对LLaMA（13B）进行指令微调的实证分析（5.1.4节）、RLHF的实用策略（5.2.3节）、无需RLHF的对齐方法（5.2.4节）以及SFT与RLHF的注意事项（5.2.5节）；\u003Cbr\u002F>– 第6节：更新关于复杂任务规划解决的内容（6.4节）；\u003Cbr\u002F>– 第7节：新增关于评估方法的讨论（7.3.2节）、现有评估工作的分类表格（表15），并更新7.4节中的实证能力评估及表16中的结果；\u003Cbr\u002F>– 第6.1.1节：在表12中新增提示示例；|\n| V13 \u003Cbr\u002F>（重大修订）     | 2023\u002F11\u002F23 | – 第1节：新增图2，展示四代语言模型的演进过程；\u003Cbr\u002F>– 第2节：进一步讨论规模定律以及涌现能力与规模定律的关系；\u003Cbr\u002F>– 第3节：在图3和表1中加入最新LLM，在3.1节中加入最新API，在3.3节中加入常用的指令微调和对齐微调数据集，在3.4节中加入若干库；\u003Cbr\u002F>– 第4节：新增关于数据调度的最新讨论，包括数据混合与数据课程（4.1.3节）；在4.1.4节中总结数据准备过程；在9.1节中讨论长上下文建模问题；在4.2.4节中讨论解码效率问题并加入最新的解码策略；\u003Cbr\u002F>– 第5节：新增关于实例构建和微调策略的最新讨论（5.1节）；新增关于过程监督式RLHF的最新讨论（5.2.3节），以及关于量化LLaMA模型（7B和13B）的实证研究（9.5.1节）；\u003Cbr\u002F>– 第6节：新增关于提示优化的最新讨论（6.1.2节），并更新关于思维链提示的内容（6.3节）；\u003Cbr\u002F>– 第8节：新增关于LLM在科研方向上的最新讨论（8.1节）；\u003Cbr\u002F>– 第10节：对部分内容进行了修订。|\n| V14                      | 2024\u002F09\u002F25 | – 第3节：将“公开可用的模型检查点”内容重新整理为多个系列；在图3中加入最新LLM。\u003Cbr\u002F>– 第4节：在4.1.2节中加入基于LLM的数据过滤和选择方法；更新4.2.1节“涌现架构”，增加更多关于基于SSM架构的讨论；新增表6，用于比较不同架构的并行性和复杂度。\u003Cbr\u002F>– 第5节：新增关于提升指令质量和指令选择的最新讨论（5.1.1节）；新增关于RLHF及过程监督式RLHF的实用策略的最新讨论（5.2.3节）；更新5.2.4节中关于监督式对齐微调的内容。\u003Cbr\u002F>– 第6节：在6.1.2节中加入关于离散提示优化的最新论文。\u003Cbr\u002F>– 第9节：新增关于高级主题的最新讨论，包括长上下文建模、基于LLM的智能体、训练与推理的分析与优化、模型推理、模型压缩、检索增强生成以及幻觉现象等。 |\n| V15                      | 2024\u002F10\u002F12 | – 修正8.1.5节中的错误。 |\n| V16                      | 2025\u002F03\u002F11 | – 第9.8节：加入关于长思维链推理的最新论文，内容涵盖推理模式与优势分析、长思维链数据的构建方式（如蒸馏、搜索式及多智能体协作）以及训练方法（如指令微调和强化学习）。 |","# LLMSurvey 快速上手指南\n\nLLMSurvey 并非一个可安装的软件库或框架，而是一个**大语言模型（LLM）领域的论文、资源与实验数据汇总仓库**。它基于综述文章《A Survey of Large Language Models》构建，旨在为研究人员和开发者提供系统的学习路径、模型列表、提示词技巧及实验参考。\n\n因此，本指南将指导你如何获取、浏览及利用该仓库中的核心资源。\n\n## 环境准备\n\n由于本项目主要是文档、数据表格和图片资源，**无需安装复杂的深度学习环境或特定依赖**。\n\n*   **系统要求**：任意支持现代浏览器的操作系统（Windows, macOS, Linux）。\n*   **前置依赖**：\n    *   Git（用于克隆仓库到本地）。\n    *   Markdown 阅读器（可选，GitHub 网页版可直接预览）。\n    *   Python（可选，仅当你需要运行仓库中 `Experiments` 目录下提供的具体实验代码时）。\n\n## 安装步骤（获取资源）\n\n推荐通过 Git 克隆仓库到本地，以便离线查阅论文列表、模型演化图及实验数据。\n\n### 方式一：使用 Git 克隆（推荐）\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey.git\ncd LLMSurvey\n```\n\n> **国内加速建议**：\n> 如果直接克隆速度较慢，可以使用国内镜像源（如 Gitee 镜像，若存在）或配置 Git 代理。\n> 例如使用代理：\n> ```bash\n> git -c http.proxy=http:\u002F\u002F127.0.0.1:7890 clone https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey.git\n> ```\n\n### 方式二：下载中文版书籍（针对初学者）\n\n项目团队发布了配套的中文书籍，适合有深度学习基础的本科生和研究生入门。\n\n*   **在线阅读\u002F下载**：[https:\u002F\u002Fllmbook-zh.github.io\u002F](https:\u002F\u002Fllmbook-zh.github.io\u002F)\n*   **纸质书购买**：[京东链接](https:\u002F\u002Fitem.jd.com\u002F14901508.html)\n\n## 基本使用\n\n获取仓库后，你可以通过以下方式使用其中的核心资源：\n\n### 1. 查阅大模型时间线与列表\n在本地打开 `README.md` 文件，或直接访问 GitHub 页面，查看 **Timeline of LLMs** 和 **List of LLMs** 章节。\n*   **用途**：快速检索公开模型（如 T5, OPT, LLaMA 系列等）的发布时间、参数量及论文链接。\n*   **位置**：README 中的表格部分及 `assets\u002Ffig2_updated_time_line.png`。\n\n### 2. 学习提示词工程 (Prompts)\n项目收集了设计 Prompt 的实用技巧和原则。\n*   **操作**：进入 `Prompts\u002F` 目录查看详细说明。\n*   **参与贡献**：如果你有更好的 Prompt 技巧，可以通过 GitHub Issues 提交。\n    ```markdown\n    提交地址：https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F34\n    ```\n\n### 3. 参考实验数据与代码\n仓库提供了指令微调（Instruction Tuning）和能力评估（Ability Evaluation）的实验细节。\n*   **操作**：进入 `Experiments\u002F` 目录阅读 `README.md`。\n*   **内容**：包含不同指令类型对微调效果的影响分析，以及细粒度的能力评估任务设置。\n*   **注意**：如需复现实验，请检查该目录下是否包含具体的 `.py` 脚本或数据集链接，并按需配置 Python 环境（通常需 `torch`, `transformers` 等通用库）。\n\n### 4. 追踪技术演进\n查看仓库中的可视化图表，理解技术脉络：\n*   **GPT 系列演进**：`assets\u002Fgpt-series.png`\n*   **LLaMA 家族演进**：`assets\u002Fllama-0628-final.png`（支持通过 PR 提交新模型以更新此图）\n*   **长思维链推理 (Long CoT)**：README 中新增章节详细讨论了 DeepSeek-R1、o-series 等模型的推理范式及训练方法。\n\n### 5. 引用与反馈\n如果在研究中使用了该综述或资源，请在论文中引用：\n\n```bibtex\n@article{LLMSurvey,\n    title={A Survey of Large Language Models},\n    author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and Du, Yifan and Yang, Chen and Chen, Yushuo and Chen, Zhipeng and Jiang, Jinhao and Ren, Ruiyang and Li, Yifan and Tang, Xinyu and Liu, Zikang and Liu, Peiyu and Nie, Jian-Yun and Wen, Ji-Rong},\n    year={2023},\n    journal={arXiv preprint arXiv:2303.18223},\n    url={http:\u002F\u002Farxiv.org\u002Fabs\u002F2303.18223}\n}\n```\n\n如有错误或建议，可发送邮件至 `batmanfly@gmail.com`（建议抄送 `francis_kun_zhou@163.com`）。","某高校人工智能实验室的研究生团队正着手开展关于“大模型长思维链（Long CoT）推理”的前沿研究，急需梳理该领域的技术脉络与核心文献。\n\n### 没有 LLMSurvey 时\n- **文献检索如大海捞针**：面对 arXiv 上每日激增的数十篇相关论文，研究人员难以快速区分哪些是探讨 Long CoT 的核心成果，哪些只是边缘提及，耗费大量时间在筛选上。\n- **技术演进路径模糊**：缺乏系统性的梳理，团队很难理清从数据蒸馏、搜索合成到多智能体协作等 Long CoT 数据构建方法的具体演变逻辑。\n- **入门门槛高且易遗漏**：对于刚接触该方向的学生，缺少一份涵盖训练方法（如指令微调、强化学习）及测试时扩展策略的完整知识地图，容易陷入碎片化阅读而忽略关键里程碑。\n- **语言障碍影响效率**：部分成员英文阅读速度有限，在没有中文系统性导读材料的情况下，理解深度综述论文的周期被显著拉长。\n\n### 使用 LLMSurvey 后\n- **精准定位核心资源**：团队直接利用 LLMSurvey 中最新更新的 Long CoT 专题板块，迅速锁定了包括 DeepSeek-R1 和 OpenAI o-series 在内的主流范式及相关论文，检索效率提升数倍。\n- **清晰掌握技术全貌**：借助工具整理的框架，研究人员一目了然地掌握了从数据构造到训练策略的完整技术链条，快速构建了扎实的理论基础。\n- **系统化入门与进阶**：团队成员通过配套的中文书籍和结构化目录，不仅快速扫除了概念盲区，还避免了重要研究节点的遗漏，确保了研究方向的准确性。\n- **双语支持加速理解**：利用其中文版内容作为先导，团队成员能更高效地消化英文原文，大幅缩短了从“读不懂”到“能复现”的周期。\n\nLLMSurvey 通过将海量碎片化的大模型论文转化为结构清晰、中英双语的知识图谱，让科研人员从繁琐的文献筛选中解放出来，专注于真正的创新突破。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUCAIBox_LLMSurvey_52cd6698.png","RUCAIBox","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FRUCAIBox_ca88ccaf.png","The official account of RUC AI Box, which does not engage in any commercial activities. Claims of business associations are fraudulent.",null,"http:\u002F\u002Faibox.ruc.edu.cn","https:\u002F\u002Fgithub.com\u002FRUCAIBox",[79,83,87,91,95,99],{"name":80,"color":81,"percentage":82},"Python","#3572A5",91.6,{"name":84,"color":85,"percentage":86},"Shell","#89e051",4.7,{"name":88,"color":89,"percentage":90},"JavaScript","#f1e05a",2.9,{"name":92,"color":93,"percentage":94},"Rust","#dea584",0.4,{"name":96,"color":97,"percentage":98},"Scheme","#1e4aec",0.3,{"name":100,"color":101,"percentage":102},"C++","#f34b7d",0.1,12142,940,"2026-04-15T05:54:47",1,"","未说明",{"notes":110,"python":108,"dependencies":111},"LLMSurvey 是一个大模型相关的论文和资源集合（综述项目），并非可执行的软件工具或代码库，因此 README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。该项目主要提供文献列表、图表、实验数据结果以及中文书籍下载链接。文中提到的‘实验’部分是指作者已完成的微调与评估实验的结果展示，并呼吁社区提供算力支持以进行更多研究，而非要求用户本地复现这些训练过程。",[],[35,14],[114,115,116,117,118,119,120,121,122,123,124],"chain-of-thought","chatgpt","in-context-learning","instruction-tuning","large-language-models","llm","llms","natural-language-processing","pre-trained-language-models","pre-training","rlhf","2026-03-27T02:49:30.150509","2026-04-16T08:12:33.168728",[128,133,138,143,148,153,158,163],{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},35284,"下载 PDF 文件时提示“文件已损坏”或无法打开，如何解决？","这通常不是文件本身的问题。建议您尝试更换网络连接、切换不同的浏览器重新下载，或者使用其他 PDF 阅读器（如 Adobe Acrobat, Chrome 内置阅读器等）打开文件。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F39",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},35285,"中文版的综述论文对应 arXiv 上的哪个版本？内容是否同步？","目前的中文版对应的是英文版 arXiv v1 版本。由于翻译工作量巨大，中文版尚未包含英文版后续更新的内容（如标准化方法等细节）。如果您需要最新、最详细的内容，建议直接阅读 arXiv 上的英文最新版本。维护团队表示会尽快同步更新，但存在时间差。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F54",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},35286,"图 6 中 LLaMA 训练数据源的比例之和为什么超过了 100%（显示为 102%）？","这是因为绘图软件自动对数值进行了四舍五入处理。原始数据中有四个类别的占比以 .5% 结尾（例如 4.5%），在显示时被向上取整为整数（+1%），导致累加后总和显示为 102%。实际原始数据总和为 100%。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F83",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},35287,"论文中统计的预训练数据比例（如代码数据）是如何计算的？与原始论文数据不一致的原因是什么？","论文中的分类是对原始数据源的归纳。例如，“代码”数据的比例通常直接对应从 GitHub 收集的数据比例。对于 GPT-3 或 PaLM 等模型，如果原始论文未明确提及某些类别（如对话或代码），作者是根据数据来源的性质（如 Stack Exchange 归为对话数据，GitHub 归为代码数据）进行重新分类和估算的，因此可能与原始论文的表格数据存在差异。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F18",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},35288,"关于 LLaMA2 模型参数量计算中，多头注意力（MHA）部分的参数矩阵维度是如何推导的？","每个注意力头的 QKV 矩阵参数量应为 D*D（假设隐藏层维度为 D）。如果有 N 个注意力头，整个 MHA 模块的参数量是由 N 个这样的矩阵拼接而成，即总参数量涉及 N*D*D 的计算。之前的疑惑通常源于混淆了单个头的参数与整个模块并行化后的参数矩阵维度。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F89",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},35289,"为什么论文中没有包含 Hugging Face Open LLM Leaderboard 上最新的顶尖模型排名？","作者已在最新版论文的第 7.3.1 节加入了 Hugging Face Open LLM Leaderboard 的介绍，并在第 3.1 节讨论了 LLaMA 等著名模型家族。但是，论文不会实时追踪并列出每一个最新出现的顶尖模型，因为新模型涌现的速度远快于论文更新的频率。综述旨在提供稳定的参考框架，而非实时的排行榜。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F57",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},35290,"项目仓库或论文多久更新一次？如何获取最新版本？","项目会不定期更新以跟进最新的研究进展。当用户反馈长时间未更新时，维护者通常会发布新版论文（如第 13 版）。建议关注项目的官方微信公众号或查看 arXiv 页面以获取最新的更新通知和论文版本。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F74",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},35291,"发现论文中关于特定工具（如 Colossal-AI）的描述有事实性错误，该如何反馈？","您可以像 Colossal-AI 团队一样，通过 GitHub Issue 或直接发送邮件给作者指出具体的事实错误（如开发团队、基于的框架、功能特性等）。作者核实后会在 arXiv 的下一个版本中修正错误，并可能在 README 中增加联系方式以便接收此类反馈。","https:\u002F\u002Fgithub.com\u002FRUCAIBox\u002FLLMSurvey\u002Fissues\u002F17",[]]