[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jxzhangjhu--Awesome-LLM-Uncertainty-Reliability-Robustness":3,"tool-jxzhangjhu--Awesome-LLM-Uncertainty-Reliability-Robustness":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":80,"owner_website":80,"owner_url":83,"languages":80,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":62,"env_os":88,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":93,"github_topics":94,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":115},8820,"jxzhangjhu\u002FAwesome-LLM-Uncertainty-Reliability-Robustness","Awesome-LLM-Uncertainty-Reliability-Robustness","Awesome-LLM-Robustness: a curated list of Uncertainty, Reliability and Robustness in Large Language Models","Awesome-LLM-Uncertainty-Reliability-Robustness（简称 UR2-LLMs）是一个专注于大语言模型“不确定性、可靠性与鲁棒性”的精选资源库。随着大模型在各类场景中的广泛应用，其潜在的幻觉问题、事实错误以及在分布外数据上的表现不稳定已成为制约落地的关键瓶颈。该项目旨在系统性地梳理相关学术研究与技术实践，帮助社区更好地理解和解决模型“不知道自己所不知道”的困境。\n\n该资源库涵盖了从基础入门文章、技术报告到前沿论文的全方位内容，具体包括不确定性估计、校准方法、幻觉检测、推理能力提升、对抗攻击防御以及因果归因等核心议题。通过分类整理，它为用户提供了清晰的导航，便于快速定位关于评估指标、微调策略或提示工程优化的最新成果。\n\n非常适合 AI 研究人员、算法工程师以及对大模型安全性感兴趣的技术决策者使用。无论是希望深入探索模型可信度理论的学者，还是致力于构建高可靠应用系统的开发者，都能从中获得宝贵的参考指引。其独特的亮点在于将分散的研究点整合为结构化的知识体系，并持续更新，是进入大模型可信研究领域的优质入口。","# Awesome-LLM-Uncertainty-Reliability-Robustness\n\n\\\n[![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fhee9joon\u002FAwesome-Diffusion-Models) \n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Made With Love](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMade%20With-Love-red.svg)](https:\u002F\u002Fgithub.com\u002Fchetanraj\u002Fawesome-github-badges)\n\nThis repository, called **UR2-LLMs** contains a collection of resources and papers on **Uncertainty**, **Reliability** and **Robustness** in **Large Language Models**. \n\n\"*Large language models have limited reliability, limited understanding, limited range, and hence need human supervision*. \" - Michael Osborne, Professor of Machine Learning in the Dept. of Engineering Science, University of Oxford, January 25, 2023 \n\n*Welcome to share your papers, thoughts and ideas in this area!* \n\n## Contents\n\n- [Awesome-LLM-Uncertainty-Reliability-Robustness](#awesome-llm-uncertainty-reliability-robustness)\n  - [Contents](#contents)\n- [Resources](#resources)\n  - [Introductory Posts](#introductory-posts)\n  - [Technical Reports](#technical-reports)\n  - [Tutorial](#tutorial)\n- [Papers](#papers)\n  - [Evaluation \\& Survey](#evaluation--survey)\n  - [Uncertainty](#uncertainty)\n    - [Uncertainty Estimation](#uncertainty-estimation)\n    - [Calibration](#calibration)\n    - [Ambiguity](#ambiguity)\n    - [Confidence](#confidence)\n    - [Active Learning](#active-learning)\n  - [Reliability](#reliability)\n    - [Hallucination](#hallucination)\n    - [Truthfulness](#truthfulness)\n    - [Reasoning](#reasoning)\n    - [Prompt tuning, optimization and design](#prompt-tuning-optimization-and-design)\n    - [Instruction and RLHF](#instruction-and-rlhf)\n    - [Tools and external APIs](#tools-and-external-apis)\n    - [Fine-tuning](#fine-tuning)\n  - [Robustness](#robustness)\n    - [Invariance](#invariance)\n    - [Distribution Shift](#distribution-shift)\n    - [Out-of-Distribution](#out-of-distribution)\n    - [Adaptation and Generalization](#adaptation-and-generalization)\n    - [Adversarial](#adversarial)\n    - [Attribution](#attribution)\n    - [Causality](#causality)\n\u003C!--   - [Safety](#safety)\n    - [Bias and Fairness](#bias-and-fairness)\n    - [Privacy](#privacy) -->\n\n\n\n# Resources\n## Introductory Posts\n\n**The Determinants of Controllable AGI** \\\n*Allen Schmaltz* \\\n[[Link](https:\u002F\u002Fraw.githubusercontent.com\u002Fallenschmaltz\u002FResolute_Resolutions\u002Fmaster\u002Fvolume5\u002Fvolume5.pdf)] \\\n3 Mar 2025 \n\n\u003C!-- > Comments \\\nAbstract:\nWe briefly introduce, at a conceptual level, technical work for deriving robust estimators of the predictive uncertainty over large language models (LLMs), and we consider the implications for real-world deployments and AI policy. -->\n\n**GPT Is an Unreliable Information Store** \\\n*Noble Ackerson* \\\n[[Link](https:\u002F\u002Ftowardsdatascience.com\u002Fchatgpt-insists-i-am-dead-and-the-problem-with-language-models-db5a36c22f11)] \\\n20 Feb 2023 \n\n\u003C!-- > Comments \\\n- Large Language models are unreliable information stores. What can we do about this?\nBy design, these systems do not know what they do or don’t know.\n\n- GPT is trained on massive amounts of text data without any inherent ability to verify the accuracy or truthfulness of the information presented in that data.\n\n- So should we build on top of factually unreliable GPTs?\nYes. Though when we do, we must ensure we add the appropriate trust and safety checks and the practical constraints through techniques I’ll share below. When building atop these foundational models, we can minimize inaccuracy using proper guardrails with techniques like prompt engineering and context injection.\n\nOr, if we have our own larger datasets, more advanced approaches such as Transfer learning, fine-tuning, and reinforcement learning are areas to consider.\n\nnice blog -->\n\n**“Misusing” Large Language Models and the Future of MT** \\\n*Arle Lommel* \\\n[[Link](https:\u002F\u002Fcsa-research.com\u002FBlogs-Events\u002FBlog\u002FMisusing-Large-Language-Models-and-the-Future-of-MT)] \\\n20 Dec 2022 \n\n\u003C!-- 1. Large language models make the “trust problem” worse. Despite the expectation that large language models would lead to the next wave of dramatic improvement in MT, they introduce some serious risks. One of the biggest challenges for MT now is that it is not reliable. Although the development of responsive and responsible MT should improve this, large language models that can produce convincing-sounding output that is nonsense are likely to increase the risk of dangerous or harmful translation errors. My experiments showed that users should not trust what Galactica says at face value, but instead need to examine it carefully to verify everything. Note that this problem will be worse in languages with relatively little training data in these models.\n\n6. Quality estimation will become key. As the output of MT becomes more fluent, detecting problems will become increasingly difficult, which can: a) raise the risk that content can pose; and b) increase the cognitive load for MT editors and thereby decrease their efficiency. This means that quality estimation will become more important, requiring breakthroughs in this area. When the technology can reliably identify problems and risk, it will address the trust problem. -->\n\n\n**Large language models: The basics and their applications** \\\n*Margo Poda* \\\n[[Link](https:\u002F\u002Fwww.moveworks.com\u002Finsights\u002Flarge-language-models-strengths-and-weaknesses)] \\\n9 Feb 2023 \n\n\u003C!-- > Reliability needs human supervison which is the key! -->\n\n**Prompt Engineering: Improving Responses & Reliability** \\\n*Peter Foy*\\\n[[Link](https:\u002F\u002Fwww.mlq.ai\u002Fprompt-engineering-techniques-improve-reliability\u002F)]\\\n19 Mar 2023 \n\n\u003C!-- nice blog  -->\n\n**OpenAI's Cookbook on Techniques to Improve Reliability** \\\n*OpenAI* \\\n[[Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fopenai-cookbook)] \\\n18 Mar 2023\n\n**GPT\u002Fcalibration tag** \\\n*Gwern Branwen* \\\n[[Link](https:\u002F\u002Fgwern.net\u002Fdoc\u002Fai\u002Fnn\u002Ftransformer\u002Fgpt\u002Fcalibration\u002Findex#link-bibliography)]\n\n**Prompt Engineering** \\\n*Lilian Weng*\\\n[[Link](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-03-15-prompt-engineering\u002F)]\n\n\n**LLM Powered Autonomous Agents** \\\n*Lilian Weng*\\\n[[Link](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-06-23-agent\u002F)]\n\n\n**Reliability in Learning Prompting**\\\n[[Link](https:\u002F\u002Flearnprompting.org\u002Fdocs\u002Fcategory\u002F%EF%B8%8F-reliability)] \n\n\n**Building LLM applications for production** \\\n*Chip Huyen* \\\n[[Link](https:\u002F\u002Fhuyenchip.com\u002F2023\u002F04\u002F11\u002Fllm-engineering.html)] \\\n11 Apr 2023 \n\n**Practical, Real-World Neural Network Interpretability and Deployment** \\\n*Allen Schmaltz* \\\n[[Link](https:\u002F\u002Fraw.githubusercontent.com\u002Fallenschmaltz\u002FResolute_Resolutions\u002Fmaster\u002Fvolume3\u002Fvolume3.pdf)] \\\n11 Dec 2021 \n\n\u003C!-- > Comments \\\nAbstract:\nThere are compelling practical reasons to view neural network interpretability as an interactive, human-in-the-loop prediction task at a lower resolution of the input than that for which we typically initially have labels. In this context, we will then aim to move to an abstain+update\u002Fadapt paradigm in real deployments for the large deep networks. To do so, we will ideally need some properties and behaviors that are not typically associated with the deep networks out-of-the-box: We need some means of analyzing the data under the model, relative to the model's predictions for a given instance; we are going to have to address the domain-shift and uncertainty\u002Freliability issues; we need to relate the global instance-level predictions down to constituent parts (and vice-versa), with flexibility in the approach to be adaptable to various prior information we may have; and we seek some degree of updatability when things (inevitably) go wrong with the model or data without having to re-train the full model.\n \nIn this blog post, as a brief overview of our existing work, we motivate these characteristics and describe a practical approach for achieving them via model approximations that decompose the deep networks across their input and across their training sets, using dense representation matching as the bridge. We further introduce the term Decomposable Model Approximations for Data-Mediated AI (DMA^2) to encapsulate these ideas.  -->\n\n## Technical Reports \n\n**GPT-4 Technical Report** \\\n*OpenAI* \\\narXiv 2023. [[Paper](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4.pdf)][[Cookbook](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fevals)] \\\n16 Mar 2023 \n\n**GPT-4 System Card** \\\n*OpenAI* \\\narXiv 2023. [[Paper](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4-system-card.pdf)] [[Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fevals)]\\\n15 Mar 2023 \n\n \n## Tutorial \n\n**Uncertainty Estimation for Natural Language Processing** \\\n*Adam Fisch, Robin Jia, Tal Schuster* \\\nCOLLING 2022. [[Website](https:\u002F\u002Fsites.google.com\u002Fview\u002Funcertainty-nlp)]\n\n\u003C!-- ## Prompt Engineering & Papers\n\n**PromptPapers** - [[Link](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPromptPapers)] \n\n**Awesome-Prompt-Engineering** - [[Link](https:\u002F\u002Fgithub.com\u002Fpromptslab\u002FAwesome-Prompt-Engineering)]\n -->\n\n\n\n\n# Papers\n\n## Evaluation & Survey\n\n**Wider and Deeper LLM Networks are Fairer LLM Evaluators** \\\n*Xinghua Zhang, Bowen Yu, Haiyang Yu, Yangyu Lv, Tingwen Liu, Fei Huang, Hongbo Xu, Yongbin Li* \\\narXiv 2023. [[Paper](https:\u002F\u002Faps.arxiv.org\u002Fabs\u002F2308.01862)][[Github](https:\u002F\u002Fgithub.com\u002FAlibabaResearch\u002FDAMO-ConvAI\u002Ftree\u002Fmain\u002FWideDeep)] \\\n3 Aug 2023 \n\n**A Survey on Evaluation of Large Language Models** \\\n*Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie* \\\nArxiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.03109)][[Github](https:\u002F\u002Fgithub.com\u002Fmlgroupjlu\u002Fllm-eval-survey)] \\\n6 Jul 2023 \n\n**DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models** \\\n*Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li* \\\nArxiv, 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11698)] [[Github](https:\u002F\u002Fgithub.com\u002FAI-secure\u002FDecodingTrust\u002F)] [[Website](https:\u002F\u002Fdecodingtrust.github.io\u002F)] \\\n20 Jun 2023 \n\n**In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT** \\\n*Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang* \\\narXiv, 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08979)] \\\n18 Apr 2023 \n\n**Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond** \\\n*Jingfeng Yang, Hongye Jin, Ruixiang Tang, Xiaotian Han, Qizhang Feng, Haoming Jiang, Bing Yin, Xia Hu* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13712)][[Github](https:\u002F\u002Fgithub.com\u002Fmooler0410\u002Fllmspracticalguide)] \\\n27 Apr 2023 \n\n**How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks** \\\n*Xuanting Chen, Junjie Ye, Can Zu, Nuo Xu, Rui Zheng, Minlong Peng, Jie Zhou, Tao Gui, Qi Zhang, Xuanjing Huang* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00293)][[Github](https:\u002F\u002Fgithub.com\u002Ftextflint\u002Ftextflint)] \\\n1 Mar 2023\n\n**Holistic Evaluation of Language Models** \\\n*Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)] [[Website](https:\u002F\u002Fcrfm.stanford.edu\u002Fhelm\u002Flatest\u002F)] [[Github](https:\u002F\u002Fgithub.com\u002Fstanford-crfm\u002Fhelm)] [[Blog](https:\u002F\u002Fcrfm.stanford.edu\u002F2022\u002F11\u002F17\u002Fhelm.html)] \\\n16 Nov 2022\n\n**Prompting GPT-3 To Be Reliable** \\\n*Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09150)] [[Github](https:\u002F\u002Fgithub.com\u002FNoviScl\u002FGPT3-Reliability)] \\\n17 Oct 2022\n\n**Plex: Towards Reliability using Pretrained Large Model Extensions** \\\n*Dustin Tran, Jeremiah Liu, Michael W. Dusenberry, Du Phan, Mark Collier, Jie Ren, Kehang Han, Zi Wang, Zelda Mariet, Huiyi Hu, Neil Band, Tim G. J. Rudner, Karan Singhal, Zachary Nado, Joost van Amersfoort, Andreas Kirsch, Rodolphe Jenatton, Nithum Thain, Honglin Yuan, Kelly Buchanan, Kevin Murphy, D. Sculley, Yarin Gal, Zoubin Ghahramani, Jasper Snoek, Balaji Lakshminarayanan* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07411)] \\\n15 Jul 2022\n\n**Language Models (Mostly) Know What They Know** \\\n*Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield-Dodds, Nova DasSarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah, Jared Kaplan* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05221)] \\\n11 Jul 2022 \n\n**Augmented Language Models: a Survey** \\\n*Grégoire Mialon, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière, Timo Schick, Jane Dwivedi-Yu, Asli Celikyilmaz, Edouard Grave, Yann LeCun, Thomas Scialom* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.07842)] \\\n15 Feb 2023 \n\n**A Survey of Evaluation Metrics Used for NLG Systems** \\\n*Ananya B. Sai, Akash Kumar Mohankumar, Mitesh M. Khapra* \\\nACM Computing Survey, 2022. [[Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3485766)] \\\n18 Jan 2022\n\n**NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation** \\\n*Kaustubh D. Dhole, et al.* \\\nACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.02721)][[Github](https:\u002F\u002Fgithub.com\u002FGEM-benchmark\u002FNL-Augmenter)] \\\n6 Dec 2021 \n\n**TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing** \\\n*Tao Gui et al.* \\\narXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.11441)][[Github](https:\u002F\u002Fgithub.com\u002Ftextflint\u002Ftextflint)] \\\n21 Mar 2021 \n\n**Robustness Gym: Unifying the NLP Evaluation Landscape** \\\n*Karan Goel, Nazneen Rajani, Jesse Vig, Samson Tan, Jason Wu, Stephan Zheng, Caiming Xiong, Mohit Bansal, Christopher Ré* \\\nACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.04840)] [[Github](https:\u002F\u002Fgithub.com\u002Frobustness-gym\u002Frobustness-gym)] \\\n13 Jan 2021\n\n**Beyond Accuracy: Behavioral Testing of NLP models with CheckList** \\\n*Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh* \\\nACL 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.04118)][[Github](https:\u002F\u002Fgithub.com\u002Fmarcotcr\u002Fchecklist)] \\\n8 May 2020\n\n\n## Uncertainty\n\n### Uncertainty Estimation\n\n**DRIFT: Detecting Representational Inconsistencies for Factual Truthfulness** \\\n*Rohan Bhatnagar, Youran Sun, Chi Andrew Zhang, Yixin Wen, Haizhao Yang* \\\narXiv 2026. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.14210)] \\\n24 Jan 2026\n\n**BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models** \\\n*Yibin Wang, Haizhou Shi, Ligong Han, Dimitris Metaxas, Hao Wang* \\\narXiv 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11675)] \\\n18 Jun 2024\n\n**Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities** \\\n*Alexander Nikitin, Jannik Kossen, Yarin Gal, Pekka Marttinen* \\\nNeurIPS 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.20003)] [[Github](https:\u002F\u002Fgithub.com\u002FAlexanderVNikitin\u002Fkernel-language-entropy)] \\\n30 May 2024\n\n**Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach** \\\n*Linyu Liu, Yu Pan, Xiaocheng Li, Guanting Chen* \\\narXiv 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.15993)] \\\n24 Apr 2024\n\n**MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs** \\\n*Bakman et al.* \\\nACL 2024. [[Paper](https:\u002F\u002Faclanthology.org\u002F2024.acl-long.419.pdf)] \\\n19 Feb 2024\n\n**Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models** \\\n*Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing Xu, Bhavya Kailkhura, Kaidi Xu* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.01379.pdf)] \\\n9 Oct 2023\n\n**Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models** \\\n*Yuheng Huang, Jiayang Song, Zhijie Wang, Shengming Zhao, Huaming Chen, Felix Juefei-Xu, Lei Ma* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.10236.pdf)] \\\n16 Jul 2023\n\n**Quantifying Uncertainty in Natural Language Explanations of Large Language Models** \\\n*Sree Harsha Tanneru, Chirag Agarwal, Himabindu Lakkaraju* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03533v1)] \\\n6 Nov 2023 \n\n**Conformal Autoregressive Generation: Beam Search with Coverage Guarantees** \\\n*Nicolas Deutschmann, Marvin Alberts, María Rodríguez Martínez* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03797)] \\\n7 Sep 2023 \n\n**Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness** \\\n*Jiuhai Chen, Jonas Mueller* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16175)] \\\n30 Aug 2023\n\n\n**Uncertainty in Natural Language Generation: From Theory to Applications** \\\n*Joris Baan, Nico Daheim, Evgenia Ilia, Dennis Ulmer, Haau-Sing Li, Raquel Fernández, Barbara Plank, Rico Sennrich, Chrysoula Zerva, Wilker Aziz* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15703)] \\\n28 July 2023 \n\n\n**Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models** \\\n*Zhen Lin, Shubhendu Trivedi, Jimeng Sun* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19187)] [[Github](https:\u002F\u002Fgithub.com\u002Fzlin7\u002FUQ-NLG)] \\\n30 May 2023\n\n**Human Uncertainty in Concept-Based AI Systems** \\\n*Katherine M. Collins, Matthew Barker, Mateo Espinosa Zarlenga, Naveen Raman, Umang Bhatt, Mateja Jamnik, Ilia Sucholutsky, Adrian Weller, Krishnamurthy Dvijotham* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12872)] \\\n22 Mar 2023 \n\n**Navigating the Grey Area: Expressions of Overconfidence and Uncertainty in Language Models** \\\n*Kaitlyn Zhou, Dan Jurafsky, Tatsunori Hashimoto* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13439)] \\\n25 Feb 2023 \n\n**DEUP: Direct Epistemic Uncertainty Prediction** \\\n*Salem Lahlou, Moksh Jain, Hadi Nekoei, Victor Ion Butoi, Paul Bertin, Jarrid Rector-Brooks, Maksym Korablyov, Yoshua Bengio* \\\nTMLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.08501)] \\\n3 Feb 2023 \n\n\n**On Compositional Uncertainty Quantification for Seq2seq Graph Parsing** \\\n*Zi Lin, Du Phan, Panupong Pasupat, Jeremiah Zhe Liu, Jingbo Shang* \\\nICLR 2023. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=rJcLocAJpA6)] \\\n1 Feb 2023 \n\n\n**Neural-Symbolic Inference for Robust Autoregressive Graph Parsing via Compositional Uncertainty Quantification** \\\n*Zi Lin, Jeremiah Liu, Jingbo Shang* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11459)] \\\n16 Jan 2023\n\n\n**Teaching Models to Express Their Uncertainty in Words** \\\n*Stephanie Lin, Jacob Hilton, Owain Evans* \\\nTMLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14334)] [[Github](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FCalibratedMath)] [[TMLR](https:\u002F\u002Fopenreview.net\u002Fforum?id=8s8K2UZGTZ)] [[Slide](https:\u002F\u002Fowainevans.github.io\u002Fpdfs\u002Fchai_calibration_owain.pdf)]\\\n28 May 2022\n\n**Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation** \\\n*Lorenz Kuhn, Yarin Gal, Sebastian Farquhar* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.09664)] \\\n19 Feb 2022\n\n\n**Cold-Start Data Selection for Few-shot Language Model Fine-tuning: A Prompt-Based Uncertainty Propagation Approach** \\\n*Yue Yu, Rongzhi Zhang, Ran Xu, Jieyu Zhang, Jiaming Shen, Chao Zhang* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06995)][[Github](https:\u002F\u002Fgithub.com\u002Fyueyu1030\u002FPatron)] \\\n15 Sep 2022\n\n\n**Fine-Tuning Language Models via Epistemic Neural Networks** \\\n*Ian Osband, Seyed Mohammad Asghari, Benjamin Van Roy, Nat McAleese, John Aslanides, Geoffrey Irving* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01568)][[Github](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fneural_testbed)] \\\n3 Nov 2022 \n\n\n\n**Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis** \\\n*Yuxin Xiao, Paul Pu Liang, Umang Bhatt, Willie Neiswanger, Ruslan Salakhutdinov, Louis-Philippe Morency* \\\nEMNLP 2022 (Findings). [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.04714)][[Github](https:\u002F\u002Fgithub.com\u002Fxiaoyuxin1002\u002Fuq-plm)] \\\n10 Oct 2022 \n\n**Uncertainty Estimation for Language Reward Models** \\\n*Adam Gleave, Geoffrey Irving* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07472)] \\\n14 Mar 2022 \n\n**Uncertainty Estimation and Reduction of Pre-trained Models for Text Regression** \\\n*Yuxia Wang, Daniel Beck, Timothy Baldwin, Karin Verspoor* \\\nTACL 2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.tacl-1.39\u002F)] \\\nJun 2022 \n\n\n**Uncertainty Estimation in Autoregressive Structured Prediction** \\\n*Andrey Malinin, Mark Gales* \\\nICLR 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.07650)] \\\n18 Feb 2020 \n\n\n**Unsupervised Quality Estimation for Neural Machine Translation** \\\n*Marina Fomicheva, Shuo Sun, Lisa Yankovskaya, Frédéric Blain, Francisco Guzmán, Mark Fishel, Nikolaos Aletras, Vishrav Chaudhary, Lucia Specia* \\\nTACL 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10608)][[Dataset](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmlqe)] \\\n21 May 2020 \n\n\n**Analyzing Uncertainty in Neural Machine Translation** \\\n*Myle Ott, Michael Auli, David Grangier, Marc’Aurelio Ranzato* \\\nICML 2018.  [[Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fott18a.html)] \\\n2018 \n\n**Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers** \\\n*Dylan Bouchard, Mohit Singh Chauhan* \\\narXiv 2025.  [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.19254)][[GitHub](https:\u002F\u002Fgithub.com\u002Fcvs-health\u002Fuqlm)] \\\nApril 2025 \n\n\n### Calibration\n\n**Similarity-Distance-Magnitude Universal Verification** \\\n*Allen Schmaltz* \\\narXiv 2025. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.20167)] [[Github](https:\u002F\u002Fgithub.com\u002FReexpressAI\u002Fsdm)] \\\n27 Feb 2025\n\n**Calibrating Large Language Models Using Their Generations Only** \\\n*Dennis Ulmer, Martin Gubri, Hwaran Lee, Sangdoo Yun, Seong Joon Oh* \\\nACL 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.05973)][[Github](https:\u002F\u002Fgithub.com\u002Fparameterlab\u002Fapricot)][[Poster](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FPoster_Apricot_ACL2024.pdf)][[Slides](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FSlides_APRICOT.pdf)] \\\n9 Mar 2024\n\n**Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering** \\\n*Han Zhou, Xingchen Wan, Lev Proleev, Diana Mincu, Jilin Chen, Katherine Heller, Subhrajit Roy* \\\nICLR 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17249)] \n24 Jan 2024\n\n**Do Large Language Models Know What They Don't Know?** \\\n*Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, Xuanjing Huang* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18153)] \n29 May 2023 \n\n**Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback** \\\n*Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14975)] \\\n24 May 2023 \n\n\n**Towards Reliable Misinformation Mitigation: Generalization, Uncertainty, and GPT-4** \\\n*Kellin Pelrine, Meilina Reksoprodjo, Caleb Gupta, Joel Christoph, Reihaneh Rabbany* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14928)] \\\n24 May 2023 \n\n\n\n**Calibrated Interpretation: Confidence Estimation in Semantic Parsing** \\\n*Elias Stengel-Eskin, Benjamin Van Durme* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.07443)] [[Github](https:\u002F\u002Fgithub.com\u002Festeng\u002Fcalibration_miso)] \\\n14 Nov 2022. \n\n\n**Calibrating Sequence likelihood Improves Conditional Language Generation** \\\n*Yao Zhao, Misha Khalman, Rishabh Joshi, Shashi Narayan, Mohammad Saleh, Peter J. Liu* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00045)]\\\n30 Sep 2022\n\n**Calibrated Selective Classification** \\\n*Adam Fisch, Tommi Jaakkola, Regina Barzilay* \\\nTMLR 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12084)] \\\n25 Aug 2022 \n\n\n**Reducing conversational agents' overconfidence through linguistic calibration** \\\n*Sabrina J. Mielke, Arthur Szlam, Emily Dinan, Y-Lan Boureau* \\\nNAACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.14983)] \\\n22 Jun 2022 \n\n**Re-Examining Calibration: The Case of Question Answering** \\\n*Chenglei Si, Chen Zhao, Sewon Min, Jordan Boyd-Graber* \\\nEMNLP 2022 Findings. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12507)] \\\n25 May 2022 \n\n**Towards Collaborative Neural-Symbolic Graph Semantic Parsing via Uncertainty** \\\n*Zi Lin, Jeremiah Liu, Jingbo Shang* \\\nACL Fingings 2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.findings-acl.328.pdf)] \\\n22 May 2022\n\n\n**Uncertainty-aware machine translation evaluation** \\\n*Taisiya Glushkova, Chrysoula Zerva, Ricardo Rei, André F. T. Martins* \\\nEMNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.06352)] \\\n13 Sep 2021\n\n\n**Calibrate Before Use: Improving Few-Shot Performance of Language Models** \\\n*Tony Z. Zhao, Eric Wallace, Shi Feng, Dan Klein, Sameer Singh* \\\nICML 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)][[Github](https:\u002F\u002Fgithub.com\u002Ftonyzhaozh\u002Ffew-shot-learning) \\\n19 Feb 2021\n\n**How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering** \\\n*Zhengbao Jiang, Jun Araki, Haibo Ding, Graham Neubig* \\\nTACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.00955)][[Github](https:\u002F\u002Fgithub.com\u002Fjzbjyb\u002Flm-calibration)] \\\n2 Dec 2020\n\n**Calibration of Pre-trained Transformers** \\\n*Shrey Desai, Greg Durrett* \\\nEMNLP 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.07892)][[Github](https:\u002F\u002Fgithub.com\u002Fshreydesai\u002Fcalibration)] \\\n17 May 2020\n\n\n### Ambiguity \n\n**Tree of Clarifications: Answering Ambiguous Questions with Retrieval-Augmented Large Language Models** \\\n*Gangwoo Kim, Sungdong Kim, Byeongguk Jeon, Joonsuk Park, Jaewoo Kang* \\\nEMNLP 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14696)][[Github](https:\u002F\u002Fgithub.com\u002Fgankim\u002Ftree-of-clarifications)] \\\n23 Oct 2023\n\n**Selectively Answering Ambiguous Questions** \\\n*Jeremy R. Cole, Michael J.Q. Zhang, Daniel Gillick, Julian Martin Eisenschlos, Bhuwan Dhingra, Jacob Eisenstein* \\ \narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14613)] \\\n24 May 2023 \n \n\n**We're Afraid Language Models Aren't Modeling Ambiguity** \\ \n*Alisa Liu, Zhaofeng Wu, Julian Michael, Alane Suhr, Peter West, Alexander Koller, Swabha Swayamdipta, Noah A. Smith, Yejin Choi* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14399v1)][[Github](https:\u002F\u002Fgithub.com\u002Falisawuffles\u002Fambient)] \\\n24 Apr 2023 \n\n**Task Ambiguity in Humans and Language Models** \\\n*Alex Tamkin, Kunal Handa, Avash Shrestha, Noah Goodman* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10711)][[Github](https:\u002F\u002Fgithub.com\u002Falextamkin\u002Factive-learning-pretrained-models)] \\\n20 Dec 2022 \n\n\n**CLAM: Selective Clarification for Ambiguous Questions with Generative Language Models** \\\n*Lorenz Kuhn, Yarin Gal, Sebastian Farquhar* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.07769)] \\\n15 Dec 2022\n\n**How to Approach Ambiguous Queries in Conversational Search: A Survey of Techniques, Approaches, Tools, and Challenges** \\\n*Kimiya Keyvan, Jimmy Xiangji Huang* \\\nACM Computing Survey, 2022. [[Paper](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3534965)] \\\n7 Dec 2022 \n\n**Assistance with large language models** \\\n*Dmitrii Krasheninnikov, Egor Krasheninnikov, David Krueger* \\\nNeurIPS MLSW Workshop 2022. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=OE9V81spp6B)] \\\n5 Dec 2022 \n\n**Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA** \\\n*Elias Stengel-Eskin, Jimena Guallar-Blasco, Yi Zhou, Benjamin Van Durme* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.07516)][[Github](https:\u002F\u002Fgithub.com\u002Festeng\u002Fambiguous_vqa)] \\\n14 Nov 2022 \n\n\n**Abg-CoQA: Clarifying Ambiguity in Conversational Question Answering** \\\n*Meiqi Guo, Mingda Zhang, Siva Reddy, Malihe Alikhani* \\\nAKBC 2021. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=SlDZ1o8FsJU)] \\\n22 Jun 2021 \n\n\n### Confidence \n\n\n**The Confidence-Competence Gap in Large Language Models: A Cognitive Study** \\\n*Aniket Kumar Singh, Suman Devkota, Bishal Lamichhane, Uttam Dhakal, Chandra Dhakal* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16145)] \\\n28 Sep 2023 \n\n**Strength in Numbers: Estimating Confidence of Large Language Models by Prompt Agreement** \\\n*Gwenyth Portillo Wightman, Alexandra Delucia, Mark Dredze* \\\nACL TrustNLP Workshop 2023. [[Paper](https:\u002F\u002Faclanthology.org\u002F2023.trustnlp-1.28\u002F)] \\\n1 Jul 2023 \n\n\n**What Are the Different Approaches for Detecting Content Generated by LLMs Such As ChatGPT? And How Do They Work and Differ?** \\\n*Sebastian Raschka* \\\n[[Link](https:\u002F\u002Fsebastianraschka.com\u002Fblog\u002F2023\u002Fdetect-ai.html)] [[GPTZero](https:\u002F\u002Fgptzero.me\u002F)] \\\n1 Feb 2023 \n\n**DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature** \\\n*Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11305v1)][[Website](https:\u002F\u002Fericmitchell.ai\u002Fdetectgpt\u002F)] \\\n26 Jan 2023 \n\n**Confident Adaptive Language Modeling** \\\n*Tal Schuster, Adam Fisch, Jai Gupta, Mostafa Dehghani, Dara Bahri, Vinh Q. Tran, Yi Tay, Donald Metzler* \\\nNeurIPS 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07061)]\n25 Oct 2022 \n\n**Conformal risk control** \\\n*Anastasios N Angelopoulos, Stephen Bates, Adam Fisch, Lihua Lei, Tal Schuster* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.02814)][[Github](https:\u002F\u002Fgithub.com\u002Faangelopoulos\u002Fconformal-risk)] \\\n4 Aug 2022 \n\n\n### Active Learning \n\u003C!-- > https:\u002F\u002Fgithub.com\u002Fbaifanxxx\u002Fawesome-active-learning\u002Fblob\u002Fmain\u002FREADME.md -->\n\n\n**A Survey of Active Learning for Natural Language Processing** \\\n*Zhisong Zhang, Emma Strubell, Eduard Hovy* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10109)][[Github](https:\u002F\u002Fgithub.com\u002Fzzsfornlp\u002Fzmsp)] \\\n18 Oct 2022 \n\n\n**Active Prompting with Chain-of-Thought for Large Language Models** \\\n*Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12246)][[Github](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002Factive-prompt)] \\\n23 Feb 2023 \n\n\n**Low-resource Interactive Active Labeling for Fine-tuning Language Models** \\\n*Seiji Maekawa, Dan Zhang, Hannah Kim, Sajjadur Rahman, Estevam Hruschka* \\\nEMNLP Findings 2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.findings-emnlp.235\u002F)] \\\n7 Dec 2022 \n\n**Can You Label Less by Using Out-of-Domain Data? Active & Transfer Learning with Few-shot Instructions** \\\n*Rafal Kocielnik, Sara Kangaslahti, Shrimai Prabhumoye, Meena Hari, R. Michael Alvarez, Anima Anandkumar* \\\nNeurIPS Workshop 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.11798)] \\\n21 Nov 2022 \n\n\n**AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages** \\\n*Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Oreen Yousuf, Salomey Osei, Abigail Oppong, Iyanuoluwa Shode, Oluwabusayo Olufunke Awoyomi, Chris Chinenye Emezue* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.03263)][[Github](https:\u002F\u002Fgithub.com\u002Fbonaventuredossou\u002Fmlm_al)] \\\n7 Nov 2022 \n\n**Active Learning Helps Pretrained Models Learn the Intended Task** \\\n*Alex Tamkin, Dat Pham Nguyen, Salil Deshpande, Jesse Mu, Noah Goodman* \\\nNeurIPS 2022. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=0Ww7UVEoNue)][[Github](https:\u002F\u002Fgithub.com\u002Falextamkin\u002Factive-learning-pretrained-models)] \\\n31 Oct 2022 \n\n**Selective Annotation Makes Language Models Better Few-Shot Learners** \\\n*Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.01975)][[Github](https:\u002F\u002Fgithub.com\u002Fhkunlp\u002Ficl-selective-annotation)] \\\n5 Sep 2022 \n\n\n**Multi-task Active Learning for Pre-trained Transformer-based Models** \\\n*Guy Rotman, Roi Reichart* \\\nTACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.05379)] [[Github](https:\u002F\u002Fgithub.com\u002Frotmanguy\u002Fmtal)]\\\n10 Aug 2022\n \n**AcTune: Uncertainty-Based Active Self-Training for Active Fine-Tuning of Pretrained Language Models** \\\n*Yue Yu, Lingkai Kong, Jieyu Zhang, Rongzhi Zhang, Chao Zhang* \\\nNAACL-HLT2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.102\u002F)] [[Github](https:\u002F\u002Fgithub.com\u002Fyueyu1030\u002Factune)]\\\n10 Jul 2022 \n\n**Towards Computationally Feasible Deep Active Learning** \\\n*Akim Tsvigun, Artem Shelmanov, Gleb Kuzmin, Leonid Sanochkin, Daniil Larionov, Gleb Gusev, Manvel Avetisian, Leonid Zhukov* \\\nNAACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03598)] [[Github](https:\u002F\u002Fgithub.com\u002Fairi-institute\u002Fal_nlp_feasible)] \\\n7 May 2022 \n\n**FAMIE: A Fast Active Learning Framework for Multilingual Information Extraction** \\\n*Minh Van Nguyen, Nghia Trung Ngo, Bonan Min, Thien Huu Nguyen* \\\nNAACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08316)] [[Github](https:\u002F\u002Fgithub.com\u002Fnlp-uoregon\u002Ffamie)] \\\n16 Feb 2022 \n\n\n**On the Importance of Effectively Adapting Pretrained Language Models for Active Learning** \\\n*Katerina Margatina, Loïc Barrault, Nikolaos Aletras* \\\nACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08320v2)] \\\n2 Mar 2022 \n\n**Limitations of Active Learning With Deep Transformer Language Models** \\\n*Mike D'Arcy, Doug Downey* \\\nArxiv 2022. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=Q8OjAGkxwP5)] \\\n28 Jan 2022 \n\n**Active Learning by Acquiring Contrastive Examples** \\\n*Katerina Margatina, Giorgos Vernikos, Loïc Barrault, Nikolaos Aletras* \\\nEMNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.03764)][[Github](https:\u002F\u002Fgithub.com\u002Fmourga\u002Fcontrastive-active-learning)] \\\n8 Sep 2021\n\n\n**Revisiting Uncertainty-based Query Strategies for Active Learning with Transformers** \\\n*Christopher Schröder, Andreas Niekler, Martin Potthast* \\\nACL 2022 Findings. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.05687)][[Github](https:\u002F\u002Fgithub.com\u002Fwebis-de\u002Facl22-revisiting-uncertainty-based-query-strategies-for-active-learning-with-transformers)]  \\\n12 Jul 2021 \n\n**Active Learning for Sequence Tagging with Deep Pre-trained Models and Bayesian Uncertainty Estimates** \\\n*Artem Shelmanov, Dmitri Puzyrev, Lyubov Kupriyanova, Denis Belyakov, Daniil Larionov, Nikita Khromov, Olga Kozlova, Ekaterina Artemova, Dmitry V. Dylov, Alexander Panchenko* \\\nEACL 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.08133)] \\\n18 Feb 2021 \n\n**Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning** \\\n*Daniel Grießhaber, Johannes Maucher, Ngoc Thang Vu* \\\nCOLING 2020. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.02462)] \\\n4 Dec 2020\n\n\n## Reliability\n\n\n### Hallucination\n> [awesome hallucination detection](https:\u002F\u002Fgithub.com\u002FEdinburghNLP\u002Fawesome-hallucination-detection)\n\n**DRIFT: Detecting Representational Inconsistencies for Factual Truthfulness** \\\n*Rohan Bhatnagar, Youran Sun, Chi Andrew Zhang, Yixin Wen, Haizhao Yang* \\\narXiv 2026. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.14210)] \\\n24 Jan 2026\n\n**HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models** \\\n*Tianrui Guan\\*, Fuxiao Liu\\*, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou* \\\nCVPR 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14566)][[Github](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench)] \\\n18 Mar 2024 \n\n**SAC$`^3`$: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency** \\\n*Jiaxin Zhang, Zhuohang Li, Kamalika Das, Bradley A. Malin, Sricharan Kumar* \\\nEMNLP 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.01740)][[Github](https:\u002F\u002Fgithub.com\u002Fintuit\u002Fsac3)] \\\n3 Nov 2023 \n\n**Hallucination Leaderboard** \\\n*Vectara* \\\n[[Link](https:\u002F\u002Fgithub.com\u002Fvectara\u002Fhallucination-leaderboard)] \\\n2 Nov 2023 \n\n**Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators** \\\n*Liang Chen, Yang Deng, Yatao Bian, Zeyu Qin, Bingzhe Wu, Tat-Seng Chua, Kam-Fai Wong* \\\nEMNLP 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07289)][[Github](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FCONNER)] \\\n12 Oct 2023\n\n**Chain-of-Verification Reduces Hallucination in Large Language Models** \\\n*Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11495)] \\\n20 Sep 2023 \n\n**Do Language Models Know When They're Hallucinating References?** \\\n*Ayush Agrawal, Lester Mackey, Adam Tauman Kalai* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18248)] \\\n29 May 2023. \n\n**Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation** \\\n*Niels Mündler, Jingxuan He, Slobodan Jenko, Martin Vechev* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15852)] \\\n25 May 2023 \n\n**Why Does ChatGPT Fall Short in Providing Truthful Answers?** \\\n*Shen Zheng, Jie Huang, Kevin Chen-Chuan Chang* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10513)] \\\n24 May 2023 \n \n\n**How Language Model Hallucinations Can Snowball** \\\n*Muru Zhang, Ofir Press, William Merrill, Alisa Liu, Noah A. Smith* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13534)] \\\n22 May 2023 \n\n**LM vs LM: Detecting Factual Errors via Cross Examination** \\\n*Roi Cohen, May Hamri, Mor Geva, Amir Globerson* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13281)] \\\n22 May 2023\n\n\n**HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models** \\\n*Junyi Li, Xiaoxue Cheng, Wayne Xin Zhao, Jian-Yun Nie, Ji-Rong Wen* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11747)] \n19 May 2023 \n\n**SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models** \\\n*Potsawee Manakul, Adian Liusie, Mark J. F. Gales* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08896)] [[Github](https:\u002F\u002Fgithub.com\u002Fpotsawee\u002Fselfcheckgpt)] \\\n8 Mar 2023 \n\n**Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback** \\\n*Baolin Peng, Michel Galley, Pengcheng He, Hao Cheng, Yujia Xie, Yu Hu, Qiuyuan Huang, Lars Liden, Zhou Yu, Weizhu Chen, Jianfeng Gao* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12813)] \\\n23 Feb 2023 \n \n\n**RHO (ρ): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding** \\\n*Ziwei Ji, Zihan Liu, Nayeon Lee, Tiezheng Yu, Bryan Wilie, Min Zeng, Pascale Fung* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.01588)] \\\n3 Dec 2022 \n\n\n**FaithDial: A Faithful Benchmark for Information-Seeking Dialogue** \\\n*Nouha Dziri, Ehsan Kamalloo, Sivan Milton, Osmar Zaiane, Mo Yu, Edoardo M. Ponti, Siva Reddy* \\\nTACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.10757)] \\\n22 Apr 2022 \n\n\n**Survey of Hallucination in Natural Language Generation** \\\n*Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Wenliang Dai, Andrea Madotto, Pascale Fung* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.03629)] \\\n8 Feb 2022\n\n\n### Truthfulness \n\n**TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space** \\ \n*Shaolei Zhang, Tian Yu, Yang Feng* \\\narXiv 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17811)] [[Github](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FTruthX)] \\\n27 Feb 2024 \n\n**Inference-Time Intervention: Eliciting Truthful Answers from a Language Model** \\ \n*Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03341)] [[Github](https:\u002F\u002Fgithub.com\u002Flikenneth\u002Fhonest_llama)] \\\n6 June 2023 \n\n\n\n**The Internal State of an LLM Knows When its Lying** \\\n*Amos Azaria, Tom Mitchell* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13734)] \\\n26 Apr 2023 \n\n\n**TruthfulQA: Measuring How Models Mimic Human Falsehoods** \\\n*Stephanie Lin, Jacob Hilton, Owain Evans* \\\nACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.07958)] [[Github](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FTruthfulQA)] [[Blog](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FPF58wEdztZFX2dSue\u002Fhow-truthful-is-gpt-3-a-benchmark-for-language-models)] \\\n8 Sep 2021\n\n**Truthful AI: Developing and governing AI that does not lie** \\\n*Owain Evans, Owen Cotton-Barratt, Lukas Finnveden, Adam Bales, Avital Balwit, Peter Wills, Luca Righetti, William Saunders* \\\narXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.06674)] [[Blog](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FaBixCPqSnTsPsTJBQ\u002Ftruthful-ai-developing-and-governing-ai-that-does-not-lie)]\\\n13 Oct 2021\n\n\n**Measuring Reliability of Large Language Models through Semantic Consistency** \\\n*Harsh Raj, Domenic Rosati, Subhabrata Majumdar* \\\nNeurIPS 2022 ML Safety Workshop. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05853)] \\\n10 Nov 2022 \n\n### Reasoning \n\n**REFINER: Reasoning Feedback on Intermediate Representations** \\\n*Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, Boi Faltings* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01904)] \\\n4 Apr 2023 \n\n**OpenICL: An Open-Source Framework for In-context Learning** \\\n*Zhenyu Wu, YaoXiang Wang, Jiacheng Ye, Jiangtao Feng, Jingjing Xu, Yu Qiao, Zhiyong Wu* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.02913)] [[Github](https:\u002F\u002Fgithub.com\u002Fshark-nlp\u002Fopenicl)] \\\n6 Mar 2023 \n\n**Reliable Natural Language Understanding with Large Language Models and Answer Set Programming** \\\n*Abhiramon Rajasekharan, Yankai Zeng, Parth Padalkar, Gopal Gupta* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03780)] \\\n7 Feb 2023 \n\n**Self-Consistency Improves Chain of Thought Reasoning in Language Models** \\\n*Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11171)] \\\n21 Mar 2022 \n\n**Chain of Thought Prompting Elicits Reasoning in Large Language Models.** \\\n*Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, Denny Zhou*\\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)] \\\n28 Jan 2022 \n\n**STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning.** \\\n*Eric Zelikman, Yuhuai Wu, Noah D. Goodman* \\\nNeurIPS 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465)][[Github](https:\u002F\u002Fgithub.com\u002Fezelikman\u002FSTaR)] \\\n28 Mar 2022 \n\n\n**The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning** \\\n*Xi Ye, Greg Durrett* \\\nNeurIPS 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)] [[Github](https:\u002F\u002Fgithub.com\u002Fxiye17\u002FTextualExplInContext)]\\\n6 May 2022\n\n\n**Rationale-Augmented Ensembles in Language Models** \\\n*Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Denny Zhou*\\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00747)] \\\n2 Jul 2022\n\n**ReAct: Synergizing Reasoning and Acting in Language Models** \\\n*Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)][[Github](https:\u002F\u002Fgithub.com\u002Fysymyth\u002FReAct)] [[Project](https:\u002F\u002Freact-lm.github.io\u002F)] \\\n6 Oct 2022 \n\n**On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning** \\\n*Omar Shaikh, Hongxin Zhang, William Held, Michael Bernstein, Diyi Yang* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08061)] \\\n15 Dec 2022 \n\n**On the Advance of Making Language Models Better Reasoners** \\\n*Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02336)][[Github](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FCodeT)] \\\n6 Jun 2022 \n\n**Ask Me Anything: A simple strategy for prompting language models** \\\n*Simran Arora, Avanika Narayan, Mayee F. Chen, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher Ré*\\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02441)][[Github](https:\u002F\u002Fgithub.com\u002FHazyResearch\u002Fama_prompting)] \\\n5 Oct 2022 \n\n**MathPrompter: Mathematical Reasoning using Large Language Models** \\\n*Shima Imani, Liang Du, Harsh Shrivastava* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05398)] \\\n4 Mar 2023\n\n**Complexity-Based Prompting for Multi-Step Reasoning** \\\n*Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark, Tushar Khot* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00720)][[Github](https:\u002F\u002Fgithub.com\u002FFranxYao\u002FComplexity-Based-Prompting)]\\\n3 Oct 2022 \n\n**Measuring and Narrowing the Compositionality Gap in Language Models**\\\n*Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis*\\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03350)][[Github](https:\u002F\u002Fgithub.com\u002Fofirpress\u002Fself-ask)] \n7 Oct 2022 \n\n**Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions** \\\n*Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10509)][[Github](https:\u002F\u002Fgithub.com\u002FStonyBrookNLP\u002Fircot)] \\\n20 Dec 2022 \n\n\n### Prompt tuning, optimization and design\n\n\u003C!-- **Your Prompt is My Command** -->\n\n\n**Large Language Models as Optimizers** \\\n*Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03409)] \\\nSep 7 2023 \n\n**InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models** \\\n*Lichang Chen, Jiuhai Chen, Tom Goldstein, Heng Huang, Tianyi Zhou* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03082)] [[Github](https:\u002F\u002Fgithub.com\u002Flichang-chen\u002Finstructzero)] \\\n5 Jun 2023 \n\n**Promptboosting: Black-box text classification with ten forward passes** \\\n*Bairu Hou, Joe O’Connor, Jacob Andreas, Shiyu Chang, Yang Zhang* \\\nICML 2023. [[Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv202\u002Fhou23b.html)][[Github](https:\u002F\u002Fgithub.com\u002FUCSB-NLP-Chang\u002FPromptBoosting)] \\\n23 Jan 2023 \n\n**GrIPS: Gradient-free, Edit-based Instruction Search for Prompting Large Language Models** \\\n*Archiki Prasad, Peter Hase, Xiang Zhou, Mohit Bansal* \\\nEACL 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07281)][[Github](https:\u002F\u002Fgithub.com\u002Farchiki\u002Fgrips)] \\\nMar 14 2022 \n\n**RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning** \\\n*Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo, Tianmin Shu, Meng Song, Eric P. Xing, Zhiting Hu* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12548)][[Github](https:\u002F\u002Fgithub.com\u002Fmingkaid\u002Frl-prompt)] \\\n25 May 2022 \n\n**Black-box Prompt Learning for Pre-trained Language Models** \\\n*Shizhe Diao, Zhichao Huang, Ruijia Xu, Xuechun Li, Yong Lin, Xiao Zhou, Tong Zhang* \\\nTMLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08531)][[Github](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002FBlack-Box-Prompt-Learning)] \\\n22 Jan 2022 \n\n**Black-Box Tuning for Language-Model-as-a-Service** \\\n*Tianxiang Sun, Yunfan Shao, Hong Qian, Xuanjing Huang, Xipeng Qiu* \\\nICML 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.03514)][[Github](https:\u002F\u002Fgithub.com\u002Ftxsun1997\u002FBlack-Box-Tuning)]\\\n10 Jan 2022 \n\n**BBTv2: towards a gradient-free future with large language models** \\\n*Tianxiang Sun, Zhengfu He, Hong Qian, Yunhua Zhou, Xuanjing Huang, Xipeng Qiu* \\ \nEMNLP 2022. [[Paper](https:\u002F\u002Faclanthology.org\u002F2022.emnlp-main.259\u002F)] [[Github](https:\u002F\u002Fgithub.com\u002Ftxsun1997\u002FBlack-Box-Tuning)] \\\n7 Dec 2022 \n\n\n**Automatic Chain of Thought Prompting in Large Language Models** \\\n*Zhuosheng Zhang, Aston Zhang, Mu Li, Alex Smola*\\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)][[Github](https:\u002F\u002Fgithub.com\u002Famazon-science\u002Fauto-cot)]\\\n7 Oct 2022\n\n**Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data** \\\n*KaShun Shum, Shizhe Diao, Tong Zhang*\\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12822)][[Github](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002Fautomate-cot)]\\\n24 Feb 2023 \n\n**Large Language Models Are Human-Level Prompt Engineers** \\\n*Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01910)] [[Github](https:\u002F\u002Fgithub.com\u002Fkeirp\u002Fautomatic_prompt_engineer)] \\\n3 Nov 2022 \n\n**Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity** \\\n*Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, Pontus Stenetorp* \\\nACL 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08786)] \n\n**Active Example Selection for In-Context Learning** \\\n*Yiming Zhang, Shi Feng, Chenhao Tan* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.04486)][[Github](https:\u002F\u002Fgithub.com\u002FChicagoHAI\u002Factive-example-selection)] \\\n8 Nov 2022 \n\n**Selective Annotation Makes Language Models Better Few-Shot Learners** \\\n*Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.01975)][[Github](https:\u002F\u002Fgithub.com\u002FHKUNLP\u002Ficl-selective-annotation)]\\\n5 Sep 2022 \n\n**Learning To Retrieve Prompts for In-Context Learning** \\\n*Ohad Rubin, Jonathan Herzig, Jonathan Berant* \\\nNAACL-HLT 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08633)][[Github](https:\u002F\u002Fgithub.com\u002FOhadRubin\u002FEPR)] \\\n16 Dec 2021\n\n\n### Instruction and RLHF \n\n**LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions** \\\n*Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14402)][[Github](https:\u002F\u002Fgithub.com\u002Fmbzuai-nlp\u002Flamini-lm)] \\\n27 Apr 2023 \n\n**Self-Refine: Iterative Refinement with Self-Feedback** \\\n*Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Sean Welleck, Bodhisattwa Prasad Majumder, Shashank Gupta, Amir Yazdanbakhsh, Peter Clark* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651)][[Github](https:\u002F\u002Fgithub.com\u002Fmadaan\u002Fself-refine)] [[Website](https:\u002F\u002Fselfrefine.info\u002F)] \\\n30 Mar 2023 \n\n\n**Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning** \\\n*Renze Lou, Kai Zhang, Wenpeng Yin* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10475)][[Github](https:\u002F\u002Fgithub.com\u002FRenzeLou\u002Fawesome-instruction-learning)] \\\n18 Mar 2023  \n\n**Self-Instruct: Aligning Language Model with Self Generated Instructions** \\\n*Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)] [[Github](https:\u002F\u002Fgithub.com\u002Fyizhongw\u002Fself-instruct)] \\\n20 Dec 2022 \n\n\n**Constitutional AI: Harmlessness from AI Feedback** \\\n*Yuntao Bai, et al (Anthropic)* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073)] \\\n15 Dec 2022 \n\n**Discovering Language Model Behaviors with Model-Written Evaluations** \\\n*Ethan Perez et al.* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09251)] \\\n19 Dec 2022 \n\n**In-Context Instruction Learning** \\\n*Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14691)][[Github](https:\u002F\u002Fgithub.com\u002Fseonghyeonye\u002FICIL)]\\\n28 Feb 2023 \n\n\n### Tools and external APIs\n\n**Internet-augmented language models through few-shot prompting for open-domain question answering**  \\\n*Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, Nikolai Grigorev* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.05115)] \\\n10 Mar 2023 \n\n**Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks** \\\n*Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.12588)][[Github](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FProgram-of-Thoughts)]\\\n22 Nov 2022 \n\n**PAL: Program-aided Language Models** \\\n*Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, Graham Neubig* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10435)] [[Github](https:\u002F\u002Fgithub.com\u002Freasoning-machines\u002Fpal)] [[Project](https:\u002F\u002Freasonwithpal.com\u002F)] \\\n18 Nov 2022 \n\n**TALM: Tool Augmented Language Models** \\\n*Aaron Parisi, Yao Zhao, Noah Fiedel* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12255)] \\\n24 May 2022 \n\n**Toolformer: Language Models Can Teach Themselves to Use Tool** \\\n*Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)] \\\n9 Feb 2023 \n\n\n### Fine-tuning \n\n**Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes** \\\n*Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02301)] \\\n3 May 2023 \n\n\u003C!-- https:\u002F\u002Fgithub.com\u002Fshm007g\u002FLLaMA-Cult-and-More -->\n**FreeLM: Fine-Tuning-Free Language Model** \\\n*Xiang Li1, Xin Jiang, Xuying Meng, Aixin Sun, Yequan Wang* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.01616v1.pdf)] \\\n2 May 2023 \n\n**Automated Data Curation for Robust Language Model Fine-Tuning** \\\n*Jiuhai Chen, Jonas Mueller* \\\narXiv 2024. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12776)] \\\n19 Mar 2024\n\n\n## Robustness\n### Invariance \n\n**Invariant Language Modeling** \\ \n*Maxime Peyrard, Sarvjeet Singh Ghotra, Martin Josifoski, Vidhan Agarwal, Barun Patra, Dean Carignan, Emre Kiciman, Robert West* \\\nEMNLP 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08413)][[Github](https:\u002F\u002Fgithub.com\u002Fepfl-dlab\u002Finvariant-language-models)] \\\n16 Oct 2021 \n\n**Towards Robust Personalized Dialogue Generation via Order-Insensitive Representation Regularization** \\\n*Liang Chen, Hongru Wang, Yang Deng, Wai-Chung Kwan, Kam-Fai Wong* \\\nFindings of ACL 2023. [[Paper](https:\u002F\u002Faclanthology.org\u002F2023.findings-acl.462)][[Github](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FORIG)] \\\n22 May 2023\n\n\n\n### Distribution Shift\n\n**Exploring Distributional Shifts in Large Language Models for Code Analysis** \\\n*Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao, Xiang Ren* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09128)] \\\n16 Mar 2023 \n\n\n### Out-of-Distribution \n\n**Out-of-Distribution Detection and Selective Generation for Conditional Language Models** \\\n*Jie Ren, Jiaming Luo, Yao Zhao, Kundan Krishna, Mohammad Saleh, Balaji Lakshminarayanan, Peter J. Liu* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15558)] \\\n30 Sep 2022 \n\n\n### Adaptation and Generalization\n\n**On the Domain Adaptation and Generalization of Pretrained Language Models: A Survey** \\\n*Xu Guo, Han Yu* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.03154)] \\\n6 Nov 2022 \n\n### Adversarial \n\n**Internal Safety Collapse in Frontier Large Language Models** \\\n*Yutao Wu, Jie Zhang, Tianwei Zhang, Xingjun Ma* \\\narXiv 2026. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.23509)][[Github](https:\u002F\u002Fgithub.com\u002Fwuyoscar\u002FISC-Bench)] \\\n4 Mar 2026\n\n**PEARL: Towards Permutation-Resilient LLMs** \\\n*Liang Chen, Li Shen, Yang Deng, Xiaoyan Zhao, Bin Liang, Kam-Fai Wong* \\\nICLR 2025. [[Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=txoJvjfI9w)][[Github](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FPEARL)] \\\n27 Feb 2025\n\n**Jailbreaking LLMs' Safeguard with Universal Magic Words for Text Embedding Models** \\\n*Haoyu Liang, Youran Sun, Yunfeng Cai, Jun Zhu, Bo Zhang* \\\narXiv 2025. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18280)] \\\n23 Jan 2025\n\n**Adversarial Attacks on LLMs** \\\n*Lilian Weng*\n[[Blog](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-10-25-adv-attack-llm\u002F)] \\\n25 Oct 2023 \n\n**PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts** \\\n*Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang, Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, Xing Xie* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.04528)][[Github](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fpromptbench)] \\\n7 Jun 20223 \n\n**On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective** \\\n*Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Haojun Huang, Wei Ye, Xiubo Geng, Binxin Jiao, Yue Zhang, Xing Xie* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095)] [[Github](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Frobustlearn)] \\\n22 Feb 2023 \n\n**Reliability Testing for Natural Language Processing Systems** \\\n*Samson Tan, Shafiq Joty, Kathy Baxter, Araz Taeihagh, Gregory A. Bennett, Min-Yen Kan* \\\nACL-IJCNLP 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.02590)] \\\n06 May 2021\n\n\n### Attribution \n\n**Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models** \\\n*Bernd Bohnet, Vinh Q. Tran, Pat Verga, Roee Aharoni, Daniel Andor, Livio Baldini Soares, Massimiliano Ciaramita, Jacob Eisenstein, Kuzman Ganchev, Jonathan Herzig, Kai Hui, Tom Kwiatkowski, Ji Ma, Jianmo Ni, Lierni Sestorain Saralegui, Tal Schuster, William W. Cohen, Michael Collins, Dipanjan Das, Donald Metzler, Slav Petrov, Kellie Webster* \\\narXiv 2022. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08037)] \\\n15 Dec 2022 \n\n### Causality \n\n**Can Large Language Models Infer Causation from Correlation?** \\\n*Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab, Bernhard Schölkopf* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05836)] [[Github](https:\u002F\u002Fgithub.com\u002Fcausalnlp\u002Fcorr2cause)] \\\n9 Jun 2023 \n\n\n**Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning** \\\n*Antonia Creswell, Murray Shanahan, Irina Higgins* \\\nICLR 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.09712)] \\\n19 May 2022\n\n**Investigating causal understanding in LLMs** \\\n*Marius Hobbhahn, Tom Lieberum, David Seiler* \\\nNeurIPS 2022 Workshop. [[Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=st6jtGdW8Ke)][[Blog](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FyZb5eFvDoaqB337X5\u002Finvestigating-causal-understanding-in-llms)] \\\n3 Oct 2022 \n\n\n\u003C!-- blog https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F608856445  -->\n\n\u003C!-- > new metric to evaluate the prompt  -->\n\n\n\n\u003C!-- ## Safety\n\n### Bias and Fairness\n> more papers can be found via https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fawesome-fairness-papers \n\n**Logic Against Bias: Textual Entailment Mitigates Stereotypical Sentence Reasoning** \\\n*Hongyin Luo, James Glass* \\ \nEACL 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05670)] [[News][https:\u002F\u002Fnews.mit.edu\u002F2023\u002Flarge-language-models-are-biased-can-logic-help-save-them-0303]] \\\n10 Mar 2023 \n\n**Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models** \\\n*Pieter Delobelle, Ewoenam Kwaku Tokpo, Toon Calders, Bettina Berendt* \\\narXiv 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.07447)] \\\n14 Dec 2021 \n\n**Towards Understanding and Mitigating Social Biases in Language Models** \\ \n*Paul Pu Liang, Chiyu Wu, Louis-Philippe Morency, Ruslan Salakhutdinov* \\\nICML 2021. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.13219)] [[Github](https:\u002F\u002Fgithub.com\u002Fpliang279\u002FLM_bias)] \\\n24 Jun 2021 \n\n**Fairness-guided Few-shot Prompting for Large Language Models** \\\n*Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu* \\\narXiv 2023. [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13217)] [[Github](https:\u002F\u002Fgithub.com\u002FMaHuanAAA\u002Fg_fair_prompting)]\\\n23 Mar 2023\n\n\u003C!-- improve in-context learning  -->\n\n\n\n\n\n\n\u003C!-- # Research Team & Reseachers \n\n- [Owain Evans](https:\u002F\u002Fowainevans.github.io\u002F): Research Associate in Artificial Intelligence, University of Oxford\n- [Tong Zhang]\n -->\n \u003C!-- - [Sebastian Farquhar](https:\u002F\u002Fsebastianfarquhar.com\u002F): Deepmind, Oxford  -->\n \u003C!-- [Elias Stengel-Eskin](https:\u002F\u002Festeng.github.io\u002F) -->\n\n","# 令人惊叹的LLM——不确定性、可靠性与鲁棒性\n\n\\\n[![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fhee9joon\u002FAwesome-Diffusion-Models) \n[![许可证：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![用心制作](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMade%20With-Love-red.svg)](https:\u002F\u002Fgithub.com\u002Fchetanraj\u002Fawesome-github-badges)\n\n这个名为**UR2-LLMs**的仓库收录了关于**大型语言模型**中**不确定性**、**可靠性**和**鲁棒性**的相关资源与论文。\n\n“大型语言模型具有有限的可靠性、理解力和适用范围，因此需要人类的监督。”——牛津大学工程科学系机器学习教授迈克尔·奥斯本，2023年1月25日\n\n*欢迎在此分享您在该领域的论文、思考与见解！*\n\n## 目录\n\n- [令人惊叹的LLM——不确定性、可靠性与鲁棒性](#awesome-llm-uncertainty-reliability-robustness)\n  - [目录](#contents)\n- [资源](#resources)\n  - [入门文章](#introductory-posts)\n  - [技术报告](#technical-reports)\n  - [教程](#tutorial)\n- [论文](#papers)\n  - [评估与综述](#evaluation--survey)\n  - [不确定性](#uncertainty)\n    - [不确定性估计](#uncertainty-estimation)\n    - [校准](#calibration)\n    - [歧义性](#ambiguity)\n    - [置信度](#confidence)\n    - [主动学习](#active-learning)\n  - [可靠性](#reliability)\n    - [幻觉](#hallucination)\n    - [真实性](#truthfulness)\n    - [推理能力](#reasoning)\n    - [提示词调优、优化与设计](#prompt-tuning-optimization-and-design)\n    - [指令与RLHF](#instruction-and-rlhf)\n    - [工具与外部API](#tools-and-external-apis)\n    - [微调](#fine-tuning)\n  - [鲁棒性](#robustness)\n    - [不变性](#invariance)\n    - [分布偏移](#distribution-shift)\n    - [分布外样本](#out-of-distribution)\n    - [适应与泛化](#adaptation-and-generalization)\n    - [对抗性](#adversarial)\n    - [归因分析](#attribution)\n    - [因果关系](#causality)\n\u003C!--   - [安全性](#safety)\n    - [偏差与公平性](#bias-and-fairness)\n    - [隐私保护](#privacy) -->\n\n\n\n# 资源\n\n## 入门文章\n\n**可控AGI的决定因素** \\\n*艾伦·施马尔茨* \\\n[[链接](https:\u002F\u002Fraw.githubusercontent.com\u002Fallenschmaltz\u002FResolute_Resolutions\u002Fmaster\u002Fvolume5\u002Fvolume5.pdf)] \\\n2025年3月3日 \n\n\u003C!-- > 评论 \\\n摘要：\n我们在概念层面上简要介绍了用于推导大型语言模型（LLMs）预测不确定性稳健估计量的技术工作，并探讨了其对实际部署和AI政策的影响。 -->\n\n**GPT是一个不可靠的信息存储** \\\n*诺布尔·阿克森* \\\n[[链接](https:\u002F\u002Ftowardsdatascience.com\u002Fchatgpt-insists-i-am-dead-and-the-problem-with-language-models-db5a36c22f11)] \\\n2023年2月20日 \n\n\u003C!-- > 评论 \\\n- 大型语言模型是不可靠的信息存储。我们能对此做些什么？\n从设计上讲，这些系统并不知道自己知道什么、不知道什么。\n\n- GPT是在海量文本数据上训练而成的，但本身并不具备验证这些数据中信息准确性和真实性的能力。\n\n- 那么我们是否应该基于事实不可靠的GPT来构建应用呢？\n可以。不过在这样做的时候，我们必须确保加入适当的信任与安全检查机制，并通过我将在下文中分享的技术手段来施加实际约束。在这些基础模型之上构建应用时，我们可以通过恰当的护栏措施，例如提示工程和上下文注入等技术，来尽量减少不准确性。\n\n或者，如果我们拥有自己的更大规模数据集，则可以考虑迁移学习、微调以及强化学习等更为先进的方法。\n\n不错的博客 -->\n\n**“滥用”大型语言模型与MT的未来** \\\n*阿尔勒·洛梅尔* \\\n[[链接](https:\u002F\u002Fcsa-research.com\u002FBlogs-Events\u002FBlog\u002FMisusing-Large-Language-Models-and-the-Future-of-MT)] \\\n2022年12月20日 \n\n\u003C!-- 1. 大型语言模型使“信任问题”更加严重。尽管人们曾期望大型语言模型会带来机器翻译领域的下一次飞跃式进步，但它们也引入了一些严重的风险。目前MT面临的最大挑战之一就是其可靠性不足。虽然开发响应迅速且负责任的MT理应改善这一状况，然而能够生成听起来合理但实际上毫无意义输出的大型语言模型，很可能会增加危险或有害翻译错误的风险。我的实验表明，用户不应轻信Galactica所说的内容，而应当仔细核查以确认所有信息。值得注意的是，在那些在这类模型中训练数据相对较少的语言中，这个问题会更加突出。\n\n6. 质量评估将变得至关重要。随着MT输出越来越流畅，检测其中的问题将变得愈发困难，这可能导致：a) 内容潜在风险的上升；b) MT编辑人员的认知负荷增加，从而降低其工作效率。这意味着质量评估的重要性将进一步提升，需要在此领域取得突破性进展。当技术能够可靠地识别问题和风险时，才能真正解决信任问题。-->\n\n\n**大型语言模型：基础知识及其应用** \\\n*玛戈·波达* \\\n[[链接](https:\u002F\u002Fwww.moveworks.com\u002Finsights\u002Flarge-language-models-strengths-and-weaknesses)] \\\n2023年2月9日 \n\n\u003C!-- > 可靠性需要人工监督，这才是关键！ -->\n\n**提示工程：提升响应与可靠性** \\\n*彼得·福伊*\\\n[[链接](https:\u002F\u002Fwww.mlq.ai\u002Fprompt-engineering-techniques-improve-reliability\u002F)]\\\n2023年3月19日 \n\n\u003C!-- 不错的博客  -->\n\n**OpenAI关于提升可靠性的技术指南** \\\n*OpenAI* \\\n[[Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fopenai-cookbook)] \\\n2023年3月18日\n\n**GPT\u002F校准标签** \\\n*格韦恩·布兰温* \\\n[[链接](https:\u002F\u002Fgwern.net\u002Fdoc\u002Fai\u002Fnn\u002Ftransformer\u002Fgpt\u002Fcalibration\u002Findex#link-bibliography)]\n\n**提示工程** \\\n*莉莲·王*\\\n[[链接](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-03-15-prompt-engineering\u002F)]\n\n\n**由LLM驱动的自主代理** \\\n*莉莲·王*\\\n[[链接](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-06-23-agent\u002F)]\n\n\n**学习提示工程中的可靠性**\\\n[[链接](https:\u002F\u002Flearnprompting.org\u002Fdocs\u002Fcategory\u002F%EF%B8%8F-reliability)] \n\n\n**为生产环境构建LLM应用** \\\n*奇普·休恩* \\\n[[链接](https:\u002F\u002Fhuyenchip.com\u002F2023\u002F04\u002F11\u002Fllm-engineering.html)] \\\n2023年4月11日 \n\n**实用、真实的神经网络可解释性与部署** \\\n*艾伦·施马尔茨* \\\n[[链接](https:\u002F\u002Fraw.githubusercontent.com\u002Fallenschmaltz\u002FResolute_Resolutions\u002Fmaster\u002Fvolume3\u002Fvolume3.pdf)] \\\n2021年12月11日 \n\n\u003C!-- > 评论 \\\n摘要：\n从实践角度来看，将神经网络可解释性视为一种交互式的、人机协作的预测任务是有充分理由的，而且这种任务所处理的输入分辨率应低于我们通常用来标注数据的分辨率。在此背景下，我们在大型深度网络的实际部署中将致力于采用“弃权+更新\u002F适应”的范式。为此，我们理想情况下需要一些通常不在深度网络默认配置中的特性和行为：我们需要某种方法来分析模型下的数据，将其与模型针对特定实例的预测结果进行对比；我们必须应对领域偏移以及不确定性\u002F可靠性相关问题；还需要将全局的实例级预测结果分解到各个组成部分（反之亦然），同时保持方法上的灵活性，以便根据我们可能掌握的不同先验信息进行调整；此外，我们还希望在模型或数据出现问题时能够进行一定程度的更新，而无需重新训练整个模型。\n \n在这篇博文中，作为对我们现有工作的简要概述，我们阐述了上述特性背后的理由，并介绍了一种通过模型近似来实现这些目标的实用方法——该方法通过对深度网络在其输入和训练集上的分解，并以密集表示匹配作为桥梁来达成目的。我们进一步提出了“数据介导的人工智能可分解模型近似”（DMA^2）这一术语，用以概括这些理念。 -->\n\n## 技术报告 \n\n**GPT-4技术报告** \\\n*OpenAI* \\\narXiv 2023. [[论文](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4.pdf)][[指南](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fevals)] \\\n2023年3月16日 \n\n**GPT-4系统卡片** \\\n*OpenAI* \\\narXiv 2023. [[论文](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4-system-card.pdf)] [[Github](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fevals)]\\\n2023年3月15日 \n\n \n## 教程 \n\n**自然语言处理中的不确定性估计** \\\n*亚当·菲什、罗宾·贾、塔尔·舒斯特* \\\nCOLLING 2022. [[网站](https:\u002F\u002Fsites.google.com\u002Fview\u002Funcertainty-nlp)]\n\n\u003C!-- ## 提示工程与论文\n\n**PromptPapers** - [[链接](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPromptPapers)] \n\n**Awesome-Prompt-Engineering** - [[链接](https:\u002F\u002Fgithub.com\u002Fpromptslab\u002FAwesome-Prompt-Engineering)]\n -->\n\n\n\n\n# 论文\n\n## 评估与调查\n\n**更宽更深的LLM网络是更公平的LLM评估者** \\\n*张兴华、于博文、于海洋、吕阳宇、刘廷文、黄飞、徐洪波、李勇斌* \\\narXiv 2023年。[[论文](https:\u002F\u002Faps.arxiv.org\u002Fabs\u002F2308.01862)][[Github](https:\u002F\u002Fgithub.com\u002FAlibabaResearch\u002FDAMO-ConvAI\u002Ftree\u002Fmain\u002FWideDeep)] \\\n2023年8月3日 \n\n**大型语言模型评估综述** \\\n*常宇鹏、王旭、王金东、吴源、朱凯杰、陈浩、杨林义、易晓远、王存祥、王一东、叶伟、张悦、常毅、Philip S. Yu、杨强、谢星* \\\nArxiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.03109)][[Github](https:\u002F\u002Fgithub.com\u002Fmlgroupjlu\u002Fllm-eval-survey)] \\\n2023年7月6日 \n\n**DecodingTrust：GPT模型可信度的全面评估** \\\n*王博欣、陈维新、裴恒志、谢楚琳、康敏通、张晨辉、许澈健、熊子迪、Ritik Dutta、Rylan Schaeffer、Sang T. Truong、Simran Arora、Mantas Mazeika、Dan Hendrycks、林子楠、程宇、Sanmi Koyejo、Dawn Song、李博* \\\nArxiv，2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11698)] [[Github](https:\u002F\u002Fgithub.com\u002FAI-secure\u002FDecodingTrust\u002F)] [[网站](https:\u002F\u002Fdecodingtrust.github.io\u002F)] \\\n2023年6月20日 \n\n**我们该信任ChatGPT吗？衡量与刻画ChatGPT的可靠性** \\\n*沈心悦、陈泽远、Michael Backes、张洋* \\\narXiv，2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08979)] \\\n2023年4月18日 \n\n**在实践中利用LLM的力量：关于ChatGPT及更广泛领域的综述** \\\n*杨景峰、金宏业、唐瑞翔、韩晓天、冯启章、蒋浩明、尹冰、胡霞* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13712)][[Github](https:\u002F\u002Fgithub.com\u002Fmooler0410\u002Fllmspracticalguide)] \\\n2023年4月27日 \n\n**GPT-3.5对前代模型有多稳健？一项关于语言理解任务的全面研究** \\\n*陈璇婷、叶俊杰、祖灿、徐诺、郑锐、彭敏龙、周杰、桂涛、张琪、黄萱静* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.00293)][[Github](https:\u002F\u002Fgithub.com\u002Ftextflint\u002Ftextflint)] \\\n2023年3月1日\n\n**语言模型的整体评估** \\\n*Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro Yasunaga、Yian Zhang、Deepak Narayanan、吴宇怀、Ananya Kumar、Benjamin Newman、袁彬航、Bobby Yan、Ce Zhang、Christian Cosgrove、Christopher D. Manning、Christopher Ré、Diana Acosta-Navas、Drew A. Hudson、Eric Zelikman、Esin Durmus、Faisal Ladhak、Frieda Rong、Ren Hongyu、Yao Huaxiu、Wang Jue、Keshav Santhanam、Laurel Orr、Lucia Zheng、Mert Yuksekgonul、Mirac Suzgun、Nathan Kim、Neel Guha、Niladri Chatterji、Omar Khattab、Peter Henderson、Huang Qian、Ryan Chi、Xie Sang Michael、Santurkar Shibani、Ganguli Surya、Hashimoto Tatsunori、Icard Thomas、Zhang Tianyi、Chaudhary Vishrav、William Wang、Li Xuechen、Mai Yifan、Zhang Yuhui、Koreeda Yuta* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09110)] [[网站](https:\u002F\u002Fcrfm.stanford.edu\u002Fhelm\u002Flatest\u002F)] [[Github](https:\u002F\u002Fgithub.com\u002Fstanford-crfm\u002Fhelm)] [[博客](https:\u002F\u002Fcrfm.stanford.edu\u002F2022\u002F11\u002F17\u002Fhelm.html)] \\\n2022年11月16日\n\n**提示GPT-3以提高其可靠性** \\\n*司成磊、甘哲、杨正元、王硕航、王建峰、Jordan Boyd-Graber、王丽娟* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09150)] [[Github](https:\u002F\u002Fgithub.com\u002FNoviScl\u002FGPT3-Reliability)] \\\n2022年10月17日 \n\n**Plex：利用预训练大模型扩展实现可靠性** \\\n*Dustin Tran、Liu Jeremiah、Dusenberry Michael W.、Phan Du、Collier Mark、Ren Jie、Han Kehang、Wang Zi、Mariet Zelda、Hu Huiyi、Band Neil、Rudner Tim G. J.、Singhal Karan、Nado Zachary、van Amersfoort Joost、Kirsch Andreas、Jenatton Rodolphe、Thain Nithum、Yuan Honglin、Buchanan Kelly、Murphy Kevin、Sculley D.、Gal Yarin、Ghahramani Zoubin、Snoek Jasper、Lakshminarayanan Balaji* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07411)] \\\n2022年7月15日 \n\n**语言模型（大多）知道自己知道什么** \\\n*Saurav Kadavath、Conerly Tom、Askell Amanda、Henighan Tom、Drain Dawn、Perez Ethan、Schiefer Nicholas、Hatfield-Dodds Zac、DasSarma Nova、Tran-Johnson Eli、Johnston Scott、Showk Sheer、Jones Andy、Elhage Nelson、Hume Tristan、Chen Anna、Bai Yuntao、Bowman Sam、Fort Stanislav、Ganguli Deep、Hernandez Danny、Jacobson Josh、Kernion Jackson、Kravec Shauna、Lovitt Liane、Ndousse Kamal、Olsson Catherine、Ringer Sam、Amodei Dario、Brown Tom、Clark Jack、Joseph Nicholas、Mann Ben、McCandlish Sam、Olah Chris、Kaplan Jared* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05221)] \\\n2022年7月11日 \n\n**增强型语言模型：综述** \\\n*Mialon Grégoire、Dessì Roberto、Lomeli Maria、Nalmpantis Christoforos、Pasunuru Ram、Raileanu Roberta、Rozière Baptiste、Schick Timo、Yu Jane Dwivedi、Celikyilmaz Asli、Grave Edouard、LeCun Yann、Scialom Thomas* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.07842)] \\\n2023年2月15日 \n\n**用于NLG系统的评估指标综述** \\\n*B. Sai Ananya、Mohankumar Akash Kumar、Khapra Mitesh M.* \\\nACM Computing Survey，2022年。[[论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3485766)] \\\n2022年1月18日\n\n**NL-Augmenter：面向任务敏感型自然语言增强的框架** \\\n*多霍尔 Kaustubh D. 等* \\\nACL 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.02721)][[Github](https:\u002F\u002Fgithub.com\u002FGEM-benchmark\u002FNL-Augmenter)] \\\n2021年12月6日 \n\n**TextFlint：自然语言处理的统一多语言鲁棒性评估工具包** \\\n*Gui Tao 等* \\\narXiv 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.11441)][[Github](https:\u002F\u002Fgithub.com\u002Ftextflint\u002Ftextflint)] \\\n2021年3月21日 \n\n**鲁棒性健身房：统一NLP评估格局** \\\n*Goel Karan、Rajani Nazneen、Vig Jesse、Tan Samson、Wu Jason、Zheng Stephan、Xiong Caiming、Bansal Mohit、Ré Christopher* \\\nACL 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.04840)][[Github](https:\u002F\u002Fgithub.com\u002Frobustness-gym\u002Frobustness-gym)] \\\n2021年1月13日\n\n**超越准确率：使用CheckList对NLP模型进行行为测试** \\\n*Ribeiro Marco Tulio、Wu Tongshuang、Guestrin Carlos、Singh Sameer* \\\nACL 2020年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.04118)][[Github](https:\u002F\u002Fgithub.com\u002Fmarcotcr\u002Fchecklist)] \\\n2020年5月8日\n\n\n## 不确定性\n\n### 不确定性估计\n\n**DRIFT：检测事实真实性的表征不一致** \\\n*Bhatnagar Rohan、Sun Youran、Zhang Andrew Chi、Wen Yixin、Yang Haizhao* \\\narXiv 2026年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.14210)] \\\n2026年1月24日\n\n**BLoB：基于反向传播的大语言模型贝叶斯低秩适应** \\\n*Wang Yibin、Shi Haizhou、Han Ligong、Metaxas Dimitris、Wang Hao* \\\narXiv 2024年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.11675)] \\\n2024年6月18日\n\n**内核语言熵：基于语义相似性对LLM进行细粒度不确定性量化** \\\n*Nikitin Alexander、Kossen Jannik、Gal Yarin、Marttinen Pekka* \\\nNeurIPS 2024年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.20003)][[Github](https:\u002F\u002Fgithub.com\u002FAlexanderVNikitin\u002Fkernel-language-entropy)] \\\n2024年5月30日\n\n**LLM 的不确定性估计与量化：一种简单的监督方法** \\\n*刘林宇、潘宇、李晓成、陈冠廷* \\\narXiv 2024 年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.15993)] \\\n2024 年 4 月 24 日\n\n**MARS：面向生成式 LLM 不确定性估计的意义感知响应评分** \\\n*巴克曼等人* \\\nACL 2024。[[论文](https:\u002F\u002Faclanthology.org\u002F2024.acl-long.419.pdf)] \\\n2024 年 2 月 19 日\n\n**将注意力转向相关性：迈向大型语言模型的不确定性估计** \\\n*段金浩、程浩、王世奇、亚历克斯·扎瓦尔尼、王晨安、徐仁静、巴维亚·凯尔库拉、许凯迪* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.01379.pdf)] \\\n2023 年 10 月 9 日\n\n**三思而后行：大型语言模型不确定性度量的探索性研究** \\\n*黄宇恒、宋嘉阳、王志杰、赵圣明、陈华明、费利克斯·朱菲-徐、马磊* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.10236.pdf)] \\\n2023 年 7 月 16 日\n\n**大型语言模型自然语言解释中的不确定性量化** \\\n*斯里·哈沙·坦内鲁、奇拉格·阿加瓦尔、希马宾杜·拉卡拉朱* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03533v1)] \\\n2023 年 11 月 6 日\n\n**一致性自回归生成：具有覆盖率保证的束搜索** \\\n*尼古拉斯·多伊奇曼、马文·阿尔伯茨、玛丽亚·罗德里格斯·马丁内斯* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03797)] \\\n2023 年 9 月 7 日\n\n**量化任何语言模型答案中的不确定性并提升其可信度** \\\n*陈久海、约纳斯·穆勒* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.16175)] \\\n2023 年 8 月 30 日\n\n\n**自然语言生成中的不确定性：从理论到应用** \\\n*乔里斯·班、尼科·达海姆、叶夫根尼娅·伊利亚、丹尼斯·乌尔默、李浩诚、拉奎尔·费尔南德斯、芭芭拉·普兰克、里科·森尼希、克里斯苏拉·泽尔瓦、威尔克·阿齐兹* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.15703)] \\\n2023 年 7 月 28 日\n\n\n**自信生成：黑盒大型语言模型的不确定性量化** \\\n*林震、舒本杜·特里维迪、孙继明* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19187)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fzlin7\u002FUQ-NLG)] \\\n2023 年 5 月 30 日\n\n**基于概念的人工智能系统中的人类不确定性** \\\n*凯瑟琳·M·柯林斯、马修·巴克尔、马特奥·埃斯皮诺萨·扎尔伦加、纳文·拉曼、乌芒·巴特、马泰娅·雅姆尼克、伊利亚·苏霍卢茨基、艾德里安·韦勒、克里希纳穆提·德维乔塔姆* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12872)] \\\n2023 年 3 月 22 日\n\n**穿越灰色地带：语言模型中的过度自信与不确定性表达** \\\n*凯特琳·周、丹·朱拉夫斯基、桥本辰典* \\\narXiv 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.13439)] \\\n2023 年 2 月 25 日\n\n**DEUP：直接认识论不确定性预测** \\\n*萨勒姆·拉赫卢、莫克什·贾因、哈迪·内科伊、维克托·伊翁·布托伊、保罗·贝尔坦、贾里德·雷克托-布鲁克斯、马克西姆·科拉布廖夫、约书亚·本吉奥* \\\nTMLR 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.08501)] \\\n2023 年 2 月 3 日\n\n\n**关于序列到序列图解析的组合式不确定性量化** \\\n*林子、范杜、帕努蓬·帕苏帕特、刘哲·杰里迈亚、商景博* \\\nICLR 2023 年。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=rJcLocAJpA6)] \\\n2023 年 2 月 1 日\n\n\n**通过组合式不确定性量化实现稳健自回归图解析的神经符号推理** \\\n*林子、刘哲、商景博* \\\nEMNLP 2022 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11459)] \\\n2023 年 1 月 16 日\n\n\n**教会模型用语言表达其不确定性** \\\n*斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯* \\\nTMLR 2022 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.14334)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FCalibratedMath)] [[TMLR](https:\u002F\u002Fopenreview.net\u002Fforum?id=8s8K2UZGTZ)] [[幻灯片](https:\u002F\u002Fowainevans.github.io\u002Fpdfs\u002Fchai_calibration_owain.pdf)]\\\n2022 年 5 月 28 日\n\n**语义不确定性：自然语言生成中用于不确定性估计的语言不变性** \\\n*洛伦茨·库恩、亚林·加尔、塞巴斯蒂安·法夸尔* \\\nICLR 2023 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.09664)] \\\n2022 年 2 月 19 日\n\n\n**少样本语言模型微调的冷启动数据选择：一种基于提示的不确定性传播方法** \\\n*于悦、张荣志、徐然、张洁宇、沈佳明、张超* \\\narXiv 2022 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.06995)][[GitHub](https:\u002F\u002Fgithub.com\u002Fyueyu1030\u002FPatron)] \\\n2022 年 9 月 15 日\n\n\n**通过认识论神经网络微调语言模型** \\\n*伊恩·奥斯班德、赛义德·穆罕默德·阿斯加里、本杰明·范·罗伊、纳特·麦卡利斯、约翰·阿斯拉尼德斯、杰弗里·欧文* \\\narXiv 2022 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01568)][[GitHub](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fneural_testbed)] \\\n2022 年 11 月 3 日\n\n\n\n**预训练语言模型的不确定性量化：一项大规模实证分析** \\\n*肖宇欣、保罗·普·梁、乌芒·巴特、威利·奈斯万格、鲁斯兰·萨拉胡丁诺夫、路易斯-菲利普·莫伦西* \\\nEMNLP 2022（Findings）。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.04714)][[GitHub](https:\u002F\u002Fgithub.com\u002Fxiaoyuxin1002\u002Fuq-plm)] \\\n2022 年 10 月 10 日\n\n**语言奖励模型的不确定性估计** \\\n*亚当·格利夫、杰弗里·欧文* \\\narXiv 2022 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07472)] \\\n2022 年 3 月 14 日\n\n**预训练文本回归模型的不确定性估计与降低** \\\n*王玉霞、丹尼尔·贝克、蒂莫西·鲍德温、卡琳·维尔斯普尔* \\\nTACL 2022 年。[[论文](https:\u002F\u002Faclanthology.org\u002F2022.tacl-1.39\u002F)] \\\n2022 年 6 月\n\n\n**自回归结构化预测中的不确定性估计** \\\n*安德烈·马里宁、马克·盖尔斯* \\\nICLR 2021 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.07650)] \\\n2020 年 2 月 18 日\n\n\n**神经机器翻译的无监督质量评估** \\\n*玛丽娜·福米切娃、孙硕、丽莎·扬科夫斯卡娅、弗雷德里克·布莱恩、弗朗西斯科·古斯曼、马克·菲舍尔、尼古拉奥斯·阿莱特拉斯、维什拉夫·乔杜里、露西亚·斯佩恰* \\\nTACL 2020 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10608)][[数据集](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmlqe)] \\\n2020 年 5 月 21 日\n\n\n**分析神经机器翻译中的不确定性** \\\n*迈尔·奥特、迈克尔·奥利、大卫·格兰吉耶、马克’奥雷利奥·兰扎托* \\\nICML 2018 年。[[论文](https:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fott18a.html)] \\\n2018 年\n\n**语言模型的不确定性量化：一套黑盒、白盒、LLM 判官及集成评分器** \\\n*迪伦·布夏尔、莫希特·辛格·乔汉* \\\narXiv 2025 年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.19254)][[GitHub](https:\u002F\u002Fgithub.com\u002Fcvs-health\u002Fuqlm)] \\\n2025 年 4 月\n\n### 校准\n\n**相似性-距离-量级通用验证**  \n*艾伦·施马尔茨*  \narXiv 2025. [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.20167)] [[GitHub](https:\u002F\u002Fgithub.com\u002FReexpressAI\u002Fsdm)]  \n2025年2月27日\n\n**仅利用大型语言模型的生成结果进行校准**  \n*丹尼斯·乌尔默、马丁·古布里、华兰·李、桑度·尹、成俊·吴*  \nACL 2024. [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.05973)][[GitHub](https:\u002F\u002Fgithub.com\u002Fparameterlab\u002Fapricot)][[海报](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FPoster_Apricot_ACL2024.pdf)][[幻灯片](https:\u002F\u002Fgubri.eu\u002Fpdf\u002FSlides_APRICOT.pdf)]  \n2024年3月9日\n\n**批量校准：重新思考上下文学习与提示工程中的校准方法**  \n*周翰、万星晨、列夫·普罗列耶夫、黛安娜·明库、陈继林、凯瑟琳·海勒、苏布拉吉特·罗伊*  \nICLR 2024. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17249)]  \n2024年1月24日\n\n**大型语言模型知道自己不知道什么吗？**  \n*殷张悦、孙秋实、郭启鹏、吴嘉文、邱锡鹏、黄轩静*  \narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18153)]  \n2023年5月29日\n\n**只需请求校准：从经人类反馈微调的语言模型中提取校准置信度分数的策略**  \n*凯瑟琳·田、埃里克·米切尔、艾伦·周、阿奇特·夏尔马、拉斐尔·拉法伊洛夫、姚华秀、切尔西·芬恩、克里斯托弗·D·曼宁*  \narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14975)]  \n2023年5月24日\n\n**迈向可靠的虚假信息缓解：泛化能力、不确定性与GPT-4**  \n*凯林·佩尔赖恩、梅丽娜·雷克索普罗佐、卡莱布·古普塔、乔尔·克里斯托夫、雷哈内·拉巴尼*  \narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14928)]  \n2023年5月24日\n\n**校准式语义解析：语义解析中的置信度估计**  \n*伊利亚斯·斯滕格尔-埃斯金、本杰明·范杜尔姆*  \narXiv 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.07443)] [[GitHub](https:\u002F\u002Fgithub.com\u002Festeng\u002Fcalibration_miso)]  \n2022年11月14日\n\n**序列似然的校准可提升条件语言生成性能**  \n*赵瑶、米沙·卡尔曼、里沙布·乔希、沙希·纳拉扬、穆罕默德·萨利赫、彼得·J·刘*  \nICLR 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00045)]  \n2022年9月30日\n\n**校准式选择性分类**  \n*亚当·菲什、汤米·雅各拉、雷吉娜·巴尔齐莱*  \nTMLR 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.12084)]  \n2022年8月25日\n\n**通过语言校准降低对话式智能体的过度自信**  \n*萨布丽娜·J·米尔克、阿瑟·兹拉姆、艾米莉·迪南、Y-Lan 布罗欧*  \nNAACL 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.14983)]  \n2022年6月22日\n\n**重新审视校准：以问答任务为例**  \n*程磊·思、赵晨、徐源敏、乔丹·博伊德-格雷伯*  \nEMNLP 2022 Findings. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12507)]  \n2022年5月25日\n\n**基于不确定性的协作式神经符号图语义解析**  \n*林子、刘耶利米、尚景波*  \nACL Findings 2022. [[论文](https:\u002F\u002Faclanthology.org\u002F2022.findings-acl.328.pdf)]  \n2022年5月22日\n\n**面向不确定性的机器翻译评估**  \n*泰西娅·格鲁什科娃、克里苏拉·泽尔瓦、里卡多·雷伊、安德烈·F·T·马丁斯*  \nEMNLP 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.06352)]  \n2021年9月13日\n\n**使用前先校准：提升语言模型的小样本性能**  \n*托尼·Z·赵、埃里克·华莱士、冯诗、丹·克莱因、萨米尔·辛格*  \nICML 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.09690)][[GitHub](https:\u002F\u002Fgithub.com\u002Ftonyzhaozh\u002Ffew-shot-learning)]  \n2021年2月19日\n\n**我们如何判断语言模型是否真正理解？关于语言模型在问答任务中的校准问题**  \n*江正宝、荒木淳、丁海波、格雷厄姆·纽比格*  \nTACL 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.00955)][[GitHub](https:\u002F\u002Fgithub.com\u002Fjzbjyb\u002Flm-calibration)]  \n2020年12月2日\n\n**预训练Transformer模型的校准**  \n*施雷·戴赛、格雷格·杜雷特*  \nEMNLP 2020. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2003.07892)][[GitHub](https:\u002F\u002Fgithub.com\u002Fshreydesai\u002Fcalibration)]  \n2020年5月17日\n\n### 模糊性\n\n**澄清树：利用检索增强型大型语言模型回答模糊问题**  \n*金刚宇、金成东、全炳国、朴俊硕、姜在宇*  \nEMNLP 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14696)][[GitHub](https:\u002F\u002Fgithub.com\u002Fgankim\u002Ftree-of-clarifications)]  \n2023年10月23日\n\n**有选择地回答模糊问题**  \n*杰里米·R·科尔、迈克尔·J.Q·张、丹尼尔·吉利克、朱利安·马丁·艾森施洛斯、布万·丁格拉、雅各布·艾森斯坦*  \narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14613)]  \n2023年5月24日\n\n**我们担心语言模型并未对模糊性建模**  \n*阿丽莎·刘、吴兆峰、朱利安·迈克尔、阿拉妮·苏尔、彼得·韦斯特、亚历山大·科勒、斯瓦布哈·斯瓦亚姆迪普塔、诺亚·A·史密斯、叶津·崔*  \narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14399v1)][[GitHub](https:\u002F\u002Fgithub.com\u002Falisawuffles\u002Fambient)]  \n2023年4月24日\n\n**人类与语言模型中的任务模糊性**  \n*亚历克斯·塔姆金、库纳尔·汉达、阿瓦什·谢什塔、诺亚·古德曼*  \nICLR 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10711)][[GitHub](https:\u002F\u002Fgithub.com\u002Falextamkin\u002Factive-learning-pretrained-models)]  \n2022年12月20日\n\n**CLAM：利用生成式语言模型对模糊问题进行选择性澄清**  \n*洛伦茨·库恩、亚林·加尔、塞巴斯蒂安·法夸尔*  \narXiv 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.07769)]  \n2022年12月15日\n\n**如何应对对话式搜索中的模糊查询：技术、方法、工具及挑战综述**  \n*基米亚·凯万、黄吉祥·吉米*  \nACM Computing Survey, 2022. [[论文](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3534965)]  \n2022年12月7日\n\n**大型语言模型辅助服务**  \n*德米特里·克拉舍宁尼科夫、叶戈尔·克拉舍宁尼科夫、大卫·克鲁格*  \nNeurIPS MLSW Workshop 2022. [[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=OE9V81spp6B)]  \n2022年12月5日\n\n**鸡为什么穿过马路？重述与分析VQA中的模糊问题**  \n*伊利亚斯·斯滕格尔-埃斯金、希梅娜·瓜亚尔-布拉斯科、周毅、本杰明·范杜尔姆*  \narXiv 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.07516)][[GitHub](https:\u002F\u002Fgithub.com\u002Festeng\u002Fambiguous_vqa)]  \n2022年11月14日\n\n**Abg-CoQA：澄清对话式问答中的模糊性**  \n*郭美琪、张明达、西瓦·雷迪、马利赫·阿利哈尼*  \nAKBC 2021. [[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=SlDZ1o8FsJU)]  \n2021年6月22日\n\n### 信心\n\n\n**大型语言模型中的信心-能力差距：一项认知研究** \\\n*阿尼凯特·库马尔·辛格、苏曼·德夫科塔、比沙尔·拉米恰内、乌塔姆·达卡尔、钱德拉·达卡尔* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.16145)] \\\n2023年9月28日 \n\n**团结就是力量：通过提示一致性估计大型语言模型的信心** \\\n*格温西斯·波蒂略·怀特曼、亚历山德拉·德卢西亚、马克·德雷兹* \\\nACL TrustNLP研讨会 2023年。[[论文](https:\u002F\u002Faclanthology.org\u002F2023.trustnlp-1.28\u002F)] \\\n2023年7月1日 \n\n\n**有哪些不同的方法可以检测由ChatGPT等LLM生成的内容？它们是如何工作并相互区别的？** \\\n*塞巴斯蒂安·拉斯奇卡* \\\n[[链接](https:\u002F\u002Fsebastianraschka.com\u002Fblog\u002F2023\u002Fdetect-ai.html)] [[GPTZero](https:\u002F\u002Fgptzero.me\u002F)] \\\n2023年2月1日 \n\n**DetectGPT：基于概率曲率的零样本机器生成文本检测** \\\n*埃里克·米切尔、李允浩、亚历山大·哈扎茨基、克里斯托弗·D·曼宁、切尔西·芬恩* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.11305v1)][[网站](https:\u002F\u002Fericmitchell.ai\u002Fdetectgpt\u002F)] \\\n2023年1月26日 \n\n**自信自适应语言建模** \\\n*塔尔·舒斯特、亚当·菲施、贾伊·古普塔、莫斯塔法·德赫加尼、达拉·巴赫里、文·Q·特兰、易泰、唐纳德·梅茨勒* \\\nNeurIPS 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.07061)]\n2022年10月25日 \n\n**共形风险控制** \\\n*阿纳斯塔西奥斯·N·安杰洛普洛斯、斯蒂芬·贝茨、亚当·菲施、李丽华、塔尔·舒斯特* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.02814)][[Github](https:\u002F\u002Fgithub.com\u002Faangelopoulos\u002Fconformal-risk)] \\\n2022年8月4日 \n\n\n### 主动学习 \n\u003C!-- > https:\u002F\u002Fgithub.com\u002Fbaifanxxx\u002Fawesome-active-learning\u002Fblob\u002Fmain\u002FREADME.md -->\n\n\n**自然语言处理中主动学习的综述** \\\n*张志松、艾玛·斯特鲁贝尔、爱德华·霍维* \\\nEMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.10109)][[Github](https:\u002F\u002Fgithub.com\u002Fzzsfornlp\u002Fzmsp)] \\\n2022年10月18日 \n\n\n**大型语言模型的思维链主动提示** \\\n*刁世哲、王鹏程、林勇、张彤* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12246)][[Github](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002Factive-prompt)] \\\n2023年2月23日 \n\n\n**用于微调语言模型的低资源交互式主动标注** \\\n*前川诚司、张丹、韩娜·金、萨贾杜尔·拉赫曼、埃斯特万·赫鲁什卡* \\\nEMNLP Findings 2022年。[[论文](https:\u002F\u002Faclanthology.org\u002F2022.findings-emnlp.235\u002F)] \\\n2022年12月7日 \n\n**利用域外数据能否减少标注量？少样本指令下的主动与迁移学习** \\\n*拉法尔·科切利尼克、萨拉·康加斯拉赫蒂、施里迈·普拉布莫耶、米娜·哈里、R·迈克尔·阿尔瓦雷斯、阿尼玛·阿南德库马尔* \\\nNeurIPS研讨会 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.11798)] \\\n2022年11月21日 \n\n\n**AfroLM：基于自我主动学习的多语言预训练语言模型，适用于23种非洲语言** \\\n*博纳文图尔·F·P·多苏、阿特纳福·兰贝博·通贾、奥琳·优素福、萨洛梅·奥塞伊、阿比盖尔·奥蓬、伊亚努卢瓦·绍德、奥卢瓦布萨约·奥卢芬克·阿沃约米、克里斯·奇嫩耶·埃梅祖* \\\nEMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.03263)][[Github](https:\u002F\u002Fgithub.com\u002Fbonaventuredossou\u002Fmlm_al)] \\\n2022年11月7日 \n\n**主动学习有助于预训练模型学习预期任务** \\\n*亚历克斯·塔姆金、达特·范·阮、萨利尔·德什潘德、杰西·穆、诺亚·古德曼* \\\nNeurIPS 2022年。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=0Ww7UVEoNue)][[Github](https:\u002F\u002Fgithub.com\u002Falextamkin\u002Factive-learning-pretrained-models)] \\\n2022年10月31日 \n\n**选择性标注使语言模型成为更好的少样本学习者** \\\n*苏洪进、笠井纯悟、陈亨利·吴、史伟嘉、王天禄、辛佳怡、张睿、玛丽·奥森多夫、卢克·泽特勒莫耶、诺亚·A·史密斯、陶宇* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.01975)][[Github](https:\u002F\u002Fgithub.com\u002Fhkunlp\u002Ficl-selective-annotation)] \\\n2022年9月5日 \n\n\n**面向预训练Transformer模型的多任务主动学习** \\\n*盖伊·罗特曼、罗伊·莱查特* \\\nTACL 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.05379)] [[Github](https:\u002F\u002Fgithub.com\u002Frotmanguy\u002Fmtal)]\\\n2022年8月10日 \n\n**AcTune：基于不确定性的主动自训练，用于预训练语言模型的主动微调** \\\n*岳宇、孔令凯、张洁宇、张荣志、张超* \\\nNAACL-HLT2022年。[[论文](https:\u002F\u002Faclanthology.org\u002F2022.naacl-main.102\u002F)] [[Github](https:\u002F\u002Fgithub.com\u002Fyueyu1030\u002Factune)]\\\n2022年7月10日 \n\n**迈向计算上可行的深度主动学习** \\\n*阿金·茨维贡、阿特姆·谢尔马诺夫、格列布·库兹明、列昂尼德·萨诺奇金、达尼尔·拉里奥诺夫、格列布·古谢夫、曼韦尔·阿韦季相、列昂尼德·朱科夫* \\\nNAACL 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03598)] [[Github](https:\u002F\u002Fgithub.com\u002Fairi-institute\u002Fal_nlp_feasible)] \\\n2022年5月7日 \n\n**FAMIE：用于多语言信息抽取的快速主动学习框架** \\\n*阮明凡、吴义中、博南敏、阮天友* \\\nNAACL 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.08316)] [[Github](https:\u002F\u002Fgithub.com\u002Fnlp-uoregon\u002Ffamie)] \\\n2022年2月16日 \n\n\n**关于有效调整预训练语言模型以适应主动学习的重要性** \\\n*卡捷琳娜·玛尔加蒂娜、洛伊克·巴拉尔、尼古拉奥斯·阿莱特拉斯* \\\nACL 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08320v2)] \\\n2022年3月2日 \n\n**深度Transformer语言模型主动学习的局限性** \\\n*迈克·达西、道格·道尼* \\\nArxiv 2022年。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=Q8OjAGkxwP5)] \\\n2022年1月28日 \n\n**通过获取对比示例进行主动学习** \\\n*卡捷琳娜·玛尔加蒂娜、乔治·维尔尼科斯、洛伊克·巴拉尔、尼古拉奥斯·阿莱特拉斯* \\\nEMNLP 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.03764)][[Github](https:\u002F\u002Fgithub.com\u002Fmourga\u002Fcontrastive-active-learning)] \\\n2021年9月8日\n\n\n**重新审视基于不确定性查询策略的Transformer主动学习** \\\n*克里斯托弗·施罗德、安德烈亚斯·尼克勒、马丁·波塔斯特* \\\nACL 2022年成果。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.05687)][[Github](https:\u002F\u002Fgithub.com\u002Fwebis-de\u002Facl22-revisiting-uncertainty-based-query-strategies-for-active-learning-with-transformers)]  \\\n2021年7月12日 \n\n**使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习** \\\n*阿特姆·谢尔马诺夫、德米特里·普济列夫、柳博芙·库普里亚诺娃、丹尼斯·别利亚科夫、达尼尔·拉里奥诺夫、尼基塔·赫罗莫夫、奥尔加·科兹洛娃、叶卡捷琳娜·阿特莫娃、德米特里·V·迪洛夫、亚历山大·潘琴科* \\\nEACL 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.08133)] \\\n2021年2月18日 \n\n**通过主动学习对BERT进行微调，以实现低资源自然语言理解** \\\n*丹尼尔·格里斯哈伯、约翰内斯·毛彻、武玉堂* \\\nCOLING 2020年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.02462)] \\\n2020年12月4日\n\n\n## 可靠性\n\n### 幻觉\n> [精彩的幻觉检测资源](https:\u002F\u002Fgithub.com\u002FEdinburghNLP\u002Fawesome-hallucination-detection)\n\n**DRIFT：用于事实真实性的表征不一致性检测** \\\n*罗汉·巴特纳加尔、孙佑然、张驰安德鲁、温奕欣、杨海钊* \\\narXiv 2026. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.14210)] \\\n2026年1月24日\n\n**HallusionBench：大型视觉-语言模型中纠缠的语言幻觉与视觉错觉的高级诊断工具集** \\\n*关天睿\\*、刘福晓\\*、吴西阳、鲜瑞琪、李宗霞、刘晓宇、王锡俊、陈立昌、黄富荣、亚塞尔·亚库布、迪内什·马诺查、周天一* \\\nCVPR 2024. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.14566)][[GitHub](https:\u002F\u002Fgithub.com\u002Ftianyi-lab\u002FHallusionBench)] \\\n2024年3月18日\n\n**SAC$`^3`$：基于语义感知交叉检验一致性的黑盒语言模型可靠幻觉检测** \\\n*张佳鑫、李卓航、卡玛莉卡·达斯、布拉德利·A·马林、斯里查兰·库马尔* \\\nEMNLP 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.01740)][[GitHub](https:\u002F\u002Fgithub.com\u002Fintuit\u002Fsac3)] \\\n2023年11月3日\n\n**幻觉排行榜** \\\n*Vectara* \\\n[[链接](https:\u002F\u002Fgithub.com\u002Fvectara\u002Fhallucination-leaderboard)] \\\n2023年11月2日\n\n**超越事实性：大型语言模型作为知识生成器的全面评估** \\\n*陈亮、邓洋、卞亚涛、秦泽宇、吴炳哲、蔡增生、黄锦辉* \\\nEMNLP 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.07289)][[GitHub](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FCONNER)] \\\n2023年10月12日\n\n**验证链减少大型语言模型中的幻觉** \\\n*谢赫扎德·杜利亚瓦拉、莫杰塔巴·科梅伊利、徐静、罗伯塔·赖莱阿努、李贤、阿斯莉·切利基尔马兹、杰森·韦斯顿* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11495)] \\\n2023年9月20日\n\n**语言模型是否知道自己在编造引用？** \\\n*阿尤什·阿格拉瓦尔、莱斯特·麦基、亚当·陶曼·卡拉伊* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18248)] \\\n2023年5月29日。\n\n**大型语言模型的自相矛盾式幻觉：评估、检测与缓解** \\\n*尼尔斯·明德勒、何京轩、斯洛博丹·延科、马丁·韦切夫* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15852)] \\\n2023年5月25日\n\n**为什么ChatGPT在提供真实答案方面表现欠佳？** \\\n*郑申、黄洁、凯文·陈传昌* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.10513)] \\\n2023年5月24日\n\n**语言模型幻觉如何滚雪球式增长** \\\n*穆鲁·张、奥菲尔·普雷斯、威廉·梅里尔、艾丽莎·刘、诺亚·A·史密斯* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13534)] \\\n2023年5月22日\n\n**LM vs LM：通过交叉检验检测事实性错误** \\\n*罗伊·科恩、梅·哈姆里、莫尔·格瓦、阿米尔·格洛伯森* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13281)] \\\n2023年5月22日\n\n**HaluEval：大型语言模型的大规模幻觉评估基准** \\\n*李俊毅、程晓雪、赵新伟、聂建云、温继荣* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11747)] \\\n2023年5月19日\n\n**SelfCheckGPT：面向生成式大型语言模型的零资源黑盒幻觉检测** \\\n*波萨维·马纳库尔、阿迪安·刘西、马克·J·F·盖尔斯* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08896)][[GitHub](https:\u002F\u002Fgithub.com\u002Fpotsawee\u002Fselfcheckgpt)] \\\n2023年3月8日\n\n**核对事实并重试：利用外部知识和自动化反馈改进大型语言模型** \\\n*彭宝林、米歇尔·加利、何鹏程、成浩、谢宇嘉、胡宇、黄秋源、拉斯·利登、周宇、陈伟竹、高剑锋* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12813)] \\\n2023年2月23日\n\n**RHO (ρ)：通过知识 grounding 减少开放域对话中的幻觉** \\\n*季子威、刘子涵、李娜妍、于铁铮、布莱恩·威利、曾敏、冯培思* \\\narXiv 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.01588)] \\\n2022年12月3日\n\n**FaithDial：信息查询型对话的真实基准测试** \\\n*努哈·德齐里、埃桑·卡马卢、西万·米尔顿、奥斯马尔·扎伊内、莫·余、爱德华多·M·蓬蒂、希瓦·雷迪* \\\nTACL 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.10757)] \\\n2022年4月22日\n\n**自然语言生成中的幻觉综述** \\\n*季子威、李娜妍、丽塔·弗里斯克、于铁铮、苏丹、许燕、石井悦子、方艺珍、戴文良、安德烈娅·马多托、冯培思* \\\narXiv 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.03629)] \\\n2022年2月8日\n\n### 真实性\n\n**TruthX：通过在真实空间中编辑大型语言模型来缓解幻觉** \\\n*张绍磊、田宇、冯洋* \\\narXiv 2024. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17811)][[GitHub](https:\u002F\u002Fgithub.com\u002Fictnlp\u002FTruthX)] \\\n2024年2月27日\n\n**推理时干预：从语言模型中获取真实答案** \\\n*肯尼思·李、欧姆·帕特尔、费尔南达·维加斯、汉斯彼得·普菲斯特、马丁·瓦滕贝格* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03341)][[GitHub](https:\u002F\u002Fgithub.com\u002Flikenneth\u002Fhonest_llama)] \\\n2023年6月6日\n\n**LLM 的内部状态知道它何时在撒谎** \\\n*阿莫斯·阿扎里亚、汤姆·米切尔* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13734)] \\\n2023年4月26日\n\n**TruthfulQA：衡量模型如何模仿人类的虚假陈述** \\\n*斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯* \\\nACL 2022. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.07958)][[GitHub](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FTruthfulQA)][[博客](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FPF58wEdztZFX2dSue\u002Fhow-truthful-is-gpt-3-a-benchmark-for-language-models)] \\\n2021年9月8日\n\n**诚实 AI：开发与治理不撒谎的 AI** \\\n*欧文·埃文斯、欧文·科顿-巴拉特、卢卡斯·芬维登、亚当·贝尔斯、阿维塔尔·巴尔维特、彼得·威尔斯、卢卡·里盖蒂、威廉·桑德斯* \\\narXiv 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.06674)][[博客](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FaBixCPqSnTsPsTJBQ\u002Ftruthful-ai-developing-and-governing-ai-that-does-not-lie)] \\\n2021年10月13日\n\n**通过语义一致性衡量大型语言模型的可靠性** \\\n*哈什·拉杰、多梅尼克·罗萨蒂、苏巴布拉塔·马朱姆达尔* \\\nNeurIPS 2022 机器学习安全研讨会. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.05853)] \\\n2022年11月10日\n\n### 推理\n\n**REFINER：中间表示的推理反馈**  \n*Debjit Paul、Mete Ismayilzada、Maxime Peyrard、Beatriz Borges、Antoine Bosselut、Robert West、Boi Faltings*  \narXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.01904)]  \n2023年4月4日  \n\n**OpenICL：一种用于上下文学习的开源框架**  \n*吴振宇、王耀翔、叶嘉诚、冯江涛、徐晶晶、乔宇、吴志勇*  \narXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.02913)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fshark-nlp\u002Fopenicl)]  \n2023年3月6日  \n\n**基于大型语言模型和答案集编程的可靠自然语言理解**  \n*Abhiramon Rajasekharan、Yankai Zeng、Parth Padalkar、Gopal Gupta*  \narXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.03780)]  \n2023年2月7日  \n\n**自洽性提升语言模型中的思维链推理**  \n*Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery、Denny Zhou*  \nICLR 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11171)]  \n2022年3月21日  \n\n**思维链提示在大型语言模型中激发推理能力。**  \n*Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Ed Chi、Quoc Le、Denny Zhou*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)]  \n2022年1月28日  \n\n**STaR：自我训练的推理器——用推理来增强推理**  \n*Eric Zelikman、Yuhuai Wu、Noah D. Goodman*  \nNeurIPS 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465)][[GitHub](https:\u002F\u002Fgithub.com\u002Fezelikman\u002FSTaR)]  \n2022年3月28日  \n\n\n**文本推理中少样本提示解释的不可靠性**  \n*Xi Ye、Greg Durrett*  \nNeurIPS 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.03401)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fxiye17\u002FTextualExplInContext)]  \n2022年5月6日\n\n\n**语言模型中的理由增强集成方法**  \n*Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Denny Zhou*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.00747)]  \n2022年7月2日  \n\n**ReAct：在语言模型中协同推理与行动**  \n*姚顺宇、Jeffrey Zhao、Yu Dian、Du Nan、Izhak Shafran、Karthik Narasimhan、Cao Yuan*  \nICLR 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)][[GitHub](https:\u002F\u002Fgithub.com\u002Fysymyth\u002FReAct)][[项目](https:\u002F\u002Freact-lm.github.io\u002F)]  \n2022年10月6日  \n\n**再想想，还是别一步一步地想了！零样本推理中的偏见与毒性**  \n*Omar Shaikh、Hongxin Zhang、William Held、Michael Bernstein、Diyi Yang*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08061)]  \n2022年12月15日  \n\n**关于提升语言模型推理能力的进展**  \n*Yifei Li、Zeqi Lin、Shizhuo Zhang、Qiang Fu、Bei Chen、Jian-Guang Lou、Weizhu Chen*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02336)][[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FCodeT)]  \n2022年6月6日  \n\n**问我任何问题：一种简单的语言模型提示策略**  \n*Simran Arora、Avanika Narayan、Mayee F. Chen、Laurel Orr、Neel Guha、Kush Bhatia、Ines Chami、Frederic Sala、Christopher Ré*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02441)][[GitHub](https:\u002F\u002Fgithub.com\u002FHazyResearch\u002Fama_prompting)]  \n2022年10月5日  \n\n**MathPrompter：利用大型语言模型进行数学推理**  \n*Shima Imani、Liang Du、Harsh Shrivastava*  \narXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05398)]  \n2023年3月4日  \n\n**基于复杂度的多步推理提示方法**  \n*Yao Fu、Hao Peng、Ashish Sabharwal、Peter Clark、Tushar Khot*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.00720)][[GitHub](https:\u002F\u002Fgithub.com\u002FFranxYao\u002FComplexity-Based-Prompting)]  \n2022年10月3日  \n\n**衡量并缩小语言模型中的组合性差距**  \n*Ofir Press、Muru Zhang、Sewon Min、Ludwig Schmidt、Noah A. Smith、Mike Lewis*  \narXiv 2022。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03350)][[GitHub](https:\u002F\u002Fgithub.com\u002Fofirpress\u002Fself-ask)]  \n2022年10月7日  \n\n**针对知识密集型多步问题，将检索与思维链推理交织结合**  \n*Harsh Trivedi、Niranjan Balasubramanian、Tushar Khot、Ashish Sabharwal*  \narXiv 2023。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10509)][[GitHub](https:\u002F\u002Fgithub.com\u002FStonyBrookNLP\u002Fircot)]  \n2022年12月20日\n\n### 提示微调、优化与设计\n\n\u003C!-- **你的提示就是我的命令** -->\n\n\n**大型语言模型作为优化器** \\\n*杨承润、王雪芝、陆一峰、刘瀚骁、Quoc V. Le、周登恩、陈欣云* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03409)] \\\n2023年9月7日 \n\n**InstructZero：针对黑盒大型语言模型的高效指令优化** \\\n*陈立昌、陈久海、汤姆·戈德斯坦、黄恒、周天一* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03082)] [[GitHub](https:\u002F\u002Fgithub.com\u002Flichang-chen\u002Finstructzero)] \\\n2023年6月5日 \n\n**Promptboosting：仅需十次前向传播的黑盒文本分类** \\\n*侯百瑞、乔·奥康纳、雅各布·安德烈亚斯、常世宇、张洋* \\\nICML 2023年。[[论文](https:\u002F\u002Fproceedings.mlr.press\u002Fv202\u002Fhou23b.html)][[GitHub](https:\u002F\u002Fgithub.com\u002FUCSB-NLP-Chang\u002FPromptBoosting)] \\\n2023年1月23日 \n\n**GrIPS：基于编辑的无梯度指令搜索，用于大型语言模型提示工程** \\\n*阿奇基·普拉萨德、彼得·哈斯、周翔、莫希特·班萨尔* \\\nEACL 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07281)][[GitHub](https:\u002F\u002Fgithub.com\u002Farchiki\u002Fgrips)] \\\n2022年3月14日 \n\n**RLPrompt：利用强化学习优化离散文本提示** \\\n*邓明凯、王建宇、谢承平、王怡涵、郭汉、舒天敏、宋萌、Eric P. Xing、胡志婷* \\\nEMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12548)][[GitHub](https:\u002F\u002Fgithub.com\u002Fmingkaid\u002Frl-prompt)] \\\n2022年5月25日 \n\n**预训练语言模型的黑盒提示学习** \\\n*刁仕哲、黄志超、徐睿嘉、李学春、林勇、周晓、张彤* \\\nTMLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.08531)][[GitHub](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002FBlack-Box-Prompt-Learning)] \\\n2022年1月22日 \n\n**面向语言模型即服务的黑盒微调** \\\n*孙天翔、邵云帆、钱洪、黄宣静、邱锡鹏* \\\nICML 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.03514)][[GitHub](https:\u002F\u002Fgithub.com\u002Ftxsun1997\u002FBlack-Box-Tuning)]\\\n2022年1月10日 \n\n**BBTv2：迈向无梯度的大型语言模型未来** \\\n*孙天翔、何正福、钱洪、周云华、黄宣静、邱锡鹏* \\ \nEMNLP 2022年。[[论文](https:\u002F\u002Faclanthology.org\u002F2022.emnlp-main.259\u002F)] [[GitHub](https:\u002F\u002Fgithub.com\u002Ftxsun1997\u002FBlack-Box-Tuning)] \\\n2022年12月7日 \n\n\n**大型语言模型中的自动思维链提示生成** \\\n*张卓胜、张 Aston、李沐、Alex Smola*\\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03493)][[GitHub](https:\u002F\u002Fgithub.com\u002Famazon-science\u002Fauto-cot)]\\\n2022年10月7日\n\n**基于标注数据的思维链自动提示增强与选择** \\\n*Shum KaShun、刁仕哲、张彤*\\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12822)][[GitHub](https:\u002F\u002Fgithub.com\u002Fshizhediao\u002Fautomate-cot)]\\\n2023年2月24日 \n\n**大型语言模型是人类级别的提示工程师** \\\n*周永超、Andrei Ioan Muresanu、韩子文、Keiran Paster、Silviu Pitis、Harris Chan、Jimmy Ba* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.01910)][[GitHub](https:\u002F\u002Fgithub.com\u002Fkeirp\u002Fautomatic_prompt_engineer)] \\\n2022年11月3日 \n\n**奇妙有序的提示及其寻找方法：克服少样本提示顺序敏感性** \\\n*卢瑶、马克斯·巴托洛、阿拉斯泰尔·摩尔、塞巴斯蒂安·里德尔、蓬图斯·斯滕内托普* \\\nACL 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08786)] \n\n**面向上下文学习的主动示例选择** \\\n*张一鸣、冯诗、谭晨浩* \\\nEMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.04486)][[GitHub](https:\u002F\u002Fgithub.com\u002FChicagoHAI\u002Factive-example-selection)] \\\n2022年11月8日 \n\n**选择性标注使语言模型成为更好的少样本学习者** \\\n*苏宏锦、笠井纯悟、吴亨利、史伟佳、王天禄、辛佳怡、张锐、玛丽·奥斯滕多夫、卢克·泽特勒莫耶、诺亚·A·史密斯、余涛* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.01975)][[GitHub](https:\u002F\u002Fgithub.com\u002FHKUNLP\u002Ficl-selective-annotation)]\\\n2022年9月5日 \n\n**为上下文学习学习检索提示** \\\n*欧哈德·鲁宾、乔纳森·赫尔齐格、乔纳森·贝兰特* \\\nNAACL-HLT 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.08633)][[GitHub](https:\u002F\u002Fgithub.com\u002FOhadRubin\u002FEPR)] \\\n2021年12月16日\n\n\n### 指令与RLHF \n\n**LaMini-LM：大规模指令蒸馏得到的多样化模型集合** \\\n*吴明浩、Abdul Waheed、张驰宇、Muhammad Abdul-Mageed、Alham Fikri Aji* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14402)][[GitHub](https:\u002F\u002Fgithub.com\u002Fmbzuai-nlp\u002Flamini-lm)] \\\n2023年4月27日 \n\n**Self-Refine：基于自我反馈的迭代精炼** \\\n*阿曼·马丹、尼凯特·坦东、普拉卡·古普塔、斯凯勒·哈利南、高璐瑜、莎拉·维格雷夫、乌里·阿隆、努哈·德齐里、施里迈·普拉布莫耶、杨一鸣、肖恩·韦莱克、博迪萨特瓦·普拉萨德·马朱姆达尔、沙尚克·古普塔、阿米尔·亚兹丹巴赫什、彼得·克拉克* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651)][[GitHub](https:\u002F\u002Fgithub.com\u002Fmadaan\u002Fself-refine)] [[网站](https:\u002F\u002Fselfrefine.info\u002F)] \\\n2023年3月30日 \n\n\n**提示就是全部吗？不是。关于指令学习的全面而更广阔的视角** \\\n*Lou Renze、Zhang Kai、Yin Wenpeng* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.10475)][[GitHub](https:\u002F\u002Fgithub.com\u002FRenzeLou\u002Fawesome-instruction-learning)] \\\n2023年3月18日  \n\n**Self-Instruct：通过自动生成的指令对齐语言模型** \\\n*王一众、科迪·叶加内、米什拉·斯瓦鲁普、刘爱丽丝、诺亚·A·史密斯、哈沙比·丹尼尔、哈吉希尔齐·汉娜内* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10560)][[GitHub](https:\u002F\u002Fgithub.com\u002Fyizhongw\u002Fself-instruct)] \\\n2022年12月20日 \n\n\n**宪法式AI：来自AI反馈的无害性** \\\n*白云涛等（Anthropic）* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073)] \\\n2022年12月15日 \n\n**用模型编写的评估发现语言模型行为** \\\n*伊桑·佩雷斯等人* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09251)] \\\n2022年12月19日 \n\n**上下文指令学习** \\\n*Ye Seonghyeon、Hwang Hyeonbin、Yang Sohee、Yun Hyeongu、Kim Yireun、Seo Minjoon* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14691)][[GitHub](https:\u002F\u002Fgithub.com\u002Fseonghyeonye\u002FICIL)]\\\n2023年2月28日\n\n### 工具与外部API\n\n**通过少样本提示增强互联网的语言模型，用于开放域问答**  \\\n*安杰莉基·拉扎里杜、叶莲娜·格里博夫斯卡娅、沃伊切赫·斯托科维茨、尼古拉·格里戈列夫* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.05115)] \\\n2023年3月10日 \n\n**思维链提示：在数值推理任务中将计算与推理解耦** \\\n*陈文虎、马学光、王欣怡、威廉·W·科恩* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.12588)][[GitHub](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FProgram-of-Thoughts)]\\\n2022年11月22日 \n\n**PAL：程序辅助语言模型** \\\n*高璐宇、阿曼·马丹、周信义、尤里·阿隆、刘鹏飞、杨一鸣、杰米·卡兰、格雷厄姆·纽比格* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.10435)] [[GitHub](https:\u002F\u002Fgithub.com\u002Freasoning-machines\u002Fpal)] [[项目](https:\u002F\u002Freasonwithpal.com\u002F)] \\\n2022年11月18日 \n\n**TALM：工具增强型语言模型** \\\n*亚伦·帕里西、赵瑶、诺亚·菲德尔* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12255)] \\\n2022年5月24日 \n\n**Toolformer：语言模型可以自我学习使用工具** \\\n*蒂莫·希克、简·德维迪-余、罗伯托·德西、罗伯塔·赖莱努、玛丽亚·洛梅利、卢克·泽特勒莫耶、尼古拉·坎切达、托马斯·西亚洛姆* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)] \\\n2023年2月9日 \n\n\n### 微调 \n\n**逐步蒸馏！用更少的训练数据和更小的模型规模超越更大的语言模型** \\\n*谢承宇、李春良、叶志宽、胡坦·纳克霍斯特、藤井康久、亚历山大·拉特纳、兰贾伊·克里希纳、李辰宇、托马斯·普菲斯特* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02301)] \\\n2023年5月3日 \n\n\u003C!-- https:\u002F\u002Fgithub.com\u002Fshm007g\u002FLLaMA-Cult-and-More -->\n**FreeLM：无需微调的语言模型** \\\n*李翔1、姜欣、孟旭颖、孙爱新、王业泉* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.01616v1.pdf)] \\\n2023年5月2日 \n\n**用于鲁棒语言模型微调的自动化数据整理** \\\n*陈九海、乔纳斯·穆勒* \\\narXiv 2024年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12776)] \\\n2024年3月19日\n\n\n## 鲁棒性\n### 不变性 \n\n**不变语言建模** \\ \n*马克西姆·佩伊拉尔、萨尔维吉特·辛格·戈特拉、马丁·约西福斯基、维丹·阿加瓦尔、巴伦·帕特拉、迪恩·卡里甘、埃姆雷·基奇曼、罗伯特·韦斯特* \\\nEMNLP 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08413)][[GitHub](https:\u002F\u002Fgithub.com\u002Fepfl-dlab\u002Finvariant-language-models)] \\\n2021年10月16日 \n\n**通过顺序无关表示正则化实现稳健的个性化对话生成** \\\n*陈亮、王洪儒、邓阳、关伟昌、黄锦辉* \\\nACL 2023年成果。[[论文](https:\u002F\u002Faclanthology.org\u002F2023.findings-acl.462)][[GitHub](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FORIG)] \\\n2023年5月22日\n\n\n\n### 分布偏移\n\n**探索大型语言模型在代码分析中的分布偏移** \\\n*舒珊·阿拉凯良、洛克提姆·焦蒂·达斯、毛毅、任翔* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09128)] \\\n2023年3月16日 \n\n\n### 分布外 \n\n**条件语言模型的分布外检测与选择性生成** \\\n*任杰、罗家明、赵瑶、昆丹·克里希纳、穆罕默德·萨利赫、巴拉吉·拉克什米纳拉扬南、彼得·J·刘* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15558)] \\\n2022年9月30日 \n\n\n### 适应与泛化\n\n**关于预训练语言模型的领域适应与泛化：综述** \\\n*郭旭、于汉* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.03154)] \\\n2022年11月6日 \n\n### 对抗性 \n\n**前沿大型语言模型中的内部安全崩溃** \\\n*吴宇涛、张杰、张天伟、马兴军* \\\narXiv 2026年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.23509)][[GitHub](https:\u002F\u002Fgithub.com\u002Fwuyoscar\u002FISC-Bench)] \\\n2026年3月4日\n\n**PEARL：迈向对排列具有鲁棒性的大型语言模型** \\\n*陈亮、沈丽、邓阳、赵晓燕、梁斌、黄锦辉* \\\nICLR 2025年。[[论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=txoJvjfI9w)][[GitHub](https:\u002F\u002Fgithub.com\u002FChanLiang\u002FPEARL)] \\\n2025年2月27日\n\n**用文本嵌入模型的通用魔法词破解大型语言模型的安全防护** \\\n*梁浩宇、孙友然、蔡云峰、朱俊、张博* \\\narXiv 2025年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18280)] \\\n2025年1月23日\n\n**大型语言模型的对抗性攻击** \\\n*莉莲·温格*\n[[博客](https:\u002F\u002Flilianweng.github.io\u002Fposts\u002F2023-10-25-adv-attack-llm\u002F)] \\\n2023年10月25日 \n\n**PromptBench：评估大型语言模型在对抗性提示下的鲁棒性** \\\n*朱凯杰、王金东、周嘉恒、王子晨、陈浩、王一东、杨琳依、叶伟、龚振强、张悦、谢星* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.04528)][[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fpromptbench)] \\\n2023年6月7日 \n\n**从对抗性和分布外视角看ChatGPT的鲁棒性** \\\n*王金东、胡锡旭、侯文欣、陈浩、郑润凯、王一东、杨琳依、黄浩军、叶伟、耿秀波、焦彬鑫、张悦、谢星* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.12095)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Frobustlearn)] \\\n2023年2月22日 \n\n**自然语言处理系统的可靠性测试** \\\n*桑森·谭、沙菲克·乔蒂、凯茜·巴克ستر、阿拉兹·泰哈格、格雷戈里·A·贝内特、韩敏妍* \\\nACL-IJCNLP 2021年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.02590)] \\\n2021年5月6日\n\n\n### 归因 \n\n**归因问答：针对归因型大型语言模型的评估与建模** \\\n*伯恩德·博内特、阮庆全、帕特·维尔加、罗伊·阿哈罗尼、丹尼尔·安多尔、利维奥·巴尔迪尼·索阿雷斯、马西米利亚诺·恰拉米塔、雅各布·艾森斯坦、库兹曼·甘切夫、乔纳森·赫尔齐格、凯·辉、汤姆·克维亚特科夫斯基、贾·马、倪建谟、利埃尔尼·塞斯托赖恩·萨拉莱吉、塔尔·舒斯特、威廉·W·科恩、迈克尔·柯林斯、迪潘詹·达斯、唐纳德·梅茨勒、斯拉夫·彼得罗夫、凯莉·韦伯斯特* \\\narXiv 2022年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08037)] \\\n2022年12月15日 \n\n### 因果关系 \n\n**大型语言模型能否从相关性推断出因果关系？** \\\n*金志静、刘佳睿、吕志恒、斯宾塞·波夫、姆林玛雅·萨昌、拉达·米哈尔切亚、莫娜·迪亚布、伯恩哈德·舍尔科普夫* \\\narXiv 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05836)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fcausalnlp\u002Fcorr2cause)] \\\n2023年6月9日 \n\n\n**选择—推理：利用大型语言模型进行可解释的逻辑推理** \\\n*安东尼娅·克雷斯韦尔、默里·沙纳汉、伊琳娜·希金斯* \\\nICLR 2023年。[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.09712)] \\\n2022年5月19日\n\n**探究大型语言模型中的因果理解** \\\n*马里乌斯·霍布汉、汤姆·利伯鲁姆、大卫·赛勒* \\\nNeurIPS 2022年研讨会。[[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=st6jtGdW8Ke)][[博客](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FyZb5eFvDoaqB337X5\u002Finvestigating-causal-understanding-in-llms)] \\\n2022年10月3日 \n\n\n\u003C!-- 博客 https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F608856445  -->\n\n\u003C!-- > 新的指标来评估提示 -->\n\n\n\n\u003C!-- ## 安全\n\n### 偏见与公平\n> 更多论文可通过 https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fawesome-fairness-papers 查看\n\n**对抗偏见的逻辑：文本蕴涵能够缓解刻板印象式的句子推理** \\\n*Hongyin Luo, James Glass* \\ \nEACL 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.05670)] [[新闻][https:\u002F\u002Fnews.mit.edu\u002F2023\u002Flarge-language-models-are-biased-can-logic-help-save-them-0303]] \\\n2023年3月10日 \n\n**用有偏的尺子衡量公平性：预训练语言模型中偏见量化研究综述** \\\n*Pieter Delobelle, Ewoenam Kwaku Tokpo, Toon Calders, Bettina Berendt* \\\narXiv 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.07447)] \\\n2021年12月14日 \n\n**迈向理解与缓解语言模型中的社会偏见** \\\n*Paul Pu Liang, Chiyu Wu, Louis-Philippe Morency, Ruslan Salakhutdinov* \\\nICML 2021. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.13219)] [[GitHub](https:\u002F\u002Fgithub.com\u002Fpliang279\u002FLM_bias)] \\\n2021年6月24日 \n\n**面向大型语言模型的公平性引导少样本提示方法** \\\n*Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu* \\\narXiv 2023. [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.13217)] [[GitHub](https:\u002F\u002Fgithub.com\u002FMaHuanAAA\u002Fg_fair_prompting)]\\\n2023年3月23日\n\n\u003C!-- 改进上下文学习  -->\n\n\n\n\n\n\n\u003C!-- # 研究团队与研究人员 \n\n- [Owain Evans](https:\u002F\u002Fowainevans.github.io\u002F): 牛津大学人工智能研究助理\n- [Tong Zhang]\n -->\n \u003C!-- - [Sebastian Farquhar](https:\u002F\u002Fsebastianfarquhar.com\u002F): Deepmind,牛津  -->\n \u003C!-- [Elias Stengel-Eskin](https:\u002F\u002Festeng.github.io\u002F) -->","# Awesome-LLM-Uncertainty-Reliability-Robustness 快速上手指南\n\n**项目简介**：\n`Awesome-LLM-Uncertainty-Reliability-Robustness`（简称 **UR2-LLMs**）并非一个可直接安装的软件库或框架，而是一个**精选资源列表**。它汇集了关于大语言模型（LLM）在**不确定性**（Uncertainty）、**可靠性**（Reliability）和**鲁棒性**（Robustness）方面的论文、技术报告、教程及开源代码库。\n\n本指南旨在帮助开发者快速利用该列表中的资源，构建更可靠、更安全的 LLM 应用。\n\n---\n\n## 1. 环境准备\n\n由于本项目是资源索引，您无需为“列表本身”安装特定环境。但为了运行列表中推荐的代码库（如 `DecodingTrust`, `textflint` 等），建议准备以下基础开发环境：\n\n*   **操作系统**：Linux (Ubuntu 20.04+), macOS, 或 Windows (WSL2 推荐)\n*   **Python 版本**：3.8 或更高版本\n*   **包管理工具**：`pip` 或 `conda`\n*   **硬件要求**：\n    *   阅读论文\u002F文档：无特殊要求。\n    *   复现代码\u002F微调模型：建议配备 NVIDIA GPU (显存 16GB+ 推荐)，并安装 CUDA  toolkit。\n\n**前置依赖检查**：\n```bash\npython --version\npip --version\n```\n\n---\n\n## 2. 获取资源与安装示例项目\n\n### 步骤一：克隆资源列表\n首先获取该 Awesome 列表，以便查阅最新的论文和工具链接。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyour-target-repo\u002FAwesome-LLM-Uncertainty-Reliability-Robustness.git\ncd Awesome-LLM-Uncertainty-Reliability-Robustness\n```\n*(注：请在实际使用时替换为该项目真实的 GitHub 地址)*\n\n### 步骤二：选择并安装具体工具\n根据您的需求（如评估可靠性、检测幻觉或增强鲁棒性），从列表的 `Papers` 或 `Resources` 部分选择具体的开源项目进行安装。\n\n**示例：安装评估工具 `DecodingTrust`**\n（该项目在列表中被推荐用于全面评估 GPT 模型的可信度）\n\n```bash\n# 克隆具体项目\ngit clone https:\u002F\u002Fgithub.com\u002FAI-secure\u002FDecodingTrust.git\ncd DecodingTrust\n\n# 创建虚拟环境 (推荐)\nconda create -n trust_eval python=3.9\nconda activate trust_eval\n\n# 安装依赖 (优先使用国内镜像源加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**示例：安装鲁棒性测试工具 `textflint`**\n（用于测试模型对输入扰动的鲁棒性）\n\n```bash\npip install textflint -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n---\n\n## 3. 基本使用\n\n由于本项目是资源集合，\"使用\"意味着参考列表中的论文方法或调用子项目的 API。以下以**评估模型可靠性**为例，展示如何结合列表中的资源进行实践。\n\n### 场景：使用 `textflint` 测试模型鲁棒性\n\n假设您有一个本地运行的 LLM API，想要测试其在文本扰动下的表现。\n\n**1. 导入库并定义目标模型**\n```python\nfrom textflint.core.component import Component\nfrom textflint.task.classification import SCATransformer\nfrom textflint.input import InputSample\n\n# 定义一个简单的预测函数 (替换为您自己的模型调用逻辑)\ndef model_predict(text):\n    # 此处调用您的 LLM API\n    return \"Positive\" \n\n# 初始化转换组件 (例如：同义词替换)\ntransformer = SCATransformer()\n```\n\n**2. 生成对抗样本并评估**\n```python\n# 原始输入\nraw_text = \"The movie was fantastic and I loved it.\"\ninput_sample = InputSample(text=raw_text, target=\"Positive\")\n\n# 生成扰动数据\naugmented_samples = transformer.transform(input_sample, field='text')\n\nprint(f\"原始样本: {raw_text}\")\nfor sample in augmented_samples[:3]: # 查看前 3 个变异样本\n    print(f\"扰动后: {sample.text}\")\n    # 在实际流程中，此处应调用 model_predict(sample.text) 并对比结果一致性\n```\n\n### 场景：参考论文复现不确定性估计\n\n如果您想实现列表中提到的**不确定性估计 **(Uncertainty Estimation)：\n\n1.  在 `README.md` 的 **[Uncertainty]** 章节找到相关论文（如 *Semantic Uncertainty* 或 *Self-Consistency*）。\n2.  点击论文对应的 `[Github]` 链接进入代码仓库。\n3.  通常遵循以下通用模式：\n    ```bash\n    git clone \u003C论文对应的代码仓库链接>\n    cd \u003C仓库名>\n    pip install -e .\n    python evaluate_uncertainty.py --model_name llama-2-7b --dataset truthfulqa\n    ```\n\n---\n\n## 4. 核心资源导航\n\n在使用本列表时，请重点关注以下分类以解决具体问题：\n\n*   **检测幻觉 **(Hallucination)：查看 `Reliability` -> `Hallucination` 章节，寻找事实核查工具。\n*   **提升置信度 **(Confidence)：查看 `Uncertainty` -> `Calibration` 章节，学习如何让模型输出更准确的概率分数。\n*   **对抗攻击防御 **(Adversarial)：查看 `Robustness` -> `Adversarial` 章节，获取防御提示词注入的攻击方案。\n*   **最佳实践教程**：参考 `Resources` -> `Tutorial` 中的 *Uncertainty Estimation for Natural Language Processing* 进行系统学习。\n\n> **提示**：该列表持续更新，建议定期 `git pull` 获取最新的论文和工具链接。","某金融科技公司正在开发一款基于大模型的自动研报生成系统，要求输出内容必须事实准确且能识别数据缺失时的不确定性。\n\n### 没有 Awesome-LLM-Uncertainty-Reliability-Robustness 时\n- **幻觉频发难察觉**：模型在缺乏最新财报数据时自信地编造数字，团队缺乏有效的“不确定性估计”方法来提前预警。\n- **鲁棒性测试缺失**：面对用户输入的模糊指令或对抗性提示（如诱导性提问），系统容易输出错误逻辑，缺乏“对抗攻击”防御策略。\n- **校准机制空白**：模型输出的置信度分数与实际准确率严重脱节，高风险场景下无法判断何时需要人工介入复核。\n- **技术选型迷茫**：研发团队在海量论文中难以快速定位关于“事实一致性”和“分布外泛化”的成熟解决方案，导致项目延期。\n\n### 使用 Awesome-LLM-Uncertainty-Reliability-Robustness 后\n- **精准量化风险**：团队利用库中的“不确定性估计”论文，引入了熵值检测机制，当模型对关键财务数据犹豫时自动标记并触发人工审核。\n- **增强抗干扰能力**：参考“对抗鲁棒性”章节的方案，构建了包含噪声注入和诱导性提示的测试集，显著提升了系统在复杂输入下的稳定性。\n- **实现可靠校准**：应用“校准”技术调整模型输出概率，确保高置信度回答的真实率达到 95% 以上，建立了可信的自动放行标准。\n- **高效落地最佳实践**：通过“技术报告”和“教程”快速集成了最新的去幻觉微调和提示词优化策略，将研发周期缩短了 40%。\n\nAwesome-LLM-Uncertainty-Reliability-Robustness 将抽象的理论研究转化为具体的工程护栏，让大模型从“不可控的黑盒”变成了可信赖的生产力工具。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjxzhangjhu_Awesome-LLM-Uncertainty-Reliability-Robustness_3bd182c9.png","jxzhangjhu","Jiaxin Zhang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjxzhangjhu_e678d6db.png","AI Researcher ",null,"Mountain View","jxzhangai@gmail.com","https:\u002F\u002Fgithub.com\u002Fjxzhangjhu",816,54,"2026-04-11T19:09:31","MIT","","未说明",{"notes":91,"python":89,"dependencies":92},"该仓库是一个资源列表（Awesome List），主要收集了关于大语言模型不确定性、可靠性和鲁棒性的论文、技术报告、教程和文章链接。它本身不是一个可执行的软件工具或代码库，因此不包含具体的运行环境需求（如操作系统、GPU、内存、Python 版本或依赖库）。用户只需访问其中列出的外部链接即可阅读相关内容。",[],[15],[95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111],"awesome-list","calibration","gpt-3","gpt-4","llms","reliability","robustness","safety","uncertainty-estimation","uncertainty-quantification","chatgpt","prompt-engineering","prompting","chain-of-thought","in-context-learning","large-language-models","hallucination","2026-03-27T02:49:30.150509","2026-04-18T09:19:20.072977",[],[]]