Awesome-LLM-Uncertainty-Reliability-Robustness

816 54 非常简单 1 次阅读 6天前MIT语言模型

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-Uncertainty-Reliability-Robustness（简称 UR2-LLMs）是一个专注于大语言模型“不确定性、可靠性与鲁棒性”的精选资源库。随着大模型在各类场景中的广泛应用，其潜在的幻觉问题、事实错误以及在分布外数据上的表现不稳定已成为制约落地的关键瓶颈。该项目旨在系统性地梳理相关学术研究与技术实践，帮助社区更好地理解和解决模型“不知道自己所不知道”的困境。

该资源库涵盖了从基础入门文章、技术报告到前沿论文的全方位内容，具体包括不确定性估计、校准方法、幻觉检测、推理能力提升、对抗攻击防御以及因果归因等核心议题。通过分类整理，它为用户提供了清晰的导航，便于快速定位关于评估指标、微调策略或提示工程优化的最新成果。

非常适合 AI 研究人员、算法工程师以及对大模型安全性感兴趣的技术决策者使用。无论是希望深入探索模型可信度理论的学者，还是致力于构建高可靠应用系统的开发者，都能从中获得宝贵的参考指引。其独特的亮点在于将分散的研究点整合为结构化的知识体系，并持续更新，是进入大模型可信研究领域的优质入口。

使用场景

某金融科技公司正在开发一款基于大模型的自动研报生成系统，要求输出内容必须事实准确且能识别数据缺失时的不确定性。

没有 Awesome-LLM-Uncertainty-Reliability-Robustness 时

幻觉频发难察觉：模型在缺乏最新财报数据时自信地编造数字，团队缺乏有效的“不确定性估计”方法来提前预警。
鲁棒性测试缺失：面对用户输入的模糊指令或对抗性提示（如诱导性提问），系统容易输出错误逻辑，缺乏“对抗攻击”防御策略。
校准机制空白：模型输出的置信度分数与实际准确率严重脱节，高风险场景下无法判断何时需要人工介入复核。
技术选型迷茫：研发团队在海量论文中难以快速定位关于“事实一致性”和“分布外泛化”的成熟解决方案，导致项目延期。

使用 Awesome-LLM-Uncertainty-Reliability-Robustness 后

精准量化风险：团队利用库中的“不确定性估计”论文，引入了熵值检测机制，当模型对关键财务数据犹豫时自动标记并触发人工审核。
增强抗干扰能力：参考“对抗鲁棒性”章节的方案，构建了包含噪声注入和诱导性提示的测试集，显著提升了系统在复杂输入下的稳定性。
实现可靠校准：应用“校准”技术调整模型输出概率，确保高置信度回答的真实率达到 95% 以上，建立了可信的自动放行标准。
高效落地最佳实践：通过“技术报告”和“教程”快速集成了最新的去幻觉微调和提示词优化策略，将研发周期缩短了 40%。

Awesome-LLM-Uncertainty-Reliability-Robustness 将抽象的理论研究转化为具体的工程护栏，让大模型从“不可控的黑盒”变成了可信赖的生产力工具。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个资源列表（Awesome List），主要收集了关于大语言模型不确定性、可靠性和鲁棒性的论文、技术报告、教程和文章链接。它本身不是一个可执行的软件工具或代码库，因此不包含具体的运行环境需求（如操作系统、GPU、内存、Python 版本或依赖库）。用户只需访问其中列出的外部链接即可阅读相关内容。

python未说明

Awesome-LLM-Uncertainty-Reliability-Robustness hero image

快速开始

令人惊叹的LLM——不确定性、可靠性与鲁棒性

这个名为UR2-LLMs的仓库收录了关于大型语言模型中不确定性、可靠性和鲁棒性的相关资源与论文。

“大型语言模型具有有限的可靠性、理解力和适用范围，因此需要人类的监督。”——牛津大学工程科学系机器学习教授迈克尔·奥斯本，2023年1月25日

欢迎在此分享您在该领域的论文、思考与见解！

资源

入门文章

可控AGI的决定因素
艾伦·施马尔茨
[链接]
2025年3月3日

GPT是一个不可靠的信息存储
诺布尔·阿克森
[链接]
2023年2月20日

“滥用”大型语言模型与MT的未来
阿尔勒·洛梅尔
[链接]
2022年12月20日

大型语言模型：基础知识及其应用
玛戈·波达
[链接]
2023年2月9日

提示工程：提升响应与可靠性
彼得·福伊
[链接]
2023年3月19日

OpenAI关于提升可靠性的技术指南
OpenAI
[Github]
2023年3月18日

GPT/校准标签
格韦恩·布兰温
[链接]

提示工程
莉莲·王
[链接]

由LLM驱动的自主代理
莉莲·王
[链接]

学习提示工程中的可靠性
[链接]

为生产环境构建LLM应用
奇普·休恩
[链接]
2023年4月11日

实用、真实的神经网络可解释性与部署
艾伦·施马尔茨
[链接]
2021年12月11日

技术报告

GPT-4技术报告
OpenAI
arXiv 2023. [论文][指南]
2023年3月16日

GPT-4系统卡片
OpenAI
arXiv 2023. [论文] [Github]
2023年3月15日

教程

自然语言处理中的不确定性估计
亚当·菲什、罗宾·贾、塔尔·舒斯特
COLLING 2022. [网站]

论文

评估与调查

更宽更深的LLM网络是更公平的LLM评估者
张兴华、于博文、于海洋、吕阳宇、刘廷文、黄飞、徐洪波、李勇斌
arXiv 2023年。[论文][Github]
2023年8月3日

大型语言模型评估综述
常宇鹏、王旭、王金东、吴源、朱凯杰、陈浩、杨林义、易晓远、王存祥、王一东、叶伟、张悦、常毅、Philip S. Yu、杨强、谢星
Arxiv 2023年。[论文][Github]
2023年7月6日

DecodingTrust：GPT模型可信度的全面评估
王博欣、陈维新、裴恒志、谢楚琳、康敏通、张晨辉、许澈健、熊子迪、Ritik Dutta、Rylan Schaeffer、Sang T. Truong、Simran Arora、Mantas Mazeika、Dan Hendrycks、林子楠、程宇、Sanmi Koyejo、Dawn Song、李博
Arxiv，2023年。[论文] [Github] [网站]
2023年6月20日

我们该信任ChatGPT吗？衡量与刻画ChatGPT的可靠性
沈心悦、陈泽远、Michael Backes、张洋
arXiv，2023年。[论文]
2023年4月18日

在实践中利用LLM的力量：关于ChatGPT及更广泛领域的综述
杨景峰、金宏业、唐瑞翔、韩晓天、冯启章、蒋浩明、尹冰、胡霞
arXiv 2023年。[论文][Github]
2023年4月27日

GPT-3.5对前代模型有多稳健？一项关于语言理解任务的全面研究
陈璇婷、叶俊杰、祖灿、徐诺、郑锐、彭敏龙、周杰、桂涛、张琪、黄萱静
arXiv 2023年。[论文][Github]
2023年3月1日

语言模型的整体评估
Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro Yasunaga、Yian Zhang、Deepak Narayanan、吴宇怀、Ananya Kumar、Benjamin Newman、袁彬航、Bobby Yan、Ce Zhang、Christian Cosgrove、Christopher D. Manning、Christopher Ré、Diana Acosta-Navas、Drew A. Hudson、Eric Zelikman、Esin Durmus、Faisal Ladhak、Frieda Rong、Ren Hongyu、Yao Huaxiu、Wang Jue、Keshav Santhanam、Laurel Orr、Lucia Zheng、Mert Yuksekgonul、Mirac Suzgun、Nathan Kim、Neel Guha、Niladri Chatterji、Omar Khattab、Peter Henderson、Huang Qian、Ryan Chi、Xie Sang Michael、Santurkar Shibani、Ganguli Surya、Hashimoto Tatsunori、Icard Thomas、Zhang Tianyi、Chaudhary Vishrav、William Wang、Li Xuechen、Mai Yifan、Zhang Yuhui、Koreeda Yuta
arXiv 2022年。[论文] [网站] [Github] [博客]
2022年11月16日

提示GPT-3以提高其可靠性
司成磊、甘哲、杨正元、王硕航、王建峰、Jordan Boyd-Graber、王丽娟
ICLR 2023年。[论文] [Github]
2022年10月17日

Plex：利用预训练大模型扩展实现可靠性
Dustin Tran、Liu Jeremiah、Dusenberry Michael W.、Phan Du、Collier Mark、Ren Jie、Han Kehang、Wang Zi、Mariet Zelda、Hu Huiyi、Band Neil、Rudner Tim G. J.、Singhal Karan、Nado Zachary、van Amersfoort Joost、Kirsch Andreas、Jenatton Rodolphe、Thain Nithum、Yuan Honglin、Buchanan Kelly、Murphy Kevin、Sculley D.、Gal Yarin、Ghahramani Zoubin、Snoek Jasper、Lakshminarayanan Balaji
arXiv 2022年。[论文]
2022年7月15日

语言模型（大多）知道自己知道什么
Saurav Kadavath、Conerly Tom、Askell Amanda、Henighan Tom、Drain Dawn、Perez Ethan、Schiefer Nicholas、Hatfield-Dodds Zac、DasSarma Nova、Tran-Johnson Eli、Johnston Scott、Showk Sheer、Jones Andy、Elhage Nelson、Hume Tristan、Chen Anna、Bai Yuntao、Bowman Sam、Fort Stanislav、Ganguli Deep、Hernandez Danny、Jacobson Josh、Kernion Jackson、Kravec Shauna、Lovitt Liane、Ndousse Kamal、Olsson Catherine、Ringer Sam、Amodei Dario、Brown Tom、Clark Jack、Joseph Nicholas、Mann Ben、McCandlish Sam、Olah Chris、Kaplan Jared
arXiv 2022年。[论文]
2022年7月11日

增强型语言模型：综述
Mialon Grégoire、Dessì Roberto、Lomeli Maria、Nalmpantis Christoforos、Pasunuru Ram、Raileanu Roberta、Rozière Baptiste、Schick Timo、Yu Jane Dwivedi、Celikyilmaz Asli、Grave Edouard、LeCun Yann、Scialom Thomas
arXiv 2023年。[论文]
2023年2月15日

用于NLG系统的评估指标综述
B. Sai Ananya、Mohankumar Akash Kumar、Khapra Mitesh M.
ACM Computing Survey，2022年。[论文]
2022年1月18日

NL-Augmenter：面向任务敏感型自然语言增强的框架
多霍尔 Kaustubh D. 等
ACL 2021年。[论文][Github]
2021年12月6日

TextFlint：自然语言处理的统一多语言鲁棒性评估工具包
Gui Tao 等
arXiv 2021年。[论文][Github]
2021年3月21日

鲁棒性健身房：统一NLP评估格局
Goel Karan、Rajani Nazneen、Vig Jesse、Tan Samson、Wu Jason、Zheng Stephan、Xiong Caiming、Bansal Mohit、Ré Christopher
ACL 2021年。[论文][Github]
2021年1月13日

超越准确率：使用CheckList对NLP模型进行行为测试
Ribeiro Marco Tulio、Wu Tongshuang、Guestrin Carlos、Singh Sameer
ACL 2020年。[论文][Github]
2020年5月8日

不确定性

不确定性估计

DRIFT：检测事实真实性的表征不一致
Bhatnagar Rohan、Sun Youran、Zhang Andrew Chi、Wen Yixin、Yang Haizhao
arXiv 2026年。[论文]
2026年1月24日

BLoB：基于反向传播的大语言模型贝叶斯低秩适应
Wang Yibin、Shi Haizhou、Han Ligong、Metaxas Dimitris、Wang Hao
arXiv 2024年。[论文]
2024年6月18日

内核语言熵：基于语义相似性对LLM进行细粒度不确定性量化
Nikitin Alexander、Kossen Jannik、Gal Yarin、Marttinen Pekka
NeurIPS 2024年。[论文][Github]
2024年5月30日

LLM 的不确定性估计与量化：一种简单的监督方法
刘林宇、潘宇、李晓成、陈冠廷
arXiv 2024 年。[论文]
2024 年 4 月 24 日

MARS：面向生成式 LLM 不确定性估计的意义感知响应评分
巴克曼等人
ACL 2024。[论文]
2024 年 2 月 19 日

将注意力转向相关性：迈向大型语言模型的不确定性估计
段金浩、程浩、王世奇、亚历克斯·扎瓦尔尼、王晨安、徐仁静、巴维亚·凯尔库拉、许凯迪
arXiv 2023 年。[论文]
2023 年 10 月 9 日

三思而后行：大型语言模型不确定性度量的探索性研究
黄宇恒、宋嘉阳、王志杰、赵圣明、陈华明、费利克斯·朱菲-徐、马磊
arXiv 2023 年。[论文]
2023 年 7 月 16 日

大型语言模型自然语言解释中的不确定性量化
斯里·哈沙·坦内鲁、奇拉格·阿加瓦尔、希马宾杜·拉卡拉朱
arXiv 2023 年。[论文]
2023 年 11 月 6 日

一致性自回归生成：具有覆盖率保证的束搜索
尼古拉斯·多伊奇曼、马文·阿尔伯茨、玛丽亚·罗德里格斯·马丁内斯
arXiv 2023 年。[论文]
2023 年 9 月 7 日

量化任何语言模型答案中的不确定性并提升其可信度
陈久海、约纳斯·穆勒
arXiv 2023 年。[论文]
2023 年 8 月 30 日

自然语言生成中的不确定性：从理论到应用
乔里斯·班、尼科·达海姆、叶夫根尼娅·伊利亚、丹尼斯·乌尔默、李浩诚、拉奎尔·费尔南德斯、芭芭拉·普兰克、里科·森尼希、克里斯苏拉·泽尔瓦、威尔克·阿齐兹
arXiv 2023 年。[论文]
2023 年 7 月 28 日

自信生成：黑盒大型语言模型的不确定性量化
林震、舒本杜·特里维迪、孙继明
arXiv 2023 年。[论文] [GitHub]
2023 年 5 月 30 日

基于概念的人工智能系统中的人类不确定性
凯瑟琳·M·柯林斯、马修·巴克尔、马特奥·埃斯皮诺萨·扎尔伦加、纳文·拉曼、乌芒·巴特、马泰娅·雅姆尼克、伊利亚·苏霍卢茨基、艾德里安·韦勒、克里希纳穆提·德维乔塔姆
arXiv 2023 年。[论文]
2023 年 3 月 22 日

穿越灰色地带：语言模型中的过度自信与不确定性表达
凯特琳·周、丹·朱拉夫斯基、桥本辰典
arXiv 2023 年。[论文]
2023 年 2 月 25 日

DEUP：直接认识论不确定性预测
萨勒姆·拉赫卢、莫克什·贾因、哈迪·内科伊、维克托·伊翁·布托伊、保罗·贝尔坦、贾里德·雷克托-布鲁克斯、马克西姆·科拉布廖夫、约书亚·本吉奥
TMLR 2023 年。[论文]
2023 年 2 月 3 日

关于序列到序列图解析的组合式不确定性量化
林子、范杜、帕努蓬·帕苏帕特、刘哲·杰里迈亚、商景博
ICLR 2023 年。[论文]
2023 年 2 月 1 日

通过组合式不确定性量化实现稳健自回归图解析的神经符号推理
林子、刘哲、商景博
EMNLP 2022 年。[论文]
2023 年 1 月 16 日

教会模型用语言表达其不确定性
斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯
TMLR 2022 年。[论文] [GitHub] [TMLR] [幻灯片]
2022 年 5 月 28 日

语义不确定性：自然语言生成中用于不确定性估计的语言不变性
洛伦茨·库恩、亚林·加尔、塞巴斯蒂安·法夸尔
ICLR 2023 年。[论文]
2022 年 2 月 19 日

少样本语言模型微调的冷启动数据选择：一种基于提示的不确定性传播方法
于悦、张荣志、徐然、张洁宇、沈佳明、张超
arXiv 2022 年。[论文][GitHub]
2022 年 9 月 15 日

通过认识论神经网络微调语言模型
伊恩·奥斯班德、赛义德·穆罕默德·阿斯加里、本杰明·范·罗伊、纳特·麦卡利斯、约翰·阿斯拉尼德斯、杰弗里·欧文
arXiv 2022 年。[论文][GitHub]
2022 年 11 月 3 日

预训练语言模型的不确定性量化：一项大规模实证分析
肖宇欣、保罗·普·梁、乌芒·巴特、威利·奈斯万格、鲁斯兰·萨拉胡丁诺夫、路易斯-菲利普·莫伦西
EMNLP 2022（Findings）。[论文][GitHub]
2022 年 10 月 10 日

语言奖励模型的不确定性估计
亚当·格利夫、杰弗里·欧文
arXiv 2022 年。[论文]
2022 年 3 月 14 日

预训练文本回归模型的不确定性估计与降低
王玉霞、丹尼尔·贝克、蒂莫西·鲍德温、卡琳·维尔斯普尔
TACL 2022 年。[论文]
2022 年 6 月

自回归结构化预测中的不确定性估计
安德烈·马里宁、马克·盖尔斯
ICLR 2021 年。[论文]
2020 年 2 月 18 日

神经机器翻译的无监督质量评估
玛丽娜·福米切娃、孙硕、丽莎·扬科夫斯卡娅、弗雷德里克·布莱恩、弗朗西斯科·古斯曼、马克·菲舍尔、尼古拉奥斯·阿莱特拉斯、维什拉夫·乔杜里、露西亚·斯佩恰
TACL 2020 年。[论文][数据集]
2020 年 5 月 21 日

分析神经机器翻译中的不确定性
迈尔·奥特、迈克尔·奥利、大卫·格兰吉耶、马克’奥雷利奥·兰扎托
ICML 2018 年。[论文]
2018 年

语言模型的不确定性量化：一套黑盒、白盒、LLM 判官及集成评分器
迪伦·布夏尔、莫希特·辛格·乔汉
arXiv 2025 年。[论文][GitHub]
2025 年 4 月

校准

相似性-距离-量级通用验证
艾伦·施马尔茨
arXiv 2025. [论文] [GitHub]
2025年2月27日

仅利用大型语言模型的生成结果进行校准
丹尼斯·乌尔默、马丁·古布里、华兰·李、桑度·尹、成俊·吴
ACL 2024. [论文][GitHub][海报][幻灯片]
2024年3月9日

批量校准：重新思考上下文学习与提示工程中的校准方法
周翰、万星晨、列夫·普罗列耶夫、黛安娜·明库、陈继林、凯瑟琳·海勒、苏布拉吉特·罗伊
ICLR 2024. [论文]
2024年1月24日

大型语言模型知道自己不知道什么吗？
殷张悦、孙秋实、郭启鹏、吴嘉文、邱锡鹏、黄轩静
arXiv 2023. [论文]
2023年5月29日

只需请求校准：从经人类反馈微调的语言模型中提取校准置信度分数的策略
凯瑟琳·田、埃里克·米切尔、艾伦·周、阿奇特·夏尔马、拉斐尔·拉法伊洛夫、姚华秀、切尔西·芬恩、克里斯托弗·D·曼宁
arXiv 2023. [论文]
2023年5月24日

迈向可靠的虚假信息缓解：泛化能力、不确定性与GPT-4
凯林·佩尔赖恩、梅丽娜·雷克索普罗佐、卡莱布·古普塔、乔尔·克里斯托夫、雷哈内·拉巴尼
arXiv 2023. [论文]
2023年5月24日

校准式语义解析：语义解析中的置信度估计
伊利亚斯·斯滕格尔-埃斯金、本杰明·范杜尔姆
arXiv 2022. [论文] [GitHub]
2022年11月14日

序列似然的校准可提升条件语言生成性能
赵瑶、米沙·卡尔曼、里沙布·乔希、沙希·纳拉扬、穆罕默德·萨利赫、彼得·J·刘
ICLR 2023. [论文]
2022年9月30日

校准式选择性分类
亚当·菲什、汤米·雅各拉、雷吉娜·巴尔齐莱
TMLR 2022. [论文]
2022年8月25日

通过语言校准降低对话式智能体的过度自信
萨布丽娜·J·米尔克、阿瑟·兹拉姆、艾米莉·迪南、Y-Lan 布罗欧
NAACL 2022. [论文]
2022年6月22日

重新审视校准：以问答任务为例
程磊·思、赵晨、徐源敏、乔丹·博伊德-格雷伯
EMNLP 2022 Findings. [论文]
2022年5月25日

基于不确定性的协作式神经符号图语义解析
林子、刘耶利米、尚景波
ACL Findings 2022. [论文]
2022年5月22日

面向不确定性的机器翻译评估
泰西娅·格鲁什科娃、克里苏拉·泽尔瓦、里卡多·雷伊、安德烈·F·T·马丁斯
EMNLP 2021. [论文]
2021年9月13日

使用前先校准：提升语言模型的小样本性能
托尼·Z·赵、埃里克·华莱士、冯诗、丹·克莱因、萨米尔·辛格
ICML 2021. [论文][GitHub]
2021年2月19日

我们如何判断语言模型是否真正理解？关于语言模型在问答任务中的校准问题
江正宝、荒木淳、丁海波、格雷厄姆·纽比格
TACL 2021. [论文][GitHub]
2020年12月2日

预训练Transformer模型的校准
施雷·戴赛、格雷格·杜雷特
EMNLP 2020. [论文][GitHub]
2020年5月17日

模糊性

澄清树：利用检索增强型大型语言模型回答模糊问题
金刚宇、金成东、全炳国、朴俊硕、姜在宇
EMNLP 2023. [论文][GitHub]
2023年10月23日

有选择地回答模糊问题
杰里米·R·科尔、迈克尔·J.Q·张、丹尼尔·吉利克、朱利安·马丁·艾森施洛斯、布万·丁格拉、雅各布·艾森斯坦
arXiv 2023. [论文]
2023年5月24日

我们担心语言模型并未对模糊性建模
阿丽莎·刘、吴兆峰、朱利安·迈克尔、阿拉妮·苏尔、彼得·韦斯特、亚历山大·科勒、斯瓦布哈·斯瓦亚姆迪普塔、诺亚·A·史密斯、叶津·崔
arXiv 2023. [论文][GitHub]
2023年4月24日

人类与语言模型中的任务模糊性
亚历克斯·塔姆金、库纳尔·汉达、阿瓦什·谢什塔、诺亚·古德曼
ICLR 2023. [论文][GitHub]
2022年12月20日

CLAM：利用生成式语言模型对模糊问题进行选择性澄清
洛伦茨·库恩、亚林·加尔、塞巴斯蒂安·法夸尔
arXiv 2022. [论文]
2022年12月15日

如何应对对话式搜索中的模糊查询：技术、方法、工具及挑战综述
基米亚·凯万、黄吉祥·吉米
ACM Computing Survey, 2022. [论文]
2022年12月7日

大型语言模型辅助服务
德米特里·克拉舍宁尼科夫、叶戈尔·克拉舍宁尼科夫、大卫·克鲁格
NeurIPS MLSW Workshop 2022. [论文]
2022年12月5日

鸡为什么穿过马路？重述与分析VQA中的模糊问题
伊利亚斯·斯滕格尔-埃斯金、希梅娜·瓜亚尔-布拉斯科、周毅、本杰明·范杜尔姆
arXiv 2022. [论文][GitHub]
2022年11月14日

Abg-CoQA：澄清对话式问答中的模糊性
郭美琪、张明达、西瓦·雷迪、马利赫·阿利哈尼
AKBC 2021. [论文]
2021年6月22日

信心

大型语言模型中的信心-能力差距：一项认知研究
阿尼凯特·库马尔·辛格、苏曼·德夫科塔、比沙尔·拉米恰内、乌塔姆·达卡尔、钱德拉·达卡尔
arXiv 2023年。[论文]
2023年9月28日

团结就是力量：通过提示一致性估计大型语言模型的信心
格温西斯·波蒂略·怀特曼、亚历山德拉·德卢西亚、马克·德雷兹
ACL TrustNLP研讨会 2023年。[论文]
2023年7月1日

有哪些不同的方法可以检测由ChatGPT等LLM生成的内容？它们是如何工作并相互区别的？
塞巴斯蒂安·拉斯奇卡
[链接] [GPTZero]
2023年2月1日

DetectGPT：基于概率曲率的零样本机器生成文本检测
埃里克·米切尔、李允浩、亚历山大·哈扎茨基、克里斯托弗·D·曼宁、切尔西·芬恩
arXiv 2023年。[论文][网站]
2023年1月26日

自信自适应语言建模
塔尔·舒斯特、亚当·菲施、贾伊·古普塔、莫斯塔法·德赫加尼、达拉·巴赫里、文·Q·特兰、易泰、唐纳德·梅茨勒
NeurIPS 2022年。[论文] 2022年10月25日

共形风险控制
阿纳斯塔西奥斯·N·安杰洛普洛斯、斯蒂芬·贝茨、亚当·菲施、李丽华、塔尔·舒斯特
arXiv 2022年。[论文][Github]
2022年8月4日

主动学习

自然语言处理中主动学习的综述
张志松、艾玛·斯特鲁贝尔、爱德华·霍维
EMNLP 2022年。[论文][Github]
2022年10月18日

大型语言模型的思维链主动提示
刁世哲、王鹏程、林勇、张彤
arXiv 2023年。[论文][Github]
2023年2月23日

用于微调语言模型的低资源交互式主动标注
前川诚司、张丹、韩娜·金、萨贾杜尔·拉赫曼、埃斯特万·赫鲁什卡
EMNLP Findings 2022年。[论文]
2022年12月7日

利用域外数据能否减少标注量？少样本指令下的主动与迁移学习
拉法尔·科切利尼克、萨拉·康加斯拉赫蒂、施里迈·普拉布莫耶、米娜·哈里、R·迈克尔·阿尔瓦雷斯、阿尼玛·阿南德库马尔
NeurIPS研讨会 2022年。[论文]
2022年11月21日

AfroLM：基于自我主动学习的多语言预训练语言模型，适用于23种非洲语言
博纳文图尔·F·P·多苏、阿特纳福·兰贝博·通贾、奥琳·优素福、萨洛梅·奥塞伊、阿比盖尔·奥蓬、伊亚努卢瓦·绍德、奥卢瓦布萨约·奥卢芬克·阿沃约米、克里斯·奇嫩耶·埃梅祖
EMNLP 2022年。[论文][Github]
2022年11月7日

主动学习有助于预训练模型学习预期任务
亚历克斯·塔姆金、达特·范·阮、萨利尔·德什潘德、杰西·穆、诺亚·古德曼
NeurIPS 2022年。[论文][Github]
2022年10月31日

选择性标注使语言模型成为更好的少样本学习者
苏洪进、笠井纯悟、陈亨利·吴、史伟嘉、王天禄、辛佳怡、张睿、玛丽·奥森多夫、卢克·泽特勒莫耶、诺亚·A·史密斯、陶宇
ICLR 2023年。[论文][Github]
2022年9月5日

面向预训练Transformer模型的多任务主动学习
盖伊·罗特曼、罗伊·莱查特
TACL 2022年。[论文] [Github]
2022年8月10日

AcTune：基于不确定性的主动自训练，用于预训练语言模型的主动微调
岳宇、孔令凯、张洁宇、张荣志、张超
NAACL-HLT2022年。[论文] [Github]
2022年7月10日

迈向计算上可行的深度主动学习
阿金·茨维贡、阿特姆·谢尔马诺夫、格列布·库兹明、列昂尼德·萨诺奇金、达尼尔·拉里奥诺夫、格列布·古谢夫、曼韦尔·阿韦季相、列昂尼德·朱科夫
NAACL 2022年。[论文] [Github]
2022年5月7日

FAMIE：用于多语言信息抽取的快速主动学习框架
阮明凡、吴义中、博南敏、阮天友
NAACL 2022年。[论文] [Github]
2022年2月16日

关于有效调整预训练语言模型以适应主动学习的重要性
卡捷琳娜·玛尔加蒂娜、洛伊克·巴拉尔、尼古拉奥斯·阿莱特拉斯
ACL 2022年。[论文]
2022年3月2日

深度Transformer语言模型主动学习的局限性
迈克·达西、道格·道尼
Arxiv 2022年。[论文]
2022年1月28日

通过获取对比示例进行主动学习
卡捷琳娜·玛尔加蒂娜、乔治·维尔尼科斯、洛伊克·巴拉尔、尼古拉奥斯·阿莱特拉斯
EMNLP 2021年。[论文][Github]
2021年9月8日

重新审视基于不确定性查询策略的Transformer主动学习
克里斯托弗·施罗德、安德烈亚斯·尼克勒、马丁·波塔斯特
ACL 2022年成果。[论文][Github]
2021年7月12日

使用深度预训练模型和贝叶斯不确定性估计进行序列标注的主动学习
阿特姆·谢尔马诺夫、德米特里·普济列夫、柳博芙·库普里亚诺娃、丹尼斯·别利亚科夫、达尼尔·拉里奥诺夫、尼基塔·赫罗莫夫、奥尔加·科兹洛娃、叶卡捷琳娜·阿特莫娃、德米特里·V·迪洛夫、亚历山大·潘琴科
EACL 2021年。[论文]
2021年2月18日

通过主动学习对BERT进行微调，以实现低资源自然语言理解
丹尼尔·格里斯哈伯、约翰内斯·毛彻、武玉堂
COLING 2020年。[论文]
2020年12月4日

可靠性

幻觉

精彩的幻觉检测资源

DRIFT：用于事实真实性的表征不一致性检测
罗汉·巴特纳加尔、孙佑然、张驰安德鲁、温奕欣、杨海钊
arXiv 2026. [论文]
2026年1月24日

HallusionBench：大型视觉-语言模型中纠缠的语言幻觉与视觉错觉的高级诊断工具集
关天睿*、刘福晓*、吴西阳、鲜瑞琪、李宗霞、刘晓宇、王锡俊、陈立昌、黄富荣、亚塞尔·亚库布、迪内什·马诺查、周天一
CVPR 2024. [论文][GitHub]
2024年3月18日

SAC$^3$：基于语义感知交叉检验一致性的黑盒语言模型可靠幻觉检测
张佳鑫、李卓航、卡玛莉卡·达斯、布拉德利·A·马林、斯里查兰·库马尔
EMNLP 2023. [论文][GitHub]
2023年11月3日

幻觉排行榜
Vectara
[链接]
2023年11月2日

超越事实性：大型语言模型作为知识生成器的全面评估
陈亮、邓洋、卞亚涛、秦泽宇、吴炳哲、蔡增生、黄锦辉
EMNLP 2023. [论文][GitHub]
2023年10月12日

验证链减少大型语言模型中的幻觉
谢赫扎德·杜利亚瓦拉、莫杰塔巴·科梅伊利、徐静、罗伯塔·赖莱阿努、李贤、阿斯莉·切利基尔马兹、杰森·韦斯顿
arXiv 2023. [论文]
2023年9月20日

语言模型是否知道自己在编造引用？
阿尤什·阿格拉瓦尔、莱斯特·麦基、亚当·陶曼·卡拉伊
arXiv 2023. [论文]
2023年5月29日。

大型语言模型的自相矛盾式幻觉：评估、检测与缓解
尼尔斯·明德勒、何京轩、斯洛博丹·延科、马丁·韦切夫
arXiv 2023. [论文]
2023年5月25日

为什么ChatGPT在提供真实答案方面表现欠佳？
郑申、黄洁、凯文·陈传昌
arXiv 2023. [论文]
2023年5月24日

语言模型幻觉如何滚雪球式增长
穆鲁·张、奥菲尔·普雷斯、威廉·梅里尔、艾丽莎·刘、诺亚·A·史密斯
arXiv 2023. [论文]
2023年5月22日

LM vs LM：通过交叉检验检测事实性错误
罗伊·科恩、梅·哈姆里、莫尔·格瓦、阿米尔·格洛伯森
arXiv 2023. [论文]
2023年5月22日

HaluEval：大型语言模型的大规模幻觉评估基准
李俊毅、程晓雪、赵新伟、聂建云、温继荣
arXiv 2023. [论文]
2023年5月19日

SelfCheckGPT：面向生成式大型语言模型的零资源黑盒幻觉检测
波萨维·马纳库尔、阿迪安·刘西、马克·J·F·盖尔斯
arXiv 2023. [论文][GitHub]
2023年3月8日

核对事实并重试：利用外部知识和自动化反馈改进大型语言模型
彭宝林、米歇尔·加利、何鹏程、成浩、谢宇嘉、胡宇、黄秋源、拉斯·利登、周宇、陈伟竹、高剑锋
arXiv 2023. [论文]
2023年2月23日

RHO (ρ)：通过知识 grounding 减少开放域对话中的幻觉
季子威、刘子涵、李娜妍、于铁铮、布莱恩·威利、曾敏、冯培思
arXiv 2022. [论文]
2022年12月3日

FaithDial：信息查询型对话的真实基准测试
努哈·德齐里、埃桑·卡马卢、西万·米尔顿、奥斯马尔·扎伊内、莫·余、爱德华多·M·蓬蒂、希瓦·雷迪
TACL 2022. [论文]
2022年4月22日

自然语言生成中的幻觉综述
季子威、李娜妍、丽塔·弗里斯克、于铁铮、苏丹、许燕、石井悦子、方艺珍、戴文良、安德烈娅·马多托、冯培思
arXiv 2022. [论文]
2022年2月8日

真实性

TruthX：通过在真实空间中编辑大型语言模型来缓解幻觉
张绍磊、田宇、冯洋
arXiv 2024. [论文][GitHub]
2024年2月27日

推理时干预：从语言模型中获取真实答案
肯尼思·李、欧姆·帕特尔、费尔南达·维加斯、汉斯彼得·普菲斯特、马丁·瓦滕贝格
arXiv 2023. [论文][GitHub]
2023年6月6日

LLM 的内部状态知道它何时在撒谎
阿莫斯·阿扎里亚、汤姆·米切尔
arXiv 2023. [论文]
2023年4月26日

TruthfulQA：衡量模型如何模仿人类的虚假陈述
斯蒂芬妮·林、雅各布·希尔顿、欧文·埃文斯
ACL 2022. [论文][GitHub][博客]
2021年9月8日

诚实 AI：开发与治理不撒谎的 AI
欧文·埃文斯、欧文·科顿-巴拉特、卢卡斯·芬维登、亚当·贝尔斯、阿维塔尔·巴尔维特、彼得·威尔斯、卢卡·里盖蒂、威廉·桑德斯
arXiv 2021. [论文][博客]
2021年10月13日

通过语义一致性衡量大型语言模型的可靠性
哈什·拉杰、多梅尼克·罗萨蒂、苏巴布拉塔·马朱姆达尔
NeurIPS 2022 机器学习安全研讨会. [论文]
2022年11月10日

推理

REFINER：中间表示的推理反馈
Debjit Paul、Mete Ismayilzada、Maxime Peyrard、Beatriz Borges、Antoine Bosselut、Robert West、Boi Faltings
arXiv 2023。[论文]
2023年4月4日

OpenICL：一种用于上下文学习的开源框架
吴振宇、王耀翔、叶嘉诚、冯江涛、徐晶晶、乔宇、吴志勇
arXiv 2023。[论文] [GitHub]
2023年3月6日

基于大型语言模型和答案集编程的可靠自然语言理解
Abhiramon Rajasekharan、Yankai Zeng、Parth Padalkar、Gopal Gupta
arXiv 2023。[论文]
2023年2月7日

自洽性提升语言模型中的思维链推理
Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery、Denny Zhou
ICLR 2023。[论文]
2022年3月21日

思维链提示在大型语言模型中激发推理能力。
Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Ed Chi、Quoc Le、Denny Zhou
arXiv 2022。[论文]
2022年1月28日

STaR：自我训练的推理器——用推理来增强推理
Eric Zelikman、Yuhuai Wu、Noah D. Goodman
NeurIPS 2022。[论文][GitHub]
2022年3月28日

文本推理中少样本提示解释的不可靠性
Xi Ye、Greg Durrett
NeurIPS 2022。[论文] [GitHub]
2022年5月6日

语言模型中的理由增强集成方法
Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Denny Zhou
arXiv 2022。[论文]
2022年7月2日

ReAct：在语言模型中协同推理与行动
姚顺宇、Jeffrey Zhao、Yu Dian、Du Nan、Izhak Shafran、Karthik Narasimhan、Cao Yuan
ICLR 2023。[论文][GitHub][项目]
2022年10月6日

再想想，还是别一步一步地想了！零样本推理中的偏见与毒性
Omar Shaikh、Hongxin Zhang、William Held、Michael Bernstein、Diyi Yang
arXiv 2022。[论文]
2022年12月15日

关于提升语言模型推理能力的进展
Yifei Li、Zeqi Lin、Shizhuo Zhang、Qiang Fu、Bei Chen、Jian-Guang Lou、Weizhu Chen
arXiv 2022。[论文][GitHub]
2022年6月6日

问我任何问题：一种简单的语言模型提示策略
Simran Arora、Avanika Narayan、Mayee F. Chen、Laurel Orr、Neel Guha、Kush Bhatia、Ines Chami、Frederic Sala、Christopher Ré
arXiv 2022。[论文][GitHub]
2022年10月5日

MathPrompter：利用大型语言模型进行数学推理
Shima Imani、Liang Du、Harsh Shrivastava
arXiv 2023。[论文]
2023年3月4日

基于复杂度的多步推理提示方法
Yao Fu、Hao Peng、Ashish Sabharwal、Peter Clark、Tushar Khot
arXiv 2022。[论文][GitHub]
2022年10月3日

衡量并缩小语言模型中的组合性差距
Ofir Press、Muru Zhang、Sewon Min、Ludwig Schmidt、Noah A. Smith、Mike Lewis
arXiv 2022。[论文][GitHub]
2022年10月7日

针对知识密集型多步问题，将检索与思维链推理交织结合
Harsh Trivedi、Niranjan Balasubramanian、Tushar Khot、Ashish Sabharwal
arXiv 2023。[论文][GitHub]
2022年12月20日

提示微调、优化与设计

大型语言模型作为优化器
杨承润、王雪芝、陆一峰、刘瀚骁、Quoc V. Le、周登恩、陈欣云
arXiv 2023年。[论文]
2023年9月7日

InstructZero：针对黑盒大型语言模型的高效指令优化
陈立昌、陈久海、汤姆·戈德斯坦、黄恒、周天一
arXiv 2023年。[论文] [GitHub]
2023年6月5日

Promptboosting：仅需十次前向传播的黑盒文本分类
侯百瑞、乔·奥康纳、雅各布·安德烈亚斯、常世宇、张洋
ICML 2023年。[论文][GitHub]
2023年1月23日

GrIPS：基于编辑的无梯度指令搜索，用于大型语言模型提示工程
阿奇基·普拉萨德、彼得·哈斯、周翔、莫希特·班萨尔
EACL 2023年。[论文][GitHub]
2022年3月14日

RLPrompt：利用强化学习优化离散文本提示
邓明凯、王建宇、谢承平、王怡涵、郭汉、舒天敏、宋萌、Eric P. Xing、胡志婷
EMNLP 2022年。[论文][GitHub]
2022年5月25日

预训练语言模型的黑盒提示学习
刁仕哲、黄志超、徐睿嘉、李学春、林勇、周晓、张彤
TMLR 2023年。[论文][GitHub]
2022年1月22日

面向语言模型即服务的黑盒微调
孙天翔、邵云帆、钱洪、黄宣静、邱锡鹏
ICML 2022年。[论文][GitHub]
2022年1月10日

BBTv2：迈向无梯度的大型语言模型未来
孙天翔、何正福、钱洪、周云华、黄宣静、邱锡鹏 \ EMNLP 2022年。[论文] [GitHub]
2022年12月7日

大型语言模型中的自动思维链提示生成
张卓胜、张 Aston、李沐、Alex Smola
ICLR 2023年。[论文][GitHub]
2022年10月7日

基于标注数据的思维链自动提示增强与选择
Shum KaShun、刁仕哲、张彤
arXiv 2023年。[论文][GitHub]
2023年2月24日

大型语言模型是人类级别的提示工程师
周永超、Andrei Ioan Muresanu、韩子文、Keiran Paster、Silviu Pitis、Harris Chan、Jimmy Ba
ICLR 2023年。[论文][GitHub]
2022年11月3日

奇妙有序的提示及其寻找方法：克服少样本提示顺序敏感性
卢瑶、马克斯·巴托洛、阿拉斯泰尔·摩尔、塞巴斯蒂安·里德尔、蓬图斯·斯滕内托普
ACL 2022年。[论文]

面向上下文学习的主动示例选择
张一鸣、冯诗、谭晨浩
EMNLP 2022年。[论文][GitHub]
2022年11月8日

选择性标注使语言模型成为更好的少样本学习者
苏宏锦、笠井纯悟、吴亨利、史伟佳、王天禄、辛佳怡、张锐、玛丽·奥斯滕多夫、卢克·泽特勒莫耶、诺亚·A·史密斯、余涛
ICLR 2023年。[论文][GitHub]
2022年9月5日

为上下文学习学习检索提示
欧哈德·鲁宾、乔纳森·赫尔齐格、乔纳森·贝兰特
NAACL-HLT 2022年。[论文][GitHub]
2021年12月16日

指令与RLHF

LaMini-LM：大规模指令蒸馏得到的多样化模型集合
吴明浩、Abdul Waheed、张驰宇、Muhammad Abdul-Mageed、Alham Fikri Aji
arXiv 2023年。[论文][GitHub]
2023年4月27日

Self-Refine：基于自我反馈的迭代精炼
阿曼·马丹、尼凯特·坦东、普拉卡·古普塔、斯凯勒·哈利南、高璐瑜、莎拉·维格雷夫、乌里·阿隆、努哈·德齐里、施里迈·普拉布莫耶、杨一鸣、肖恩·韦莱克、博迪萨特瓦·普拉萨德·马朱姆达尔、沙尚克·古普塔、阿米尔·亚兹丹巴赫什、彼得·克拉克
arXiv 2023年。[论文][GitHub] [网站]
2023年3月30日

提示就是全部吗？不是。关于指令学习的全面而更广阔的视角
Lou Renze、Zhang Kai、Yin Wenpeng
arXiv 2023年。[论文][GitHub]
2023年3月18日

Self-Instruct：通过自动生成的指令对齐语言模型
王一众、科迪·叶加内、米什拉·斯瓦鲁普、刘爱丽丝、诺亚·A·史密斯、哈沙比·丹尼尔、哈吉希尔齐·汉娜内
arXiv 2022年。[论文][GitHub]
2022年12月20日

宪法式AI：来自AI反馈的无害性
白云涛等（Anthropic）
arXiv 2022年。[论文]
2022年12月15日

用模型编写的评估发现语言模型行为
伊桑·佩雷斯等人
arXiv 2022年。[论文]
2022年12月19日

上下文指令学习
Ye Seonghyeon、Hwang Hyeonbin、Yang Sohee、Yun Hyeongu、Kim Yireun、Seo Minjoon
arXiv 2023年。[论文][GitHub]
2023年2月28日

工具与外部API

通过少样本提示增强互联网的语言模型，用于开放域问答
安杰莉基·拉扎里杜、叶莲娜·格里博夫斯卡娅、沃伊切赫·斯托科维茨、尼古拉·格里戈列夫
arXiv 2023年。[论文]
2023年3月10日

思维链提示：在数值推理任务中将计算与推理解耦
陈文虎、马学光、王欣怡、威廉·W·科恩
arXiv 2022年。[论文][GitHub]
2022年11月22日

PAL：程序辅助语言模型
高璐宇、阿曼·马丹、周信义、尤里·阿隆、刘鹏飞、杨一鸣、杰米·卡兰、格雷厄姆·纽比格
arXiv 2022年。[论文] [GitHub] [项目]
2022年11月18日

TALM：工具增强型语言模型
亚伦·帕里西、赵瑶、诺亚·菲德尔
arXiv 2022年。[论文]
2022年5月24日

Toolformer：语言模型可以自我学习使用工具
蒂莫·希克、简·德维迪-余、罗伯托·德西、罗伯塔·赖莱努、玛丽亚·洛梅利、卢克·泽特勒莫耶、尼古拉·坎切达、托马斯·西亚洛姆
arXiv 2023年。[论文]
2023年2月9日

微调

逐步蒸馏！用更少的训练数据和更小的模型规模超越更大的语言模型
谢承宇、李春良、叶志宽、胡坦·纳克霍斯特、藤井康久、亚历山大·拉特纳、兰贾伊·克里希纳、李辰宇、托马斯·普菲斯特
arXiv 2023年。[论文]
2023年5月3日

FreeLM：无需微调的语言模型
李翔1、姜欣、孟旭颖、孙爱新、王业泉
arXiv 2023年。[论文]
2023年5月2日

用于鲁棒语言模型微调的自动化数据整理
陈九海、乔纳斯·穆勒
arXiv 2024年。[论文]
2024年3月19日

鲁棒性

不变性

不变语言建模 \ 马克西姆·佩伊拉尔、萨尔维吉特·辛格·戈特拉、马丁·约西福斯基、维丹·阿加瓦尔、巴伦·帕特拉、迪恩·卡里甘、埃姆雷·基奇曼、罗伯特·韦斯特
EMNLP 2022年。[论文][GitHub]
2021年10月16日

通过顺序无关表示正则化实现稳健的个性化对话生成
陈亮、王洪儒、邓阳、关伟昌、黄锦辉
ACL 2023年成果。[论文][GitHub]
2023年5月22日

分布偏移

探索大型语言模型在代码分析中的分布偏移
舒珊·阿拉凯良、洛克提姆·焦蒂·达斯、毛毅、任翔
arXiv 2023年。[论文]
2023年3月16日

分布外

条件语言模型的分布外检测与选择性生成
任杰、罗家明、赵瑶、昆丹·克里希纳、穆罕默德·萨利赫、巴拉吉·拉克什米纳拉扬南、彼得·J·刘
ICLR 2023年。[论文]
2022年9月30日

适应与泛化

关于预训练语言模型的领域适应与泛化：综述
郭旭、于汉
arXiv 2022年。[论文]
2022年11月6日

对抗性

前沿大型语言模型中的内部安全崩溃
吴宇涛、张杰、张天伟、马兴军
arXiv 2026年。[论文][GitHub]
2026年3月4日

PEARL：迈向对排列具有鲁棒性的大型语言模型
陈亮、沈丽、邓阳、赵晓燕、梁斌、黄锦辉
ICLR 2025年。[论文][GitHub]
2025年2月27日

用文本嵌入模型的通用魔法词破解大型语言模型的安全防护
梁浩宇、孙友然、蔡云峰、朱俊、张博
arXiv 2025年。[论文]
2025年1月23日

大型语言模型的对抗性攻击
莉莲·温格 [博客]
2023年10月25日

PromptBench：评估大型语言模型在对抗性提示下的鲁棒性
朱凯杰、王金东、周嘉恒、王子晨、陈浩、王一东、杨琳依、叶伟、龚振强、张悦、谢星
arXiv 2023年。[论文][GitHub]
2023年6月7日

从对抗性和分布外视角看ChatGPT的鲁棒性
王金东、胡锡旭、侯文欣、陈浩、郑润凯、王一东、杨琳依、黄浩军、叶伟、耿秀波、焦彬鑫、张悦、谢星
arXiv 2023年。[论文] [GitHub]
2023年2月22日

自然语言处理系统的可靠性测试
桑森·谭、沙菲克·乔蒂、凯茜·巴克ستر、阿拉兹·泰哈格、格雷戈里·A·贝内特、韩敏妍
ACL-IJCNLP 2021年。[论文]
2021年5月6日

归因

归因问答：针对归因型大型语言模型的评估与建模
伯恩德·博内特、阮庆全、帕特·维尔加、罗伊·阿哈罗尼、丹尼尔·安多尔、利维奥·巴尔迪尼·索阿雷斯、马西米利亚诺·恰拉米塔、雅各布·艾森斯坦、库兹曼·甘切夫、乔纳森·赫尔齐格、凯·辉、汤姆·克维亚特科夫斯基、贾·马、倪建谟、利埃尔尼·塞斯托赖恩·萨拉莱吉、塔尔·舒斯特、威廉·W·科恩、迈克尔·柯林斯、迪潘詹·达斯、唐纳德·梅茨勒、斯拉夫·彼得罗夫、凯莉·韦伯斯特
arXiv 2022年。[论文]
2022年12月15日

因果关系

大型语言模型能否从相关性推断出因果关系？
金志静、刘佳睿、吕志恒、斯宾塞·波夫、姆林玛雅·萨昌、拉达·米哈尔切亚、莫娜·迪亚布、伯恩哈德·舍尔科普夫
arXiv 2023年。[论文] [GitHub]
2023年6月9日

选择—推理：利用大型语言模型进行可解释的逻辑推理
安东尼娅·克雷斯韦尔、默里·沙纳汉、伊琳娜·希金斯
ICLR 2023年。[论文]
2022年5月19日

探究大型语言模型中的因果理解
马里乌斯·霍布汉、汤姆·利伯鲁姆、大卫·赛勒
NeurIPS 2022年研讨会。[论文][博客]
2022年10月3日

Awesome-LLM-Uncertainty-Reliability-Robustness 快速上手指南

项目简介： Awesome-LLM-Uncertainty-Reliability-Robustness（简称 UR2-LLMs）并非一个可直接安装的软件库或框架，而是一个精选资源列表。它汇集了关于大语言模型（LLM）在不确定性（Uncertainty）、可靠性（Reliability）和鲁棒性（Robustness）方面的论文、技术报告、教程及开源代码库。

本指南旨在帮助开发者快速利用该列表中的资源，构建更可靠、更安全的 LLM 应用。

1. 环境准备

由于本项目是资源索引，您无需为“列表本身”安装特定环境。但为了运行列表中推荐的代码库（如 DecodingTrust, textflint 等），建议准备以下基础开发环境：

操作系统：Linux (Ubuntu 20.04+), macOS, 或 Windows (WSL2 推荐)
Python 版本：3.8 或更高版本
包管理工具：pip 或 conda
硬件要求：
- 阅读论文/文档：无特殊要求。
- 复现代码/微调模型：建议配备 NVIDIA GPU (显存 16GB+ 推荐)，并安装 CUDA toolkit。

前置依赖检查：

python --version
pip --version

2. 获取资源与安装示例项目

步骤一：克隆资源列表

首先获取该 Awesome 列表，以便查阅最新的论文和工具链接。

git clone https://github.com/your-target-repo/Awesome-LLM-Uncertainty-Reliability-Robustness.git
cd Awesome-LLM-Uncertainty-Reliability-Robustness

(注：请在实际使用时替换为该项目真实的 GitHub 地址)

步骤二：选择并安装具体工具

根据您的需求（如评估可靠性、检测幻觉或增强鲁棒性），从列表的 Papers 或 Resources 部分选择具体的开源项目进行安装。

示例：安装评估工具 DecodingTrust （该项目在列表中被推荐用于全面评估 GPT 模型的可信度）

# 克隆具体项目
git clone https://github.com/AI-secure/DecodingTrust.git
cd DecodingTrust

# 创建虚拟环境 (推荐)
conda create -n trust_eval python=3.9
conda activate trust_eval

# 安装依赖 (优先使用国内镜像源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

示例：安装鲁棒性测试工具 textflint （用于测试模型对输入扰动的鲁棒性）

pip install textflint -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

由于本项目是资源集合，"使用"意味着参考列表中的论文方法或调用子项目的 API。以下以评估模型可靠性为例，展示如何结合列表中的资源进行实践。

场景：使用 `textflint` 测试模型鲁棒性

假设您有一个本地运行的 LLM API，想要测试其在文本扰动下的表现。

1. 导入库并定义目标模型

from textflint.core.component import Component
from textflint.task.classification import SCATransformer
from textflint.input import InputSample

# 定义一个简单的预测函数 (替换为您自己的模型调用逻辑)
def model_predict(text):
    # 此处调用您的 LLM API
    return "Positive" 

# 初始化转换组件 (例如：同义词替换)
transformer = SCATransformer()

2. 生成对抗样本并评估

# 原始输入
raw_text = "The movie was fantastic and I loved it."
input_sample = InputSample(text=raw_text, target="Positive")

# 生成扰动数据
augmented_samples = transformer.transform(input_sample, field='text')

print(f"原始样本: {raw_text}")
for sample in augmented_samples[:3]: # 查看前 3 个变异样本
    print(f"扰动后: {sample.text}")
    # 在实际流程中，此处应调用 model_predict(sample.text) 并对比结果一致性

场景：参考论文复现不确定性估计

如果您想实现列表中提到的**不确定性估计 **(Uncertainty Estimation)：

在 README.md 的 [Uncertainty] 章节找到相关论文（如 Semantic Uncertainty 或 Self-Consistency）。
点击论文对应的 [Github] 链接进入代码仓库。

通常遵循以下通用模式：

git clone <论文对应的代码仓库链接>
cd <仓库名>
pip install -e .
python evaluate_uncertainty.py --model_name llama-2-7b --dataset truthfulqa

4. 核心资源导航

在使用本列表时，请重点关注以下分类以解决具体问题：

**检测幻觉 **(Hallucination)：查看 Reliability -> Hallucination 章节，寻找事实核查工具。
**提升置信度 **(Confidence)：查看 Uncertainty -> Calibration 章节，学习如何让模型输出更准确的概率分数。
**对抗攻击防御 **(Adversarial)：查看 Robustness -> Adversarial 章节，获取防御提示词注入的攻击方案。
最佳实践教程：参考 Resources -> Tutorial 中的 Uncertainty Estimation for Natural Language Processing 进行系统学习。

提示：该列表持续更新，建议定期 git pull 获取最新的论文和工具链接。

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

使用场景

没有 Awesome-LLM-Uncertainty-Reliability-Robustness 时

使用 Awesome-LLM-Uncertainty-Reliability-Robustness 后

运行环境要求

快速开始

令人惊叹的LLM——不确定性、可靠性与鲁棒性

目录

资源

入门文章

技术报告

教程

论文

评估与调查

不确定性

不确定性估计

校准

模糊性

信心

主动学习

可靠性

幻觉

真实性

推理

提示微调、优化与设计

指令与RLHF

工具与外部API

微调

鲁棒性

不变性

分布偏移

分布外

适应与泛化

对抗性

归因

因果关系

Awesome-LLM-Uncertainty-Reliability-Robustness 快速上手指南

1. 环境准备

2. 获取资源与安装示例项目

步骤一：克隆资源列表

步骤二：选择并安装具体工具

3. 基本使用

场景：使用 textflint 测试模型鲁棒性

场景：参考论文复现不确定性估计

4. 核心资源导航

相似工具推荐

everything-claude-code

LLMs-from-scratch

spec-kit

NextChat

ML-For-Beginners

funNLP

场景：使用 `textflint` 测试模型鲁棒性