awesome-llm-interpretability
awesome-llm-interpretability 是一个精心整理的开源资源清单,专注于大语言模型(LLM)的可解释性研究。面对大模型常被视为“黑盒”、内部决策逻辑难以捉摸的痛点,它汇聚了丰富的工具、学术论文、技术文章及专业社区,旨在帮助用户深入理解模型如何思考、知识如何在训练中演化,以及定位并修正模型中的事实错误。
这份资源特别适合 AI 研究人员、算法工程师及开发者使用。无论是需要调试神经网络的研究者,还是希望评估和优化模型表现的开发团队,都能从中找到得力助手。其独特亮点在于收录了多样化的前沿工具:从支持可视化注意力机制和神经元激活的 The Learning Interpretability Tool、TransformerLens,到能自动生成功能解释的 Automated Interpretability,再到用于编辑模型事实关联的 Rome 项目。这些资源覆盖了从底层的机械可解释性分析到高层的应用评估,为揭开大模型神秘面纱提供了全方位的技术支持,是推动可信 AI 发展的重要参考库。
使用场景
某金融科技公司的算法团队正在调试一个用于自动审批贷款申请的 LLM 系统,近期发现模型会毫无征兆地拒绝信用良好的少数族裔申请人,急需定位偏差根源。
没有 awesome-llm-interpretability 时
- 团队面对黑盒模型束手无策,只能靠猜测调整提示词,无法确定是训练数据偏见还是注意力机制出错。
- 缺乏统一的分析工具库,工程师需花费数周在海量论文和零散代码中筛选适用的解释性方法,研发效率极低。
- 无法可视化神经元激活或注意力图谱,导致向合规部门汇报时只能提供模糊的“可能原因”,难以通过审计。
- 尝试手动修改模型内部参数以修正错误时,因缺乏如 Rome 或 Sparse Autoencoder 等精准编辑工具,极易破坏模型其他能力。
使用 awesome-llm-interpretability 后
- 团队快速锁定 TransformerLens 和 LIT 等工具,直接可视化注意力头,发现模型过度关注申请人姓名中的特定字符而非财务数据。
- 借助 curated list 中集成的 Automated Interpretability 代码,自动生成神经元行为解释,将原本数周的排查工作缩短至两天。
- 利用 Neuron Viewer 生成直观的激活热力图作为证据,清晰地向监管机构展示了偏差产生的具体路径,顺利通过合规审查。
- 应用 Rome 工具精准定位并编辑了存储错误事实关联的神经元,在不重新训练模型的情况下修复了歧视问题,且未影响整体性能。
awesome-llm-interpretability 将原本如同“盲人摸象”的模型调试过程,转变为可观测、可解释且可精准干预的科学工程流程。
运行环境要求
未说明
未说明

快速开始
令人惊叹的LLM可解释性!
一份精心整理的清单,汇集了专注于大型语言模型(LLM)可解释性的超棒工具、论文、文章和社区。
目录
LLM可解释性工具
用于LLM可解释性和分析的工具与库。
- The Learning Interpretability Tool - 一个开源的机器学习模型可视化与理解平台,支持分类、回归以及生成模型(文本与图像数据);包含显著性方法、注意力归因、反事实分析、TCAV、嵌入可视化及类似Facets的数据分析功能。
- Comgra - Comgra帮助你在PyTorch中分析和调试神经网络。
- Pythia - 可解释性分析工具,用于理解知识在自回归Transformer训练过程中如何发展与演变。
- Phoenix - AI可观测性与评估平台——在Notebook中评估、排查并微调你的LLM、CV和NLP模型。
- Floom 面向开发者的AI网关与市场,可简化AI功能集成到产品中的流程。
- Automated Interpretability - 自动化生成、模拟并评分神经元行为解释的代码。
- Fmr.ai - AI可解释性与透明度平台。
- Attention Analysis - 分析BERT Transformer的注意力图。
- SpellGPT - 探索GPT-3拼写自身标记串的能力。
- SuperICL - 超级上下文学习代码,允许黑盒LLM与本地微调的小型模型协同工作。
- Git Re-Basin - “Git Re-Basin:基于置换对称性的模型合并”相关代码发布。
- Functionary - 一款能够解析并执行函数/插件的聊天语言模型。
- Sparse Autoencoder - 用于机制性可解释性的稀疏自编码器。
- Rome - 在GPT中定位并编辑事实关联。
- Inseq - 针对序列生成模型的可解释性工具。
- Neuron Viewer - 用于查看神经元激活及解释的工具。
- LLM Visualization - 从底层视角可视化LLM。
- Vanna - 提供抽象层,使任何LLM都能通过RAG生成SQL。
- Copy Suppression - 专为探索GPT-2 Small的不同提示而设计,作为LLM中复制抑制研究项目的一部分。
- TransformerViz - 交互式工具,可通过潜空间可视化Transformer模型。
- TransformerLens - 用于生成式语言模型机制性可解释性的库。
- Awesome-Attention-Heads - 精心编纂的列表,总结了注意力头的多样化功能。
- ecco - 使用交互式可视化探索和解释自然语言处理模型的Python库。
LLM可解释性论文
关于LLM可解释性的学术与行业论文。
- 简化模型泛化中的可解释性幻象 – 展示了基于简化模型的可解释性方法(例如线性探测等)如何容易产生泛化幻象。
- 面向语言模型预训练的自影响引导数据重加权 – 将训练数据归因方法应用于重新加权训练数据,以提升性能。
- 数据相似性不足以解释语言模型性能 – 讨论了嵌入模型在解释数据有效选择方面的局限性。
- 语言模型的事后解释可以改进语言模型 – 评估了由语言模型生成的解释是否也能提升模型质量。
- 定位信息能指导编辑吗?基于因果追踪的定位与语言模型知识编辑之间的惊人差异,推文摘要(NeurIPS 2023 Spotlight)– 强调了因果追踪的局限性:LLM中事实的存储方式可能被修改于因果追踪所指示位置之外的权重上。
- 在干草堆中寻找神经元:稀疏探测案例研究 – 探索大型语言模型(LLMs)中神经元激活里高层人类可解释特征的表征。
- 复制抑制:全面理解一个注意力头 – 研究GPT-2 Small中的特定注意力头,揭示其在复制抑制中的主要作用。
- 大型语言模型中情感的线性表征 – 展示了情感在大型语言模型(LLMs)中的表征方式,发现情感在这些模型中呈线性表征。
- 涌现的世界表征:探索在合成任务上训练的序列模型 – 探讨在一款用于预测棋盘游戏奥赛罗合法走法的GPT变体中涌现的内部表征。
- 迈向机制性可解释性的自动化回路发现 – 介绍了用于识别神经网络中重要单元的自动回路发现(ACDC)算法。
- 普适性的玩具模型:逆向工程网络如何学习群运算 – 使用表示理论研究小型神经网络,以理解它们如何学习群的复合结构。
- 用于解释神经NLP的因果中介分析:以性别偏见为例 – 将因果中介分析作为一种方法用于解释自然语言处理中的神经模型。
- 神经缩放的量化模型 – 提出量化模型来解释神经网络中的神经缩放规律。
- 无需监督地从语言模型中发现潜在知识 – 提出一种方法,在无需监督的情况下从语言模型的内部激活中提取对是非问题的准确答案。
- GPT-2如何计算“大于”?:解读预训练语言模型的数学能力 – 分析GPT-2 Small的数学能力,重点关注其执行“大于”操作的能力。
- 迈向单义性:用字典学习分解语言模型 – 利用稀疏自编码器将单层Transformer的激活分解为可解释的、单义性特征。
- 语言模型可以解释语言模型中的神经元 – 探讨如何利用GPT-4等语言模型来解释同类模型中神经元的功能。
- 自监督序列模型世界模型中的涌现线性表征 – 在一款玩奥赛罗的序列模型的世界模型中出现的线性表征。
- “迈向对Transformer逐步推理的机制性理解:一种合成图导航模型” – 通过基于有向无环图导航的合成任务,探讨自回归语言模型中的逐步推理过程。
- “后继头:野外常见的可解释注意力头” – 介绍“后继头”,即能够在具有自然顺序的标记(如数字和日期)上递增的注意力头。
- 大型语言模型并非稳健的多项选择题选择器 – 分析大型语言模型在多项选择题中的偏差与鲁棒性,揭示其因固有的“选择偏见”而易受选项位置变化的影响。
- 超越神经网络特征相似性:网络特征复杂度及其范畴论解释 – 提出一种新颖的方法,通过范畴论考察特征复杂度来理解神经网络。
- 让我们一步步验证 – 专注于利用逐步骤的人工反馈来提高大型语言模型在多步推理任务中的可靠性。
- 简化模型泛化中的可解释性幻象 – 考察用于解释深度学习系统的简化表征(如SVD)的局限性,尤其是在分布外场景中。
- 魔鬼藏在神经元里:解释并缓解语言模型中的社会偏见 – 提出一种新方法来识别和缓解语言模型中的社会偏见,引入“社会偏见神经元”的概念。
- 解释大型语言模型在数学加法中的内在机制 – 研究大型语言模型如何完成数学加法任务。
- 测量语言模型中的特征稀疏性 – 开发用于评估语言模型激活中稀疏编码技术成功程度的指标。
- 叠加现象的玩具模型 – 研究模型如何表征比维度更多的特征,尤其是在特征稀疏的情况下。
- SPINE:稀疏可解释的神经嵌入 – 介绍SPINE方法,利用去噪自编码器将稠密词嵌入转化为稀疏且可解释的嵌入。
- 通过字典学习可视化Transformer:上下文嵌入作为Transformer因子的线性叠加 – 提出一种利用字典学习来可视化Transformer网络的新方法。
- Pythia:一套用于分析大型语言模型训练与扩展行为的工具 – 介绍专为分析大型语言模型训练和扩展行为设计的工具集Pythia。
- 关于可解释性和特征表征:对“情感神经元”的分析 – 批判性地审视“情感神经元”的有效性。
- 在玩具模型中实现单义性 – 探讨在神经网络中实现单义性,使每个神经元对应于不同的特征。
- 神经网络中的多义性与容量 – 研究神经网络中单个神经元代表多个特征的现象。
- InceptionV1早期视觉概览 – 全面探讨InceptionV1神经网络的前五层,重点聚焦早期视觉。
- BERT几何结构的可视化与测量 – 深入研究BERT对语言信息的内部表征,同时关注句法和语义方面。
- 大型语言模型中的神经元:死神经元、N-gram神经元、位置神经元 – 对大型语言模型中的神经元进行分析,重点关注OPT系列。
- 大型语言模型能否自我解释? – 评估大型语言模型在情感分析任务中自动生成的解释的有效性。
- 野外的可解释性:GPT-2 small(arXiv) – 提供了GPT-2 small在自然语言处理中执行间接宾语识别(IOI)的机制性解释。
- 稀疏自编码器在语言模型中发现高度可解释的特征 – 探讨使用稀疏自编码器从大型语言模型中提取更具可解释性且多义性较低的特征。
- 大型语言模型中涌现且可预测的记忆现象 – 研究使用稀疏自编码器来增强大型语言模型中特征的可解释性。
- 仅凭短视方法无法解释Transformer:以有界Dyck语法为例 – 表明仅关注Transformer中的特定部分,如注意力头或权重矩阵,可能导致误导性的可解释性声明。
- 真理的几何:大型语言模型对真/假数据集的表征中的涌现线性结构 – 本文研究了大型语言模型(LLMs)使用真/假数据集时对真理的表征。
- 规模化可解释性:识别Alpaca中的因果机制 – 本研究提出了无边界分布式对齐搜索(Boundless DAS),这是一种先进的方法,用于解释Alpaca等大型语言模型。
- 表征工程:一种自上而下的AI透明度方法 – 介绍表征工程(RepE),这是一种新颖的方法,旨在提升AI透明度,侧重于高层表征而非神经元或电路。
- 用语言模型解释自然语言中的黑盒文本模块 – 使用合成文本评估大型语言模型注意力头的自然语言解释。
- N2G:一种可扩展的方法,用于量化大型语言模型中可解释神经元的表征 – 将每个大型语言模型神经元表示为一张图。
- 训练过程中用大型语言模型增强可解释模型 – 利用大型语言模型构建文本数据的可解释分类器。
- ChainPoll:一种高效的大型语言模型幻觉检测方法 – ChainPoll是一种新型的幻觉检测方法,其效果显著优于现有替代方案;此外还有RealHall,这是一套精心策划的基准数据集,用于评估近期文献中提出的幻觉检测指标。
- 对一个经过符号式多步推理任务训练的Transformer的机制性分析 – 在一个接受过树形路径规划训练的Transformer中识别出反向链式回路。
- 从全局标签中检测局部洞察:基于卷积分解的监督与零样本序列标注 – 提出基于实例、度量学习的神经网络模型近似方法,以及可结合特定任务归纳偏好的硬注意力机制,从而实现有效的半监督学习(即特征检测)。这些机制相结合,可在神经网络的表征空间内提供基于示例的高效可解释性方法。
- 相似性-距离-幅度通用验证 – 介绍SDM激活函数、SDM校准及SDM网络,这些是具备不确定性感知验证和基于示例可解释性等内在属性的神经网络(如大型语言模型)。有关更广泛影响的高层次概述,请参阅博文《可控AGI的决定因素》(https://raw.githubusercontent.com/allenschmaltz/Resolute_Resolutions/master/volume5/volume5.pdf)。
- 揭开LLM的面纱:动态知识图谱中潜在表征的演变 – 基于激活补丁技术构建框架,将嵌入在LLM向量空间中的事实性知识表示为动态知识图谱。
大型语言模型可解释性相关文章
关于大型语言模型可解释性的深入文章和博客帖子。
- 机器学习模型是记忆还是泛化? - 一个交互式可视化工具,用于探索被称为“Grokking”的现象(VISxAI名人堂)。
- 语言模型学到了什么? - 一个交互式可视化工具,帮助理解大型语言模型的工作机制及其偏见的本质(VISxAI名人堂)。
- 一种新的计算方法重新构想人工智能 - 讨论了超维计算,这是一种利用超维向量(hypervectors)的新方法,旨在实现更高效、透明且鲁棒的人工智能。
- 解读GPT:对数几率视角 - 探讨了对数几率视角如何揭示GPT在不同层中概率预测的逐步收敛过程,从最初的无意义或浅层猜测逐渐过渡到更为精细的预测。
- Grokking现象的机制性可解释性分析 - 探讨深度学习中的“grokking”现象,即模型在训练过程中突然从记忆转向泛化的转变。
- 机制性可解释性领域的200个具体开放问题 - 一系列讨论机制性可解释性(MI)领域开放研究问题的文章,该领域专注于对神经网络进行逆向工程。
- 评估大型语言模型犹如雷区 - 评估像GPT这样的大型语言模型性能和偏见所面临的挑战。
- 归因打补丁:工业规模的激活打补丁 - 一种利用梯度对神经网络中的激活打补丁进行线性近似的方法。
- 因果擦除:一种严格检验可解释性假设的方法 [Redwood Research] - 介绍了因果擦除方法,用于评估神经网络中机制性解释的质量。
- 一个仅含注意力机制的四层Transformer中的Python文档字符串电路 - 提出了量化模型,用于解释神经网络中的神经尺度法则。
- 无需监督的情况下发现语言模型中的潜在知识 - 研究了一个四层Transformer模型中负责生成Python文档字符串的特定神经回路。
- 迈向透明的人工智能:深度神经网络内部结构解释综述 - 关于机制性可解释性的综述。
大型语言模型可解释性相关社群
致力于大型语言模型可解释性的社区和小组。
- PAIR - 谷歌旗下的团队,致力于开发开源工具、交互式探索性可视化以及可解释性研究方法。
- Alignment Lab AI - 专注于人工智能对齐的研究者群体。
- Nous Research - 讨论可解释性相关话题的研究小组。
- EleutherAI - 非营利性人工智能研究实验室,专注于大型模型的可解释性和对齐问题。
大型语言模型综述论文
关于大型语言模型的综述论文。
- 大型语言模型综述 - 本综述论文提供了关于大型语言模型文献的最新回顾,对于研究人员和工程师而言都是很有价值的参考资料。
贡献与合作
详情请参阅CONTRIBUTING和CODE-OF-CONDUCT。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器