tuned-lens

585 66 简单 1 次阅读 4天前MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

tuned-lens 是一款专为深入理解 Transformer 模型内部机制而设计的开源工具。它核心解决了“黑盒”难题，让研究人员能够清晰地观察模型是如何逐层构建预测结果的。

传统的分析方法往往直接读取模型中间层的输出，但由于各层之间的数据表示可能存在旋转或缩放差异，导致解读不够准确。tuned-lens 的独特之处在于引入了“仿射翻译器”技术：通过训练特定的线性变换层，将模型任意中间层的残差流精准映射到最终输出分布。这使得用户能够跳过后续网络层，直接查看基于当前中间状态所能得出的最佳预测，从而比早期的 Logit Lens 方法更准确地揭示模型的潜在推理过程。

该工具主要面向 AI 研究人员、大模型开发者以及对可解释性感兴趣的技术专家。它提供了简洁的 Python 接口，支持在 PyTorch 环境中轻松训练和评估透镜，同时也兼容 Google Colab 和 Hugging Face Spaces 进行交互式探索。如果你希望剖析大语言模型的决策逻辑，验证对齐研究假设，或单纯好奇模型在每一层“想”了什么，tuned-lens 都是一个强大且易上手的辅助利器。

使用场景

某大模型安全团队正在排查一个医疗问答模型为何会突然输出错误的药物剂量建议，急需定位错误决策是在网络的哪一层形成的。

没有 tuned-lens 时

黑盒猜测：只能看到模型最终的错误输出，无法得知是中间哪一层开始“想歪了”，排查全靠猜。
方法粗糙：尝试使用传统的 Logit Lens 直接读取中间层状态，但因忽略了层间表示的旋转和缩放，得到的预测结果噪声极大，毫无参考价值。
效率低下：为了验证假设，不得不反复修改提示词或进行大量消融实验，耗时数天仍无法锁定具体的故障层。
归因困难：难以区分是知识检索阶段出错，还是逻辑推理阶段发生了偏差，导致修复方案无从下手。

使用 tuned-lens 后

逐层透视：利用训练好的仿射转换器（affine translators），直接跳过后续层，清晰看到每一层残差流对最终预测的贡献，精准定位错误始于第 18 层。
预测精准：tuned-lens 通过最小化 KL 散度校准了层间变换，即使在中间层也能还原出高置信度的潜在预测，真实反映了模型的思考过程。
快速诊断：在 Colab 中加载模型即可交互式查看各层输出，几分钟内就发现模型在该层过早地锁定了错误药物名称。
针对性修复：确认是特定层的注意力机制被误导后，团队只需微调该层参数或清洗对应训练数据，迅速解决了问题。

tuned-lens 将变压器模型从不可知的黑盒变成了透明的玻璃盒，让开发者能像阅读日志一样逐层审查 AI 的决策逻辑。

运行环境要求

操作系统

未说明

GPU

未说明（基于 PyTorch，通常建议配备支持 CUDA 的 NVIDIA GPU 以进行训练）

内存

未说明

依赖

notes该工具主要用于分析 Transformer 模型的中间层表示。除了通过 pip 安装外，官方还提供了 Docker 容器镜像（ghcr.io/alignmentresearch/tuned-lens:latest）以便在隔离环境中运行训练脚本。项目目前处于 1.0 版本之前，公共接口可能会经常变动。

python3.9+

torch>=1.13.0

快速开始

调优透镜 🔎

用于理解 Transformer 模型如何逐层构建预测结果的工具。

本包提供了一个简单易用的接口，用于训练和评估 调优透镜。通过调优透镜，我们可以窥探 Transformer 在计算下一个 token 时所进行的迭代式计算过程。

什么是透镜？

一个拥有 n 层的 Transformer 透镜允许你将模型最后 m 层替换为一个仿射变换（我们称其为仿射转换器）。每个仿射转换器都会被训练以最小化其预测与原始模型最终输出分布之间的 KL 散度。这意味着，在训练完成后，调优透镜可以让你跳过这些最后几层，直接查看基于模型在第 n - m 层的中间表示——即残差流——所能做出的最佳预测。

我们需要训练仿射转换器的原因在于，不同层之间的表示可能会发生旋转、平移或拉伸等变化。这种训练方式使得该方法区别于那些直接使用解嵌矩阵来解嵌网络残差流的简单方法，例如 logit 透镜。我们在论文 Eliciting Latent Predictions from Transformers with the Tuned Lens 中详细解释了这一过程及其应用。

致谢

该库最初由 Igor Ostrovsky 和 Stella Biderman 在 EleutherAI 提出构想，随后由 FAR 和 EleutherAI 的研究人员共同协作开发完成。

安装说明

从 PyPI 安装

首先，你需要在一个虚拟环境中安装基本的依赖项：

Python 3.9+
PyTorch 1.13.0+

然后，你可以直接使用 pip 安装该包。

pip install tuned-lens

使用容器安装

如果你更倾向于在容器内运行训练脚本，可以使用我们提供的 Docker 容器。

docker pull ghcr.io/alignmentresearch/tuned-lens:latest
docker run --rm tuned-lens:latest tuned-lens --help

贡献

请确保安装开发依赖并启用 pre-commit 钩子。

$ git clone https://github.com/AlignmentResearch/tuned-lens.git
$ pip install -e ".[dev]"
$ pre-commit install

引用

如果你觉得这个库对你有所帮助，请按以下格式引用：

@article{belrose2023eliciting,
  title={Eliciting Latent Predictions from Transformers with the Tuned Lens},
  authors={Belrose, Nora and Furman, Zach and Smith, Logan and Halawi, Danny and McKinney, Lev and Ostrovsky, Igor and Biderman, Stella and Steinhardt, Jacob},
  journal={即将发表},
  year={2023}
}

警告本包尚未达到 1.0 版本。公共接口可能会频繁变化，且不一定会伴随主要版本号的更新。

Tuned Lens 快速上手指南

Tuned Lens 是一个用于理解 Transformer 模型如何逐层构建预测结果的工具。它通过训练“仿射转换器（affine translators）”，让你能够窥探模型中间层的残差流（residual stream），从而在不运行完所有层的情况下，查看基于中间表示的最佳预测分布。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (推荐 Linux)
Python 版本：3.9 或更高
深度学习框架：PyTorch 1.13.0 或更高版本
包管理工具：pip

提示：国内开发者建议使用国内镜像源（如清华源、阿里源）加速依赖下载。

安装步骤

方式一：通过 PyPI 安装（推荐）

首先创建并激活一个虚拟环境（可选但推荐），然后使用 pip 安装：

# 推荐使用国内镜像源加速安装
pip install tuned-lens -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：使用 Docker 容器

如果你希望在一个隔离的容器中运行训练脚本，可以使用官方提供的 Docker 镜像：

# 拉取最新镜像
docker pull ghcr.io/alignmentresearch/tuned-lens:latest

# 验证安装并查看帮助信息
docker run --rm tuned-lens:latest tuned-lens --help

开发模式安装（贡献者适用）

如果你需要修改源码或参与贡献：

git clone https://github.com/AlignmentResearch/tuned-lens.git
cd tuned-lens
pip install -e ".[dev]" -i https://pypi.tuna.tsinghua.edu.cn/simple
pre-commit install

基本使用

安装完成后，你可以立即开始使用 Tuned Lens。最便捷的方式是通过 Google Colab 或 Hugging Face Spaces 进行交互式体验，无需本地配置 GPU 环境。

1. 在线交互式体验

Google Colab: 点击此处打开交互式 Notebook
Hugging Face Spaces: 点击此处打开在线应用

2. 命令行基础用法

在本地终端中，你可以直接调用 tuned-lens 命令来查看可用选项：

tuned-lens --help

典型的工作流通常包含以下步骤（具体参数需根据模型调整）：

训练 Lens：针对特定模型和数据集训练仿射转换器。

tuned-lens train <model_name_or_path> <dataset_name> --output_dir ./lens_output

评估 Lens：评估训练好的 Lens 在中间层的预测能力。

tuned-lens eval <model_name_or_path> ./lens_output/checkpoint_best.pt --dataset <dataset_name>

注意：该库目前尚未发布 1.0 正式版本，公共接口可能会频繁变更且不一定伴随主版本号升级，请在生产环境中谨慎使用。

版本历史

v0.2.02023/07/18

v0.1.12023/06/13

v0.1.02023/05/02

v0.0.52023/04/19

v0.0.32023/03/15

常见问题

遇到 'ModuleNotFoundError: No module named white_box' 错误怎么办？

是否支持在模型的中间层（如注意力机制后、MLP 前）显示 Logit Lens 或 Tuned Lens 的预测结果？

如何在分布式训练过程中区分不同进程的日志输出？

是否有人针对 Llama-3.1-8B 或 Llama-3.1-8B-Instruct 训练过 Tuned Lens？应该使用什么数据集？

如何复现 Tuned Lens 论文中的 Aitchison 相似度图表？

项目是否支持训练过程中的检查点保存与断点续训？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架