[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-AlignmentResearch--tuned-lens":3,"tool-AlignmentResearch--tuned-lens":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":32,"env_os":98,"env_gpu":99,"env_ram":98,"env_deps":100,"category_tags":105,"github_topics":106,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":110,"updated_at":111,"faqs":112,"releases":143},9383,"AlignmentResearch\u002Ftuned-lens","tuned-lens","Tools for understanding how transformer predictions are built layer-by-layer","tuned-lens 是一款专为深入理解 Transformer 模型内部机制而设计的开源工具。它核心解决了“黑盒”难题，让研究人员能够清晰地观察模型是如何逐层构建预测结果的。\n\n传统的分析方法往往直接读取模型中间层的输出，但由于各层之间的数据表示可能存在旋转或缩放差异，导致解读不够准确。tuned-lens 的独特之处在于引入了“仿射翻译器”技术：通过训练特定的线性变换层，将模型任意中间层的残差流精准映射到最终输出分布。这使得用户能够跳过后续网络层，直接查看基于当前中间状态所能得出的最佳预测，从而比早期的 Logit Lens 方法更准确地揭示模型的潜在推理过程。\n\n该工具主要面向 AI 研究人员、大模型开发者以及对可解释性感兴趣的技术专家。它提供了简洁的 Python 接口，支持在 PyTorch 环境中轻松训练和评估透镜，同时也兼容 Google Colab 和 Hugging Face Spaces 进行交互式探索。如果你希望剖析大语言模型的决策逻辑，验证对齐研究假设，或单纯好奇模型在每一层“想”了什么，tuned-lens 都是一个强大且易上手的辅助利器。","# Tuned Lens 🔎\n\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FAlignmentResearch\u002Ftuned-lens\u002Fblob\u002Fmain\u002Fnotebooks\u002Finteractive.ipynb\">\n  \u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\n\u003C\u002Fa>\n\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAlignmentResearch\u002Ftuned-lens\">\n\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fresolve\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\", alt=\"Open in Spaces\">\n\u003C\u002Fa>\n\n\nTools for understanding how transformer predictions are built layer-by-layer.\n\n\u003Cimg src=https:\u002F\u002Fuser-images.githubusercontent.com\u002F12176390\u002F224879115-8bc95f26-68e4-4f43-9b4c-06ca5934a29d.png>\n\nThis package provides a simple interface for training and evaluating __tuned lenses__. A tuned lens allows us to peek at the iterative computations a transformer uses to compute the next token.\n\n\n## What is a Lens?\n\u003Cimg alt=\"A diagram showing how a translator within the lens allows you to skip intermediate layers.\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAlignmentResearch_tuned-lens_readme_8619eb42fcf7.png\"  width=400\u002F>\n\nA lens into a transformer with _n_ layers allows you to replace the last _m_ layers of the model with an [affine transformation](https:\u002F\u002Fpytorch.org\u002Fdocs\u002Fstable\u002Fgenerated\u002Ftorch.nn.Linear.html) (we call these affine translators). Each affine translator is trained to minimize the KL divergence between its prediction and the final output distribution of the original model. This means that after training, the tuned lens allows you to skip over these last few layers and see the best prediction that can be made from the model's intermediate representations, i.e., the residual stream, at layer _n - m_.\n\nThe reason we need to train an affine translator is that the representations may be rotated, shifted, or stretched from layer to layer. This training differentiates this method from simpler approaches that unembed the residual stream of the network directly using the unembedding matrix, i.e., the [logit lens](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FAcKRB8wDpdaN6v6ru\u002Finterpreting-gpt-the-logit-lens). We explain this process and its applications in the paper [Eliciting Latent Predictions from Transformers with the Tuned Lens](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08112).\n\n### Acknowledgments\nOriginally conceived by [Igor Ostrovsky](https:\u002F\u002Ftwitter.com\u002Figoro) and [Stella Biderman](https:\u002F\u002Fwww.stellabiderman.com\u002F) at [EleutherAI](https:\u002F\u002Fwww.eleuther.ai\u002F), this library was built as a collaboration between FAR and EleutherAI researchers.\n\n## Install Instructions\n### Installing from PyPI\nFirst, you will need to install the basic prerequisites into a virtual environment:\n* Python 3.9+\n* PyTorch 1.13.0+\n\nThen, you can simply install the package using pip.\n```\npip install tuned-lens\n```\n\n### Installing the container\nIf you prefer to run the training scripts from within a container, you can use the provided Docker container.\n\n```\ndocker pull ghcr.io\u002Falignmentresearch\u002Ftuned-lens:latest\ndocker run --rm tuned-lens:latest tuned-lens --help\n```\n\n## Contributing\nMake sure to install the dev dependencies and install the pre-commit hooks.\n```\n$ git clone https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens.git\n$ pip install -e \".[dev]\"\n$ pre-commit install\n```\n\n## Citation\n\nIf you find this library useful, please cite it as:\n\n```bibtex\n@article{belrose2023eliciting,\n  title={Eliciting Latent Predictions from Transformers with the Tuned Lens},\n  authors={Belrose, Nora and Furman, Zach and Smith, Logan and Halawi, Danny and McKinney, Lev and Ostrovsky, Igor and Biderman, Stella and Steinhardt, Jacob},\n  journal={to appear},\n  year={2023}\n}\n```\n\n> **Warning**\n> This package has not reached 1.0. Expect the public interface to change regularly and without a major version bumps.\n","# 调优透镜 🔎\n\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FAlignmentResearch\u002Ftuned-lens\u002Fblob\u002Fmain\u002Fnotebooks\u002Finteractive.ipynb\">\n  \u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在 Colab 中打开\"\u002F>\n\u003C\u002Fa>\n\u003Ca target=\"_blank\" href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAlignmentResearch\u002Ftuned-lens\">\n\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fhuggingface\u002Fbadges\u002Fresolve\u002Fmain\u002Fopen-in-hf-spaces-sm-dark.svg\", alt=\"在 Spaces 中打开\">\n\u003C\u002Fa>\n\n\n用于理解 Transformer 模型如何逐层构建预测结果的工具。\n\n\u003Cimg src=https:\u002F\u002Fuser-images.githubusercontent.com\u002F12176390\u002F224879115-8bc95f26-68e4-4f43-9b4c-06ca5934a29d.png>\n\n本包提供了一个简单易用的接口，用于训练和评估 __调优透镜__。通过调优透镜，我们可以窥探 Transformer 在计算下一个 token 时所进行的迭代式计算过程。\n\n\n## 什么是透镜？\n\u003Cimg alt=\"一张图示，展示透镜中的转换器如何让你跳过中间层。\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAlignmentResearch_tuned-lens_readme_8619eb42fcf7.png\"  width=400\u002F>\n\n一个拥有 _n_ 层的 Transformer 透镜允许你将模型最后 _m_ 层替换为一个 [仿射变换](https:\u002F\u002Fpytorch.org\u002Fdocs\u002Fstable\u002Fgenerated\u002Ftorch.nn.Linear.html)（我们称其为仿射转换器）。每个仿射转换器都会被训练以最小化其预测与原始模型最终输出分布之间的 KL 散度。这意味着，在训练完成后，调优透镜可以让你跳过这些最后几层，直接查看基于模型在第 _n - m_ 层的中间表示——即残差流——所能做出的最佳预测。\n\n我们需要训练仿射转换器的原因在于，不同层之间的表示可能会发生旋转、平移或拉伸等变化。这种训练方式使得该方法区别于那些直接使用解嵌矩阵来解嵌网络残差流的简单方法，例如 [logit 透镜](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FAcKRB8wDpdaN6v6ru\u002Finterpreting-gpt-the-logit-lens)。我们在论文 [Eliciting Latent Predictions from Transformers with the Tuned Lens](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08112) 中详细解释了这一过程及其应用。\n\n### 致谢\n该库最初由 [Igor Ostrovsky](https:\u002F\u002Ftwitter.com\u002Figoro) 和 [Stella Biderman](https:\u002F\u002Fwww.stellabiderman.com\u002F) 在 [EleutherAI](https:\u002F\u002Fwww.eleuther.ai\u002F) 提出构想，随后由 FAR 和 EleutherAI 的研究人员共同协作开发完成。\n\n## 安装说明\n### 从 PyPI 安装\n首先，你需要在一个虚拟环境中安装基本的依赖项：\n* Python 3.9+\n* PyTorch 1.13.0+\n\n然后，你可以直接使用 pip 安装该包。\n```\npip install tuned-lens\n```\n\n### 使用容器安装\n如果你更倾向于在容器内运行训练脚本，可以使用我们提供的 Docker 容器。\n\n```\ndocker pull ghcr.io\u002Falignmentresearch\u002Ftuned-lens:latest\ndocker run --rm tuned-lens:latest tuned-lens --help\n```\n\n## 贡献\n请确保安装开发依赖并启用 pre-commit 钩子。\n```\n$ git clone https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens.git\n$ pip install -e \".[dev]\"\n$ pre-commit install\n```\n\n## 引用\n如果你觉得这个库对你有所帮助，请按以下格式引用：\n\n```bibtex\n@article{belrose2023eliciting,\n  title={Eliciting Latent Predictions from Transformers with the Tuned Lens},\n  authors={Belrose, Nora and Furman, Zach and Smith, Logan and Halawi, Danny and McKinney, Lev and Ostrovsky, Igor and Biderman, Stella and Steinhardt, Jacob},\n  journal={即将发表},\n  year={2023}\n}\n```\n\n> **警告**\n> 本包尚未达到 1.0 版本。公共接口可能会频繁变化，且不一定会伴随主要版本号的更新。","# Tuned Lens 快速上手指南\n\nTuned Lens 是一个用于理解 Transformer 模型如何逐层构建预测结果的工具。它通过训练“仿射转换器（affine translators）”，让你能够窥探模型中间层的残差流（residual stream），从而在不运行完所有层的情况下，查看基于中间表示的最佳预测分布。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows (推荐 Linux)\n*   **Python 版本**：3.9 或更高\n*   **深度学习框架**：PyTorch 1.13.0 或更高版本\n*   **包管理工具**：pip\n\n> **提示**：国内开发者建议使用国内镜像源（如清华源、阿里源）加速依赖下载。\n\n## 安装步骤\n\n### 方式一：通过 PyPI 安装（推荐）\n\n首先创建并激活一个虚拟环境（可选但推荐），然后使用 pip 安装：\n\n```bash\n# 推荐使用国内镜像源加速安装\npip install tuned-lens -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方式二：使用 Docker 容器\n\n如果你希望在一个隔离的容器中运行训练脚本，可以使用官方提供的 Docker 镜像：\n\n```bash\n# 拉取最新镜像\ndocker pull ghcr.io\u002Falignmentresearch\u002Ftuned-lens:latest\n\n# 验证安装并查看帮助信息\ndocker run --rm tuned-lens:latest tuned-lens --help\n```\n\n### 开发模式安装（贡献者适用）\n\n如果你需要修改源码或参与贡献：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens.git\ncd tuned-lens\npip install -e \".[dev]\" -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npre-commit install\n```\n\n## 基本使用\n\n安装完成后，你可以立即开始使用 Tuned Lens。最便捷的方式是通过 Google Colab 或 Hugging Face Spaces 进行交互式体验，无需本地配置 GPU 环境。\n\n### 1. 在线交互式体验\n\n*   **Google Colab**: [点击此处打开交互式 Notebook](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FAlignmentResearch\u002Ftuned-lens\u002Fblob\u002Fmain\u002Fnotebooks\u002Finteractive.ipynb)\n*   **Hugging Face Spaces**: [点击此处打开在线应用](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAlignmentResearch\u002Ftuned-lens)\n\n### 2. 命令行基础用法\n\n在本地终端中，你可以直接调用 `tuned-lens` 命令来查看可用选项：\n\n```bash\ntuned-lens --help\n```\n\n典型的工作流通常包含以下步骤（具体参数需根据模型调整）：\n\n1.  **训练 Lens**：针对特定模型和数据集训练仿射转换器。\n    ```bash\n    tuned-lens train \u003Cmodel_name_or_path> \u003Cdataset_name> --output_dir .\u002Flens_output\n    ```\n2.  **评估 Lens**：评估训练好的 Lens 在中间层的预测能力。\n    ```bash\n    tuned-lens eval \u003Cmodel_name_or_path> .\u002Flens_output\u002Fcheckpoint_best.pt --dataset \u003Cdataset_name>\n    ```\n\n> **注意**：该库目前尚未发布 1.0 正式版本，公共接口可能会频繁变更且不一定伴随主版本号升级，请在生产环境中谨慎使用。","某大模型安全团队正在排查一个医疗问答模型为何会突然输出错误的药物剂量建议，急需定位错误决策是在网络的哪一层形成的。\n\n### 没有 tuned-lens 时\n- **黑盒猜测**：只能看到模型最终的错误输出，无法得知是中间哪一层开始“想歪了”，排查全靠猜。\n- **方法粗糙**：尝试使用传统的 Logit Lens 直接读取中间层状态，但因忽略了层间表示的旋转和缩放，得到的预测结果噪声极大，毫无参考价值。\n- **效率低下**：为了验证假设，不得不反复修改提示词或进行大量消融实验，耗时数天仍无法锁定具体的故障层。\n- **归因困难**：难以区分是知识检索阶段出错，还是逻辑推理阶段发生了偏差，导致修复方案无从下手。\n\n### 使用 tuned-lens 后\n- **逐层透视**：利用训练好的仿射转换器（affine translators），直接跳过后续层，清晰看到每一层残差流对最终预测的贡献，精准定位错误始于第 18 层。\n- **预测精准**：tuned-lens 通过最小化 KL 散度校准了层间变换，即使在中间层也能还原出高置信度的潜在预测，真实反映了模型的思考过程。\n- **快速诊断**：在 Colab 中加载模型即可交互式查看各层输出，几分钟内就发现模型在该层过早地锁定了错误药物名称。\n- **针对性修复**：确认是特定层的注意力机制被误导后，团队只需微调该层参数或清洗对应训练数据，迅速解决了问题。\n\ntuned-lens 将变压器模型从不可知的黑盒变成了透明的玻璃盒，让开发者能像阅读日志一样逐层审查 AI 的决策逻辑。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAlignmentResearch_tuned-lens_4e427f26.png","AlignmentResearch","FAR.AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FAlignmentResearch_b5f6e3d9.png","Frontier alignment research to ensure the safe development and deployment of advanced AI systems.",null,"hello@far.ai","FARAIResearch","https:\u002F\u002Ffar.ai","https:\u002F\u002Fgithub.com\u002FAlignmentResearch",[82,86,90],{"name":83,"color":84,"percentage":85},"Python","#3572A5",88.4,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",10.9,{"name":91,"color":92,"percentage":93},"Dockerfile","#384d54",0.8,585,66,"2026-04-14T19:58:30","MIT","未说明","未说明（基于 PyTorch，通常建议配备支持 CUDA 的 NVIDIA GPU 以进行训练）",{"notes":101,"python":102,"dependencies":103},"该工具主要用于分析 Transformer 模型的中间层表示。除了通过 pip 安装外，官方还提供了 Docker 容器镜像（ghcr.io\u002Falignmentresearch\u002Ftuned-lens:latest）以便在隔离环境中运行训练脚本。项目目前处于 1.0 版本之前，公共接口可能会经常变动。","3.9+",[104],"torch>=1.13.0",[35,14],[107,108,109],"machine-learning","pytorch","transformers","2026-03-27T02:49:30.150509","2026-04-19T09:14:20.235845",[113,118,123,128,133,138],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},42104,"遇到 'ModuleNotFoundError: No module named white_box' 错误怎么办？","'white_box' 是该仓库的旧名称。安装应用程序后，相关模块应该已在您的路径中。如果您在笔记本中看到引用 `white_box.data` 的代码，这是因为笔记本尚未完全重构以反映最近的更改。关于数据集中提到的 `lens-test.jsonl`，它通常指的是 The Pile 数据集的测试集。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F49",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},42105,"是否支持在模型的中间层（如注意力机制后、MLP 前）显示 Logit Lens 或 Tuned Lens 的预测结果？","对于 GPTNeoX 架构（如 Pythia 系列），由于注意力和 MLP 层是并行运行的，中间残差流在计算图中实际上不存在，因此不支持训练单独的子组件 Lens。但对于 GPT-2、OPT 和 LLaMA 系列模型，中间点是存在的。在这些模型上，您可以使用现有的 Lens 在这些中间点生成表示。虽然不专门支持为每个子组件训练独立的 Lens，但 Lens 在不同层之间具有较好的迁移性，通常仍优于标准的 Logit Lens。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F104",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},42106,"如何在分布式训练过程中区分不同进程的日志输出？","目前建议使用 Python 内置的 logging 工具，并为每个进程的 logger 添加包含其进程 rank 的前缀（例如 'DEBUG (rank 0): ...'）。需要注意的是，部分日志来自 HuggingFace 或 bitsandbytes 等外部库，它们可能直接使用 print 语句而非 logging 模块。处理这些外部日志较为复杂，可能需要解析 stdout 或使用 `contextlib.redirect_stdout` 来重定向非主进程的输出，以避免日志混乱。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F86",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},42107,"是否有人针对 Llama-3.1-8B 或 Llama-3.1-8B-Instruct 训练过 Tuned Lens？应该使用什么数据集？","由于 Llama 3 之后的训练数据集内容不详，建议避免使用相同的数据来分析模型对不同语言的表示。您可以沿用之前训练 Llama-3-8B Lens 时使用的数据，或者回退使用 Logit Lens 并利用库的其他功能。此外，有一种潜在的解决方案是使用自蒸馏（self-distillation）：利用更大的模型（如 Llama-3.1-70B）生成合成数据集来训练 8B 模型的 Lens，这有助于消除分布偏移，但计算成本较高。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F136",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},42108,"如何复现 Tuned Lens 论文中的 Aitchison 相似度图表？","Aitchison 相似度相关的代码已在某个提交中被移除。若要复现该图表，您有两个选择：1. 检出该提交之前的版本，并运行当时 `intervention.py` 中的复现脚本；2. 将旧代码重构以适配最新版本。若选择后者，您需要参考旧版代码（如 `tuned_lens\u002Fcausal\u002Fintervention.py` 的历史版本），并处理诸如 `Decoder` 重命名为 `Unembed` 以及 `aitchison_similarity` 函数被移除等变更，手动将这些逻辑移植到当前代码库中。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F124",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},42109,"项目是否支持训练过程中的检查点保存与断点续训？","为了支持超大模型（如 LLaMA 30B\u002F65B）的训练及应对集群抢占式任务，项目需要支持定期将 Lens 状态、优化器状态和数据集状态保存到磁盘，并能在必要时自动加载。虽然早期实现曾因占用过多磁盘空间而被调整，但该功能对于长时间训练任务是必要的，通常通过自定义配置来实现检查点的保存频率和管理。","https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fissues\u002F79",[144,149,154,159,164],{"id":145,"version":146,"summary_zh":147,"released_at":148},334219,"v0.2.0","## 破坏性变更\n* `from_model_and_pretrained` 接口已更新，移除了 slice 选项；该功能现已迁移到独立的 `slice_sequence` 方法中。\n\n## 新特性\n* **与 Transformer Lens 的集成** https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fpull\u002F103\n\n    - 这可能是最重要的新特性。我们现在支持直接从 lens 和 `ActivationCache` 生成 `PredictionTrajectory`。\n    - 这意味着你可以使用 `tuned-lens` 项目提供的全套工具，可视化通过强大的 [`TransformerLens`](https:\u002F\u002Fgithub.com\u002Fneelnanda-io\u002FTransformerLens) 库进行干预的效果。\n    - 关于此集成的教程请参见 [这里](https:\u002F\u002Ftuned-lens.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Fcombining_with_transformer_lens.html)。\n* 排名可视化 https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fpull\u002F105\n    - 类似于原始的 [logit lens 博客文章](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FAcKRB8wDpdaN6v6ru\u002Finterpreting-gpt-the-logit-lens)，我们现在可以轻松地可视化目标 token 在预测分布中的排名。详情请参见：\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fcompare\u002Fv0.1.1...v0.2.0","2023-07-18T17:03:34",{"id":150,"version":151,"summary_zh":152,"released_at":153},334220,"v0.1.1","本次发布中的大部分更改都集中在改进训练和评估代码上。如果您主要使用预训练的 Lens，这些更改对您影响不大。\n\n## 更改\n* 评估子命令现在会生成 `json` 文件，按指定的标记数而非步数进行评估，并且命令行界面也得到了优化。（#92）\n* 训练现在支持检查点功能，允许在训练过程中保存 Lens，并在训练中断时从中断处恢复。（#95）\n* 训练现在可以以 8 位精度进行，不过目前尚无法与 fspd 同时使用。（#88、#94）\n\n## 错误修复\n* 使用 `[slow_tokenizers]` 可选依赖安装时，速度较慢的分词器现在可以正常工作。（#91）\n* 之前更改导致损坏的 Lens 哈希已被移除，不会再产生警告。（#99，https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAlignmentResearch\u002Ftuned-lens\u002Fdiscussions\u002F39）","2023-06-13T16:09:01",{"id":155,"version":156,"summary_zh":157,"released_at":158},334221,"v0.1.0","本次发布主要聚焦于清除技术债务、重构代码仓库以及提升代码库的工程规范。尽管也包含一些新功能，尤其是在绘图代码方面，但大部分工作仍致力于使代码库更易于维护，并为后续开发奠定坚实基础。\n\n## 变更内容\n* 本次更新移除了大量代码 #80。其中部分代码与复现arXiv论文归档版本中的几项实验相关。对于计划复现提示注入实验的用户，异常检测相关代码仍可在代码库的`0.0.5`版本中找到。\n* Tuned Lens 类本身也得到了大幅简化，通过将解嵌操作提取到一个独立的 `Unembed` 类中实现 #55。\n    * 对下游用户而言，**最大的接口变更**是预训练镜头加载的新接口。详细说明请参阅文档 [此处](https:\u002F\u002Ftuned-lens.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Floading_pretrained_lenses.html)。\n* 绘图代码经过全面重构，使其更加通用且易于扩展 #63。关于这些新功能的教程已收录在文档中 [这里](https:\u002F\u002Ftuned-lens.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Fprediction_trajectories.html)。\n* 训练代码被完全重写以实现模块化设计，引入了共享的“组件”，并移除了下游循环。有关新训练接口的使用方法，请参阅教程 [此处](https:\u002F\u002Ftuned-lens.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Ftraining_and_evaluating_lenses.html)。\n* `model_surgery` 模块不再依赖启发式方法来定位模型的特定组件 #69。\n* 数据处理代码也进行了精简 #78。\n* 此外，`Decoder` 类已被简化并更名为 `Unembed` 类 #71 #81, #55。\n\n## 贡献者\n本次更新的大部分内容由 @levmckinney 完成，同时向 @norabelrose 和 @alexmlong 的贡献致以衷心感谢，并感谢 @AdamGleave、@rhaps0dy 和 @taufeeque9 提供的代码评审。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FAlignmentResearch\u002Ftuned-lens\u002Fcompare\u002Fv0.0.5...v0.1.0","2023-05-02T01:28:42",{"id":160,"version":161,"summary_zh":162,"released_at":163},334222,"v0.0.5","本次发布很可能是 0.1.x 之前的最后一次正式版本。一些重大的重构工作即将合并入主分支。本次版本的主要内容是移除大量无用代码，并支持在训练脚本中为分词器指定版本，以及在 `TunedLens.load` 中为镜头指定版本。","2023-04-19T16:09:39",{"id":165,"version":166,"summary_zh":167,"released_at":168},334223,"v0.0.3","首次发布！","2023-03-15T00:55:15"]