[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zepingyu0512--awesome-llm-understanding-mechanism":3,"tool-zepingyu0512--awesome-llm-understanding-mechanism":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",152630,2,"2026-04-12T23:33:54",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":16},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[46,26,43,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":82,"owner_email":83,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":83,"stars":86,"forks":87,"last_commit_at":88,"license":83,"difficulty_score":54,"env_os":89,"env_gpu":90,"env_ram":90,"env_deps":91,"category_tags":94,"github_topics":83,"view_count":10,"oss_zip_url":83,"oss_zip_packed_at":83,"status":16,"created_at":95,"updated_at":96,"faqs":97,"releases":98},7010,"zepingyu0512\u002Fawesome-llm-understanding-mechanism","awesome-llm-understanding-mechanism","awesome papers in LLM interpretability","awesome-llm-understanding-mechanism 是一个专注于大语言模型（LLM）可解释性研究的精选论文清单。它致力于揭开大模型内部的“黑盒”机制，帮助研究者理解模型是如何进行推理、记忆知识以及产生幻觉的。\n\n当前大模型虽然能力强大，但其内部运作逻辑往往不透明，这给模型的安全性、可靠性及优化带来了挑战。awesome-llm-understanding-mechanism 通过系统梳理来自 ICML、NeurIPS、ACL 等顶级会议的前沿成果，集中展示了关于神经元分析、稀疏自编码器（SAE）、电路追踪（Circuit Tracing）以及模型编辑等关键领域的最新突破。这些研究不仅探讨了模型如何处理多跳推理和跨语言事实，还深入分析了如何缓解灾难性遗忘和防御越狱攻击。\n\n这份资源特别适合 AI 研究人员、算法工程师以及对深度学习机理有浓厚兴趣的开发者使用。无论是希望跟进最新学术动态，还是寻找改进模型架构的理论依据，用户都能从中获得高价值的参考。与其他通用列表不同，awesome-llm-understanding-mechanism 严格筛选由顶尖机构撰写的高质量论","awesome-llm-understanding-mechanism 是一个专注于大语言模型（LLM）可解释性研究的精选论文清单。它致力于揭开大模型内部的“黑盒”机制，帮助研究者理解模型是如何进行推理、记忆知识以及产生幻觉的。\n\n当前大模型虽然能力强大，但其内部运作逻辑往往不透明，这给模型的安全性、可靠性及优化带来了挑战。awesome-llm-understanding-mechanism 通过系统梳理来自 ICML、NeurIPS、ACL 等顶级会议的前沿成果，集中展示了关于神经元分析、稀疏自编码器（SAE）、电路追踪（Circuit Tracing）以及模型编辑等关键领域的最新突破。这些研究不仅探讨了模型如何处理多跳推理和跨语言事实，还深入分析了如何缓解灾难性遗忘和防御越狱攻击。\n\n这份资源特别适合 AI 研究人员、算法工程师以及对深度学习机理有浓厚兴趣的开发者使用。无论是希望跟进最新学术动态，还是寻找改进模型架构的理论依据，用户都能从中获得高价值的参考。与其他通用列表不同，awesome-llm-understanding-mechanism 严格筛选由顶尖机构撰写的高质量论文，并特别标注了技术标签（如 reasoning、safety、multimodal），方便用户快速定位所需方向，是探索大模型内在生物学与计算图谱的得力助手。","# Awesome Papers for Understanding LLM Mechanism\nThis list focuses on understanding the internal mechanism of large language models (LLM). Works in this list are accepted by top conferences (e.g. ICML, NeurIPS, ICLR, ACL, EMNLP, NAACL), or written by top research institutions.\n\nOther paper lists focuses on [SAE](https:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-SAE) and [neuron](https:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-LLM-neuron).\n\nPaper recommendation (accepted by conferences): please contact [me](https:\u002F\u002Fzepingyu0512.github.io\u002F).\n\n## Papers\n\n### 2025\n\n- [Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2505.16703)\n   - \\[EMNLP 2025\\] \\[2025.8\\] \\[multimodal\\] \\[model merging\\]\n\n- [Back Attention: Understanding and Enhancing Multi-Hop Reasoning in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.10835)\n   - \\[EMNLP 2025\\] \\[2025.8\\] \\[reasoning\\]\n\n- [Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2505.14436)\n   - \\[ACL 2025\\] \\[2025.5\\] \\[neuron\\]\n\n- [Model Unlearning via Sparse Autoencoder Subspace Guided Projections](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24428)\n   - \\[ICML 2025 workshop\\] \\[2025.5\\] \\[SAE\\]\n\n- [Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2504.04264)\n   - \\[ACL 2025\\] \\[2025.4\\] \\[multilinguality\\]\n\n- [On the Biology of a Large Language Model](https:\u002F\u002Ftransformer-circuits.pub\u002F2025\u002Fattribution-graphs\u002Fbiology.html)\n   - \\[Anthropic\\] \\[2025.3\\]\n\n- [Taming Knowledge Conflicts in Language Models](https:\u002F\u002Fwww.arxiv.org\u002Fpdf\u002F2503.10996)\n   - \\[ICML 2025\\] \\[2025.3\\] \\[knowledge\\] \\[hallucination\\] \\[superposition\\]\n\n- [Circuit Tracing: Revealing Computational Graphs in Language Models](https:\u002F\u002Ftransformer-circuits.pub\u002F2025\u002Fattribution-graphs\u002Fmethods.html)\n   - \\[Anthropic\\] \\[2025.3\\] \n \n- [The Mirage of Model Editing: Revisiting Evaluation in the Wild](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.11177)\n   - \\[ACL 2025\\] \\[2025.2\\] \\[model editing\\]\n \n- [Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11812)\n   - \\[ICML 2025\\] \\[2025.2\\] \\[circuit\\]\n\n- [AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.17148)\n   - \\[ICML 2025\\] \\[2025.1\\] \\[SAE\\]\n\n### 2024\n\n- [Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.17034)\n   - \\[ACL 2025\\] \\[2024.12\\] \\[safety\\]\n\n- [Disentangling Memory and Reasoning Ability in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.13504)\n   - \\[ACL 2025\\] \\[2024.11\\] \\[reasoning\\]\n\n- [Can Knowledge Editing Really Correct Hallucinations?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.16251)\n   - \\[ICLR 2025\\] \\[2024.10\\] \\[knowledge\\] \\[model editing\\]\n\n- [Arithmetic without algorithms: Language models solve math with a bag of heuristics](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.21272)\n   - \\[ICLR 2025\\] \\[2024.10\\] \\[arithmetic\\]\n\n- [Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis](https:\u002F\u002Fzepingyu0512.github.io\u002Farithmetic-mechanism.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.9\\] \\[neuron\\] \\[arithmetic\\] \\[fine-tune\\]\n\n- [NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.14561)\n  - \\[ICLR 2025\\] \\[2024.7\\]\n\n- [Scaling and evaluating sparse autoencoders](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.04093)\n   - \\[OpenAI\\] \\[2024.6\\] \\[SAE\\]\n\n- [BMIKE-53: Investigating Cross-Lingual Knowledge Editing with In-Context Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.17764?)\n   - \\[ACL 2025\\] \\[2024.6\\] \\[model editing\\]\n\n- [How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning](https:\u002F\u002Fzepingyu0512.github.io\u002Fin-context-mechanism.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[in-context learning\\]\n\n- [Hopping Too Late: Exploring the Limitations of Large Language Models on Multi-Hop Queries](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12775)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[knowledge\\] \\[reasoning\\]\n\n- [Neuron-Level Knowledge Attribution in Large Language Models](https:\u002F\u002Fzepingyu0512.github.io\u002Fneuron-attribution.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[neuron\\] \\[knowledge\\]\n\n- [Knowledge Circuits in Pretrained Transformers](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.17969)\n   - \\[NeurIPS 2024\\] \\[2024.5\\] \\[circuit\\] \\[knowledge\\]\n\n- [Not All Language Model Features Are One-Dimensionally Linear](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.14860)\n   - \\[ICLR 2025\\] \\[2024.5\\] \\[SAE\\]\n     \n- [Locating and Editing Factual Associations in Mamba](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03646.pdf)\n   - \\[COLM 2024\\] \\[2024.4\\] \\[causal\\] \\[knowledge\\]\n\n- [Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03623)\n   - \\[COLM 2024\\] \\[2024.4\\] \\[activation patching\\]\n\n- [Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.17806)\n   - \\[COLM 2024\\] \\[2024.3\\] \\[circuit\\] \n\n- [Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.05846)\n   - \\[ACL 2024\\] \\[2024.3\\] \\[logit lens\\] \\[multimodal\\]\n\n- [Chain-of-Thought Reasoning Without Prompting](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10200.pdf)\n   - \\[Deepmind\\] \\[2024.2\\] \\[chain-of-thought\\]\n \n- [Backward Lens: Projecting Language Model Gradients into the Vocabulary Space](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.12865)\n   - \\[EMNLP 2024\\] \\[2024.2\\] \\[logit lens\\]\n\n- [Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14811.pdf)\n   - \\[ICLR 2024\\] \\[2024.2\\] \\[fine-tune\\]\n\n- [TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.17811)\n   - \\[ACL 2024\\] \\[2024.2\\] \\[hallucination\\]\n \n- [Understanding and Patching Compositional Reasoning in LLMs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14328)\n  - \\[ACL 2024\\] \\[2024.2\\] \\[reasoning\\]\n\n- [Do Large Language Models Latently Perform Multi-Hop Reasoning?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.16837)\n   - \\[ACL 2024\\] \\[2024.2\\] \\[knowledge\\] \\[reasoning\\]\n\n- [Long-form evaluation of model editing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.09394)\n   - \\[NAACL 2024\\] \\[2024.2\\] \\[model editing\\]\n\n- [A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.01967)\n   - \\[ICML 2024\\] \\[2024.1\\] \\[toxicity\\] \\[fine-tune\\]\n\n- [The Impact of Reasoning Step Length on Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.04925)\n   - \\[ACL 2024\\] \\[2024.1\\] \\[reasoning\\]\n\n### 2023\n\n- [What does the Knowledge Neuron Thesis Have to do with Knowledge?](https:\u002F\u002Fopenreview.net\u002Fpdf?id=2HJRwwbV3G)\n   - \\[ICLR 2024\\] \\[2023.11\\] \\[knowledge\\] \\[neuron\\] \n\n- [Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12786)\n   - \\[ICLR 2024\\] \\[2023.11\\] \\[fine-tune\\]   \n\n- [Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet](https:\u002F\u002Ftransformer-circuits.pub\u002F2024\u002Fscaling-monosemanticity\u002Findex.html)\n   - \\[Anthropic\\] \\[2023.10\\] \\[SAE\\]\n\n- [Interpreting CLIP's Image Representation via Text-Based Decomposition](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.05916)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[multimodal\\]\n\n- [Towards Best Practices of Activation Patching in Language Models: Metrics and Methods](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.16042.pdf)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[causal\\] \\[circuit\\]\n\n- [Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FiGuwZTHWb6DFY3sKB\u002Ffact-finding-attempting-to-reverse-engineer-factual-recall)\n   - \\[Deepmind\\] \\[2023.12\\] \\[neuron\\]\n\n- [Successor Heads: Recurring, Interpretable Attention Heads In The Wild](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.09230.pdf)\n   - \\[ICLR 2024\\] \\[2023.12\\] \\[circuit\\]\n\n- [Towards Monosemanticity: Decomposing Language Models With Dictionary Learning](https:\u002F\u002Ftransformer-circuits.pub\u002F2023\u002Fmonosemantic-features)\n   - \\[Anthropic\\] \\[2023.10\\] \\[SAE\\]\n\n- [Impact of Co-occurrence on Factual Knowledge of Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08256.pdf)\n   - \\[EMNLP 2023\\] \\[2023.10\\] \\[knowledge\\]\n\n- [Function vectors in large language models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.15213.pdf)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[in-context learning\\]\n\n- [Neurons in Large Language Models: Dead, N-gram, Positional](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.04827.pdf)\n   - \\[ACL 2024\\] \\[2023.9\\] \\[neuron\\]\n\n- [Sparse Autoencoders Find Highly Interpretable Features in Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.08600)\n   - \\[ICLR 2024\\] \\[2023.9\\] \\[SAE\\]\n\n- [Can LLM-Generated Misinformation Be Detected?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.13788)\n   - \\[ICLR 2024\\] \\[2023.9\\] \\[misinformation\\]\n\n- [Do Machine Learning Models Memorize or Generalize?](https:\u002F\u002Fpair.withgoogle.com\u002Fexplorables\u002Fgrokking\u002F)\n   - \\[2023.8\\] \\[grokking\\]\n\n- [Overthinking the Truth: Understanding how Language Models Process False Demonstrations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09476.pdf)\n   - \\[TACL 2024\\] \\[2023.7\\] \\[circuit\\]\n\n- [Evaluating the ripple effects of knowledge editing in language models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.12976)\n   - \\[2023.7\\] \\[knowledge\\] \\[model editing\\]\n\n- [Inference-Time Intervention: Eliciting Truthful Answers from a Language Model](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.03341)\n   - \\[NeurIPS 2023\\] \\[2023.6\\] \\[hallucination\\]\n\n- [VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.13417)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[logit lens\\]\n \n- [Finding Neurons in a Haystack: Case Studies with Sparse Probing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.01610)\n   - \\[TMLR 2024\\] \\[2023.5\\] \\[neuron\\]\n\n- [Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14160.pdf)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[in-context learning\\]\n\n- [Let's Verify Step by Step](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.20050.pdf)\n   - \\[ICLR 2024\\] \\[2023.5\\] \\[chain-of-thought\\]\n\n- [What In-Context Learning \"Learns\" In-Context: Disentangling Task Recognition and Task Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.09731.pdf)\n   - \\[ACL 2023\\] \\[2023.5\\] \\[in-context learning\\]\n\n- [Language models can explain neurons in language models](https:\u002F\u002Fopenai.com\u002Fresearch\u002Flanguage-models-can-explain-neurons-in-language-models)\n   - \\[OpenAI\\] \\[2023.5\\] \\[neuron\\]\n\n- [A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.15054.pdf)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[causal\\] \\[arithmetic\\]\n\n- [Dissecting Recall of Factual Associations in Auto-Regressive Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.14767.pdf)\n   - \\[EMNLP 2023\\] \\[2023.4\\] \\[causal\\] \\[knowledge\\]\n\n- [The Internal State of an LLM Knows When It's Lying](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.13734)\n   - \\[EMNLP 2023\\] \\[2023.4\\] \\[hallucination\\]\n\n- [Are Emergent Abilities of Large Language Models a Mirage?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.15004.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[grokking\\]\n\n- [Towards automated circuit discovery for mechanistic interpretability](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.14997.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[circuit\\]\n\n- [How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.00586.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[circuit\\] \\[arithmetic\\]\n\n- [Larger language models do in-context learning differently](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03846.pdf)\n   - \\[Google Research\\] \\[2023.3\\] \\[in-context learning\\]\n\n- [Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.04213.pdf)\n   - \\[NeurIPs 2023\\] \\[2023.1\\] \\[knowledge\\] \\[model editing\\]\n\n### 2022\n\n- [Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.10001.pdf)\n   - \\[ACL 2023\\] \\[2022.12\\] \\[chain-of-thought\\]\n\n- [Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.00593.pdf)\n   - \\[ICLR 2023\\] \\[2022.11\\] \\[arithmetic\\] \\[circuit\\]\n\n- [Inverse scaling can become U-shaped](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.02011.pdf)\n   - \\[EMNLP 2023\\] \\[2022.11\\] \\[grokking\\]\n\n- [Mass-Editing Memory in a Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.07229.pdf)\n   - \\[ICLR 2023\\] \\[2022.10\\] \\[model editing\\]\n\n- [Polysemanticity and Capacity in Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.01892.pdf)\n   - \\[2022.10\\] \\[neuron\\] \\[SAE\\]\n\n- [Analyzing Transformers in Embedding Space](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.02535.pdf)\n   - \\[ACL 2023\\] \\[2022.9\\] \\[logit lens\\]\n\n- [Toy Models of Superposition](https:\u002F\u002Ftransformer-circuits.pub\u002F2022\u002Ftoy_model\u002Findex.html)\n   - \\[Anthropic\\] \\[2022.9\\] \\[neuron\\] \\[SAE\\]\n\n- [Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.07686.pdf)\n   - \\[Google Research\\] \\[2022.9\\] \\[chain-of-thought\\]\n\n- [Emergent Abilities of Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.07682.pdf)\n   - \\[Google Research\\] \\[2022.6\\] \\[grokking\\]\n\n- [Towards Tracing Factual Knowledge in Language Models Back to the Training Data](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.11482.pdf)\n   - \\[EMNLP 2022\\] \\[2022.5\\] \\[knowledge\\] \\[data\\]\n\n- [Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.12685.pdf)\n   - \\[EMNLP 2022\\] \\[2022.5\\] \\[in-context learning\\]\n\n- [Large Language Models are Zero-Shot Reasoners](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.11916.pdf)\n   - \\[NeurIPS 2022\\]  \\[2022.5\\] \\[chain-of-thought\\]\n\n- [Scaling Laws and Interpretability of Learning from Repeated Data](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10487.pdf)\n   - \\[Anthropic\\] \\[2022.5\\] \\[grokking\\] \\[data\\]\n\n- [Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.14680.pdf)\n   - \\[EMNLP 2022\\] \\[2022.3\\] \\[neuron\\] \\[logit lens\\] \n\n- [In-context Learning and Induction Heads](https:\u002F\u002Ftransformer-circuits.pub\u002F2022\u002Fin-context-learning-and-induction-heads\u002Findex.html)\n   - \\[Anthropic\\] \\[2022.3\\] \\[circuit\\] \\[in-context learning\\]\n\n- [Locating and Editing Factual Associations in GPT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.05262.pdf)\n   - \\[NeurIPS 2022\\] \\[2022.2\\] \\[causal\\] \\[knowledge\\]\n\n- [Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.12837.pdf)\n   - \\[EMNLP 2022\\] \\[2022.2\\] \\[in-context learning\\]\n\n- [Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.02177.pdf)\n   - \\[OpenAI & Google\\] [2022.1\\] \\[grokking\\]\n\n- [Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.11903.pdf)\n   - \\[NeurIPS 2022\\] \\[2022.1\\] \\[chain-of-thought\\]\n\n### 2021\n\n- [A Mathematical Framework for Transformer Circuits](https:\u002F\u002Ftransformer-circuits.pub\u002F2021\u002Fframework\u002Findex.html)\n   - \\[Anthropic\\] \\[2021.12\\] \\[circuit\\] \n\n- [Towards a Unified View of Parameter-Efficient Transfer Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.04366.pdf)\n   - \\[ICLR 2022\\] \\[2021.10\\] \\[fine-tune\\]\n\n- [Deduplicating Training Data Makes Language Models Better](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.06499.pdf)\n   - \\[ACL 2022\\] \\[2021.7\\] \\[fine-tune\\] \\[data\\]\n\n- [Detecting Local Insights from Global Labels: Supervised & Zero-Shot Sequence Labeling via a Convolutional Decomposition](https:\u002F\u002Faclanthology.org\u002F2021.cl-4.25.pdf)\n   - \\[EMNLP 2021\\] \\[2021.7\\] \n\n- [Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08786.pdf)\n   - \\[ACL 2022\\] \\[2021.4\\] \\[in-context learning\\]\n\n- [Calibrate Before Use: Improving Few-Shot Performance of Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.09690.pdf)\n   - \\[ICML 2021\\] \\[2021.2\\] \\[in-context learning\\]\n\n- [Transformer Feed-Forward Layers Are Key-Value Memories](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14913.pdf)\n   - \\[EMNLP 2021\\] \\[2020.12\\] \\[neuron\\]\n \n\n\n## Survey\n\n- [A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.05613)\n   - \\[2025.3\\] \\[SAE\\]\n\n- [Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.09567)\n   - \\[2025.3\\] \\[LLM reasoning\\] \\[long COT\\]\n\n- [Mechanistic Interpretability for AI Safety A Review](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14082)\n   - \\[2024.8\\] \\[safety\\]\n\n- [A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.02646)\n   - \\[2024.7\\] \\[interpretability\\]\n\n- [Internal Consistency and Self-Feedback in Large Language Models: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.14507)\n   - \\[2024.7\\]\n\n- [Knowledge Mechanisms in Large Language Models: A Survey and Perspective](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.15017)\n   - \\[2024.7\\] \\[knowledge\\]\n\n- [A Primer on the Inner Workings of Transformer-based Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.00208)\n   - \\[2024.5\\] \\[interpretability\\]\n\n- [Usable XAI: 10 strategies towards exploiting explainability in the LLM era](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.08946)\n   - \\[2024.3\\] \\[interpretability\\]\n\n- [A Comprehensive Overview of Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06435.pdf)\n   - \\[2023.12\\] \\[LLM\\]\n\n- [A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.05232)\n   - \\[2023.11\\] \\[hallucination\\]\n\n- [A Survey of Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.18223.pdf)\n   - \\[2023.11\\] \\[LLM\\]\n\n- [Explainability for Large Language Models: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.01029.pdf)\n   - \\[2023.11\\] \\[interpretability\\]\n\n- [A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.15402.pdf)\n   - \\[2023.10\\] \\[chain of thought\\]\n\n- [Instruction tuning for large language models: A survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.10792.pdf)\n   - \\[2023.10\\] \\[instruction tuning\\]\n\n- [From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.00492)\n   - \\[2023.9\\] \\[instruction tuning\\]\n\n- [Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.01219.pdf)\n   - \\[2023.9\\] \\[hallucination\\]\n\n- [Reasoning with language model prompting: A survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.09597.pdf)\n   - \\[2023.9\\] \\[reasoning\\]\n\n- [Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.13243.pdf)\n   - \\[2023.8\\] \\[interpretability\\]\n\n- [A Survey on In-context Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.00234.pdf)\n   - \\[2023.6\\] \\[in-context learning\\]\n\n- [Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.15647.pdf)\n   - \\[2023.3\\] \\[parameter-efficient fine-tuning\\]\n\n## Other good LLM repos\n\n- https:\u002F\u002Fgithub.com\u002FruizheliUOA\u002FAwesome-Interpretability-in-Large-Language-Models (interpretability)\n\n- https:\u002F\u002Fgithub.com\u002Fcooperleong00\u002FAwesome-LLM-Interpretability?tab=readme-ov-file (interpretability)\n\n- https:\u002F\u002Fgithub.com\u002FJShollaj\u002Fawesome-llm-interpretability (interpretability)\n\n- https:\u002F\u002Fgithub.com\u002FIAAR-Shanghai\u002FAwesome-Attention-Heads (attention)\n\n- https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FKnowledgeEditingPapers (model editing)\n\n- https:\u002F\u002Fgithub.com\u002FHannibal046\u002FAwesome-LLM (LLM)\n\n## Why mechanistic interpretability?\n\n[From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12618)\n\n[Interpretability Dreams](https:\u002F\u002Ftransformer-circuits.pub\u002F2023\u002Finterpretability-dreams\u002Findex.html)\n\n[A Longlist of Theories of Impact for Interpretability](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FuK6sQCNMw8WKzJeCQ\u002Fa-longlist-of-theories-of-impact-for-interpretability)\n\n## Recommended blogs\n\n- [Transformer Circuits Thread](https:\u002F\u002Ftransformer-circuits.pub\u002F)\n\n- [Neel Nanda's mechanistic interpretability blogs](https:\u002F\u002Fwww.neelnanda.io\u002Fmechanistic-interpretability)\n\n- [Lesswrong](https:\u002F\u002Fwww.lesswrong.com\u002F)\n\n- [AI alignment form](https:\u002F\u002Fwww.alignmentforum.org\u002F)\n","# 用于理解大语言模型机制的优秀论文\n本列表专注于理解大语言模型（LLM）的内部机制。列表中的工作均已被顶级会议（如 ICML、NeurIPS、ICLR、ACL、EMNLP、NAACL）接收，或由顶尖研究机构撰写。\n\n其他论文列表则聚焦于 [SAE](https:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-SAE) 和 [神经元](https:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-LLM-neuron)。\n\n论文推荐（已录用至会议）：请联系 [我](https:\u002F\u002Fzepingyu0512.github.io\u002F)。\n\n## 论文\n\n### 2025年\n\n- [定位后合并：用于缓解多模态大语言模型灾难性遗忘的神经元级参数融合](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2505.16703)\n   - \\[EMNLP 2025\\] \\[2025.8\\] \\[多模态\\] \\[模型合并\\]\n\n- [反向注意力：理解并增强大语言模型中的多跳推理](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.10835)\n   - \\[EMNLP 2025\\] \\[2025.8\\] \\[推理\\]\n\n- [神经不兼容性：大语言模型中跨尺度参数知识迁移的不可逾越鸿沟](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2505.14436)\n   - \\[ACL 2025\\] \\[2025.5\\] \\[神经元\\]\n\n- [基于稀疏自编码器子空间引导投影的模型遗忘](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24428)\n   - \\[ICML 2025 研讨会\\] \\[2025.5\\] \\[SAE\\]\n\n- [迷失在多语言性中：剖析 Transformer 语言模型中的跨语言事实一致性问题](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2504.04264)\n   - \\[ACL 2025\\] \\[2025.4\\] \\[多语言性\\]\n\n- [关于大语言模型的生物学](https:\u002F\u002Ftransformer-circuits.pub\u002F2025\u002Fattribution-graphs\u002Fbiology.html)\n   - \\[Anthropic\\] \\[2025.3\\]\n\n- [驯服语言模型中的知识冲突](https:\u002F\u002Fwww.arxiv.org\u002Fpdf\u002F2503.10996)\n   - \\[ICML 2025\\] \\[2025.3\\] \\[知识\\] \\[幻觉\\] \\[叠加\\]\n\n- [电路追踪：揭示语言模型中的计算图](https:\u002F\u002Ftransformer-circuits.pub\u002F2025\u002Fattribution-graphs\u002Fmethods.html)\n   - \\[Anthropic\\] \\[2025.3\\]\n\n- [模型编辑的海市蜃楼：重新审视野外评估](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.11177)\n   - \\[ACL 2025\\] \\[2025.2\\] \\[模型编辑\\]\n\n- [通过电路分析理解大语言模型的微调机制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11812)\n   - \\[ICML 2025\\] \\[2025.2\\] \\[电路\\]\n\n- [AxBench：操控大语言模型？即使是简单的基线也优于稀疏自编码器](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.17148)\n   - \\[ICML 2025\\] \\[2025.1\\] \\[SAE\\]\n\n### 2024年\n\n- [塑造安全边界：理解并防御大语言模型中的越狱攻击](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.17034)\n   - \\[ACL 2025\\] \\[2024.12\\] \\[安全\\]\n\n- [解耦大语言模型中的记忆与推理能力](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.13504)\n   - \\[ACL 2025\\] \\[2024.11\\] \\[推理\\]\n\n- [知识编辑真的能纠正幻觉吗？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.16251)\n   - \\[ICLR 2025\\] \\[2024.10\\] \\[知识\\] \\[模型编辑\\]\n\n- [无需算法的算术：语言模型用一堆启发式方法解数学题](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.21272)\n   - \\[ICLR 2025\\] \\[2024.10\\] \\[算术\\]\n\n- [通过对比神经元分析解读大语言模型中的算术机制](https:\u002F\u002Fzepingyu0512.github.io\u002Farithmetic-mechanism.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.9\\] \\[神经元\\] \\[算术\\] \\[微调\\]\n\n- [NNsight 和 NDIF：让开放权重基础模型的内部机制更加普及](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.14561)\n   - \\[ICLR 2025\\] \\[2024.7\\]\n\n- [稀疏自编码器的扩展与评估](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.04093)\n   - \\[OpenAI\\] \\[2024.6\\] \\[SAE\\]\n\n- [BMIKE-53：利用上下文学习探究跨语言知识编辑](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.17764?)\n   - \\[ACL 2025\\] \\[2024.6\\] \\[模型编辑\\]\n\n- [大语言模型如何进行上下文学习？上下文头的查询和键矩阵是度量学习的两座塔](https:\u002F\u002Fzepingyu0512.github.io\u002Fin-context-mechanism.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[上下文学习\\]\n\n- [跳跃得太晚：探索大语言模型在多跳查询上的局限性](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12775)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[知识\\] \\[推理\\]\n\n- [大语言模型中的神经元级知识归因](https:\u002F\u002Fzepingyu0512.github.io\u002Fneuron-attribution.github.io\u002F)\n   - \\[EMNLP 2024\\] \\[2024.6\\] \\[神经元\\] \\[知识\\]\n\n- [预训练 Transformer 中的知识电路](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.17969)\n   - \\[NeurIPS 2024\\] \\[2024.5\\] \\[电路\\] \\[知识\\]\n\n- [并非所有语言模型特征都是一维线性的](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.14860)\n   - \\[ICLR 2025\\] \\[2024.5\\] \\[SAE\\]\n\n- [在 Mamba 中定位和编辑事实关联](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03646.pdf)\n   - \\[COLM 2024\\] \\[2024.4\\] \\[因果\\] \\[知识\\]\n\n- [揭秘 LLM：动态知识图谱中潜在表示的演化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.03623)\n   - \\[COLM 2024\\] \\[2024.4\\] \\[激活修补\\]\n\n- [相信忠实性：寻找模型机制时超越电路重叠](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.17806)\n   - \\[COLM 2024\\] \\[2024.3\\] \\[电路\\]\n\n- [扩散镜头：解读文本到图像流水线中的文本编码器](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.05846)\n   - \\[ACL 2024\\] \\[2024.3\\] \\[logit 镜头\\] \\[多模态\\]\n\n- [无需提示的思维链推理](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10200.pdf)\n   - \\[Deepmind\\] \\[2024.2\\] \\[思维链\\]\n\n- [逆向镜头：将语言模型梯度投射到词汇空间](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.12865)\n   - \\[EMNLP 2024\\] \\[2024.2\\] \\[logit 镜头\\]\n\n- [微调增强现有机制：以实体追踪为例](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14811.pdf)\n   - \\[ICLR 2024\\] \\[2024.2\\] \\[微调\\]\n\n- [TruthX：通过在真实空间中编辑大语言模型来缓解幻觉](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.17811)\n   - \\[ACL 2024\\] \\[2024.2\\] \\[幻觉\\]\n\n- [理解和修补 LLM 中的组合推理](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.14328)\n   - \\[ACL 2024\\] \\[2024.2\\] \\[推理\\]\n\n- [大语言模型是否潜在地进行多跳推理？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.16837)\n   - \\[ACL 2024\\] \\[2024.2\\] \\[知识\\] \\[推理\\]\n\n- [对模型编辑的长周期评估](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.09394)\n   - \\[NAACL 2024\\] \\[2024.2\\] \\[模型编辑\\]\n\n- [对对齐算法的机制性理解：以 DPO 和毒性为例](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.01967)\n   - \\[ICML 2024\\] \\[2024.1\\] \\[毒性\\] \\[微调\\]\n\n- [推理步长对大语言模型的影响](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.04925)\n   - \\[ACL 2024\\] \\[2024.1\\] \\[推理\\]\n\n### 2023年\n\n- [知识神经元论文与知识有何关系？](https:\u002F\u002Fopenreview.net\u002Fpdf?id=2HJRwwbV3G)\n   - \\[ICLR 2024\\] \\[2023.11\\] \\[知识\\] \\[神经元\\] \n\n- [从机制上分析微调对程序化定义任务的影响](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.12786)\n   - \\[ICLR 2024\\] \\[2023.11\\] \\[微调\\]   \n\n- [扩展单义性：从Claude 3 Sonnet中提取可解释特征](https:\u002F\u002Ftransformer-circuits.pub\u002F2024\u002Fscaling-monosemanticity\u002Findex.html)\n   - \\[Anthropic\\] \\[2023.10\\] \\[SAE\\]\n\n- [通过基于文本的分解来解读CLIP的图像表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.05916)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[多模态\\]\n\n- [语言模型中激活修补的最佳实践：指标与方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.16042.pdf)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[因果\\] \\[回路\\]\n\n- [事实发现：尝试在神经元层面逆向工程事实回忆](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FiGuwZTHWb6DFY3sKB\u002Ffact-finding-attempting-to-reverse-engineer-factual-recall)\n   - \\[Deepmind\\] \\[2023.12\\] \\[神经元\\]\n\n- [继任头：自然界中反复出现的可解释注意力头](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.09230.pdf)\n   - \\[ICLR 2024\\] \\[2023.12\\] \\[回路\\]\n\n- [迈向单义性：用字典学习分解语言模型](https:\u002F\u002Ftransformer-circuits.pub\u002F2023\u002Fmonosemantic-features)\n   - \\[Anthropic\\] \\[2023.10\\] \\[SAE\\]\n\n- [共现对大型语言模型事实知识的影响](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.08256.pdf)\n   - \\[EMNLP 2023\\] \\[2023.10\\] \\[知识\\]\n\n- [大型语言模型中的函数向量](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.15213.pdf)\n   - \\[ICLR 2024\\] \\[2023.10\\] \\[上下文学习\\]\n\n- [大型语言模型中的神经元：死神经元、N-gram神经元、位置编码神经元](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.04827.pdf)\n   - \\[ACL 2024\\] \\[2023.9\\] \\[神经元\\]\n\n- [稀疏自编码器在语言模型中找到高度可解释的特征](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.08600)\n   - \\[ICLR 2024\\] \\[2023.9\\] \\[SAE\\]\n\n- [能否检测由LLM生成的虚假信息？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.13788)\n   - \\[ICLR 2024\\] \\[2023.9\\] \\[虚假信息\\]\n\n- [机器学习模型是记忆还是泛化？](https:\u002F\u002Fpair.withgoogle.com\u002Fexplorables\u002Fgrokking\u002F)\n   - \\[2023.8\\] \\[领悟\\]\n\n- [过度思考真相：理解语言模型如何处理虚假论证](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.09476.pdf)\n   - \\[TACL 2024\\] \\[2023.7\\] \\[回路\\]\n\n- [评估语言模型中知识编辑的涟漪效应](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.12976)\n   - \\[2023.7\\] \\[知识\\] \\[模型编辑\\]\n\n- [推理时干预：从语言模型中诱导出诚实的回答](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2306.03341)\n   - \\[NeurIPS 2023\\] \\[2023.6\\] \\[幻觉\\]\n\n- [VISIT：可视化并解释Transformer的语义信息流](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.13417)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[logit lens\\]\n \n- [在干草堆中寻找神经元：稀疏探测的案例研究](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.01610)\n   - \\[TMLR 2024\\] \\[2023.5\\] \\[神经元\\]\n\n- [标签词是锚点：一种信息流视角下的上下文学习理解](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.14160.pdf)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[上下文学习\\]\n\n- [让我们逐步验证](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.20050.pdf)\n   - \\[ICLR 2024\\] \\[2023.5\\] \\[链式思维\\]\n\n- [上下文学习“学到”的究竟是什么：拆解任务识别与任务学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.09731.pdf)\n   - \\[ACL 2023\\] \\[2023.5\\] \\[上下文学习\\]\n\n- [语言模型可以解释语言模型中的神经元](https:\u002F\u002Fopenai.com\u002Fresearch\u002Flanguage-models-can-explain-neurons-in-language-models)\n   - \\[OpenAI\\] \\[2023.5\\] \\[神经元\\]\n\n- [利用因果中介分析对语言模型中算术推理的机制性解释](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.15054.pdf)\n   - \\[EMNLP 2023\\] \\[2023.5\\] \\[因果\\] \\[算术\\]\n\n- [剖析自回归语言模型中事实关联的记忆](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.14767.pdf)\n   - \\[EMNLP 2023\\] \\[2023.4\\] \\[因果\\] \\[知识\\]\n\n- [LLM的内部状态知道它何时在撒谎](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.13734)\n   - \\[EMNLP 2023\\] \\[2023.4\\] \\[幻觉\\]\n\n- [大型语言模型的涌现能力是海市蜃楼吗？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.15004.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[领悟\\]\n\n- [迈向用于机制性可解释性的自动化回路发现](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2304.14997.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[回路\\]\n\n- [GPT-2如何计算大于运算？：解释预训练语言模型中的数学能力](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.00586.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.4\\] \\[回路\\] \\[算术\\]\n\n- [更大的语言模型进行上下文学习的方式不同](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.03846.pdf)\n   - \\[Google Research\\] \\[2023.3\\] \\[上下文学习\\]\n\n- [定位是否能指导编辑？语言模型中基于因果的定位与知识编辑之间的惊人差异](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.04213.pdf)\n   - \\[NeurIPS 2023\\] \\[2023.1\\] \\[知识\\] \\[模型编辑\\]\n\n### 2022年\n\n- [迈向对思维链提示的理解：一项关于关键因素的实证研究](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.10001.pdf)\n   - \\[ACL 2023\\] \\[2022.12\\] \\[思维链\\]\n\n- [野外可解释性：GPT-2 small 中间接宾语识别的电路](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.00593.pdf)\n   - \\[ICLR 2023\\] \\[2022.11\\] \\[算术\\] \\[电路\\]\n\n- [逆尺度效应可能呈现 U 形](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2211.02011.pdf)\n   - \\[EMNLP 2023\\] \\[2022.11\\] \\[领悟\\]\n\n- [Transformer 中的记忆批量编辑](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.07229.pdf)\n   - \\[ICLR 2023\\] \\[2022.10\\] \\[模型编辑\\]\n\n- [神经网络中的多义性和容量](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.01892.pdf)\n   - \\[2022.10\\] \\[神经元\\] \\[SAE\\]\n\n- [嵌入空间中的 Transformer 分析](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.02535.pdf)\n   - \\[ACL 2023\\] \\[2022.9\\] \\[logit lens\\]\n\n- [叠加现象的玩具模型](https:\u002F\u002Ftransformer-circuits.pub\u002F2022\u002Ftoy_model\u002Findex.html)\n   - \\[Anthropic\\] \\[2022.9\\] \\[神经元\\] \\[SAE\\]\n\n- [文本与模式：有效的思维链需要双方配合](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2209.07686.pdf)\n   - \\[Google Research\\] \\[2022.9\\] \\[思维链\\]\n\n- [大型语言模型的涌现能力](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.07682.pdf)\n   - \\[Google Research\\] \\[2022.6\\] \\[领悟\\]\n\n- [将语言模型中的事实性知识追溯到训练数据](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.11482.pdf)\n   - \\[EMNLP 2022\\] \\[2022.5\\] \\[知识\\] \\[数据\\]\n\n- [真实标签很重要：深入探讨输入-标签示范](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.12685.pdf)\n   - \\[EMNLP 2022\\] \\[2022.5\\] \\[上下文学习\\]\n\n- [大型语言模型是零样本推理者](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.11916.pdf)\n   - \\[NeurIPS 2022\\] \\[2022.5\\] \\[思维链\\]\n\n- [重复数据学习的规模定律与可解释性](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10487.pdf)\n   - \\[Anthropic\\] \\[2022.5\\] \\[领悟\\] \\[数据\\]\n\n- [Transformer 前馈层通过在词汇空间中提升概念来构建预测](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2203.14680.pdf)\n   - \\[EMNLP 2022\\] \\[2022.3\\] \\[神经元\\] \\[logit lens\\]\n\n- [上下文学习与归纳头](https:\u002F\u002Ftransformer-circuits.pub\u002F2022\u002Fin-context-learning-and-induction-heads\u002Findex.html)\n   - \\[Anthropic\\] \\[2022.3\\] \\[电路\\] \\[上下文学习\\]\n\n- [定位并编辑 GPT 中的事实关联](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.05262.pdf)\n   - \\[NeurIPS 2022\\] \\[2022.2\\] \\[因果\\] \\[知识\\]\n\n- [重新思考示范的作用：是什么让上下文学习奏效？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.12837.pdf)\n   - \\[EMNLP 2022\\] \\[2022.2\\] \\[上下文学习\\]\n\n- [领悟：超越过拟合的小型算法数据集上的泛化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.02177.pdf)\n   - \\[OpenAI & Google\\] \\[2022.1\\] \\[领悟\\]\n\n- [思维链提示能激发大型语言模型的推理能力](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.11903.pdf)\n   - \\[NeurIPS 2022\\] \\[2022.1\\] \\[思维链\\]\n\n### 2021年\n\n- [Transformer 电路的数学框架](https:\u002F\u002Ftransformer-circuits.pub\u002F2021\u002Fframework\u002Findex.html)\n   - \\[Anthropic\\] \\[2021.12\\] \\[电路\\]\n\n- [迈向参数高效迁移学习的统一视角](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.04366.pdf)\n   - \\[ICLR 2022\\] \\[2021.10\\] \\[微调\\]\n\n- [去重训练数据能使语言模型表现更好](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.06499.pdf)\n   - \\[ACL 2022\\] \\[2021.7\\] \\[微调\\] \\[数据\\]\n\n- [从全局标签中检测局部洞见：基于卷积分解的监督与零样本序列标注](https:\u002F\u002Faclanthology.org\u002F2021.cl-4.25.pdf)\n   - \\[EMNLP 2021\\] \\[2021.7\\]\n\n- [奇妙有序的提示及其寻找方法：克服少样本提示顺序敏感性](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08786.pdf)\n   - \\[ACL 2022\\] \\[2021.4\\] \\[上下文学习\\]\n\n- [使用前先校准：提升语言模型的少样本性能](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.09690.pdf)\n   - \\[ICML 2021\\] \\[2021.2\\] \\[上下文学习\\]\n\n- [Transformer 前馈层是键值记忆](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14913.pdf)\n   - \\[EMNLP 2021\\] \\[2020.12\\] \\[神经元\\]\n\n## 调查\n\n- [稀疏自编码器研究综述：解读大型语言模型的内部机制](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.05613)\n   - \\[2025.3\\] \\[SAE\\]\n\n- [迈向推理时代：面向推理型大型语言模型的长链式思维综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.09567)\n   - \\[2025.3\\] \\[LLM推理\\] \\[长链式思维\\]\n\n- [用于AI安全的机制可解释性综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2404.14082)\n   - \\[2024.8\\] \\[安全\\]\n\n- [基于Transformer的语言模型的机制可解释性实用综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.02646)\n   - \\[2024.7\\] \\[可解释性\\]\n\n- [大型语言模型中的内部一致性与自我反馈：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.14507)\n   - \\[2024.7\\]\n\n- [大型语言模型中的知识机制：综述与展望](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.15017)\n   - \\[2024.7\\] \\[知识\\]\n\n- [基于Transformer的语言模型内部工作原理入门](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2405.00208)\n   - \\[2024.5\\] \\[可解释性\\]\n\n- [可用的XAI：LLM时代利用可解释性的10种策略](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.08946)\n   - \\[2024.3\\] \\[可解释性\\]\n\n- [大型语言模型综合概述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2307.06435.pdf)\n   - \\[2023.12\\] \\[LLM\\]\n\n- [大型语言模型幻觉现象综述：原理、分类、挑战与开放问题](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.05232)\n   - \\[2023.11\\] \\[幻觉\\]\n\n- [大型语言模型综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.18223.pdf)\n   - \\[2023.11\\] \\[LLM\\]\n\n- [大型语言模型的可解释性：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.01029.pdf)\n   - \\[2023.11\\] \\[可解释性\\]\n\n- [思维链推理综述：进展、前沿与未来方向](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.15402.pdf)\n   - \\[2023.10\\] \\[思维链\\]\n\n- [大型语言模型的指令微调：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2308.10792.pdf)\n   - \\[2023.10\\] \\[指令微调\\]\n\n- [从语言建模到指令遵循：理解指令微调后LLM的行为转变](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.00492)\n   - \\[2023.9\\] \\[指令微调\\]\n\n- [AI海洋中的塞壬之歌：大型语言模型幻觉现象综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2309.01219.pdf)\n   - \\[2023.9\\] \\[幻觉\\]\n\n- [利用语言模型提示进行推理：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2212.09597.pdf)\n   - \\[2023.9\\] \\[推理\\]\n\n- [迈向透明AI：深度神经网络内部结构解读综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2207.13243.pdf)\n   - \\[2023.8\\] \\[可解释性\\]\n\n- [上下文学习综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2301.00234.pdf)\n   - \\[2023.6\\] \\[上下文学习\\]\n\n- [化繁为简，以小博大：参数高效微调指南](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2303.15647.pdf)\n   - \\[2023.3\\] \\[参数高效微调\\]\n\n## 其他优秀的LLM资源库\n\n- https:\u002F\u002Fgithub.com\u002FruizheliUOA\u002FAwesome-Interpretability-in-Large-Language-Models (可解释性)\n\n- https:\u002F\u002Fgithub.com\u002Fcooperleong00\u002FAwesome-LLM-Interpretability?tab=readme-ov-file (可解释性)\n\n- https:\u002F\u002Fgithub.com\u002FJShollaj\u002Fawesome-llm-interpretability (可解释性)\n\n- https:\u002F\u002Fgithub.com\u002FIAAR-Shanghai\u002FAwesome-Attention-Heads (注意力机制)\n\n- https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FKnowledgeEditingPapers (模型编辑)\n\n- https:\u002F\u002Fgithub.com\u002FHannibal046\u002FAwesome-LLM (LLM)\n\n## 为何需要机制可解释性？\n\n[从洞察到行动：可解释性与分析研究对NLP的影响](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.12618)\n\n[可解释性的梦想](https:\u002F\u002Ftransformer-circuits.pub\u002F2023\u002Finterpretability-dreams\u002Findex.html)\n\n[可解释性的潜在影响理论长单](https:\u002F\u002Fwww.lesswrong.com\u002Fposts\u002FuK6sQCNMw8WKzJeCQ\u002Fa-longlist-of-theories-of-impact-for-interpretability)\n\n## 推荐博客\n\n- [Transformer Circuits论坛](https:\u002F\u002Ftransformer-circuits.pub\u002F)\n\n- [Neel Nanda的机制可解释性博客](https:\u002F\u002Fwww.neelnanda.io\u002Fmechanistic-interpretability)\n\n- [LessWrong](https:\u002F\u002Fwww.lesswrong.com\u002F)\n\n- [AI对齐论坛](https:\u002F\u002Fwww.alignmentforum.org\u002F)","# awesome-llm-understanding-mechanism 快速上手指南\n\n`awesome-llm-understanding-mechanism` 并非一个可安装的软件工具或代码库，而是一个**精选论文列表资源**。它汇集了关于大型语言模型（LLM）内部机制理解的高质量学术论文，涵盖神经元分析、稀疏自编码器（SAE）、电路追踪、知识编辑等前沿方向。\n\n本指南旨在帮助开发者快速利用该资源进行技术调研和学习。\n\n## 环境准备\n\n由于本项目本质是文档列表，无需特定的系统环境或重型依赖。只需具备以下条件即可开始阅读和研究：\n\n*   **操作系统**：任意支持现代浏览器的系统（Windows, macOS, Linux）。\n*   **前置依赖**：\n    *   稳定的网络连接（用于访问 arXiv、GitHub 及会议官网）。\n    *   PDF 阅读器（用于阅读论文）。\n    *   （可选）Git：用于克隆仓库到本地以便离线浏览或贡献。\n\n> **国内访问建议**：\n> *   若访问 arXiv 速度较慢，推荐使用国内镜像站如 [arXiv.org.cn](https:\u002F\u002Farxiv.org.cn) 或 [ArXiv 中文镜像](http:\u002F\u002Farxiv.paperswithcode.com\u002F)。\n> *   若访问 GitHub 受限，可使用 [Gitee 镜像](https:\u002F\u002Fgitee.com\u002F) 搜索同名项目，或使用加速工具。\n\n## 获取资源\n\n你可以通过以下两种方式获取论文列表：\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面查看最新整理的列表：\n```bash\n# 在浏览器中打开\nhttps:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-llm-understanding-mechanism\n```\n\n### 方式二：克隆到本地\n方便离线查阅或跟踪更新：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fzepingyu0512\u002Fawesome-llm-understanding-mechanism.git\ncd awesome-llm-understanding-mechanism\n```\n\n## 基本使用\n\n本资源的核心价值在于**按主题和年份检索论文**。以下是高效使用的步骤：\n\n### 1. 确定研究方向\n根据 `README` 中的分类标签（Tags），找到你感兴趣的技术领域。常见分类包括：\n*   `[neuron]`：神经元级分析与归因\n*   `[SAE]`：稀疏自编码器与特征提取\n*   `[circuit]`：计算电路与机制追踪\n*   `[knowledge]` \u002F `[model editing]`：知识存储与模型编辑\n*   `[reasoning]`：推理机制与思维链\n*   `[hallucination]`：幻觉产生机理\n\n### 2. 定位目标论文\n在列表中查找对应年份（如 `2024` 或 `2025`）下的相关条目。例如，若想研究“稀疏自编码器”，可定位到：\n*   *[Scaling and evaluating sparse autoencoders]* (OpenAI, 2024)\n*   *[Sparse Autoencoders Find Highly Interpretable Features in Language Models]* (ICLR 2024)\n\n### 3. 获取全文\n点击论文标题链接（通常指向 arXiv PDF 或项目主页）。\n*   **arXiv 链接示例**：`https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.04093`\n*   **项目主页示例**：`https:\u002F\u002Ftransformer-circuits.pub\u002F2024\u002Fscaling-monosemanticity\u002Findex.html`\n\n### 4. 关联代码复现（进阶）\n许多列出的论文会开源配套代码。在阅读论文时，请留意摘要或页脚中的 \"Code\" 或 \"GitHub\" 链接，通常格式为：\n```bash\n# 假设论文提供了 GitHub 链接\ngit clone \u003C论文对应的代码仓库地址>\npip install -r requirements.txt\n```\n*注：具体运行命令需参考各论文独立的代码仓库说明。*\n\n---\n**提示**：该列表持续更新，建议定期 Pull 最新内容以获取 ICML、NeurIPS、ACL 等顶会的最新录用论文。","某金融科技公司的大模型团队正在调试一个多语言客服机器人，试图解决其在跨语言场景下频繁出现的事实性幻觉和知识冲突问题。\n\n### 没有 awesome-llm-understanding-mechanism 时\n- 团队面对模型胡编乱造的答案束手无策，只能盲目进行全量微调，耗时耗力且往往引发“灾难性遗忘”，导致旧知识丢失。\n- 缺乏理论指引，开发人员无法定位幻觉产生的具体神经元或电路机制，排查过程如同在黑盒中大海捞针。\n- 在处理多语言不一致问题时，仅凭经验调整提示词（Prompt），无法触及模型内部跨语言知识映射失效的根本原因。\n- 难以甄别学术界最新的有效方案，容易在过时的模型编辑方法上浪费大量研发资源，甚至误用已被证明存在缺陷的技术。\n\n### 使用 awesome-llm-understanding-mechanism 后\n- 团队快速定位到《Taming Knowledge Conflicts in Language Models》等顶会论文，利用其中提出的稀疏自编码器（SAE） subspace 投影技术，精准抑制了特定知识冲突而不影响其他能力。\n- 借助《Circuit Tracing》和《On the Biology of a Large Language Model》中的归因图方法，可视化追踪到产生幻觉的具体计算路径，实现了从“猜错”到“看懂”的转变。\n- 参考《Lost in Multilinguality》的研究成果，针对性地优化了跨语言事实一致性模块，从根本上解决了多语言回答矛盾的问题。\n- 直接获取经 ICML、ACL 等顶级会议验证的最新机制解析方案，避免了在无效基线上的试错，将算法迭代周期缩短了数周。\n\nawesome-llm-understanding-mechanism 将大模型从不可控的黑盒转变为可解释、可诊断的白盒，让研发团队能基于底层机制精准“手术”，而非盲目“用药”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzepingyu0512_awesome-llm-understanding-mechanism_f68de51e.png","zepingyu0512","Zeping Yu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzepingyu0512_8b38255e.jpg","mechanistic interpretability of LLM","The University of Manchester","Manchester, UK",null,"https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=zh-CN&user=OdpmpDsAAAAJ","https:\u002F\u002Fgithub.com\u002Fzepingyu0512",614,21,"2026-04-09T14:59:58","","未说明",{"notes":92,"python":90,"dependencies":93},"该仓库是一个论文列表（Awesome List），用于收集关于大语言模型（LLM）内部机制理解的学术文章，本身不是一个可执行的软件工具或代码库，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户需根据列表中具体论文的配套代码仓库查看各自的运行环境需求。",[],[15,46],"2026-03-27T02:49:30.150509","2026-04-13T13:42:07.454573",[],[]]