LLMs_interview_notes

2.5k 172 非常简单 1 次阅读今天Apache-2.0语言模型

AI 解读由 AI 自动生成，仅供参考

LLMs_interview_notes 是一份专为大模型算法工程师打造的面试备战指南，由从业者基于真实面试经验与实战心得整理而成。它系统性地梳理了大模型领域的核心考点，涵盖模型架构基础（如 Decoder-only、Encoder-Decoder）、关键组件原理（LayerNorm、激活函数、Attention 机制及其变体如 MQA、GQA、FlashAttention）、训练目标、损失函数、相似度计算以及 Transformers 库的实际操作等高频面试题。

这份资料有效解决了求职者在准备大模型岗位面试时面临的知识点分散、重点不清晰、缺乏系统性总结等痛点，帮助学习者快速构建完整的知识体系，精准把握行业技术脉络。其内容不仅罗列问题，更提供深入解析与代码实现思路，尤其对 Attention 优化、归一化技术演进等前沿话题有独到归纳。

LLMs_interview_notes 特别适合正在寻求大模型相关职位的算法工程师、希望转型进入 LLM 领域的开发者，以及需要巩固理论基础的研究人员。无论是查漏补缺还是冲刺面试，它都能成为你手边实用且高效的学习伙伴。

使用场景

某位准备大厂算法岗校招的研究生，正在紧张备战大模型（LLMs）方向的专业技术面试。

没有 LLMs_interview_notes 时

知识碎片化严重：候选人需要在知乎、GitHub、技术博客间反复跳转，难以系统梳理从 Layer Norm 变体到 FlashAttention 原理的完整知识体系。
核心公式记忆模糊：面对面试官突然要求手写 RMS Norm 计算公式或推导 GLU 激活函数时，因缺乏针对性练习而卡壳，暴露基础不牢。
前沿技术理解浅显：对于 Multi-Query Attention 与 Grouped-query Attention 的区别、Paged Attention 的核心优势等进阶考点，仅停留在名词认知，无法深入阐述优化逻辑。
实战代码手感生疏：虽然看过 Transformer 源码，但缺乏针对“如何提取指定隐藏层状态”等具体操作场景的总结，现场编程环节容易出错。

使用 LLMs_interview_notes 后

构建系统化题库：直接依托仓库中分类清晰的“基础面”、“激活函数篇”及"Attention 升级面”，快速建立起覆盖主流开源模型体系的结构化知识网。
精准攻克计算难点：通过专项复习仓库中整理的各类 Norm 公式与 FFN 块计算细节，能够流畅手写推导过程，从容应对底层原理拷问。
深度掌握演进脉络：借助对 Attention 变体及跨注意力机制的深度解析，清晰讲透从 MHA 到 GQA 的技术演进原因及性能收益，展现技术洞察力。
提升代码实战效率：参考"transformers 操作篇”中的具体案例，迅速掌握加载模型、输出向量等关键代码片段，在机考环节中游刃有余。

LLMs_interview_notes 将分散的高频考点转化为结构化的备战利器，帮助求职者从“泛泛了解”跃升为“精通原理”，显著提升了面试通过率。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes本项目为大型语言模型（LLMs）的面试学习笔记与资料汇总，主要包含理论基础、微调策略、RAG 架构及 LangChain 应用等知识点的问答整理。该项目本身不是一个可执行的软件工具或代码库，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库的安装运行需求。用户只需通过提供的链接阅读文章内容即可。

python未说明

快速开始

LLMs 千面郎君

介绍：本项目是作者们根据个人面试和经验总结出的大模型(LLMs)面试准备的学习笔记与资料，该资料目前包含大模型(LLMs)各领域的面试题积累。

> LLMs 千面郎君面试交流群 (注：人满可添加小编wx：yzyykm666 加群！)

一、大模型（LLMs）基础面

大模型（LLMs）基础面

1 目前主流的开源模型体系有哪些？
2 prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？
3 大模型LLM的训练目标是什么？
4 涌现能力是啥原因？
5 为何现在的大模型大部分是Decoder only结构？
6 简单介绍一下大模型【LLMs】？
7 大模型【LLMs】后面跟的 175B、60B、540B等指什么？
8 大模型【LLMs】具有什么优点？
9 大模型【LLMs】具有什么缺点？
10 encoder-only, decoder-only, encoder-decoder的区别?
11 BART、llama、gpt、t5、palm等主流模型异同点?
12 prefix LM 和 causal LM 区别是什么?
点击查看答案

Layer normalization 篇

Layer normalization-方法篇
- Layer Norm 篇
  - Layer Norm 的计算公式写一下？
- RMS Norm 篇（均方根 Norm）
  - RMS Norm 的计算公式写一下？
  - RMS Norm 相比于 Layer Norm 有什么特点？
- Deep Norm 篇
  - Deep Norm 思路？
  - 写一下 Deep Norm 代码实现？
- Deep Norm 有什么优点？
Layer normalization-位置篇
- 1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？
Layer normalization 对比篇
- LLMs 各模型分别用了哪种 Layer normalization？
点击查看答案

LLMs 激活函数篇

1 介绍一下 FFN 块计算公式？
2 介绍一下 GeLU 计算公式？
3 介绍一下 Swish 计算公式？
4 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？
5 介绍一下使用 GeLU 的 GLU 块计算公式？
6 介绍一下使用 Swish 的 GLU 块计算公式？
7 各LLMs 都使用哪种激活函数？
8 Adam优化器和SGD的区别？
点击查看答案

Attention 升级面

Attention 升级面
- 1 传统 Attention 存在哪些问题？
- 2 Attention 有哪些优化方向？
- 3 Attention 变体有哪些？
- 4 Multi-Query Attention 篇
  - 4.1 Multi-head Attention 存在什么问题？
  - 4.2 介绍一下 Multi-Query Attention？
  - 4.3 对比一下 Multi-head Attention 和 Multi-Query Attention？
  - 4.4 Multi-Query Attention 这样做的好处是什么？
  - 4.5 有哪些模型是使用 Multi-Query Attention？
- 5 Grouped-query Attention
  - 5.1 什么是 Grouped-query Attention？
  - 5.2 有哪些大模型使用 Grouped-query Attention？
- 6 FlashAttention
  - 6.1 为什么需要 FlashAttention？
  - 6.2 简单介绍一下 FlashAttention？
  - 6.3 简单介绍一下 FlashAttention 核心？
  - 6.4 介绍一下 FlashAttention 优点？
  - 6.5 介绍一下 FlashAttention 代表模型？
- 7 并行 transformer block
- 8 attention计算复杂度以及如何改进？
- 9 Paged Attention篇
  - 9.1 简单介绍一下 Paged Attention？
- 对比篇
  - 1、MHA，GQA，MQA 三种注意力机制是否了解?区别是什么?
点击查看答案
跨注意力机制（Cross-Attention）篇
- 一、为什么需要跨注意力机制（Cross-Attention）？
- 二、介绍一些跨注意力机制（Cross-Attention）？
- 三、Cross Attention 和 Self Attention 篇
  - 3.1 Cross Attention 和 Self Attention 都是基于注意力机制的，有什么相同点？
  - 3.2 Cross Attention 和 Self Attention 都是基于注意力机制的，有什么不同点？
- 四、Cross Attention 和多头注意力（Multi-Head Attention）篇
  - 4.2 Cross Attention 和多头注意力（Multi-Head Attention）都是基于注意力机制的，有什么异同点？
- 五、Cross Attention 代码实现
- 六、Cross Attention 应用场景
- 七、Cross Attention 的优势和挑战？
点击查看答案

transformers 操作篇

1. 如何利用 transformers 加载 Bert 模型？
1. 如何利用 transformers 输出 Bert 指定 hidden_state？
1. BERT 获取最后一层或每一层网络的向量输出
点击查看答案

LLMs 损失函数篇

一、介绍一下 KL 散度？
二、交叉熵损失函数写一下，物理意义是什么？
三、KL 散度与交叉熵的区别？
四、多任务学习各loss差异过大怎样处理？
五、分类问题为什么用交叉熵损失函数不用均方误差（MSE）？
六、什么是信息增益？
七、多分类的分类损失函数(Softmax)？
八、softmax和交叉熵损失怎么计算，二值交叉熵呢？
九、如果softmax的e次方超过float的值了怎么办？
点击查看答案

相似度函数篇

一、除了cosin还有哪些算相似度的方法
二、了解对比学习嘛？
三、对比学习负样本是否重要？负样本构造成本过高应该怎么解决？
点击查看答案

二、大模型（LLMs）进阶面

一、什么是生成式大模型？
二、大模型是怎么让生成的文本丰富而不单调的呢？
三、LLMs 复读机问题
- 3.1 什么是 LLMs 复读机问题？
- 3.2 为什么会出现 LLMs 复读机问题？
- 3.3 如何缓解 LLMs 复读机问题？
四、llama 系列问题
- 4.1 llama 输入句子长度理论上可以无限长吗？
五、什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？
六、各个专业领域是否需要各自的大模型来服务？
七、如何让大模型处理更长的文本？
点击查看答案

三、大模型（LLMs）微调面

大模型（LLMs）微调面

39 大模型 sft 过程中，为什么会出现第二个epoch的时候loss会突然下降问题？
1 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？
2 为什么SFT之后感觉LLM傻了?
3 SFT 指令微调数据如何构建?
- 3.1 提升sft的prompt的代表性有什么好的方法？
- 3.2 提升sft的prompt的数据量有什么好的方法？
4 领域模型Continue PreTrain 数据选取？
5 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
6 领域模型Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？
7 进行SFT操作的时候，基座模型选用Chat还是Base?
8 领域模型微调指令&数据输入格式要求？
9 领域模型微调领域评测集构建？
10 领域模型词表扩增是不是有必要的？
11 如何训练自己的大模型？
12 训练中文大模型有啥经验？
13 指令微调的好处？
14 预训练和微调哪个阶段注入知识的？
15 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？
...
点击查看答案

大模型 SFT Trick 篇

一、常见 SFT的开发流程是如何的？
二、训练数据要注重什么？
三、大 size 和小 size 模型的选择？
四、多任务训练时怎么确保每个任务都优秀？
五、SFT真的不能学到知识？
六、怎么科学挑选数据集？
...
点击查看答案

大模型（LLMs）训练经验帖

分布式训练框架选择？
LLMs 训练时有哪些有用的建议？
模型大小如何选择？
加速卡如何选择？
点击查看答案

四、大模型（LLMs）langchain 面

大模型（LLMs）langchain 面

一、什么是 LangChain?
二、LangChain 包含哪些核心概念？
- 2.1 LangChain 中 Components and Chains 是什么？
- 2.2 LangChain 中 Prompt Templates and Values 是什么？
- 2.3 LangChain 中 Example Selectors 是什么？
- 2.4 LangChain 中 Output Parsers 是什么？
- 2.5 LangChain 中 Indexes and Retrievers 是什么？
- 2.6 LangChain 中 Chat Message History 是什么？
- 2.7 LangChain 中 Agents and Toolkits 是什么？
...
点击查看答案

多轮对话中让AI保持长期记忆的8种优化方式篇

一、前言
二、Agent 如何获取上下文对话信息？
- 2.1 获取全量历史对话
- 2.2 滑动窗口获取最近部分对话内容
- ...
点击查看答案

基于langchain RAG问答应用实战

点击查看答案

五、大模型（LLMs）RAG 检索增强生成面

5.1 大模型（LLMs）RAG 入门篇

基于LLM+向量库的文档对话经验面

一、基于LLM+向量库的文档对话基础面
- 1.1 为什么大模型需要外挂(向量)知识库？
- 1.2. 基于LLM+向量库的文档对话思路是怎么样？
- 1.3. 基于LLM+向量库的文档对话核心技术是什么？
- 1.4. 基于LLM+向量库的文档对话 prompt 模板如何构建？
...
点击查看答案

RAG（Retrieval-Augmented Generation）面

一、LLMs 已经具备了较强能力了，存在哪些不足点?
二、什么是 RAG?
- 2.1 R：检索器模块
  - 2.1.1 如何获得准确的语义表示？
  - 2.1.2 如何协调查询和文档的语义空间？
  - 2.1.3 如何对齐检索模型的输出和大语言模型的偏好？
- 2.2 G：生成器模块
  - 2.2.1 生成器介绍
  - 2.2.2 如何通过后检索处理提升检索结果？
  - 2.2.3 如何优化生成器应对输入数据？
三、使用 RAG 的好处?
...
点击查看答案

5.2 大模型（LLMs）RAG 版面分析篇

大模型（LLMs）RAG —— pdf解析关键问题

一、为什么需要进行pdf解析？
二、为什么需要对 pdf 进行解析？
三、pdf解析有哪些方法，对应的区别是什么？
四、pdf解析存在哪些问题？
...
点击查看答案

大模型（LLMs）RAG 版面分析——表格识别方法篇

一、为什么需要识别表格？
二、介绍一下表格识别任务？
三、有哪些表格识别方法？
- 3.1 传统方法
- 3.2 pdfplumber表格抽取
  - 3.2.1 pdfplumber 如何进行表格抽取？
  - 3.2.2 pdfplumber 常见的表格抽取模式？
- ...
点击查看答案

大模型（LLMs）RAG 版面分析——文本分块面

一、为什么需要对文本分块？
二、能不能介绍一下常见的文本分块方法？
- 2.1 一般的文本分块方法
- 2.2 正则拆分的文本分块方法
- 2.3 Spacy Text Splitter 方法
- 2.4 基于 langchain 的 CharacterTextSplitter 方法
- ...
点击查看答案

5.3 大模型（LLMs）RAG 检索策略篇

大模型外挂知识库优化——如何利用大模型辅助召回？

一、为什么需要使用大模型辅助召回？
- 策略一： HYDE
  - 1. 介绍一下 HYDE 思路？
  - 1. 介绍一下 HYDE 问题？
- 策略二： FLARE
  - 1. 为什么需要 FLARE ？
  - 1. FLARE 有哪些召回策略？
点击查看答案

大模型外挂知识库优化——负样本样本挖掘篇

一、为什么需要构建负难样本？
二、负难样本构建方法篇
- 2.1 随机采样策略（Random Sampling）方法
- 2.2 Top-K负例采样策略（Top-K Hard Negative Sampling）方法
- ...
点击查看答案

5.4 大模型（LLMs）RAG 评测篇

RAG（Retrieval-Augmented Generation）评测面

一、为什么需要对 RAG 进行评测？
二、RAG 有哪些评估方法？
三、RAG 有哪些关键指标和能力？
四、RAG 有哪些评估框架？
点击查看答案

5.5 大模型（LLMs）RAG 优化策略篇

检索增强生成(RAG) 优化策略篇

一、RAG基础功能篇
- 1.1 RAG 工作流程
二、RAG 各模块有哪些优化策略？
三、RAG 架构优化有哪些优化策略？
- 3.1 如何利用知识图谱（KG）进行上下文增强？
  - 3.1.1 典型RAG架构中，向量数据库进行上下文增强存在哪些问题？
  - 3.1.2 如何利用知识图谱（KG）进行上下文增强？
- ...
点击查看答案

RAG 关键痛点及对应解决方案

前言
问题一：内容缺失问题
- 1.1 介绍一下内容缺失问题？
- 1.2 如何解决内容缺失问题？
问题二：错过排名靠前的文档
- 2.1 介绍一下错过排名靠前的文档问题？
- 2.2 如何解决错过排名靠前的文档问题？
问题三：脱离上下文 — 整合策略的限制
- 3.1 介绍一下脱离上下文 — 整合策略的限制问题？
- 3.2 如何解决脱离上下文 — 整合策略的限制问题？
问题四：未能提取答案
- 4.1 介绍一下未能提取答案问题？
- 4.2 如何解决未能提取答案问题？
...
点击查看答案

大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇

一、RAG 有哪些优点？
二、RAG 存在哪些局限性？
三、为什么需要 RAG-Fusion？
四、说一下 RAG-Fusion 核心技术？
五、说一下 RAG-Fusion 工作流程？
- ...
点击查看答案

5.6 大模型（LLMs）Graph RAG篇

Graph RAG（Retrieval-Augmented Generation）面 —— 一种基于知识图谱的大模型检索增强实现策略

一、为什么需要 Graph RAG？
二、什么是 Graph RAG？
三、Graph RAG 思路介绍？
四、用代码介绍 Graph RAG ？
五、用示例介绍 Graph RAG ？
六、Graph RAG 排序优化方式？
点击查看答案

六、大模型（LLMs）参数高效微调(PEFT) 面

大模型（LLMs）参数高效微调(PEFT) 面

1. 微调方法是啥？如何微调？
1. 为什么需要 PEFT？
1. 介绍一下 PEFT？
1. PEFT 有什么优点？
...
点击查看答案

配器微调（Adapter-tuning）篇

一、为什么需要适配器微调（Adapter-tuning）？
二、适配器微调（Adapter-tuning）思路？
三、适配器微调（Adapter-tuning）特点是什么？
四、AdapterFusion 思路是什么？
...
点击查看答案

提示学习（Prompting）

一、为什么需要提示学习（Prompting）？
二、什么是提示学习（Prompting）？
三、提示学习（Prompting）有什么优点？
四、提示学习（Prompting）有哪些方法，能不能稍微介绍一下它们间？
- 4.1 前缀微调（Prefix-tining）篇
  - 4.1.1 为什么需要前缀微调（Prefix-tining）？
  - 4.1.2 前缀微调（Prefix-tining）思路是什么？
  - 4.1.3 前缀微调（Prefix-tining）的优点是什么？
  - 4.1.4 前缀微调（Prefix-tining）的缺点是什么？
- ...
点击查看答案

LoRA 系列篇

一、LoRA篇 - 1.1 什么是 LoRA？ - 1.2 LoRA 的思路是什么？ - 1.3 LoRA 的特点是什么？ - 1.4 简单描述一下 LoRA? - 1.5 解释一下 LORA 微调的原理和计算流程？

二、LoRA变体篇
- 2.1 QLoRA篇
  - 2.1.1 QLoRA 的思路是怎么样的？
  - 2.1.2 QLoRA 的特点是什么？
  - 2.1.3 QLORA相比LORA做了哪些改进?
- 2.2 AdaLoRA篇
- .2.1 AdaLoRA 的思路是怎么样的？
- 2.3 LongLoRA篇
  - 2.3.1 为什么需要 LongLoRA？
  - 2.3.2 LongLoRA 思路是什么？
  - 2.3.3 介绍一下 shift short attention？
三、Lora的矩阵怎么初始化？为什么要初始化为全0？
...
点击查看答案

如何使用 PEFT库中 LoRA？

一、前言
二、如何配置 LoraConfig？
三、模型加入PEFT策略
- 3.1 模型加载策略有哪些？
- 3.2 模型显存占用的部分有哪些？
- 3.3 模型显存占用优化策略？
  - 3.3.1 8bit量化优化策略？
  - 3.3.2 梯度检查优化策略？
- 3.4 如何向模型加入PEFT策略？
...
点击查看答案

大模型 SFT 方式对比篇

一、SFT 微调方案如何选择？
二、Full Fine Tuning vs Parameter-Efficient Fine-Tuning
三、Full Fine Tuning 篇
- 3.1 介绍一下 Full Fine Tuning？
- 3.2 介绍一下 Full Fine Tuning 优点？
- 3.3 介绍一下 Full Fine Tuning 缺点？
四、Parameter-Efficient Fine-Tuning 篇
- 4.1 介绍一下 Parameter-Efficient Fine-Tuning？
五、LoRA 篇
- 5.1 介绍一下 LoRA？
- 5.2 介绍一下 LoRA 流程？
- 5.3 介绍一下 LoRA 优点？
- 5.4 介绍一下 LoRA 缺点？
六、QLoRA 篇
- 6.1 介绍一下 QLoRA？
- 6.2 介绍一下 QLoRA 流程？
...
点击查看答案

七、大模型（LLMs）推理面

大模型（LLMs）推理面

1. 为什么大模型推理时显存涨的那么多还一直占着？
1. 大模型在gpu和cpu上推理速度如何？
1. 推理速度上，int8和fp16比起来怎么样？
1. 大模型有推理能力吗？
...
点击查看答案

八、大模型（LLMs）增量预训练篇

大模型（LLMs）增量预训练篇

1. 为什么要增量预训练？
1. 进行增量预训练需要做哪些准备工作？
1. 增量预训练所用训练框架？
1. 增量预训练训练流程是怎么样？
...
点击查看答案

增量预训练（Pretrain）样本拼接篇

一、推理过程分哪些阶段？
- 1.1 Prefill（输入理解与初始化）阶段
- 1.2 Decoding（递归推理与解码输出）阶段
二、推理性能的评价指标？
- 2.1 Throughput（吞吐量）
- 2.2 First Token Latency（首字延迟）
- 2.3 Latency（延迟）
- 2.4 QPS（每秒请求数）
...
点击查看答案

增量预训练（Pretrain）样本拼接篇

一、Pretrain阶段，为什么需要拼接拼接？
二、有哪些拼接方式？
- 2.1 拼接方式一：Random Concatenate
- 2.2 拼接方式二：Random Concatenate + NoiseMask
- 2.3 拼接方式三：Random Concatenate + Cluster
- 2.4 拼接方式四：IN-CONTEXT PRETRAINING
点击查看答案

基于lora的llama2二次预训练

一、为什么需要对 llama2 做基于lora的二次预训练?
二、基于lora的llama2二次预训练的目标是什么？
三、基于lora的llama2二次预训练的思想是什么？
四、基于lora的llama2二次预训练语料构建思路？
...
点击查看答案

九、大模型（LLMs）评测面

1 大模型怎么评测？
2 大模型的honest原则是如何实现的？模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？
3 如何衡量大模型水平？
4 大模型评估方法有哪些？
...
点击查看答案

十、大模型（LLMs）强化学习面

大模型（LLMs）强化学习面

1 简单介绍强化学习？
2 简单介绍一下 RLHF？
3 奖励模型需要和基础模型一致吗？
4 RLHF 在实践过程中存在哪些不足？
5 如何解决人工产生的偏好数据集成本较高，很难量产问题？
6 如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
7 如何解决 PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？
8 强化学习跟大语言模型的本质联系是什么？
...
点击查看答案

大模型（LLMs）强化学习——RLHF及其变种面

一、介绍一下 LLM的经典预训练Pipeline？
二、预训练（Pre-training）篇
- 2.1 具体介绍一下预训练（Pre-training）？
三、有监督微调（Supervised Tinetuning）篇
- 3.1 具体介绍一下有监督微调（Supervised Tinetuning）？
- 3.2 有监督微调（Supervised Tinetuning）的训练数据格式是什么样？
- 3.3 预训练（Pre-training） vs 有监督微调（Supervised Tinetuning）区别？
四、对齐（Alignment）篇
- 4.1 简单介绍一下对齐（Alignment）？
...
点击查看答案

大模型（LLMs）强化学习—— PPO 面

一、大语言模型RLHF中的PPO主要分哪些步骤？
二、举例描述一下大语言模型的RLHF？
三、大语言模型RLHF 采样篇
- 3.1 什么是 PPO 中采样过程？
- 3.2 介绍一下 PPO 中采样策略？
- 3.3 PPO 中采样策略中，如何评估“收益”？
四、在PPO过程中，reward model的效果上会有什么问题？
...
点击查看答案

RLHF平替算法DPO篇

RLHF平替算法DPO篇
- 一、DPO vs RLHF？
- 二、介绍一下 DPO的损失函数？
- 三、DPO 微调流程 ?
- 四、说一下 DPO 是如何简化 RLHF 的？
- 五、DPO的第0步loss是固定的么？如果固定的话，值是多少？
- 六、DPO是一个on-policy还是off-policy的算法，以及这样的算法有什么优劣？
- 七、DPO公式是由PPO的objective公式推导过来的，为什么DPO是off-policy算法，而PPO是on-policy算法，到底哪一步推导出了问题？
- ...
点击查看答案

reward 篇

1 介绍一下 RM模型？
2 为什么需要 RM模型？
3 RM模型训练数据如何构建？
4 reward 模型训练步骤中，为什么这一步骤在标注数据过程中不让人直接打分，而是去标排列序列呢?
5 reward 模型的 loss 是怎么计算的?
...
点击查看答案

强化学习在自然语言处理下的应用篇

一、强化学习基础面
- 1.1 介绍一下强化学习？
- 1.2 介绍一下强化学习的状态（States）和观测（Observations）？
- 1.3 强化学习有哪些动作空间（Action Spaces），他们之间的区别是什么？
- ...
点击查看答案

十一、大模型（LLMs）训练集面

大模型（LLMs）训练集面

SFT（有监督微调）的数据集格式？
RM（奖励模型）的数据格式？
PPO（强化学习）的数据格式？
...
点击查看答案

大模型（LLMs）LLM生成SFT数据方法面

四、大模型微调数据集格式篇
一、SFT数据集如何生成？
二、Self-Instruct 篇
- ...
点击查看答案

十二、大模型（LLMs）显存问题面

大模型（LLMs）显存问题面

大模型大概有多大，模型文件有多大?
能否用4 * v100 32G训练vicuna 65b？
如果就是想要试试65b模型，但是显存不多怎么办？
nB模型推理需要多少显存？
...
点击查看答案

大模型（LLMs）显存优化策略篇

一、介绍一下 gradient accumulation 显存优化方式？
二、介绍一下 gradient checkpointing 显存优化方式？
点击查看答案

十三、大模型（LLMs）分布式训练面

大模型（LLMs）分布式训练面

1 理论篇
- 1.1 训练大语言模型存在问题？
- 1.2 什么是点对点通信？
- 1.3 什么是集体通信？
- 1.4 什么是数据并行？
- 1.5 数据并行如何提升效率？
- 1.6 什么是流水线并行？
- 1.7 什么是张量并行 (intra-layer)？
- 1.8 数据并行 vs 张量并行 vs 流水线并行?
- 1.9 什么是 3D并行？
- 1.10 想要训练1个LLM，如果只想用1张显卡，那么对显卡的要求是什么？
- 1.11 如果有N张显存足够大的显卡，怎么加速训练？
- 1.12 如果显卡的显存不够装下一个完整的模型呢？
- 1.13 PP推理时，是一个串行的过程，1个GPU计算，其他空闲，有没有其他方式？
- 1.14 3种并行方式可以叠加吗？
- 1.15 Colossal-AI 有1D/2D/2.5D/3D，是什么情况？
- 1.16 除了3D并行有没有其他方式大规模训练？
- 1.17 有了ZeRO系列，为什么还需要3D并行？
- 1.18 平民适不适合玩3D并行？
- 1.19 平民适不适合直接上多机多卡的ZeRO3（万兆网）？
- 1.20 分布式并行及显存优化技术有哪一些，都有什么特点？
- 1.21 显存优化技术有哪一些，都有什么特点？
- 1.22 常见的分布式训练框架哪一些，都有什么特点？
2 实践篇
- 2.1 假如有超多的8卡A100节点（DGX A100），如何应用3D并行策略？
- 2.2 如果想构这样一个大规模并行训练系统，训练框架如何选？
- 2.3 训练框架如何选？
...
点击查看答案

图解分布式训练（一） —— 流水线并行（Pipeline Parallelism）面

为什么需要流水线并行（Pipeline Parallelism）？
一、流水线并行（Pipeline Parallelism）优化目标是什么？
...
点击查看答案

图解分布式训练（二） —— nn.DataParallel面

为什么需要nn.DataParallel？
一、pytorch中的GPU操作默认是什么样？
二、介绍一下 nn.DataParallel 函数？
三、nn.DataParallel 函数处理逻辑介绍一下？
...
点击查看答案

图解分布式训练（三） —— nn.parallel.DistributedDataParallel

为什么需要 nn.parallel.DistributedDataParallel ？
一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce？
二、nn.parallel.DistributedDataParallel 函数介绍一下？
三、nn.parallel.DistributedDataParallel 函数如何多卡加速训练？
...
点击查看答案

图解分布式训练（四） —— torch.multiprocessing 详细解析

一、torch.multiprocessing 函数介绍一下？
二、torch.multiprocessing 函数如何使用？
...
点击查看答案

图解分布式训练（五） —— AMP混合精度训练详细解析

为什么需要 AMP混合精度训练？
一、什么是自动混合精度训练(AMP)
二、为什么需要自动混合精度？
三、混合精度训练的优点是什么？
...
点击查看答案

图解分布式训练（六） —— Pytorch的 DeepSpeed 详细解析

一、为什么需要 Deepspeed？
二、DeepSpeed 基本概念介绍一下？
- 2.1 DeepSpeed 介绍
- 2.2 DeepSpeed 基础的概念
- 2.3 DeepSpeed 支持的功能
三、DeepSpeed 通信策略介绍一下？
四、DeepSpeed 如何使用？
- 4.1 DeepSpeed 安装
- 4.2 DeepSpeed 使用
...
点击查看答案

图解分布式训练（七）—— accelerate 分布式训练详细解析

一、为什么需要 accelerate 分布式训练？
二、什么是 accelerate 分布式训练?
...
点击查看答案

图解分布式训练（八）—— ZeRO 学习

一、什么是 3D 并行？
二、3D 并行策略有哪些？
三、为什么需要 ZeRO？
...
点击查看答案

大模型分布式训练故障恢复篇

一、为什么大模型分布式训练需要故障恢复？
二、如何获取最优的ckpt存储间隔？
三、ckpt存储能否实现异步或者部分掩盖？
...
点击查看答案

图解分布式训练（九）—— Megatron-LM 篇

1、Activation Recomputation是怎么实现的?
2、Megatron中的OverlappedDistributed Optimizer 是如何实现的?
3、Megatron-LM 中 Context Parallel 篇
- 3.1 介绍一下 Megatron-LM 中 Context Parallel 实现原理？
- ...
点击查看答案

分布式训练 Trick 汇总篇

一、数据并行 Trick 篇
- 1.1 数据并行 FSDP
- 1.2 数据并行 DDP
- 1.3 数据并行 ZeRO
  - 1.3.1 Model state
  - 1.3.2 Residual state
  - 1.3.3 offload
...
点击查看答案

pytorch 分布式计算坑/bug 梳理篇

一、使用 DistributedDataParallel（分布式并行）时，显存分布不均衡问题
二、如果是用pytorch实现同步梯度更新，自研数据接口，出现第一个epoch结尾处程序卡死问题
...
点击查看答案

十四、大模型（LLMs）agent 面

大模型（LLMs）agent 面

一、什么是大模型（LLMs）agent？
二、大模型（LLMs）agent 有哪些部分组成？
- 2.1 介绍一下规划（planning）？
  - 2.1.1 拆解子目标和任务分解
    - 2.1.1.1 如何进行拆解子目标和任务分解？
    - 2.1.1.2 拆解子目标和任务分解有哪些方法？
  - 2.1.2 模型自我反省
    - 2.1.2.1 如何进行模型自我反省？
    - 2.1.2.2 模型自我反省有哪些方法？
- 2.2 介绍一下记忆（Memory）？
- 2.3 介绍一下工具使用（tool use）？
三、大模型（LLMs）agent 主要利用了大模型哪些能力？
...
点击查看答案

函数调用 Function Call 篇

函数调用 Function Call 篇
- 一、为什么需要函数调用(function call)？
- 二、什么是函数调用(function call)？
- ...
点击查看答案
开源模型 Function Call 篇
- 开源模型 Function Call 方案有哪些？
  - Llama 3.1
    - 对话协议（Chat Protocal）
    - Tool Call Template 样式
    - ...
点击查看答案

十五、LLMs 位置编码篇

一、什么是位置编码？
二、为什么需要位置编码？
三、什么是绝对位置编码？
- 3.1 训练式位置编码篇
  - ...
四、什么是相对位置编码？
五、旋转位置编码 RoPE篇
- 5.1 旋转位置编码 RoPE 思路是什么？
- ...
六、长度外推问题篇
- 6.1 什么是长度外推问题？
- 6.2 长度外推问题的解决方法有哪些？
七、 ALiBi (Attention with Linear Biases)篇
- 7.1 ALiBi (Attention with Linear Biases) 思路是什么？
- ...
点击查看答案

十六、LLMs Tokenizer 篇

LLMs Tokenizer 篇

LLMs Tokenizer 篇
- Byte-Pair Encoding(BPE)篇
  - 1 介绍一下 Byte-Pair Encoding(BPE) ？
  - 2 Byte-Pair Encoding(BPE) 如何构建词典？
  - 3 Byte-Pair Encoding(BPE) 具有什么优点？
  - 4 Byte-Pair Encoding(BPE) 具有什么缺点？
  - 5 手撕 Byte-Pair Encoding(BPE) ？
- Byte-level BPE 篇
  - 1 介绍一下 Byte-level BPE ？
  - 2 Byte-level BPE 如何构建词典？
  - 3 Byte-level BPE 具有什么优点？
  - 4 Byte-level BPE 具有什么缺点？
- WordPiece 篇
  - ...
点击查看答案

怎么让英文大语言模型支持中文？（一） —— 构建中文tokenization

一、为什么需要构建中文tokenization？
二、如何对原始数据预处理？
三、如何构建中文的词库？
...
点击查看答案

怎么让英文大语言模型支持中文？（二） —— 继续预训练篇

一、为什么需要进行继续预训练？
二、如何对继续预训练数据预处理？
三、如何构建模型？
四、如何使用模型？
点击查看答案

怎么让英文大语言模型支持中文？（三） —— 对预训练模型进行指令微调

一、为什么需要对预训练模型进行指令微调？
二、对预训练模型进行指令微调数据如何处理？
三、对预训练模型进行指令微调 tokenization 如何构建？
四、对预训练模型进行指令微调模型如何构建？
五、是否可以结合其他库使用？
点击查看答案

十七、大模型（LLMs）加速篇

大模型(LLM)部署框架对比篇

大模型(LLM)部署框架对比篇
一、为什么需要对大模型推理加速？
二、大模型(LLM)部署框架对比总览
三、大模型(LLM)部署优化策略
- ...
点击查看答案

大模型（LLMs）推理加速篇

一、推理过程分哪些阶段？
- 1.1 Prefill（输入理解与初始化）阶段
- 1.2 Decoding（递归推理与解码输出）阶段
二、推理性能的评价指标？
- 2.1 Throughput（吞吐量）
- 2.2 First Token Latency（首字延迟）
- 2.3 Latency（延迟）
- 2.4 QPS（每秒请求数）
三、当前优化模型最主要技术手段有哪些？
- ...
点击查看答案

大模型（LLMs）加速篇

1 当前优化模型最主要技术手段有哪些？
2 推理加速框架有哪一些？都有什么特点？
3 vLLM 篇
- 3.1 vLLM 的功能有哪些？
- ...
点击查看答案

LLMs 推理性能面

一、介绍一下 LLMs 的文本生成过程？
二、如何准确衡量模型的推理速度呢？
三、如果对整体推理时延有具体目标，有哪些有效的启发式方法来评估模型？
...
点击查看答案

LLM（大语言模型）部署加速方法——PagedAttention篇

一、vLLM 用于大模型并行推理加速存在什么问题？
二、vLLM 如何优化大模型并行推理加速？
三、什么是 PagedAttention？
...
点击查看答案

大模型推理加速工具 —— vLLM

一、引言
- 1.1 前言
- 1.2 为什么需要 vLLM ?
- 1.3 vLLM 具有哪些特点 ?
- 1.4 vLLM 支持哪些 Huggingface 模型 ?
二、vLLM 性能如何？
...
点击查看答案

LLM（大语言模型）部署加速方法——Faster Transformer篇

一、为什么需要 FasterTransformer？
二、FasterTransformer 介绍一下？
三、FasterTransformer 核心是什么？
...
点击查看答案

纯Python超轻量高性能LLM推理框架 —— LightLLM

一、引言
- 1.1 前言
- 1.2 为什么需要 LightLLM ?
- 1.3 目前 LLM推理框架有哪些?
二、LightLLM 介绍一下？
- 2.1 什么是 LightLLM ？
- 2.2 Token Attention 介绍？
- 2.3 Efficient Router 介绍？
三、LightLLM 性能表现介绍？
...
点击查看答案

LLM推理技术之StreamingLLM：如何拥有无限长生成能力

一、前言
- 1.1 大型语言模型（LLM）存在什么问题？
- 1.2 StreamingLLM 背景介绍
- 1.3 StreamingLLM 核心问题？
- ...
二、StreamingLLM 的思路是什么？
...
点击查看答案

SwiftInfer —— 大模型无限流式输入推理飙升46%，打破多轮对话长度限制

StreamingLLM 篇
- 一、为什么需要 StreamingLLM？
- 二、StreamingLLM 思路是什么？
- 三、StreamingLLM 优点是什么？
SwiftInfer 篇：基于TensorRT的StreamingLLM实现
- ...
点击查看答案

十八、大模型幻觉（LLM Hallucination）面

大模型幻觉（LLM Hallucination）面

一、什么是大模型幻觉？
二、为什么LLM会产生幻觉？
三、为什么需要解决LLM的幻觉问题？
四、幻觉一定是有害的吗？
...
点击查看答案

大模型的幻觉问题篇

一、什么是大模型幻觉问题？
二、为什么会出现大模型幻觉问题？
...
点击查看答案

如何缓解大模型幻觉？

一、为什么会出现大模型幻觉？
二、如何缓解大模型幻觉？
点击查看答案

十九、LLMs 对比篇

LLMs 对比篇

LLMs 对比篇
- 一、谈谈你对当前出现的各种大模型的见解？
- 二、目前大模型常见的 base 模型训练和 chat 模型训练方式的区别么？
- 三、llama、baichuan、ChatGLM、Bloom 和 qwen 等开源大模型技术对比篇
  - 3.1 llama 系列篇
    - 3.1.1 llama 篇
      - 3.1.1.1 llama 训练数据介绍
      - 3.1.1.2 llama 模型参数量介绍
      - 3.1.1.3 llama 模型结构介绍
      - 3.1.1.4 llama 训练目标介绍
      - 3.1.1.5 llama tokenizer 介绍
      - 3.1.1.6 llama 衍生模型介绍
      - 3.1.1.7 llama 词表扩展: Chinese LLaMA
    - 3.2.1 llama2 篇
      - 3.2.1 llama2 系列数据预处理方式？
      - 3.2.2 llama2 系列 Tokenizer 处理方式？
      - 3.2.3 llama2 系列 Architectural？
      - 3.2.4 llama2 系列 content长度？
  - 3.2 Mistral 7B 系列篇
    - 3.2.1 Mistral 7B Architectural？
  - 3.3 Qwen 系列篇
    - 3.3.1 Qwen 系列数据预处理方式？
    - 3.3.2 Qwen 系列 Tokenizer 处理方式？
    - 3.3.3 Qwen 系列 ARCHITECTURE？
  - 3.4 Baichuan 系列篇
    - 3.4.1 Baichuan2 篇
      - 3.4.1.1 Baichuan2 系列数据预处理方式？
      - 3.4.1.2 Baichuan2 系列 Tokenizer 处理方式？
      - 3.4.1.2 Baichuan2 系列 Architecture ？
  - 3.5 GLM 系列篇
    - 3.5.1 ChatGLM-6B 篇
      - 3.5.1.1 ChatGLM-6B 结构特点？
      - 3.5.1.2 ChatGLM-6B 训练目标？
      - 3.5.1.3 ChatGLM-6B tokenizer？
  - 3.6 BLOOM 系列篇
    - 3.6.1 BLOOM 篇
      - 3.6.1.1 BLOOM 训练数据构建？
      - 3.6.1.2 BLOOM 模型参数量？
      - 3.6.1.3 BLOOM 模型结构？
      - 3.6.1.4 BLOOM 训练目标？
      - 3.6.1.5 BLOOM tokenizer?
- 四、分析与总结？
  - 4.1 大模型训练共同点？
  - 4.2 大模型训练不同点？
- 五、对比
  - 5.1 LLaMA、ChatGLM 和 BLOOM 对比
  - 5.2 LLaMA、ChatGLM 和 BLOOM 的 tokenizer 比较
  - 5.3LLaMA、ChatGLM 和 BLOOM 的结果比较
点击查看答案

LLMs 对比篇

大模型-attention mask 篇
- 1、prefix-tuning的prefix tokens是双向注意力吗？
- 2、chatglm1和chatglm2的attention mask是怎么样的？
- 3、llama的attention mask是怎么样的？
点击查看答案

百川智能baichuan7B、13B、53B、baichuan2 总结篇

一、baichuan-7B篇
- 1. 你了解baichuan-7B解构么？介绍一下？
- 1. baichuan-7B 如何收集原始数据并构建训练数据？
- 1. baichuan-7B 如何提高训练稳定性和吞吐？
二、baichuan-13B篇
- ...
点击查看答案

LLaMa 篇

一、相比较于llama而言，llama2有哪些改进，对于llama2是应该如何finetune？
点击查看答案

GPT 经验篇

一、gpt源码past_key_value是干啥的？
二、gpt onebyone 每一层怎么输入输出？
三、bert和gpt有什么区别
四、文本生成的几大预训练任务？
五、讲讲T5和Bart的区别，讲讲bart的DAE任务？
六、讲讲Bart和Bert的区别？
七、gpt3和gpt2的区别？
点击查看答案

二十、思维链 Chain-of-Thought（COT）篇

思维链 Chain-of-Thought（COT）篇

一、什么是思维链提示？
二、思维链提示本质是什么？
三、思维链提示与标准的提示学习方法有什么不同?
四、思维链提示为什么可以提高语言模型的复杂推理能力?它的优势在哪里?
...
点击查看答案

思维链 Chain-of-Thought（COT）变体篇

思维链 Chain-of-Thought（COT）：思维链的启蒙
- 1. 什么是思维链 Chain-of-Thought（COT）？
- 1. 思维链 Chain-of-Thought（COT）是思路是什么？
- 1. 思维链 Chain-of-Thought（COT）存在问题？
思维树 Tree of Thoughts（TOT）：一种用树结构解决复杂问题的方法
- 1. 为什么需要思维树 Tree of Thoughts（TOT）？
- 1. 什么是思维树 Tree of Thoughts（TOT）？
- 1. 思维树 Tree of Thoughts（TOT）涉及问题有哪些？
...
点击查看答案

小样本提示学习篇

一、什么是Zero-shot提示方法？
二、什么是Few-shot提示方法？
三、阐述One-shot和Few-shot提示策略及其应用场景？
四、什么是逐步Zero-shot
五、定义Zero-shot-CoT提示策略并描述其应用方法？
六、解释Few-shot-CoT提示策略及其实际使用方式？
七、Few-shot-LtM策略包含哪些主要阶段及其职责？
点击查看答案

二十一、LLMs 测试集中数据泄露问题篇

一、什么是 LLMs 测试集数据泄露问题？
二、如何解决 LLMs 测试集数据泄露问题？
三、是否可以避开训练集来处理 LLMs 测试集数据泄露问题？
- ...
点击查看答案

二十二、MOE（Mixture-of-Experts）篇

22.1 MOE（Mixture-of-Experts）篇

一、为什么需要 MOE（Mixture-of-Experts）？
二、MOE（Mixture-of-Experts）的思路是什么样的？
三、介绍一下 MOE（Mixture-of-Experts）分布式并行策略？
- 3.1 MOE + 数据并行?
- 3.2 MOE + 模型并行?
四、MoE大模型具备哪些优势？
五、MoE大模型具备哪些缺点？
...
点击查看答案

22.2 MOE大模型对比篇

DeepSpeed-MoE
PAI-Megatron-Patch MoE
点击查看答案

二十三、大模型蒸馏篇

大模型蒸馏篇

一、知识蒸馏和无监督样本训练？
二、对知识蒸馏知道多少，有哪些改进用到了？
三、谈一下对模型量化的了解？
...
点击查看答案

LLMs 浮点数篇

一、fp32和fp16的区别，混合精度的原理
二、半精度是什么？
三、半精度的理论原理是什么？
...
点击查看答案

自定义 CUDA 函数的轻量级包装器 —— bitsandbytes篇

一、什么是 bitsandbytes?
二、如何才能使用 bitsandbytes？
三、如何使用 bitsandbytes？
...
点击查看答案

二十四、大模型（LLMs）软硬件配置面

建议的软件环境是什么？
...
点击查看答案

二十五、Token及模型参数准备篇

预训练数据 Token 重复是否影响模型性能？
SFT需要训练Token数？
点击查看答案

二十六、多模态常见面试篇

多模态常见面试篇

一、最近关注的论文，多模态视觉大模型(CLIP,DALLE)？
二、blip2的架构，优势和之前多模态模型的区别？
...
点击查看答案

二十七、NLP常见面试篇

NLP Trick 篇

一、怎么处理类别不平衡？
二、有了解其他模型去尝试解决长度限制的方案吗？
...
点击查看答案

文本分类常见面试篇

一、文本分类任务有哪些应用场景？
二、文本分类的具体流程？
三、fastText的分类过程？fastText的优点？
...
点击查看答案

文本摘要常见面试篇

一、抽取式摘要和生成式摘要存在哪些问题？
二、Pointer-generator network解决了什么问题？
三、文本摘要有哪些应用场景？
...
点击查看答案

命名实体识别常见面试篇

一、CRF 常见面试题
- 1.1 什么是CRF？CRF的主要思想是什么？
- 1.2 CRF的三个基本问题是什么？
- 1.3 线性链条件随机场的参数化形式？
- 1.4 CRF的优缺点是什么？
- 1.5 HMM与CRF的区别？
- 1.6 生成模型与判别模型的区别？
二、HMM 常见面试题
- ...
点击查看答案

向量检索常见面试篇

一、向量检索库总结
- 1.1 Annoy
  - 1.1.1 Annoy 介绍
  - 1.1.2 Annoy 使用
- 1.2 Faiss -...
点击查看答案

二十八、其他常见面试篇

LLMs 其他 Trick

huggingface 下载不了模型问题？
...

点击查看答案

二十九、大模型推理加速——KV Cache篇

大模型推理加速——KV Cache篇

大模型推理加速——KV Cache篇
- 一、介绍一下 KV Cache是啥？
- 二、为什么要进行 KV Cache？
  - 2.1 不使用 KV Cache 场景
  - 2.2 使用 KV Cache 场景
- 三、说一下 KV Cache 在大模型中的应用？
  - ...
点击查看答案

三十、大模型——角色扮演大模型篇

大模型——角色扮演大模型篇

大模型——角色扮演大模型篇
- 一、什么是角色扮演大模型？
- 二、为什么需要角色扮演大模型？
- 三、角色扮演大模型相比于通用大模型具有哪些区别？
- 四、能否通俗易懂的介绍【角色扮演大模型】？
- ...
点击查看答案

三十一、大模型——Chat o1 篇

千面郎君篇（三十一章）—— OpenAI o1 篇

千面郎君篇（三十一章）—— OpenAI o1 篇
- 一、Shortcut learning (捷径学习) vs Journey learning (旅程学习)
  - 1.1 Shortcut learning (捷径学习)
    - 1.1.1 什么是 Shortcut learning (捷径学习)？
    - 1.1.2 Shortcut learning (捷径学习) 包含哪些关键特征？
    - 1.1.3 Shortcut learning (捷径学习) 优点是什么？
    - 1.1.4 Shortcut learning (捷径学习) 缺点是什么？
  - 1.2 Journey learning (旅程学习)
    - 1.2.1 什么是 Journey learning (旅程学习)？
    - 1.2.2 Journey learning (旅程学习) 包含哪些关键特征？
    - 1.2.3 Journey learning (旅程学习) 优点是什么？
  - 1.3 Shortcut learning (捷径学习) vs Journey learning (旅程学习)
- 二、o1 的长思维链篇
  - 2.1 o1 的长思维链是什么样子？
  - 2.2 长思维 (Long thought) 是如何工作的？
  - 2.3 如何构建长思维？
- ...
点击查看答案

OpenAI o1 面试篇

OpenAI o1 面试篇
- Q: o1 的训练方法与之前的模型有何主要区别？
- Q: o1 的"思考"过程与简单的提示有何不同？
- Q: 为什么 o1 在推理任务上比之前的模型更强大？
- Q: o1 如何处理安全性问题？
- ...
点击查看答案

Scaling LLM Test-Time：谁说类o1推理一定要用RL?

Scaling LLM Test-Time：谁说类o1推理一定要用RL?
- 一、Scaling LLM Test-Time 介绍篇
  - 1.1 为什么需要 Scaling LLM Test-Time？
  - 1.2 三种 Scaling LLM Test-Time 类型定义？
  - 1.3 有哪些 Scaling Test-Time的方法？
  - 问题引申
- 二、方法一：纯 Inference Scaling 篇
  - 2.1 Inferece Test-Time的统一视角：Proposer & Verifier
  - 2.2 Proposer & Verifier 实例：Best-of-N
  - ...
点击查看答案

LLMs_interview_notes 快速上手指南

LLMs_interview_notes（又名“大模型千面郎君”）并非一个需要安装运行的软件库或框架，而是一个大模型（LLMs）面试准备的学习笔记与资料合集。该项目以文档形式整理了从基础理论、架构细节到微调、RAG 及 LangChain 应用的全方位面试题与解析。

因此，本指南将指导你如何快速获取、浏览及使用这份宝贵的知识库。

环境准备

由于本项目本质为 Markdown 文档集合，无需复杂的深度学习环境（如 GPU、CUDA、PyTorch 等）即可阅读。

系统要求：Windows / macOS / Linux 均可。
前置依赖：
- Web 浏览器：推荐 Chrome、Edge 或 Firefox，用于访问在线文档（体验最佳，包含完整跳转链接）。
- Git（可选）：如果你希望离线阅读或贡献内容，需安装 Git。
- Markdown 编辑器（可选）：如 VS Code、Typora，用于本地查看源码。

获取与安装步骤

你可以通过以下两种方式获取资料：

方式一：在线直接阅读（推荐）

这是最便捷的方式，所有面试题均配有详细的解答链接（通常指向知识星球或相关文章页），且保持实时更新。

访问项目 GitHub 主页或原文档链接。
直接在浏览器中点击目录中的各个章节链接（如“大模型基础面”、"Attention 升级面”等）进行阅读。

方式二：本地克隆（离线阅读）

如果你需要离线保存或在本地整理笔记，可以使用 Git 克隆仓库。

# 克隆仓库到本地
git clone https://github.com/your-target-repo/LLMs_interview_notes.git

# 进入项目目录
cd LLMs_interview_notes

注意：由于原 README 中的详细解答多通过外部链接（如 articles.zsxq.com）承载，本地克隆后主要能查看到题目大纲。为了获得完整的“题目 + 答案”体验，建议优先使用方式一在线浏览，或将关键文章收藏至本地笔记软件。

基本使用

本项目的使用核心在于按图索骥，根据你的学习阶段或面试需求，定向查阅对应模块。

1. 基础理论复习

如果你是初学者或需要夯实基础，请从 “一、大模型（LLMs）基础面” 开始。

重点关注：Transformer 架构变体（Decoder-only vs Encoder-Decoder）、Layer Norm 变种（RMS Norm, Deep Norm）、激活函数（GeLU, Swish）以及 Attention 机制的演进（MQA, GQA, FlashAttention）。
使用方法：点击对应小标题链接，阅读题目并对照答案解析，理解公式推导与设计初衷。

2. 进阶与微调实战

针对有经验的开发者或准备高阶岗位面试，请查阅 “二、大模型进阶面” 和 “三、大模型微调面”。

核心内容：
- 解决“复读机”问题、长文本处理策略。
- SFT（监督微调）全流程：数据构建、Loss 异常分析、显存估算。
- PEFT（参数高效微调）：LoRA、QLoRA、Adapter 的原理与代码实现思路。
应用场景：在准备技术方案设计面试时，参考其中的“训练经验帖”和"SFT Trick"篇，获取工业界落地的最佳实践。

3. 应用开发（LangChain & RAG）

针对应用层开发工程师，重点阅读 “四、LangChain 面” 和 “五、RAG 检索增强生成面”。

核心内容：
- LangChain 核心组件（Chains, Agents, Retrievers）解析。
- RAG 全链路优化：PDF 解析、文本分块策略、向量召回优化（HYDE, FLARE）、Graph RAG。
- 常见痛点解决方案：内容缺失、上下文丢失、负样本挖掘。
使用方法：结合具体的业务场景（如构建企业知识库问答），参考其中的“版面分析”和“检索策略”章节，优化你的系统架构。

4. 模拟自测

利用项目中的问题列表进行自我模拟面试：

遮住答案链接。
尝试口头或书面回答当前问题（例如：“请简述 FlashAttention 的核心优势”）。
点击链接查看标准解析，对比自己的回答遗漏了哪些关键点（如 IO 复杂度、显存占用等）。

通过以上步骤，你可以高效地利用 LLMs_interview_notes 构建完整的大模型知识体系，从容应对各类技术面试。

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他

gpt4all

GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。

★ 77.3k|★☆☆☆☆|3天前

语言模型开发框架