LLM-Interview-Questions-and-Answers-Hub
LLM-Interview-Questions-and-Answers-Hub 是一个专为大语言模型(LLM)求职者打造的开源知识库,汇集了 100+ 道高频面试真题及其详细解答。在生成式 AI 技术快速迭代的背景下,许多开发者难以系统掌握从基础理论到工程落地的核心考点,本资源库正是为了解决这一痛点而生。
内容覆盖广泛,不仅包含 Transformer 架构原理、位置编码机制、自注意力计算等理论基础,还深入探讨了 KV Cache 加速、量化技术对推理性能的影响、显存优化策略以及分词算法选择等工程实践难题。每道题目均配有清晰的解析,帮助读者真正理解面试官关注的技术细节,而非死记硬背。
该工具非常适合准备面试的机器学习工程师、AI 研究员、数据科学家及软件开发者使用。无论是希望巩固基础知识的新手,还是想要查漏补缺的资深从业者,都能从中获益。此外,项目作者还维护了 RAG 面试题库、提示工程技术指南及相关论文综述等配套资源,形成了完整的学习生态。通过系统梳理这些高质量问答,用户可以高效构建知识体系,从容应对现代 LLM 与生成式 AI 领域的技术面试挑战。
使用场景
一位准备跳槽的资深算法工程师正在紧急备战某大厂的 LLM 岗位面试,需要在短时间内系统梳理从底层架构到推理优化的核心知识点。
没有 LLM-Interview-Questions-and-Answers-Hub 时
- 知识碎片化严重:候选人需在知乎、博客和论文间反复跳转搜索"KV Cache 优化”或“位置编码原理”,难以形成完整的知识体系。
- 深度把握不准:面对“量化如何影响推理速度”等深层问题,只能凭模糊印象作答,缺乏标准化的技术解释和边界条件分析。
- 复习效率低下:花费大量时间筛选低质量面经,却遗漏了如"Subword 分词优势”等高频但易被忽视的基础考点。
- 实战模拟缺失:缺乏针对性的问答对照,无法预判面试官对"Transformer 自注意力计算步骤”等细节的追问逻辑。
使用 LLM-Interview-Questions-and-Answers-Hub 后
- 体系化知识构建:直接利用库中 100+ 精选题目,快速建立起涵盖模型架构、推理加速及分词策略的完整知识地图。
- 答案精准专业:参考库中对“大词表权衡”等问题的深度解析,能够用清晰的技术术语阐述 trade-offs,展现专家级理解。
- 高效查漏补缺:通过目录快速定位薄弱环节,针对性研读"LLM 推理基本步骤”等标准答案,大幅缩短备考周期。
- 模拟实战演练:对照库中的问答逻辑进行自测,确保在回答“如何处理 KV Cache 内存占用”时能条理清晰地给出解决方案。
LLM-Interview-Questions-and-Answers-Hub 将原本散乱的备考过程转化为高效的系统化突击,帮助工程师精准掌握面试官真正关心的核心技术点。
运行环境要求
未说明
未说明

快速开始
🚀 大语言模型面试题与答案汇总
本仓库包含100多道大语言模型相关的面试题及答案。

随时掌握生成式AI、大语言模型、智能体及RAG的最新动态。
加入🚀 AIxFunda 免费新闻简报(https://aixfunda.substack.com/),获取与生成式AI、大语言模型、智能体和RAG相关的最新资讯及精彩教程。
- ✨ 每周生成式AI动态
- 📄 每周大语言模型、智能体和RAG领域的论文更新
- 📝 每周一篇关于有趣主题的新博客文章
相关仓库
- 📗RAG面试题与答案汇总 - 100+ 道RAG相关面试题及答案。
- 🚀提示工程技巧汇总 - 25+ 种提示工程技巧,并附有LangChain实现。
- 👨🏻💻大语言模型工程师工具包 - 按类别整理的120+款大语言模型、RAG和智能体相关库。
- 🩸大语言模型、RAG及智能体综述论文合集 - 按类别整理的200+篇综述论文。
🚀 大语言模型面试题与答案书籍
借助这本专为机器学习工程师、人工智能工程师、数据科学家和软件工程师打造的全面、以面试为导向的指南,轻松应对现代大语言模型和生成式AI领域的面试挑战。
本书收录了100+道精心挑选的大语言模型面试题,每道题都配有清晰的答案和深入的解析,助你真正理解面试官关注的核心概念。在此购买本书。
使用优惠码:LLMQA25,即可享受本书的专属折扣(50%)。(限时优惠)

| 序号 | 问题 | 答案 |
|---|---|---|
| Q1 | CNN和RNN不使用位置嵌入,为什么Transformer要使用位置嵌入? | 答案 |
| Q2 | 请告诉我运行LLM推理查询的基本步骤。 | 答案 |
| Q3 | 解释KV缓存如何加速LLM的推理过程。 | 答案 |
| Q4 | 量化如何影响推理速度和内存需求? | 答案 |
| Q5 | 在LLM推理中,如何处理KV缓存带来的大内存需求? | 答案 |
| Q6 | 经过分词后,Transformer模型中的token是如何被转换为embedding的? | 答案 |
| Q7 | 解释为什么在Transformer模型中,子词级分词比词级分词更受欢迎。 | 答案 |
| Q8 | 解释在LLM中使用大规模词汇表的权衡。 | 答案 |
| Q9 | 逐步解释Transformer模型中自注意力机制是如何计算的。 | 答案 |
| Q10 | Transformer模型中自注意力机制的计算复杂度是多少? | 答案 |
| Q11 | Transformer模型如何解决梯度消失问题? | 答案 |
| Q12 | 什么是分词?为什么它在LLM中是必要的? | 答案 |
| Q13 | 解释Token Embedding在Transformer模型中的作用。 | 答案 |
| Q14 | 解释Transformer模型中Embedding层的工作原理。 | 答案 |
| Q15 | 自注意力机制在Transformer模型中的作用是什么?为什么称为“自注意力”? | 答案 |
| Q16 | Transformer模型中编码器的作用是什么? | 答案 |
| Q17 | Transformer模型中解码器的作用是什么? | 答案 |
| Q18 | 从高层次来看,Transformer模型中的编码器-解码器结构是如何工作的? | 答案 |
| Q19 | Transformer模型中自注意力机制进行缩放的目的是什么? | 答案 |
| Q20 | 为什么Transformer模型使用多头自注意力而不是单头自注意力? | 答案 |
| Q21 | 在Transformer模型的多头注意力机制中,多个头的输出是如何被合并并投影回的? | 答案 |
| Q22 | 掩码自注意力与普通自注意力有何不同?它在Transformer中用于何处? | 答案 |
| Q23 | 讨论Transformer模型中自注意力机制的优缺点。 | 答案 |
| Q24 | Transformer解码器中掩码自注意力的作用是什么? | 答案 |
| Q25 | 解释Transformer中掩码自注意力的掩码机制是如何工作的? | 答案 |
| Q26 | 解释为什么解码器中的自注意力被称为交叉注意力?它与编码器中的自注意力有何不同? | 答案 |
| Q27 | 什么是Softmax函数?它在Transformer中应用在哪里? | 答案 |
| Q28 | Transformer层中残差(跳跃)连接的作用是什么? | 答案 |
| Q29 | 为什么使用层归一化?它在Transformer中应用在哪里? | 答案 |
| Q30 | 什么是交叉熵损失?它在Transformer训练过程中是如何应用的? | 答案 |
| Q31 | 比较Transformer和RNN在处理长距离依赖关系方面的表现。 | 答案 |
| Q32 | Transformer模型有哪些根本性的局限性? | 答案 |
| Q33 | Transformer如何克服CNN和RNN的局限性? | 答案 |
| Q34 | Transformer模型如何解决梯度消失问题? | 答案 |
| Q35 | 前馈网络子层的作用是什么? | 答案 |
| Q36 | 你能简要说明一下LLM训练和推理的区别吗? | 答案 |
| Q37 | LLM推理中的延迟是什么?为什么它很重要? | 答案 |
| Q38 | 什么是批量推理?它与单次查询推理有何不同? | 答案 |
| Q39 | 一般而言,批处理如何提高LLM推理效率? | 答案 |
| Q40 | 解释LLM服务中批处理与延迟之间的权衡。 | 答案 |
| Q41 | 像专家混合(MoE)这样的技术如何优化推理效率? | 答案 |
| Q42 | 解释解码策略在LLM文本生成中的作用。 | 答案 |
| Q43 | LLM中有哪些不同的解码策略? | 答案 |
| Q44 | 解释解码策略对LLM生成内容质量和延迟的影响。 | 答案 |
| Q45 | 解释贪婪搜索解码策略及其主要缺点。 | 答案 |
| Q46 | 束搜索相比贪婪搜索有哪些改进?束宽参数的作用是什么? | 答案 |
| Q47 | 何时确定性策略(如束搜索)比随机采样策略更合适?请给出一个具体的应用场景。 | 答案 |
| Q48 | 比较贪婪搜索和束搜索时,计算成本与输出质量之间存在怎样的主要权衡? | 答案 |
| Q49 | 当你将温度设置为0.0时,你正在使用哪种解码策略? | 答案 |
| Q50 | 束搜索与广度优先搜索(BFS)或深度优先搜索(DFS)有何根本区别? | 答案 |
| Q51 | 解释选择不同解码策略的标准。 | 答案 |
| Q52 | 比较LLM中的确定性和随机解码方法。 | 答案 |
| Q53 | 上下文窗口在LLM推理中起什么作用? | 答案 |
| Q54 | 解释LLM推理中大上下文窗口和小上下文窗口的优缺点。 | 答案 |
| Q55 | 温度在LLM推理中的作用是什么?它如何影响输出? | 答案 |
| Q56 | 在LLM的背景下,什么是自回归生成? | 答案 |
| Q57 | 解释LLM中自回归文本生成的优势和局限性。 | 答案 |
| Q58 | 解释扩散语言模型(DLMs)与大型语言模型(LLMs)有何不同? | 答案 |
| Q59 | 对于对延迟敏感的应用,你更倾向于使用DLMs还是LLMs? | 答案 |
| Q60 | 解释推理过程中的令牌流概念。 | 答案 |
| Q61 | 什么是推测性解码?在什么情况下你会使用它? | 答案 |
| Q62 | 在多GPU上进行分布式推理会面临哪些挑战? | 答案 |
| Q63 | 你将如何设计一个可扩展的LLM推理系统,以支持实时应用? | 答案 |
| Q64 | 解释Flash Attention在减少内存瓶颈方面的作用。 | 答案 |
| Q65 | 什么是连续批处理?它与静态批处理有何不同? | 答案 |
| Q66 | 什么是混合精度?为什么在推理中会使用它? | 答案 |
| Q67 | 区分在线和离线LLM推理部署场景,并讨论各自的需求。 | 答案 |
| Q68 | 解释LLM推理中的吞吐量与延迟之间的权衡。 | 答案 |
| Q69 | 在现代GPU上运行典型的LLM推理流水线时,可能会遇到哪些瓶颈? | 答案 |
| Q70 | 你如何衡量LLM推理性能? | 答案 |
| Q71 | 目前有哪些可用的LLM推理引擎?你更倾向于使用哪一个? | 答案 |
| Q72 | LLM推理中存在哪些挑战? | 答案 |
| Q73 | 加速LLM推理有哪些可能的方法? | 答案 |
| Q74 | 什么是思维链提示?它在什么情况下有用? | 答案 |
| Q75 | 解释思维链(CoT)提示有效的原因。 | 答案 |
| Q76 | 解释使用CoT提示的权衡。 | 答案 |
| Q77 | 什么是提示工程?为什么它对LLM很重要? | 答案 |
| Q78 | 零样本提示和少样本提示有什么区别? | 答案 |
| Q79 | 选择少样本提示示例有哪些不同的方法? | 答案 |
| Q80 | 为什么在设计LLM提示时,上下文长度很重要? | 答案 |
| Q81 | 什么是系统提示?它与用户提示有何不同? | 答案 |
| Q82 | 什么是上下文学习(ICL)?它与少样本提示有何关系? | 答案 |
| Q83 | 什么是自我一致性提示?它如何提升推理能力? | 答案 |
| Q84 | 为什么在提示设计中上下文很重要? | 答案 |
| Q85 | 描述一种通过提示设计来减少幻觉现象的策略。 | 答案 |
| Q86 | 如何构建一个提示,以确保LLM的输出符合特定格式,例如JSON? | 答案 |
| Q87 | 解释ReAct提示在AI代理中的作用。 | 答案 |
| Q88 | LLM开发分为哪几个阶段? | 答案 |
| Q89 | LLM微调有哪些不同类型? | 答案 |
| Q90 | 指令微调在提升LLM易用性方面起什么作用? | 答案 |
| Q91 | 对齐微调在提升LLM易用性方面起什么作用? | 答案 |
| Q92 | 如何在微调过程中防止过拟合? | 答案 |
| Q93 | 什么是灾难性遗忘?为什么它在微调中是一个值得关注的问题? | 答案 |
| Q94 | 全量微调有哪些优势和局限性? | 答案 |
| Q95 | 解释参数高效微调如何解决全量微调的局限性。 | 答案 |
| Q96 | 什么情况下提示工程会比任务特定的微调更合适? | 答案 |
| Q97 | 何时应该使用微调而不是RAG? | 答案 |
| Q98 | 使用RAG代替微调有哪些局限性? | 答案 |
| Q99 | 微调相比RAG有哪些局限性? | 答案 |
| Q100 | 何时应优先选择任务特定的微调而非提示工程? | 答案 |
| Q101 | 什么是LoRA?它是如何工作的? | 答案 |
| Q102 | 解释LoRA技术有效性的关键因素。 | 答案 |
| Q103 | 什么是QLoRA?它与LoRA有何不同? | 答案 |
| Q104 | 什么情况下你会选择使用QLoRA而不是标准LoRA? | 答案 |
| Q105 | 如果你的消费级硬件GPU显存有限,该如何进行LLM微调? | 答案 |
| Q106 | 解释不同的偏好对齐方法及其权衡。 | 答案 |
| Q107 | 什么是梯度累积?它如何帮助微调大型模型? | 答案 |
| Q108 | 提高LLM微调速度有哪些可能的途径? | 答案 |
| Q109 | 解释LLM预训练中使用的预训练目标。 | 答案 |
| Q110 | 随机语言建模和掩码语言建模有什么区别? | 答案 |
| Q111 | LLM如何处理未登录词汇(OOV)? | 答案 |
| Q112 | 在LLM预训练的背景下,什么是规模定律? | 答案 |
| Q113 | 解释专家混合(MoE)架构的概念及其在LLM预训练中的作用。 | 答案 |
| Q114 | 什么是模型并行?它在LLM预训练中如何应用? | 答案 |
| Q115 | 自监督学习在LLM预训练中的重要性是什么? | 答案 |
⭐️ 星标历史
如果您觉得这个仓库很有用,请考虑给它点个赞吧。
相似工具推荐
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
DeepSeek-V3
DeepSeek-V3 是一款由深度求索推出的开源混合专家(MoE)大语言模型,旨在以极高的效率提供媲美顶尖闭源模型的智能服务。它拥有 6710 亿总参数,但在处理每个 token 时仅激活 370 亿参数,这种设计巧妙解决了大规模模型推理成本高、速度慢的难题,让高性能 AI 更易于部署和应用。 这款模型特别适合开发者、研究人员以及需要构建复杂 AI 应用的企业团队使用。无论是进行代码生成、逻辑推理还是多轮对话开发,DeepSeek-V3 都能提供强大的支持。其独特之处在于采用了无辅助损失的负载均衡策略和多令牌预测训练目标,前者在提升计算效率的同时避免了性能损耗,后者则显著增强了模型表现并加速了推理过程。此外,模型在 14.8 万亿高质量令牌上完成预训练,且整个训练过程异常稳定,未出现不可恢复的损失尖峰。凭借仅需 278.8 万 H800 GPU 小时即可完成训练的高效特性,DeepSeek-V3 为开源社区树立了一个兼顾性能与成本效益的新标杆。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
