[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-315386775--DeepLearing-Interview-Awesome-2024":3,"tool-315386775--DeepLearing-Interview-Awesome-2024":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":76,"owner_url":79,"languages":76,"stars":80,"forks":81,"last_commit_at":82,"license":76,"difficulty_score":83,"env_os":84,"env_gpu":84,"env_ram":84,"env_deps":85,"category_tags":88,"github_topics":89,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":101,"updated_at":102,"faqs":103,"releases":104},8973,"315386775\u002FDeepLearing-Interview-Awesome-2024","DeepLearing-Interview-Awesome-2024","AIGC-interview\u002FCV-interview\u002FLLMs-interview面试问题与答案集合仓，同时包含工作和科研过程中的新想法、新问题、新资源与新项目","DeepLearing-Interview-Awesome-2024 是一个专注于人工智能领域面试准备与学术创新的开源知识库。它系统性地整理了大语言模型（LLMs）、计算机视觉、深度学习基础、行业垂域应用（如自动驾驶、智慧医疗）、手撕代码实战以及优质资源推荐六大核心模块的内容。\n\n该项目主要解决了算法求职者在面对快速迭代的技术栈时，难以获取高质量、有深度且紧跟前沿的面试题与解析的痛点。不同于传统的题库，这里收录的问题不仅涵盖大厂高频考点，更融入了对最新学术论文创新点的思考，强调“高、新、深”的原则，旨在帮助使用者不仅通过面试，更能深入理解技术背后的原理与业务场景。\n\n无论是即将参加校招或社招的算法工程师、致力于科研创新的研究人员，还是希望拓展技术视野的开发者，都能从中获益。其独特亮点在于持续更新的动态机制，内容从基础的模型微调（如 LoRA、P-Tuning）到复杂的架构优化（如 GQA、RoPE），再到具体的工程落地问题，均提供了详细的解析思路。此外，项目还鼓励社区共创，致力于打造一个集学习、交流与资源共享于一体的高质量技术社群，是通往理想 Offer 和科研突破的有力助手。","# **DeepLearning-Interview-Awesome-2024**　![Language](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flanguage-Jupyter-orange.svg) [![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](.\u002FLICENSE.md) ![AD](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F深度学习-感知算法-pink.svg)\n\n\n本项目涵盖了**大模型(LLMs)专题**、**计算机视觉与感知算法专题**、**深度学习基础与框架专题**、**自动驾驶、智慧医疗等行业垂域专题**、**手撕项目代码专题**、**优异开源资源推荐专题**共计6大专题模块。我们将持续整理汇总最新的面试题并详细解析这些题目，除面向面试的场景外我们的题目还来源于对最新学术论文创新点的思考，希望能成为大家学术科研、工作创新、offer面试路上一份有效的辅助资料。\n\n### 项目简介\n\n2025年算法面试题目继续更新，具体请 follow [2024年深度学习算法与大模型面试指南](https:\u002F\u002Fgithub.com\u002F315386775\u002FDeepLearing-Interview-Awesome-2024)，喜欢本项目的请右上角点个star，同时也欢迎大家一起共创该项目。\n\n该项目持续更新：\n\n- 本文录入题目的原则：**高新深**，其中高是指-各大厂公司近年高频算法面试题，新是指-题目要新紧跟学术和工业界的发展，比如录入了大量大模型领域的面试题，深是指-题目要有一定的内容与深度，可以引人思考，比如面向业务场景改进的面试题，来源于论文创新点的思考；\n- 目前录入列表的题目，存在部分没有答案解析的题目，或者解析内容不全的题目，我们会尽快补上所有解析；\n- 目前录入列表的顺序，没有先后、频次、难度、细类别等维度信息，后续会再给予更多维度更详细的分类；\n\n\n### 打造高质量社群\n\n- 欢迎关注微信公众号：***码科智能***，来源于Mark.AI的谐音梗，每日更新多模态大模型相关开源项目\u002F代码解析\u002F案例教程等内容；\n- **金三银四校招社招群**：扫码添加作者微信，避雷校招常见问题，分享最新有价值的学术论文，分享交流面试情况，协助内推；\n- **AI大模型工具分享群**：扫码添加作者微信，分享各方向的开源项目，分享各AI工具使用教程。\n\n\u003C!-- \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F315386775_DeepLearing-Interview-Awesome-2024_readme_b06c0c52896e.png\" alt=\"Alt\" style=\"display: block; margin: 0 auto; height: 190px;\"> -->\n\n![Alt](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F315386775_DeepLearing-Interview-Awesome-2024_readme_b06c0c52896e.png)\n\n### 六大专题及题目列表\n\n\u003Cb>\u003Csummary>🏆大模型(LLMs)专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 大语言模型\n\n| [**01. 模型微调：大模型常用微调方法LORA和Ptuning的原理，与传统fine-tuning微调有何不同?**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**30. 模型微调：Instruction Tuning与Prompt tuning方法的区别？**](LLMs\u002FReference.md)           | \n| [**07. 模型微调：监督微调SFT后LLM表现下降的原因**](LLMs\u002FReference.md)           | \n| [**18. 模型微调：大模型微调的LORA怎么训练？**](LLMs\u002FReference.md)           | \n| [**19. 模型微调：LORA的矩阵怎么初始化？为什么要初始化为全0？**](LLMs\u002FReference.md)           | \n| [**33. 模型微调：进行SFT操作的时候，基座模型选用Chat还是Base?**](LLMs\u002FReference.md)           |\n| [**03. 模型结构：为何现在的大模型大部分是Decoder only结构**](LLMs\u002FReference.md)           | \n| [**15. 模型结构：你能否概括介绍一下 ChatGPT 的训练过程？**](LLMs\u002FReference.md)           | \n| [**16. 模型结构：在大型语言模型 (llms) 上下文中的标记是什么？**](LLMs\u002FReference.md)           | \n| [**40. 模型结构：GPT3、LLAMA的Layer Normalization 的区别是什么？**](LLMs\u002FReference.md)           | \n| [**04. 模型优化：如何缓解 LLMs 复读机问题**](LLMs\u002FReference.md)           | \n| [**14. 模型优化：在大型语言模型 (llms) 中减少幻觉的策略有哪些？**](LLMs\u002FReference.md)           | \n| [**29. 模型优化：如何提升大语言模型的Prompt泛化性？**](LLMs\u002FReference.md)           | \n| [**34. 模型优化：开源大模型进行预训练的过程中会加入书籍、论文等数据，这部分数据如何组织与处理?**](LLMs\u002FReference.md)           | \n| [**38. 模型优化：如何解决chatglm微调的灾难性遗忘问题？**](LLMs\u002FReference.md)           | \n| [**10. BERT用于分类任务的优点，后续改进工作有哪些？**](LLMs\u002FReference.md)           | \n| [**23. BERT的预训练任务有什么？为什么引入下一个句子预测任务？**](LLMs\u002FReference.md)           | \n| [**37. BERT的预训练过程中是否使用了位置编码和注意力机制？**](LLMs\u002FReference.md)           | \n| [**38. LangChain 通常被用作「粘合剂」，将构建 LLM 应用所需的各个模块连接在一起，请介绍下其核心模块？**](LLMs\u002FReference.md)           | \n| [**39. 模型优化：为了提升Llama 3 的推理效率，模型结构采用分组查询注意 (GQA)，简述该模块？**](LLMs\u002FReference.md)           | \n| [**40. 模型架构：llama2中使用的注意力机制是什么？**](LLMs\u002FReference.md)           | \n| [**41. 模型架构：在预训练阶段，几种主流大模型的 Loss 了解过吗? 有哪些异同？**](LLMs\u002FReference.md)           | \n| [**42. 模型架构：旋转位置编码（RoPE）和ALiBi位置编码分别的特点和应用场景？**](LLMs\u002FReference.md)           | \n| [**43. 模型架构：Qwen-VL模型的整体网络架构包括哪三个组件？请分别介绍它们的作用和来源？**](LLMs\u002FReference.md)           | \n| [**44. 模型架构：对于Qwen-VL模型的输入，图像是如何处理的？它们经过视觉编码器和适配器后得到了怎样的特征序列？**](LLMs\u002FReference.md)           | \n| [**45. 数据准备：微调大语言模型的训练集的格式？如何处理GPT生成的训练数据？**](LLMs\u002FReference.md)           | \n| [**46. 模型微调：监督微调（SFT）相比于RLHF的局限在哪？如果用RM清洗和制造SFT数据能不能取代rlhf呢？**](LLMs\u002FReference.md)           | \n| [**47. 数据准备：在处理对话及语料数据时，针对数据去重用了哪些算法，针对语料训练阶段的数据增强做了哪些？**](LLMs\u002FReference.md)           | \n| [**48. 数据准备：LLaMa3.1的微调进行了几轮，奖励模型的训练数据和SFT的训练数据用了什么？**](LLMs\u002FReference.md)           | \n| [**49. 模型推理：现有技术范式下，如何缓解大模型出现的广义幻觉和狭义幻觉？**](LLMs\u002FReference.md)           | \n| [**50. 模型训练：分布式训练框架 DeepSpeed 相较于Pytorch原生的 torchrun 有什么优点？**](LLMs\u002FReference.md)           | \n| [**51. 模型推理：LLM推理时Prefill阶段多数据并行，属于计算瓶颈，有什么对应的加速方法？**](LLMs\u002FReference.md)           | \n| [**52. 模型推理：LLM推理时Decode阶段一次迭代一个token，内存耗时更多，有什么对应的加速方法？**](LLMs\u002FReference.md)           | \n| [**53. 模型优化：LLM从架构上来说，主要是针对Attention和FFN进行优化，其中Attention优化有哪些？**](LLMs\u002FReference.md)           | \n| [**54. 模型推理：大模型训练及微调的显存占用情况，如何估算推理阶段所需显存？**](LLMs\u002FReference.md)           | \n| [**55. 模型训练：大模型训练阶段的耗时在哪里？比如涉及到千卡的训练。**](LLMs\u002FReference.md)           | \n| [**56. 模型优化：在SFT过程中Prompt优化是重要的一步，比如在商品分类的任务中，原提示词可能只包含了类别信息？**](LLMs\u002FReference.md)           | \n| [**57. 模型训练：SFT和RL分别对基座大模型的作用和影响是什么？**](LLMs\u002FReference.md)           | \n| [**58. 模型训练：RL\u002FSFT 如何影响视觉语言模型（VLM）中的视觉识别能力？**](LLMs\u002FReference.md)           | \n| [**59. 模型训练：Qwen-VL 的三个训练流程分别是什么，有什么作用？**](LLMs\u002FReference.md)           | \n| [**60. 模型架构：视觉编码器和 LLM 连接时，使用 BLIP2 中 Q-Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好，说说各自的优缺点？**](LLMs\u002FReference.md)           | \n| [**61. 模型训练：大模型预训练和SFT的loss的差别是什么？**](LLMs\u002FReference.md)           | \n| [**62. 模型问题：Deepseed旨在减少内存使用并提高训练效率，其三个stage分别是什么？**](LLMs\u002FReference.md)           | \n| [**63. 模型架构：Janus-Pro将视觉编码解耦以进行多模态理解和生成，分别是什么？**](LLMs\u002FReference.md)           | \n| [**64. 模型架构：Janus-Pro将图像都被调整为 384×384 像素，对于多模态理解数据和生成数据有什么不同？**](LLMs\u002FReference.md)           | \n| [**65. 模型架构：为什么 qwen2-vl 比qwen-vl 更多保留图片信息？**](LLMs\u002FReference.md)           | \n| [**66. 模型架构：LLM 中的上下文窗口是什么，为什么它很重要？**](LLMs\u002FReference.md)           | \n| [**67. 模型问题：温度在控制 LLM 输出方面起什么作用？**](LLMs\u002FReference.md)           | \n| [**68. 模型问题：三角位置编码与RoPE位置编码的不同？**](LLMs\u002FReference.md)           | \n| [**69. 模型问题：为什么现在的llm大模型主要都是用RoPE位置编码而非其他？**](LLMs\u002FReference.md)           | \n| [**70. 模型问题：Qwen2.5-VL的原生分辨率具体是如何做的？**](LLMs\u002FReference.md)           | \n\n\n- Agent工作流\n\n| [**01. Function call 怎么训练的，怎么微调的？**](LLMs\u002FAgent.md) |\n| :------------------------------------------- |\n| [**02. Fucntion call 怎么组织文本的格式喂给模型？**](LLMs\u002FAgent.md)           | \n| [**03. 你做过 Function Call 微调吗？难点是什么？**](LLMs\u002FAgent.md)           | \n\n- 视觉模型\n\n| [**02. 在视觉大模型中，DINOv2的架构设计有哪些关键创新点？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**01. Stable Diffusion里是如何用文本来控制生成的？**](LLMs\u002FReference.md) |\n| [**21. Stable Diffusion相比Diffusion主要解决的问题是什么？**](LLMs\u002FReference.md)           | \n| [**22. Stable Diffusion每一轮训练样本选择一个随机时间步长？**](LLMs\u002FReference.md)           | \n| [**39. Stable Diffusion的训练过程和预测过程是什么样的？**](LLMs\u002FReference.md)           | \n| [**11. 基座模型：SAM分割一切网络中的Promot类型以及如何输入进网络**](LLMs\u002FReference.md)           | \n| [**26. 基座模型：训练通用目标检测器常会使用多源图像进行训练，如何处理新类别歧视？**](LLMs\u002FReference.md)           | \n| [**27. 基座模型：Grounding DINO可以根据文字提示检测任意目标，简述网络的基本架构？**](LLMs\u002FReference.md)           | \n| [**28. 基座模型：Grounding DINO如何进行零样本迁移，比如要检测电路板中的电容电阻？**](LLMs\u002FReference.md)           | \n| [**29. 基座模型：SAM网络轻量化的几种思路，及代表性工作？**](LLMs\u002FReference.md)           | \n| [**30. Stable Diffusion XL是一个二阶段的级联扩散模型，简述其工作流？**](LLMs\u002FReference.md)           | \n| [**31. 将文本与图像的语义信息进行Attention机制，而Text Condition是三维的，而Latent Feature是四维的？**](LLMs\u002FReference.md)           | \n| [**32. 举例介绍SDXL模型的文本编码全过程？**](LLMs\u002FReference.md)           | \n| [**33. 在SD 1.4和SD 1.5的经典失败案例中，生成图像中的猫出现头部缺失的问题的本质原因及优化方案？**](LLMs\u002FReference.md)           | \n| [**34. DINOv2创建了一个新的高质量数据集, 其中处理过程中用到了去重和检索，简述其步骤？**](LLMs\u002FReference.md)           | \n| [**35. 简述DINOv2训练中 Image-level 和 Patch-level 的目标函数？**](LLMs\u002FReference.md)           | \n| [**36. 视觉预训练MAE模型decoder中的unmask和mask部分分别对应的隐向量是什么？**](LLMs\u002FReference.md)           | \n| [**37. 模型问题：多模态大模型常采用MLP作为视觉映射器，将视觉特征到token一对一地映射到文本空间, 如何压缩视觉token量以提升效率？**](LLMs\u002FReference.md)           | \n| [**38. 模型问题：VLM模型中高分辨率图像降低token数的几种方式？**](LLMs\u002FReference.md)           | \n| [**39. 模型问题：BLIP2 相对于 BLIP 有哪些改进，BLIP3 又有哪些改进？**](LLMs\u002FReference.md)           | \n\n- 通用问题\n\n| [**01. 为什么Transformer中使用LayerNorm而不是BatchNorm？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**06. Transformer为何使用多头注意力机制**](LLMs\u002FReference.md)           | \n| [**32. Transformer中的Attention计算复杂度以及如何改进？**](LLMs\u002FReference.md)           | \n| [**12. Transformer的层融合是如何做到的，其中Residue Network与Layer Norm如何算子融合**](LLMs\u002FReference.md)           | \n| [**41. MHA多头注意力和MQA多查询注意力的区别？**](LLMs\u002FReference.md)           | \n| [**17. Adaptive Softmax在大型语言模型中有何用处？**](LLMs\u002FReference.md)           | \n| [**31. 知识蒸馏是将复杂模型的知识转移到简单模型的方法，针对知识蒸馏有哪些改进点？**](LLMs\u002FReference.md)           | \n| [**42. 推理优化技术 Flash Attention 的作用是什么？**](LLMs\u002FReference.md)           | \n| [**43. ZeRO，零冗余优化器的三个阶段？**](LLMs\u002FReference.md)           | \n| [**44. Mamba 对 RNN 做了哪些改变，从而在GPU上可以算的比较快？**](LLMs\u002FReference.md)           | \n| [**45. 多头注意力机制MHA是Transformer模型中的核心组件, KV Cache和GQA优化的核心思想？**](LLMs\u002FReference.md)           | \n| [**46. BPE（Byte Pair Encoding）、Tokenization如何影响模型性能和训练过程？**](LLMs\u002FReference.md)           | \n| [**47. 100B以上的大模型预训练中出现loss spike的原因及解决方法？**](LLMs\u002FReference.md)           | \n\n\n- 多模态模型\u002F强化学习\u002FAGI等\n\n| [**01. 举例说明强化学习如何发挥作用？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**28. 如何理解强化学习中的奖励最大化？**](LLMs\u002FReference.md)           | \n| [**24. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？**](LLMs\u002FReference.md)           | \n| [**25. 在大型语言模型 (llms)中数据模态的对齐如何处理？**](LLMs\u002FReference.md)           | \n| [**35. 你能提供一些大型语言模型中对齐问题的示例吗？**](LLMs\u002FReference.md)           | \n\n\n\u003Cb>\u003Csummary>🍳计算机视觉与感知算法专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 常见问题\n\n| [**01. 大卷积核：在CNN网络中更大的核是否可以取得更高的精度？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 优化算法：匈牙利匹配方法可用于正负样本定义等问题中，介绍其实现原理**](VisionPerception\u002FReference.md)           | \n| [**03. 损失函数：Focal loss的参数如何调，以及存在什么问题**](VisionPerception\u002FReference.md)           | \n| [**04. 模型轻量化：举例一些从参数量、浮点运算量、模型推理时延进行优化，具有代表性的轻量化模型？**](VisionPerception\u002FReference.md) |\n| [**05. 图像处理：ORB特征提取的缺陷及如何进行改进**](VisionPerception\u002FReference.md) |\n| [**06. 通用模块：FPN的特征融合为什么是相加操作呢？**](VisionPerception\u002FReference.md) | \n| [**07. 通用模块：如何理解concat和add这两种常见的feature map特征融合方式？**](VisionPerception\u002FReference.md) | \n| [**08. 通用模块：Transformer的注意力机制常用softmax函数，可以使用sigmoid代替吗？**](VisionPerception\u002FReference.md) | \n| [**09. 通用模块：在设计轻量化模型时，有哪些一些基本的原则？concat和add相比哪个更耗时？**](VisionPerception\u002FReference.md) | \n| [**10. 通用模块：轻量级CNN网络，常采用深度可分离卷积，其中的点卷积FLOPs和MAC如何计算？**](VisionPerception\u002FReference.md) | \n| [**11. 损失函数：Focal loss支持0\u002F1这样的离散类别标签，如果标签是0~1连续值该如何处理？**](VisionPerception\u002FReference.md)           | \n| [**12. 损失函数：Focal loss过多关注难分样本，因此会受到离群点的影响，怎么同时衰减易分样本和特别难分的样本呢？**](VisionPerception\u002FReference.md)           | \n| [**13. 通用模块：Dropout训练和推理时的差异，训练阶段将某层的神经元输出以p的概率随机置为零，推理时如何处理？**](VisionPerception\u002FReference.md)           | \n\n- 目标分类\n\n| [**01. 损失函数：人脸识别任务中，ArcFace为什么比CosFace效果好**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 通用模块：介绍CBAM注意力**](VisionPerception\u002FReference.md)           | \n| [**03. 通用模块：局部注意力如何实现**](VisionPerception\u002FReference.md)           | \n| [**04. 数据增强：介绍mixup及其变体**](VisionPerception\u002FReference.md)           | \n| [**05. 场景问题：视觉任务中的长尾问题的常见解决方案**](VisionPerception\u002FReference.md)           | \n| [**06. 场景问题：如果在分类任务中几个类别有重叠（类间差异小）怎么办，如何设计网络结构**](VisionPerception\u002FReference.md) |\n| [**07. 场景问题：在A场景下进行目标的标记及训练，如何在B场景下取得好的效果？**](VisionPerception\u002FReference.md) | \n| [**08. 场景问题：如何更好的训练一个二分类任务，其中数据有80%的标注正确，20%标注失败**](VisionPerception\u002FReference.md) |      |  \n| [**09. 基座模型：CLIP的核心创新点简介，其如何处理文本输入**](VisionPerception\u002FReference.md) |      |  \n| [**10. 基座模型：ViT、DEIT是如何处理变长序列输入的？**](VisionPerception\u002FReference.md) | \n| [**11. 基座模型：VIT中对输入图像的处理是如何将patch变化为token的？**](VisionPerception\u002FReference.md) |\n| [**12. 基座模型：DINO v2 方法比类似的自监督判别方法好在哪里？**](VisionPerception\u002FReference.md) |\n\n- 目标检测\n\n| [**01. 样本匹配策略：FCOS训练阶段如何解决重叠样本造成的GT不一致问题**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 样本匹配策略：Centernet为什么可以去除NMS，以及正负样本的定义**](VisionPerception\u002FReference.md)           |\n| [**03. 样本匹配策略：Yolov5的正负样本定义，一个目标是否会被分配到不同的FPN层中**](VisionPerception\u002FReference.md)           | \n| [**04. 样本匹配策略：Yolov7的正负样本定义**](VisionPerception\u002FReference.md)           | \n| [**05. 样本匹配策略：Yolov8的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**06. 样本匹配策略：Yolov9的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**07. 样本匹配策略：Yolov1的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**08. 样本匹配策略：DETR用二分图匹配实现label assignment，简述其过程**](VisionPerception\u002FReference.md)           |  \n| [**09. 样本匹配策略：Anchor-free的target assign怎么解决多个目标中心点位置比较靠近的问题**](VisionPerception\u002FReference.md)           | \n| [**10. 样本匹配策略：Anchor-Based检测器在正负样本标签分配阶段，如何去除对anchor的依赖？**](VisionPerception\u002FReference.md) | \n| [**11. 样本匹配策略：目标检测如何选取正负样本将会极大的影响最后的检测效果，举例ATSS如何处理的？**](VisionPerception\u002FReference.md) |\n| [**12. 损失函数优化：FCOS的损失函数中centerness的作用**](VisionPerception\u002FReference.md) |\n| [**12. 样本匹配策略：FCOS构建正负样本阶段，如果大尺度和小尺度的重叠，比如人和手中的苹果，怎么处理？**](VisionPerception\u002FReference.md) |\n| [**12. 损失函数优化：FCOS使用 area-based 方法解决正样本分配的歧义性问题，其对大目标不太友好？还有没有更优的方案？**](VisionPerception\u002FReference.md) |\n| [**13. 损失函数优化：有哪些可以解决目标检测中正负样本不平衡问题的方法**](VisionPerception\u002FReference.md) | \n| [**14. 细节问题：Yolov5与Yolov4相比neck部分有什么不同**](VisionPerception\u002FReference.md)           | \n| [**15. 细节问题：Yolov5的Foucs层和Passthrough层有什么区别**](VisionPerception\u002FReference.md)           | \n| [**16. 细节问题：Yolov5中objectness的作用，最后输出的概率分数如何得到**](VisionPerception\u002FReference.md)           | \n| [**17. 模型问题：介绍DETR中从图像输入到Encoder处理的序列化数据的过程。**](VisionPerception\u002FReference.md)           | \n| [**18. 解码问题：解释YOLOv5模型输出(1, 25200, 85)的含义，及解码过程？**](VisionPerception\u002FReference.md) | \n| [**19. 解码问题：解释Centernet模型输出offset\u002Fscale\u002Fheatmap三个头的含义，及解码过程？**](VisionPerception\u002FReference.md) |\n| [**20. 场景问题：目标检测中旋转框IOU的计算方式**](VisionPerception\u002FReference.md)           | \n| [**21. 场景问题：如何修改Yolov5目标检测，从而实现旋转目标检测？**](VisionPerception\u002FReference.md) | \n| [**22. 场景问题：在目标Crowded的场景下，经常在两个真正目标中间会出现误检的原因?**](VisionPerception\u002FReference.md) |\n| [**23. 场景问题：通过设置更多的先验anchor能否改善小目标及非正常尺寸目标的性能，除计算速度外还存在什么问题**](VisionPerception\u002FReference.md) |\n| [**24. 场景问题：目前检测常需要NMS非极大值阈值算法作为后处理，有没有什么可以避免NMS后处理的方案？**](VisionPerception\u002FReference.md) |\n| [**25. 模型问题：如何理解DETR中的object query的概念，要为 cross attention 提供更好的位置先验该如何设计模型？**](VisionPerception\u002FReference.md) |\n| [**26. 模型问题：YOLOV5和YOLOV8的Head输出通道数分别是多少，假设现在是2个类别的检测任务？**](VisionPerception\u002FReference.md) |\n| [**27. 模型问题：解析一下ATSS、Task-Aligned Assigner和SIMOTA标签分配的区别？**](VisionPerception\u002FReference.md) |\n\n- 目标分割\n\n| [**01. 模型问题：在Unet网络结构中，四次降采样对于分割网络到底是不是必须的？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 模型问题：为什么UNet++可以被剪枝，怎么去决定剪多少？**](VisionPerception\u002FReference.md)           | \n| [**03. 模型问题：分割一切网络SAM如何处理目标的分割掩码输出？**](VisionPerception\u002FReference.md) |\n| [**04. 模型问题：SAM在本地的模型推理效果明显差于线上web版本，有什么方式可以优化其效果？**](VisionPerception\u002FReference.md) |\n| [**05. 基座模型：VIT直接用于分割检测等预测密集型的任务上存在什么问题？**](VisionPerception\u002FReference.md) |\n| [**06. 模型问题：分割网络采用编解码的方式，在解码器中使用反池化\u002F空洞卷积\u002F双线性插值对特征图进行上采样的区别？**](VisionPerception\u002FReference.md) |\n| [**07. 模型问题：分割网络编码部分常用的最大池化和下采样的组合实现了不变性，但对定位精度有一定的影响，与一个全连接条件随机场(CRF)相结合实现定位的优化？**](VisionPerception\u002FReference.md) |\n| [**08. 模型问题：SAM中的prompt_encoder部分支持几种类型的输入，针对点提示如何编码？**](VisionPerception\u002FReference.md) |\n| [**08. 模型问题：matting与传统分割的区别，介绍matting的原理？**](VisionPerception\u002FReference.md) |\n\n- 3D目标检测\n\n| [**01. 单目3D：FCOS3D训练阶段如何定义正负样本**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 单目3D：简述FCOS3D的head部分的结构，以及预测2.5D中心点offset的参考点定义？**](VisionPerception\u002FReference.md)           |\n| [**03. 单目3D：简述FCOS3D的解码过程，及其中在2D图像上的三维目标框如何获取？**](VisionPerception\u002FReference.md)           |\n| [**04. 单目3D：FCOS3D及大多数单目3D都是基于孤立的实例或像素来估计深度，而忽略了不同物体之间的几何关系，你有什么改进策略？**](VisionPerception\u002FReference.md)           |\n| [**05. 点云3D：PointPillars将点云转换为稀疏伪图像的过程，其中Scatter运算的步骤详述？**](VisionPerception\u002FReference.md)           |\n| [**06. BEV：PV2BEV视角变换的几种方式，基于模型的方式除相机内外参外还至少需要哪些参数？**](VisionPerception\u002FReference.md)           |\n\n\n- 对抗网络\u002F视频理解\u002F图像增强\u002F深度估计等\n\n| [**01. 对抗网络：GAN中的模式坍缩的识别和解决？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 深度估计：简述深度估计任务中常用到的光度重建损失？**](VisionPerception\u002FReference.md)           |  \n\n\n\u003Cb>\u003Csummary>⏰深度学习基础与框架专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- Pytorch常用操作及问题\n\n| [**01. Pytorch 训练时经常会合并多个数据集，ConcatDataset具体做了什么？**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. Pytorch 的多卡BN如何处理？**](DeepLearning\u002FReference.md) | \n| [**03. Pytorch DataLoader的主要参数有哪些**](DeepLearning\u002FReference.md) | \n| [**04. Pytorch 代码中如何尽量避免.to(device)的操作？**](DeepLearning\u002FReference.md)           |  \n| [**05. Pytorch 中nn.Identity()\u002F.chunk\u002F.masked_select\u002F.gather操作的应用场景？**](DeepLearning\u002FReference.md)           |  \n| [**06. PyTorch 节省显存的常用策略**](DeepLearning\u002FReference.md)           |  \n| [**07. PyTorch 的Modules一些属性问题**](DeepLearning\u002FReference.md) |  \n| [**08. PyTorch 中的 ModuleList 和 Sequential的区别和使用场景**](DeepLearning\u002FReference.md)           | \n| [**09. PyTorch 中 ConcatDataset的使用场景及用法**](DeepLearning\u002FReference.md)           | \n| [**10. PyTorch 中 nn.Upsample和interpolate插值的区别**](DeepLearning\u002FReference.md)           | \n| [**11. PyTorch 中 dataset与 dataloder的区别，自定义dataset需要哪些操作？**](DeepLearning\u002FReference.md)           | \n| [**12. PyTorch 中 主要且常用的归一化操作有BN，LN，IN，GN，介绍下他们的区别？**](DeepLearning\u002FReference.md)           | \n| [**13. PyTorch 中 nn.Linear()和nn.Embedding()有什么区别？**](DeepLearning\u002FReference.md)           | \n| [**14. PyTorch 中 Dataset 是用于表示数据集的基本类。获取一个batch数据的步骤？**](DeepLearning\u002FReference.md)           | \n\n- 那些常用的训练框架\n\n| [**01. TensorRT 为什么能让模型跑的更快**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. MMengine 的一些特性，其基础配置包含哪些内容**](DeepLearning\u002FReference.md) |  \n| [**03. MMdetect 中添加一个自定义的backbone网络，需要改哪些代码**](DeepLearning\u002FReference.md)           |  \n| [**04. MMCV 中Hook机制简介及创建一个新的Hook**](DeepLearning\u002FReference.md) | \n| [**05. Pytorch Lighting的设计哲学，及你觉得好用的点**](DeepLearning\u002FReference.md) | \n| [**06. MMdetect 在构建模型结构时具备灵活便捷的特点，比如 ResNet style 可选参数允许 pytorch 和 caffe，两者有什么区别？**](DeepLearning\u002FReference.md) | \n| [**07. 简述 MMdetection 中 Box Assigner分配器的两种方式？**](DeepLearning\u002FReference.md) | \n| [**08. 简述 MMdetection 中 正\u002F负样本采样器的类型，比如RandomSampler？**](DeepLearning\u002FReference.md) | \n| [**09. torch.onnx.export()中该如何设置 input_names, output_names, dynamic_axes？**](DeepLearning\u002FReference.md) | \n| [**10. 使用 torch.onnx.is_in_onnx_export()来使模型在转换到 ONNX 时有何不同的行为？**](DeepLearning\u002FReference.md) | \n| [**11. 大模型训练一般都采用torch2.0以上版本，其中torch.compile可加速训练，介绍下如何使用以及其是否对普通的python代码起作用？**](DeepLearning\u002FReference.md) | \n| [**12. 简述你认为 MMCV 的优缺点**](DeepLearning\u002FReference.md) | \n| [**13. 训练问题：多机多卡训练中的参数设置以2机8卡为例：分布式训练输出rank\u002Flocal_rank\u002Fworld_size分别是多少？**](DeepLearning\u002FReference.md) | \n| [**14. 训练问题：分布式训练数据分片有哪几种实现方式？**](DeepLearning\u002FReference.md) | \n| [**15. 训练问题：Pytorch训练的过程中内存一直增加的问题，如何解决？**](DeepLearning\u002FReference.md) | \n\n- 深度学习常见问题\n\n| [**01. 算子问题：卷积和BN如何融合提升推理速度**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 算子问题：神经网络引入注意力机制后效果降低的原因**](DeepLearning\u002FReference.md) |  \n| [**03. 算子问题：激活函数的对比与优缺点**](DeepLearning\u002FReference.md) |  \n| [**04. 算子问题：Transformer\u002FCNN\u002FRNN的时间复杂度对比**](DeepLearning\u002FReference.md) |  \n| [**05. 算子问题：深度可分离卷积**](DeepLearning\u002FReference.md) |  \n| [**06. 算子问题：CNN和MLP的区别**](DeepLearning\u002FReference.md) |  \n| [**06. 算子问题：max pooling如何操作？什么场景下 average 比 max pooling 更合适**](DeepLearning\u002FReference.md) |  \n| [**07. 损失函数：损失函数的应用-合页损失**](DeepLearning\u002FReference.md) | \n| [**08. 损失函数：为什么交叉熵可以作为损失函数**](DeepLearning\u002FReference.md) |  \n| [**09. 优化算法：优化算法之异同 SGD\u002FAdaGrad\u002FAdam**](DeepLearning\u002FReference.md) |  \n| [**10. 优化算法：有哪些权重初始化的方法**](DeepLearning\u002FReference.md) |  \n| [**11. 优化算法：深度学习中为什么不对 bias 偏置进行正则化？**](DeepLearning\u002FReference.md)           |  \n| [**12. 优化算法：正则化为什么可以增加模型泛化能力**](DeepLearning\u002FReference.md)           |  \n| [**13. 优化算法：为什么Adam常常打不过SGD？症结点与改善方案？**](DeepLearning\u002FReference.md)           |  \n| [**14. 常见问题：深度学习训练中如何区分错误样本和难例样本**](DeepLearning\u002FReference.md)           |  \n| [**15. 常见问题：深度学习模型训练时的Warmup预热学习的作用**](DeepLearning\u002FReference.md)           |  \n| [**16. 常见问题：考虑一个filter[-1 -1 -1; 0 0 0; 1 1 1] 用于卷积，该滤波器将从输入图像中提取哪些边缘**](DeepLearning\u002FReference.md)           |  \n| [**17. 场景问题：深度学习模型中如何融入传统图像处理的特征？直接拼接融合有什么问题？**](DeepLearning\u002FReference.md)           |  \n| [**18. 场景问题：多任务学习中各个任务损失的权重应该如何设计呢？**](DeepLearning\u002FReference.md)           |  \n| [**19. 场景问题：如何处理不平衡的数据集？**](DeepLearning\u002FReference.md)           |  \n| [**20. 场景问题：如何将大模型有效地切割成若干个子模型？如何将切割后的子模型分配到多个节点上进行并行训练？**](DeepLearning\u002FReference.md)           |  \n| [**21. 优化问题：神经网络权重为什么不能初始化为0，而逻辑回归参数可以初始化为0？**](DeepLearning\u002FReference.md)           |  \n| [**22. 优化问题：当Batch Size增大时，学习率该如何随之变化，具体该怎么变化？**](DeepLearning\u002FReference.md)           |  \n| [**23. 优化问题：深度网络中loss除以10和学习率除以10等价吗？**](DeepLearning\u002FReference.md)           |  \n| [**24. 算子问题：大模型训练中bf16与fp16有什么区别？**](DeepLearning\u002FReference.md)           |  \n\n\n\u003Cb>\u003Csummary>🛺自动驾驶、智慧医疗等行业垂域专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 自动驾驶\n\n| [**01. 相机内参和外参的含义？如果将图像放大两倍，内外参如何变化？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 从世界坐标系到图像坐标系的变换关系？**](IndustryAlgorithm\u002FReference.md) |\n| [**03. 放射变换与逆投影变换分别是什么**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**04. 卡尔曼滤波Q和R怎么调**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**05. 如何理解BEV空间及生成BEV特征**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**08. 栏杆检测为什么不用网络学习**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**09. 卡尔曼滤波怎么用同一个filter同时适配车辆横穿的场景**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**10. BEV特征怎么进行数据增强**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**11. 辅助驾驶场景中，模型对60米之内的中大目标预测的bbox坐标不稳定，有较大的抖动问题，导致测距不稳定，怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**12. 辅助驾驶场景中，对公交站、房屋顶等特定背景误检，怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**13. 辅助驾驶场景中，大于100m的车辆车型分类出现跳动怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**16. 解释KF中的噪声矩阵含义。运动方程中估计噪声是变大还是变小？修正方程中估计噪声是变大还是变小？**](IndustryAlgorithm\u002FReference.md)           | \n| [**20. 车道线检测的任务通常采用分割方案，如何将方案降级至检测，甚至是车道线分类？**](IndustryAlgorithm\u002FReference.md)           | \n| [**21. 车道线检测的任务中如何处理异行线，比如道路交叉口？**](IndustryAlgorithm\u002FReference.md)           | \n| [**24. 简述BEVformer的Decoder逻辑？**](IndustryAlgorithm\u002FReference.md)           | \n| [**25. BEVFormer中的Spatial Cross-Attention的步骤？**](IndustryAlgorithm\u002FReference.md)           | \n| [**26. 车上多个摄像头图像投影到2D平面如何实现？**](IndustryAlgorithm\u002FReference.md)           | \n| [**27. 假如你的车子有4个激光雷达，你如何设计点云分割算法？**](IndustryAlgorithm\u002FReference.md)           | \n| [**28. 假如当前需要你把场景里的砖头分割出来，靠点云分割能否正确识别？**](IndustryAlgorithm\u002FReference.md)           | \n| [**29. 点云中的水雾怎么去除？**](IndustryAlgorithm\u002FReference.md)           | \n| [**30. 车宽测距和接地点测距分别使用了什么样的先验知识？这些先验如果不成立的时候能有什么手段来放宽限制？**](IndustryAlgorithm\u002FReference.md)           | \n| [**31. 车辆行驶过程中 Pitch 角度估计的三种方法？**](IndustryAlgorithm\u002FReference.md)           | \n| [**32. 如何消除一堆3D点云中的角点？**](IndustryAlgorithm\u002FReference.md)           | \n| [**33. 如何将 3D 世界坐标点转换为 2D 图像坐标？**](IndustryAlgorithm\u002FReference.md)           | \n| [**34. 单目3D目标检测的预测信息包含哪些，在预测3D框中心偏差时针对截断目标如何处理？**](IndustryAlgorithm\u002FReference.md)           | \n| [**35. 通过几何关系估计深度过程中，由于高度的误差使得深度的估计不确定性高，如何缓解？**](IndustryAlgorithm\u002FReference.md)           |\n| [**36. Nuscenes数据集中相机传感器配置，及标注内容包含哪些？**](IndustryAlgorithm\u002FReference.md)           |\n| [**37. 简述BEVformer模型在特征提取过程中，张量流的变换情况？**](IndustryAlgorithm\u002FReference.md)           |\n| [**38. 简述生成BEV特征图的几种方式，其中LSS的lift操作具体做了什么？**](IndustryAlgorithm\u002FReference.md)           |\n| [**39. 感知算法既希望获得高分辨率的输入图像又希望获得大FOV的输入图像，业内一般做法是设置ROI区域，怎么选？**](IndustryAlgorithm\u002FReference.md)           |\n| [**40. 现在要开发一个视觉语言模型来解决通用感知面临的Corner Case自动驾驶任务，该如何做？**](IndustryAlgorithm\u002FReference.md)           |\n| [**41. 单目3D车道线检测的意义是什么，该如何做？**](IndustryAlgorithm\u002FReference.md)           |\n\n- 智慧医疗\n\n| [**01. 数据标注：医学影像由于标注专业性差异，出现多人标注不一致情况怎么解决？如何用算法的方式减少误差？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 模型问题：模型中如何添加病史信息来增强最终的分类效果？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**03. 模型问题：分割存在硬边缘问题，比如在视网膜血管分割中，如何优化边缘分割效果？？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**04. 模型问题：多个物体堆叠会形成潜在目标被部分遮挡，而目标的完整性又是进一步判断的依据，如何补全被遮挡目标的分割边界？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**05. 模型问题：基于数字病理切片的目标检测算法会受到扫描成像设备的影响，比如扫描过程中的离焦模糊、运动模糊等，请问有什么可行的优化方案？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**06. 模型问题：如何给模型加入先验知识，有哪几种方法？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**07. 模型问题：当应用于非自然领域（如显微成像）时，SAM的性能显著下降，如何改进？**](IndustryAlgorithm\u002FReference.md) |      |  \n\n- 自然语言处理\u002F智慧商业\u002F搜广推\n\n| [**01. 自然语言处理：NLP中给定当前query和历史query以及对应实体，如何对当前query的实体进行建模？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 机器学习：银行经理收到一个数据集，其中包含数千名申请贷款的申请人的记录。AI算法如何帮助经理了解他可以批准哪些贷款？**](IndustryAlgorithm\u002FReference.md)           | \n| [**03. 图像识别：在实际应用中部署人脸识别算法需要能够从连续数据流中学习新的人脸身份，如何做类增量学习？**](IndustryAlgorithm\u002FReference.md)           | \n\n\n- 多模态大模型\n\n| [**01. 大模型的幻觉问题的本质与几种常见的解决办法？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. SFT模型经常在上下文比较长或者调查轮次多了之后就会出现查询工具的重复调用现象，如何消除这种现象？**](IndustryAlgorithm\u002FReference.md) |\n\n- 场景实战\n\n| [**01. 如何在标注存在错误的数据上训练模型？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 视频与图像中的目标检测具体有什么区别**](IndustryAlgorithm\u002FReference.md) |\n| [**03. 举出几种光流方法，说明LK光流的建模方式？**](IndustryAlgorithm\u002FReference.md)           | \n| [**04. 如何在数据量十分有限，但特征数量极多的情况下选出一套合适的特征组合？**](IndustryAlgorithm\u002FReference.md)           | \n| [**05. SAM的点提示和框提示输入尺寸，框提示是否支持多个框？**](IndustryAlgorithm\u002FReference.md)           | \n| [**06. 为什么 larger batch size 对对比学习的影响比对监督学习的影响要大？**](IndustryAlgorithm\u002FReference.md)           | \n| [**07. 提供一个图片数据集，其中一部分是噪声图片也就是标签是错误的，请问怎么训练模型尽可能把效果达到最好？**](IndustryAlgorithm\u002FReference.md)           | \n| [**08. 现在要预测目标在图像上的旋转角度，比如遥感影像场景下的车辆目标旋转角度，你该如何优雅的编解码以实现更好的预测？**](IndustryAlgorithm\u002FReference.md)           | \n| [**09. 鱼眼相机具备更大的视场角，因此常用在一些监控场景下，如何在鱼眼图像下做检测或分割任务？**](IndustryAlgorithm\u002FReference.md)           | \n| [**10. 昼夜跨域车辆重识别车辆重识别如何处理，即在包括白天和夜间域在内的不同域中识别相同的车辆？**](IndustryAlgorithm\u002FReference.md)           | \n| [**11. 如果一个数据集在图像的某个区域中几乎没有猫这个物体，那么目标检测器会不会也在这个区域不擅长检测猫？**](IndustryAlgorithm\u002FReference.md)           | \n| [**12. 针对目标计数的任务，除了传统的检测每个目标再统计的做法外，有什么其它你了解的更优的解决思路吗？**](IndustryAlgorithm\u002FReference.md)           | \n\n\u003Cb>\u003Csummary>🏳‍🌈手撕项目代码专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n| [**01. Pytorch 实现注意力机制、多头注意力**](CodeAnything\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. Pytorch 搭建一个基础模块，包含Conv+Bn+Relu**](CodeAnything\u002FReference.md) |      |  \n| [**03. Pytorch 搭建一个CNN卷积神经网络**](CodeAnything\u002FReference.md) |      |  \n| [**04. PyTorch 卷积与BatchNorm的融合**](CodeAnything\u002FReference.md) |      |  \n| [**05. PyTorch 分割网络损失函数Dice Loss的代码实现**](CodeAnything\u002FReference.md) |      |  \n| [**06. PyTorch 实现Focalloss**](CodeAnything\u002FReference.md) |      |  \n| [**07. Pytorch 实现BN批量归一化**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 针对L1损失的输入需要做数值的截断，构建CustomL1Loss类**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 实现SGD优化算法**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 实现Triplet Loss**](CodeAnything\u002FReference.md) |      |  \n| [**09. Numpy 广播机制实现矩阵间L2距离的计算**](CodeAnything\u002FReference.md) | \n| [**10. Numpy 输入boxA, boxB实现bbox_iou的计算**](CodeAnything\u002FReference.md) |      |  \n| [**11. Numpy 输入两组坐标实现IOU的计算**](CodeAnything\u002FReference.md) |      |  \n| [**12. Numpy 实现Focalloss**](CodeAnything\u002FReference.md) |      |  \n| [**13. Numpy 实现非极大值抑制NMS**](CodeAnything\u002FReference.md) |      |  \n| [**14. Numpy 实现改进版本的非极大值抑制Soft-nms**](CodeAnything\u002FReference.md) |      |  \n| [**15. Numpy 实现一个函数来计算两个向量之间的余弦相似度**](CodeAnything\u002FReference.md) |      |  \n| [**16. Numpy 实现Sigmoid函数**](CodeAnything\u002FReference.md) |      |  \n| [**17. Numpy 实现Softmax函数**](CodeAnything\u002FReference.md) |      |  \n| [**18. Numpy 实现K-means聚类**](CodeAnything\u002FReference.md) |      |  \n| [**18. Numpy 完成稀疏矩阵的类，并实现add和multiply的操作**](CodeAnything\u002FReference.md) |      |  \n| [**19. C++ 描述图像resize的过程并实现**](CodeAnything\u002FReference.md) |      |  \n| [**20. C++ Conv2D卷积的实现**](CodeAnything\u002FReference.md) |      |  \n| [**21. Numpy 实现线性回归损失函数最小二乘法，输入直线对应的坐标点，输出损失**](CodeAnything\u002FReference.md) |      |  \n| [**22. Numpy 实现线性回归，输入学习率、迭代次数及坐标点**](CodeAnything\u002FReference.md) |      |  \n| [**23. Numpy 实现目标实数类别的one-hot编码**](CodeAnything\u002FReference.md) |      |  \n| [**24. Numpy 实现交叉熵损失函数**](CodeAnything\u002FReference.md) |      |  \n| [**25. Pytorch 实现图像归一化的操作**](CodeAnything\u002FReference.md) |      |  \n| [**26. Numpy 实现maxpooling操作**](CodeAnything\u002FReference.md) |      |  \n| [**27. Pytorch 使用torch.utils.data.Dataset类来构建自定义的数据集，根据文件名后缀来创建一个图像分类的数据集**](CodeAnything\u002FReference.md) |      |  \n| [**28. Python 实现逆透视变换IPM（鸟瞰图）**](CodeAnything\u002FReference.md) |      |  \n| [**29. Numpy 实现两个矩阵的乘法，并验证结果是否与PyTorch中的torch.matmul相同**](CodeAnything\u002FReference.md) |      |  \n| [**30. PyTorch 构建一个自定义层，该层实现一个简单的LReLU激活函数**](CodeAnything\u002FReference.md) |      |  \n| [**31. PyTorch 编写一个数据增强类，实现随机水平翻转和通道变换**](CodeAnything\u002FReference.md) |      |  \n| [**32. PyTorch 实现图像到Patch Embedding过程，提示可用卷积实现**](CodeAnything\u002FReference.md) |      |  \n| [**33. PyTorch 代码实现 BEVFormer 的六张图输入部分**](CodeAnything\u002FReference.md) |      |  \n\n\n\u003Cb>\u003Csummary>🚩优异开源资源推荐专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n| [**01. 多个优异的数据结构与算法项目推荐**](AwesomeProjects\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 大模型岗位面试总结：共24家，9个offer**](AwesomeProjects\u002FReference.md)           |  \n| [**03. 视觉检测分割一切源码及在线Demo**](AwesomeProjects\u002FReference.md)           |  \n| [**04. 动手学深度学习Pytorch**](AwesomeProjects\u002FReference.md)           |  \n| [**05. 一种用于保存、搜索、访问、探索和与您喜爱的所有网站、文档和文件聊天的工具**](AwesomeProjects\u002FReference.md)           |  \n| [**06. 收集一些免费的ChatGPT镜像站点**](AwesomeProjects\u002FReference.md)           |  \n| [**07. 关于大型语言模型(LLM)的一切**](AwesomeProjects\u002FReference.md)           |  \n| [**08. 深度学习调优指南中文版**](AwesomeProjects\u002FReference.md)           |  \n| [**09. 多模态大型语言模型的最新论文和数据集集锦**](AwesomeProjects\u002FReference.md)           |  \n| [**10. ChatPaper：ChatGPT来加速科研流程的工具**](AwesomeProjects\u002FReference.md)           |  \n| [**11. 消费级硬件上进行LLaMA的微调**](AwesomeProjects\u002FReference.md)           |  \n| [**12. Stability AI提供的一系列生成模型**](AwesomeProjects\u002FReference.md)           |  \n| [**13. 自监督方式学习强大视觉特征的框架DINOv2**](AwesomeProjects\u002FReference.md)           |  \n| [**14. 快速的场景分割FastSAM**](AwesomeProjects\u002FReference.md)           |  \n| [**15. 语言大模型面试题**](AwesomeProjects\u002FReference.md)           |  \n| [**16. Awesome Chinese LLM 整理开源的中文大语言模型**](AwesomeProjects\u002FReference.md)           |  \n| [**17. 科技爱好者周刊，集结优秀的开源项目，每周五发布**](AwesomeProjects\u002FReference.md)           |  \n| [**18. 大模型显存在线估算开源项目**](AwesomeProjects\u002FReference.md)           |  \n| [**19. 2024年几种可免费阅读Medium文章的方式**](AwesomeProjects\u002FReference.md)           |  \n| [**20. 2025年,来自李沐大神的AI育儿小工具分享**](AwesomeProjects\u002FReference.md)           |  \n| [**21. 最具洞察力与前沿性的视觉大模型文章！**](AwesomeProjects\u002FReference.md)           |  \n| [**22. 一站式大模型文档解析工具TextIn xParse，为LLM训练而生**](AwesomeProjects\u002FReference.md)           |  \n\n","# **深度学习面试精选2024**　![语言](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flanguage-Jupyter-orange.svg) [![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](.\u002FLICENSE.md) ![广告](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F深度学习-感知算法-pink.svg)\n\n\n本项目涵盖了**大模型(LLMs)专题**、**计算机视觉与感知算法专题**、**深度学习基础与框架专题**、**自动驾驶、智慧医疗等行业垂域专题**、**手撕项目代码专题**、**优异开源资源推荐专题**共计6大专题模块。我们将持续整理汇总最新的面试题并详细解析这些题目，除面向面试的场景外我们的题目还来源于对最新学术论文创新点的思考，希望能成为大家学术科研、工作创新、offer面试路上一份有效的辅助资料。\n\n### 项目简介\n\n2025年算法面试题目继续更新，具体请 follow [2024年深度学习算法与大模型面试指南](https:\u002F\u002Fgithub.com\u002F315386775\u002FDeepLearing-Interview-Awesome-2024)，喜欢本项目的请右上角点个star，同时也欢迎大家一起共创该项目。\n\n该项目持续更新：\n\n- 本文录入题目的原则：**高新深**，其中高是指-各大厂公司近年高频算法面试题，新是指-题目要新紧跟学术和工业界的发展，比如录入了大量大模型领域的面试题，深是指-题目要有一定的内容与深度，可以引人思考，比如面向业务场景改进的面试题，来源于论文创新点的思考；\n- 目前录入列表的题目，存在部分没有答案解析的题目，或者解析内容不全的题目，我们会尽快补上所有解析；\n- 目前录入列表的顺序，没有先后、频次、难度、细类别等维度信息，后续会再给予更多维度更详细的分类；\n\n\n### 打造高质量社群\n\n- 欢迎关注微信公众号：***码科智能***，来源于Mark.AI的谐音梗，每日更新多模态大模型相关开源项目\u002F代码解析\u002F案例教程等内容；\n- **金三银四校招社招群**：扫码添加作者微信，避雷校招常见问题，分享最新有价值的学术论文，分享交流面试情况，协助内推；\n- **AI大模型工具分享群**：扫码添加作者微信，分享各方向的开源项目，分享各AI工具使用教程。\n\n\u003C!-- \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F315386775_DeepLearing-Interview-Awesome-2024_readme_b06c0c52896e.png\" alt=\"Alt\" style=\"display: block; margin: 0 auto; height: 190px;\"> -->\n\n![Alt](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F315386775_DeepLearing-Interview-Awesome-2024_readme_b06c0c52896e.png)\n\n### 六大专题及题目列表\n\n\u003Cb>\u003Csummary>🏆大模型(LLMs)专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 大语言模型\n\n| [**01. 模型微调：大模型常用微调方法LORA和Ptuning的原理，与传统fine-tuning微调有何不同?**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**30. 模型微调：Instruction Tuning与Prompt tuning方法的区别？**](LLMs\u002FReference.md)           | \n| [**07. 模型微调：监督微调SFT后LLM表现下降的原因**](LLMs\u002FReference.md)           | \n| [**18. 模型微调：大模型微调的LORA怎么训练？**](LLMs\u002FReference.md)           | \n| [**19. 模型微调：LORA的矩阵怎么初始化？为什么要初始化为全0？**](LLMs\u002FReference.md)           | \n| [**33. 模型微调：进行SFT操作的时候，基座模型选用Chat还是Base?**](LLMs\u002FReference.md)           |\n| [**03. 模型结构：为何现在的大模型大部分是Decoder only结构**](LLMs\u002FReference.md)           | \n| [**15. 模型结构：你能否概括介绍一下 ChatGPT 的训练过程？**](LLMs\u002FReference.md)           | \n| [**16. 模型结构：在大型语言模型 (llms) 上下文中的标记是什么？**](LLMs\u002FReference.md)           | \n| [**40. 模型结构：GPT3、LLAMA的Layer Normalization 的区别是什么？**](LLMs\u002FReference.md)           | \n| [**04. 模型优化：如何缓解 LLMs 复读机问题**](LLMs\u002FReference.md)           | \n| [**14. 模型优化：在大型语言模型 (llms) 中减少幻觉的策略有哪些？**](LLMs\u002FReference.md)           | \n| [**29. 模型优化：如何提升大语言模型的Prompt泛化性？**](LLMs\u002FReference.md)           | \n| [**34. 模型优化：开源大模型进行预训练的过程中会加入书籍、论文等数据，这部分数据如何组织与处理?**](LLMs\u002FReference.md)           | \n| [**38. 模型优化：如何解决chatglm微调的灾难性遗忘问题？**](LLMs\u002FReference.md)           | \n| [**10. BERT用于分类任务的优点，后续改进工作有哪些？**](LLMs\u002FReference.md)           | \n| [**23. BERT的预训练任务有什么？为什么引入下一个句子预测任务？**](LLMs\u002FReference.md)           | \n| [**37. BERT的预训练过程中是否使用了位置编码和注意力机制？**](LLMs\u002FReference.md)           | \n| [**38. LangChain 通常被用作「粘合剂」，将构建 LLM 应用所需的各个模块连接在一起，请介绍下其核心模块？**](LLMs\u002FReference.md)           | \n| [**39. 模型优化：为了提升Llama 3 的推理效率，模型结构采用分组查询注意 (GQA)，简述该模块？**](LLMs\u002FReference.md)           | \n| [**40. 模型架构：llama2中使用的注意力机制是什么？**](LLMs\u002FReference.md)           | \n| [**41. 模型架构：在预训练阶段，几种主流大模型的 Loss 了解过吗? 有哪些异同？**](LLMs\u002FReference.md)           | \n| [**42. 模型架构：旋转位置编码（RoPE）和ALiBi位置编码分别的特点和应用场景？**](LLMs\u002FReference.md)           | \n| [**43. 模型架构：Qwen-VL模型的整体网络架构包括哪三个组件？请分别介绍它们的作用和来源？**](LLMs\u002FReference.md)           | \n| [**44. 模型架构：对于Qwen-VL模型的输入，图像是如何处理的？它们经过视觉编码器和适配器后得到了怎样的特征序列？**](LLMs\u002FReference.md)           | \n| [**45. 数据准备：微调大语言模型的训练集的格式？如何处理GPT生成的训练数据？**](LLMs\u002FReference.md)           | \n| [**46. 模型微调：监督微调（SFT）相比于RLHF的局限在哪？如果用RM清洗和制造SFT数据能不能取代rlhf呢？**](LLMs\u002FReference.md)           | \n| [**47. 数据准备：在处理对话及语料数据时，针对数据去重用了哪些算法，针对语料训练阶段的数据增强做了哪些？**](LLMs\u002FReference.md)           | \n| [**48. 数据准备：LLaMa3.1的微调进行了几轮，奖励模型的训练数据和SFT的训练数据用了什么？**](LLMs\u002FReference.md)           | \n| [**49. 模型推理：现有技术范式下，如何缓解大模型出现的广义幻觉和狭义幻觉？**](LLMs\u002FReference.md)           | \n| [**50. 模型训练：分布式训练框架 DeepSpeed 相较于Pytorch原生的 torchrun 有什么优点？**](LLMs\u002FReference.md)           | \n| [**51. 模型推理：LLM推理时Prefill阶段多数据并行，属于计算瓶颈，有什么对应的加速方法？**](LLMs\u002FReference.md)           | \n| [**52. 模型推理：LLM推理时Decode阶段一次迭代一个token，内存耗时更多，有什么对应的加速方法？**](LLMs\u002FReference.md)           | \n| [**53. 模型优化：LLM从架构上来说，主要是针对Attention和FFN进行优化，其中Attention优化有哪些？**](LLMs\u002FReference.md)           | \n| [**54. 模型推理：大模型训练及微调的显存占用情况，如何估算推理阶段所需显存？**](LLMs\u002FReference.md)           | \n| [**55. 模型训练：大模型训练阶段的耗时在哪里？比如涉及到千卡的训练。**](LLMs\u002FReference.md)           | \n| [**56. 模型优化：在SFT过程中Prompt优化是重要的一步，比如在商品分类的任务中，原提示词可能只包含了类别信息？**](LLMs\u002FReference.md)           | \n| [**57. 模型训练：SFT和RL分别对基座大模型的作用和影响是什么？**](LLMs\u002FReference.md)           | \n| [**58. 模型训练：RL\u002FSFT 如何影响视觉语言模型（VLM）中的视觉识别能力？**](LLMs\u002FReference.md)           | \n| [**59. 模型训练：Qwen-VL 的三个训练流程分别是什么，有什么作用？**](LLMs\u002FReference.md)           | \n| [**60. 模型架构：视觉编码器和 LLM 连接时，使用 BLIP2 中 Q-Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好，说说各自的优缺点？**](LLMs\u002FReference.md)           | \n| [**61. 模型训练：大模型预训练和SFT的loss的差别是什么？**](LLMs\u002FReference.md)           | \n| [**62. 模型问题：Deepseed旨在减少内存使用并提高训练效率，其三个stage分别是什么？**](LLMs\u002FReference.md)           | \n| [**63. 模型架构：Janus-Pro将视觉编码解耦以进行多模态理解和生成，分别是什么？**](LLMs\u002FReference.md)           | \n| [**64. 模型架构：Janus-Pro将图像都被调整为 384×384 像素，对于多模态理解数据和生成数据有什么不同？**](LLMs\u002FReference.md)           | \n| [**65. 模型架构：为什么 qwen2-vl 比qwen-vl 更多保留图片信息？**](LLMs\u002FReference.md)           | \n| [**66. 模型架构：LLM 中的上下文窗口是什么，为什么它很重要？**](LLMs\u002FReference.md)           | \n| [**67. 模型问题：温度在控制 LLM 输出方面起什么作用？**](LLMs\u002FReference.md)           | \n| [**68. 模型问题：三角位置编码与RoPE位置编码的不同？**](LLMs\u002FReference.md)           | \n| [**69. 模型问题：为什么现在的llm大模型主要都是用RoPE位置编码而非其他？**](LLMs\u002FReference.md)           | \n| [**70. 模型问题：Qwen2.5-VL的原生分辨率具体是如何做的？**](LLMs\u002FReference.md)           | \n\n\n- Agent工作流\n\n| [**01. Function call 怎么训练的，怎么微调的？**](LLMs\u002FAgent.md) |\n| :------------------------------------------- |\n| [**02. Fucntion call 怎么组织文本的格式喂给模型？**](LLMs\u002FAgent.md)           | \n| [**03. 你做过 Function Call 微调吗？难点是什么？**](LLMs\u002FAgent.md)           | \n\n- 视觉模型\n\n| [**02. 在视觉大模型中，DINOv2的架构设计有哪些关键创新点？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**01. Stable Diffusion里是如何用文本来控制生成的？**](LLMs\u002FReference.md) |\n| [**21. Stable Diffusion相比Diffusion主要解决的问题是什么？**](LLMs\u002FReference.md)           | \n| [**22. Stable Diffusion每一轮训练样本选择一个随机时间步长？**](LLMs\u002FReference.md)           | \n| [**39. Stable Diffusion的训练过程和预测过程是什么样的？**](LLMs\u002FReference.md)           | \n| [**11. 基座模型：SAM分割一切网络中的Promot类型以及如何输入进网络**](LLMs\u002FReference.md)           | \n| [**26. 基座模型：训练通用目标检测器常会使用多源图像进行训练，如何处理新类别歧视？**](LLMs\u002FReference.md)           | \n| [**27. 基座模型：Grounding DINO可以根据文字提示检测任意目标，简述网络的基本架构？**](LLMs\u002FReference.md)           | \n| [**28. 基座模型：Grounding DINO如何进行零样本迁移，比如要检测电路板中的电容电阻？**](LLMs\u002FReference.md)           | \n| [**29. 基座模型：SAM网络轻量化的几种思路，及代表性工作？**](LLMs\u002FReference.md)           | \n| [**30. Stable Diffusion XL是一个二阶段的级联扩散模型，简述其工作流？**](LLMs\u002FReference.md)           | \n| [**31. 将文本与图像的语义信息进行Attention机制，而Text Condition是三维的，而Latent Feature是四维的？**](LLMs\u002FReference.md)           | \n| [**32. 举例介绍SDXL模型的文本编码全过程？**](LLMs\u002FReference.md)           | \n| [**33. 在SD 1.4和SD 1.5的经典失败案例中，生成图像中的猫出现头部缺失的问题的本质原因及优化方案？**](LLMs\u002FReference.md)           | \n| [**34. DINOv2创建了一个新的高质量数据集, 其中处理过程中用到了去重和检索，简述其步骤？**](LLMs\u002FReference.md)           | \n| [**35. 简述DINOv2训练中 Image-level 和 Patch-level 的目标函数？**](LLMs\u002FReference.md)           | \n| [**36. 视觉预训练MAE模型decoder中的unmask和mask部分分别对应的隐向量是什么？**](LLMs\u002FReference.md)           | \n| [**37. 模型问题：多模态大模型常采用MLP作为视觉映射器，将视觉特征到token一对一地映射到文本空间, 如何压缩视觉token量以提升效率？**](LLMs\u002FReference.md)           | \n| [**38. 模型问题：VLM模型中高分辨率图像降低token数的几种方式？**](LLMs\u002FReference.md)           | \n| [**39. 模型问题：BLIP2 相相对于 BLIP 有哪些改进，BLIP3 又有哪些改进？**](LLMs\u002FReference.md)           | \n\n- 通用问题\n\n| [**01. 为什么Transformer中使用LayerNorm而不是BatchNorm？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**06. Transformer为何使用多头注意力机制**](LLMs\u002FReference.md)           | \n| [**32. Transformer中的Attention计算复杂度以及如何改进？**](LLMs\u002FReference.md)           | \n| [**12. Transformer的层融合是如何做到的，其中Residue Network与Layer Norm如何算子融合**](LLMs\u002FReference.md)           | \n| [**41. MHA多头注意力和MQA多查询注意力的区别？**](LLMs\u002FReference.md)           | \n| [**17. Adaptive Softmax在大型语言模型中有何用处？**](LLMs\u002FReference.md)           | \n| [**31. 知识蒸馏是将复杂模型的知识转移到简单模型的方法，针对知识蒸馏有哪些改进点？**](LLMs\u002FReference.md)           | \n| [**42. 推理优化技术 Flash Attention 的作用是什么？**](LLMs\u002FReference.md)           | \n| [**43. ZeRO，零冗余优化器的三个阶段？**](LLMs\u002FReference.md)           | \n| [**44. Mamba 对 RNN 做了哪些改变，从而在GPU上可以算的比较快？**](LLMs\u002FReference.md)           | \n| [**45. 多头注意力机制MHA是Transformer模型中的核心组件, KV Cache和GQA优化的核心思想？**](LLMs\u002FReference.md)           | \n| [**46. BPE（Byte Pair Encoding）、Tokenization如何影响模型性能和训练过程？**](LLMs\u002FReference.md)           | \n| [**47. 100B以上的大模型预训练中出现loss spike的原因及解决方法？**](LLMs\u002FReference.md)           | \n\n\n- 多模态模型\u002F强化学习\u002FAGI等\n\n| [**01. 举例说明强化学习如何发挥作用？**](LLMs\u002FReference.md) |\n| :------------------------------------------- |\n| [**28. 如何理解强化学习中的奖励最大化？**](LLMs\u002FReference.md)           | \n| [**24. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？**](LLMs\u002FReference.md)           | \n| [**25. 在大型语言模型 (llms)中数据模态的对齐如何处理？**](LLMs\u002FReference.md)           | \n| [**35. 你能提供一些大型语言模型中对齐问题的示例吗？**](LLMs\u002FReference.md)           | \n\n\n\u003Cb>\u003Csummary>🍳计算机视觉与感知算法专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 常见问题\n\n| [**01. 大卷积核：在CNN网络中更大的核是否可以取得更高的精度？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 优化算法：匈牙利匹配方法可用于正负样本定义等问题中，介绍其实现原理**](VisionPerception\u002FReference.md)           | \n| [**03. 损失函数：Focal loss的参数如何调，以及存在什么问题**](VisionPerception\u002FReference.md)           | \n| [**04. 模型轻量化：举例一些从参数量、浮点运算量、模型推理时延进行优化，具有代表性的轻量化模型？**](VisionPerception\u002FReference.md) |\n| [**05. 图像处理：ORB特征提取的缺陷及如何进行改进**](VisionPerception\u002FReference.md) |\n| [**06. 通用模块：FPN的特征融合为什么是相加操作呢？**](VisionPerception\u002FReference.md) | \n| [**07. 通用模块：如何理解concat和add这两种常见的feature map特征融合方式？**](VisionPerception\u002FReference.md) | \n| [**08. 通用模块：Transformer的注意力机制常用softmax函数，可以使用sigmoid代替吗？**](VisionPerception\u002FReference.md) | \n| [**09. 通用模块：在设计轻量化模型时，有哪些一些基本的原则？concat和add相比哪个更耗时？**](VisionPerception\u002FReference.md) | \n| [**10. 通用模块：轻量级CNN网络，常采用深度可分离卷积，其中的点卷积FLOPs和MAC如何计算？**](VisionPerception\u002FReference.md) | \n| [**11. 损失函数：Focal loss支持0\u002F1这样的离散类别标签，如果标签是0~1连续值该如何处理？**](VisionPerception\u002FReference.md)           | \n| [**12. 损失函数：Focal loss过多关注难分样本，因此会受到离群点的影响，怎么同时衰减易分样本和特别难分的样本呢？**](VisionPerception\u002FReference.md)           | \n| [**13. 通用模块：Dropout训练和推理时的差异，训练阶段将某层的神经元输出以p的概率随机置为零，推理时如何处理？**](VisionPerception\u002FReference.md)           | \n\n- 目标分类\n\n| [**01. 损失函数：人脸识别任务中，ArcFace为什么比CosFace效果好**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 通用模块：介绍CBAM注意力**](VisionPerception\u002FReference.md)           | \n| [**03. 通用模块：局部注意力如何实现**](VisionPerception\u002FReference.md)           | \n| [**04. 数据增强：介绍mixup及其变体**](VisionPerception\u002FReference.md)           | \n| [**05. 场景问题：视觉任务中的长尾问题的常见解决方案**](VisionPerception\u002FReference.md)           | \n| [**06. 场景问题：如果在分类任务中几个类别有重叠（类间差异小）怎么办，如何设计网络结构**](VisionPerception\u002FReference.md) |\n| [**07. 场景问题：在A场景下进行目标的标记及训练，如何在B场景下取得好的效果？**](VisionPerception\u002FReference.md) | \n| [**08. 场景问题：如何更好的训练一个二分类任务，其中数据有80%的标注正确，20%标注失败**](VisionPerception\u002FReference.md) |      |  \n| [**09. 基座模型：CLIP的核心创新点简介，其如何处理文本输入**](VisionPerception\u002FReference.md) |      |  \n| [**10. 基座模型：ViT、DEIT是如何处理变长序列输入的？**](VisionPerception\u002FReference.md) | \n| [**11. 基座模型：VIT中对输入图像的处理是如何将patch变化为token的？**](VisionPerception\u002FReference.md) |\n| [**12. 基座模型：DINO v2 方法比类似的自监督判别方法好在哪里？**](VisionPerception\u002FReference.md) |\n\n- 目标检测\n\n| [**01. 样本匹配策略：FCOS训练阶段如何解决重叠样本造成的GT不一致问题**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 样本匹配策略：Centernet为什么可以去除NMS，以及正负样本的定义**](VisionPerception\u002FReference.md)           |\n| [**03. 样本匹配策略：Yolov5的正负样本定义，一个目标是否会被分配到不同的FPN层中**](VisionPerception\u002FReference.md)           | \n| [**04. 样本匹配策略：Yolov7的正负样本定义**](VisionPerception\u002FReference.md)           | \n| [**05. 样本匹配策略：Yolov8的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**06. 样本匹配策略：Yolov9的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**07. 样本匹配策略：Yolov1的正负样本定义**](VisionPerception\u002FReference.md)           |  \n| [**08. 样本匹配策略：DETR用二分图匹配实现label assignment，简述其过程**](VisionPerception\u002FReference.md)           |  \n| [**09. 样本匹配策略：Anchor-free的target assign怎么解决多个目标中心点位置比较靠近的问题**](VisionPerception\u002FReference.md)           | \n| [**10. 样本匹配策略：Anchor-Based检测器在正负样本标签分配阶段，如何去除对anchor的依赖？**](VisionPerception\u002FReference.md) | \n| [**11. 样本匹配策略：目标检测如何选取正负样本将会极大的影响最后的检测效果，举例ATSS如何处理的？**](VisionPerception\u002FReference.md) |\n| [**12. 损失函数优化：FCOS的损失函数中centerness的作用**](VisionPerception\u002FReference.md) |\n| [**12. 样本匹配策略：FCOS构建正负样本阶段，如果大尺度和小尺度的重叠，比如人和手中的苹果，怎么处理？**](VisionPerception\u002FReference.md) |\n| [**12. 损失函数优化：FCOS使用 area-based 方法解决正样本分配的歧义性问题，其对大目标不太友好？还有没有更优的方案？**](VisionPerception\u002FReference.md) |\n| [**13. 损失函数优化：有哪些可以解决目标检测中正负样本不平衡问题的方法**](VisionPerception\u002FReference.md) | \n| [**14. 细节问题：Yolov5与Yolov4相比neck部分有什么不同**](VisionPerception\u002FReference.md)           | \n| [**15. 细节问题：Yolov5的Foucs层和Passthrough层有什么区别**](VisionPerception\u002FReference.md)           | \n| [**16. 细节问题：Yolov5中objectness的作用，最后输出的概率分数如何得到**](VisionPerception\u002FReference.md)           | \n| [**17. 模型问题：介绍DETR中从图像输入到Encoder处理的序列化数据的过程。**](VisionPerception\u002FReference.md)           | \n| [**18. 解码问题：解释YOLOv5模型输出(1, 25200, 85)的含义，及解码过程？**](VisionPerception\u002FReference.md) | \n| [**19. 解码问题：解释Centernet模型输出offset\u002Fscale\u002Fheatmap三个头的含义，及解码过程？**](VisionPerception\u002FReference.md) |\n| [**20. 场景问题：目标检测中旋转框IOU的计算方式**](VisionPerception\u002FReference.md)           | \n| [**21. 场景问题：如何修改Yolov5目标检测，从而实现旋转目标检测？**](VisionPerception\u002FReference.md) | \n| [**22. 场景问题：在目标Crowded的场景下，经常在两个真正目标中间会出现误检的原因?**](VisionPerception\u002FReference.md) |\n| [**23. 场景问题：通过设置更多的先验anchor能否改善小目标及非正常尺寸目标的性能，除计算速度外还存在什么问题**](VisionPerception\u002FReference.md) |\n| [**24. 场景问题：目前检测常需要NMS非极大值阈值算法作为后处理，有没有什么可以避免NMS后处理的方案？**](VisionPerception\u002FReference.md) |\n| [**25. 模型问题：如何理解DETR中的object query的概念，要为 cross attention 提供更好的位置先验该如何设计模型？**](VisionPerception\u002FReference.md) |\n| [**26. 模型问题：YOLOV5和YOLOV8的Head输出通道数分别是多少，假设现在是2个类别的检测任务？**](VisionPerception\u002FReference.md) |\n| [**27. 模型问题：解析一下ATSS、Task-Aligned Assigner和SIMOTA标签分配的区别？**](VisionPerception\u002FReference.md) |\n\n- 目标分割\n\n| [**01. 模型问题：在Unet网络结构中，四次降采样对于分割网络到底是不是必须的？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 模型问题：为什么UNet++可以被剪枝，怎么去决定剪多少？**](VisionPerception\u002FReference.md)           | \n| [**03. 模型问题：分割一切网络SAM如何处理目标的分割掩码输出？**](VisionPerception\u002FReference.md) |\n| [**04. 模型问题：SAM在本地的模型推理效果明显差于线上web版本，有什么方式可以优化其效果？**](VisionPerception\u002FReference.md) |\n| [**05. 基座模型：VIT直接用于分割检测等预测密集型的任务上存在什么问题？**](VisionPerception\u002FReference.md) |\n| [**06. 模型问题：分割网络采用编解码的方式，在解码器中使用反池化\u002F空洞卷积\u002F双线性插值对特征图进行上采样的区别？**](VisionPerception\u002FReference.md) |\n| [**07. 模型问题：分割网络编码部分常用的最大池化和下采样的组合实现了不变性，但对定位精度有一定的影响，与一个全连接条件随机场(CRF)相结合实现定位的优化？**](VisionPerception\u002FReference.md) |\n| [**08. 模型问题：SAM中的prompt_encoder部分支持几种类型的输入，针对点提示如何编码？**](VisionPerception\u002FReference.md) |\n| [**08. 模型问题：matting与传统分割的区别，介绍matting的原理？**](VisionPerception\u002FReference.md) |\n\n- 3D目标检测\n\n| [**01. 单目3D：FCOS3D训练阶段如何定义正负样本**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 单目3D：简述FCOS3D的head部分的结构，以及预测2.5D中心点offset的参考点定义？**](VisionPerception\u002FReference.md)           |\n| [**03. 单目3D：简述FCOS3D的解码过程，及其中在2D图像上的三维目标框如何获取？**](VisionPerception\u002FReference.md)           |\n| [**04. 单目3D：FCOS3D及大多数单目3D都是基于孤立的实例或像素来估计深度，而忽略了不同物体之间的几何关系，你有什么改进策略？**](VisionPerception\u002FReference.md)           |\n| [**05. 点云3D：PointPillars将点云转换为稀疏伪图像的过程，其中Scatter运算的步骤详述？**](VisionPerception\u002FReference.md)           |\n| [**06. BEV：PV2BEV视角变换的几种方式，基于模型的方式除相机内外参外还至少需要哪些参数？**](VisionPerception\u002FReference.md)           |\n\n\n- 对抗网络\u002F视频理解\u002F图像增强\u002F深度估计等\n\n| [**01. 对抗网络：GAN中的模式坍缩的识别和解决？**](VisionPerception\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 深度估计：简述深度估计任务中常用到的光度重建损失？**](VisionPerception\u002FReference.md)           |  \n\n\n\u003Cb>\u003Csummary>⏰深度学习基础与框架专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- Pytorch常用操作及问题\n\n| [**01. Pytorch 训练时经常会合并多个数据集，ConcatDataset具体做了什么？**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. Pytorch 的多卡BN如何处理？**](DeepLearning\u002FReference.md) | \n| [**03. Pytorch DataLoader的主要参数有哪些**](DeepLearning\u002FReference.md) | \n| [**04. Pytorch 代码中如何尽量避免.to(device)的操作？**](DeepLearning\u002FReference.md)           |  \n| [**05. Pytorch 中nn.Identity()\u002F.chunk\u002F.masked_select\u002F.gather操作的应用场景？**](DeepLearning\u002FReference.md)           |  \n| [**06. PyTorch 节省显存的常用策略**](DeepLearning\u002FReference.md)           |  \n| [**07. PyTorch 的Modules一些属性问题**](DeepLearning\u002FReference.md) |  \n| [**08. PyTorch 中的 ModuleList 和 Sequential的区别和使用场景**](DeepLearning\u002FReference.md)           | \n| [**09. PyTorch 中 ConcatDataset的使用场景及用法**](DeepLearning\u002FReference.md)           | \n| [**10. PyTorch 中 nn.Upsample和interpolate插值的区别**](DeepLearning\u002FReference.md)           | \n| [**11. PyTorch 中 dataset与 dataloder的区别，自定义dataset需要哪些操作？**](DeepLearning\u002FReference.md)           | \n| [**12. PyTorch 中 主要且常用的归一化操作有BN，LN，IN，GN，介绍下他们的区别？**](DeepLearning\u002FReference.md)           | \n| [**13. PyTorch 中 nn.Linear()和nn.Embedding()有什么区别？**](DeepLearning\u002FReference.md)           | \n| [**14. PyTorch 中 Dataset 是用于表示数据集的基本类。获取一个batch数据的步骤？**](DeepLearning\u002FReference.md)           | \n\n- 那些常用的训练框架\n\n| [**01. TensorRT 为什么能让模型跑的更快**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. MMengine 的一些特性，其基础配置包含哪些内容**](DeepLearning\u002FReference.md) |  \n| [**03. MMdetect 中添加一个自定义的backbone网络，需要改哪些代码**](DeepLearning\u002FReference.md)           |  \n| [**04. MMCV 中Hook机制简介及创建一个新的Hook**](DeepLearning\u002FReference.md) | \n| [**05. Pytorch Lighting的设计哲学，及你觉得好用的点**](DeepLearning\u002FReference.md) | \n| [**06. MMdetect 在构建模型结构时具备灵活便捷的特点，比如 ResNet style 可选参数允许 pytorch 和 caffe，两者有什么区别？**](DeepLearning\u002FReference.md) | \n| [**07. 简述 MMdetection 中 Box Assigner分配器的两种方式？**](DeepLearning\u002FReference.md) | \n| [**08. 简述 MMdetection 中 正\u002F负样本采样器的类型，比如RandomSampler？**](DeepLearning\u002FReference.md) | \n| [**09. torch.onnx.export()中该如何设置 input_names, output_names, dynamic_axes？**](DeepLearning\u002FReference.md) | \n| [**10. 使用 torch.onnx.is_in_onnx_export()来使模型在转换到 ONNX 时有何不同的行为？**](DeepLearning\u002FReference.md) | \n| [**11. 大模型训练一般都采用torch2.0以上版本，其中torch.compile可加速训练，介绍下如何使用以及其是否对普通的python代码起作用？**](DeepLearning\u002FReference.md) | \n| [**12. 简述你认为 MMCV 的优缺点**](DeepLearning\u002FReference.md) | \n| [**13. 训练问题：多机多卡训练中的参数设置以2机8卡为例：分布式训练输出rank\u002Flocal_rank\u002Fworld_size分别是多少？**](DeepLearning\u002FReference.md) | \n| [**14. 训练问题：分布式训练数据分片有哪几种实现方式？**](DeepLearning\u002FReference.md) | \n| [**15. 训练问题：Pytorch训练的过程中内存一直增加的问题，如何解决？**](DeepLearning\u002FReference.md) | \n\n- 深度学习常见问题\n\n| [**01. 算子问题：卷积和BN如何融合提升推理速度**](DeepLearning\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 算子问题：神经网络引入注意力机制后效果降低的原因**](DeepLearning\u002FReference.md) |  \n| [**03. 算子问题：激活函数的对比与优缺点**](DeepLearning\u002FReference.md) |  \n| [**04. 算子问题：Transformer\u002FCNN\u002FRNN的时间复杂度对比**](DeepLearning\u002FReference.md) |  \n| [**05. 算子问题：深度可分离卷积**](DeepLearning\u002FReference.md) |  \n| [**06. 算子问题：CNN和MLP的区别**](DeepLearning\u002FReference.md) |  \n| [**06. 算子问题：max pooling如何操作？什么场景下 average 比 max pooling 更合适**](DeepLearning\u002FReference.md) |  \n| [**07. 损失函数：损失函数的应用-合页损失**](DeepLearning\u002FReference.md) | \n| [**08. 损失函数：为什么交叉熵可以作为损失函数**](DeepLearning\u002FReference.md) |  \n| [**09. 优化算法：优化算法之异同 SGD\u002FAdaGrad\u002FAdam**](DeepLearning\u002FReference.md) |  \n| [**10. 优化算法：有哪些权重初始化的方法**](DeepLearning\u002FReference.md) |  \n| [**11. 优化算法：深度学习中为什么不对 bias 偏置进行正则化？**](DeepLearning\u002FReference.md)           |  \n| [**12. 优化算法：正则化为什么可以增加模型泛化能力**](DeepLearning\u002FReference.md)           |  \n| [**13. 优化算法：为什么Adam常常打不过SGD？症结点与改善方案？**](DeepLearning\u002FReference.md)           |  \n| [**14. 常见问题：深度学习训练中如何区分错误样本和难例样本**](DeepLearning\u002FReference.md)           |  \n| [**15. 常见问题：深度学习模型训练时的Warmup预热学习的作用**](DeepLearning\u002FReference.md)           |  \n| [**16. 常见问题：考虑一个filter[-1 -1 -1; 0 0 0; 1 1 1] 用于卷积，该滤波器将从输入图像中提取哪些边缘**](DeepLearning\u002FReference.md)           |  \n| [**17. 场景问题：深度学习模型中如何融入传统图像处理的特征？直接拼接融合有什么问题？**](DeepLearning\u002FReference.md)           |  \n| [**18. 场景问题：多任务学习中各个任务损失的权重应该如何设计呢？**](DeepLearning\u002FReference.md)           |  \n| [**19. 场景问题：如何处理不平衡的数据集？**](DeepLearning\u002FReference.md)           |  \n| [**20. 场景问题：如何将大模型有效地切割成若干个子模型？如何将切割后的子模型分配到多个节点上进行并行训练？**](DeepLearning\u002FReference.md)           |  \n| [**21. 优化问题：神经网络权重为什么不能初始化为0，而逻辑回归参数可以初始化为0？**](DeepLearning\u002FReference.md)           |  \n| [**22. 优化问题：当Batch Size增大时，学习率该如何随之变化，具体该怎么变化？**](DeepLearning\u002FReference.md)           |  \n| [**23. 优化问题：深度网络中loss除以10和学习率除以10等价吗？**](DeepLearning\u002FReference.md)           |  \n| [**24. 算子问题：大模型训练中bf16与fp16有什么区别？**](DeepLearning\u002FReference.md)           |  \n\n\n\u003Cb>\u003Csummary>自动驾驶、智慧医疗等行业垂域专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n- 自动驾驶\n\n| [**01. 相机内参和外参的含义？如果将图像放大两倍，内外参如何变化？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 从世界坐标系到图像坐标系的变换关系？**](IndustryAlgorithm\u002FReference.md) |\n| [**03. 放射变换与逆投影变换分别是什么**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**04. 卡尔曼滤波Q和R怎么调**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**05. 如何理解BEV空间及生成BEV特征**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**08. 栏杆检测为什么不用网络学习**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**09. 卡尔曼滤波怎么用同一个filter同时适配车辆横穿的场景**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**10. BEV特征怎么进行数据增强**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**11. 辅助驾驶场景中，模型对60米之内的中大目标预测的bbox坐标不稳定，有较大的抖动问题，导致测距不稳定，怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**12. 辅助驾驶场景中，对公交站、房屋顶等特定背景误检，怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**13. 辅助驾驶场景中，大于100m的车辆车型分类出现跳动怎么解决？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**16. 解释KF中的噪声矩阵含义。运动方程中估计噪声是变大还是变小？修正方程中估计噪声是变大还是变小？**](IndustryAlgorithm\u002FReference.md)           | \n| [**20. 车道线检测的任务通常采用分割方案，如何将方案降级至检测，甚至是车道线分类？**](IndustryAlgorithm\u002FReference.md)           | \n| [**21. 车道线检测的任务中如何处理异行线，比如道路交叉口？**](IndustryAlgorithm\u002FReference.md)           | \n| [**24. 简述BEVformer的Decoder逻辑？**](IndustryAlgorithm\u002FReference.md)           | \n| [**25. BEVFormer中的Spatial Cross-Attention的步骤？**](IndustryAlgorithm\u002FReference.md)           | \n| [**26. 车上多个摄像头图像投影到2D平面如何实现？**](IndustryAlgorithm\u002FReference.md)           | \n| [**27. 假如你的车子有4个激光雷达，你如何设计点云分割算法？**](IndustryAlgorithm\u002FReference.md)           | \n| [**28. 假如当前需要你把场景里的砖头分割出来，靠点云分割能否正确识别？**](IndustryAlgorithm\u002FReference.md)           | \n| [**29. 点云中的水雾怎么去除？**](IndustryAlgorithm\u002FReference.md)           | \n| [**30. 车宽测距和接地点测距分别使用了什么样的先验知识？这些先验如果不成立的时候能有什么手段来放宽限制？**](IndustryAlgorithm\u002FReference.md)           | \n| [**31. 车辆行驶过程中 Pitch 角度估计的三种方法？**](IndustryAlgorithm\u002FReference.md)           | \n| [**32. 如何消除一堆3D点云中的角点？**](IndustryAlgorithm\u002FReference.md)           | \n| [**33. 如何将 3D 世界坐标点转换为 2D 图像坐标？**](IndustryAlgorithm\u002FReference.md)           | \n| [**34. 单目3D目标检测的预测信息包含哪些，在预测3D框中心偏差时针对截断目标如何处理？**](IndustryAlgorithm\u002FReference.md)           | \n| [**35. 通过几何关系估计深度过程中，由于高度的误差使得深度的估计不确定性高，如何缓解？**](IndustryAlgorithm\u002FReference.md)           |\n| [**36. Nuscenes数据集中相机传感器配置，及标注内容包含哪些？**](IndustryAlgorithm\u002FReference.md)           |\n| [**37. 简述BEVformer模型在特征提取过程中，张量流的变换情况？**](IndustryAlgorithm\u002FReference.md)           |\n| [**38. 简述生成BEV特征图的几种方式，其中LSS的lift操作具体做了什么？**](IndustryAlgorithm\u002FReference.md)           |\n| [**39. 感知算法既希望获得高分辨率的输入图像又希望获得大FOV的输入图像，业内一般做法是设置ROI区域，怎么选？**](IndustryAlgorithm\u002FReference.md)           |\n| [**40. 现在要开发一个视觉语言模型来解决通用感知面临的Corner Case自动驾驶任务，该如何做？**](IndustryAlgorithm\u002FReference.md)           |\n| [**41. 单目3D车道线检测的意义是什么，该如何做？**](IndustryAlgorithm\u002FReference.md)           |\n\n- 智慧医疗\n\n| [**01. 数据标注：医学影像由于标注专业性差异，出现多人标注不一致情况怎么解决？如何用算法的方式减少误差？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 模型问题：模型中如何添加病史信息来增强最终的分类效果？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**03. 模型问题：分割存在硬边缘问题，比如在视网膜血管分割中，如何优化边缘分割效果？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**04. 模型问题：多个物体堆叠会形成潜在目标被部分遮挡，而目标的完整性又是进一步判断的依据，如何补全被遮挡目标的分割边界？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**05. 模型问题：基于数字病理切片的目标检测算法会受到扫描成像设备的影响，比如扫描过程中的离焦模糊、运动模糊等，请问有什么可行的优化方案？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**06. 模型问题：如何给模型加入先验知识，有哪几种方法？**](IndustryAlgorithm\u002FReference.md) |      |  \n| [**07. 模型问题：当应用于非自然领域（如显微成像）时，SAM的性能显著下降，如何改进？**](IndustryAlgorithm\u002FReference.md) |      |  \n\n- 自然语言处理\u002F智慧商业\u002F搜广推\n\n| [**01. 自然语言处理：在NLP中，给定当前查询和历史查询以及对应实体，如何对当前查询的实体进行建模？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 机器学习：银行经理收到一个数据集，其中包含数千名申请贷款的申请人的记录。AI算法如何帮助经理了解他可以批准哪些贷款？**](IndustryAlgorithm\u002FReference.md)           | \n| [**03. 图像识别：在实际应用中部署人脸识别算法需要能够从连续数据流中学习新的人脸身份，如何做类增量学习？**](IndustryAlgorithm\u002FReference.md)           | \n\n\n- 多模态大模型\n\n| [**01. 大模型的幻觉问题的本质与几种常见的解决办法？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. SFT模型经常在上下文比较长或者调查轮次多了之后就会出现查询工具的重复调用现象，如何消除这种现象？**](IndustryAlgorithm\u002FReference.md) |\n\n- 场景实战\n\n| [**01. 如何在标注存在错误的数据上训练模型？**](IndustryAlgorithm\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 视频与图像中的目标检测具体有什么区别**](IndustryAlgorithm\u002FReference.md) |\n| [**03. 举出几种光流方法，说明LK光流的建模方式？**](IndustryAlgorithm\u002FReference.md)           | \n| [**04. 如何在数据量十分有限，但特征数量极多的情况下选出一套合适的特征组合？**](IndustryAlgorithm\u002FReference.md)           | \n| [**05. SAM的点提示和框提示输入尺寸，框提示是否支持多个框？**](IndustryAlgorithm\u002FReference.md)           | \n| [**06. 为什么 larger batch size 对对比学习的影响比对监督学习的影响要大？**](IndustryAlgorithm\u002FReference.md)           | \n| [**07. 提供一个图片数据集，其中一部分是噪声图片也就是标签是错误的，请问怎么训练模型尽可能把效果达到最好？**](IndustryAlgorithm\u002FReference.md)           | \n| [**08. 现在要预测目标在图像上的旋转角度，比如遥感影像场景下的车辆目标旋转角度，你该如何优雅的编解码以实现更好的预测？**](IndustryAlgorithm\u002FReference.md)           | \n| [**09. 鱼眼相机具备更大的视场角，因此常用在一些监控场景下，如何在鱼眼图像下做检测或分割任务？**](IndustryAlgorithm\u002FReference.md)           | \n| [**10. 昼夜跨域车辆重识别车辆重识别如何处理，即在包括白天和夜间域在内的不同域中识别相同的车辆？**](IndustryAlgorithm\u002FReference.md)           | \n| [**11. 如果一个数据集在图像的某个区域中几乎没有猫这个物体，那么目标检测器会不会也在这个区域不擅长检测猫？**](IndustryAlgorithm\u002FReference.md)           | \n| [**12. 针对目标计数的任务，除了传统的检测每个目标再统计的做法外，有什么其它你了解的更优的解决思路吗？**](IndustryAlgorithm\u002FReference.md)           | \n\n\u003Cb>\u003Csummary>🏳‍🌈手撕项目代码专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n| [**01. Pytorch 实现注意力机制、多头注意力**](CodeAnything\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. Pytorch 搭建一个基础模块，包含Conv+Bn+Relu**](CodeAnything\u002FReference.md) |      |  \n| [**03. Pytorch 搭建一个CNN卷积神经网络**](CodeAnything\u002FReference.md) |      |  \n| [**04. PyTorch 卷积与BatchNorm的融合**](CodeAnything\u002FReference.md) |      |  \n| [**05. PyTorch 分割网络损失函数Dice Loss的代码实现**](CodeAnything\u002FReference.md) |      |  \n| [**06. Pytorch 实现Focalloss**](CodeAnything\u002FReference.md) |      |  \n| [**07. Pytorch 实现BN批量归一化**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 针对L1损失的输入需要做数值的截断，构建CustomL1Loss类**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 实现SGD优化算法**](CodeAnything\u002FReference.md) |      |  \n| [**08. Pytorch 实现Triplet Loss**](CodeAnything\u002FReference.md) |      |  \n| [**09. Numpy 广播机制实现矩阵间L2距离的计算**](CodeAnything\u002FReference.md) | \n| [**10. Numpy 输入boxA, boxB实现bbox_iou的计算**](CodeAnything\u002FReference.md) |      |  \n| [**11. Numpy 输入两组坐标实现IOU的计算**](CodeAnything\u002FReference.md) |      |  \n| [**12. Numpy 实现Focalloss**](CodeAnything\u002FReference.md) |      |  \n| [**13. Numpy 实现非极大值抑制NMS**](CodeAnything\u002FReference.md) |      |  \n| [**14. Numpy 实现改进版本的非极大值抑制Soft-nms**](CodeAnything\u002FReference.md) |      |  \n| [**15. Numpy 实现一个函数来计算两个向量之间的余弦相似度**](CodeAnything\u002FReference.md) |      |  \n| [**16. Numpy 实现Sigmoid函数**](CodeAnything\u002FReference.md) |      |  \n| [**17. Numpy 实现Softmax函数**](CodeAnything\u002FReference.md) |      |  \n| [**18. Numpy 实现K-means聚类**](CodeAnything\u002FReference.md) |      |  \n| [**18. Numpy 完成稀疏矩阵的类，并实现add和multiply的操作**](CodeAnything\u002FReference.md) |      |  \n| [**19. C++ 描述图像resize的过程并实现**](CodeAnything\u002FReference.md) |      |  \n| [**20. C++ Conv2D卷积的实现**](CodeAnything\u002FReference.md) |      |  \n| [**21. Numpy 实现线性回归损失函数最小二乘法，输入直线对应的坐标点，输出损失**](CodeAnything\u002FReference.md) |      |  \n| [**22. Numpy 实现线性回归，输入学习率、迭代次数及坐标点**](CodeAnything\u002FReference.md) |      |  \n| [**23. Numpy 实现目标实数类别的one-hot编码**](CodeAnything\u002FReference.md) |      |  \n| [**24. Numpy 实现交叉熵损失函数**](CodeAnything\u002FReference.md) |      |  \n| [**25. Pytorch 实现图像归一化的操作**](CodeAnything\u002FReference.md) |      |  \n| [**26. Numpy 实现maxpooling操作**](CodeAnything\u002FReference.md) |      |  \n| [**27. Pytorch 使用torch.utils.data.Dataset类来构建自定义的数据集，根据文件名后缀来创建一个图像分类的数据集**](CodeAnything\u002FReference.md) |      |  \n| [**28. Python 实现逆透视变换IPM（鸟瞰图）**](CodeAnything\u002FReference.md) |      |  \n| [**29. Numpy 实现两个矩阵的乘法，并验证结果是否与PyTorch中的torch.matmul相同**](CodeAnything\u002FReference.md) |      |  \n| [**30. PyTorch 构建一个自定义层，该层实现一个简单的LReLU激活函数**](CodeAnything\u002FReference.md) |      |  \n| [**31. PyTorch 编写一个数据增强类，实现随机水平翻转和通道变换**](CodeAnything\u002FReference.md) |      |  \n| [**32. PyTorch 实现图像到Patch Embedding过程，提示可用卷积实现**](CodeAnything\u002FReference.md) |      |  \n| [**33. PyTorch 代码实现 BEVFormer 的六张图输入部分**](CodeAnything\u002FReference.md) |      |  \n\n\n\u003Cb>\u003Csummary>🚩优异开源资源推荐专题\u003C\u002Fsummary>\u003C\u002Fb>\n\n| [**01. 多个优异的数据结构与算法项目推荐**](AwesomeProjects\u002FReference.md) |\n| :------------------------------------------- |\n| [**02. 大模型岗位面试总结：共24家，9个offer**](AwesomeProjects\u002FReference.md)           |  \n| [**03. 视觉检测分割一切源码及在线Demo**](AwesomeProjects\u002FReference.md)           |  \n| [**04. 动手学深度学习Pytorch**](AwesomeProjects\u002FReference.md)           |  \n| [**05. 一种用于保存、搜索、访问、探索和与您喜爱的所有网站、文档和文件聊天的工具**](AwesomeProjects\u002FReference.md)           |  \n| [**06. 收集一些免费的ChatGPT镜像站点**](AwesomeProjects\u002FReference.md)           |  \n| [**07. 关于大型语言模型(LLM)的一切**](AwesomeProjects\u002FReference.md)           |  \n| [**08. 深度学习调优指南中文版**](AwesomeProjects\u002FReference.md)           |  \n| [**09. 多模态大型语言模型的最新论文和数据集集锦**](AwesomeProjects\u002FReference.md)           |  \n| [**10. ChatPaper：ChatGPT来加速科研流程的工具**](AwesomeProjects\u002FReference.md)           |  \n| [**11. 消费级硬件上进行LLaMA的微调**](AwesomeProjects\u002FReference.md)           |  \n| [**12. Stability AI提供的一系列生成模型**](AwesomeProjects\u002FReference.md)           |  \n| [**13. 自监督方式学习强大视觉特征的框架DINOv2**](AwesomeProjects\u002FReference.md)           |  \n| [**14. 快速的场景分割FastSAM**](AwesomeProjects\u002FReference.md)           |  \n| [**15. 语言大模型面试题**](AwesomeProjects\u002FReference.md)           |  \n| [**16. Awesome Chinese LLM 整理开源的中文大语言模型**](AwesomeProjects\u002FReference.md)           |  \n| [**17. 科技爱好者周刊，集结优秀的开源项目，每周五发布**](AwesomeProjects\u002FReference.md)           |  \n| [**18. 大模型显存在线估算开源项目**](AwesomeProjects\u002FReference.md)           |  \n| [**19. 2024年几种可免费阅读Medium文章的方式**](AwesomeProjects\u002FReference.md)           |  \n| [**20. 2025年,来自李沐大神的AI育儿小工具分享**](AwesomeProjects\u002FReference.md)           |  \n| [**21. 最具洞察力与前沿性的视觉大模型文章！**](AwesomeProjects\u002FReference.md)           |  \n| [**22. 一站式大模型文档解析工具TextIn xParse，为LLM训练而生**](AwesomeProjects\u002FReference.md)           |","# DeepLearing-Interview-Awesome-2024 快速上手指南\n\n本项目是一个专注于深度学习、大模型（LLMs）及计算机视觉领域的面试题库与知识汇总资源库。它并非一个需要编译运行的软件包，而是一个包含大量面试题、解析及参考代码的文档集合。以下是获取和使用该资源的快速指南。\n\n## 环境准备\n\n本项目主要基于 **Jupyter Notebook** 和 **Markdown** 格式，因此只需具备基础的代码阅读环境即可。\n\n*   **操作系统**：Windows \u002F macOS \u002F Linux 均可。\n*   **核心依赖**：\n    *   Python 3.8+ (用于运行可能包含的代码片段)\n    *   Jupyter Lab 或 Jupyter Notebook (推荐，用于交互式查看 `.ipynb` 文件)\n    *   Git (用于克隆仓库)\n*   **可选依赖**：若需运行具体的深度学习代码示例，建议安装 PyTorch 或 TensorFlow 环境。\n\n## 安装步骤\n\n推荐使用国内镜像源加速克隆过程，或直接通过浏览器在线查看。\n\n### 方式一：本地克隆（推荐）\n\n1.  打开终端（Terminal 或 CMD）。\n2.  执行以下命令克隆仓库：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002F315386775\u002FDeepLearing-Interview-Awesome-2024.git\n    ```\n    *注：如果网络较慢，可使用国内镜像站（如 Gitee 若有同步）或配置 git proxy。*\n\n3.  进入项目目录：\n    ```bash\n    cd DeepLearing-Interview-Awesome-2024\n    ```\n\n4.  （可选）安装基础依赖以运行 Notebook：\n    ```bash\n    pip install jupyterlab pandas torch torchvision -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n### 方式二：在线浏览\n\n无需安装，直接访问 GitHub 仓库页面，或通过 **Binder** \u002F **Google Colab** 打开 `.ipynb` 文件进行交互式阅读。\n\n## 基本使用\n\n本项目按专题模块组织，用户可根据需求直接查阅对应的 Markdown 文件或 Jupyter Notebook。\n\n### 1. 浏览六大专题\n项目根目录下包含以下主要文件夹，对应不同领域的面试题：\n*   `LLMs\u002F`: 大模型专题（含微调、架构、优化、Agent 工作流等）。\n*   `VisionPerception\u002F`: 计算机视觉与感知算法专题（含检测、分割、轻量化等）。\n*   其他专题涵盖深度学习基础、行业垂域（自动驾驶\u002F医疗）、手撕代码及开源资源。\n\n### 2. 查看具体题目与解析\n每个专题文件夹内包含 `Reference.md` 或具体的 `.ipynb` 文件。\n\n**示例：查看大模型微调相关题目**\n\n在本地终端启动 Jupyter Lab：\n```bash\njupyter lab\n```\n或者直接用文本编辑器\u002FMarkdown 阅读器打开 `LLMs\u002FReference.md`。\n\n**内容结构示例：**\n文件中以列表形式呈现问题，点击链接（或在本地跳转）即可查看详细解析。例如：\n*   **问题**：大模型常用微调方法 LORA 和 Ptuning 的原理，与传统 fine-tuning 微调有何不同？\n*   **位置**：`LLMs\u002FReference.md` 或对应的 Notebook 单元格。\n*   **操作**：阅读单元格中的文字解析，若包含代码块，可直接在 Notebook 中修改参数并运行验证。\n\n### 3. 参与共创与更新\n项目持续更新中，若发现解析不全或希望贡献新题目：\n1.  在 GitHub 上 Fork 本项目。\n2.  在对应专题的文件中补充内容。\n3.  提交 Pull Request (PR)。\n\n> **提示**：对于“手撕项目代码专题”，建议直接在 Jupyter 环境中运行代码单元格，结合注释理解算法实现细节。","某算法工程师小李正备战一线大厂的 AIGC 岗位面试，同时需要在工作中快速复现一篇关于多模态大模型微调的最新论文。\n\n### 没有 DeepLearing-Interview-Awesome-2024 时\n- **知识碎片化严重**：为了搞懂 LoRA 矩阵初始化为何全为 0，需在知乎、StackOverflow 和零散博客间反复跳转，耗费数小时仍难拼凑出完整逻辑。\n- **前沿技术滞后**：面对面试官关于 Llama 3 分组查询注意力（GQA）或 Qwen-VL 架构细节的提问，因缺乏系统性整理，只能凭模糊印象作答，极易暴露知识盲区。\n- **理论与实战脱节**：在准备“手撕代码”环节时，找不到结合最新业务场景（如幻觉抑制、灾难性遗忘）的高质量题目，导致模拟面试缺乏深度。\n- **科研灵感枯竭**：试图从面试题中寻找创新点以优化手头项目，但普通面经仅停留在基础概念，缺乏对论文创新点的深度思考与延伸。\n\n### 使用 DeepLearing-Interview-Awesome-2024 后\n- **核心原理一站式掌握**：直接查阅项目中\"LoRA 矩阵初始化”专题，获取包含数学推导与代码实现的深度解析，半小时内彻底吃透机制。\n- **紧跟工业界前沿**：利用最新的 LLMs 专题，精准掌握 GQA 加速原理及 Qwen-VL 视觉编码器处理流程，在面试中对答如流，展现专业度。\n- **场景化深度演练**：基于项目中“模型优化”与“手撕代码”模块，针对性练习解决复读机问题及分布式训练框架对比，大幅提升实战解题能力。\n- **激发科研新思路**：通过阅读来源于顶会论文创新点的面试题（如 SFT 数据清洗策略），成功将理论转化为改进现有医疗垂域模型的实验方案。\n\nDeepLearing-Interview-Awesome-2024 不仅是大厂面试的通关秘籍，更是连接学术前沿与工业落地的实战指南。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002F315386775_DeepLearing-Interview-Awesome-2024_130ef7f8.png","315386775","MarkAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002F315386775_04cbd18b.jpg","An AI research engineer, AI for autonomous driving and medical image analysis. Foucus on 2D\u002F3D Object Detection.",null,"China","ustbweiwei@163.com","https:\u002F\u002Fgithub.com\u002F315386775",2824,248,"2026-04-17T01:54:04",1,"",{"notes":86,"python":84,"dependencies":87},"本项目主要为深度学习与大模型面试题库及解析文档（基于 Jupyter Notebook），README 中未提及具体的运行环境、硬件配置或依赖库版本要求。用户仅需具备基础的 Python 环境和 Jupyter Notebook 即可阅读和运行相关代码示例。具体代码实现中的依赖需参考各专题链接内的具体文件。",[],[14,15],[90,91,92,93,94,95,96,97,98,99,100],"aigc","algorithms","awesome-cv","cnn","deep-learning","interview-questions","leetcode-python","machine-learning","medical-imaging","pytorch","self-driving-car","2026-03-27T02:49:30.150509","2026-04-18T17:04:04.332361",[],[]]