AI-fundermentals
AI-fundermentals 是一套系统化的人工智能基础设施学习资源库,旨在填补从底层硬件原理到上层云原生部署之间的知识鸿沟。它解决了 AI 从业者在面对复杂技术栈时缺乏完整路径、难以深入理解 GPU 架构、高速互连技术及集群运维细节的痛点。
这套资源不仅涵盖了 NVIDIA GPU 与 TPU 的架构设计哲学,还深入解析了 PCIe、NVLink、GPUDirect 等关键互连技术,以及 InfiniBand 网络和 NCCL 分布式通信实战。在软件层面,它详细探讨了基于 Kubernetes 的云原生 AI 平台建设,包括容器化 GPU 管理、资源虚拟化切分(如 HAMi)及大模型调度策略。
AI-fundermentals 特别适合 AI 工程师、系统架构师、GPU 开发者及技术研究人员使用。无论是希望优化大模型训练推理性能的开发人员,还是负责构建高吞吐 AI 集群的运维专家,都能从中获得从理论到落地的全方位指导。其独特亮点在于将晦涩的硬件底层机制与现代化的云原生运维实践紧密结合,提供了一条清晰的技术进阶路线,帮助用户真正掌握构建高效 AI 系统的核心能力。
使用场景
某 AI 初创公司的基础架构团队正面临从单机实验向千卡集群规模化训练转型的挑战,急需解决资源利用率低和通信瓶颈问题。
没有 AI-fundermentals 时
- 硬件认知模糊:团队成员对 NVLink 与 PCIe 的带宽差异缺乏深刻理解,导致多卡训练时数据并行效率低下,误以为只要插满显卡就能线性加速。
- 监控指标误读:运维人员仅关注
nvidia-smi中的显存占用,误将“高显存”等同于“高负载”,无法识别因 CUDA 流配置不当导致的 GPU 空闲等待。 - 网络调试黑盒:面对分布式训练中的随机卡顿,团队缺乏 InfiniBand 和 NCCL 的系统知识,只能盲目重启节点,耗时数天定位不到是网络拓扑还是通信库配置问题。
- 资源调度粗放:在 Kubernetes 上部署任务时,不懂 Device Plugin 原理,导致大模型推理任务独占整卡,小任务排队严重,集群整体利用率不足 30%。
使用 AI-fundermentals 后
- 架构优化精准:通过研读"GPU 架构与互连技术”章节,团队重新设计了拓扑感知调度策略,利用 NVLink 高速互联,使多卡训练吞吐量提升 40%。
- 监控体系科学:依据"GPU 利用率指标分析”和"nvtop 指南”,建立了包含 SM 活跃度、Tensor Core 利用率的立体监控看板,快速定位并修复了内核启动延迟问题。
- 通信故障秒级定位:借助"NCCL 分布式通信测试”和"IB 网络架构”实战指南,团队掌握了基准测试方法,将网络拥塞问题的平均排查时间从 2 天缩短至 2 小时。
- 资源细粒度管理:应用"Kueue + HAMi 调度方案”及虚拟化技术篇,实现了 GPU 切分与共享,成功在同一集群混部训练与推理任务,整体资源利用率提升至 75%。
AI-fundermentals 将分散的底层硬核知识转化为系统化的工程能力,帮助团队从“盲目堆硬件”进化为“精细化调优”,显著降低了大规模 AI 基础设施的构建与运维成本。
运行环境要求
- Linux
- 必需 NVIDIA GPU(涵盖从单机基础到多节点集群),支持 CUDA 编程、NVLink 互连及 GPUDirect 技术
- 具体型号和显存取决于应用场景(如训练需高性能卡,推理可适配多种架构),需安装 NVIDIA Container Toolkit
未说明(建议根据集群规模和大模型参数量配置,通常需大容量内存以支持分布式训练和数据处理)

快速开始
AI 基础
本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。
- 适用人群:AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
- 技术栈:CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。
Star History:
1. 硬件架构与互连技术
本章深入解析 AI 计算硬件与系统互连架构,内容涵盖从单机基础计算芯片(GPU、TPU)的设计哲学,到系统内高速互连总线(PCIe、NVLink)及高级跨节点直通技术(GPUDirect),最后探讨系统级延迟参考与异构融合超级芯片架构。详细内容请访问:硬件架构与互连技术。
- 基础计算芯片架构
- 高速互连与数据传输技术
- 异构融合架构与系统性能评估
2. AI 集群运维与高性能通信
本章涵盖从底层网络硬件到上层通信库的完整运维体系,包括高性能网络组网、GPU 基础监控运维以及分布式通信实战,为构建高吞吐的 AI 计算集群提供保障。详细内容请访问:AI 集群运维与通信。
- GPU 基础运维
- InfiniBand 高性能网络
- NCCL 分布式通信测试
3. 云原生 AI 基础设施
本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes、容器化、微服务等云原生技术栈构建高效、可扩展的 AI 基础设施。详细内容请访问:云原生 AI 平台。
3.1 Kubernetes AI 基础设施
Kubernetes 是云原生 AI 平台的操作系统。本模块深入解析 Kubernetes 在 AI 场景下的核心组件与扩展机制,涵盖从底层的容器运行时支持到上层的分布式作业调度。
- Kubernetes GPU 管理与 AI 工作负载:云原生 AI 基础设施建设指南与技术导图
- NVIDIA Container Toolkit 原理:容器使用 GPU 的底层机制深度解析
- Device Plugin 原理:Kubernetes 设备插件机制源码分析
- Kueue + HAMi 调度方案:云原生作业队列与细粒度 GPU 共享机制
- LWS (Leader Worker Set) 介绍:Kubernetes 原生的大模型分布式训练与推理调度抽象
- 分布式推理框架:基于 Kubernetes 的 LLM 推理架构设计
- Containerd 日志分析:云原生容器运行时的日志排查与分析
3.2 GPU 资源管理与虚拟化
GPU 是 AI 平台最昂贵的计算资源。本模块专注于 GPU 资源的精细化管理,包括虚拟化、切分、远程调用和池化技术,旨在最大化资源利用率。
基础系列文档:
- 第一部分:基础理论篇:构建技术认知框架,解析传统模式局限性与核心技术体系
- 第二部分:虚拟化技术篇:深入剖析硬件级、内核态与用户态虚拟化的核心实现机制
- 第三部分:资源管理与优化篇:探讨 GPU 切分、CUDA 流及 MPS 等高效资源调度与优化策略
- 第四部分:实践应用篇:涵盖环境部署、监控运维及云平台集成的生产落地指南
HAMi 专题:
- HAMi 资源管理使用手册:异构算力管理与隔离实战指南
- HAMi Prometheus 监控指标:构建完善的 GPU 虚拟化可观测性体系
- KAI vs HAMi 对比分析:深度对比原生 Kubernetes AI 调度器与 HAMi 方案
- Flex AI 介绍:探讨灵活异构算力环境下的前沿实践
代码实现与配置:
3.3 高性能分布式存储
数据是 AI 的燃料。本模块介绍如何利用 JuiceFS、DeepSeek 3FS 等云原生分布式文件系统,解决 AI 训练中海量小文件读取、模型检查点保存和跨节点数据共享的性能瓶颈。
- JuiceFS 分布式文件系统:数据与元数据分离的架构设计,兼容 POSIX 接口
- DeepSeek 3FS 设计笔记:高性能存储系统架构设计与特性分析
- NVIDIA ICMS 架构解析:面向推理的 KV Cache 存储层架构深度解析
4. 底层计算与异构编程
本章专注于 AI 系统的底层编程技术,涵盖 GPU 基础架构、CUDA 核心编程范式以及 DPU 的开发指南,为系统级开发者提供从入门到进阶的完整技术路径。
4.1 GPU 与 CUDA 编程
整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源。详细内容请访问:GPU 编程基础。
开发环境配置:
- NVIDIA 容器环境配置:NVIDIA Container Toolkit 原理与构建指南
- CUDA 镜像构建分析:大模型训练与推理框架的 GPU 镜像构建深度解析
核心编程范式:
- GPU 编程入门指南:并行计算基础与 CUDA 编程模型
- CUDA 核心概念详解:线程块、网格等基础概念的深度解析
- CUDA 流详解:CUDA 并发编程之流处理机制
- SIMT vs Tile-Based 编程模型对比:架构差异与演进分析
Tile-Based 编程:
- TileLang 快速入门:语法详解、算子开发实战与性能优化技巧
性能分析与调优:
- nvbandwidth 最佳实践:显存带宽与 PCIe 传输带宽测量指南
进阶学习资源:
- CUDA-Learn-Notes:涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe)
- Nvidia 官方 CUDA 示例:官方标准范例库
- Multi GPU Programming Models:多卡编程模型示例
4.2 DPU 编程
介绍数据处理单元(DPU)在现代计算架构中的应用及编程框架。详细内容请访问:DPU 编程。
- DOCA 框架
- DOCA 编程入门:涵盖架构简介、核心组件及典型场景编程实践
5. 大语言模型应用开发与编排
本章探讨在 AI 时代下新兴的应用层开发范式与工作流,重点关注如何利用各种编程语言、框架和编排工具构建复杂的 LLM 应用及 Agent 系统。详细的深度探讨可参考 大模型编程指南。
5.1 AI 时代的软件工程:范式转移与重构
随着大语言模型能力的爆发式增长,软件工程正从 Software 1.0/2.0 时代迈向以自然语言驱动、Agent 自主决策与推理为核心的 Software 3.0 时代。本节探讨了在 AI 辅助下新兴的编程范式与工作流,重点关注如何利用 AI 提升开发效率与代码质量:
- Agent First:软件工程的下一个范式转移 - 梳理编程范式的演变历史,探讨 Agent First 的核心理念与实战指南。
- 驾驭工程 - 深度解析如何构建驾驭系统,提升 AI 编程助手的可控性与效能。
- OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。
5.2 Java AI 开发
本节主要介绍在 Java 生态系统中开发大语言模型应用的技术栈。Spring AI 作为官方主推的 AI 工程框架,极大地降低了企业级 Java 应用接入 AI 能力的门槛。
- Java AI 开发指南 - Java 生态系统中的 AI 开发技术总览。
- 使用 Spring AI 构建高效 LLM 代理 - 基于 Spring AI 框架的企业级 AI 应用开发实践。
5.3 LangGraph 开发
LangGraph 是一个用于构建有状态、多智能体应用程序的库。它通过引入图计算模型,完美解决了传统 LLM 应用在循环逻辑和状态持久化方面的瓶颈,特别适合构建需要多轮推理和自我反思的复杂 Agent 工作流。
- LangGraph 框架学习资源 - LangGraph 框架的学习资源与实践案例总览。
- LangGraph 简介 - LangGraph 的核心概念与入门指南。
- AI 客服系统实战 - 基于 LangGraph 构建的 AI 客服系统 Notebook 实战。
5.4 AI 工作流与编排
除硬编码框架外,无代码或低代码(No-Code/Low-Code)工具也是 AI 应用落地的重要途径,它们能大幅提升编排效率。
- Coze 部署和配置手册 - Coze 平台的私有化部署与配置指南。
- n8n 多智能体编排指南 - 基于 n8n 构建 Multi-Agent 系统。
- 开源大模型应用编排平台对比 - 主流应用编排平台的深度横评。
6. 机器学习基础
本部分基于开源项目,提供系统化的机器学习学习路径。涵盖从数学原理到代码实现的完整过程,为深入学习大模型打下坚实基础。
6.1 动手学机器学习
本节提供全面的理论讲解与代码实战。
动手学机器学习 - 全面的机器学习学习资源库,包含理论讲解、代码实现和实战案例。
核心特色:
- 理论与实践结合:以 NJU 课程为主线,辅以 SJTU 配套资源,从数学原理到代码实现的完整学习路径。
- 算法全覆盖:涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习。
- 项目驱动学习:提供心脏病预测、鸢尾花分类、房价预测等实战案例。
- 工程化实践:深入特征工程、模型评估、超参数调优及特征选择。
6.2 参考资料
本节精选了数学基础、经典教材与实战平台资源,构建完整的知识图谱。
数学基础:
- 线性代数的本质 - 3Blue1Brown 可视化教程,直观理解线性变换与矩阵运算。
- MIT 18.06 线性代数 - Gilbert Strang 经典课程,深入矩阵分解与子空间理论。
- 概率论与统计学基础 - 掌握贝叶斯定理、最大似然估计与概率分布。
经典教材:
- 《统计学习方法》 - 李航著,系统阐述感知机、SVM、HMM 等核心算法的数学原理。
- 《机器学习》 - 周志华著(西瓜书),全面覆盖机器学习基础理论与范式。
- 《模式识别与机器学习》 - Bishop 著(PRML),贝叶斯视角的机器学习圣经。
在线课程与实战:
- Andrew Ng 机器学习课程 - Coursera 经典入门,强调直觉理解。
- CS229 机器学习 - 斯坦福进阶课程,深入数学推导。
- Kaggle - 全球最大的数据科学竞赛平台,提供真实数据集与 Notebook 环境。
7. 大语言模型理论与基础
本章旨在为读者构建扎实的大语言模型(LLM)理论基础,涵盖从词向量嵌入到模型架构设计的核心知识。我们将深入解析 Token 机制、混合专家模型(MoE)等关键技术,并探讨量化、思维链(CoT)等前沿优化方向,同时涵盖深度研究(Deep Research)应用与工作流编排等前沿技术。
详细内容请访问:LLM 理论与基础 - 核心文档门户,涵盖基础理论、深度研究与工作流编排。
7.1 基础理论与概念
本节介绍大语言模型的基础理论,涵盖从文本处理到模型架构的核心概念。理解这些基础概念是深入学习 LLM 技术的前提。
- Andrej Karpathy : Deep Dive into LLMs like ChatGPT (B 站视频) - 深度学习领域权威专家的 LLM 技术解析。
- 大模型基础组件 - Tokenizer - 文本分词与编码的核心技术。
- 解密大语言模型中的 Tokens - Token 机制的深度解析与实践应用。
- Tiktokenizer 在线版 - 交互式 Token 分析工具。
- 一文读懂思维链(Chain-of-Thought, CoT) - 推理能力增强的核心技术。
- 大模型的幻觉及其应对措施 - 幻觉问题的成因分析与解决方案。
- 大模型文件格式完整指南 - 模型存储与部署的技术规范。
7.2 嵌入技术与表示学习
本节深入探讨文本嵌入的原理、实现方式以及在不同场景下的应用策略。嵌入技术是大语言模型的核心组件之一,负责将离散的文本符号转换为连续的向量表示。
- 文本嵌入学习资源 - 深入探讨文本嵌入原理与应用的综合指南门户。
- 深入了解文本嵌入技术 - 全面解析 Text Embeddings 的演变、距离度量及应用。
- LLM 嵌入技术详解:图文指南 - 可视化直观理解大模型 Embeddings。
- 文本嵌入技术快速入门 - 快速上手文本嵌入技术的实用指南。
- 大模型 Embedding 层与独立 Embedding 模型:区别与联系 - 嵌入层架构设计与选型策略。
7.3 高级架构与应用技术
本节涵盖混合专家系统、量化技术、意图检测等前沿架构与应用技术。
- 大模型可视化指南 - 大模型内部机制的可视化分析。
- 混合专家模型 (MoE) 可视化指南 - 深入解析 MoE 架构原理。
- 量化技术可视化指南 - 模型压缩与加速的核心技术。
- 基于 LLM 的意图检测 - 意图识别系统设计与实现。
- 参见:ChatBox 意图识别与语义理解 - ChatBox 中意图识别的实际案例分析。
7.4 深度研究
本节深入探讨利用 AI 进行深度研究的技术与应用,包括 Research Agent 的设计与实现。
- 深度研究资源指南 - 深度研究相关的技术解析与实践案例总览。
- 《构建技术洞察研究 Agent》深度解读 - 技术洞察研究 Agent 构建指南。
- DeepWiki 使用方法与技术原理 - 技术实现细节与使用指南。
- DeepWiki 深度研究报告 - DeepWiki 的研究成果与深度分析报告。
- 通义 DeepResearch 深度分析 - 对通义 DeepResearch 的技术剖析。
- Cursor DeepSearch 解析 - Cursor AI 深度搜索功能技术分析。
- Databricks Data Agent - Databricks 数据 Agent 技术架构与实现。
- 科研助手 Agent 设计 - 面向研究者全生命周期的智能助手设计方案。
- 订单履约 Agent 需求分析 - 复杂业务场景下的 Agent 系统需求分析。
- 订单履约 Agent 系统设计 - 复杂业务场景下的 Agent 系统架构与实现。
7.5 工作流编排与应用平台 (Workflow)
探讨如何将大模型能力转化为实际业务应用与自动化流程。
- 工作流编排指南 - 大模型应用编排平台与自动化工作流实践总览。
- 开源大模型应用编排平台功能与商用许可对比分析 - Dify、AnythingLLM、Ragflow 与 n8n 的深度横评。
- 使用 n8n 构建多智能体系统的实践指南 - 基于 n8n 构建 Multi-Agent 系统。
- Coze 部署和配置手册 - Coze 平台的私有化部署与配置指南。
7.6 参考书籍
本节列出了深入学习大语言模型理论的优质书籍和阅读材料。
大模型技术 30 讲 - 大模型时代,智能体崛起:从技术解构到工程落地的全栈指南。
- 第三方:大模型技术 30 讲(英文 & 中文批注) - 带有中英文对照及批注的版本。
-
Hands-On Large Language Models
从零构建大模型 - 从理论到实践,手把手教你打造自己的大语言模型。
百面大模型 - 打通大模型求职与实战的关键一书。
图解大模型:生成式 AI 原理与实践 - 超过 300 幅全彩图示 × 实战级项目代码 × 中文独家 DeepSeek-R1 彩蛋内容。
8. 大模型训练
大模型的训练是一个复杂且系统的工程,涉及数据处理、分布式训练、指令微调等多个关键环节。本章将详细介绍从指令微调(SFT)到大规模模型预训练的完整技术路径,结合 70B 参数模型的实战案例,深入探讨训练基础设施的搭建、超参数优化及模型后训练(Post-Training)策略。详细指南可参考:模型训练与微调总览 。
8.1 指令微调与监督学习
本节介绍指令微调和监督微调(SFT)技术,通过高质量的指令-响应数据对提升模型执行人类指令的能力。
- SFT 微调实战与指南 - 包含基于 Qwen2 的微调代码实战及垂域模型微调理论指南。
- Qwen 2 大模型指令微调实战 - 基于 Qwen 2 的指令微调 Notebook 实践。
- Qwen 2 指令微调教程 - 详细的图文教程。
- 一文入门垂域模型 SFT 微调 - 垂直领域模型的监督微调技术与应用实践。
8.2 大规模模型训练实践
本节通过实际的 70B 参数模型训练案例,深入探讨从硬件配置到模型评估的完整训练流程。
- 从零开始训练 70B 参数模型:开源工具、评估数据集及经验总结 - 70B 参数模型从零训练的完整技术路径与经验总结。
- 用于自然语言和代码理解的清洗过的开源数据集:我们如何评估自己的 70B 模型 - 大规模训练数据集的清洗、评估与质量控制方法。
- 从裸机到 70B 模型:基础设施搭建与脚本 - 大模型训练基础设施的搭建、配置与自动化脚本。
- 开源 CARBS:我们如何利用超参数优化器将语言模型扩展到 70B 参数 - 超参数优化器在大规模模型训练中的应用与调优策略。
8.3 模型后训练与评估
本节涵盖 AIOps 场景下的后训练技术、基于 Kubernetes 的评估框架以及基准测试生成方法,确保模型在实际应用中表现稳定。
- AIOps 后训练技术 - 面向智能运维场景的模型后训练技术与实践。
- Kubernetes 模型评估框架 - 基于 K8s 的大模型评估框架设计与实现。
- Kubernetes AIOps 基准测试生成框架 - 自动化生成 AIOps 基准测试数据集的框架设计。
9. 大模型推理
推理是大模型从实验室走向生产环境的“最后一公里”。本章聚焦于构建高性能、低延迟的推理系统,涵盖推理服务架构设计、核心框架、KV Cache 优化及模型部署实践。通过深入分析 Mooncake 等先进架构及不同规模集群的部署策略,为企业级大模型服务的落地提供全面的技术指导。
9.1 推理系统架构设计
推理系统架构直接决定了系统的性能、可扩展性和资源利用效率。本节介绍现代推理系统的核心架构创新与设计模式。
- Mooncake 架构详解:以 KV Cache 为中心的高效 LLM 推理系统设计 - 新一代推理系统的架构创新与性能优化策略
9.2 核心框架与平台
本节介绍业界主流的云原生推理框架与平台方案,探讨大模型推理在集群上的最佳实践。
- 推理优化技术方案 - 企业级推理优化全景指南,涵盖集群规模分析、核心优化技术及实施路径
- vLLM + LWS : Kubernetes 上的多机多卡推理方案 - 大模型推理在 Kubernetes 上的最佳实践
- 云原生高性能分布式 LLM 推理框架 llm-d 介绍 - 云原生架构下的高性能推理服务栈
9.3 KV缓存核心技术
KV缓存的高效管理是大模型长文本推理和并发优化的关键。本节深度剖析 LMCache 与 Tair 等分布式 KV Cache 系统的架构与实现。
- KV Cache 技术体系 - KV Cache 技术体系全景指南
- KV Cache 原理简介 - 自回归生成的挑战与 KV Cache 的工作机制
- Prefix Caching 技术详解 - 从原理到 vLLM/LMCache 实践的前缀缓存技术
- RadixAttention 技术详解 - 基于 Radix Tree 自动复用 KV Cache 的核心原理与 SGLang 实践
9.3.1 LMCache 核心架构与后端实现
本小节详细解析 LMCache 的四层存储架构及其在跨实例缓存复用中的技术细节。
基础与架构概览:
- LMCache 源码分析指南 - 完整学习路径与文档索引
- LMCache 架构概览 - 四层存储架构 (L1-L4)、核心组件交互与典型工作流
- vLLM KV Offloading 与 LMCache 深度对比 - 架构设计、存储层级及跨实例共享能力上的核心差异与性能权衡
核心运行时组件:
- LMCacheEngine 源码分析 - 核心调度中枢、异步事件管理与层级流水线
- LMCacheConnector 源码分析 - vLLM 集成适配器、视图转换与流水线加载
- 分层存储架构与调度机制 - StorageManager 调度器、Write-All 策略与 Waterfall 检索
存储后端实现:
- LocalCPUBackend 源码分析 - 本地 CPU 内存后端与并发控制
- LocalDiskBackend 源码分析 - O_DIRECT 直通 I/O 与异步优化
- P2PBackend 源码分析 - RDMA 零拷贝与去中心化传输
- GdsBackend 源码分析 - GPUDirect Storage 零拷贝
- NixlStorageBackend 源码分析 - 高性能网络存储、S3 对象存储对接
- Remote Connector 源码分析 - Redis/S3/Mooncake 多后端适配
- PDBackend 源码分析 - 预填充-解码分离、Push-based 主动推送机制
控制面:
- LMCache Controller (控制平面) - 集群元数据管理、ZMQ 三通道通信与节点协调
- LMCache Server 源码分析 - 轻量级中心化存储服务、自定义 TCP 协议
高级特性:
- CacheBlend 技术详解 - RAG 场景下的动态融合机制、选择性重算与精度保持
- CacheGen 技术详解 - KV Cache 压缩与流式传输、自适应量化与算术编码
9.3.2 阿里云 Tair KVCache
本小节介绍阿里云企业级的 KVCache 管理系统架构及大规模部署实践。
- Tair KVCache 架构与设计深度分析 - 阿里云企业级 KVCache 管理系统架构详解,包含与 LMCache 的全面对比分析、中心化管理模式及大规模部署最佳实践
9.4 推理优化技术体系
推理优化技术体系是提升大模型推理性能的核心技术集合,包括算法优化、硬件加速、系统调优和架构设计等多个维度。
vLLM 核心机制分析:
- vLLM 推理系统优化与分析 - vLLM 底层机制和系统架构的深度解构
- vLLM 注意力机制演进与支持全景 - 从 MHA 到 MLA 与 NSA 的架构解析及 vLLM 支持现状
- vLLM 内置 KV Cache Offloading 模块解析 - 原生 KV Cache CPU Offloading 功能原理与实现
- vLLM Hybrid KV Cache Manager - vLLM 针对混合注意力架构的显存优化机制
- vLLM Router 架构解析 - 高性能、轻量级请求转发系统
- vLLM Semantic Router - 基于语义的智能路由策略
显存与缓存优化:
- LLM 显存占用分析与计算 - 模型参数、KV Cache 与中间激活值的显存估算方法
- KV Block Manager 分析 - KV Cache 内存管理机制深度解析
- 分层流水线技术 - Layer-wise Pipeline 技术原理与性能优化
网络与模型工具:
- NIXL 网络存储介绍 - 高性能网络存储架构与应用
- NVIDIA 模型优化器 - NVIDIA 模型优化工具链详解
9.5 推理优化参考设计
本系列文档提供了企业级 LLM 推理系统的完整参考设计,涵盖从规模分析到实施落地的全流程指南。
基础理论与技术选型:
- 背景与目标 - 推理优化的背景分析与核心目标
- 集群规模分类与特征分析 - 不同规模集群的特点与需求
- 核心推理优化技术深度解析 - KV Cache、批处理、量化等核心技术
- 不同集群规模的技术选型策略 - 针对性的技术方案选择
架构设计与评估体系:
- 推理服务架构设计 - 企业级推理服务架构设计方案
- 面向推理执行图的异构调度系统架构设计 - 跨设备、跨阶段、跨模型的精细化调度方案
- 性能评估指标体系 - 推理性能评估指标与方法
专业领域优化:
实施落地与运维:
- 实施建议与最佳实践 - 落地实施的指导建议
- 实施检查清单 - 推理系统上线检查清单
- 场景问题解答 - 常见问题与解决方案
- 参考资料与延伸阅读 - 推荐阅读与延伸资料
- 总结与展望 - 推理优化技术发展趋势
9.6 模型部署与运维实践
本节提供将模型转化为可用服务的部署方案与运维经验,涵盖不同硬件平台与框架的实战部署。
- 动手跑大模型 - 手把手教你如何跑大模型
- Ollama 推理框架详解 - Ollama 的架构原理与进阶配置
- DeepSeek-V3 MoE 模型 vLLM 部署 - H20 硬件上的部署方案与 SLO 验证
- Qwen2-VL-7B 华为昇腾部署 - 国产硬件平台的部署优化
9.7 DeepSeek 专题
本节聚焦于 DeepSeek 模型的前沿推理优化与硬件适配实践,深度剖析其专有的并行架构设计(如 WideEP),以及在以 Blackwell 为代表的下一代高性能计算平台上的扩展性与部署策略。
- vLLM WideEP 架构 - vLLM 宽端点 (Wide Endpoint) 架构解析
- Scaling DeepSeek on Blackwell - DeepSeek 在 Blackwell 平台上的扩展性优化
10. 企业级 AI Agent 开发
企业级 AI Agent(人工智能智能体)开发的完整技术体系,涵盖从基础的认知理论、架构设计模式,到核心工程组件(如动态上下文管理、多层记忆系统、MCP 工具互操作),再到企业级的多智能体(Multi-Agent)系统实战落地与前沿学术研究,旨在为开发者和架构师提供构建生产级、高可靠智能体系统的系统化指南与最佳实践。
详细内容请访问:AI Agent 开发与实践 - 核心文档门户,涵盖理论、架构与实战。
10.1 核心理论与架构设计
本节深入探讨构建智能体系统的理论基石与架构设计。
多智能体系统:
智能体设计模式:
- ReAct Agent 模式详解 - 推理与行动深度协同的经典机制
- 写作 Agent 设计 - 针对复杂长文本内容创作的架构设计
- 指代消解系统设计 - 高级对话状态管理与多轮交互技术
- 12-Factor Agents - 构建高可靠、可扩展 LLM 应用的 12 要素原则
- TradingAgents-CN 设计 - 交易领域的智能体设计与交互分析
认知与基础理论:
- 世界模型简介 - 解析智能体理解世界的内部引擎
10.2 核心工程组件与基础设施
详细拆解智能体系统的关键工程化组件。
上下文与记忆系统:
工具及协议:
- Model Context Protocol (MCP) - MCP 原理与实战,探讨 AI 工具链的未来
Agent Skill:
- Claude Skills 开发指南 - 扩展智能体能力的工具定义规范与最佳实践
- Agent Skill 开发指南 - 由原力注入博主维护的优秀认知技能(Agent Skill)合集,包含深度代码阅读、架构分析、文档评审等自动化工作流。
- CUDA Code Skill - 面向 AI IDE(Claude Code、Trae 等)的 CUDA 知识增强代码生成与性能分析技能库。
AI Agent Infra:
- 基础设施技术栈 - 全面梳理工具层、数据层与编排层
- 基础设施的崛起 - 生态演进趋势与未来投资方向
- OpenHarness 深入浅出:解密开源智能体基础设施 (配套 PPT) - 大型语言模型 (LLM) 在推理与生成能力上取得了突破性进展,但它们本身受限于静态的上下文窗口,无法直接与真实世界进行交互。要让模型成为能够自主解决复杂任务的工程化智能体 (Agent) ,必须为其配备执行动作的工具、持久化的记忆以及安全隔离的运行边界。这就是“智能体基础设施” (Agent Harness) 的核心使命。
10.3 实战代码与演示项目
提供可运行的代码示例与完整项目源码,帮助开发者从理论走向实践。
完整端到端系统:
- 企业级多智能体系统 - 包含异步通信总线、状态监控与容错机制的完整 MAS 实现
- 多轮指代消解对话系统 - 支持实体识别、状态管理与微服务部署的 NLP 实战
专项工具与演示:
- MCP 智能体演示 - MCP 服务端与客户端交互的完整示例
- LangChain 记忆功能集成 - 包含基础记忆类型、智能客服应用和 LangGraph 记忆管理的演示
- Agent Skill:PDF 智能翻译器 - 结合 OCR 与 LLM 的多模态文档处理工具
10.4 前沿学术与行业研究
追踪 AI Agent 领域的最新学术进展与行业动态。
学术论文:
- Agent Workflow 综述 - 涵盖 24 种主流 Agent 工作流模式的权威系统性总结
- Deep Research Agents - 探讨深度研究智能体的多步推理规划能力与核心架构
- 论文资源库汇总 - AI Agent 领域必读核心论文持续更新索引
行业报告:
- LangChain Agent 工程现状报告 - 2025 年度 Agent 领域最新技术趋势与开发者诉求
11. 检索增强生成与文档智能
本章聚焦于检索增强生成(RAG)与文档智能化处理技术,提供从非结构化数据解析到知识库构建的完整解决方案。
详细内容请访问:rag 与工具生态 - 核心文档门户,涵盖
RAG、GraphRAG与文档智能工具。
11.1 检索增强生成基础与进阶
探索 RAG 系统的核心组件、策略对比与模型选型,构建高效的检索增强生成系统。
- rag 快速开发实战(从 0 到 1 搭建) -
RAG技术全景导航,涵盖基础概念到进阶优化 - rag 策略对比 - 不同
RAG架构(Naive RAG、Advanced RAG等)的优劣势分析 - chunking 策略评估总结 - 检索分块策略的深度总结与最佳实践
- 中文 rag 系统 embedding 选型指南 - 面向中文场景的
Embedding模型评测与推荐
11.2 图检索增强生成与知识图谱
结合知识图谱增强 RAG 的推理能力,深入 GraphRAG 前沿技术,解决复杂关系推理难题。
- graphrag 学习指南 -
GraphRAG的核心概念、架构原理与入门路径 - kag 框架介绍 -
Knowledge Augmented Generation(KAG)框架深度解析 - neo4j 实战指南 - 图数据库
Neo4j的安装、配置与企业级实战 - neo4j cypher 教程 -
Neo4j查询语言Cypher完整教程
11.3 大模型与知识图谱协同应用
探索大语言模型(LLM)与知识图谱的深度融合,构建高可信、可解释的智能应用。
- 银行反电诈智能系统设计 - 基于
LLM+KG的金融风控系统设计方案,实战反欺诈场景 - 反欺诈 demo 源码 - 完整的反欺诈系统演示代码,包含数据生成、图谱构建与智能体推理
11.4 文档智能解析
高效处理非结构化文档(PDF、Office 等),为 RAG 系统提供高质量的数据输入,解决“垃圾进,垃圾出”(Garbage In, Garbage Out)问题。
- mineru 文档解析 - 上海人工智能实验室开源工具,助力复杂
PDF高效解析 - marker pdf 布局检测 - 基于深度学习的高精度
PDF解析与布局分析引擎 - markitdown 入门 - Microsoft 开源的文档转换工具,支持多种办公文档格式到
Markdown的高质量转换
12. 课程体系与学习路径
本章汇总了 AI 基础、系统开发、编程实战等全方位的课程体系,为学习者提供清晰的学习路径和进阶指南。
12.1 AI 系统全栈课程(ZOMI 酱)
ZOMI 酱(陈佐钘)主导的 AI 系统全栈开源课程,涵盖从底层硬件芯片到上层 AI 框架设计的全技术栈内容。该课程在 GitHub 上广受好评(Star 数超 16.5k),是了解 AI 基础设施架构的绝佳资源。
AISystem - AI 系统全栈课程代码与资料库。
- 系统介绍 - AI 系统概述、发展历程与技术演进路径。
- 硬件基础 - AI 芯片架构、硬件加速器与计算平台深度解析。
- 编译器技术 - AI 编译器原理、优化技术与工程实践。
- 推理优化 - 模型推理加速技术、性能调优与部署策略。
- 框架设计 - AI 框架架构设计、分布式计算与并行优化。
12.2 AI Infra 基础课程(入门)
本节提供面向初学者的 AI 基础设施基础课程,帮助快速建立领域知识体系。
- 大模型原理与最新进展 - 交互式在线课程平台。
- AI Infra 课程演讲稿 - 完整的课程演讲内容、技术要点与实践案例。
- 学习目标:深入理解大模型工作原理、最新技术进展与企业级应用实践。
- 核心内容:
- Transformer 架构深度解析:编码器-解码器结构、多头注意力机制、文本生成过程。
- 训练规模与成本分析:GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求。
- DeepSeek 技术突破:V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化。
- 能力涌现现象研究:规模效应、临界点突破、多模态融合发展趋势。
- AI 编程工具生态:GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践。
- GPU 架构与 CUDA 编程:硬件基础、并行计算原理、性能优化策略。
- 云原生 AI 基础设施:现代化 AI 基础设施设计、容器化部署与运维实践。
12.3 Trae 编程实战课程
本节提供系统化的 Trae 编程学习体系,助力开发者掌握 AI 辅助编程的实战技巧。
- Trae 编程实战教程 - 从基础入门到高级应用的完整 Trae 编程学习路径。
课程结构:
- 第一部分:Trae 基础入门:环境配置、交互模式、HelloWorld 项目实战。
- 第二部分:常见编程场景实战:前端开发、Web 开发、后端 API、数据库设计、安全认证。
- 第三部分:高级应用场景:AI 模型集成、实时通信、数据分析、微服务架构。
- 第四部分:团队协作与最佳实践:代码质量管理、项目管理、性能优化、DevOps 实践。
- 第五部分:综合项目实战:企业级应用开发、核心功能实现、部署运维实战。
12.4 多智能体 AI 系统培训
本节面向企业技术团队,提供从理论基础到实战应用的完整多智能体系统构建指南。
- 多智能体 AI 系统培训材料:涵盖 LangGraph 框架深度解析、LangSmith 监控集成及企业级架构设计。
Buy Me a Coffee
如果您觉得本项目对您有帮助,欢迎购买我一杯咖啡,支持我继续创作和维护。
| 微信 | 支付宝 |
|---|---|
![]() |
![]() |
版本历史
v3.02026/01/08v2.02025/08/29常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。


