ai-engineering-from-scratch

1.4k 267 中等 1 次阅读 2天前MIT图像语言模型Agent开发框架

AI 解读由 AI 自动生成，仅供参考

ai-engineering-from-scratch 是一套从零构建 AI 工程能力的开源学习体系，旨在帮助学习者真正掌握并落地 AI 技术。它直面当前"84% 的学生使用 AI 工具，但仅 18% 感到能胜任专业工作”的痛点，通过系统化课程填补理论与实践之间的鸿沟。

该项目包含 260+ 节课、20 个阶段，涵盖从线性代数到自主智能体集群的全栈内容，支持 Python、TypeScript、Rust、Julia 等多种语言。与传统课程不同，它强调“用 AI 学 AI"：内置 Claude Code 技能，如 /find-your-level 自动评估基础并规划路径，/check-understanding 提供阶段性测验与反馈。每节课不仅传授知识，更产出可复用的成果——包括提示词模板、智能体、MCP 服务器等，直接融入实际开发流程。

适合希望系统提升 AI 工程能力的开发者、研究人员及技术爱好者。无论你是想深入理解模型原理，还是构建可部署的 AI 应用，都能从中获得扎实训练。其独特之处在于将学习过程本身 AI 化：代码可运行、文档完整、配套 Web 应用与交互式测验，让学习不再是被动观看视频，而是主动构建与迭代。最终，用户不仅能“学会”，更能“做出”并“交付”他人可用的工具。

使用场景

某初创团队的技术负责人希望带领三名初级工程师在三个月内从零构建一套可商用的多模态 AI 代理系统，但团队缺乏系统的工程化落地经验。

没有 ai-engineering-from-scratch 时

知识碎片化严重：成员各自在网上拼凑 NLP 或视觉的单点教程，导致数学基础与架构设计脱节，无法理解从线性代数到自主代理群的全链路逻辑。
技术栈单一且脆弱：团队仅熟悉 Python，面对高性能推理需求时不懂 Rust 或 Julia，导致系统瓶颈难以突破，代码复用率极低。
学习产出无法交付：花费大量时间观看视频课程，结课时只留下“学过”的印象，却拿不出任何可安装的提示词库、技能模块或 MCP 服务器供产品集成。
缺乏实战反馈机制：遇到报错只能盲目搜索，没有内置的 AI 导师进行阶段性测验和个性化路径规划，试错成本高昂。

使用 ai-engineering-from-scratch 后

全链路体系化构建：通过 20 个阶段、260+ 节课的系统训练，团队从底层数学推导至顶层代理群设计，统一了从理论到工程的语言体系。
多语言工程能力跃升：在实战中掌握 Python、TypeScript、Rust 和 Julia 混合编程，针对计算密集型任务重构核心模块，显著提升系统性能。
每课皆交付可用资产：每个课时结束即产出可复用的工件（如专家级提示词、Claude Code 技能、独立代理），直接组装成产品的核心功能组件。
AI 原生伴随式成长：利用 /find-your-level 和 /check-understanding 等内置技能实时诊断盲区，边学边用 AI 助手调试代码，将学习曲线转化为开发效率。

ai-engineering-from-scratch 不仅填补了理论与职业的鸿沟，更让团队在学习过程中直接“造船出海”，将学习过程本身转化为可交付的商业产品。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

建议配备 NVIDIA GPU（课程包含 GPU 设置与云端配置章节），具体型号、显存大小及 CUDA 版本未说明

内存

未说明

依赖

notes这是一个包含 260+ 课程的综合学习项目，强调‘从零构建’（如手动实现反向传播、迷你框架）。环境搭建是课程第一阶段（Phase 0）的核心内容，涵盖开发环境、Git、GPU/云设置、Docker、Linux 基础等。课程深度集成 AI 编码助手（如 Claude Code），提供内置技能命令辅助学习。由于涉及多语言（Python, TS, Rust, Julia）和底层原理实现，建议用户具备基本的终端操作能力并跟随课程步骤逐步配置环境。

python未说明 (课程涉及 Python, TypeScript, Rust, Julia)

未说明 (课程涵盖从基础构建到使用 PyTorch, JAX 等框架，但未列出具体版本要求)

快速开始

旅程 • AI原生学习 • 开始学习 • 工具集 • 路线图 • 贡献 • 术语表

84%的学生已经在使用AI工具。然而，只有18%的人觉得自己有充分准备在工作中专业地运用这些工具。本课程正是为了填补这一差距而设计。

260多节课，20个阶段，约290小时的学习内容。从线性代数到自主智能体群，涵盖Python、TypeScript、Rust和Julia等多种编程语言。每节课都会产出可复用的成果——提示词、技能、智能体以及MCP服务器。

你不仅是在学习AI，更是在借助AI来学习AI。随后，你将构建真正可用的项目，并发布可供他人使用的工具。

	传统课程	本课程
范围	仅涉及某一领域（如NLP、视觉或智能体）	涵盖数学、机器学习、深度学习、自然语言处理、计算机视觉、语音处理、Transformer、大模型、智能体及群体智能等全方位内容
编程语言	仅Python	Python、TypeScript、Rust、Julia
学习成果	“我学到了一些东西”	可直接安装使用的工具、提示词、技能和智能体组成的个人作品集
深度	浅层或偏重理论	先从零开始搭建，再逐步引入框架
形式	观看视频	可运行的代码 + 文档 + Web应用 + AI驱动的测验
学习方式	被动接受	AI原生式：利用Claude Code技能边学边自测

🧠 AI原生学习

这并非一堂供你观看的课程，而是一堂你需要与你的AI编码助手一起实践的课程。

用AI学习，而非仅仅了解AI

# 根据已有知识找到适合自己的起点
/find-your-level

# 完成一个阶段后自我检测理解程度
/check-understanding 3

# 每节课都会生成可复用的成果
ls phases/03-deep-learning-core/05-loss-functions/outputs/
# prompt-loss-function-selector.md
# prompt-loss-debugger.md

内置Claude Code技能

技能	功能
`/find-your-level`	10道题的测试，根据你的知识水平匹配起始阶段，并为你制定个性化的学习路径及时间预估
`/check-understanding <phase>`	针对每个阶段的8道题测验，提供反馈并推荐需要复习的具体课程

每节课都有实际产出

其他课程通常以“恭喜你学会了X”结尾，而我们的课程则会输出一个可复用的工具：

提示词——可以直接粘贴到任何AI助手中，获得该主题下的专家级帮助
技能——可安装到Claude Code、Cursor或其他编码助手中
智能体——可部署为独立工作的自动化程序
MCP服务器——可接入任何兼容MCP协议的AI应用

包含277个词条的可搜索术语表。完整的课程目录。约290小时的内容，每节课都附有预计学习时长。浏览网站 →

旅程

第0阶段：环境搭建与工具准备 `12节课`

为后续所有内容做好环境准备。

序号	课程名称	类型	语言
01	开发环境	搭建	Python, Node.js, Rust
02	Git与协作	学习	--
03	GPU设置与云端	搭建	Python
04	API与密钥	搭建	Python, TypeScript
05	Jupyter Notebooks	搭建	Python
06	Python虚拟环境	搭建	Python
07	面向AI的Docker	搭建	Python
08	编辑器配置	搭建	--
09	数据管理	搭建	Python
10	终端与Shell	学习	--
11	面向AI的Linux	学习	--
12	调试与性能分析	搭建	Python

第1阶段：数学基础 22节课 通过代码深入理解每种AI算法背后的直觉。

#	课程	类型	语言
01	线性代数直觉	学习	Python, Julia
02	向量、矩阵及运算	实践	Python, Julia
03	矩阵变换与特征值	实践	Python, Julia
04	机器学习中的微积分：导数与梯度	学习	Python
05	链式法则与自动微分	实践	Python
06	概率与分布	学习	Python
07	贝叶斯定理与统计思维	实践	Python
08	优化：梯度下降家族	实践	Python
09	信息论：熵、KL散度	学习	Python
10	降维：PCA、t-SNE、UMAP	实践	Python
11	奇异值分解	实践	Python, Julia
12	张量运算	实践	Python
13	数值稳定性	实践	Python
14	范数与距离	实践	Python
15	机器学习中的统计学	实践	Python
16	采样方法	实践	Python
17	线性系统	实践	Python
18	凸优化	实践	Python
19	用于人工智能的复数	学习	Python
20	傅里叶变换	实践	Python
21	机器学习中的图论	实践	Python
22	随机过程	学习	Python

第二阶段：机器学习基础 18课 经典机器学习——至今仍是大多数生产级AI的核心。

#	课程	类型	语言
01	什么是机器学习	学习	Python
02	从零开始实现线性回归	实践	Python
03	逻辑回归与分类	实践	Python
04	决策树与随机森林	实践	Python
05	支持向量机	实践	Python
06	K近邻算法与距离度量	实践	Python
07	无监督学习：K均值、DBSCAN	实践	Python
08	特征工程与选择	实践	Python
09	模型评估：指标、交叉验证	实践	Python
10	偏差、方差与学习曲线	学习	Python
11	集成方法：提升、装袋、堆叠	实践	Python
12	超参数调优	实践	Python
13	机器学习流水线与实验跟踪	实践	Python
14	朴素贝叶斯	实践	Python
15	时间序列基础	实践	Python
16	异常检测	实践	Python
17	处理不平衡数据	实践	Python
18	特征选择	实践	Python

第三阶段：深度学习核心 13课 从基本原理出发构建神经网络。在亲手搭建一个框架之前，不使用任何现成的框架。

#	课程	类型	语言
01	感知器：一切的起点	实践	Python
02	多层网络与前向传播	实践	Python
03	从零开始实现反向传播	实践	Python
04	激活函数：ReLU、Sigmoid、GELU及其原因	实践	Python
05	损失函数：MSE、交叉熵、对比损失	实践	Python
06	优化器：SGD、动量、Adam、AdamW	实践	Python
07	正则化：Dropout、权重衰减、批归一化	实践	Python
08	权重初始化与训练稳定性	实践	Python
09	学习率调度与预热	实践	Python
10	搭建属于你自己的迷你框架	实践	Python
11	PyTorch入门	实践	Python
12	JAX入门	实践	Python
13	调试神经网络	实践	Python

第四阶段：计算机视觉 16课 从像素到理解——图像、视频和3D。

#	课程	类型	语言
01	图像基础：像素、通道、色彩空间	学习	Python
02	从零开始实现卷积	实践	Python
03	CNN：从LeNet到ResNet	实践	Python
04	图像分类	实践	Python
05	迁移学习与微调	实践	Python
06	目标检测——从零实现YOLO	实践	Python
07	语义分割——U-Net	实践	Python
08	实例分割——Mask R-CNN	实践	Python
09	图像生成——GANs	实践	Python
10	图像生成——扩散模型	实践	Python
11	Stable Diffusion——架构与微调	实践	Python
12	视频理解——时序建模	实践	Python
13	3D视觉：点云、NeRFs	实践	Python
14	视觉Transformer（ViT）	实践	Python
15	实时视觉：边缘部署	实践	Python、Rust
16	构建完整的视觉流水线	实践	Python

阶段5：自然语言处理：从基础到高级 18节课 语言是通往智能的接口。

#	课程	类型	语言
01	文本处理：分词、词干提取、词形还原	实践	Python
02	词袋模型、TF-IDF与文本表示	实践	Python
03	词嵌入：从零实现Word2Vec	实践	Python
04	GloVe、FastText与子词嵌入	实践	Python
05	情感分析	实践	Python
06	命名实体识别（NER）	实践	Python
07	词性标注与句法解析	实践	Python
08	文本分类——用于文本的CNN与RNN	实践	Python
09	序列到序列模型	实践	Python
10	注意力机制——突破性技术	实践	Python
11	机器翻译	实践	Python
12	文本摘要	实践	Python
13	问答系统	实践	Python
14	信息检索与搜索	实践	Python
15	主题建模：LDA、BERTopic	实践	Python
16	文本生成	实践	Python
17	聊天机器人：从规则驱动到神经网络	实践	Python
18	多语言NLP	实践	Python

阶段6：语音与音频 12节课 听，理解，说。

#	课程	类型	语言
01	音频基础：波形、采样、FFT	学习	Python
02	频谱图、梅尔尺度与音频特征	实践	Python
03	音频分类	实践	Python
04	语音识别（ASR）	实践	Python
05	Whisper：架构与微调	实践	Python
06	发言人识别与验证	实践	Python
07	文本转语音（TTS）	实践	Python
08	语音克隆与语音转换	实践	Python
09	音乐生成	实践	Python
10	音频-语言模型	实践	Python
11	实时音频处理	实践	Python、Rust
12	构建语音助手流水线	实践	Python

阶段7：深入理解Transformer 14节课 改变一切的架构。

#	课程	类型	语言
01	为什么是Transformer：RNN存在的问题	学习	--
02	从零开始实现自注意力	实践	Python
03	多头注意力	实践	Python
04	位置编码：正弦、RoPE、ALiBi	实践	Python
05	完整的Transformer：编码器+解码器	实践	Python
06	BERT——掩码语言模型	实践	Python
07	GPT——因果语言模型	实践	Python
08	T5、BART——编码器-解码器模型	实践	Python
09	视觉Transformer（ViT）	实践	Python
10	音频Transformer——Whisper架构	实践	Python
11	专家混合（MoE）	实践	Python
12	KV缓存、Flash Attention与推理优化	实践	Python、Rust
13	扩展定律	学习	Python
14	从零开始构建Transformer	实践	Python

阶段8：生成式AI 14节课 创造图像、视频、音频、3D等内容。

#	课程	类型	语言
01	生成模型：分类与历史	学习	--
02	自编码器与VAE	实践	Python
03	GANs：生成器与判别器	实践	Python
04	条件GAN与Pix2Pix	实践	Python
05	StyleGAN	实践	Python
06	扩散模型——从零实现DDPM	实践	Python
07	隐式扩散与Stable Diffusion	实践	Python
08	ControlNet、LoRA与条件控制	实践	Python
09	补画、扩画与编辑	实践	Python
10	视频生成	实践	Python
11	音频生成	实践	Python
12	3D生成	实践	Python
13	流匹配与修正流	实践	Python
14	评估：FID、CLIP分数	实践	Python

阶段9：强化学习 12节课 RLHF和游戏AI的基础。

#	课程	类型	语言
01	MDP、状态、动作与奖励	学习	Python
02	动态规划	实践	Python
03	蒙特卡洛方法	实践	Python
04	Q学习、SARSA	实践	Python
05	深度Q网络（DQN）	实践	Python
06	策略梯度——REINFORCE	实践	Python
07	演员-评论家——A2C、A3C	实践	Python
08	PPO	实践	Python
09	奖励建模与RLHF	实践	Python
10	多智能体强化学习	实践	Python
11	仿真到现实的迁移	实践	Python
12	强化学习在游戏中的应用	实践	Python

阶段10：从零构建大型语言模型 14节课 构建、训练并理解大型语言模型。

#	课程	类型	语言
01	分词器：BPE、WordPiece、SentencePiece	构建	Python
02	从头构建分词器	构建	Python
03	预训练的数据流水线	构建	Python
04	预训练一个小型GPT（1.24亿参数）	构建	Python
05	分布式训练、FSDP、DeepSpeed	构建	Python
06	指令微调 - SFT	构建	Python
07	RLHF - 奖励模型 + PPO	构建	Python
08	DPO - 直接偏好优化	构建	Python
09	宪法AI	构建	Python
10	评估 - 基准测试、评测	构建	Python
11	量化：INT8、GPTQ、AWQ、GGUF	构建	Python、Rust
12	推理优化	构建	Python
13	构建完整的LLM流水线	构建	Python
14	开放模型：架构解析	学习	Python

阶段11：LLM工程 13课 将LLM投入生产环境。

#	课程	类型	语言
01	提示工程：技巧与模式	构建	Python
02	少样本、思维链、思维树	构建	Python
03	结构化输出	构建	Python、TS
04	嵌入与向量表示	构建	Python
05	上下文工程	构建	Python、TS
06	RAG：检索增强生成	构建	Python、TS
07	高级RAG：分块、重排序	构建	Python
08	使用LoRA和QLoRA进行微调	构建	Python
09	函数调用与工具使用	构建	Python
10	评估与测试	构建	Python
11	缓存、速率限制与成本	构建	Python
12	护栏与安全性	构建	Python
13	构建生产级LLM应用	构建	Python

阶段12：多模态AI 11课 跨模态地看、听、读并进行推理。

#	课程	类型	语言
01	多模态表示	学习	--
02	CLIP：视觉+语言	构建	Python
03	视觉-语言模型	构建	Python
04	音频-语言模型	构建	Python
05	文档理解	构建	Python
06	视频-语言模型	构建	Python
07	多模态RAG	构建	Python、TS
08	多模态智能体	构建	Python、TS
09	文本到图像流水线	构建	Python
10	文本到视频流水线	构建	Python
11	任意模态间转换模型	学习	Python

阶段13：工具与协议 10课 AI与现实世界之间的接口。

#	课程	类型	语言
01	深入探讨函数调用	构建	Python、TS
02	工具使用模式	构建	TS
03	MCP：模型上下文协议	学习	--
04	构建MCP服务器	构建	TS、Python
05	构建MCP客户端	构建	TS、Python
06	MCP资源、提示与采样	构建	TS
07	结构化输出模式	构建	TS、Python
08	AI的API设计	构建	TS
09	浏览器自动化与网络智能体	构建	TS
10	构建完整的工具生态系统	构建	TS、Python

阶段14：智能体工程 15课 从基本原理出发构建智能体。

#	课程	类型	语言
01	智能体循环	构建	Python、TS
02	工具调度与注册	构建	TS
03	计划：TodoWrite、DAGs	构建	TS
04	记忆：短期、长期、情景记忆	构建	TS、Python
05	上下文窗口管理	构建	TS
06	上下文压缩与摘要	构建	TS
07	子智能体：委派	构建	TS
08	技能与知识加载	构建	TS
09	权限、沙箱与安全性	构建	TS、Rust
10	基于文件的任务系统	构建	TS
11	后台任务执行	构建	TS
12	错误恢复与自我修复	构建	TS
13	钩子：工具使用前、后	构建	TS
14	评估驱动的智能体开发	构建	Python、TS
15	构建一个完整的AI智能体	构建	TS

阶段15：自主系统 11课 能够安全地在无人干预的情况下运行的智能体。

#	课程	类型	语言
01	什么使系统具有自主性	学习	--
02	自主循环	构建	TS、Python
03	自我修复的智能体	构建	TS
04	自动研究：自主研究	构建	TS、Python
05	评估驱动的循环	构建	TS
06	人机协作	构建	TS
07	持续运行的智能体	构建	TS
08	成本意识的自主系统	构建	TS
09	监控与可观测性	构建	TS、Rust
10	安全边界	构建	TS
11	构建一个自主编码智能体	构建	TS

阶段16：多智能体与群体智能 14课 协调、涌现与集体智慧。

#	课程	类型	语言
01	为什么需要多智能体	学习	--
02	智能体团队：角色与委派	构建	TS
03	通信协议	构建	TS
04	共享状态与协调	构建	TS, Rust
05	消息传递与邮箱	构建	TS
06	任务市场	构建	TS
07	一致性算法	构建	TS, Rust
08	蜂群智能	构建	Python, TS
09	智能体经济	构建	TS
10	工作树隔离	构建	TS
11	层次化蜂群	构建	TS
12	自组织系统	构建	TS, Rust
13	基于DAG的编排	构建	TS, Rust
14	构建一个自主蜂群	构建	TS, Rust

第17阶段：基础设施与生产 11节课 将AI部署到现实世界中。

#	课程	类型	语言
01	模型服务	构建	Python
02	用于AI工作负载的Docker	构建	Python, Rust
03	Kubernetes用于AI	构建	Python
04	边缘部署：ONNX、WASM	构建	Python, Rust
05	可观测性	构建	TS, Rust
06	成本优化	构建	TS
07	用于机器学习的CI/CD	构建	Python
08	A/B测试与功能标记	构建	Python, TS
09	数据管道	构建	Python, Rust
10	安全：红队演练、防御	构建	Python, TS
11	构建一个生产级AI平台	构建	Python, TS, Rust

第18阶段：伦理、安全与对齐 6节课 构建有助于人类的AI。这不是可选项。

#	课程	类型	语言
01	AI伦理：偏见、公平性	学习	--
02	对齐：是什么以及为什么	学习	--
03	红队演练与对抗性测试	构建	Python
04	负责任的AI框架	学习	--
05	隐私：差分隐私、联邦学习	构建	Python
06	可解释性：SHAP、注意力机制	构建	Python

第19阶段：毕业项目 5个项目 证明你所学的一切。

#	项目	结合内容	语言
01	构建一个迷你GPT及聊天界面	第1、3、7、10阶段	Python, TS
02	构建一个多模态RAG系统	第5、11、12、13阶段	Python, TS
03	构建一个自主研究智能体	第14、15、6阶段	TS, Python
04	构建一个多智能体开发团队	第14、15、16、17阶段	TS, Rust
05	构建一个生产级AI平台	所有阶段	Python, TS, Rust

课程成果：工具包

其他课程只给你一张证书。而本课程则会为你提供一个工具包。

每节课都会产出一个可重复使用的成果——提示词模板、技能文件、智能体定义或MCP服务器，你可以立即安装并使用。完成整个课程后，你将拥有：

outputs/
├── prompts/          面向所有AI任务的提示词模板
├── skills/           用于AI编码智能体的SKILL.md文件
├── agents/           可直接部署的智能体定义
└── mcp-servers/      在课程中构建的MCP服务器

你可以通过SkillKit来安装这些工具，并将其接入Claude Code、Cursor或其他AI代理中。这些都是真正的实用工具，而非作业。

每节课的流程

phases/XX-phase-name/NN-lesson-name/
├── code/           可运行的实现代码（Python、TS、Rust、Julia）
├── docs/
│   └── en.md       课程文档
└── outputs/        本节课生成的提示词、技能和智能体

每节课都遵循6个步骤：

步骤	内容
座右铭	一句简洁有力的核心理念
问题	一个具体的场景，说明如果不掌握该知识会带来什么后果
概念	使用Mermaid图表和直观解释——暂不涉及代码
动手实现	从零开始用纯Python实现，不使用任何框架
实际应用	同样的内容使用PyTorch、sklearn或真实工具来实现
交付成果	本节课最终生成的提示词、技能或智能体

“动手实现”与“实际应用”两部分的结合是关键。因为你先亲手实现了它，所以才能真正理解框架的作用。

开始学习

选项A：直接阅读

从网站或下方的阶段表格中选择任意已完成的课程进行阅读。

选项B：克隆并运行

git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

python phases/01-math-foundations/01-linear-algebra-intuition/code/vectors.py

选项C：找到适合自己的起点（推荐）

如果你已经掌握了一些机器学习或深度学习的知识，不必从第1阶段开始。可以使用内置的评估工具：

# 在Claude Code中：
/find-your-level

这个包含10道题的测验会根据你的知识水平推荐一个起始阶段，并为你制定个性化的学习路径，同时估算所需时间。

先决条件

你会编写代码（Python或其他语言）
你想真正理解AI的工作原理，而不仅仅是调用API

适用人群

你是...	从...开始	完成所需时间
初次接触编程+AI	第0阶段（设置）	~290小时
掌握Python，初次接触机器学习	第1阶段（数学基础）	~270小时
掌握机器学习，初次接触深度学习	第3阶段（深度学习）	~200小时
掌握深度学习，想学习LLM/智能体	第10阶段（从零构建LLM）	~100小时
高级工程师，只想学习智能体相关知识	第14阶段（智能体工程）	~60小时

贡献

请参阅CONTRIBUTING.md，了解如何添加课程、翻译内容以及贡献成果。

如果你想为你的团队或学校复制本项目，请参阅FORKING.md。

有关进度跟踪的信息，请查看ROADMAP.md（预计总耗时约290小时，每节课的时间估算也在此列出）。

MIT许可证。你可以按任意方式使用。

ai-engineering-from-scratch 快速上手指南

本指南旨在帮助开发者快速搭建环境并开始使用 ai-engineering-from-scratch。这是一套“原生 AI"（AI-Native）的学习体系，强调通过与 AI 编码助手协作，从零构建数学、机器学习、深度学习及 Agent 系统。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Linux (推荐), macOS, 或 Windows (需配置 WSL2)。
编程语言运行时：
- Python 3.9+ (核心语言)
- Node.js (用于 TypeScript 部分)
- Rust (可选，用于高性能模块)
- Julia (可选，用于数学直觉部分)
硬件建议：
- 本地运行基础课程：任意现代 CPU，8GB+ 内存。
- 运行深度学习/GPU 课程：推荐 NVIDIA GPU (支持 CUDA) 或使用云端 GPU 实例。
前置依赖工具：
- Git
- Docker (用于容器化环境)
- AI 编码助手：强烈建议安装 Claude Code、Cursor 或其他支持自定义 Skill/MCP 的 AI Agent，这是本课程的核心交互方式。

安装步骤

1. 克隆项目仓库

使用 Git 将项目代码拉取到本地：

git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

国内加速提示：如果克隆速度较慢，可使用国内镜像源：
git clone https://gitee.com/mirror/ai-engineering-from-scratch.git
# 注意：若镜像源不存在，请配置 git proxy 或使用上述官方地址配合代理

2. 配置基础开发环境

进入第 0 阶段（Setup & Tooling），按照项目内的指引配置环境。通常涉及创建虚拟环境和安装基础依赖：

# 创建 Python 虚拟环境
python -m venv venv
source venv/bin/activate  # Windows 用户请使用: venv\Scripts\activate

# 安装核心依赖 (具体包名请参考 phases/00-setup-and-tooling 中的 requirements.txt)
pip install -r phases/00-setup-and-tooling/requirements.txt

3. 集成 AI 助手技能 (关键步骤)

本课程的核心在于“与 AI 一起学习”。你需要将项目提供的 Skills 配置到你的 AI 编码助手中（以 Claude Code 为例）：

找到项目根目录下的 .claude/settings.json 或 skills/ 目录。
将提供的 Skill 定义文件链接或复制到你的 AI 助手配置目录中。
确保你的 AI 助手可以读取项目上下文。

基本使用

本课程不是被动观看视频，而是通过命令与 AI 互动来驱动学习路径。

1. 定位起始等级

首次使用时，让 AI 助手评估你的当前水平并生成个性化学习路径：

/find-your-level

AI 将发起一个包含 10 个问题的测试，并根据结果推荐具体的 Phase 和预计耗时。

2. 开始学习特定阶段

根据推荐或直接选择某个阶段（例如第 3 阶段：深度学习核心）开始学习。每个课程都会产出可复用的工件（Prompt、代码工具、Agent 等）。

# 示例：进入第 3 阶段第 5 课关于损失函数的学习
cd phases/03-deep-learning-core/05-loss-functions/

在此目录下，阅读文档并使用 AI 助手完成 Build 类型的任务。

3. 阶段性自测

完成一个 Phase 后，使用内置技能进行知识巩固：

/check-understanding 3

AI 将针对第 3 阶段提出 8 个问题，提供反馈并指出需要复习的具体课程。

4. 查看产出物

每节课结束后，检查 outputs/ 目录，你将获得可直接使用的工具：

ls phases/03-deep-learning-core/05-loss-functions/outputs/
# 输出示例:
# prompt-loss-function-selector.md  (专家级 Prompt)
# prompt-loss-debugger.md           (调试助手)

你可以将这些 Prompt 粘贴到任何 AI 对话框中，或将生成的 Agents/MCP Servers 部署到你的生产环境中。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

使用场景

没有 ai-engineering-from-scratch 时

使用 ai-engineering-from-scratch 后

运行环境要求

快速开始

🧠 AI原生学习

用AI学习，而非仅仅了解AI

内置Claude Code技能

每节课都有实际产出

旅程

第0阶段：环境搭建与工具准备 12节课

课程成果：工具包

每节课的流程

开始学习

先决条件

适用人群

贡献

ai-engineering-from-scratch 快速上手指南

环境准备

安装步骤

1. 克隆项目仓库

2. 配置基础开发环境

3. 集成 AI 助手技能 (关键步骤)

基本使用

1. 定位起始等级

2. 开始学习特定阶段

3. 阶段性自测

4. 查看产出物

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

第0阶段：环境搭建与工具准备 `12节课`