ai-engineering-from-scratch

GitHub
1.4k 267 中等 1 次阅读 2天前MIT图像语言模型Agent开发框架
AI 解读 由 AI 自动生成,仅供参考

ai-engineering-from-scratch 是一套从零构建 AI 工程能力的开源学习体系,旨在帮助学习者真正掌握并落地 AI 技术。它直面当前"84% 的学生使用 AI 工具,但仅 18% 感到能胜任专业工作”的痛点,通过系统化课程填补理论与实践之间的鸿沟。

该项目包含 260+ 节课、20 个阶段,涵盖从线性代数到自主智能体集群的全栈内容,支持 Python、TypeScript、Rust、Julia 等多种语言。与传统课程不同,它强调“用 AI 学 AI":内置 Claude Code 技能,如 /find-your-level 自动评估基础并规划路径,/check-understanding 提供阶段性测验与反馈。每节课不仅传授知识,更产出可复用的成果——包括提示词模板、智能体、MCP 服务器等,直接融入实际开发流程。

适合希望系统提升 AI 工程能力的开发者、研究人员及技术爱好者。无论你是想深入理解模型原理,还是构建可部署的 AI 应用,都能从中获得扎实训练。其独特之处在于将学习过程本身 AI 化:代码可运行、文档完整、配套 Web 应用与交互式测验,让学习不再是被动观看视频,而是主动构建与迭代。最终,用户不仅能“学会”,更能“做出”并“交付”他人可用的工具。

使用场景

某初创团队的技术负责人希望带领三名初级工程师在三个月内从零构建一套可商用的多模态 AI 代理系统,但团队缺乏系统的工程化落地经验。

没有 ai-engineering-from-scratch 时

  • 知识碎片化严重:成员各自在网上拼凑 NLP 或视觉的单点教程,导致数学基础与架构设计脱节,无法理解从线性代数到自主代理群的全链路逻辑。
  • 技术栈单一且脆弱:团队仅熟悉 Python,面对高性能推理需求时不懂 Rust 或 Julia,导致系统瓶颈难以突破,代码复用率极低。
  • 学习产出无法交付:花费大量时间观看视频课程,结课时只留下“学过”的印象,却拿不出任何可安装的提示词库、技能模块或 MCP 服务器供产品集成。
  • 缺乏实战反馈机制:遇到报错只能盲目搜索,没有内置的 AI 导师进行阶段性测验和个性化路径规划,试错成本高昂。

使用 ai-engineering-from-scratch 后

  • 全链路体系化构建:通过 20 个阶段、260+ 节课的系统训练,团队从底层数学推导至顶层代理群设计,统一了从理论到工程的语言体系。
  • 多语言工程能力跃升:在实战中掌握 Python、TypeScript、Rust 和 Julia 混合编程,针对计算密集型任务重构核心模块,显著提升系统性能。
  • 每课皆交付可用资产:每个课时结束即产出可复用的工件(如专家级提示词、Claude Code 技能、独立代理),直接组装成产品的核心功能组件。
  • AI 原生伴随式成长:利用 /find-your-level/check-understanding 等内置技能实时诊断盲区,边学边用 AI 助手调试代码,将学习曲线转化为开发效率。

ai-engineering-from-scratch 不仅填补了理论与职业的鸿沟,更让团队在学习过程中直接“造船出海”,将学习过程本身转化为可交付的商业产品。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

建议配备 NVIDIA GPU(课程包含 GPU 设置与云端配置章节),具体型号、显存大小及 CUDA 版本未说明

内存

未说明

依赖
notes这是一个包含 260+ 课程的综合学习项目,强调‘从零构建’(如手动实现反向传播、迷你框架)。环境搭建是课程第一阶段(Phase 0)的核心内容,涵盖开发环境、Git、GPU/云设置、Docker、Linux 基础等。课程深度集成 AI 编码助手(如 Claude Code),提供内置技能命令辅助学习。由于涉及多语言(Python, TS, Rust, Julia)和底层原理实现,建议用户具备基本的终端操作能力并跟随课程步骤逐步配置环境。
python未说明 (课程涉及 Python, TypeScript, Rust, Julia)
未说明 (课程涵盖从基础构建到使用 PyTorch, JAX 等框架,但未列出具体版本要求)
ai-engineering-from-scratch hero image

快速开始

从零开始的AI工程

许可证:MIT 欢迎提交PR 260+节课 20个阶段 96个已完成 GitHub星标

旅程AI原生学习开始学习工具集路线图贡献术语表


84%的学生已经在使用AI工具。然而,只有18%的人觉得自己有充分准备在工作中专业地运用这些工具。本课程正是为了填补这一差距而设计。

260多节课,20个阶段,约290小时的学习内容。从线性代数到自主智能体群,涵盖Python、TypeScript、Rust和Julia等多种编程语言。每节课都会产出可复用的成果——提示词、技能、智能体以及MCP服务器。

你不仅是在学习AI,更是在借助AI来学习AI。随后,你将构建真正可用的项目,并发布可供他人使用的工具。

传统课程 本课程
范围 仅涉及某一领域(如NLP、视觉或智能体) 涵盖数学、机器学习、深度学习、自然语言处理、计算机视觉、语音处理、Transformer、大模型、智能体及群体智能等全方位内容
编程语言 仅Python Python、TypeScript、Rust、Julia
学习成果 “我学到了一些东西” 可直接安装使用的工具、提示词、技能和智能体组成的个人作品集
深度 浅层或偏重理论 先从零开始搭建,再逐步引入框架
形式 观看视频 可运行的代码 + 文档 + Web应用 + AI驱动的测验
学习方式 被动接受 AI原生式:利用Claude Code技能边学边自测

🧠 AI原生学习

这并非一堂供你观看的课程,而是一堂你需要与你的AI编码助手一起实践的课程。

用AI学习,而非仅仅了解AI

# 根据已有知识找到适合自己的起点
/find-your-level

# 完成一个阶段后自我检测理解程度
/check-understanding 3

# 每节课都会生成可复用的成果
ls phases/03-deep-learning-core/05-loss-functions/outputs/
# prompt-loss-function-selector.md
# prompt-loss-debugger.md

内置Claude Code技能

技能 功能
/find-your-level 10道题的测试,根据你的知识水平匹配起始阶段,并为你制定个性化的学习路径及时间预估
/check-understanding <phase> 针对每个阶段的8道题测验,提供反馈并推荐需要复习的具体课程

每节课都有实际产出

其他课程通常以“恭喜你学会了X”结尾,而我们的课程则会输出一个可复用的工具

  • 提示词——可以直接粘贴到任何AI助手中,获得该主题下的专家级帮助
  • 技能——可安装到Claude Code、Cursor或其他编码助手中
  • 智能体——可部署为独立工作的自动化程序
  • MCP服务器——可接入任何兼容MCP协议的AI应用

包含277个词条的可搜索术语表。完整的课程目录。约290小时的内容,每节课都附有预计学习时长。浏览网站 →


旅程

第0阶段:环境搭建与工具准备 12节课

为后续所有内容做好环境准备。

序号 课程名称 类型 语言
01 开发环境 搭建 Python, Node.js, Rust
02 Git与协作 学习 --
03 GPU设置与云端 搭建 Python
04 API与密钥 搭建 Python, TypeScript
05 Jupyter Notebooks 搭建 Python
06 Python虚拟环境 搭建 Python
07 面向AI的Docker 搭建 Python
08 编辑器配置 搭建 --
09 数据管理 搭建 Python
10 终端与Shell 学习 --
11 面向AI的Linux 学习 --
12 调试与性能分析 搭建 Python
第1阶段:数学基础 22节课   通过代码深入理解每种AI算法背后的直觉。
# 课程 类型 语言
01 线性代数直觉 学习 Python, Julia
02 向量、矩阵及运算 实践 Python, Julia
03 矩阵变换与特征值 实践 Python, Julia
04 机器学习中的微积分:导数与梯度 学习 Python
05 链式法则与自动微分 实践 Python
06 概率与分布 学习 Python
07 贝叶斯定理与统计思维 实践 Python
08 优化:梯度下降家族 实践 Python
09 信息论:熵、KL散度 学习 Python
10 降维:PCA、t-SNE、UMAP 实践 Python
11 奇异值分解 实践 Python, Julia
12 张量运算 实践 Python
13 数值稳定性 实践 Python
14 范数与距离 实践 Python
15 机器学习中的统计学 实践 Python
16 采样方法 实践 Python
17 线性系统 实践 Python
18 凸优化 实践 Python
19 用于人工智能的复数 学习 Python
20 傅里叶变换 实践 Python
21 机器学习中的图论 实践 Python
22 随机过程 学习 Python
第二阶段:机器学习基础 18课   经典机器学习——至今仍是大多数生产级AI的核心。
# 课程 类型 语言
01 什么是机器学习 学习 Python
02 从零开始实现线性回归 实践 Python
03 逻辑回归与分类 实践 Python
04 决策树与随机森林 实践 Python
05 支持向量机 实践 Python
06 K近邻算法与距离度量 实践 Python
07 无监督学习:K均值、DBSCAN 实践 Python
08 特征工程与选择 实践 Python
09 模型评估:指标、交叉验证 实践 Python
10 偏差、方差与学习曲线 学习 Python
11 集成方法:提升、装袋、堆叠 实践 Python
12 超参数调优 实践 Python
13 机器学习流水线与实验跟踪 实践 Python
14 朴素贝叶斯 实践 Python
15 时间序列基础 实践 Python
16 异常检测 实践 Python
17 处理不平衡数据 实践 Python
18 特征选择 实践 Python
第三阶段:深度学习核心 13课   从基本原理出发构建神经网络。在亲手搭建一个框架之前,不使用任何现成的框架。
# 课程 类型 语言
01 感知器:一切的起点 实践 Python
02 多层网络与前向传播 实践 Python
03 从零开始实现反向传播 实践 Python
04 激活函数:ReLU、Sigmoid、GELU及其原因 实践 Python
05 损失函数:MSE、交叉熵、对比损失 实践 Python
06 优化器:SGD、动量、Adam、AdamW 实践 Python
07 正则化:Dropout、权重衰减、批归一化 实践 Python
08 权重初始化与训练稳定性 实践 Python
09 学习率调度与预热 实践 Python
10 搭建属于你自己的迷你框架 实践 Python
11 PyTorch入门 实践 Python
12 JAX入门 实践 Python
13 调试神经网络 实践 Python
第四阶段:计算机视觉 16课   从像素到理解——图像、视频和3D。
# 课程 类型 语言
01 图像基础:像素、通道、色彩空间 学习 Python
02 从零开始实现卷积 实践 Python
03 CNN:从LeNet到ResNet 实践 Python
04 图像分类 实践 Python
05 迁移学习与微调 实践 Python
06 目标检测——从零实现YOLO 实践 Python
07 语义分割——U-Net 实践 Python
08 实例分割——Mask R-CNN 实践 Python
09 图像生成——GANs 实践 Python
10 图像生成——扩散模型 实践 Python
11 Stable Diffusion——架构与微调 实践 Python
12 视频理解——时序建模 实践 Python
13 3D视觉:点云、NeRFs 实践 Python
14 视觉Transformer(ViT) 实践 Python
15 实时视觉:边缘部署 实践 Python、Rust
16 构建完整的视觉流水线 实践 Python
阶段5:自然语言处理:从基础到高级 18节课   语言是通往智能的接口。
# 课程 类型 语言
01 文本处理:分词、词干提取、词形还原 实践 Python
02 词袋模型、TF-IDF与文本表示 实践 Python
03 词嵌入:从零实现Word2Vec 实践 Python
04 GloVe、FastText与子词嵌入 实践 Python
05 情感分析 实践 Python
06 命名实体识别(NER) 实践 Python
07 词性标注与句法解析 实践 Python
08 文本分类——用于文本的CNN与RNN 实践 Python
09 序列到序列模型 实践 Python
10 注意力机制——突破性技术 实践 Python
11 机器翻译 实践 Python
12 文本摘要 实践 Python
13 问答系统 实践 Python
14 信息检索与搜索 实践 Python
15 主题建模:LDA、BERTopic 实践 Python
16 文本生成 实践 Python
17 聊天机器人:从规则驱动到神经网络 实践 Python
18 多语言NLP 实践 Python
阶段6:语音与音频 12节课   听,理解,说。
# 课程 类型 语言
01 音频基础:波形、采样、FFT 学习 Python
02 频谱图、梅尔尺度与音频特征 实践 Python
03 音频分类 实践 Python
04 语音识别(ASR) 实践 Python
05 Whisper:架构与微调 实践 Python
06 发言人识别与验证 实践 Python
07 文本转语音(TTS) 实践 Python
08 语音克隆与语音转换 实践 Python
09 音乐生成 实践 Python
10 音频-语言模型 实践 Python
11 实时音频处理 实践 Python、Rust
12 构建语音助手流水线 实践 Python
阶段7:深入理解Transformer 14节课   改变一切的架构。
# 课程 类型 语言
01 为什么是Transformer:RNN存在的问题 学习 --
02 从零开始实现自注意力 实践 Python
03 多头注意力 实践 Python
04 位置编码:正弦、RoPE、ALiBi 实践 Python
05 完整的Transformer:编码器+解码器 实践 Python
06 BERT——掩码语言模型 实践 Python
07 GPT——因果语言模型 实践 Python
08 T5、BART——编码器-解码器模型 实践 Python
09 视觉Transformer(ViT) 实践 Python
10 音频Transformer——Whisper架构 实践 Python
11 专家混合(MoE) 实践 Python
12 KV缓存、Flash Attention与推理优化 实践 Python、Rust
13 扩展定律 学习 Python
14 从零开始构建Transformer 实践 Python
阶段8:生成式AI 14节课   创造图像、视频、音频、3D等内容。
# 课程 类型 语言
01 生成模型:分类与历史 学习 --
02 自编码器与VAE 实践 Python
03 GANs:生成器与判别器 实践 Python
04 条件GAN与Pix2Pix 实践 Python
05 StyleGAN 实践 Python
06 扩散模型——从零实现DDPM 实践 Python
07 隐式扩散与Stable Diffusion 实践 Python
08 ControlNet、LoRA与条件控制 实践 Python
09 补画、扩画与编辑 实践 Python
10 视频生成 实践 Python
11 音频生成 实践 Python
12 3D生成 实践 Python
13 流匹配与修正流 实践 Python
14 评估:FID、CLIP分数 实践 Python
阶段9:强化学习 12节课   RLHF和游戏AI的基础。
# 课程 类型 语言
01 MDP、状态、动作与奖励 学习 Python
02 动态规划 实践 Python
03 蒙特卡洛方法 实践 Python
04 Q学习、SARSA 实践 Python
05 深度Q网络(DQN) 实践 Python
06 策略梯度——REINFORCE 实践 Python
07 演员-评论家——A2C、A3C 实践 Python
08 PPO 实践 Python
09 奖励建模与RLHF 实践 Python
10 多智能体强化学习 实践 Python
11 仿真到现实的迁移 实践 Python
12 强化学习在游戏中的应用 实践 Python
阶段10:从零构建大型语言模型 14节课   构建、训练并理解大型语言模型。
# 课程 类型 语言
01 分词器:BPE、WordPiece、SentencePiece 构建 Python
02 从头构建分词器 构建 Python
03 预训练的数据流水线 构建 Python
04 预训练一个小型GPT(1.24亿参数) 构建 Python
05 分布式训练、FSDP、DeepSpeed 构建 Python
06 指令微调 - SFT 构建 Python
07 RLHF - 奖励模型 + PPO 构建 Python
08 DPO - 直接偏好优化 构建 Python
09 宪法AI 构建 Python
10 评估 - 基准测试、评测 构建 Python
11 量化:INT8、GPTQ、AWQ、GGUF 构建 Python、Rust
12 推理优化 构建 Python
13 构建完整的LLM流水线 构建 Python
14 开放模型:架构解析 学习 Python
阶段11:LLM工程 13课   将LLM投入生产环境。
# 课程 类型 语言
01 提示工程:技巧与模式 构建 Python
02 少样本、思维链、思维树 构建 Python
03 结构化输出 构建 Python、TS
04 嵌入与向量表示 构建 Python
05 上下文工程 构建 Python、TS
06 RAG:检索增强生成 构建 Python、TS
07 高级RAG:分块、重排序 构建 Python
08 使用LoRA和QLoRA进行微调 构建 Python
09 函数调用与工具使用 构建 Python
10 评估与测试 构建 Python
11 缓存、速率限制与成本 构建 Python
12 护栏与安全性 构建 Python
13 构建生产级LLM应用 构建 Python
阶段12:多模态AI 11课   跨模态地看、听、读并进行推理。
# 课程 类型 语言
01 多模态表示 学习 --
02 CLIP:视觉+语言 构建 Python
03 视觉-语言模型 构建 Python
04 音频-语言模型 构建 Python
05 文档理解 构建 Python
06 视频-语言模型 构建 Python
07 多模态RAG 构建 Python、TS
08 多模态智能体 构建 Python、TS
09 文本到图像流水线 构建 Python
10 文本到视频流水线 构建 Python
11 任意模态间转换模型 学习 Python
阶段13:工具与协议 10课   AI与现实世界之间的接口。
# 课程 类型 语言
01 深入探讨函数调用 构建 Python、TS
02 工具使用模式 构建 TS
03 MCP:模型上下文协议 学习 --
04 构建MCP服务器 构建 TS、Python
05 构建MCP客户端 构建 TS、Python
06 MCP资源、提示与采样 构建 TS
07 结构化输出模式 构建 TS、Python
08 AI的API设计 构建 TS
09 浏览器自动化与网络智能体 构建 TS
10 构建完整的工具生态系统 构建 TS、Python
阶段14:智能体工程 15课   从基本原理出发构建智能体。
# 课程 类型 语言
01 智能体循环 构建 Python、TS
02 工具调度与注册 构建 TS
03 计划:TodoWrite、DAGs 构建 TS
04 记忆:短期、长期、情景记忆 构建 TS、Python
05 上下文窗口管理 构建 TS
06 上下文压缩与摘要 构建 TS
07 子智能体:委派 构建 TS
08 技能与知识加载 构建 TS
09 权限、沙箱与安全性 构建 TS、Rust
10 基于文件的任务系统 构建 TS
11 后台任务执行 构建 TS
12 错误恢复与自我修复 构建 TS
13 钩子:工具使用前、后 构建 TS
14 评估驱动的智能体开发 构建 Python、TS
15 构建一个完整的AI智能体 构建 TS
阶段15:自主系统 11课   能够安全地在无人干预的情况下运行的智能体。
# 课程 类型 语言
01 什么使系统具有自主性 学习 --
02 自主循环 构建 TS、Python
03 自我修复的智能体 构建 TS
04 自动研究:自主研究 构建 TS、Python
05 评估驱动的循环 构建 TS
06 人机协作 构建 TS
07 持续运行的智能体 构建 TS
08 成本意识的自主系统 构建 TS
09 监控与可观测性 构建 TS、Rust
10 安全边界 构建 TS
11 构建一个自主编码智能体 构建 TS
阶段16:多智能体与群体智能 14课   协调、涌现与集体智慧。
# 课程 类型 语言
01 为什么需要多智能体 学习 --
02 智能体团队:角色与委派 构建 TS
03 通信协议 构建 TS
04 共享状态与协调 构建 TS, Rust
05 消息传递与邮箱 构建 TS
06 任务市场 构建 TS
07 一致性算法 构建 TS, Rust
08 蜂群智能 构建 Python, TS
09 智能体经济 构建 TS
10 工作树隔离 构建 TS
11 层次化蜂群 构建 TS
12 自组织系统 构建 TS, Rust
13 基于DAG的编排 构建 TS, Rust
14 构建一个自主蜂群 构建 TS, Rust
第17阶段:基础设施与生产 11节课   将AI部署到现实世界中。
# 课程 类型 语言
01 模型服务 构建 Python
02 用于AI工作负载的Docker 构建 Python, Rust
03 Kubernetes用于AI 构建 Python
04 边缘部署:ONNX、WASM 构建 Python, Rust
05 可观测性 构建 TS, Rust
06 成本优化 构建 TS
07 用于机器学习的CI/CD 构建 Python
08 A/B测试与功能标记 构建 Python, TS
09 数据管道 构建 Python, Rust
10 安全:红队演练、防御 构建 Python, TS
11 构建一个生产级AI平台 构建 Python, TS, Rust
第18阶段:伦理、安全与对齐 6节课   构建有助于人类的AI。这不是可选项。
# 课程 类型 语言
01 AI伦理:偏见、公平性 学习 --
02 对齐:是什么以及为什么 学习 --
03 红队演练与对抗性测试 构建 Python
04 负责任的AI框架 学习 --
05 隐私:差分隐私、联邦学习 构建 Python
06 可解释性:SHAP、注意力机制 构建 Python
第19阶段:毕业项目 5个项目   证明你所学的一切。
# 项目 结合内容 语言
01 构建一个迷你GPT及聊天界面 第1、3、7、10阶段 Python, TS
02 构建一个多模态RAG系统 第5、11、12、13阶段 Python, TS
03 构建一个自主研究智能体 第14、15、6阶段 TS, Python
04 构建一个多智能体开发团队 第14、15、16、17阶段 TS, Rust
05 构建一个生产级AI平台 所有阶段 Python, TS, Rust

课程成果:工具包

其他课程只给你一张证书。而本课程则会为你提供一个工具包

每节课都会产出一个可重复使用的成果——提示词模板、技能文件、智能体定义或MCP服务器,你可以立即安装并使用。完成整个课程后,你将拥有:

outputs/
├── prompts/          面向所有AI任务的提示词模板
├── skills/           用于AI编码智能体的SKILL.md文件
├── agents/           可直接部署的智能体定义
└── mcp-servers/      在课程中构建的MCP服务器

你可以通过SkillKit来安装这些工具,并将其接入Claude Code、Cursor或其他AI代理中。这些都是真正的实用工具,而非作业。


每节课的流程

phases/XX-phase-name/NN-lesson-name/
├── code/           可运行的实现代码(Python、TS、Rust、Julia)
├── docs/
│   └── en.md       课程文档
└── outputs/        本节课生成的提示词、技能和智能体

每节课都遵循6个步骤:

步骤 内容
座右铭 一句简洁有力的核心理念
问题 一个具体的场景,说明如果不掌握该知识会带来什么后果
概念 使用Mermaid图表和直观解释——暂不涉及代码
动手实现 从零开始用纯Python实现,不使用任何框架
实际应用 同样的内容使用PyTorch、sklearn或真实工具来实现
交付成果 本节课最终生成的提示词、技能或智能体

“动手实现”与“实际应用”两部分的结合是关键。因为你先亲手实现了它,所以才能真正理解框架的作用。


开始学习

选项A:直接阅读

网站或下方的阶段表格中选择任意已完成的课程进行阅读。

选项B:克隆并运行

git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

python phases/01-math-foundations/01-linear-algebra-intuition/code/vectors.py

选项C:找到适合自己的起点(推荐)

如果你已经掌握了一些机器学习或深度学习的知识,不必从第1阶段开始。可以使用内置的评估工具:

# 在Claude Code中:
/find-your-level

这个包含10道题的测验会根据你的知识水平推荐一个起始阶段,并为你制定个性化的学习路径,同时估算所需时间。

先决条件

  • 你会编写代码(Python或其他语言)
  • 你想真正理解AI的工作原理,而不仅仅是调用API

适用人群

你是... 从...开始 完成所需时间
初次接触编程+AI 第0阶段(设置) ~290小时
掌握Python,初次接触机器学习 第1阶段(数学基础) ~270小时
掌握机器学习,初次接触深度学习 第3阶段(深度学习) ~200小时
掌握深度学习,想学习LLM/智能体 第10阶段(从零构建LLM) ~100小时
高级工程师,只想学习智能体相关知识 第14阶段(智能体工程) ~60小时

贡献

请参阅CONTRIBUTING.md,了解如何添加课程、翻译内容以及贡献成果。

如果你想为你的团队或学校复制本项目,请参阅FORKING.md

有关进度跟踪的信息,请查看ROADMAP.md(预计总耗时约290小时,每节课的时间估算也在此列出)。


MIT许可证。你可以按任意方式使用。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架