LLMs-from-scratch

GitHub
90.1k 13.8k 中等 2 次阅读 今天NOASSERTION语言模型图像Agent开发框架
AI 解读 由 AI 自动生成,仅供参考

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。

该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。

LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备,这个项目都能提供坚实的路径指引。

使用场景

某高校人工智能实验室的研究生团队试图深入理解大语言模型(LLM)的内部机制,并计划构建一个针对特定学术领域的轻量级对话模型。

没有 LLMs-from-scratch 时

  • 黑盒困境:团队成员只能调用现成的 API 或加载庞大的预训练权重,完全无法知晓 Transformer 架构中注意力机制等核心组件的具体实现细节。
  • 学习断层:面对复杂的数学公式和抽象论文,缺乏可运行的代码作为对照,导致从理论推导到工程落地的转化极其困难,试错成本高昂。
  • 定制受限:想要修改模型结构以适应低资源环境或特殊数据格式时,因不熟悉底层逻辑而不敢轻易动手,往往陷入“调包侠”的被动局面。
  • 教育资源匮乏:市面上缺乏系统性指导从零构建类 ChatGPT 模型的教程,新手在数据预处理、预训练到微调的全流程中容易迷失方向。

使用 LLMs-from-scratch 后

  • 白盒掌控:借助该工具提供的分步代码,团队成员亲手用 PyTorch 实现了每一个模块,彻底厘清了从词嵌入到自注意力机制的完整数据流向。
  • 知行合一:配合书籍中的图表与实例,复杂的算法原理瞬间转化为可视化的代码逻辑,极大缩短了理解周期,让复现论文变得轻松自如。
  • 灵活魔改:在清晰掌握底层架构的基础上,团队成功删减了冗余层并调整了上下文窗口,高效训练出适配实验室服务器的小型专用模型。
  • 全流程贯通:利用其涵盖的数据加载、预训练及微调完整链路代码,学生们系统性地掌握了大模型开发的全貌,具备了独立研发能力。

LLMs-from-scratch 将高深的大模型技术拆解为可执行的代码步骤,让开发者从单纯的“使用者”蜕变为真正的“创造者”。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 非必需(代码可在普通笔记本电脑上运行),若有 GPU 会自动利用
  • 具体型号、显存大小及 CUDA 版本未在 README 中明确说明
内存

未说明

依赖
notes本项目旨在从零构建 GPT 类模型,主要依赖 PyTorch,不使用外部 LLM 库。代码设计为可在普通笔记本电脑上运行,无需专用硬件。详细的 Python 安装、包管理及环境设置指南请参阅仓库中 setup 目录下的 README.md 文件。若熟悉深度神经网络或 PyTorch 基础将更有帮助,附录 A 提供了 PyTorch 简介。
python未说明(需具备扎实的 Python 编程基础)
PyTorch
LLMs-from-scratch hero image

快速开始

从零开始构建大型语言模型

本仓库包含开发、预训练和微调类似 GPT 的大型语言模型的代码,也是书籍《从零开始构建大型语言模型》(Build a Large Language Model (From Scratch))的官方代码库。




在《从零开始构建大型语言模型》一书中,您将通过逐步从头编写代码,由内而外学习并理解大型语言模型(LLM)的工作原理。在这本书中,我将引导您创建属于自己的 LLM,并用清晰的文字、图表和示例解释每一个步骤。

本书介绍的方法用于训练和开发一个小型但功能完整的模型,以供学习之用,其流程与构建 ChatGPT 等大规模基础模型所采用的方法一致。此外,本书还提供了加载更大规模预训练模型权重以便进行微调的代码。



要下载本仓库的副本,请点击“Download ZIP”按钮,或在终端中执行以下命令:

git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

(如果您是从 Manning 网站下载的代码包,请考虑访问 GitHub 上的官方代码仓库 https://github.com/rasbt/LLMs-from-scratch,以获取最新更新。)



目录

请注意,此 README.md 文件是一个 Markdown(.md)文件。如果您是从 Manning 网站下载了本代码包,并在本地计算机上查看它,建议使用 Markdown 编辑器或预览工具以获得最佳阅读体验。如果您尚未安装 Markdown 编辑器,Ghostwriter 是一个不错的免费选择。

您也可以在 GitHub 上通过浏览器查看此文件及其他文件,网址为 https://github.com/rasbt/LLMs-from-scratch,GitHub 会自动渲染 Markdown 内容。



提示: 如果您正在寻找关于安装 Python 和 Python 包以及设置代码环境的指导,建议阅读位于 setup 目录下的 README.md 文件。



Linux 代码测试 Windows 代码测试 macOS 代码测试

章节标题 主要代码(便于快速访问) 所有代码 + 补充材料
设置建议
如何更好地阅读本书
- -
第1章:理解大型语言模型 无代码 -
第2章:处理文本数据 - ch02.ipynb
- dataloader.ipynb(摘要)
- exercise-solutions.ipynb
./ch02
第3章:实现注意力机制 - ch03.ipynb
- multihead-attention.ipynb(摘要)
- exercise-solutions.ipynb
./ch03
第4章:从零开始实现 GPT 模型 - ch04.ipynb
- gpt.py(摘要)
- exercise-solutions.ipynb
./ch04
第5章:在无标签数据上进行预训练 - ch05.ipynb
- gpt_train.py(摘要)
- gpt_generate.py(摘要)
- exercise-solutions.ipynb
./ch05
第6章:用于文本分类的微调 - ch06.ipynb
- gpt_class_finetune.py
- exercise-solutions.ipynb
./ch06
第7章:按照指令进行微调 - ch07.ipynb
- gpt_instruction_finetuning.py(摘要)
- ollama_evaluate.py(摘要)
- exercise-solutions.ipynb
./ch07
附录A:PyTorch简介 - code-part1.ipynb
- code-part2.ipynb
- DDP-script.py
- exercise-solutions.ipynb
./appendix-A
附录B:参考文献和拓展阅读 无代码 ./appendix-B
附录C:习题解答 - 习题解答列表 ./appendix-C
附录D:为训练循环添加额外功能 - appendix-D.ipynb ./appendix-D
附录E:使用 LoRA 进行参数高效的微调 - appendix-E.ipynb ./appendix-E

 

下图的心理模型总结了本书涵盖的内容。


 

先决条件

最重要的先决条件是扎实的 Python 编程基础。 具备这一知识后,您将能够很好地探索 LLM 的精彩世界, 并理解本书中介绍的概念和代码示例。

如果您对深度神经网络有一定了解,可能会觉得某些概念更加熟悉,因为 LLM 正是建立在这些架构之上的。

本书使用 PyTorch 从头开始实现代码,未使用任何外部 LLM 库。虽然熟练掌握 PyTorch 并非必需,但熟悉 PyTorch 的基础知识无疑会有所帮助。如果您是 PyTorch 新手,附录 A 提供了简明的 PyTorch 入门介绍。此外,我的书籍《一小时学 PyTorch:从张量到多 GPU 训练神经网络》(https://sebastianraschka.com/teaching/pytorch-1h/)也能帮助您快速掌握 PyTorch 的核心内容。


 

硬件要求

本书主要章节中的代码设计为可在普通笔记本电脑上以合理的时间范围内运行,无需特殊硬件。这种做法确保了广泛的读者群体能够参与学习。此外,如果系统中存在 GPU,代码会自动利用 GPU 进行加速。(请参阅 设置 文档以获取更多建议。)

 

视频课程

一部长达 17 小时 15 分钟的配套视频课程,我在其中逐章编写并演示书中的代码。该课程按章节和小节组织,与书籍结构完全对应,因此既可以作为独立的学习资源,也可以作为与书籍内容相辅相成的代码实践指南。

 

配套书籍 / 续作

从零构建推理模型 虽然是一本独立的书籍,但也可被视为 从零构建大型语言模型 的续作。

本书从一个预训练模型入手,实现了多种推理方法,包括推理时缩放、强化学习和知识蒸馏等,以提升模型的推理能力。

从零构建大型语言模型 类似,从零构建推理模型 同样采用动手实践的方式,从头开始实现这些方法。


 

练习题

本书每章都配有若干练习题。答案汇总在附录 C 中,相应的代码笔记本则位于本仓库各主章节文件夹内(例如,./ch02/01_main-chapter-code/exercise-solutions.ipynb)。

除了代码练习之外,您还可以从 Manning 官网免费下载一份 170 页的 PDF 文件,名为 测试自己:从零构建大型语言模型。该文档每章约有 30 道测验题及答案,帮助您检验对内容的理解。

 

附加资料

若干文件夹包含可选材料,供感兴趣的读者参考:

更多来自 Reasoning From Scratch 仓库的附加资料:


 

问题、反馈及参与本仓库

我欢迎各种形式的反馈,最佳方式是通过 Manning 论坛GitHub Discussions 提交。同样地,如果您有任何问题或只是想与他人交流想法,请随时在论坛上发帖。

请注意,由于本仓库包含与纸质书对应的代码,目前我无法接受会扩展主章节代码内容的贡献,因为这会导致与实体书内容产生偏差。保持一致性有助于确保所有用户的顺畅体验。

 

引用

如果您发现本书或代码对您的研究有所帮助,请考虑引用它。

芝加哥格式引用:

Raschka, Sebastian. 从零构建大型语言模型。Manning 出版社,2024 年。ISBN:978-1633437166。

BibTeX 条目:

@book{build-llms-from-scratch-book,
  author       = {Sebastian Raschka},
  title        = {从零构建大型语言模型},
  publisher    = {Manning},
  year         = {2024},
  isbn         = {978-1633437166},
  url          = {https://www.manning.com/books/build-a-large-language-model-from-scratch},
  github       = {https://github.com/rasbt/LLMs-from-scratch}
}

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

141.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|今天
开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型