Hands-On-Large-Language-Models-CN

2.4k 256 简单 1 次阅读今天Apache-2.0语言模型

AI 解读由 AI 自动生成，仅供参考

Hands-On-Large-Language-Models-CN 是热门英文教程《Hands-On Large Language Models》的官方授权中文翻译与增强版，旨在帮助中文用户轻松入门大语言模型。它系统性地讲解了从基础概念（如 Token、嵌入）到 Transformer 内部机制的核心知识，有效解决了国内学习者面临的语言障碍、代码理解困难以及网络环境限制导致无法访问 Google Colab 等痛点。

本项目特别适合希望从零开始掌握大模型技术的开发者、学生及研究人员。相较于原版，它不仅提供了详尽的中文代码注释和译者独到的技术见解，还针对国内网络环境进行了深度优化：预置了可在 OpenBayes 等平台直接运行的 Notebook 实例，无需特殊网络设置即可快速上手实践。此外，项目还配套了完整的中文视频讲解，覆盖 B 站与 YouTube 双平台，形成“图文 + 代码 + 视频”的立体学习体验。通过理论与实践相结合的方式，Hands-On-Large-Language-Models-CN 让复杂的大模型原理变得通俗易懂，是中文社区不可多得的优质学习资源。

使用场景

某国内高校 AI 实验室的研究生团队正试图从零开始复现大模型核心原理，以完成课程项目并深入理解 Transformer 架构。

没有 Hands-On-Large-Language-Models-CN 时

环境配置受阻：团队依赖原版 Google Colab 示例，但受限于国内网络环境，加载代码和下载预训练模型极其缓慢甚至频繁中断，导致实验无法启动。
语言与理解门槛高：成员英语阅读能力参差不齐，面对原版英文教材中晦涩的技术术语和简略的代码注释，往往需要花费大量时间查词典仍难以吃透逻辑。
缺乏本地化指导：遇到报错时，由于没有中文视频讲解和针对性的社区讨论，排查问题只能盲目搜索英文资料，学习曲线陡峭且效率低下。
算力资源浪费：自行搭建本地 GPU 环境成本高昂，而寻找稳定的免费云端替代方案耗时耗力，严重拖慢了项目进度。

使用 Hands-On-Large-Language-Models-CN 后

一键运行无障碍：直接复制项目中适配国内网络的 OpenBayes Notebook 容器，无需翻墙即可秒级启动实验，内置环境已预配置好所有依赖。
深度中文解析：代码中增加了详细的中文注释及作者的个人理解，配合配套的 B 站视频讲解，团队成员能快速掌握 Token 嵌入、注意力机制等核心概念。
高效调试与互动：遇到难题可参考中文视频中的分步演示，或通过公众号加入社群交流，大幅缩短了从理论到代码实现的转化时间。
低成本算力支持：利用项目推荐的注册福利，团队免费获得了充足的 4090 GPU 算力时长，零成本完成了原本昂贵的模型训练任务。

Hands-On-Large-Language-Models-CN 通过消除语言障碍和网络限制，让国内开发者能以最低成本、最高效率真正“动手”掌握大模型核心技术。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

推荐 NVIDIA GPU (Google Colab T4 16GB 显存)
国内平台提供 4090 GPU
本地安装需参考 .setup/conda 文件夹配置 PyTorch/CUDA

内存

未说明 (Colab 环境通常配备 12GB+ 系统内存)

依赖

notes本项目主要基于 Jupyter Notebook 运行。海外用户推荐使用 Google Colab (免费 T4 GPU, 16GB 显存); 国内用户推荐使用 OpenBayes 或 AIStackDC 等云平台以避免网络问题并获取免费 GPU 算力。详细的本地环境配置指南（包括 Conda 和 PyTorch 安装）位于项目根目录的 .setup/ 和 .setup/conda/ 文件夹中。部分章节涉及大模型微调或多模态任务，对显存要求较高。

python未说明 (需通过 conda 环境配置)

torch

transformers

accelerate

datasets

peft

bitsandbytes

Hands-On-Large-Language-Models-CN hero image

快速开始

# 动手学大模型 CN(ZH) -- 动手学大模型

本书（Hands-On Large Language Models）的原作者是 Jay Alammar 和 Maarten Grootendorst。英语较好的同学强烈推荐支持原书，访问原书地址。

这是中文版本的 hands-on LLMs，推荐大家访问原书。

也非常欢迎大家感兴趣可以关注公众号【chaofa用代码打点酱油】获得文字更新推送~ 或者加群来吹水聊天（🤣）

中文版有什么特点

对代码进行了更详细的注释，并且在部分内容加上自己的理解。
有更适合国内网络环境使用的 Notebook 版本，不需要翻墙可以使用（主要是更快）
- 这里我也是为了免费用了 openbayes 的 GPU，注册可以送 5 小时 CPU 和 3 小时 4090 GPU，如果用我的链接注册，我们都能多一个小时。能薅一点牛毛是一点是一点，目标是免费录完这次教程。
- 如果你不太喜欢 notebook 类型，更喜欢实验室这种 Linux 类型的环境，那么推荐你使用 AIStackDC 算力平台，可以直接 ssh，配置好之后就是一个独立的开发机，如果使用我的邀请链接，可以额外获得 2 张 1 折优惠券（5 小时）和 3 张 5 折优惠券（36 小时），这样前一百个小时基本免费吧。
配套的中文视频讲解。
- YouTube 视频
- B站视频-chaofa用代码打点酱油

建议海外用户通过 Google Colab 运行所有示例，以获得最简单的设置。Google Colab 允许您免费使用具有 16GB 显存的 T4 GPU。所有示例主要使用 Google Colab 构建和测试，因此它应该是更稳定的平台。然而，任何其他云提供商都应该可以工作。

国内用户如果想要运行，最好还是用中文可运行 Notebook，你可以复制我的容器直接运行这些代码，注册链接，这样不需要翻墙，国内网络环境访问 Google Colab 可能比较慢。

章节	Google Colab	视频讲解 (可点击)
第一章: 介绍大模型
第二章: Tokens and Embeddings
第三章: Looking Inside Transformer LLMs
第四章: Text Classification
第五章: Text Clustering and Topic Modeling
第六章: Prompt Engineering
第七章: Advanced Text Generation Techniques and Tools
第八章: Semantic Search and Retrieval-Augmented Generation	RAG 进化之路：传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG
第九章: Multimodal Large Language Models		在录了~
第十章: Creating Text Embedding Models		在录了~
第十一章: Fine-tuning Representation Models for Classification		在录了~
第 12.1 章: 大模型 SFT
bonous1 - 动手实现 LoRA（非import peft）	LoRA 原理和 PyTorch 代码实现
bonus2 从零实现 GRPO (Agent RL），用于 Agentic RAG 训练	RAG 进化之路：传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG

[!TIP] You can check the setup folder for a quick-start guide to install all packages locally and you can check the conda folder for a complete guide on how to setup your environment, including conda and PyTorch installation. Note that the depending on your OS, Python version, and dependencies your results might be slightly differ. However, they should this be similar to the examples in the book.

其他资源

我们尽力在书中尽可能多地包含信息，同时又避免内容过于冗杂。然而，即便是一本400页的书，仍然有许多值得探索的内容！如果您对我们创作的类似图文并茂的视觉指南感兴趣，以下几本可能会吸引您：

Mamba 的视觉指南	量化技术的视觉指南	稳定扩散的图解

引用

如果您认为本书对您的研究有所帮助，请考虑引用它：

@book{hands-on-llms-book,
  author       = {Jay Alammar 和 Maarten Grootendorst},
  title        = {动手实践大型语言模型},
  publisher    = {O'Reilly},
  year         = {2024},
  isbn         = {978-1098150969},
  url          = {https://www.oreilly.com/library/view/hands-on-large-language/9781098150952/},
  github       = {https://github.com/HandsOnLLM/Hands-On-Large-Language-Models}
}

Hands-On-Large-Language-Models-CN 快速上手指南

本指南旨在帮助中国开发者快速运行《动手学大模型》中文版的代码示例。本项目针对国内网络环境进行了优化，提供了可直接运行的 Notebook 环境和详细的中文视频讲解。

1. 环境准备

系统要求

操作系统：Linux, macOS, 或 Windows (WSL2 推荐)
GPU：推荐拥有至少 16GB 显存的 GPU（如 NVIDIA T4, A10, 4090 等）以流畅运行大部分示例。部分轻量级示例可在 CPU 上运行。
Python：版本 3.8 或更高

前置依赖

核心依赖包括 PyTorch, Transformers, Datasets, Accelerate 等深度学习库。

💡 国内开发者特别推荐方案

为避免配置环境和下载模型的繁琐过程，以及解决 Google Colab 在国内访问慢的问题，强烈建议直接使用云端算力平台：

OpenBayes (贝式计算)：项目作者已预置好所有环境和代码容器。

优势：无需本地安装，注册即送免费 GPU 时长，一键复制容器即可运行。

入口：点击此处注册并获取免费时长

AIStackDC：适合偏好独立 Linux 开发机（SSH 连接）的用户。

优势：提供专属开发机环境，通过邀请码可获得大量免费试用时长。

如果你坚持在本地环境部署，请继续阅读下方的安装步骤。

2. 安装步骤

方案 A：使用 Conda 推荐环境（本地部署）

项目提供了完整的 Conda 环境配置脚本，位于 .setup/conda/ 目录下。

克隆项目代码

git clone https://github.com/bbruceyuan/Hands-On-Large-Language-Models-CN.git
cd Hands-On-Large-Language-Models-CN

创建并激活 Conda 环境 进入设置目录并执行安装脚本（确保已安装 Miniconda 或 Anaconda）：
```
cd .setup/conda
bash create_env.sh
```
注：若脚本执行失败，可手动创建环境：
```
conda create -n hands-on-llm python=3.10 -y
conda activate hands-on-llm
```

安装 PyTorch 和依赖 建议使用国内镜像源加速下载。以下命令基于 PyTorch 官方推荐的 CUDA 11.8 版本，并使用清华源加速：

# 安装 PyTorch (使用清华镜像)
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装项目核心依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

如果根目录下没有 requirements.txt，请安装以下核心库：

pip install transformers datasets accelerate sentencepiece protobuf scikit-learn matplotlib seaborn -i https://pypi.tuna.tsinghua.edu.cn/simple

方案 B：直接使用 Docker (可选)

如果本地有 Docker 环境，可以构建包含所有依赖的镜像：

docker build -t hands-on-llm-cn .
docker run --gpus all -it -v $(pwd):/workspace hands-on-llm-cn

3. 基本使用

本项目按章节组织，每一章对应一个独立的 Jupyter Notebook。

启动 Jupyter Lab

在激活环境后，启动交互式编程环境：

jupyter lab

运行第一个示例

在浏览器中打开 chapter01 文件夹。
选择对应的 Notebook 文件，例如：
- Chapter 1 - Introduction to Language Models.ipynb
点击单元格依次运行代码。

最简单的代码示例（测试环境）： 你可以在任意 Python 环境中运行以下代码验证基础库是否安装成功：

from transformers import pipeline

# 加载一个小型的中文文本生成模型进行测试
generator = pipeline('text-generation', model='distilgpt2')

# 简单的生成测试
result = generator("你好，我是人工智能，", max_length=20, num_return_sequences=1)
print(result[0]['generated_text'])

进阶学习路径

建议按照目录顺序学习，配合 B 站或 YouTube 的视频讲解：

章节	主题	快速入口 (OpenBayes 容器)
第一章	介绍大模型	直接运行容器
第二章	Tokens and Embeddings	直接运行容器
第三章	深入 Transformer 内部	直接运行容器
...	...	...
Bonus	动手实现 LoRA	直接运行容器

提示：运行涉及大模型下载的代码时，国内用户建议在代码开头设置 Hugging Face 镜像，以避免下载超时：
import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|6天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|2天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|3天前

语言模型数据工具其他

gpt4all

GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。

★ 77.3k|★☆☆☆☆|昨天

语言模型开发框架