AI 解读由 AI 自动生成，仅供参考

llm-action 是一个专注于大模型技术原理分享与工程化实战的开源知识库。它系统地梳理了从底层算法架构到上层应用落地的全链路技术，旨在帮助从业者解决大模型“怎么用、怎么训、怎么优”的核心难题。

无论是想深入理解分布式训练并行策略、参数高效微调（PEFT）原理，还是寻求推理加速、模型量化压缩及对齐技术的具体方案，llm-action 都提供了详尽的理论解析与代码实战指南。此外，项目还涵盖数据工程、提示工程、性能评测、国产化适配以及 LLMOps 等关键领域，并附带丰富的面试题与基础环境搭建教程，形成了完整的学习闭环。

该项目特别适合 AI 开发者、算法研究人员以及对大模型工程化感兴趣的技术人员使用。其独特亮点在于不仅停留在理论层面，更结合 Lab4AI 提供了大量基于真实场景的实践案例（如数字人打造、垂直领域模型微调等），让抽象的技术概念变得可操作、可落地。如果你希望系统掌握大模型核心技术并提升实战能力，llm-action 将是一份极具价值的参考指南。

使用场景

某初创团队急需将通用大模型改造为懂法律条文、能处理案件咨询的垂直领域助手，但缺乏系统的工程化落地经验。

没有 llm-action 时

技术选型迷茫：面对 LoRA、P-Tuning 等多种微调技术及 vLLM、TGI 等推理框架，团队难以判断哪种组合最适合法律场景，反复试错消耗大量算力资源。
数据准备低效：缺乏专业的数据筛选与清洗指南，导致微调数据中混入大量噪声，模型训练后出现“胡言乱语”或幻觉严重的问题。
部署性能瓶颈：不懂量化剪枝与分布式并行策略，模型上线后显存占用过高，并发请求下响应延迟高达数秒，无法满足实时咨询需求。
评估标准缺失：仅凭主观感觉判断模型好坏，缺乏科学的评测基准和压测方法，无法量化模型在法律问答上的准确率提升幅度。

使用 llm-action 后

路径清晰明确：参考项目中"LLM 参数高效微调实战”与“推理优化技术”章节，团队迅速锁定 QLoRA 微调搭配 vLLM 部署的最佳实践，缩短调研周期 80%。
数据质量飞跃：依据"LLM 微调高效数据筛选技术”指导，构建了高质量法律指令数据集，显著降低模型幻觉，使法条引用准确率大幅提升。
推理极速响应：应用"LLM 量化”与“分布式训练并行技术”方案，成功将模型显存占用降低 60%，并发吞吐量提升 3 倍，实现毫秒级回复。
效果可量化：利用"LLM 效果评测”与“推理性能压测”模块建立标准化测试集，用数据证明模型在专业任务上超越基线 40%，顺利交付客户。

llm-action 通过提供从数据处理、模型微调到推理部署的全链路实战指南，帮助团队将大模型落地周期从数月缩短至数周，真正实现了技术原理到生产力的转化。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
根据文中案例，全量微调或大模型推理需高显存（如 65B 模型）
使用 QLoRA 技术微调 LLaMA-65B 仅需 48GB 显存
使用 GaLore 技术预训练 LLaMA-7B 可在单张 RTX 4090（24GB 显存）上运行
CUDA 版本未说明

内存

未说明

依赖

notes该项目主要是一个大模型（LLM）学习、训练、推理及优化的教程与代码合集，而非单一的可安装软件包。内容涵盖从 6B 到 65B 参数模型的实战，支持全量微调、高效微调（LoRA, QLoRA, P-Tuning v2 等）及 RLHF。具体环境依赖需参考各个子项目（如 alpaca-lora, chatglm, qlora 等）的独立代码库。文中特别提到了基于 Lab4AI 平台的 GPU 算力实践案例。

python未说明

DeepSpeed

HuggingFace PEFT

LoRA

QLoRA

P-Tuning v2

GPTQ

RLHF (DeepSpeed Chat)

GaLore

快速开始

:snail: LLM训练
- 🐫 LLM训练实战
- 🐼 LLM参数高效微调技术原理
- 🐰 LLM参数高效微调技术实战
- 🐘 LLM分布式训练并行技术
- 🌋 分布式AI框架
- 📡 分布式训练网络通信
- :herb: LLM训练优化技术
- :hourglass: LLM对齐技术
🐎 LLM推理
- 🚀 LLM推理框架
- ✈️ LLM推理优化技术
♻️ LLM压缩
- 📐 LLM量化
- 🔰 LLM剪枝
- 💹 LLM知识蒸馏
- ♑️ 低秩分解
:herb: LLM测评
- 🔯 LLM效果评测
- 🔘 LLM推理性能压测
:palm_tree: LLM数据工程
- :dolphin: LLM微调高效数据筛选技术
:cyclone: 提示工程
♍️ LLM算法架构
:jigsaw: LLM应用开发
🀄️ LLM国产化适配
🔯 AI编译器
🔘 AI基础设施
- :maple_leaf: AI加速卡
- :octocat: AI集群网络通信
💟 LLMOps
🍄 LLM生态相关技术
💹 LLM性能分析
:dizzy: LLM面试题
🔨 服务器基础环境安装及常用工具
💬 LLM学习交流群
👥 微信公众号
⭐️ Star History
:link: AI工程化课程推荐

大模型实验室Lab4AI普惠算力

基于大模型实验室的GPU算力实践

主题	实践	博客/视频
基于ComfyUI调用Flux文生图模型生成动漫风格图像	链接	链接
告别传统客服：三步骤，LLaMA-Factory零代码打造会订票的专属大模型	链接	链接
打造基于多模态AI的苏东坡数字人	链接	-
WeClone：从聊天记录创造数字分身的一站式解决方案	链接	链接
LightX2V 4步蒸馏模型：20倍速的高质量视频生成革命	链接	链接
基于Qwen3-8B的沉浸式苏东坡角色扮演大模型	链接	链接
LightLLM轻量化部署新范式，打造高性能法律智能体	链接	链接
RoboMIND——机器人多形态通用智能评测基准	链接	链接
经典论文复现：《Attention Is All You Need》	链接	链接
经典论文复现：《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》	链接	-

GPU算力优惠活动

资源不够用，来 Lab4AI 享 H800 GPU，用 H800 比 4090 还划算: 详情

算力福利

大模型实验室Lab4AI：免费领取50元GPU算力
大模型实验室群：点击加入

AI训练营

AI应用开发工程师技能 & 春招面试训练营：点击加入
斯坦福CS336 从零手搓大语言模型实战：点击加入
7天AI智能体全栈开发实战集训营：点击加入

LLM训练

大模型训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。

LLM	预训练/SFT/RLHF...	参数	教程	代码
Alpaca	full fine-turning	7B	从0到1复现斯坦福羊驼（Stanford Alpaca 7B）	配套代码
Alpaca(LLaMA)	LoRA	7B~65B	1.足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼 2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理	配套代码
BELLE(LLaMA/Bloom)	full fine-turning	7B	1.基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化 2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试	N/A
ChatGLM	LoRA	6B	从0到1基于ChatGLM-6B使用LoRA进行参数高效微调	配套代码
ChatGLM	full fine-turning/P-Tuning v2	6B	使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调	配套代码
Vicuna(LLaMA)	full fine-turning	7B	大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼	N/A
OPT	RLHF	0.1B~66B	1.一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇 2. 一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇	配套代码
MiniGPT-4(LLaMA)	full fine-turning	7B	大杀器，多模态大模型MiniGPT-4入坑指南	N/A
Chinese-LLaMA-Alpaca(LLaMA)	LoRA（预训练+微调）	7B	中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调	配套代码
LLaMA	QLoRA	7B/65B	高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香	配套代码
LLaMA	GaLore	60M/7B	突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B	配套代码

⬆ 一键返回目录

LLM微调技术原理

对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。

peft方法

大模型微调实战

下面给大家分享大模型参数高效微调技术实战，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。

教程	代码	框架
大模型参数高效微调技术实战（一）-PEFT概述及环境搭建	N/A	HuggingFace PEFT
大模型参数高效微调技术实战（二）-Prompt Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（三）-P-Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（四）-Prefix Tuning / P-Tuning v2	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（五）-LoRA	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（六）-IA3	配套代码	HuggingFace PEFT
大模型微调实战（七）-基于LoRA微调多模态大模型	配套代码	HuggingFace PEFT
大模型微调实战（八）-使用INT8/FP4/NF4微调大模型	配套代码	PEFT、bitsandbytes

⬆ 一键返回目录

LLM分布式训练并行技术

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。

而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。

下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。

⬆ 一键返回目录

分布式AI框架

PyTorch
- PyTorch 单机多卡训练
- PyTorch 多机多卡训练
Megatron-LM
- Megatron-LM 单机多卡训练
- Megatron-LM 多机多卡训练
- 基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理
DeepSpeed
- DeepSpeed 单机多卡训练
- DeepSpeed 多机多卡训练
Megatron-DeepSpeed
- 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练
- 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

待更新...

LLM训练优化技术

FlashAttention V1、V2
混合精度训练
重计算
MQA / GQA
梯度累积

LLM对齐技术

PPO（近端策略优化）
DPO
ORPO

⬆ 一键返回目录

LLM推理

推理引擎

迷你LLM推理引擎（非常适合源码学习）：

Nano-vLLM源码注释：从头开始构建的轻量级 vLLM 实现。
Mini-SGLang：一个轻量但高性能的大型语言模型推理框架，SGLang 的紧凑实现。

生产级LLM推理引擎：

vLLM
SGLang

其他推理引擎：

LMDeploy
LightLLM：纯Python开发的大语言模型推理和服务框架
MNN-LLM：基于MNN引擎开发的大型语言模型运行时解决方案
赤兔
mllm：端侧多模态LLM推理引擎

推理服务

LLM推理优化技术

LLM推理优化技术-概述
大模型推理优化技术-KV Cache
大模型推理服务调度优化技术-Continuous batching
大模型低显存推理优化-Offload技术
大模型推理优化技术-KV Cache量化
大模型推理优化技术-张量并行
大模型推理服务调度优化技术-Chunked Prefill
大模型推理优化技术-KV Cache优化方法综述
大模型吞吐优化技术-多LoRA推理服务
大模型推理服务调度优化技术-公平性调度
大模型访存优化技术-FlashAttention
大模型显存优化技术-PagedAttention
大模型解码优化-Speculative Decoding及其变体
大模型推理优化-结构化文本生成
Flash Decoding
FlashDecoding++

LLM压缩

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：

模型剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
模型量化（Quantization）
低秩分解（Low-Rank Factorization）

LLM量化

本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。

LLM稀疏化

万字长文谈深度神经网络剪枝综述

目前，大多数针对大模型模型的压缩技术都专注于模型量化领域，即降低单个权重的数值表示的精度。另一种模型压缩方法模型剪枝的研究相对较少，即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件，如权重矩阵的整行/列（结构化剪枝）。

本系列将针对一些常见大模型稀疏化方案（LLM-Pruner、SliceGPT、SparseGPT、Wanda等）进行讲述。

大模型稀疏化技术原理：概述
大模型稀疏化技术原理：Double Sparsity
大模型稀疏化技术原理：LLM-Pruner、SliceGPT
大模型稀疏化技术原理：SparseGPT、Wanda
大模型稀疏化技术原理：总结

结构化剪枝：

LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)
LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
LoSparse

非结构化剪枝：

SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)
LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)
Wanda(A Simple and Effective Pruning Approach for Large Language Models)
Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)

LLM知识蒸馏

大模型知识蒸馏概述

Standard KD:

使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。

MINILLM
GKD

EA-based KD:

不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。

In-Context Learning：

In-Context Learning distillation

Chain-of-Thought：

MT-COT
Fine-tune-CoT
DISCO
SCOTT
SOCRATIC CoT

Instruction Following：

Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。

在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。

ZeroQuant-FP（低秩分解+量化）
LoRAPrune（低秩分解+剪枝）

LLM测评

LLM效果评测

C-Eval：全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。
CMMLU：一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
LVEval：一个具备5个长度等级（16k、32k、64k、128k和256k）、最大文本测试长度达到256k的长文本评测基准。LV-Eval的平均文本长度达到102,380字，最小/最大文本长度为11,896/387,406字。LV-Eval主要有两类评测任务——单跳QA和多跳QA，共包含11个涵盖中英文的评测数据子集。LV-Eval设计时引入3个关键技术：干扰事实插入（Confusiong Facts Insertion，CFI）提高挑战性，关键词和短语替换（Keyword and Phrase Replacement，KPR）减少信息泄漏，以及基于关键词召回的评测指标（Answer Keywords，AK，指代结合答案关键词和字词黑名单的评价指标）提高评测数值客观性。
IFEval: Instruction Following Eval/Paper：专注评估大模型遵循指令的能力,包含关键词检测、标点控制、输出格式要求等25种任务。
SuperCLUE：一个综合性大模型评测基准，本次评测主要聚焦于大模型的四个能力象限，包括语言理解与生成、专业技能与知识、Agent智能体和安全性，进而细化为12项基础能力。
AGIEval：用于评估基础模型在与人类认知和解决问题相关的任务中的能力。该基准源自 20 项面向普通考生的官方、公开、高标准的入学和资格考试，例如：普通大学入学考试（例如：中国高考（Gaokao）和美国 SAT）、法学院入学考试、数学竞赛、律师资格考试、国家公务员考试。
OpenCompass：司南 2.0 大模型评测体系。
LongBench：一个双语（中英文）多任务基准数据集，旨在评估大语言模型的长上下文理解能力。它包含21个任务，涵盖单文档问答、多文档问答、摘要、小样本学习、合成任务和代码补全等。数据集平均任务长度范围为5k到15k，共包含4750个测试数据。LongBench 采用全自动评估方法，旨在以最低的成本衡量和评估模型理解长上下文的能力。
EvalScope：魔搭社区官方推出的模型评测与性能基准测试框架，专为多样化的模型评估需求而设计。它支持广泛的模型类型，包括但不限于大语言模型、多模态模型、Embedding 模型、Reranker 模型和 CLIP 模型。EvalScope还适用于多种评测场景，如端到端RAG评测、竞技场模式和模型推理性能压测等，其内置多个常用测试基准和评测指标，如MMLU、CMMLU、C-Eval、GSM8K等。

LLM推理性能压测

你真的搞懂了LLM性能压测的各项指标吗？
AIPerf：英伟达开源的性能测试工具
GuideLLM：vLLM开源的性能测试工具
EvalScope：魔搭社区开源的性能测试工具
Inference Perf
genai-bench：SGLang开源的性能测试工具
GenAI-Perf：英伟达开源的一个命令行工具（已逐渐被淘汰，建议使用AIPerf），用于测量通过推理服务提供生成式AI模型的吞吐量和延迟。GenAI-Perf 收集一组不同的指标来捕获推理服务的性能。

指标	描述	Aggregations
Time to First Token	请求发送到收到第一个响应之间的时间，基准测试中每个请求一个值	平均值、最小值、最大值、p99、p90、p75
Time to Second Token	收到第一个流式响应到收到第二个流式响应之间的时间，基准测试中每个请求一个值	平均值、最小值、最大值、p99、p90、p75
Inter Token Latency	单个请求的中间响应之间的时间除以后续响应生成的标记数，基准测试中每个请求的每个响应一个值	平均值、最小值、最大值、p99、p90、p75
Request Latency	请求发送到收到最终响应之间的时间，基准测试中每个请求一个值	平均值、最小值、最大值、p99、p90、p75
Output Sequence Length	一个请求的输出标记总数，基准测试中每个请求一个值	平均值、最小值、最大值、p99、p90、p75
Input Sequence Length	一个请求的输入标记总数，基准测试中每个请求一个值	平均值、最小值、最大值、p99、p90、p75
Output Token Throughput	基准测试中的总输出标记数除以基准测试持续时间	无——每个基准测试一个值
Request Throughput	基准测试中的最终响应数量除以基准测试持续时间	无——每个基准测试一个值

LLM数据工程

LLM Data Engineering

预训练语料处理技术

llm-pretrain-pipeline

数据收集
数据处理
- 去重
- 过滤
- 选择
- 组合

LLM微调高效数据筛选技术

提示工程

Zero-Shot Prompting
Few-Shot Prompting
Chain-of-Thought (CoT) Prompting
Automatic Chain-of-Thought (Auto-CoT) Prompting
Tree-of-Thoughts (ToT) Prompting

LLM算法架构

llm-famliy

大模型算法演进

llm-famliy

百川智能开源大模型baichuan-7B技术剖析
百川智能开源大模型baichuan-13B技术剖析
LLaMA3 技术剖析
大模型算法架构：DeepSeek技术演进及剖析
大模型算法架构：QWen技术演进及剖析
ChatGLM / ChatGLM2 / ChatGLM3 大模型解析
Bloom 大模型解析
LLaMA / LLaMA2 大模型解析
DeepSeek 视觉语言大模型技术演进（从DeepSeek VL/VL2到DeepSeek OCR）
Qwen3-Next

LLM应用开发

大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。

Agent应用

AI Assistant:

OpenClaw：一款个人 AI 助手

Code Agent:

OpenCode：一个开源代码智能体，项目文档

LLM国产化适配

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。

⬆ 一键返回目录

AI编译器

AI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。

框架：

MLIR
XLA
TVM

AI基础设施

AI加速卡

AI芯片技术原理剖析（一）：国内外AI芯片概述
AI芯片技术原理剖析（二）：英伟达GPU
AI芯片技术原理剖析（三）：谷歌TPU

AI集群

待更新...

AI集群网络通信

待更新...

分布式训练网络通讯原语
AI 集群通信软硬件

LLMOps

大模型生态相关技术

LLM性能分析

PyTorch Profiler
NVIDIA Nsight Systems
NVIDIA Nsight Compute

LLM面试题

正在收集中...

⬆ 一键返回目录

服务器基础环境安装及常用工具

基础环境安装：

常用工具：

LLM学习交流群

我创建了大模型相关的学习交流群，供大家一起学习交流大模型相关的最新技术，目前已有5个群，每个群都有上百人的规模，可加我微信进群（加微信请备注来意，如：进大模型学习交流群+GitHub，进大模型推理加速交流群+GitHub、进大模型应用开发交流群+GitHub、进大模型校招交流群+GitHub等）。一定要备注哟，否则不予通过。

PS：成都有个本地大模型交流群，想进可以另外单独备注下。

微信公众号

微信公众号：吃果冻不吐果冻皮，该公众号主要分享AI工程化（大模型、MLOps等）相关实践经验，免费电子书籍、论文等。

⬆ 一键返回目录

Star History

AI工程化课程推荐

如今人工智能的发展可谓是如火如荼，ChatGPT、Sora、文心一言等AI大模型如雨后春笋般纷纷涌现。AI大模型优势在于它能处理复杂性问题；因此，越来越多的企业需要具备AI算法设计、AI应用开发、模型推理加速及模型压缩等AI工程化落地的能力。这就导致行业内的工程师，需要快速提升自身的技术栈，以便于在行业内站稳脚跟。我在llm-resource 和 ai-system梳理了一些大模型和AI工程化相关资料。

llm-action 快速上手指南

llm-action 是一个专注于大语言模型（LLM）全链路技术的开源知识库与实战项目，涵盖从训练、微调、推理、压缩到评测的完整流程。本项目主要提供详细的教程文档、原理分析及配套代码示例，帮助开发者快速掌握 LLM 工程化落地技能。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本: Python 3.8 - 3.10。
GPU 硬件:
- 基础微调/推理：建议显存 ≥ 16GB (如 RTX 3090/4090)。
- 全量训练/大模型预训练：需要多卡环境或高性能计算集群 (如 A100/H800)。
前置依赖:
- CUDA Toolkit (版本需与 PyTorch 匹配，通常建议 11.7 或 12.1+)
- Git
- Conda 或 Miniconda (推荐用于环境管理)

提示：国内开发者推荐使用 Lab4AI 获取 GPU 算力支持，或使用国内镜像源加速依赖下载。

安装步骤

1. 克隆项目

首先将仓库克隆到本地：

git clone https://github.com/liguodongiot/llm-action.git
cd llm-action

2. 创建虚拟环境

使用 Conda 创建独立的 Python 环境：

conda create -n llm-action python=3.9
conda activate llm-action

3. 安装核心依赖

根据具体实践章节（如训练、推理或量化），项目提供了不同的代码目录。以通用的参数高效微调（PEFT）为例，安装基础深度学习框架：

使用国内镜像源加速安装：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets accelerate peft bitsandbytes -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：具体的代码示例位于 llm-train/ 等子目录下，部分示例可能包含独立的 requirements.txt，请进入对应目录后执行 pip install -r requirements.txt。

基本使用

llm-action 的核心价值在于其结构化的教程与对应的代码实现。以下是基于项目中 LoRA 微调 场景的最简使用流程。

1. 定位代码示例

进入 LoRA 微调相关的代码目录（以 ChatGLM-6B 为例）：

cd llm-train/chatglm-lora

2. 准备数据

确保你拥有格式化的训练数据（通常为 JSONL 格式），例如 data.json：

{"instruction": "解释一下量子纠缠", "input": "", "output": "量子纠缠是..."}

3. 运行微调脚本

项目中的脚本通常基于 HuggingFace transformers 和 peft 库编写。以下是一个典型的启动命令示例（具体参数请参考对应目录下的 README 或脚本注释）：

python train_lora.py \
    --model_name_or_path THUDM/chatglm-6b \
    --data_path data.json \
    --output_dir ./output/chatglm-lora \
    --num_train_epochs 3 \
    --per_device_train_batch_size 4 \
    --learning_rate 5e-4 \
    --lora_r 8 \
    --lora_alpha 32

4. 推理验证

微调完成后，使用生成的权重进行推理：

from transformers import AutoTokenizer, AutoModel
from peft import PeftModel

# 加载基座模型
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

# 加载 LoRA 权重
model = PeftModel.from_pretrained(model, "./output/chatglm-lora")

# 生成回答
inputs = tokenizer("量子纠缠是什么？", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

常见问题

LLM 微调实战中的代码链接显示文件不存在（404），代码在哪里？

没有 8 卡 H800/A100 等高端显卡配置，如何学习本课程？

项目中的数据集（如 peft/data 和 raft.py 涉及的数据）去哪里下载？

本地加载预训练模型进行 LoRA 微调时，非 target_modules 层的权重会自动冻结吗？推理时如何加载权重？

使用 LoRA 微调 ChatGLM 时，data_collector 函数中为什么没有处理 attention_mask？

如何申请将本项目内容转载到第三方教育平台？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

使用场景

没有 llm-action 时

使用 llm-action 后

运行环境要求

快速开始

目录

大模型实验室Lab4AI普惠算力

LLM训练

大模型训练实战

LLM微调技术原理

大模型微调实战

分布式AI框架

分布式训练网络通信

LLM训练优化技术

LLM对齐技术

推理引擎

推理服务

LLM推理优化技术

LLM压缩

LLM稀疏化

LLM知识蒸馏

低秩分解

LLM测评

LLM效果评测

LLM推理性能压测

LLM数据工程

预训练语料处理技术

LLM微调高效数据筛选技术

提示工程

LLM应用开发

Agent应用

AI基础设施

AI加速卡

AI集群

LLMOps

大模型生态相关技术

LLM性能分析

服务器基础环境安装及常用工具

LLM学习交流群

微信公众号

Star History

AI工程化课程推荐

llm-action 快速上手指南

环境准备

安装步骤

1. 克隆项目

2. 创建虚拟环境

3. 安装核心依赖

基本使用

1. 定位代码示例

2. 准备数据

3. 运行微调脚本

4. 推理验证

更多资源

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch