tiny-llm-zh
tiny-llm-zh 是一个专为中文大语言模型初学者打造的开源教育项目。它从零开始,完整复现了一个小参数量中文大模型的构建全过程,旨在降低大模型技术的学习门槛,帮助开发者快速理解从数据准备到模型部署的核心原理。
该项目主要解决了大模型领域“黑盒化”严重、入门资料分散且缺乏全流程实战代码的痛点。通过公开全部训练数据、分词器代码及训练脚本,tiny-llm-zh 清晰展示了分词、预训练、指令微调、人类对齐(RLHF/DPO)、评测及量化部署的完整链路。用户不仅可以下载现成模型进行体验,更能深入源码,亲手复现一个拥有 420 亿预训练 Token 和数百万条指令数据的模型训练过程。
tiny-llm-zh 特别适合希望深入理解大模型底层机制的开发者、研究人员以及高校学生。对于想要尝试大模型应用但受限于算力资源的团队,其提供的 16M 至 440M 等多种轻量级模型架构也是理想的实验对象。
在技术亮点上,项目基于主流 Transformer 架构,支持 RMSNorm、RoPE 等先进技术,并兼容 DeepSpeed 多机多卡训练、MoE(混合专家)架构以及 vLLM、llama.cpp 等高效推理框架。虽然受资源限制,其生成效果尚未达到商用级别,但作为一本“可运行的教科书”,它为中文大模型的学习与研究提供了极具价值的实践范本。
使用场景
某高校人工智能实验室的研究生团队希望从零开始掌握大语言模型的全流程开发,但受限于昂贵的算力资源和复杂的技术门槛,难以开展实质性训练。
没有 tiny-llm-zh 时
- 学习曲线陡峭:初学者面对庞大的开源代码库(如 Llama2 原版)往往无从下手,难以理解分词、预训练到人类对齐的完整链路。
- 算力成本高昂:训练一个具备中文能力的模型通常需要数十亿参数和海量数据,普通实验室的单卡或双卡环境根本无法承载。
- 数据准备困难:缺乏高质量的中文预训练语料和对齐数据集,自行清洗和构建 42B token 级别的数据集耗时耗力。
- 流程割裂:网上教程多只关注单一环节(如仅微调),缺乏从 Tokenizer 训练到最终量化部署的端到端实战案例。
使用 tiny-llm-zh 后
- 全流程打通:团队直接利用其公开的脚本,在本地显卡上完整跑通了“分词->预训练->指令微调->人类对齐->部署”的闭环,直观理解每个阶段的作用。
- 低资源启动:借助 92M 等小参数量架构,仅需消费级显卡即可在数小时内完成训练实验,极大降低了试错成本。
- 数据开箱即用:直接复用项目公开的 10G 中文百科文本及数百万条指令/奖励数据,省去了数月数据清洗工作,立即进入模型调优阶段。
- 架构灵活扩展:基于 Transformers 和 DeepSpeed 的标准化实现,让团队成员能轻松尝试修改 MLP 层为 MoE 架构,深入探索前沿技术细节。
tiny-llm-zh 将大模型研发从“仰望星空”变为“脚踏实地”,成为中文社区入门大模型全栈开发的最佳实践教材。
运行环境要求
- Linux
- macOS
- Windows
- 训练必需:NVIDIA GPU,支持多机多卡,推荐 CUDA 11.4+(vLLM 部署需 CUDA 12+)
- 推理可选 CPU 或 GPU
- 显存大小未明确说明,取决于模型尺寸(92M-1.5B)
未说明

快速开始
微小LLM zh
1.简介
本项目旨在构建一个小参数量的中文语言大模型,用于快速入门学习大模型相关知识,如果此项目对你有用,可以点一下start,谢谢!
模型架构:整体模型架构采用开源通用架构,包括:RMSNorm,RoPE,MHA等
实现细节:实现大模型两阶段训练及后续人类对齐,即:分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 量化 -> 部署。
项目已部署,可以在如下网站上体验。
项目特点:
- 公开全部数据及代码,包括预训练数据,tokenizer等;(Tiny LLM Datasets)
- 走通大模型整个流程:分词(Tokenizer) -> 预训练(PTM) -> 指令微调(SFT) -> 人类对齐(RLHF, DPO) -> 测评 -> 部署;
- 公开预训练token 42B,SFT数据400w条,RL数据 17w条;
- 训练 Tokenizer:10G 中文百科文本训练 20K 中文词表,与 Llama2 词表合并,构建Tiny LLM词表;
- 使用 Transformers deepspeed 进行训练,支持多机多卡,支持 Zero 等优化技术;
- 所有代码
Bash脚本启动,支持不同大小的模型,如16m, 42m, 92m, 210m, 440m等; - 支持 MoE 架构,在 tiny_llm_moe 支持最新共享专家,平衡专家等技术;
- 支持 vLLM 推理框架;
- 支持 llama.cpp 推理框架;
本项目主要有三个分支,推荐学习 主分支,具体区别如下:
- llama2_torch : 模型架构采用原版 Llama2 架构,只是将部分的输入输出修改为适合训练的格式;
maintiny_llm: 对齐开源社区模型,使用Transformers库构建底层模型,也使用Transformers库进行多卡多机训练;- tiny_llm_moe : 在
tiny_llm的基础上,修改MLP层为MoE模型,使用Transformers库进行多卡多机训练。
注意:
- 因资源限制,本项目的第一要务是走通大模型整个流程,而不是调教比较好的效果,故评测结果分数较低,部分生成错误。
- 详细的数据处理,训练过程见
doc文件夹(正在整理。。。)
2.快速开始
模型已托管在 Huggingface 和 ModeScope 中,可运行代码自动下载。
建议使用 Huggingface 在线加载模型,如果运行不了,在试 ModeScope ;如果需要本地运行,修改model_id中的路径为本地目录,即可运行。
依赖安装
- python 3.8 and above
- pytorch 2.0 and above
- transformers 4.37.2 and above
- CUDA 11.4 and above are recommended. (if training)
pip install -r requirements.txt
🤗 HuggingFace
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers.generation import GenerationConfig
model_id = "wdndev/tiny_llm_sft_92m"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", trust_remote_code=True)
generation_config = GenerationConfig.from_pretrained(model_id, trust_remote_code=True)
sys_text = "你是由wdndev开发的个人助手。"
# user_text = "世界上最大的动物是什么?"
# user_text = "介绍一下刘德华。"
user_text = "介绍一下中国。"
input_txt = "\n".join(["<|system|>", sys_text.strip(),
"<|user|>", user_text.strip(),
"<|assistant|>"]).strip() + "\n"
generation_config.max_new_tokens = 200
model_inputs = tokenizer(input_txt, return_tensors="pt").to(model.device)
generated_ids = model.generate(model_inputs.input_ids, generation_config=generation_config)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
🤖 ModeScope
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_id = "wdndev/tiny_llm_sft_92m"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", trust_remote_code=True)
sys_text = "你是由wdndev开发的个人助手。"
# user_text = "世界上最大的动物是什么?"
# user_text = "介绍一下刘德华。"
user_text = "介绍一下中国。"
input_txt = "\n".join(["<|system|>", sys_text.strip(),
"<|user|>", user_text.strip(),
"<|assistant|>"]).strip() + "\n"
model_inputs = tokenizer(input_txt, return_tensors="pt").to(model.device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=200)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
生成效果
问:世界上最大的动物是什么?
答:目前已知最大的动物是蓝鲸(Balaenoptera musculus),这是一个庞大的哺乳动物,属于须鲸亚目、须鲸科中的最大物种。蓝鲸的身长可达30米以上,体重可达175吨。它们在海洋中生活,主要以浮游生物为食,如甲壳类动物和小型鱼类等。由于其巨大的体型和复杂的生态群落,蓝鲸成为海洋旅游的热门景点之一。
问:介绍一下刘德华。
答:刘德华是一位香港流行歌手、演员和导演,他在音乐界的贡献非常巨大。他是华语乐坛历史上最伟大的艺人之一,代表作品包括《爱我身体》和《肥皂泡》。他也经常参演电影和电视剧,并在电视上受到好评。
问:介绍一下中国。
答:中国是位于东亚的大陆,被欧洲以及亚洲和其他大陆所包围。它是中国第二大文明和世界上最大的经济体之一。中国的历史可以追溯到公元前5000年左右,从古至今都有其独特的文化和语言传承者。
3.模型
3.1 Tokenizer
LLM分词器的构建方式有两种:一种是自己构造词表,训练一个分词器;另一种是选择开源模型训练好的分词器。
本项目为了方便,从优秀的开源项目中选择词表,考虑到训练的模型较小,且词表大小影响模型大小,故优先选择词表较小的开源项目;经过比较,最终选择 ChatGLM3 的词表,该词表大小为 64798 。
自己构造词表方式见 tokenizer,扩充 LLaMA2的32K词表为50K,增加20K中文词表,详细扩充方式见文档或tokenizer/README.md.
注意:本项目使用的ChatGLM3的词表。
3.2 模型结构
模型结构采用类Llama2的结构,具体包括:RMSNorm,RoPE,MHA等;
3.3 模型尺寸
具体参数细节如下所示:
| model | hidden size | intermediate size | n_layers | n_heads | max context length | params | vocab size |
|---|---|---|---|---|---|---|---|
| tiny-llm-16m | 120 | 384 | 6 | 6 | 512 | 16M | 64798 |
| tiny-llm-42m | 288 | 768 | 6 | 6 | 512 | 42M | 64798 |
| tiny-llm-92m | 512 | 1024 | 8 | 8 | 1024 | 92M | 64798 |
| tiny-llm-210m | 768 | 2048 | 16 | 12 | 1024 | 210M | 64798 |
| tiny-llm-440m | 1024 | 2816 | 24 | 16 | 1024 | 440M | 64798 |
| tiny-llm-1_5b | 2048 | 5504 | 24 | 16 | 1024 | 1.5B | 64798 |
3.4 模型评估
因训练数据和微调数据,大部分都是中文数据,所以在C-Eval和CMMLU这两个数据集上进行模型的评估;使用OpenCompass工具,进行模型评估,评估分数如下所示:
| model | Type | C-Eval | CMMLU |
|---|---|---|---|
| tiny-llm-92m | Base | 23.48 | 25.02 |
| tiny-llm-92m | Chat | 26.79 | 26.59 |
Base模型,采用评测方式 ppl 方式进行评测;Chat模型,采用 gen 方式评测。具体区别如下图所示:

注意:只对常用的两个模型进行了评测,分数较低,其余模型评测意义不大。
4.模型部署
4.1 网页Demo
网页Demo已部署,可以在如下网站上体验:ModeScope Tiny LLM
如果想在本地运行网页Demo,注意修改 web_demo.py 文件中模型的路径model_id,输入如下命令即可运行:
streamlit run web_demo.py

4.2 Transformers
Transfomers 框架部署,位于 demo/infer_chat.py 和 demo/infer_func.py 文件中,和其他LLM运行无太大区别,注意输入的拼接即可。
4.3 FastAPI
4.4 vllm
vllm 的详细部署请参见 vllm。
如果使用 CUDA 12 及以上版本和 PyTorch 2.1 及以上版本,可以直接运行以下命令安装 vLLM:
pip install vllm==0.4.0
否则,请参考 vLLM 官方的 安装说明。
安装完成后,还需要进行以下操作:
- 将
vllm/tinyllm.py文件复制到与当前环境对应的vllm/model_executor/models目录下。 - 然后在
vllm/model_executor/models/__init__.py文件中添加一行代码:
"TinyllmForCausalLM": ("tinyllm", "TinyllmForCausalLM"),
由于模型结构是自定义的,vLLM 官方尚未实现,因此需要手动添加。
4.5 llama.cpp
llama.cpp 的详细部署请参见 llama.cpp。
Tiny LLM 92M 模型已支持 llama.cpp C++ 推理框架,建议在 Linux 环境下测试,Windows 上的效果不佳。
目前支持的 llama.cpp 是经过修改的版本,仓库链接为: llama.cpp.tinyllm。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。