Steel-LLM

797 77 中等 1 次阅读 2天前语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Steel-LLM 是一个由个人发起并完全开源的中文大语言模型预训练项目，旨在证明在有限资源下也能从零构建高质量的 AI 模型。该项目使用约 1T token 的海量中文数据，成功训练出一个参数量约为 1B 的模型，在 C-Eval 和 CMMLU 等权威中文评测基准上取得了优于部分机构早期大模型的成绩。

Steel-LLM 主要解决了普通开发者和研究人员难以复现大模型全流程训练的痛点。它详细公开了从数据收集、清洗处理、框架选型到模型架构设计的完整技术路径，并开源了全部代码。这使得拥有 8 至几十张显卡的个人或小团队，也能基于此方案复现训练过程，降低了大模型研发的门槛。

该工具特别适合对大模型底层原理感兴趣的研究人员、希望掌握全链路训练技术的开发者，以及教育资源有限的学术团队。其独特亮点在于采用了创新的模型架构，如在 FFN 层使用 Softmax MoE 以提升训练效率，并结合双层 SwiGLU 结构优化性能。此外，项目灵感源于“土法炼钢”精神，展示了如何在非工业级条件下通过精细化运作打造出实用的“好钢”，为社区提供了极具参考价值的实践范本。

使用场景

某独立开发者希望为中文垂直领域（如法律或医疗）构建专属大模型，但受限于预算仅拥有 8 张消费级显卡，无法承担商业大模型的微调成本或从头训练的资源消耗。

没有 Steel-LLM 时

资源门槛过高：从零训练一个具备基础中文能力的模型通常需要数百张 A100/H800 显卡，个人开发者只能望而却步，被迫依赖闭源 API。
数据清洗黑盒：缺乏高质量的中文预训练语料处理流程，自行收集的数据噪声大、格式乱，导致模型训练效果极差。
技术复现困难：开源社区多聚焦于超大参数模型，缺少针对中小算力环境优化的完整训练框架和断点续训支持，实验极易中断。
基座能力不足：直接使用参数量过小的随机初始化模型，其中文理解与逻辑推理能力薄弱，难以通过微调达到可用标准。

使用 Steel-LLM 后

低成本从零起步：利用 Steel-LLM 开源的 1B 参数架构及适配 8~几十张卡的训练方案，成功在有限算力下完成了 1T token 的全量预训练。
复用成熟数据管线：直接采纳项目公开的 Skywork、WanJuan 等高质量中文数据集处理脚本，快速构建了纯净的预训练语料库。
全流程透明可控：依托详细的代码开源与断点续训功能，开发者能灵活调整 MoE 结构与 SwiGLU 激活函数，稳步迭代出多个检查点版本。
基准表现优异：基于该基座微调后的模型在 C-Eval 评测中达到 42 分，中文语境下的专业问答能力显著优于同量级的早期机构模型。

Steel-LLM 证明了个人开发者在有限算力下，也能通过透明的全流程复现，炼出具备高可用性的中文大模型“好钢”。

运行环境要求

操作系统

未说明

GPU

训练必需：8x H800 (80GB) 或 8x A100 (80GB)
推理未明确指定最低要求，但建议使用支持自动设备映射的高显存 NVIDIA GPU

内存

未说明

依赖

notes该项目主要面向大规模预训练场景，官方提供的硬件需求为训练环境（8卡 H800 需约 30 天，8卡 A100 需约 60 天），存储需求为 4TB。模型基于 Qwen1.5 架构修改（使用 Softmax MoE 和双层 SwiGLU），Tokenizer 复用 Qwen1.5-MoE-A2.7B-Chat。快速使用示例展示了通过 ModelScope 加载模型进行推理的方法。

python未说明

torch

transformers

modelscope

data-juicer

wandb

快速开始

开源中文预训练语言模型Steel-LLM

[ 中文 | English ]

👋 介绍

Steel-LLM是个人发起的从零预训练中文大模型项目。我们使用了1T token的数据预训练一个1B左右参数量的中文LLM。项目从开始到微调出第一版模型耗时了8个月。我们详细的分享了数据收集、数据处理、预训练框架选择、模型设计等全过程，并开源全部代码。让每个人在有8~几十张卡的情况下都能复现我们的工作。得益于开源中文数据，Steel-LLM在中文benchmark上表现优于机构早期发布的一些更大的模型，在ceval达到了42分，cmmlu达到了36分。

"Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店（万青）”。乐队在做一专的时候条件有限，自称是在“土法炼钢”，但却是一张神专。我们训练LLM的条件同样有限，但也希望能炼出好“钢”来。

🔔 公告

更新

后续会在数学能力、强化学习、复杂推理等方面进一步探索......

[2025/3/10] 发布了一篇强化学习相关博客：《拒绝采样微调加速RL收敛及模型遗忘问题探究》：https://mp.weixin.qq.com/s/Qk4bN6yFkI39Ye9fsS4NXA

[2025/3/6] 🎉🎉🎉《Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM》被ICLR 2025 workshop 接收

[2025/2/13] 上传了技术报告：https://arxiv.org/abs/2502.06635

[2025/1/17] 更新steel-LLM-chat-v2,微调时加入了英文数据，中英文数据比例和预训练保持一致，最终在ceval上由38分提高到了41.9分，cmmlu从33分提高到了36分。

[2024/11/13] 🔥发布一篇项目汇总文章《个人从零预训练1B LLM心路历程》：https://mp.weixin.qq.com/s/POUugkCNZTzmlKWZVVD1CQ🔥

[2024/10/28]更新了第一版chat模型，在ceval达到了38分，cmmlu达到了33分。

[2024/10/24]发布了Steel-LLM微调和评估的细节。微调时探索了cot、模型刷榜等实验。博客地址：https://mp.weixin.qq.com/s/KK0G0spNw0D9rPUESkHMew

[2024/9/2] HuggingFace更新了480k、660k、720k、980k、1060k（最后一个checkpoint）step的checkpoint。

[2024/8/18] 预训练已经完成，后续进行微调以及评测

[2024/7/18] 使用8*H800继续训练，wandb：https://api.wandb.ai/links/steel-llm-lab/vqf297nr

[2024/6/30] 放出预训练200k个step的checkpoint，huggingface链接

[2024/5/21] 模型开启正式训练，后续不定期放出checkpoint。

[2024/5/19] 基于Qwen1.5完成模型修改，模型大小1.12B：

FFN层使用softmax moe，相同参数量下有更高的训练速度
使用双层的SwiGLU

[2024/5/5] 预训练程序修改相关的博客：https://zhuanlan.zhihu.com/p/694223107

[2024/4/24] 完成训练程序改进：兼容Hugginface格式模型、支持数据断点续训、支持追加新的数据

[2024/4/14] 完成数据收集与处理，生成预训练程序所需要的bin文件。更新数据收集与处理相关的博客：https://zhuanlan.zhihu.com/p/687338497

🧑‍🤝‍🧑 交流

欢迎加入交流群,人数已超过200，添加微信入群：a1843450905

🤖 预训练

数据收集

使用的数据集和链接如下所示，更详细的介绍见此篇文章

数据处理

(详细内容见此篇文章)

step1：格式转化

源数据：针对4类数据进行格式统一的转化处理：
- 简单文本：百度百科（title和各段落需要手动合并）、中文维基
- 对话（含单轮与多轮）：百度百科问答数据、BELLE对话数据（BELLE_3_5M）、moss项目对话数据、知乎问答数据、BELLE任务数据（BELLE_2_5M)、firefly1.1M
- 代码数据：starcode
- 其他数据：wanjuan和skypile数据集不用做单独处理
目标格式：{"text": "asdfasdf..."}，文件保存为.jsonl类型。
运行方式：python data/pretrain_data_prepare/step1_data_process.py

step2：data-juicer数据处理

运行方式：sh data/pretrain_data_prepare/step2/run_step2.sh
具体使用的data juicer算子见此文档。

step3：生成最终用于训练的bin格式

需要先在代码中修改filename_sets，指定数据路径，然后运行如下程序：

python pretrain_modify_from_TinyLlama/scripts/prepare_steel_llm_data.py

输入数据格式为：包含'text'字段的jsonl文件

tokenizer

不单独训练tokenizer，使用Qwen/Qwen1.5-MoE-A2.7B-Chat的tokenizer

模型结构

(详细内容见此篇文章)

基于Qwen1.5模型，进行了如下改动：

FFN层使用softmax moe，相同参数量下有更高的训练速度
使用双层的SwiGLU

预训练框架

(详细内容见此篇文章)

基于TinyLlama预训练程序进行如下改进：

兼容HuggingFace格式的模型
加载checkpoint时，完全恢复数据训练的进度
数据一致性检测
在不影响已训练数据的情况下，在数据集中追加新的数据

启动预训练：

python Steel-LLM/pretrain_modify_from_TinyLlama/pretrain/pretrain_steel_llm.py

评估

(详细内容见此篇文章)

Steel-LLM在CEVAL、CMMLU上进行了测试。Steel-LLM旨在训练一个中文LLM，80%的训练数据都是中文，因此在英文benchmark并未做过多的测试。其他模型的指标来自于CEVAL论文、MiniCPM技术报告、MAP-Neo技术报告等途径。更多模型的指标可查看之前的博客

	CEVAL	CMMLU
Steel-LLM-chat-v2	41.90	36.08
Steel-LLM-chat-v1	38.57	33.48
Tiny-Llama-1.1B	25.02	24.03
Gemma-2b-it	32.3	33.07
Phi2(2B)	23.37	24.18
Deepseek-coder-1.3B-instruct	28.33	27.75
CT-LLM-SFT-2B	41.54	41.48
MiniCPM-2B-sft-fp32	49.14	51.0
Qwen1.5-1.8B-Chat	56.84	54.11
ChatGLM-6B	38.9	-
Moss	33.1	-
LLAMA-65B	34.7	-
Qwen-7B	58.96	60.35
Gemma-7B	42.57	44.20
OLMo-7B	35.18	35.55
MAP-NEO-7B	56.97	55.01

⛏️ 快速使用

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "zhanshijin/Steel-LLM"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "你是谁开发的"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

硬件资源

GPU：8* H800 80G（训练30天左右）

GPU：8* A100 80G（训练60天左右）

硬盘：4TB

引用

BibTeX:

@article{gu2025steel,
  title={Steel-LLM: 从零开始到开源——构建以中文为中心的大模型的个人历程},
  author={Gu, Qingshui and Li, Shu and Zheng, Tianyu and Zhang, Zhaoxiang},
  journal={arXiv预印本 arXiv:2502.06635},
  year={2025}
}

Steel-LLM 快速上手指南

Steel-LLM 是一个从零预训练的开源中文大语言模型项目（约 1B 参数），在中文基准测试（CEVAL/CMMLU）中表现优异。本指南将帮助您快速部署并使用该模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
Python: 3.8 或更高版本
GPU: 推理建议显存 ≥ 8GB (训练需多卡集群，如 8×H800 或 8×A100)
前置依赖:
- torch (支持 CUDA)
- transformers
- modelscope (推荐使用 ModelScope 获取国内加速下载)

安装基础依赖命令：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install modelscope transformers accelerate

安装步骤

Steel-LLM 无需复杂的源码编译，直接通过 Python 库加载即可。推荐使用 ModelScope 进行模型下载，以获得更快的国内访问速度。

若需手动下载模型文件，可访问：

ModelScope: zhanshijin/Steel-LLM
Hugging Face: gqszhanshijin/Steel-LLM

基本使用

以下是最简单的推理示例，展示如何加载模型并进行对话。代码默认使用 modelscope 库自动下载并加载模型。

from modelscope import AutoModelForCausalLM, AutoTokenizer

# 指定模型名称 (ModelScope ID)
model_name = "zhanshijin/Steel-LLM"

# 加载模型和分词器
# device_map="auto" 会自动将模型映射到可用的 GPU 上
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 构建输入提示
prompt = "你是谁开发的"
messages = [
    {"role": "user", "content": prompt}
]

# 应用聊天模板
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

# 编码输入
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成回复
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)

# 解码输出 (去除输入部分，仅保留新生成的内容)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

运行说明：

首次运行时，脚本会自动从 ModelScope 下载模型权重（约 2-3GB），请确保网络连接通畅。
若本地已下载模型，可将 model_name 替换为本地文件夹路径。
该模型针对中文场景优化，建议使用中文提示词以获得最佳效果。

常见问题

预训练数据处理时，是将每条数据单独 Pad 到最大长度，还是将多条数据 Concat 拼接后处理？

框架是否支持针对不同数据来源设置不同的采样率（如上采样高质量数据、下采样低质量数据）？

是否支持针对不同类别的数据观测独立的 Loss（channel_loss）？

CEval 和 CMMU 评估使用了多少 Shot？是否有推荐的评估库？

W&B (Weights & Biases) 报告链接失效或无法访问怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架