GLM-130B
GLM-130B 是一款由清华大学团队开源的双语(中英文)预训练大语言模型,拥有高达 1300 亿参数。它旨在解决超大规模模型通常难以在单台服务器上高效运行的痛点,让科研机构和开发者无需依赖昂贵的巨型集群即可进行推理和研究。
这款模型特别适合人工智能研究人员、算法工程师以及希望探索大模型能力的开发者使用。其核心亮点在于卓越的性价比与兼容性:仅需单台配备 8 张 A100 或 V100 显卡的服务器,甚至通过 INT4 量化技术后在 4 张 RTX 3090 上,就能流畅运行且几乎不损失性能。在能力方面,GLM-130B 在中英文理解与生成任务上表现优异,多项基准测试成绩超越了 GPT-3 175B、OPT 及 BLOOM 等同量级模型。此外,它还支持多种硬件平台(包括华为昇腾、海光等),并提供了完整的代码与权重以确保结果可复现,是进行大模型二次开发、评测及学术研究的理想基座。
使用场景
某跨国电商企业的技术团队需要构建一个能同时处理中英文用户评论的情感分析与自动回复系统,以应对大促期间激增的多语言客服需求。
没有 GLM-130B 时
- 硬件门槛极高:部署同等量级的双语模型通常需要多台高端 GPU 服务器集群,中小团队难以承担昂贵的算力成本。
- 中英能力割裂:往往需要分别维护英文和中文两套独立模型,导致系统架构复杂,且跨语言语境下的理解准确率低下。
- 推理延迟严重:在单卡或低显存环境下无法运行大参数模型,响应速度慢,无法满足实时互动的业务要求。
- 复现与调优困难:缺乏开源的双语基座,团队需从零预训练或依赖闭源 API,数据隐私难保障且效果不可控。
使用 GLM-130B 后
- 单机即可部署:凭借 INT4 量化技术,GLM-130B 能在单台配备 4 张 RTX 3090 的服务器上流畅运行,大幅降低了硬件投入。
- 原生双语优势:模型天然支持中英文混合输入,在零样本(Zero-shot)测试中,其中文理解能力显著超越同类竞品,无需额外拼接模型。
- 推理速度倍增:结合 FasterTransformer 加速库,GLM-130B 在单 A100 服务器上实现了高达 2.5 倍的推理提速,轻松应对高并发请求。
- 完全自主可控:基于开源代码和权重,团队可轻松复现论文中的 30+ 项任务效果,并根据业务数据微调,确保数据安全与效果最优。
GLM-130B 通过极致的量化效率与卓越的双语性能,让中小企业也能以低成本拥有媲美顶级大厂的大模型服务能力。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 推荐配置:8x A100 (40GB) 或 8x V100 (32GB)
- 量化后可用:4x RTX 3090 (24GB, INT4) 或 8x RTX 2080 Ti (11GB, INT4)
- 需 CUDA 11+
未说明(建议系统内存充足以加载高达 260GB 的模型检查点,推荐使用 SSD 或 RAM 磁盘)

快速开始
🌐 博客 • ⏬ 下载模型 • 🪧 演示 • ✉️ 电子邮件 • 📃 论文 [ICLR 2023]
💬 Google群组(更新)或 微信群或 Slack频道(讨论)
GLM-130B:一个开源的双语预训练模型
GLM-130B是一个拥有1300亿参数的开源双语(英语和中文)双向密集型模型,基于通用语言模型(GLM)算法进行预训练。它旨在支持在单台A100(40G * 8)或V100(32G * 8)服务器上以1300亿参数进行推理任务。通过INT4量化,硬件需求可以进一步降低到单台配备4张RTX 3090(24G)的服务器,且性能几乎无损失。截至2022年7月3日,GLM-130B已在超过4000亿个文本标记上进行了训练(中英文各2000亿),并具备以下独特特性:
- 双语支持: 同时支持英语和中文。
- 英文性能: 在LAMBADA任务上优于GPT-3 175B(+4.0%)、OPT-175B(+5.5%)和BLOOM-176B(+13.0%);在MMLU任务上略胜于GPT-3 175B(+0.9%)。
- 中文性能: 在7个零样本CLUE数据集上显著优于ERNIE TITAN 3.0 260B(+24.26%),在5个零样本FewCLUE数据集上也大幅领先(+12.75%)。
- 快速推理: 支持在SAT和FasterTransformer框架下进行快速推理(速度最高可提升2.5倍),仅需一台A100服务器。
- 可复现性: 所有结果(30多个任务)均可通过开源代码和模型检查点轻松复现。
- 跨平台支持: 支持在NVIDIA、海光DCU、昇腾910以及神威平台上进行训练和推理(即将发布)。
本仓库主要关注GLM-130B的评估工作。如果您认为我们的工作及开源努力有所帮助,请为该项目点赞⭐️,以鼓励我们继续开发! :)
最新动态
- [2023.06.25] 发布ChatGLM2-6B,这是ChatGLM-6B的升级版本,引入了更强的性能(MMLU提升23%,CEval提升33%,GSM8K提升571%,BBH提升60%)、更长的上下文长度(从ChatGLM-6B的2K提升至32K,并在对话对齐过程中使用8K的上下文长度进行训练),以及更高效的推理(官方实现下速度提升42%;6GB显存支持的对话长度从1K增加到8K)。更多详情请参阅ChatGLM2-6B。
- [2023.06.14] 我们发布了研究项目WebGLM,该工具能够实现高效且准确的网页增强型问答。所有代码和数据均已公开!
- [2023.03.14] 我们很高兴推出ChatGLM,一款基于GLM-130B的双语对话语言模型,以及其开源版本ChatGLM-6B,后者仅需6GB显存即可运行!
- [2023.01.21] GLM-130B已被ICLR 2023接收!
- [2022.10.06] 我们关于GLM-130B的论文正式发表!
- [2022.08.24] 我们自豪地发布了GLM-130B的量化版本。在保持激活精度为FP16的同时,模型权重可被量化至INT4,且性能几乎无损,从而将GLM-130B的硬件需求进一步降低到单台配备4张RTX 3090(24G)的服务器!详细信息请参阅GLM-130B量化说明。
如需更小规模的模型,请参阅单语GLM(英语:10B/2B/515M/410M/335M/110M,中文:10B/335M)以及1B多语种GLM(104种语言)。
快速入门
环境搭建
硬件
| 硬件 | GPU 显存 | 量化 | 权重卸载 |
|---|---|---|---|
| 8 * A100 | 40 GB | 无 | 无 |
| 8 * V100 | 32 GB | 无 | 是(BMInf) |
| 8 * V100 | 32 GB | INT8 | 无 |
| 8 * RTX 3090 | 24 GB | INT8 | 无 |
| 4 * RTX 3090 | 24 GB | INT4 | 无 |
| 8 * RTX 2080 Ti | 11 GB | INT4 | 无 |
建议使用 A100(40G × 8)服务器,因为报告的所有 GLM-130B 评估结果(约 30 个任务)都可以在一台 A100 服务器上轻松复现,耗时约半天。通过 INT8/INT4 量化,在单台配备 4 张 RTX 3090(24G)的服务器上即可实现高效推理,详情请参阅 GLM-130B 的量化。结合量化与权重卸载技术,GLM-130B 甚至可以在显存更小的服务器上进行推理,详情请参阅 低资源推理。
软件
GLM-130B 的代码构建于 SAT 之上。我们建议使用 Miniconda 来管理环境,并通过 pip install -r requirements.txt 安装额外依赖。以下是推荐的环境配置:
- Python 3.9+ / CUDA 11+ / PyTorch 1.10+ / DeepSpeed 0.6+ / Apex(需要安装 CUDA 和 C++ 扩展,请参阅 此处)
- 进行量化时需使用 SwissArmyTransformer≥0.2.11
模型权重
从这里下载 GLM-130B 的模型检查点,确保完整下载全部 60 个分块,然后使用以下命令将其合并为一个归档文件并解压:
cat glm-130b-sat.tar.part_* > glm-130b-sat.tar
tar xvf glm-130b-sat.tar
将 configs/model_glm_130b.sh 中的 CHECKPOINT_PATH 设置为解压后文件夹的路径。由于检查点文件大小可达 260G,建议使用 SSD 或 RAM 盘以缩短加载时间。我们发布的检查点采用 8 路张量并行,若需更改张量并行维度,还提供了转换脚本:
python tools/convert_tp.py \
--input-folder <SRC_CKPT_PATH> \
--output-folder <DST_CKPT_PATH> \
--target-tp <TARGET_TP>
从左到右生成 / 填空
bash scripts/generate.sh --input-source interactive
你也可以通过 --input-source input.txt 指定输入文件。
GLM-130B 使用两种不同的掩码标记:[MASK] 用于短文本填空,而 [gMASK] 则用于从左到右的长文本生成。当输入中不包含任何 MASK 标记时,[gMASK] 会自动附加到文本末尾。
从左到右生成示例
示例 1
输入:Who is the greatest artist? The greatest artist is [gMASK]
输出:Who is the greatest artist? The greatest artist is not the one who paints the most beautiful picture, or writes the best poem, or plays the best symphony. The greatest artist is the one whose work has the greatest impact on the lives of others. The Greatest Artist is the artist who inspires us to be our best selves. The Great Artist is not the artist whose work is flawless. The great artist is not one who is perfect. The true great artist has the ability to make us feel something. The artist who makes us feel is the great artist. The art of the great artists is to make you feel something that you have never felt before. The greatness of an artist is in the ability of their work to touch the lives and hearts of others, and to make them feel something they have never experienced before. This is the true greatness of the artist. 2. The Significance of the Great Artist The significance of the greatest artist cannot be overstated. The significance and impact of the art of a great artist cannot even be measured. The impact of a single work of art can change the course of history. A single work can change a person’s life. A work of great art can make you laugh, make you cry, make your heart race, or make you think. A great work of artistic expression has the power to change the way you look at the world. The work of a truly great artist can change your life forever. 3. The Impact of the Greatest Artist The greatest artists have the ability and the power of their art to change people’s lives. They have the power and the ability, through their art, to make people feel something new. The power of the work of the truly great artists cannot be measured, but it can be felt. The greater the impact of an artists work, the greater the power it has to change lives. 4. The Influence of the Art of the Artist The art and the work created by the greatest artists has the potential to change a life. The influence of the artists work cannot be quantified, but is felt by those who experience it. The truly great work has an ability to touch people’ lives in a way that no other work can.
示例 2(中文)
输入:问题:冬天,中国哪座城市最适合避寒?问题描述:能推荐一些国内适合冬天避寒的城市吗?回答用户:旅游爱好者 回答: [gMASK]
输出:问题:冬天,中国哪座城市最适合避寒?问题描述:能推荐一些国内适合冬天避寒的城市吗?回答用户:旅游爱好者 回答:避寒的话,建议去海南三亚。 三亚位于海南岛的最南端,是中国最南部的热带滨海旅游城市,中国海滨城市,是中国空气质量最好的城市、全国最长寿地区(平均寿命80岁)。三亚市别称鹿城,又被称为"东方夏威夷",位居中国四大一线旅游城市"三威杭厦"之首,拥有全岛最美丽的海滨风光。三亚拥有被无数城市嫉妒的清新空气,柔和海滩。在沙滩悠闲散步、沐浴傍晚温和阳光,在海边玩耍,在雨林里面呼吸健康,欣赏自然奇观,一切都是那么令人享受。 气候 三亚地处热带,属热带季风气候区域,终年气温高,寒暑变化不大,年平均气温25.5度。三亚最热的月份是6月,平均气温为28.5°C,极端最高气温为35.7°C ,三亚没有明显的冬季,而且冬季更是到海滨旅游的最好时候,所以三亚是全年全天候避寒、消暑、度假、旅游的好地方。不过,三亚最旺的旅游时间是从10月份到农历春节,这个时候的人特别多,房间也不好订,建议最好避开高峰。三亚的三个旅游高峰期是"五一"、"十一"、"春节",这三个节日期间的房价都会上浮几倍,如果你选择了这三个假期来三亚的话要提前一个星期定房和咨询。
填空示例
示例 1
输入:Ng is an adjunct professor at [MASK] (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai.
输出:Ng is an adjunct professor at Stanford University (formerly associate professor and Director of its Stanford AI Lab or SAIL ). Also a pioneer in online education, Ng co-founded Coursera and deeplearning.ai.
示例 2(中文)
输入:凯旋门位于意大利米兰市古城堡旁。1807年为纪念[MASK]而建,门高25米,顶上矗立两武士青铜古兵车铸像。
输出:凯旋门位于意大利米兰市古城堡旁。1807年为纪念拿破仑胜利而建,门高25米,顶上矗立两武士青铜古兵车铸像。
生成时可用的参数
--input-source [path] 或 "interactive"输入文件的路径。也可以设置为 "interactive",此时将启动命令行界面。—-output-path [path]存放结果的文件夹。—-out-seq-length [int]生成的最大序列长度(包括上下文)。—-min-gen-length [int]每个 MASK 的最小生成长度。—-sampling-strategy "BaseStrategy" 或 "BeamSearchStrategy"采样策略。- 对于 BeamSearchStrategy:
—-num-beams [int]束数。—-length-penalty [float]最大序列长度惩罚系数。—-no-repeat-ngram-size [int]禁止重复 n 元组生成。—-print-all-beam打印所有束的生成结果。
- 对于 BaseStrategy:
—-top-k [int]Top k 采样。—-top-p [float]Top p 采样。—-temperature [float]采样温度。
- 对于 BeamSearchStrategy:
评估
我们使用 YAML 文件来定义任务。具体来说,您可以一次性添加多个任务或文件夹进行评估,评估脚本会自动递归地收集这些文件夹下的所有 YAML 文件。
bash scripts/evaluate.sh task1.yaml task2.yaml dir1 dir2 ...
请从这里下载我们的评估数据集,并将 scripts/evaluate.sh 中的 DATA_PATH 设置为您本地的数据集目录。任务文件夹中包含了我们为 GLM-130B 评估的 30 多个任务的 YAML 文件。以 CoLA 任务为例,运行 bash scripts/evaluate.sh tasks/bloom/glue_cola.yaml,该命令会输出最佳提示下的准确率为 ~65%,而中位数准确率为 ~57%。
预期输出
MultiChoiceTaskConfig(name='glue_cola', type=<TaskType.MULTICHOICE: 'mul'>, path='/thudm/LargeScale/data/zeroshot/bloom/glue_cola', module=None, metrics=['Accuracy'], use_task_mask=False, use_multitask_encoding=False, unidirectional=False, max_seq_length=2048, file_pattern={'validation': '**/validation.jsonl'}, micro_batch_size=8)
正在评估任务 glue_cola:
正在评估组 validation:
完成 Following_sentence_acceptable/mul/validation.jsonl,准确率 = 42.665
完成 Make_sense_yes_no/mul/validation.jsonl,准确率 = 56.951
完成 Previous_sentence_acceptable/mul/validation.jsonl,准确率 = 65.197
完成 editing/mul/validation.jsonl,准确率 = 57.622
完成 is_this_correct/mul/validation.jsonl,准确率 = 65.197
glue_cola 任务的评估结果:
组 validation 准确率:最大值 = 65.197,中位数 = 57.622,平均值 = 57.526
glue_cola 任务已在 101.2 秒内完成。
多节点评估可以通过在 scripts/evaluate_multiple_node.sh 中设置 HOST_FILE_PATH(由 DeepSpeed 启动器 所需)来配置。设置 scripts/evaluate_multiple_node.sh 中的 DATA_PATH,然后运行以下命令以评估 ./task 目录中的所有任务:
bash scripts/evaluate_multiple_node.sh ./tasks
有关如何添加新任务的详细信息,请参阅 评估您自己的任务。
使用 FasterTransformer 实现 2.5 倍加速的推理
通过将 GLM-130B 模型适配到 NVIDIA 高度优化的 Transformer 模型库 FasterTransformer,我们在生成任务上实现了高达 2.5 倍的加速,详情请参阅 使用 FasterTransformer 进行推理。
许可证
本仓库采用 Apache-2.0 许可证。GLM-130B 模型权重的使用受 模型许可证约束。
引用
如果您认为我们的工作有用,请考虑引用 GLM-130B:
@article{zeng2022glm,
title={Glm-130b: An open bilingual pre-trained model},
author={Zeng, Aohan and Liu, Xiao and Du, Zhengxiao and Wang, Zihan and Lai, Hanyu and Ding, Ming and Yang, Zhuoyi and Xu, Yifan and Zheng, Wendi and Xia, Xiao and others},
journal={arXiv preprint arXiv:2210.02414},
year={2022}
}
您也可以在参考文献中提及 GLM 的原始工作:
@inproceedings{du2022glm,
title={GLM: General Language Model Pretraining with Autoregressive Blank Infilling},
author={Du, Zhengxiao and Qian, Yujie and Liu, Xiao and Ding, Ming and Qiu, Jiezhong and Yang, Zhilin and Tang, Jie},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
pages={320--335},
year={2022}
}
常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
gpt4all
GPT4All 是一款让普通电脑也能轻松运行大型语言模型(LLM)的开源工具。它的核心目标是打破算力壁垒,让用户无需依赖昂贵的显卡(GPU)或云端 API,即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。 对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说,GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点,让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者,还是单纯想体验私有化 AI 聊天的普通用户,都能从中受益。 技术上,GPT4All 基于高效的 `llama.cpp` 后端,支持多种主流模型架构(包括最新的 DeepSeek R1 蒸馏模型),并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端,支持 Windows、macOS 和 Linux 等多平台一键安装,还为开发者提供了便捷的 Python 库,可轻松集成到 LangChain 等生态中。通过简单的下载和配置,用户即可立即开始探索本地大模型的无限可能。