GLM-V
GLM-V 是智谱 AI 开源的一系列视觉语言模型,包含 GLM-4.6V、4.5V 和 4.1V 等版本。它旨在突破传统多模态模型仅具备基础感知的局限,通过可扩展的强化学习技术,赋予模型深度推理、长上下文理解及复杂问题解决的能力。
对于开发者而言,GLM-V 提供了构建智能应用的核心引擎;研究人员可借此探索多模态技术的前沿边界;而设计师或工程师则能利用其衍生的 UI2Code 代码生成、Glyph 长文本压缩等专项技能提升工作效率。项目不仅开放了完整的算法实现与预训练权重,还发布了桌面助手 Demo 及奖励系统代码,支持本地部署与二次开发。无论是通过 API 集成还是在线体验,GLM-V 都致力于降低多模态大模型的使用门槛,助力社区共同创造更智能的创新应用。
使用场景
某电商团队前端工程师小张在紧急迭代项目中,需要将一份包含复杂图表和动态效果的设计稿快速转化为可交互的 React 代码。
没有 GLM-V 时
- 手动编写 HTML/CSS 结构耗时极长,且容易遗漏细微的间距与圆角细节。
- 难以从静态图片中准确推断出悬停、点击等动态交互逻辑,需反复询问设计师。
- 处理多图表组合布局时,样式调整极其繁琐,经常需要反复调试才能对齐。
- 遇到特殊图标或字体时需额外寻找素材资源,频繁打断开发流程与思路。
使用 GLM-V 后
- GLM-V 直接识别图片生成基础 React 组件代码框架,大幅缩短搭建时间。
- 强大的推理能力帮助还原复杂的响应式布局逻辑,自动适配不同屏幕尺寸。
- 自动补全缺失的 CSS 样式与配色方案,减少人工调试与修改的时间成本。
- 支持长上下文理解,一次性处理整页设计图无需裁剪,保持整体视觉一致性。
GLM-V 通过深度视觉推理将设计到代码的转化效率提升数倍,显著降低重复劳动。
运行环境要求
- 未说明
需 GPU 支持(示例使用 tensor-parallel-size 4),具体型号和显存未说明
未说明

快速开始
GLM-V
👋 加入我们的 微信 和 Discord 社区。
📖 查看 GLM-4.6V 博客 以及 GLM-4.5V & GLM-4.1V 论文。
📍 尝试 在线版 或使用 API。
简介
视觉语言模型(Vision-Language Models, VLMs)已成为智能系统的关键基石。随着现实世界 AI 任务日益复杂,VLMs 迫切需要增强超越基本多模态感知的推理能力——提高准确性、全面性和智能性——以实现复杂问题解决、长上下文理解和多模态智能体。
通过我们的开源工作,我们旨在与社区共同探索技术前沿,同时赋能更多开发者创建令人兴奋且创新的应用。
本开源仓库包含我们的 GLM-4.6V、GLM-4.5V 和 GLM-4.1V 系列模型。 有关性能和详细信息,请参阅 模型概览。有关已知问题,请参阅 已知问题与待解决问题。
项目更新
- 新闻:
2026/03/28: 我们发布了多个 GLM-V 相关技能,涵盖多个专业领域,如 GLM-V-Grounding 和 GLM-V-Prompt-Gen。欢迎在此尝试 这里。 - 新闻:
2025/11/10: 我们发布了 UI2Code^N,这是一个具有 UI 转代码、UI 润色和 UI 编辑能力的强化学习增强(RL-enhanced)UI 编码模型。该模型基于GLM-4.1V-Base训练。请在此查看 这里。 - 新闻:
2025/10/27: 我们发布了 Glyph,这是一个通过图文压缩扩展上下文长度的框架,glyph 模型基于GLM-4.1V-Base训练。请在此查看 这里。 - 新闻:
2025/08/11: 我们发布了 GLM-4.5V,在多个基准测试中均有显著提升。我们还开源了用于调试的手制 桌面助手应用。连接到 GLM-4.5V 后,它可以通过截图或屏幕录制捕获您 PC 屏幕上的视觉信息。欢迎试用或将其定制为您自己的多模态助手。点击 这里 下载安装程序,或 从源码构建! - 新闻:
2025/07/16: 我们开源了用于训练 GLM-4.1V-Thinking 的 VLM 奖励系统。查看 代码仓库 并在本地运行:python examples/reward_system_demo.py。 - 新闻:
2025/07/01: 我们发布了 GLM-4.1V-9B-Thinking 及其 技术报告。
模型实现代码
- GLM-4.5V 和 GLM-4.6V 模型算法:参见 transformers 中的完整实现。
- GLM-4.1V-9B-Thinking 模型算法:参见 transformers 中的完整实现。
- 两个模型共享相同的多模态预处理,但使用不同的对话模板——请仔细区分。
模型下载
| 模型 | 下载链接 | 类型 |
|---|---|---|
| GLM-4.6V | 🤗 Hugging Face 🤖 ModelScope |
混合推理 |
| GLM-4.6V-FP8 | 🤗 Hugging Face 🤖 ModelScope |
混合推理 |
| GLM-4.6V-Flash | 🤗 Hugging Face 🤖 ModelScope |
混合推理 |
| GLM-4.5V | 🤗 Hugging Face 🤖 ModelScope |
混合推理 |
| GLM-4.5V-FP8 | 🤗 Hugging Face 🤖 ModelScope |
混合推理 |
| GLM-4.1V-9B-Thinking | 🤗 Hugging Face 🤖 ModelScope |
推理 |
| GLM-4.1V-9B-Base | 🤗 Hugging Face 🤖 ModelScope |
基础 |
- Hugging Face 提供 GGUF 格式的模型权重。您可以从 这里 下载 GLM-V 的 GGUF 格式模型。
使用案例
定位 (Grounding)
GLM-4.5V / GLM-4.6V / GLM-4.1V 具备精确的定位能力。给定一个请求特定对象位置的提示,模型能够逐步推理并识别目标对象的边界框。查询提示支持对目标对象的复杂描述以及指定的输出格式,例如:
- Help me to locate
in the image and give me its bounding boxes. - Please pinpoint the bounding box [[x1,y1,x2,y2], …] in the image as per the given description.
此处,<expr> 是目标对象的描述。输出的边界框是一个四元组 $$[x_1,y_1,x_2,y_2]$$,由左上角和右下角的坐标组成,其中每个值分别由图像宽度(对于 x)或高度(对于 y)归一化并乘以 1000。
在响应中,特殊标记 <|begin_of_box|> 和 <|end_of_box|> 用于在答案中标记图像边界框。括号样式可能有所不同([], [[]], (), <> 等),但含义相同:即包围框的坐标。
GUI 智能体 (GUI Agent)
examples/gui-agent: 演示了 GUI 智能体的提示构建和输出处理,包括针对移动、PC 和 Web 的策略。GLM-4.1V 和 GLM-4.5V 之间的提示模板不同。
快速演示
examples/vlm-helper: 一个用于 GLM 多模态模型(主要是 GLM-4.5V,兼容 GLM-4.1V)的桌面助手,支持文本、图像、视频、PDF、PPT 等。连接到 GLM 多模态 API(应用程序接口)以提供跨场景的智能服务。下载 安装程序 或 从源代码构建。
快速开始
环境安装
pip install -r requirements.txt
- vLLM 和 SGLang 依赖可能冲突,因此建议每个环境中只安装其中之一。
- 请注意,安装后应验证
transformers的版本,并确保其升级到5.2.0或更高版本。
transformers
trans_infer_cli.py: 用于使用transformers后端进行连续对话的 CLI(命令行界面)。trans_infer_gradio.py: 使用transformers后端的多模态输入(图像、视频、PDF、PPT)Gradio Web 界面。trans_infer_bench:GLM-4.1V-9B-Thinking的学术复现脚本。它在长度8192处强制截断推理并随后请求直接答案。包含视频输入示例;其他情况请修改。
vLLM
vllm serve zai-org/GLM-4.6V \
--tensor-parallel-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-4.6v \
--allowed-local-media-path / \
--mm-encoder-tp-mode data \
--mm-processor-cache-type shm
更多详情,请查看 vLLM Recipes。
SGLang
sglang serve --model-path zai-org/GLM-4.6V \
--tp-size 4 \
--tool-call-parser glm45 \
--reasoning-parser glm45 \
--served-model-name glm-4.6v \
--mm-enable-dp-encoder \
--port 8000 \
--host 0.0.0.0
注意:
- 我们建议增加
SGLANG_VLM_CACHE_SIZE_MB(例如1024),以为视频理解提供足够的缓存空间。 - 当使用
vLLM和SGLang时,思考模式默认启用。要禁用思考开关,添加:extra_body={"chat_template_kwargs": {"enable_thinking": False}} - 您可以配置思考预算以限制模型的最大推理跨度。添加
以及from sglang.srt.sampling.custom_logit_processor import Glm4MoeThinkingBudgetLogitProcessorextra_body={ "custom_logit_processor": Glm4MoeThinkingBudgetLogitProcessor().to_str(), "custom_params": { "thinking_budget": 8192, # max reasoning length in tokens }, },
xLLM
详细指令请查看 此处。
与其他自动化工具集成
Midscene.js
Midscene.js 是一个由视觉模型驱动的开源 UI 自动化 SDK(软件开发工具包),支持通过 JavaScript 或 Yaml 格式的过程语法实现多平台自动化。
Midscene.js 已完成与 GLM-V 模型的集成。您可以通过 Midscene.js 集成指南 快速体验 GLM-V。
以下是两个帮助您快速入门的示例:
模型微调
LLaMA-Factory 已支持对 GLM-4.5V 及 GLM-4.1V-9B-Thinking 模型进行微调。下面是使用两张图片构建数据集的示例。您应将数据集组织为以下格式的 finetune.json,这是针对 GLM-4.1V-9B 微调的示例。
[
{
"messages": [
{
"content": "<image>Who are they?",
"role": "user"
},
{
"content": "ynchroneg>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.ost switching>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>",
"role": "assistant"
},
{
"content": "<image>What are they doing?",
"role": "user"
},
{
"content": "ynchroneg>\nI need to observe what these people are doing. Oh, they are celebrating on the soccer field.ost switching>\n<answer>They are celebrating on the soccer field.</answer>",
"role": "assistant"
}
],
"images": [
"mllm_demo_data/1.jpg",
"mllm_demo_data/2.jpg"
]
}
]
synchronneg> ... ost switching>内部的内容不会作为对话历史或微调数据保存。<image>标签将被替换为相应的图像信息。- 对于 GLM-4.5V 模型,应移除
<answer>和</answer>标签。
然后,您可以按照标准的 LLaMA-Factory 流程进行微调。
模型概览
GLM-4.6V
GLM-4.6V 系列模型包含两个版本:GLM-4.6V(106B),这是一个专为云端和高性能集群场景设计的基础模型;以及 GLM-4.6V-Flash(9B),这是一个针对本地部署和低延迟应用优化的轻量级模型。GLM-4.6V 在训练中将其上下文窗口扩展至 128k tokens,并在相似参数规模的模型中实现了视觉理解领域的 SoTA(最先进)性能。关键的是,我们首次集成了原生的 Function Calling(函数调用)能力。这有效地弥合了“视觉感知”与“可执行操作”之间的差距,为现实世界业务场景中的多模态智能体(agents)提供了统一的技术基础。

此外,在可比模型规模下,它在主要多模态基准测试中也达到了 SoTA 性能。GLM-4.6V 引入了几个关键特性:
原生多模态函数调用 支持原生的视觉驱动工具使用。图像、截图和文档页面可以直接作为工具输入传递,无需转换为文本,同时视觉输出(图表、搜索图片、渲染页面)会被解析并整合到推理链中。这实现了从感知到理解再到执行的闭环。
图文交错内容生成 支持从复杂的多模态输入进行高质量混合媒体创作。GLM-4.6V 接收涵盖文档、用户输入和工具检索图像的多模态上下文,并合成适合任务的连贯的、交错的图文内容。在生成过程中,它可以主动调用搜索和检索工具来收集和整理额外的文本和视觉内容,生成丰富且基于视觉的内容。
多模态文档理解 GLM-4.6V 可以处理多达 128K tokens 的多文档或长文档输入,直接将格式丰富的页面作为图像进行解析。它联合理解文本、布局、图表、表格和图片,能够准确理解复杂的、以图像为主的文档,而无需预先转换为纯文本。
前端复制与视觉编辑 从 UI 截图重建像素级精确的 HTML/CSS,并支持自然语言驱动的编辑。它通过视觉检测布局、组件和样式,生成干净的代码,并通过简单的用户指令应用迭代视觉修改。
GLM-4.5V
GLM-4.5V 基于智谱 AI 的 GLM-4.5-Air。它延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开视觉 - 语言基准测试中,在同规模模型中取得了 SOTA 性能。它涵盖了常见任务,如图像、视频和文档理解,以及 GUI 智能体操作。
除了基准性能外,GLM-4.5V 还注重实际可用性。通过高效的混合训练,它能够处理多种类型的视觉内容,实现全谱系的视觉推理,包括:
- 图像推理(场景理解、复杂多图分析、空间识别)
- 视频理解(长视频分割与事件识别)
- GUI 任务(屏幕阅读、图标识别、桌面操作辅助)
- 复杂图表与长文档解析(研究报告分析、信息提取)
- Grounding(视觉定位)(精确视觉元素定位)
该模型还引入了一个 Thinking Mode(思考模式)开关,允许用户在快速响应和深度推理之间进行平衡。此开关的工作方式与 GLM-4.5 语言模型相同。
GLM-4.1V-9B
基于 GLM-4-9B-0414 基础模型构建的 GLM-4.1V-9B-Thinking 模型引入了一种推理范式,并使用 RLCS(课程采样强化学习)全面增强模型能力。它在 10B 级别的 VLM(视觉语言模型)中实现了最强的性能,并在 18 项基准任务中与更大的 Qwen-2.5-VL-72B 持平或超越。
我们还开源了基础模型 GLM-4.1V-9B-Base,以支持研究人员探索视觉语言模型能力的极限。

与上一代 CogVLM2 和 GLM-4V 系列相比,GLM-4.1V-Thinking 带来了:
- 该系列首个专注于推理的模型,在数学之外的多个领域表现出色。
- 支持 64k 上下文长度。
- 支持 任意宽高比 和高达 4k 图像分辨率。
- 提供双语(中文/英文)开源版本。
GLM-4.1V-9B-Thinking 集成了 Chain-of-Thought(思维链)推理机制,提高了准确性、丰富性和可解释性。在 10B 参数规模下,它在 28 项基准任务中的 23 项上领先,尽管体积更小,但在 18 项任务上优于 Qwen-2.5-VL-72B。
遗留问题
自 GLM-4.1V 开源以来,我们收到了社区的广泛反馈,并且清楚地意识到该模型仍存在许多不足。在后续迭代中,我们尝试解决了一些常见问题——例如重复的思考输出和格式错误——这些问题在新版本中得到了一定程度的缓解。
然而,该模型仍有一些局限性和问题,我们将尽快修复:
- 纯文本问答能力仍有很大提升空间。在本开发周期中,我们的主要重点是视觉多模态场景,我们将在未来的更新中增强纯文本能力。
- 在某些情况下,模型可能仍然会过度思考甚至重复自己,尤其是在处理复杂提示时。
- 在某些情况下,模型可能会在结尾处再次重述答案。
- 仍然存在某些感知局限性,例如计数准确性和识别特定个人,这些仍需改进。
感谢您的耐心和理解。我们也欢迎在 Issue 部分提供反馈和建议——我们将尽可能回应和改进!
引用
如果您使用了本模型,请引用以下论文:
@misc{vteam2025glm45vglm41vthinkingversatilemultimodal,
title={GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning},
author={V Team and Wenyi Hong and Wenmeng Yu and Xiaotao Gu and Guo Wang and Guobing Gan and Haomiao Tang and Jiale Cheng and Ji Qi and Junhui Ji and Lihang Pan and Shuaiqi Duan and Weihan Wang and Yan Wang and Yean Cheng and Zehai He and Zhe Su and Zhen Yang and Ziyang Pan and Aohan Zeng and Baoxu Wang and Bin Chen and Boyan Shi and Changyu Pang and Chenhui Zhang and Da Yin and Fan Yang and Guoqing Chen and Jiazheng Xu and Jiale Zhu and Jiali Chen and Jing Chen and Jinhao Chen and Jinghao Lin and Jinjiang Wang and Junjie Chen and Leqi Lei and Letian Gong and Leyi Pan and Mingdao Liu and Mingde Xu and Mingzhi Zhang and Qinkai Zheng and Sheng Yang and Shi Zhong and Shiyu Huang and Shuyuan Zhao and Siyan Xue and Shangqin Tu and Shengbiao Meng and Tianshu Zhang and Tianwei Luo and Tianxiang Hao and Tianyu Tong and Wenkai Li and Wei Jia and Xiao Liu and Xiaohan Zhang and Xin Lyu and Xinyue Fan and Xuancheng Huang and Yanling Wang and Yadong Xue and Yanfeng Wang and Yanzi Wang and Yifan An and Yifan Du and Yiming Shi and Yiheng Huang and Yilin Niu and Yuan Wang and Yuanchang Yue and Yuchen Li and Yutao Zhang and Yuting Wang and Yu Wang and Yuxuan Zhang and Zhao Xue and Zhenyu Hou and Zhengxiao Du and Zihan Wang and Peng Zhang and Debing Liu and Bin Xu and Juanzi Li and Minlie Huang and Yuxiao Dong and Jie Tang},
year={2025},
eprint={2507.01006},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2507.01006},
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中