JittorLLMs
JittorLLMs 是一款专为大语言模型推理设计的开源库,旨在让普通电脑甚至无显卡的笔记本也能流畅运行大型 AI 模型。它主要解决了大模型部署门槛高、硬件成本昂贵以及显存不足导致无法运行的痛点。无论是开发者、研究人员,还是希望在本地体验大模型的普通用户,都能通过它轻松实现 ChatGLM、LLaMA、盘古等主流模型的本地部署与对话。
该工具的核心亮点在于其极低的资源占用和卓越的兼容性。仅需 2G 内存且无需独立显卡即可启动模型,大幅降低了硬件要求。依托计图(Jittor)框架独特的动态交换技术,JittorLLMs 能自动在显存、内存和硬盘之间调度数据,用户无需修改代码即可适配各类异构设备。此外,通过零拷贝技术和元算子自动编译优化,它在提升模型加载速度(降低 40% 开销)和计算性能(提升 20% 以上)方面表现优异。支持 Windows、Mac 和 Linux 全平台,并提供命令行、Web 界面及后端 API 多种交互方式,让大模型的应用变得简单高效。
使用场景
某高校科研团队需要在仅有集成显卡的普通办公笔记本上,本地部署大模型以进行离线中文文献分析与数据脱敏实验。
没有 JittorLLMs 时
- 硬件门槛极高:传统框架强制要求高性能独立显卡(如显存 16G+),团队旧笔记本因无独显完全无法运行,被迫申请昂贵的云服务器预算。
- 内存溢出频繁:在尝试量化或裁剪模型时,常因内存管理僵化导致进程被系统直接杀死,调试过程极其挫败。
- 环境配置复杂:不同大模型(如 ChatGLM、LLaMA)需要各自独立的依赖环境和复杂的算子编译步骤,迁移成本高昂。
- 加载等待漫长:模型参数文件巨大,传统加载方式涉及大量内存拷贝,启动一次对话往往需要数分钟甚至更久。
使用 JittorLLMs 后
- 低配机器流畅跑:凭借动态交换技术,JittorLLMs 让团队在无显卡、仅 2G 可用内存的笔记本上成功启动了 ChatGLM 和 Atom7B,实现了真正的“零成本”本地部署。
- 资源自动调度:遇到内存瓶颈时,JittorLLMs 自动将张量数据在显存、内存与硬盘间智能交换,无需修改代码即可避免崩溃,实验连续性得到保障。
- 统一运行环境:只需安装一次 Jittor 版 torch,即可无缝切换运行盘古、LLaMA2 等多种模型,极大简化了多模型对比实验的配置流程。
- 秒级模型加载:利用零拷贝技术,模型加载开销降低 40%,研究人员从输入命令到开始对话的时间大幅缩短,显著提升了迭代效率。
JittorLLMs 通过突破性的动态图变量自动交换技术,彻底打破了大模型对高端硬件的依赖,让每一位研究者都能在普通设备上轻松驾驭前沿 AI 能力。
运行环境要求
- Windows
- macOS
- Linux
- 非必需(无显卡也可运行)
- 若使用显卡,推荐显存 16GB
- 支持通过动态交换技术在显存、内存和硬盘间自动调度
- 首次运行需编译 CUDA 算子
最低 2GB,推荐 32GB

快速开始
计图大模型推理库 - 笔记本没有显卡也能跑大模型
本大模型推理库JittorLLMs有以下几个特点:
- 成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型,人人皆可在普通机器上,实现大模型本地部署;是目前已知的部署成本最低的大模型库;
- 支持广:目前支持了大模型包括: ChatGLM大模型; 鹏程盘古大模型; BlinkDL的ChatRWKV; Meta的LLaMA/LLaMA2大模型; MOSS大模型; Atom7B大模型 后续还将支持更多国内优秀的大模型,统一运行环境配置,降低大模型用户的使用门槛。
- 可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch),即可实现模型的迁移,以便于适配各类异构计算设备和环境。
- 速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。
Jittor大模型库架构图如下所示。

配置要求
- 内存要求:至少2G,推荐32G
- 显存:可选, 推荐16G
- 操作系统:支持Windows,Mac,Linux全平台。
- 磁盘空间:至少40GB空闲磁盘空间,用于下载参数和存储交换文件。
- Python版本要求至少
3.8(Linux的Python版本至少3.7)。
磁盘空间不够时,可以通过环境变量JITTOR_HOME指定缓存存放路径。
内存或者显存不够,出现进程被杀死的情况,请参考下方,限制内存消耗的方法。
部署方法
可以通过下述指令安装依赖。(注意:此脚本会安装Jittor版torch,推荐用户新建环境运行)
# 国内使用 gitlink clone
git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1
# github: git clone https://github.com/Jittor/JittorLLMs.git --depth 1
cd JittorLLMs
# -i 指定用jittor的源, -I 强制重装Jittor版torch
pip install -r requirements.txt -i https://pypi.jittor.org/simple -I
如果出现找不到jittor版本的错误,可能是您使用的镜像还没有更新,使用如下命令更新最新版:pip install jittor -U -i https://pypi.org/simple
部署只需一行命令即可:
python cli_demo.py [chatglm|pangualpha|llama|chatrwkv|llama2|atom7b]
运行后会自动从服务器上下载模型文件到本地,会占用根目录下一定的硬盘空间。 例如对于盘古α约为 15G。最开始运行的时候会编译一些CUDA算子,这会花费一些时间进行加载。
下图是 ChatGLM 的实时对话截图:
下图是 盘古Alpha 的实时对话截图:
下图是 ChatRWKV 的实时对话截图:
下图是 LLaMA 的实时对话截图:
下图是 LLaMA2 的实时对话截图:
下图是 Atom7b 的实时对话截图:
目前支持了 ChatGLM、Atom7B 和 盘古α 的中文对话,ChatRWKV,LLaMA和LLaMA2 支持英文对话,后续会持续更新最新的模型参数以及微调的结果。MOSS 大··模型使用方式请参考 MOSS 官方仓库。
内存或者显存不够,出现进程被杀死的情况,请参考下方,限制内存消耗的方法。
WebDemo
JittorLLM通过gradio库,允许用户在浏览器之中和大模型直接进行对话。
python web_demo.py chatglm
可以得到下图所示的结果。

后端服务部署
JittorLLM在api.py文件之中,提供了一个架设后端服务的示例。
python api.py chatglm
接着可以使用如下代码进行直接访问
post_data = json.dumps({'prompt': 'Hello, solve 5x=13'})
print(json.loads(requests.post("http://0.0.0.0:8000", post_data).text)['response'])
配置要求低
针对大模型显存消耗大等痛点,Jittor团队研发了动态交换技术,根据我们调研,Jittor框架是世界上首个支持动态图变量自动交换功能的框架,区别于以往的基于静态图交换技术,用户不需要修改任何代码,原生的动态图代码即可直接支持张量交换,张量数据可以在显存-内存-硬盘之间自动交换,降低用户开发难度。
同时,根据我们调研,Jittor大模型推理库也是目前对配置门槛要求最低的框架,只需要参数磁盘空间和2G内存,无需显卡,也可以部署大模型,下面是在不同硬件配置条件下的资源消耗与速度对比。可以发现,JittorLLMs在显存充足的情况下,性能优于同类框架,而显存不足甚至没有显卡,JittorLLMs都能以一定速度运行。
节省内存方法,请安装Jittor版本大于1.3.7.8,并添加如下环境变量:
export JT_SAVE_MEM=1
# 限制cpu最多使用16G
export cpu_mem_limit=16000000000
# 限制device内存(如gpu、tpu等)最多使用8G
export device_mem_limit=8000000000
# windows 用户,请使用powershell
# $env:JT_SAVE_MEM="1"
# $env:cpu_mem_limit="16000000000"
# $env:device_mem_limit="8000000000"
用户可以自由设定cpu和设备内存的使用量,如果不希望对内存进行限制,可以设置为-1。
# 限制cpu最多使用16G
export cpu_mem_limit=-1
# 限制device内存(如gpu、tpu等)最多使用8G
export device_mem_limit=-1
# windows 用户,请使用powershell
# $env:JT_SAVE_MEM="1"
# $env:cpu_mem_limit="-1"
# $env:device_mem_limit="-1"
如果想要清理磁盘交换文件,可以运行如下命令
python -m jittor_utils.clean_cache swap
速度更快
大模型在推理过程中,常常碰到参数文件过大,模型加载效率低下等问题。Jittor框架通过内存直通读取,减少内存拷贝数量,大大提升模型加载效率。相比PyTorch框架,Jittor框架的模型加载效率提升了40%。
可移植性高
Jittor团队发布Jittor版PyTorch接口JTorch,用户无需修改任何代码,只需要按照如下方法安装,即可通过Jittor框架的优势节省显存、提高效率。
pip install torch -i https://pypi.jittor.org/simple
通过jtorch,即可适配各类异构大模型代码,如常见的Megatron、Hugging Face Transformers,均可直接移植。同时,通过计图底层元算子硬件适配能力,可以十分方便的迁移到各类国内外计算设备上。
欢迎各位大模型用户尝试、使用,并且给我们提出宝贵的意见,未来,非十科技和清华大学可视媒体研究中心将继续专注于大模型的支撑,服务好大模型用户,提供成本更低,效率更高的解决方案,同时,欢迎各位大模型用户提交代码到JittorLLMs,丰富Jittor大模型库的支持。
- Jittor文档:https://cg.cs.tsinghua.edu.cn/jittor/assets/docs/index.html
- Jittor论坛:https://discuss.jittor.org/
- Jittor开发者交流群:761222083
后续计划
- 模型训练与微调
- 移植 MOSS 大模型
- 动态 swap 性能优化
- CPU 性能优化
- 添加更多国内外优秀大模型支持
- ......
模型支持TODO list
- MOSS
- BELLE
欢迎各位向我们提交请求
欢迎各位向我们提出宝贵的意见,可加入计图开发者交流群实时交流。
关于我们
本计图大模型推理库,由非十科技领衔,与清华大学可视媒体研究中心合作研发,希望为国内大模型的研究提供软硬件的支撑。
北京非十科技有限公司是国内专业从事人工智能服务的科技公司,在3D AIGC、深度学习框架以及大模型领域,具有领先的技术优势。技术上致力于加速人工智能算法从硬件到软件全流程的落地应用、提供各类计算加速硬件的适配、定制深度学习框架以及优化人工智能应用性能速度等服务。公司技术骨干毕业自清华大学,具有丰富的系统软件、图形学、编译技术和深度学习框架的研发经验。公司研发了基于计图深度学习框架的国产自主可控人工智能系统,完成了对近十个国产加速硬件厂商的适配,正积极促进于国产人工智能生态的发展。开源了的高性能的神经辐射场渲染库JNeRF,可生成高质量3D AIGC模型,开源的JittorLLMs是目前硬件配置要求最低的大模型推理库。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器