JittorLLMs

2.4k 188 简单 1 次阅读 1周前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

JittorLLMs 是一款专为大语言模型推理设计的开源库，旨在让普通电脑甚至无显卡的笔记本也能流畅运行大型 AI 模型。它主要解决了大模型部署门槛高、硬件成本昂贵以及显存不足导致无法运行的痛点。无论是开发者、研究人员，还是希望在本地体验大模型的普通用户，都能通过它轻松实现 ChatGLM、LLaMA、盘古等主流模型的本地部署与对话。

该工具的核心亮点在于其极低的资源占用和卓越的兼容性。仅需 2G 内存且无需独立显卡即可启动模型，大幅降低了硬件要求。依托计图（Jittor）框架独特的动态交换技术，JittorLLMs 能自动在显存、内存和硬盘之间调度数据，用户无需修改代码即可适配各类异构设备。此外，通过零拷贝技术和元算子自动编译优化，它在提升模型加载速度（降低 40% 开销）和计算性能（提升 20% 以上）方面表现优异。支持 Windows、Mac 和 Linux 全平台，并提供命令行、Web 界面及后端 API 多种交互方式，让大模型的应用变得简单高效。

使用场景

某高校科研团队需要在仅有集成显卡的普通办公笔记本上，本地部署大模型以进行离线中文文献分析与数据脱敏实验。

没有 JittorLLMs 时

硬件门槛极高：传统框架强制要求高性能独立显卡（如显存 16G+），团队旧笔记本因无独显完全无法运行，被迫申请昂贵的云服务器预算。
内存溢出频繁：在尝试量化或裁剪模型时，常因内存管理僵化导致进程被系统直接杀死，调试过程极其挫败。
环境配置复杂：不同大模型（如 ChatGLM、LLaMA）需要各自独立的依赖环境和复杂的算子编译步骤，迁移成本高昂。
加载等待漫长：模型参数文件巨大，传统加载方式涉及大量内存拷贝，启动一次对话往往需要数分钟甚至更久。

使用 JittorLLMs 后

低配机器流畅跑：凭借动态交换技术，JittorLLMs 让团队在无显卡、仅 2G 可用内存的笔记本上成功启动了 ChatGLM 和 Atom7B，实现了真正的“零成本”本地部署。
资源自动调度：遇到内存瓶颈时，JittorLLMs 自动将张量数据在显存、内存与硬盘间智能交换，无需修改代码即可避免崩溃，实验连续性得到保障。
统一运行环境：只需安装一次 Jittor 版 torch，即可无缝切换运行盘古、LLaMA2 等多种模型，极大简化了多模型对比实验的配置流程。
秒级模型加载：利用零拷贝技术，模型加载开销降低 40%，研究人员从输入命令到开始对话的时间大幅缩短，显著提升了迭代效率。

JittorLLMs 通过突破性的动态图变量自动交换技术，彻底打破了大模型对高端硬件的依赖，让每一位研究者都能在普通设备上轻松驾驭前沿 AI 能力。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

非必需（无显卡也可运行）
若使用显卡，推荐显存 16GB
支持通过动态交换技术在显存、内存和硬盘间自动调度
首次运行需编译 CUDA 算子

内存

最低 2GB，推荐 32GB

依赖

notes1. 磁盘空间：至少需要 40GB 空闲空间用于下载模型参数和存储交换文件（可通过环境变量 JITTOR_HOME 指定缓存路径）。2. 低配优化：若内存或显存不足导致进程被杀，需安装 Jittor > 1.3.7.8 并设置环境变量 JT_SAVE_MEM=1 及 cpu_mem_limit/device_mem_limit 来限制内存使用。3. 安装源：需使用 Jittor 专属 PyPI 源 (https://pypi.jittor.org/simple) 安装依赖。4. 首次运行：会自动下载模型文件并编译 CUDA 算子，耗时较长。

python3.8+ (Linux 至少 3.7)

jittor

JTorch (Jittor 版 torch)

gradio (用于 WebDemo)

快速开始

计图大模型推理库 - 笔记本没有显卡也能跑大模型

本大模型推理库JittorLLMs有以下几个特点：

成本低：相比同类框架，本库可大幅降低硬件配置要求（减少80%），没有显卡，2G内存就能跑大模型，人人皆可在普通机器上，实现大模型本地部署；是目前已知的部署成本最低的大模型库；
支持广：目前支持了大模型包括： ChatGLM大模型；鹏程盘古大模型； BlinkDL的ChatRWKV； Meta的LLaMA/LLaMA2大模型； MOSS大模型； Atom7B大模型后续还将支持更多国内优秀的大模型，统一运行环境配置，降低大模型用户的使用门槛。
可移植：用户不需要修改任何代码，只需要安装Jittor版torch(JTorch)，即可实现模型的迁移，以便于适配各类异构计算设备和环境。
速度快：大模型加载速度慢，Jittor框架通过零拷贝技术，大模型加载开销降低40%，同时，通过元算子自动编译优化，计算性能相比同类框架提升20%以上。

Jittor大模型库架构图如下所示。

配置要求

内存要求：至少2G，推荐32G
显存：可选，推荐16G
操作系统：支持Windows，Mac，Linux全平台。
磁盘空间：至少40GB空闲磁盘空间，用于下载参数和存储交换文件。
Python版本要求至少3.8（Linux的Python版本至少3.7）。

磁盘空间不够时，可以通过环境变量JITTOR_HOME指定缓存存放路径。内存或者显存不够，出现进程被杀死的情况，请参考下方，限制内存消耗的方法。

部署方法

可以通过下述指令安装依赖。（注意：此脚本会安装Jittor版torch，推荐用户新建环境运行）

# 国内使用 gitlink clone
git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1
# github: git clone https://github.com/Jittor/JittorLLMs.git --depth 1
cd JittorLLMs
# -i 指定用jittor的源， -I 强制重装Jittor版torch
pip install -r requirements.txt -i https://pypi.jittor.org/simple -I

如果出现找不到jittor版本的错误，可能是您使用的镜像还没有更新，使用如下命令更新最新版：pip install jittor -U -i https://pypi.org/simple

部署只需一行命令即可：

python cli_demo.py [chatglm|pangualpha|llama|chatrwkv|llama2|atom7b]

运行后会自动从服务器上下载模型文件到本地，会占用根目录下一定的硬盘空间。例如对于盘古α约为 15G。最开始运行的时候会编译一些CUDA算子，这会花费一些时间进行加载。

下图是 ChatGLM 的实时对话截图：

下图是盘古Alpha 的实时对话截图：

下图是 ChatRWKV 的实时对话截图：

下图是 LLaMA 的实时对话截图：

下图是 LLaMA2 的实时对话截图：

下图是 Atom7b 的实时对话截图：

目前支持了 ChatGLM、Atom7B 和盘古α 的中文对话，ChatRWKV,LLaMA和LLaMA2 支持英文对话，后续会持续更新最新的模型参数以及微调的结果。MOSS 大··模型使用方式请参考 MOSS 官方仓库。

内存或者显存不够，出现进程被杀死的情况，请参考下方，限制内存消耗的方法。

WebDemo

JittorLLM通过gradio库，允许用户在浏览器之中和大模型直接进行对话。

python web_demo.py chatglm

可以得到下图所示的结果。

Web_demo

后端服务部署

JittorLLM在api.py文件之中，提供了一个架设后端服务的示例。

python api.py chatglm

接着可以使用如下代码进行直接访问

post_data = json.dumps({'prompt': 'Hello, solve 5x=13'})
print(json.loads(requests.post("http://0.0.0.0:8000", post_data).text)['response'])

配置要求低

针对大模型显存消耗大等痛点，Jittor团队研发了动态交换技术，根据我们调研，Jittor框架是世界上首个支持动态图变量自动交换功能的框架，区别于以往的基于静态图交换技术，用户不需要修改任何代码，原生的动态图代码即可直接支持张量交换，张量数据可以在显存-内存-硬盘之间自动交换，降低用户开发难度。

同时，根据我们调研，Jittor大模型推理库也是目前对配置门槛要求最低的框架，只需要参数磁盘空间和2G内存，无需显卡，也可以部署大模型，下面是在不同硬件配置条件下的资源消耗与速度对比。可以发现，JittorLLMs在显存充足的情况下，性能优于同类框架，而显存不足甚至没有显卡，JittorLLMs都能以一定速度运行。

节省内存方法，请安装Jittor版本大于1.3.7.8，并添加如下环境变量：

export JT_SAVE_MEM=1
# 限制cpu最多使用16G
export cpu_mem_limit=16000000000
# 限制device内存（如gpu、tpu等）最多使用8G
export device_mem_limit=8000000000
# windows 用户，请使用powershell
# $env:JT_SAVE_MEM="1"
# $env:cpu_mem_limit="16000000000"
# $env:device_mem_limit="8000000000"

用户可以自由设定cpu和设备内存的使用量，如果不希望对内存进行限制，可以设置为-1。

# 限制cpu最多使用16G
export cpu_mem_limit=-1
# 限制device内存（如gpu、tpu等）最多使用8G
export device_mem_limit=-1
# windows 用户，请使用powershell
# $env:JT_SAVE_MEM="1"
# $env:cpu_mem_limit="-1"
# $env:device_mem_limit="-1"

如果想要清理磁盘交换文件，可以运行如下命令

python -m jittor_utils.clean_cache swap

速度更快

大模型在推理过程中，常常碰到参数文件过大，模型加载效率低下等问题。Jittor框架通过内存直通读取，减少内存拷贝数量，大大提升模型加载效率。相比PyTorch框架，Jittor框架的模型加载效率提升了40%。

可移植性高

Jittor团队发布Jittor版PyTorch接口JTorch，用户无需修改任何代码，只需要按照如下方法安装，即可通过Jittor框架的优势节省显存、提高效率。

pip install torch -i https://pypi.jittor.org/simple

通过jtorch，即可适配各类异构大模型代码，如常见的Megatron、Hugging Face Transformers，均可直接移植。同时，通过计图底层元算子硬件适配能力，可以十分方便的迁移到各类国内外计算设备上。

欢迎各位大模型用户尝试、使用，并且给我们提出宝贵的意见，未来，非十科技和清华大学可视媒体研究中心将继续专注于大模型的支撑，服务好大模型用户，提供成本更低，效率更高的解决方案，同时，欢迎各位大模型用户提交代码到JittorLLMs，丰富Jittor大模型库的支持。

Jittor文档：https://cg.cs.tsinghua.edu.cn/jittor/assets/docs/index.html
Jittor论坛：https://discuss.jittor.org/
Jittor开发者交流群：761222083

后续计划

模型训练与微调
移植 MOSS 大模型
动态 swap 性能优化
CPU 性能优化
添加更多国内外优秀大模型支持
......

模型支持TODO list

MOSS
BELLE

欢迎各位向我们提交请求

欢迎各位向我们提出宝贵的意见，可加入计图开发者交流群实时交流。

关于我们

本计图大模型推理库，由非十科技领衔，与清华大学可视媒体研究中心合作研发，希望为国内大模型的研究提供软硬件的支撑。

北京非十科技有限公司是国内专业从事人工智能服务的科技公司，在3D AIGC、深度学习框架以及大模型领域，具有领先的技术优势。技术上致力于加速人工智能算法从硬件到软件全流程的落地应用、提供各类计算加速硬件的适配、定制深度学习框架以及优化人工智能应用性能速度等服务。公司技术骨干毕业自清华大学，具有丰富的系统软件、图形学、编译技术和深度学习框架的研发经验。公司研发了基于计图深度学习框架的国产自主可控人工智能系统，完成了对近十个国产加速硬件厂商的适配，正积极促进于国产人工智能生态的发展。开源了的高性能的神经辐射场渲染库JNeRF，可生成高质量3D AIGC模型，开源的JittorLLMs是目前硬件配置要求最低的大模型推理库。

JittorLLMs 快速上手指南

JittorLLMs 是一个低成本、高兼容的大模型推理库。其最大亮点是无需显卡，仅需 2G 内存即可在普通笔记本上运行 ChatGLM、LLaMA、盘古等大模型。

1. 环境准备

在开始之前，请确保您的机器满足以下最低配置要求：

操作系统：Windows、Mac 或 Linux（全平台支持）。
内存：至少 2GB（推荐 32GB）。
显存：可选（无显卡亦可运行，有显卡推荐 16GB）。
磁盘空间：至少 40GB 空闲空间（用于下载模型参数及交换文件）。
Python 版本：
- Windows/Mac: Python ≥ 3.8
- Linux: Python ≥ 3.7

提示：如果默认磁盘空间不足，可通过设置环境变量 JITTOR_HOME 指定缓存路径。

2. 安装步骤

建议创建一个新的虚拟环境进行安装，以避免依赖冲突。

第一步：克隆项目

推荐使用国内镜像源（GitLink）以加快下载速度：

git clone https://gitlink.org.cn/jittor/JittorLLMs.git --depth 1
cd JittorLLMs

(备选 GitHub 地址：git clone https://github.com/Jittor/JittorLLMs.git --depth 1)

第二步：安装依赖

执行以下命令安装依赖。该脚本会自动安装 Jittor 定制版的 Torch (JTorch)。 注意：-i 指定了国内源，-I 表示强制重装以确保版本正确。

pip install -r requirements.txt -i https://pypi.jittor.org/simple -I

故障排除：若提示找不到 jittor 版本，请先运行 pip install jittor -U -i https://pypi.org/simple 更新后再重试。

3. 基本使用

安装完成后，只需一行命令即可启动大模型对话。程序会自动下载模型参数到本地（首次运行需等待下载及算子编译）。

命令行对话 (CLI)

支持模型包括：chatglm, pangualpha, llama, chatrwkv, llama2, atom7b。

运行示例（以 ChatGLM 为例）：

python cli_demo.py chatglm

其他模型示例：

python cli_demo.py llama2
python cli_demo.py pangualpha

Web 界面对话

如果您更喜欢浏览器界面，可以使用 Gradio 启动 Web Demo：

python web_demo.py chatglm

启动后，终端会显示访问地址（通常为 http://127.0.0.1:7860），在浏览器打开即可对话。

后端服务部署

如需作为 API 服务调用：

python api.py chatglm

调用示例：

import requests, json
post_data = json.dumps({'prompt': 'Hello, solve 5x=13'})
print(json.loads(requests.post("http://0.0.0.0:8000", post_data).text)['response'])

💡 低配机器优化技巧

如果您的内存或显存较小，导致进程被杀死，请设置以下环境变量开启动态交换技术（无需修改代码）：

Linux/Mac:

export JT_SAVE_MEM=1
export cpu_mem_limit=16000000000  # 限制 CPU 内存使用上限，例如 16G
export device_mem_limit=8000000000 # 限制显存使用上限，例如 8G

Windows (PowerShell):

$env:JT_SAVE_MEM="1"
$env:cpu_mem_limit="16000000000"
$env:device_mem_limit="8000000000"

设置完成后，再次运行上述启动命令即可。

常见问题

在 Windows 上运行 ChatGLM 报错或无法启动怎么办？

遇到 'ModuleNotFoundError: No module named ...' 依赖缺失错误如何解决？

加载模型时内存不足导致进程被杀死 (Killed) 或卡死怎么办？

Mac M1 芯片运行时提示缺少 'transformers' 库怎么办？

Jittor 编译失败，报错 'Check failed ret(2) == 0' 或 'Run cmd failed' 是什么原因？

服务器加载 Checkpoints 时交互卡死或无响应如何处理？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 155.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架