MobiLlama
MobiLlama 是一款专为边缘设备打造的小型语言模型(SLM),旨在打破“模型越大越好”的传统观念,让高性能 AI 也能在资源受限的设备上流畅运行。它主要解决了大型语言模型难以在手机、嵌入式设备等终端部署的痛点,有效降低了内存占用和能耗,同时保障了数据隐私与安全,实现了本地化的高效推理。
这款工具非常适合移动端开发者、嵌入式系统工程师以及关注绿色 AI 的研究人员使用。对于希望在离线环境或低算力硬件上构建智能应用的团队,MobiLlama 提供了理想的基座模型。其核心技术亮点在于独特的“参数共享”机制:通过从较大模型出发并应用精细的参数共享方案,MobiLlama 在显著减少预训练成本和部署难度的同时,依然保持了出色的准确性。目前开源的版本包括 0.5B、0.8B 及 1B 等多种参数量级,并提供了对应的对话版本,所有模型均基于 Apache 2.0 协议完全开放,真正做到了轻量、透明且易于集成。
使用场景
某初创团队正在开发一款面向野外作业人员的离线智能巡检助手,需在低配安卓手持终端上实现实时故障诊断与问答。
没有 MobiLlama 时
- 必须依赖云端 API 处理自然语言请求,但在无网络信号的矿区或工地,应用完全无法响应。
- 若尝试部署传统大模型,设备内存瞬间爆满导致崩溃,且电池在十分钟内耗尽。
- 用户隐私数据需上传至服务器分析,面临合规风险,无法满足企业对数据本地化的严格要求。
- 为适配低端硬件被迫大幅裁剪模型功能,导致回答准确率极低,经常产生幻觉或答非所问。
使用 MobiLlama 后
- 直接部署 0.5B 参数版本的 MobiLlama 到端侧,无需联网即可在毫秒级内完成故障查询与指令解析。
- 得益于极低的内存占用和优化的计算架构,应用在旧款安卓设备上流畅运行,续航时间延长至全天。
- 所有交互数据仅在本地处理,彻底杜绝了敏感工况信息外泄的风险,完美符合数据安全规范。
- 虽是小模型,但凭借独特的参数共享设计,其在专业领域的推理精度接近大模型,能准确识别复杂设备报错。
MobiLlama 成功打破了“大模型必须上云”的局限,让高精度 AI 真正落地于资源受限的边缘设备。
运行环境要求
- Linux
- 训练必需:20 节点 A100 80GB GPU
- 推理支持 CUDA (代码示例显示 model.to('cuda')),具体显存需求未说明,但模型参数量小 (0.5B-1.2B),预计低显存即可运行
未说明

快速开始
📱🦙 MobiLlama:迈向准确且轻量级的全透明GPT(🔥 ICLR'25 SLLM Workshop - SPOTLIGHT)
Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Timothy Baldwin, Eric Xing 和 Fahad Khan
穆罕默德·本·扎耶德人工智能大学(MBZUAI),阿联酋 与 瑞典林雪平大学
📢 最新动态
- 2025年3月5日 - Mobillama被ICLR'2025 SLLM Workshop接受为Spotlight论文
- 2024年2月26日 - Arxiv预印本发布!
- 2024年2月25日 - 代码(训练和评估脚本)发布!
- 2024年2月25日 - 最终预训练模型(包括中间检查点)及聊天版本连同在线演示链接一并发布!
概述
“越大越好”一直是近年来大型语言模型(LLMs)发展的主要趋势。
然而,对于需要设备端处理、能源效率、低内存占用和快速响应的场景而言,LLMs并不适用。这些要求对隐私保护、安全性以及可持续部署至关重要。
本文探索“少即是多”的范式,旨在解决如何在资源受限设备上设计出既准确又高效的微型语言模型(SLMs)这一挑战。
我们的主要贡献是推出一款准确且完全透明的开源0.5亿(0.5B)参数SLM,命名为MobiLlama,以满足资源受限计算的具体需求,强调在降低资源消耗的同时提升性能。
MobiLlama是一种从较大模型出发,通过精心设计的参数共享机制来降低预训练和部署成本的SLM架构。
⚡ 模型下载
| 模型名称 | 下载链接 |
|---|---|
| MobiLlama-05B | HuggingFace |
| MobiLlama-08B | HuggingFace |
| MobiLlama-1B | HuggingFace |
| MobiLlama-05B-Chat | HuggingFace |
| MobiLlama-1B-Chat | HuggingFace |
使用MobiLlama生成文本
模型描述
- 模型类型: 基于LLaMA-7B架构设计的语言模型
- 语言(NLP): 英语
- 许可证: Apache 2.0
- 更多信息资源:
加载MobiLlama
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("MBZUAI/MobiLlama-05B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("MBZUAI/MobiLlama-05B", trust_remote_code=True)
model.to('cuda')
text = "I was walking towards the river when "
input_ids = tokenizer(text, return_tensors="pt").to('cuda').input_ids
outputs = model.generate(input_ids, max_length=1000, repetition_penalty=1.2, pad_token_id=tokenizer.eos_token_id)
print(tokenizer.batch_decode(outputs[:, input_ids.shape[1]:-1])[0].strip())
加载中间检查点
model = AutoModelForCausalLM.from_pretrained("MBZUAI/MobiLlama-05B", revision="ckpt_352", trust_remote_code=True)
所有中间检查点从ckpt_100到ckpt_358均可获取。
数据集
从HuggingFace下载预处理后的Amber数据。整个训练数据包含360个分块,总大小约为8 TB。Amber数据集共包含1.2万亿个token,来源于以下不同数据源。
| 子集 | Tokens (Billion) |
|---|---|
| Arxiv | 30.00 |
| Book | 28.86 |
| C4 | 197.67 |
| Refined-Web | 665.01 |
| StarCoder | 291.92 |
| StackExchange | 21.75 |
| Wikipedia | 23.90 |
| Total | 1259.13 |
安装
首先根据您的操作系统说明安装PyTorch。
若要从源码安装(推荐用于训练/微调),请执行以下命令:
conda create -n mobillama python=3.10
conda activate mibillama
git clone https://github.com/mbzuai-oryx/MobiLlama.git
cd MobiLlama
pip install -r requirements.txt
预训练
对于MobiLlama(使用20个A100 80GB GPU节点)
sbatch pretrain.sh
对于large-base版本,请在pretrain.sh的第11行使用main_largebase.py。
🔎 评估
我们使用Analysis-360来在不同的LLM基准测试上评估我们的模型。
📊 结果
| 模型名称 | 参数量 | HellaSwag | Truthfulqa | MMLU | Arc_C | CrowsPairs | piqa | race | siqa | winogrande | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| gpt-neo-125m | 0.15B | 30.26 | 45.58 | 25.97 | 22.95 | 61.55 | 62.46 | 27.56 | 40.33 | 51.78 | 40.93 |
| tiny-starcoder | 0.17B | 28.17 | 47.68 | 26.79 | 20.99 | 49.68 | 52.55 | 25.45 | 38.28 | 51.22 | 37.86 |
| cerebras-gpt-256m | 0.26B | 28.99 | 45.98 | 26.83 | 22.01 | 60.52 | 61.42 | 27.46 | 40.53 | 52.49 | 40.69 |
| opt-350m | 0.35B | 36.73 | 40.83 | 26.02 | 23.55 | 64.12 | 64.74 | 29.85 | 41.55 | 52.64 | 42.22 |
| megatron-gpt2-345m | 0.38B | 39.18 | 41.51 | 24.32 | 24.23 | 64.82 | 66.87 | 31.19 | 40.28 | 52.96 | 42.81 |
| LiteLlama | 0.46B | 38.47 | 41.59 | 26.17 | 24.91 | 62.90 | 67.73 | 28.42 | 40.27 | 49.88 | 42.26 |
| gpt-sw3-356m | 0.47B | 37.05 | 42.55 | 25.93 | 23.63 | 61.59 | 64.85 | 32.15 | 41.56 | 53.04 | 42.48 |
| pythia-410m | 0.51B | 40.85 | 41.22 | 27.25 | 26.19 | 64.20 | 67.19 | 30.71 | 41.40 | 53.12 | 43.57 |
| xglm-564m | 0.56B | 34.64 | 40.43 | 25.18 | 24.57 | 62.25 | 64.85 | 29.28 | 42.68 | 53.03 | 41.87 |
| Lamini-GPT-LM | 0.59B | 31.55 | 40.72 | 25.53 | 24.23 | 63.09 | 63.87 | 29.95 | 40.78 | 47.75 | 40.83 |
| MobiLlama(我们的) | 0.5B | 52.52 | 38.05 | 26.45 | 29.52 | 64.03 | 72.03 | 33.68 | 40.22 | 57.53 | 46.00 |
| Lamini-GPT-LM | 0.77B | 43.83 | 40.25 | 26.24 | 27.55 | 66.12 | 69.31 | 37.12 | 42.47 | 56.59 | 45.49 |
| MobiLlama(我们的) | 0.8B | 54.09 | 38.48 | 26.92 | 30.20 | 64.82 | 73.17 | 33.37 | 41.60 | 57.45 | 46.67 |
该表格提供了包括我们MobiLlama在内的多种模型在多个LLM基准上的对比分析。它突出了MobiLlama的优越性能,尤其是在0.5B和0.8B配置下,展示了其在处理复杂语言任务方面的高效性和有效性。这一比较凸显了MobiLlama在实现更高准确率方面的进步,并证明了它作为LLM领域领先解决方案的潜力。
| 模型 | 参数量 | HellaSwag | Truthfulqa | MMLU | Arc_C | CrowsPairs | piqa | race | siqa | winogrande | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Boomer | 1B | 31.62 | 39.42 | 25.42 | 22.26 | 61.26 | 57.99 | 28.99 | 40.32 | 50.98 | 39.80 |
| Pythia-Dedup | 1B | 49.63 | 38.92 | 24.29 | 29.09 | 67.11 | 70.23 | 32.44 | 42.63 | 53.98 | 45.36 |
| Falcon-RW | 1B | 63.12 | 35.96 | 25.36 | 35.06 | 69.04 | 74.10 | 36.07 | 40.23 | 61.88 | 48.98 |
| TinyLlama | 1.1B | 60.22 | 37.59 | 26.11 | 33.61 | 70.60 | 73.28 | 36.45 | 41.65 | 59.18 | 48.74 |
| OLMo | 1.2B | 62.50 | 32.94 | 25.86 | 34.45 | 69.59 | 73.70 | 36.74 | 41.14 | 58.90 | 48.42 |
| Cerebras-GPT | 1.3B | 38.51 | 42.70 | 26.66 | 26.10 | 63.67 | 66.75 | 30.33 | 42.42 | 53.59 | 43.41 |
| Lamini | 1.3B | 38.05 | 36.43 | 28.47 | 26.62 | 64.62 | 67.89 | 33.39 | 43.19 | 50.59 | 43.25 |
| OPT | 1.3B | 54.50 | 38.67 | 24.63 | 29.60 | 70.70 | 72.47 | 34.16 | 42.4 | 59.74 | 47.43 |
| GPT-NEO | 1.3B | 48.49 | 39.61 | 24.82 | 31.31 | 65.67 | 71.05 | 34.06 | 41.81 | 57.06 | 45.98 |
| Pythia-Deduped | 1.4B | 55.00 | 38.63 | 25.45 | 32.59 | 67.33 | 72.68 | 34.64 | 42.68 | 56.90 | 47.32 |
| large-base | 1.2B | 62.99 | 35.90 | 24.79 | 34.55 | 68.49 | 75.57 | 35.31 | 41.96 | 62.03 | 49.06 |
与现有<2B参数的完全开源LLM模型在9个基准上的全面对比。我们基于1.2T tokens预训练的1.2B "large-base"模型,在性能上优于近期的OLMo 1.17B模型以及TinyLlama 1.1B模型,而后者是在规模大得多的3T tokens数据集上进行预训练的。
📱 MobiLlama 在 Android 上
要在安卓应用中运行我们的模型,请从这里下载并安装 APK。
🙏 致谢
📜 引用
@misc{thawakar2024mobillama,
title={MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT},
author={Omkar Thawakar and Ashmal Vayani and Salman Khan and Hisham Cholakkal and Rao Muhammad Anwer and Michael Felsberg and Timothy Baldwin and Eric P. Xing and Fahad Shahbaz Khan},
year={2024},
eprint={2402.16840},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器