smollm

3.7k 284 简单 1 次阅读昨天Apache-2.0语言模型其他

AI 解读由 AI 自动生成，仅供参考

smollm 是 Hugging Face 推出的一系列高效、轻量级开源 AI 模型家族，涵盖文本理解的 SmolLM 和视觉语言处理的 SmolVLM。它旨在解决大型模型难以在本地设备（如手机、笔记本）上流畅运行的痛点，让用户在无需依赖强大云端算力的情况下，也能享受高性能的 AI 服务。

这套模型非常适合开发者、研究人员以及希望在本地部署 AI 应用的技术爱好者。无论是构建多语言聊天机器人、进行图像内容分析，还是探索端侧智能应用，smollm 都能提供坚实的基础。其中，最新发布的 SmolLM3 表现尤为亮眼：作为一个仅 30 亿参数的模型，它在多项基准测试中超越了同量级的 Llama 3.2 和 Qwen2.5，甚至能与部分 40 亿参数模型媲美。

smollm 的独特亮点在于其“完全开放”的理念，不仅公开模型权重，还详细披露了训练数据构成与配置细节。技术上，它支持包括中文在内的六国语言，具备长达 128k 的上下文窗口，并创新性地引入了“思考/非思考”双模式推理机制。而 SmolVLM 则能轻松处理图文混合任务，支持单轮对话中分析多张图片。凭借小巧的体积与强大的性能，smollm 真正实现了让 AI 在本地设备上高效落地。

使用场景

一位独立开发者正在为一款面向户外探险者的离线助手 App 集成多模态交互功能，需要在无网络环境下实现图文问答。

没有 smollm 时

部署门槛高：主流大模型体积庞大，无法在移动端或边缘设备本地运行，必须依赖云端 API，导致用户在深山等无网区域完全无法使用。
响应延迟严重：即使有网络，图像上传和云端推理带来的网络延迟让实时交互体验卡顿，无法满足紧急场景下的快速反馈需求。
定制成本高昂：若需支持英、法、西等多国语言或特定的“先思考后回答”逻辑，往往需要昂贵的微调算力或复杂的工程适配。
数据隐私风险：用户拍摄的地理位置和环境照片需上传至第三方服务器，存在敏感信息泄露的隐患。

使用 smollm 后

真正的端侧智能：借助 SmolVLM 和 SmolLM3 的轻量化特性（如 3B 参数），模型可直接嵌入手机或手持终端，在无网环境下依然流畅运行。
毫秒级即时响应：本地推理消除了网络传输耗时，用户拍摄照片后能立即获得关于地形或植物的详细解读，大幅提升安全性。
原生多语与逻辑增强：直接利用其内置的六国语言支持和双模式推理（think/no_think），无需额外训练即可提供高质量、符合逻辑的多语言指导。
隐私安全可控：所有图文数据均在设备本地处理，彻底杜绝了用户隐私外泄的风险，符合严苛的数据合规要求。

smollm 让高性能多模态 AI 真正走出服务器，成为每个人口袋中随时待命的离线智能伙伴。

运行环境要求

操作系统

未说明

GPU

非必需
示例代码支持 CUDA (GPU) 和 CPU 模式
具体显存需求取决于模型版本（如 3B 参数模型），未在文中明确指定最低显存大小或 CUDA 版本

内存

未说明

依赖

notes该工具包含 SmolLM3（文本模型，3B 参数）和 SmolVLM（视觉语言模型）。SmolLM3 支持长达 128k 的上下文窗口，具备多语言（英、法、西、德、意、葡）及双模式推理（think/no_think）功能。代码示例显示可通过设置 device 变量轻松切换 CPU 或 GPU 运行，旨在实现高效的端侧部署。

python未说明

transformers

torch

快速开始

Smol Models 🤏

欢迎来到 Smol Models，这是 Hugging Face 推出的一系列高效、轻量级的 AI 模型。我们的使命是打造完全开源、功能强大且体积小巧的文本和视觉模型，使其能够在设备端高效运行，同时保持卓越的性能。

[新] SmolLM3（语言模型）

我们的 3B 参数模型在性能上超越了 Llama 3.2 3B 和 Qwen2.5 3B，同时与更大的 4B 模型（Qwen3 和 Gemma3）相比也毫不逊色。除了性能数据之外，我们还详细分享了如何使用公开数据集和训练框架构建该模型的过程。

资源：

摘要：

3B 参数模型：基于 11T 个 token 训练，在 3B 规模中处于 SOTA 水平，并可与 4B 模型相媲美。
完全开源模型：开放权重及完整的训练细节，包括公开的数据组合和训练配置。
指令模型：具备双模式推理，支持思考/不思考两种模式。
多语言支持：涵盖 6 种语言：英语、法语、西班牙语、德语、意大利语和葡萄牙语。
长上下文：最长可达 128k，采用 NoPE 并结合 YaRN 技术。

👁️ SmolVLM（视觉语言模型）

SmolVLM 是我们的紧凑型多模态模型，能够：

同时处理图像和文本，执行视觉问答、图像描述和视觉叙事等任务。
在单次对话中处理多张图片。
在设备端高效运行。

仓库结构

smollm/
├── text/               # SmolLM3/2/1 相关代码和资源
├── vision/            # SmolVLM 相关代码和资源
└── tools/             # 共享工具和推理工具
    ├── smol_tools/    # 轻量级 AI 驱动工具
    ├── smollm_local_inference/
    └── smolvlm_local_inference/

快速入门

SmolLM3

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "HuggingFaceTB/SmolLM3-3B"
device = "cuda"  # 使用 GPU 或 "cpu" 使用 CPU

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
).to(device)

# 准备模型输入
prompt = "用简单的语言给我解释一下引力。"
messages_think = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages_think,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成输出
generated_ids = model.generate(**model_inputs, max_new_tokens=32768)

# 获取并解码输出
output_ids = generated_ids[0][len(model_inputs.input_ids[0]) :]
print(tokenizer.decode(output_ids, skip_special_tokens=True))

SmolVLM

from transformers import AutoProcessor, AutoModelForVision2Seq

processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-Instruct")
model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-Instruct")

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "这张图里有什么？"}
        ]
    }
]

生态系统

资源

文档

预训练模型

数据集

SmolLM3 预训练数据集
SmolTalk - 我们的指令微调数据集
FineMath - 数学预训练数据集
FineWeb-Edu - 教育内容预训练数据集

SmolLM 快速上手指南

SmolLM 是 Hugging Face 推出的一系列高效、轻量级开源 AI 模型家族，包含专注于文本的 SmolLM3 和具备视觉理解能力的 SmolVLM。这些模型专为端侧部署设计，在保持紧凑体积的同时提供强大的性能。

环境准备

系统要求

操作系统: Linux, macOS, Windows
Python: 3.9 或更高版本
硬件:
- CPU: 通用推理（推荐至少 8GB 内存）
- GPU: 支持 CUDA 的 NVIDIA 显卡（推荐显存 6GB+ 以流畅运行 3B 模型）

前置依赖

确保已安装 pip 和 git。建议创建独立的虚拟环境：

python -m venv smollm-env
source smollm-env/bin/activate  # Windows 用户请使用: smollm-env\Scripts\activate

安装步骤

安装核心依赖库 transformers 和 torch。国内开发者推荐使用清华或阿里镜像源加速下载。

# 使用清华镜像源安装 PyTorch (CUDA 12.1 版本示例，如需 CPU 版请移除 torch torchvision torchaudio 后的索引参数)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 安装 transformers 及相关依赖
pip install transformers accelerate sentencepiece protobuf -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

1. SmolLM3 (文本模型)

SmolLM3 是一个 3B 参数的语言模型，支持多语言（含部分欧洲语言）及长上下文（最高 128k）。以下示例展示如何加载模型并生成回答。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "HuggingFaceTB/SmolLM3-3B"
device = "cuda"  # 如有 GPU 设为 "cuda"，否则设为 "cpu"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
).to(device)

# 准备输入提示
prompt = "Give me a brief explanation of gravity in simple terms."
messages_think = [
    {"role": "user", "content": prompt}
]

# 应用聊天模板
text = tokenizer.apply_chat_template(
    messages_think,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成输出
generated_ids = model.generate(**model_inputs, max_new_tokens=32768)

# 解码并打印结果
output_ids = generated_ids[0][len(model_inputs.input_ids[0]) :]
print(tokenizer.decode(output_ids, skip_special_tokens=True))

2. SmolVLM (视觉语言模型)

SmolVLM 能够处理图像和文本混合输入，适用于视觉问答、图像描述等任务。

from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import requests

# 加载处理器和模型
processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-Instruct")
model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-Instruct")

# 加载示例图片
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png"
image = Image.open(requests.get(url, stream=True).raw)

# 构建消息内容
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What's in this image?"}
        ]
    }
]

# 处理输入并生成 (需配合 processor 处理图像数据)
inputs = processor(text=[messages[0]["content"][1]["text"]], images=[image], return_tensors="pt")
inputs = inputs.to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=100)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)

提示: 首次运行时，模型权重会自动从 Hugging Face Hub 下载。若网络受限，可手动下载模型文件至本地目录，并将代码中的 model_name 替换为本地路径。

常见问题

在哪里可以找到 SmolLM3 预训练数据集中提到的 jupyter-scripts 和 pull-requests 数据集？

如何获取 SmolLMv1 (135M) 的预训练代码以及 python-edu 数据集？

在单张 GPU（如 4090 或 Colab L4）上微调 VLM 时遇到 bitsandbytes 找不到 CUDA 的错误怎么办？

微调 SmolVLM 视频数据集后，推理输出出现重复时间戳或乱码，如何解决？

如何加载本地保存的微调模型（未上传到 Hugging Face）？

Hugging Face 博客中提到的 SmolVLM 微调笔记本链接失效了，哪里可以找到正确的链接？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他