SimpleTuner
SimpleTuner 是一款专为图像、视频及音频扩散模型设计的通用微调工具包。它致力于解决多模态生成模型训练流程复杂、配置繁琐以及对硬件资源要求过高的问题,让研究人员和开发者能够更轻松地定制属于自己的 AI 模型。
无论是拥有少量数据的教学实验,还是处理数十亿样本的大规模训练,SimpleTuner 都能灵活应对。其核心理念是“简约而不简单”,通过提供友好的 Web 管理界面和智能的默认配置,大幅降低了用户手动调整参数的门槛。即便是在显存有限的消费级显卡(如 16GB 或 24GB)上,借助 DeepSpeed 和 FSDP2 等先进的内存优化技术,也能高效训练大型模型。
该工具特别适合希望深入探索扩散模型微调的研究人员、需要快速验证想法的开发者,以及关注数据隐私、不愿依赖第三方云服务的团队。除了支持多 GPU 分布式训练和云端存储直连外,SimpleTuner 还独具“概念滑块”(Concept Sliders)功能,允许用户通过正负向采样精细控制 LoRA 模型的生成风格。作为一个开放的学术协作项目,SimpleTuner 代码结构清晰,欢迎社区共同参与改进,是进行多模态生成式 AI 研究的得力助手。
使用场景
一家独立游戏工作室的美术团队正试图基于 SDXL 架构,微调一个专属的像素艺术风格视频生成模型,以快速产出游戏过场动画素材。
没有 SimpleTuner 时
- 显存门槛过高:团队仅有的 16GB 显存显卡无法加载大模型进行训练,被迫升级硬件或放弃视频微调计划。
- 多模态流程割裂:处理图像、视频和音频需要分别搭建三套不同的训练脚本,数据预处理格式不统一,维护成本极高。
- 长尾比例失真:由于缺乏自动化的宽高比分桶(Aspect Bucketing)机制,生成的竖屏或超宽屏视频画面严重变形或裁剪。
- 调试周期漫长:每次调整超参数都需要手动修改复杂的命令行代码,缺乏直观界面,导致试错效率极低。
使用 SimpleTuner 后
- 低显存高效训练:借助 DeepSpeed 优化器和梯度检查点技术,成功在 16GB 单卡上跑通了视频扩散模型的微调流程。
- 统一多模态管线:通过一套配置即可同时管理图像与视频数据的缓存及训练,大幅简化了从数据清洗到模型产出的工作流。
- 完美适配多种画幅:利用内置的 Aspect Bucketing 功能,自动将不同比例的视频片段分组训练,确保了各种分辨率下的生成质量。
- 可视化敏捷迭代:通过友好的 Web UI 实时监控训练状态并动态调整“概念滑块”,将原本数天的参数调优缩短至几小时。
SimpleTuner 通过极致的简化设计与先进的内存优化技术,让中小团队也能在消费级硬件上低成本实现高质量的多模态模型定制。
运行环境要求
- 未说明
- 需要 NVIDIA GPU
- 大多数模型可在 24GB 显存上训练,部分优化后可在 16GB 上运行
- 支持多 GPU 分布式训练
- 支持量化技术 (int8/fp8/nf4) 以在较小显存上训练大模型
未说明

快速开始
SimpleTuner 💹
ℹ️ 除非通过可选的
report_to、push_to_hub标志或需手动配置的 Webhook,否则不会向任何第三方发送数据。
SimpleTuner 致力于简洁易懂,代码结构清晰明了。本代码库旨在作为学术交流的共享平台,欢迎各位贡献代码。
如果您想加入我们的社区,可以通过 Terminus 研究组在 Discord 上找到我们。如有任何问题,欢迎随时在 Discord 中与我们联系。
目录
设计哲学
- 简单性:针对大多数使用场景提供良好的默认配置,减少不必要的调整。
- 通用性:适用于从小型数据集到大规模数据集的各种图像数量。
- 前沿特性:仅采用经过验证有效的功能,避免引入未经测试的新选项。
教程
在开始阅读 新的 Web UI 教程 或 类命令行教程 之前,请务必先完整浏览本 README 文件,因为其中包含了您可能需要首先了解的重要信息。
如果您希望在不阅读完整文档或使用任何 Web 界面的情况下进行手动配置的快速入门,可以参考 快速入门指南。
对于内存受限的系统,请参阅 DeepSpeed 文档,该文档介绍了如何使用 🤗Accelerate 配置 Microsoft 的 DeepSpeed 进行优化器状态卸载。若需了解基于 DTensor 的分片和上下文并行化技术,请阅读 FSDP2 指南,其中详细说明了 SimpleTuner 内部全新的 FullyShardedDataParallel v2 工作流程。
对于多节点分布式训练,此指南 将帮助您调整 INSTALL 和快速入门指南中的配置,使其适用于多节点训练,并针对包含数十亿张样本的大规模图像数据集进行优化。
特性
SimpleTuner 提供跨多种扩散模型架构的全面训练支持,且各项功能保持一致:
核心训练功能
- 用户友好的 Web UI:通过简洁的仪表盘管理整个训练流程。
- 多模态训练:统一的管道支持 图像、视频和音频 生成模型。
- 多 GPU 训练:自动优化的多 GPU 分布式训练。
- 高级缓存:将图像、视频、音频及标题嵌入缓存至磁盘,以加快训练速度。
- 宽高比分桶:支持不同尺寸和宽高比的图像/视频。
- 概念滑块:支持 LoRA/LyCORIS/全参数(通过 LyCORIS
full)的滑块式微调,具备正/负/中性采样及每条提示语的强度控制;详情请参阅 滑块 LoRA 指南。 - 内存优化:大多数模型可在 24GB 显存的 GPU 上训练,许多模型甚至可以在 16GB 显存上通过优化实现训练。
- DeepSpeed 和 FSDP2 集成:利用优化器/梯度/参数分片、上下文并行注意力、梯度检查点和优化器状态卸载等技术,在较小显存的 GPU 上训练大型模型。
- S3 训练:直接从云存储(Cloudflare R2、Wasabi S3)加载数据进行训练。
- EMA 支持:采用指数移动平均权重,提升稳定性和质量。
- 自定义实验跟踪器:将
accelerate.GeneralTracker放入simpletuner/custom-trackers目录,并使用--report_to=custom-tracker --custom_tracker=<name>参数。
多用户与企业级特性
SimpleTuner 包含一个完整的多用户训练平台,具备企业级功能——完全免费且开源,永久可用。
- 工作者编排:注册分布式 GPU 工作者,它们会自动连接到中央面板并接收 SSE 任务分发;支持临时(云端启动)和持久(始终在线)工作者;详情请参阅 工作者编排指南。
- SSO 集成:支持 LDAP/Active Directory 或 OIDC 提供商(Okta、Azure AD、Keycloak、Google)的身份验证;详情请参阅 外部认证指南。
- 基于角色的访问控制:提供四种默认角色(查看者、研究员、负责人、管理员),拥有 17 种以上细粒度权限;可通过 glob 模式定义资源规则,限制团队对配置、硬件或提供商的使用。
- 组织与团队:分层多租户结构,设有上限配额;组织级限制执行绝对最大值,而团队级限制则在组织范围内生效。
- 配额与支出限制:可在组织、团队或用户层面强制执行每日/每月成本上限、作业并发限制以及提交速率限制;可采取阻止、警告或需审批等措施。
- 带优先级的作业队列:五种优先级(低 → 严重),支持跨团队的公平调度,防止长时间等待的作业被饿死,并允许管理员覆盖优先级。
- 审批工作流:可根据规则触发对超出成本阈值、首次使用或特定硬件请求的作业的审批;可通过 UI、API 或邮件回复进行审批。
- 邮件通知:集成 SMTP/IMAP 协议,用于发送作业状态、审批请求、配额警告及完成提醒等通知。
- API 密钥与作用域权限:为 CI/CD 流水线生成具有有效期和有限作用域的 API 密钥。
- 审计日志:记录所有用户操作,并进行链式验证以满足合规要求;详情请参阅 审计指南。
有关部署细节,请参阅 企业版指南。
模型架构支持
| 模型 | 参数量 | PEFT LoRA | Lycoris | 全秩 | ControlNet | 量化 | 流匹配 | 文本编码器 |
|---|---|---|---|---|---|---|---|---|
| Stable Diffusion XL | 3.5B | ✓ | ✓ | ✓ | ✓ | int8/nf4 | ✗ | CLIP-L/G |
| Stable Diffusion 3 | 2B-8B | ✓ | ✓ | ✓* | ✓ | int8/fp8/nf4 | ✓ | CLIP-L/G + T5-XXL |
| Flux.1 | 12B | ✓ | ✓ | ✓* | ✓ | int8/fp8/nf4 | ✓ | CLIP-L + T5-XXL |
| Flux.2 | 32B | ✓ | ✓ | ✓* | ✗ | int8/fp8/nf4 | ✓ | Mistral-3 Small |
| ACE-Step | 3.5B | ✓ | ✓ | ✓* | ✗ | int8 | ✓ | UMT5 |
| HeartMuLa | 3B | ✓ | ✓ | ✓* | ✗ | int8 | ✗ | 无 |
| Chroma 1 | 8.9B | ✓ | ✓ | ✓* | ✗ | int8/fp8/nf4 | ✓ | T5-XXL |
| Auraflow | 6.8B | ✓ | ✓ | ✓* | ✓ | int8/fp8/nf4 | ✓ | UMT5-XXL |
| PixArt Sigma | 0.6B-0.9B | ✗ | ✓ | ✓ | ✓ | int8 | ✗ | T5-XXL |
| Sana | 0.6B-4.8B | ✗ | ✓ | ✓ | ✗ | int8 | ✓ | Gemma2-2B |
| Lumina2 | 2B | ✓ | ✓ | ✓ | ✗ | int8 | ✓ | Gemma2 |
| Kwai Kolors | 5B | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ | ChatGLM-6B |
| LTX Video | 5B | ✓ | ✓ | ✓ | ✗ | int8/fp8 | ✓ | T5-XXL |
| LTX Video 2 | 19B | ✓ | ✓ | ✓* | ✗ | int8/fp8 | ✓ | Gemma3 |
| Wan Video | 1.3B-14B | ✓ | ✓ | ✓* | ✗ | int8 | ✓ | UMT5 |
| HiDream | 17B (8.5B MoE) | ✓ | ✓ | ✓* | ✓ | int8/fp8/nf4 | ✓ | CLIP-L + T5-XXL + Llama |
| Cosmos2 | 2B-14B | ✗ | ✓ | ✓ | ✗ | int8 | ✓ | T5-XXL |
| OmniGen | 3.8B | ✓ | ✓ | ✓ | ✗ | int8/fp8 | ✓ | T5-XXL |
| Qwen Image | 20B | ✓ | ✓ | ✓* | ✗ | int8/nf4(必需) | ✓ | T5-XXL |
| SD 1.x/2.x(旧版) | 0.9B | ✓ | ✓ | ✓ | ✓ | int8/nf4 | ✗ | CLIP-L |
✓ = 支持,✗ = 不支持, = 需要 DeepSpeed 才能进行全秩训练*
高级训练技术
- TREAD - 针对 Transformer 模型的逐 token 掉落法,包括 Kontext 训练
- 掩码损失训练 - 结合分割/深度指导,实现更优的收敛效果
- 先验正则化 - 提升训练稳定性,确保角色一致性
- 梯度检查点 - 可配置间隔,优化内存与速度
- 损失函数 - 支持 L2、Huber、Smooth L1,并可进行调度
- SNR 加权 - 通过 Min-SNR gamma 加权改善训练动态
- 分组卸载 - Diffusers v0.33+ 提供模块组 CPU/磁盘暂存功能,可选 CUDA 流
- 验证适配器扫描 - 在验证过程中临时加载 LoRA 适配器(单个或 JSON 预设),以测量仅使用适配器或对比渲染的效果,而无需修改训练循环
- 外部验证钩子 - 替换内置验证流程或上传后步骤,使用自定义脚本,以便在另一块 GPU 上运行检查,或将中间产物转发至任意云服务商(详情)
- CREPA 正则化 - 视频 DiT 的跨帧表征对齐(指南)
- LoRA I/O 格式 - 可以按照标准 Diffusers 布局或 ComfyUI 风格的
diffusion_model.*键来加载/保存 PEFT LoRA(Flux/Flux2/Lumina2/Z-Image 自动检测 ComfyUI 输入)
模型特有功能
- Flux Kontext - 用于 Flux 模型的条件编辑和图像到图像训练
- PixArt 两阶段 - 支持 PixArt Sigma 的 eDiff 训练流程
- 流匹配模型 - 先进的调度机制,结合 beta 和均匀分布
- HiDream MoE - 混合专家门控损失增强
- T5 掩码训练 - 为 Flux 及兼容模型提升细节表现
- QKV 融合 - 内存与速度优化(Flux、Lumina2)
- TREAD 集成 - 大多数模型的可选性令牌路由
- Wan 2.x I2V - 提供高低阶段预设,并配备 2.1 时间嵌入回退方案(参见 Wan 快速入门)
- 无分类器引导 - 可选 CFG 重新引入,适用于蒸馏模型
快速入门指南
所有受支持的模型都提供详细的快速入门指南:
- TwinFlow 少步生成(RCGM)指南 - 启用 RCGM 辅助损失,用于少步或单步生成(流模型或通过 diff2flow 的扩散模型)
- Flux.1 指南 - 包含 Kontext 编辑支持和 QKV 融合
- Flux.2 指南 - 全新! 最新的巨型 Flux 模型,配备 Mistral-3 文本编码器
- Z-Image 指南 - 基础版/Turbo LoRA 结合助手适配器 + TREAD 加速
- ACE-Step 指南 - 全新! 音频生成模型训练(文本到音乐)
- HeartMuLa 指南 - 全新! 自回归音频生成模型训练(文本到音频)
- Chroma 指南 - Lodestone 的流匹配 Transformer,配备 Chroma 特定调度
- Stable Diffusion 3 指南 - 完整训练及 ControlNet 支持的 LoRA 训练
- Stable Diffusion XL 指南 - 完整的 SDXL 训练流程
- Auraflow 指南 - 流匹配模型训练
- PixArt Sigma 指南 - DiT 模型,支持两阶段训练
- Sana 指南 - 轻量级流匹配模型
- Lumina2 指南 - 20亿参数的流匹配模型
- Kwai Kolors 指南 - 基于 SDXL,采用 ChatGLM 编码器
- LongCat-Video 指南 - 流匹配文本到视频及图像到视频,配备 Qwen-2.5-VL
- LongCat-Video 编辑指南 - 先条件化模式(图像到视频)
- LongCat-Image 指南 - 60亿参数的双语流匹配模型,配备 Qwen-2.5-VL 编码器
- LongCat-Image 编辑指南 - 图像编辑模式,需要参考潜变量
- LTX 视频指南 - 视频扩散模型训练
- Hunyuan Video 1.5 指南 - 83亿参数的流匹配 T2V/I2V 模型,带超分辨率阶段
- Wan 视频指南 - 视频流匹配模型,支持 TREAD 加速
- HiDream 指南 - MoE 模型,具备高级功能
- Cosmos2 指南 - 多模态图像生成
- OmniGen 指南 - 统一图像生成模型
- Qwen 图像指南 - 200亿参数的大规模训练
- Stable Cascade Stage C 指南 - 先验 LoRA,结合先验与解码器验证
- Kandinsky 5.0 图像指南 - 图像生成,使用 Qwen2.5-VL 和 Flux VAE
- Kandinsky 5.0 视频指南 - 视频生成,使用 HunyuanVideo VAE
硬件要求
一般要求
- NVIDIA: 推荐 RTX 3080 及以上(已测试至 H200)
- AMD: 已验证 7900 XTX 24GB 和 MI300X(相比 NVIDIA 内存占用更高)
- Apple: M3 Max 及以上,配备 24GB 以上统一内存,适用于 LoRA 训练
按模型大小划分的内存指南
- 大型模型(120亿+参数): A100-80G 用于全秩训练,24GB 以上用于 LoRA/Lycoris 训练
- 中型模型(20亿–80亿参数): 16GB 以上用于 LoRA 训练,40GB 以上用于全秩训练
- 小型模型(<20亿参数): 12GB 以上足以应对大多数训练类型
注意: 量化(int8/fp8/nf4)可显著降低内存需求。请参阅各模型的 快速入门指南,以获取具体要求。
安装
对于大多数用户,SimpleTuner 可通过 pip 安装:
# 基础安装(仅 CPU 的 PyTorch)
pip install simpletuner
# CUDA 用户(NVIDIA 显卡)
pip install 'simpletuner[cuda]'
# CUDA 13 / Blackwell 用户(NVIDIA B 系列显卡)
pip install 'simpletuner[cuda13]' --extra-index-url https://download.pytorch.org/whl/cu130
# ROCm 用户(AMD 显卡)
pip install 'simpletuner[rocm]' --extra-index-url https://download.pytorch.org/whl/rocm7.1
# Apple Silicon 用户(M1/M2/M3/M4 Mac)
pip install 'simpletuner[apple]'
如需手动安装或开发环境搭建,请参阅 安装文档。
故障排除
可通过在环境配置文件(config/config.env)中添加 export SIMPLETUNER_LOG_LEVEL=DEBUG 来启用调试日志,以获得更详细的洞察。
若要分析训练循环的性能,设置 SIMPLETUNER_TRAINING_LOOP_LOG_LEVEL=DEBUG 将显示时间戳,帮助您识别配置中的任何问题。
有关可用选项的完整列表,请参阅 此文档。
版本历史
v3.3.42025/12/31v3.3.32025/12/24v4.1.32026/04/02v4.1.22026/03/25v4.1.12026/03/14v4.1.02026/02/14v4.0.62026/02/11v4.0.52026/02/07v4.0.42026/02/01v4.0.32026/01/29v4.0.22026/01/22v4.0.12026/01/17v4.0.02026/01/12v3.3.22025/12/23v3.3.12025/12/19v3.3.02025/12/16v3.2.32025/12/15v3.2.22025/12/12v3.2.12025/12/09v3.2.02025/12/05常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备