LlamaFactory

69.8k 8.5k 中等 12 次阅读今天Apache-2.0Agent语言模型图像开发框架

AI 解读由 AI 自动生成，仅供参考

LlamaFactory 是一个专为大语言模型（LLM）和视觉语言模型（VLM）打造的高效微调框架，旨在让模型定制变得简单快捷。它统一支持超过 100 种主流开源模型的训练，无论是 LLaMA、Qwen 还是多模态模型，都能在一个平台上一站式完成。

过去，微调大模型往往面临环境配置复杂、代码门槛高、资源消耗大等难题。LlamaFactory 通过提供零代码的命令行工具和直观的 Web 界面（LLaMA Board），极大地降低了操作难度，让用户无需深入底层代码即可轻松启动训练任务。同时，它在显存优化和训练速度上进行了深度打磨，支持多种高效微调算法，显著减少了硬件资源需求。

这款工具非常适合 AI 开发者、研究人员以及希望将大模型应用于特定场景的企业团队使用。无论你是想快速验证算法的研究者，还是需要定制行业专属模型的工程师，甚至是希望通过图形界面入门大模型的学生，都能从中受益。其独特的亮点在于广泛的模型兼容性、对国产算力（如华为昇腾 NPU）的良好支持，以及被亚马逊、英伟达等巨头认可的稳定性。借助 LlamaFactory，你可以更专注于业务逻辑与数据本身，高效打造属于自己的智能模型。

使用场景

某金融科技公司需要快速将通用的 Qwen2.5 大模型定制为精通内部合规文档的“风控助手”，以辅助分析师处理海量非结构化报告。

没有 LlamaFactory 时

环境配置繁琐：团队需手动编写复杂的 DeepSpeed 配置文件，针对不同显卡型号反复调试依赖库，耗费数天搭建训练环境。
多模型适配困难：若想对比 Llama 3 与 ChatGLM 的效果，必须重写数据预处理脚本和训练入口代码，切换成本极高。
资源利用率低：缺乏对 LoRA、QLoRA 等高效微调技术的统一封装，显存占用过大，导致只能在少量高端卡上运行，排队等待时间长。
过程监控黑盒：训练过程中难以直观查看损失曲线或即时测试模型输出，往往等到训练结束才发现效果不佳，需推倒重来。

使用 LlamaFactory 后

一键启动训练：通过简单的 YAML 配置文件或 Web UI 界面，仅需几分钟即可加载预置模板，自动完成环境适配并启动任务。
无缝切换模型：支持 100+ 种主流模型架构，只需修改配置中的模型名称参数，即可在同一套流程下快速验证不同基座的表现。
极致显存优化：内置优化的量化与并行策略，让单张消费级显卡也能流畅运行 7B 甚至更大参数模型的微调，大幅降低硬件门槛。
可视化全流程：集成 LLaMA Board 可视化面板，实时监测训练指标并支持在线对话测试，让迭代调优过程透明可控。

LlamaFactory 将原本需要资深算法工程师耗时数周的模型定制工作，转化为普通开发者几天内即可完成的标准化流程，极大加速了垂直领域 AI 应用的落地。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

NVIDIA GPU 必需（支持多卡），显存需求视模型大小而定（QLoRA 最低约 6-8GB，全量微调需更大），支持 CUDA
同时支持 AMD GPU (ROCm) 和华为 NPU

内存

未说明（建议 16GB+ 以处理大型数据集和模型）

依赖

notes支持多种量化格式（AWQ, GPTQ, AQLM 等）以降低显存需求；提供 Docker 镜像简化部署；支持通过 FlashAttention-2 和 Unsloth 加速训练；可使用 Conda 或 Docker 搭建环境。

python未说明（通常建议 3.9+ 以兼容最新 PyTorch 版本）

torch

transformers

accelerate

peft

trl

datasets

gradio

vllm

bitsandbytes

快速开始

# LLaMA Factory

已被 Amazon、NVIDIA、阿里云等采用。

支持者 ❤️

Warp，开发者的智能终端适用于 MacOS、Linux 和 Windows

无需代码即可轻松微调 100 多种大型语言模型 CLI 和 Web UI

GitHub 趋势

👋 加入我们的 WeChat、NPU、Lab4AI、LLaMA Factory Online 用户群。

[ 英文 | 中文 ]

微调大型语言模型可以像…一样简单

https://github.com/user-attachments/assets/3991a3a8-4276-4d30-9cab-4cb0c4b9b99e

开始本地训练：

请参考使用方法

开始云端训练：

Colab（免费）：https://colab.research.google.com/drive/1eRTPn37ltBbYsISy9Aw2NuI2Aq5CQrD9?usp=sharing
PAI-DSW（免费试用）：https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory
LLaMA Factory Online：https://www.llamafactory.com.cn/?utm_source=LLaMA-Factory
Alaya NeW（云 GPU 优惠）：https://docs.alayanew.com/docs/documents/useGuide/LLaMAFactory/mutiple/?utm_source=LLaMA-Factory

阅读技术文档：

文档（持续更新中）：https://llamafactory.readthedocs.io/en/latest/
AMD GPU 文档：https://rocm.docs.amd.com/projects/ai-developer-hub/en/latest/notebooks/fine_tune/llama_factory_llama3.html
官方博客：https://blog.llamafactory.net/en/
官方课程：https://www.lab4ai.cn/course/detail?id=7c13e60f6137474eb40f6fd3983c0f46&utm_source=LLaMA-Factory

[!注意] 除上述链接外，其他所有网站均为未经授权的第三方网站，请谨慎使用。

特性

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen3、Qwen3-VL、DeepSeek、Gemma、GLM、Phi 等。
集成方法：（连续）预训练、（多模态）监督微调、奖励建模、PPO、DPO、KTO、ORPO 等。
可扩展资源：通过 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 实现 16 位全量微调、冻结微调、LoRA 以及 2/3/4/5/6/8 位 QLoRA。
先进算法：GaLore、BAdam、APOLLO、Adam-mini、Muon、OFT、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 PiSSA。
实用技巧：FlashAttention-2、Unsloth、Liger Kernel、KTransformers、RoPE 缩放、NEFTune 和 rsLoRA。
广泛任务：多轮对话、工具使用、图像理解、视觉定位、视频识别、音频理解等。
实验监控工具：LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
更快推理：OpenAI 风格的 API、Gradio UI 和 CLI，搭配 vLLM worker 或 SGLang worker。

Day-N 对前沿模型微调的支持

支持日期	模型名称
第 0 天	Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6
第 1 天	Llama 3 / GLM-4 / Mistral Small / PaliGemma2 / Llama 4

博客

[!TIP] 我们现在为 LLaMA Factory 设立了专属博客！

网站：https://blog.llamafactory.net/en/

💡 KTransformers 微调 × LLaMA Factory：用 2 块 4090 显卡 + CPU 微调 10000 亿参数模型（英文）
💡 Easy Dataset × LLaMA Factory：让大模型高效学习领域知识（英文）
使用 LLaMA-Factory 微调心理健康领域的 LLM（中文）
使用 LLaMA-Factory 微调 GPT-OSS 以用于角色扮演（中文）
基于 LLaMA-Factory 和 EasyR1 的一站式无代码模型强化学习与部署平台（中文）
Apoidea Group 如何利用 LLaMA-Factory 在 Amazon SageMaker HyperPod 上，通过多模态模型增强银行文档的视觉信息提取（英文）

所有博客

使用 LLaMA-Factory 微调 Llama3.1-70B 以用于医学诊断（中文）
使用 LLaMA-Factory 微调 Qwen2.5-VL 以用于自动驾驶（中文）
LLaMA Factory：微调 DeepSeek-R1-Distill-Qwen-7B 模型以用于新闻分类（中文）
基于 SageMaker 和 LLaMA-Factory 的一站式无代码模型微调与部署平台（中文）
LLaMA Factory 多模态微调实践：微调 Qwen2-VL 以用于个人旅游指南（中文）
LLaMA Factory：微调 Llama3 以用于角色扮演（中文）

更改日志

[25/10/26] 我们支持 Megatron-core 训练后端，使用 mcore_adapter。请参阅 PR #9237 以开始使用。

[25/08/22] 我们新增支持 OFT 和 OFTv2。使用方法请参阅示例。

[25/08/20] 我们新增支持微调 Intern-S1-mini 模型。请参阅 PR #8976 以开始使用。

[25/08/06] 我们新增支持微调 GPT-OSS 模型。请参阅 PR #8826 以开始使用。

完整更改日志

[25/07/02] 我们新增支持微调 GLM-4.1V-9B-Thinking 模型。

[25/04/28] 我们新增支持微调 Qwen3 系列模型。

[25/04/21] 我们新增支持 Muon 优化器。使用方法请参阅示例。感谢 @tianshijing 的 PR。

[25/04/16] 我们新增支持微调 InternVL3 模型。请参阅 PR #7258 以开始使用。

[25/04/14] 我们新增支持微调 GLM-Z1 和 Kimi-VL 模型。

[25/04/06] 我们新增支持微调 Llama 4 模型。请参阅 PR #7611 以开始使用。

[25/03/31] 我们新增支持微调 Qwen2.5 Omni 模型。请参阅 PR #7537 以开始使用。

[25/03/15] 我们新增支持 SGLang 作为推理后端。尝试设置 infer_backend: sglang 以加速推理。

[25/03/12] 我们新增支持微调 Gemma 3 模型。

[25/02/24] 宣布推出 EasyR1，这是一个高效、可扩展且支持多模态的 RL 训练框架，专为高效的 GRPO 训练而设计。

[25/02/11] 我们支持在导出模型检查点时保存 Ollama 的 modelfile。使用方法请参阅示例。

[25/02/05] 我们支持在音频理解任务上对 Qwen2-Audio 和 MiniCPM-o-2.6 进行微调。

[25/01/31] 我们支持对 DeepSeek-R1 和 Qwen2.5-VL 模型进行微调。

[25/01/15] 我们支持 APOLLO 优化器。使用方法请参阅示例。

[25/01/14] 我们支持对 MiniCPM-o-2.6 和 MiniCPM-V-2.6 模型进行微调。感谢 @BUAADreamer 的 PR。

[25/01/14] 我们支持对 InternLM 3 模型进行微调。感谢 @hhaAndroid 的 PR。

[25/01/10] 我们支持对 Phi-4 模型进行微调。

[24/12/21] 我们支持使用 SwanLab 进行实验跟踪和可视化。详情请参阅本节。

[24/11/27] 我们支持对 Skywork-o1 模型以及 OpenO1 数据集进行微调。

[24/10/09] 我们支持从 Modelers Hub 下载预训练模型和数据集。使用方法请参阅本教程。

[24/09/19] 我们支持对 Qwen2.5 模型进行微调。

[24/08/30] 我们支持对 Qwen2-VL 模型进行微调。感谢 @simonJJJ 的 PR。

[24/08/27] 我们支持 Liger Kernel。尝试设置 enable_liger_kernel: true 以实现高效训练。

[24/08/09] 我们支持 Adam-mini 优化器。使用方法请参阅示例。感谢 @relic-yuexi 的 PR。

[24/07/04] 我们支持无污染的打包训练。使用 neat_packing: true 可启用此功能。感谢 @chuan298 的 PR。

[24/06/16] 我们支持 PiSSA 算法。使用方法请参阅示例。

[24/06/07] 我们支持对 Qwen2 和 GLM-4 模型进行微调。

[24/05/26] 我们支持用于偏好学习的 SimPO 算法。使用方法请参阅示例。

[24/05/20] 我们支持对 PaliGemma 系列模型进行微调。请注意，PaliGemma 模型是预训练模型，您需要使用 paligemma 模板对其进行微调以完成对话生成。

[24/05/18] 我们支持用于偏好学习的 KTO 算法。使用方法请参阅示例。

[24/05/14] 我们支持在 Ascend NPU 设备上进行训练和推理。详情请参阅安装部分。

[24/04/26] 我们支持对 LLaVA-1.5 多模态大语言模型进行微调。使用方法请参阅示例。

[24/04/22] 我们提供了一个 Colab 笔记本，用于在免费的 T4 GPU 上对 Llama-3 模型进行微调。使用 LLaMA Factory 微调的两款 Llama-3 衍生模型已在 Hugging Face 上发布，请查看 Llama3-8B-Chinese-Chat 和 Llama3-Chinese 以获取详细信息。

[24/04/21] 我们支持根据 AstraMindAI 的实现 使用 Mixture-of-Depths。使用方法请参阅示例。

[24/04/16] 我们支持 BAdam 优化器。使用方法请参阅示例。

[24/04/16] 我们支持 unsloth 的长序列训练（在 24GB 显存下运行 Llama-2-7B-56k）。与 FlashAttention-2 相比，其速度提升了 117%，显存占用减少了 50%。更多基准测试结果可在此页面查看。

[24/03/31] 我们支持 ORPO。使用方法请参阅示例。

[24/03/21] 我们的论文 “[LlamaFactory：统一高效的 100+ 语言模型微调]” 已在 arXiv 上发表！

[24/03/20] 我们支持 FSDP+QLoRA，可在两块 24GB 显存的 GPU 上对 70B 参数的模型进行微调。使用方法请参阅示例。

[24/03/13] 我们支持 LoRA+。使用方法请参阅示例。

[24/03/07] 我们支持 GaLore 优化器。使用方法请参阅示例。

[24/03/07] 我们集成了 vLLM，以实现更快、更高效的并发推理。尝试设置 infer_backend: vllm，即可享受 270% 的推理速度提升。

[24/02/28] 我们支持权重分解的 LoRA (DoRA)。尝试设置 use_dora: true 以启用 DoRA 训练。

[24/02/15] 我们支持由 LLaMA Pro 提出的 块扩展。使用方法请参阅示例。

[24/02/05] Qwen1.5（Qwen2 测试版）系列模型现已在 LLaMA-Factory 中得到支持。详情请参阅这篇博客文章。

[24/01/18] 我们支持对大多数模型进行 代理微调，通过使用 dataset: glaive_toolcall_en 进行微调，为模型赋予工具使用能力。

[23/12/23] 我们支持 unsloth 的实现，以加速 LLaMA、Mistral 和 Yi 模型的 LoRA 微调。尝试设置 use_unsloth: true 参数以激活 unsloth 补丁。在我们的基准测试中，其速度提升了 170%，详情请参阅此页面。

[23/12/12] 我们支持在我们的框架中对最新的 MoE 模型 Mixtral 8x7B 进行微调。硬件要求请参阅此处。

[23/12/01] 我们支持从 ModelScope Hub 下载预训练模型和数据集。使用方法请参阅本教程。

[23/10/21] 我们支持了用于微调的 NEFTune 技巧。尝试使用 neftune_noise_alpha: 5 参数来激活 NEFTune。

[23/09/27] 我们为 LLaMA 模型支持了由 LongLoRA 提出的 $S^2$-Attn。尝试使用 shift_attn: true 参数来启用移位短注意力机制。

[23/09/23] 我们在这个仓库中集成了 MMLU、C-Eval 和 CMMLU 基准测试。使用方法请参阅示例。

[23/09/10] 我们支持了 FlashAttention-2。如果你使用的是 RTX4090、A100 或 H100 显卡，可以尝试使用 flash_attn: fa2 参数来启用 FlashAttention-2。

[23/08/12] 我们支持了 RoPE 缩放，以扩展 LLaMA 模型的上下文长度。在训练时尝试使用 rope_scaling: linear 参数，在推理时使用 rope_scaling: dynamic 参数，以实现位置嵌入的外推。

[23/08/11] 我们支持了针对指令微调模型的 DPO 训练。使用方法请参阅示例。

[23/07/31] 我们支持了 数据流式加载。尝试使用 streaming: true 和 max_steps: 10000 参数，以流式方式加载你的数据集。

[23/07/29] 我们在 Hugging Face 上发布了两款经过指令微调的 13B 参数模型。详情请见这些 Hugging Face 仓库（LLaMA-2 / Baichuan)。

[23/07/18] 我们开发了一个用于训练、评估和推理的 一体化 Web 界面。尝试运行 train_web.py，即可在你的浏览器中对模型进行微调。感谢 @KanadeSiina 和 @codemayq 在开发过程中所做的努力。

[23/07/09] 我们发布了 FastEdit ⚡🩹，这是一个易于使用的工具包，可高效地编辑大型语言模型的事实性知识。如果你对此感兴趣，请关注 FastEdit。

[23/06/29] 我们提供了一个使用指令遵循数据集训练聊天模型的 可复现示例，详情请参阅 Baichuan-7B-sft。

[23/06/22] 我们的演示 API（src/api_demo.py）已与 OpenAI 的格式（OpenAI 官网）对齐，你可以在任何基于 ChatGPT 的应用程序中插入经过微调的模型。

[23/06/03] 我们支持量化训练和推理（即 QLoRA）。使用方法请参阅示例。

[!TIP] 如果你无法使用最新功能，请拉取最新代码并重新安装 LLaMA-Factory。

支持的模型

Model	Model size	Template
BLOOM/BLOOMZ	560M/1.1B/1.7B/3B/7.1B/176B	-
DeepSeek (LLM/Code/MoE)	7B/16B/67B/236B	deepseek
DeepSeek 3-3.2	236B/671B	deepseek3
DeepSeek R1 (Distill)	1.5B/7B/8B/14B/32B/70B/671B	deepseekr1
ERNIE-4.5	0.3B/21B/300B	ernie_nothink
Falcon/Falcon H1	0.5B/1.5B/3B/7B/11B/34B/40B/180B	falcon/falcon_h1
Gemma/Gemma 2/CodeGemma	2B/7B/9B/27B	gemma/gemma2
Gemma 3/Gemma 3n	270M/1B/4B/6B/8B/12B/27B	gemma3/gemma3n
GLM-4/GLM-4-0414/GLM-Z1	9B/32B	glm4/glmz1
GLM-4.5/GLM-4.5(6)V	9B/106B/355B	glm4_moe/glm4_5v
GPT-2	0.1B/0.4B/0.8B/1.5B	-
GPT-OSS	20B/120B	gpt_oss
Granite 3-4	1B/2B/3B/7B/8B	granite3/granite4
Hunyuan/Hunyuan1.5 (MT)	0.5B/1.8B/4B/7B/13B	hunyuan/hunyuan_small
InternLM 2-3	7B/8B/20B	intern2
InternVL 2.5-3.5	1B/2B/4B/8B/14B/30B/38B/78B/241B	intern_vl
Intern-S1-mini	8B	intern_s1
Kimi-VL	16B	kimi_vl
Ling 2.0 (mini/flash)	16B/100B	bailing_v2
LFM 2.5 (VL)	1.2B/1.6B	lfm2/lfm2_vl
Llama	7B/13B/33B/65B	-
Llama 2	7B/13B/70B	llama2
Llama 3-3.3	1B/3B/8B/70B	llama3
Llama 4	109B/402B	llama4
Llama 3.2 Vision	11B/90B	mllama
LLaVA-1.5	7B/13B	llava
LLaVA-NeXT	7B/8B/13B/34B/72B/110B	llava_next
LLaVA-NeXT-Video	7B/34B	llava_next_video
MiMo	7B/309B	mimo/mimo_v2
MiniCPM 4	0.5B/8B	cpm4
MiniCPM-o/MiniCPM-V 4.5	8B/9B	minicpm_o/minicpm_v
MiniMax-M1/MiniMax-M2	229B/456B	minimax1/minimax2
Ministral 3	3B/8B/14B	ministral3
Mistral/Mixtral	7B/8x7B/8x22B	mistral
PaliGemma/PaliGemma2	3B/10B/28B	paligemma
Phi-3/Phi-3.5	4B/14B	phi
Phi-3-small	7B	phi_small
Phi-4-mini/Phi-4	3.8B/14B	phi4_mini/phi4
Pixtral	12B	pixtral
Qwen2 (Code/Math/MoE/QwQ)	0.5B/1.5B/3B/7B/14B/32B/72B/110B	qwen
Qwen3 (MoE/Instruct/Thinking/Next)	0.6B/1.7B/4B/8B/14B/32B/80B/235B	qwen3/qwen3_nothink
Qwen3.5	0.8B/2B/4B/9B/27B/35B/122B/397B	qwen3_5
Qwen2-Audio	7B	qwen2_audio
Qwen2.5-Omni	3B/7B	qwen2_omni
Qwen3-Omni	30B	qwen3_omni
Qwen2-VL/Qwen2.5-VL/QVQ	2B/3B/7B/32B/72B	qwen2_vl
Qwen3-VL	2B/4B/8B/30B/32B/235B	qwen3_vl
Seed (OSS/Coder)	8B/36B	seed_oss/seed_coder
StarCoder 2	3B/7B/15B	-
TeleChat 2-2.5	3B/7B/35B/115B	telechat2
Yuan 2	2B/51B/102B	yuan

[!NOTE] For the "base" models, the template argument can be chosen from default, alpaca, vicuna etc. But make sure to use the corresponding template for the "instruct/chat" models.

If the model has both reasoning and non-reasoning versions, please use the _nothink suffix to distinguish between them. For example, qwen3 and qwen3_nothink.

Remember to use the SAME template in training and inference.

*: You should install the transformers from main branch and use DISABLE_VERSION_CHECK=1 to skip version check.

**: You need to install a specific version of transformers to use the corresponding model.

Please refer to constants.py for a full list of models we supported.

You also can add a custom chat template to template.py.

Supported Training Approaches

Approach	Full-tuning	Freeze-tuning	LoRA	QLoRA	OFT	QOFT
Pre-Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
Supervised Fine-Tuning	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
Reward Modeling	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
PPO Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
DPO Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
KTO Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
ORPO Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:
SimPO Training	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:	:white_check_mark:

[!TIP] The implementation details of PPO can be found in this blog.

Provided Datasets

Pre-training datasets

Supervised fine-tuning datasets

偏好数据集

部分数据集在使用前需要确认，因此建议您使用以下命令登录Hugging Face账号。

pip install "huggingface_hub<1.0.0"
huggingface-cli login

要求

必需	最低	推荐
python	3.11	>=3.11
torch	2.0.0	2.6.0
torchvision	0.15.0	0.21.0
transformers	4.49.0	4.50.0
datasets	2.16.0	3.2.0
accelerate	0.34.0	1.2.1
peft	0.14.0	0.15.1
trl	0.8.6	0.9.6

可选	最低	推荐
CUDA	11.6	12.2
deepspeed	0.10.0	0.16.4
bitsandbytes	0.39.0	0.43.1
vllm	0.4.3	0.8.2
flash-attn	2.5.6	2.7.2

硬件需求

* 估算

方法	位数	7B	14B	30B	70B	`x`B
完整模型 (`bf16` 或 `fp16`)	32	120GB	240GB	600GB	1200GB	`18x`GB
完整模型 (`pure_bf16`)	16	60GB	120GB	300GB	600GB	`8x`GB
冻结/LoRA/GaLore/APOLLO/BAdam/OFT	16	16GB	32GB	64GB	160GB	`2x`GB
QLoRA / QOFT	8	10GB	20GB	40GB	80GB	`x`GB
QLoRA / QOFT	4	6GB	12GB	24GB	48GB	`x/2`GB
QLoRA / QOFT	2	4GB	8GB	16GB	24GB	`x/4`GB

入门指南

安装

[!重要] 安装是必须的。

从源码安装

git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt

可选依赖项包括：metrics、deepspeed。可通过以下命令安装：pip install -e . && pip install -r requirements/metrics.txt -r requirements/deepspeed.txt

特定功能所需的额外依赖项可在 examples/requirements/ 中找到。

使用 Docker 镜像安装

docker run -it --rm --gpus=all --ipc=host hiyouga/llamafactory:latest

该镜像基于 Ubuntu 22.04 (x86_64)、CUDA 12.4、Python 3.11、PyTorch 2.6.0 和 Flash-attn 2.7.4 构建。

预构建镜像请访问：https://hub.docker.com/r/hiyouga/llamafactory/tags

如需自行构建镜像，请参阅构建 Docker。

使用 uv 设置虚拟环境

使用 uv 创建隔离的 Python 环境：

uv run llamafactory-cli webui

Windows 用户须知

安装 PyTorch

在 Windows 平台上，您需要手动安装支持 GPU 的 PyTorch 版本。请参考官方文档和以下命令以安装支持 CUDA 的 PyTorch：

pip uninstall torch torchvision torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -c "import torch; print(torch.cuda.is_available())"

如果输出为 True，则表示您已成功安装支持 CUDA 的 PyTorch。

若遇到 Can't pickle local object 错误，请尝试将 dataloader_num_workers: 0。

安装 BitsAndBytes

如果您希望在 Windows 平台上启用量化 LoRA (QLoRA)，则需要安装预先编译好的 bitsandbytes 库，该库支持 CUDA 11.1 至 12.2。请根据您的 CUDA 版本选择合适的发布版本。

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl

安装 Flash Attention-2

要在 Windows 平台上启用 FlashAttention-2，您需要使用来自 flash-attention-windows-wheel 的脚本自行编译并安装。

Ascend NPU 用户须知

要在 Ascend NPU 设备上安装 LLaMA Factory，请将 Python 升级至 3.10 或更高版本：pip install -r requirements/npu.txt。此外，您还需要安装 Ascend CANN 工具包和内核。请按照安装教程进行操作。

您也可以下载预构建的 Docker 镜像：

# Docker Hub
docker pull hiyouga/llamafactory:latest-npu-a2
docker pull hiyouga/llamafactory:latest-npu-a3

# quay.io
docker pull quay.io/ascend/llamafactory:latest-npu-a2
docker pull quay.io/ascend/llamafactory:latest-npu-a3

安装 BitsAndBytes

要在 Ascend NPU 上使用基于 bitsandbytes 的 QLoRA，请遵循以下 3 步骤：

手动编译 bitsandbytes：请参考安装文档中关于 NPU 版本的说明，完成编译和安装。编译过程需要至少 3.22.1 版本的 cmake 和至少 12.x 版本的 g++。

# 从源码安装 bitsandbytes
# 克隆 bitsandbytes 仓库，目前多后端重构分支已支持 Ascend NPU 后端
git clone -b multi-backend-refactor https://github.com/bitsandbytes-foundation/bitsandbytes.git
cd bitsandbytes/

# 安装依赖
pip install -r requirements-dev.txt

# 安装编译工具的依赖。请注意，此步骤的具体命令可能因操作系统而异，以下供参考
apt-get install -y build-essential cmake

# 编译 & 安装  
cmake -DCOMPUTE_BACKEND=npu -S .
make
pip install .

从主分支安装 transformers。

git clone -b main https://github.com/huggingface/transformers.git
cd transformers
pip install .

在配置中设置 double_quantization: false。您可以参考示例。

数据准备

有关数据集文件格式的详细信息，请参阅 data/README.md。您可以使用 HuggingFace / ModelScope / Modelers hub 上的数据集，也可以加载本地磁盘中的数据集，或指定指向 s3/gcs 云存储的路径。

[!注] 请更新 data/dataset_info.json 以使用您自定义的数据集。

您还可以使用 Easy Dataset、DataFlow 和 GraphGen 来创建用于微调的合成数据。

快速入门

使用以下 3 条命令分别运行 Qwen3-4B-Instruct 模型的 LoRA 微调、推理和合并。

llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml
llamafactory-cli chat examples/inference/qwen3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml

更多高级用法（包括分布式训练）请参阅 examples/README.md。

[!提示] 使用 llamafactory-cli help 查看帮助信息。

如遇问题，请先阅读常见问题解答。

使用 LLaMA Board GUI 进行微调（由 Gradio 提供支持）

llamafactory-cli webui

LLaMA Factory 在线

请阅读我们的文档。

构建 Docker

对于 CUDA 用户：

cd docker/docker-cuda/
docker compose up -d
docker compose exec llamafactory bash

对于 Ascend NPU 用户：

cd docker/docker-npu/
docker compose up -d
docker compose exec llamafactory bash

对于 AMD ROCm 用户：

cd docker/docker-rocm/
docker compose up -d
docker compose exec llamafactory bash

不使用 Docker Compose 构建

对于 CUDA 用户：

docker build -f ./docker/docker-cuda/Dockerfile \
    --build-arg PIP_INDEX=https://pypi.org/simple \
    -t llamafactory:latest .

docker run -dit --ipc=host --gpus=all \
    -p 7860:7860 \
    -p 8000:8000 \
    --name llamafactory \
    llamafactory:latest

docker exec -it llamafactory bash

对于 Ascend NPU 用户：

docker build -f ./docker/docker-npu/Dockerfile \
    --build-arg PIP_INDEX=https://pypi.org/simple \
    -t llamafactory:latest .

docker run -dit --ipc=host \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -p 7860:7860 \
    -p 8000:8000 \
    --device /dev/davinci0 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    --name llamafactory \
    llamafactory:latest

docker exec -it llamafactory bash

对于 AMD ROCm 用户：

docker build -f ./docker/docker-rocm/Dockerfile \
    --build-arg PIP_INDEX=https://pypi.org/simple \
    -t llamafactory:latest .

docker run -dit --ipc=host \
    -p 7860:7860 \
    -p 8000:8000 \
    --device /dev/kfd \
    --device /dev/dri \
    --name llamafactory \
    llamafactory:latest

docker exec -it llamafactory bash

使用 Docker 卷

您可以在 Dockerfile 中取消注释 VOLUME [ "/root/.cache/huggingface", "/app/shared_data", "/app/output" ] 来使用数据卷。

在构建 Docker 镜像时，使用 -v ./hf_cache:/root/.cache/huggingface 参数将本地目录挂载到容器中。以下数据卷可用。

hf_cache: 在宿主机上利用 Hugging Face 缓存。
shared_data: 宿主机上用于存储数据集的目录。
output: 将导出目录设置为此位置，以便可以直接在宿主机上访问合并结果。

使用 OpenAI 风格 API 和 vLLM 部署

API_PORT=8000 llamafactory-cli api examples/inference/qwen3.yaml infer_backend=vllm vllm_enforce_eager=true

[!TIP] 请访问此页面查阅 API 文档。

示例：图像理解 | 函数调用

从 ModelScope Hub 下载

如果您在从 Hugging Face 下载模型和数据集时遇到困难，可以使用 ModelScope。

export USE_MODELSCOPE_HUB=1 # Windows 系统使用 `set USE_MODELSCOPE_HUB=1`

通过将 ModelScope Hub 的模型 ID 指定为 model_name_or_path 来训练模型。您可以在 ModelScope Hub 上找到完整的模型 ID 列表，例如 LLM-Research/Meta-Llama-3-8B-Instruct。

从 Modelers Hub 下载

您也可以使用 Modelers Hub 下载模型和数据集。

export USE_OPENMIND_HUB=1 # Windows 系统使用 `set USE_OPENMIND_HUB=1`

通过将 Modelers Hub 的模型 ID 指定为 model_name_or_path 来训练模型。您可以在 Modelers Hub 上找到完整的模型 ID 列表，例如 TeleAI/TeleChat-7B-pt。

使用 W&B 日志记录器

要使用 Weights & Biases 记录实验结果，您需要在 YAML 文件中添加以下参数。

report_to: wandb
run_name: test_run # 可选

在启动训练任务时，将 WANDB_API_KEY 设置为您的 API 密钥，以登录您的 W&B 账户。

使用 SwanLab 日志记录器

要使用 SwanLab 记录实验结果，您需要在 YAML 文件中添加以下参数。

use_swanlab: true
swanlab_run_name: test_run # 可选

在启动训练任务时，您可以通过三种方式登录 SwanLab：

在 YAML 文件中添加 swanlab_api_key=<your_api_key>，并将其设置为您的 API 密钥。
将环境变量 SWANLAB_API_KEY 设置为您的 API 密钥。
使用 swanlab login 命令完成登录。

使用 LLaMA Factory 的项目

如果您有希望纳入的项目，请通过电子邮件联系我们或创建拉取请求。

点击展开

Wang 等人。ESRL：用于序列生成的高效采样强化学习。2023年。[arxiv]
Yu 等人。文本分类中使用开放、封闭还是小型语言模型？2023年。[arxiv]
Wang 等人。UbiPhysio：通过自然语言中的动作理解和反馈支持日常功能、健身和康复。2023年。[arxiv]
Luceri 等人。利用大型语言模型检测社交媒体中的影响力活动。2023年。[arxiv]
Zhang 等人。通过诱导幻觉缓解大型语言模型的幻觉问题。2023年。[arxiv]
Wang 等人。更了解您的需求：借助类比推理增强的大型语言模型，实现对营销人员需求的结构化理解。KDD 2024。[arxiv]
Wang 等人。CANDLE：从大型语言模型中迭代提炼概念化与实例化知识，用于常识推理。ACL 2024。[arxiv]
Choi 等人。FACT-GPT：基于大型语言模型进行主张匹配的事实核查增强。2024年。[arxiv]
Zhang 等人。AutoMathText：利用语言模型对数学文本进行自主数据选择。2024年。[arxiv]
Lyu 等人。KnowTuning：面向大型语言模型的知识感知微调。2024年。[arxiv]
Yang 等人。LaCo：通过层融合对大型语言模型进行剪枝。2024年。[arxiv]
Bhardwaj 等人。语言模型就是荷马·辛普森！通过任务算术重新对齐微调后的语言模型以提高安全性。2024年。[arxiv]
Yang 等人。通过小型共情模型增强大型语言模型，提升共情回复生成能力。2024年。[arxiv]
Yi 等人。生成与验证结合：利用智能并行自动纠错解码加速大型语言模型推理。ACL 2024成果。[arxiv]
Cao 等人。面向大型语言模型的头级可共享注意力机制。2024年。[arxiv]
Zhang 等人。通过从资源丰富的语言中自我蒸馏，提升大型语言模型的多语言能力。2024年。[arxiv]
Kim 等人。高效且有效的词汇扩展，助力多语种大型语言模型发展。2024年。[arxiv]
Yu 等人。KIEval：面向大型语言模型的知识驱动型交互式评估框架。ACL 2024。[arxiv]
Huang 等人。基于关键点的数据合成及其在数学推理中的增强作用。2024年。[arxiv]
Duan 等人。否定之否定：通过分布差异优化实现无需人类正面样本的对齐。2024年。[arxiv]
Xie 和 Schwertfeger。用大型语言模型赋能机器人技术：利用大型语言模型理解osmAG地图。2024年。[arxiv]
Wu 等人。大型语言模型是并行的多语种学习者。2024年。[arxiv]
Zhang 等人。EDT：基于熵的动态温度采样提升大型语言模型生成质量。2024年。[arxiv]
Weller 等人。FollowIR：评估并训练信息检索模型遵循指令的能力。2024年。[arxiv]
Hongbin Na。CBT-LLM：一款用于基于认知行为疗法的心理健康问答的中文大型语言模型。COLING 2024。[arxiv]
Zan 等人。CodeS：通过多层草图实现自然语言到代码仓库的转换。2024年。[arxiv]
Liu 等人。广泛的自我对比使语言模型无需反馈即可实现对齐。2024年。[arxiv]
Luo 等人。BAdam：一种面向大型语言模型的内存高效的全参数训练方法。2024年。[arxiv]
Du 等人。Chinese Tiny LLM：预训练一个以中文为中心的大型语言模型。2024年。[arxiv]
Ma 等人。利用Givens旋转实现参数高效的准正交微调。ICML 2024。[arxiv]
Liu 等人。利用大型语言模型动态生成个性。2024年。[arxiv]
Shang 等人。我们利用大型语言模型理解剥离二进制代码已经走到了哪一步。2024年。[arxiv]
Huang 等人。LLMTune：利用大型语言模型加速数据库参数调优。2024年。[arxiv]
Deng 等人。文本-元组-表格：通过全局元组提取，迈向文本到表格生成的信息集成。2024年。[arxiv]
Acikgoz 等人。Hippocrates：一个用于推动大型语言模型在医疗领域发展的开源框架。2024年。[arxiv]
Zhang 等人。小型语言模型需要强大的验证器来自我纠正推理。ACL 2024成果。[arxiv]
Zhou 等人。FREB-TQA：一个针对表格问答的细粒度鲁棒性评估基准。NAACL 2024。[arxiv]
Xu 等人。大型语言模型在网络安全中的应用：系统性文献综述。2024年。[arxiv]
Dammu 等人。“他们没有教养”：揭示大型语言模型生成对话中的隐蔽危害和社会威胁。2024年。[arxiv]
Yi 等人。一种基于子空间导向的模型融合安全对齐框架，适用于大型语言模型。2024年。[arxiv]
Lou 等人。SPO：基于隐式奖励建模的多维偏好顺序对齐。2024年。[arxiv]
Zhang 等人。事半功倍：大型语言模型是优秀的自发性多语种学习者。2024年。[arxiv]
Zhang 等人。TS-Align：一个师生协作框架，用于大规模迭代微调大型语言模型。2024年。[arxiv]
Zihong Chen。基于XunziALLM的句子分割和标点符号添加。2024年。[论文]
Gao 等人。兼得两者之长：迈向诚实且有用的大型语言模型。2024年。[arxiv]
Wang 和 Song。MARS：利用多任务评估数据集衡量语言模型的形而上学推理能力。2024年。[arxiv]
Hu 等人。基于Transformer模型的低秩适应（LoRA）的计算限制。2024年。[arxiv]
Ge 等人。通过高效微调进行时间敏感的知识编辑。ACL 2024。[arxiv]
Tan 等人。同行评审作为一种多轮且长上下文的对话，具有角色互动的特点。2024年。[arxiv]
Song 等人。Turbo Sparse：仅用最少激活参数就达到大型语言模型的最先进水平。2024年。[arxiv]
Gu 等人。RWKV-CLIP：一种鲁棒的视觉-语言表征学习器。2024年。[arxiv]
Chen 等人。推进工具增强型大型语言模型：整合推理树中错误的见解。2024年。[arxiv]
Zhu 等人。大型语言模型是优秀的统计学家吗？2024年。[arxiv]
Li 等人。知晓未知：一种针对大型语言模型指令微调的不确定性敏感方法。2024年。[arxiv]
Ding 等人。IntentionQA：一个用于评估语言模型在电子商务中理解购买意图能力的基准。2024年。[arxiv]
He 等人。COMMUNITY-CROSS-INSTRUCT：无监督指令生成，用于将大型语言模型对齐到在线社区。2024年。[arxiv]
Lin 等人。FVEL：通过定理证明，利用大型语言模型构建交互式形式化验证环境。2024年。[arxiv]
Treutlein 等人。串联线索：大型语言模型可以从分散的训练数据中推断并表达潜在结构。2024年。[arxiv]
Feng 等人。SS-Bench：一个用于社交故事生成与评估的基准。2024年。[arxiv]
Feng 等人。自建上下文分解，并辅以细粒度对齐增强。2024年。[arxiv]
Liu 等人。利用可穿戴生物信号，通过大型语言模型进行无袖血压测量。2024年。[arxiv]
Iyer 等人。探索利用大型语言模型进行极低资源翻译：爱丁堡大学提交给美洲NLP 2024翻译任务的作品。美洲NLP 2024。[论文]
Li 等人。通过在科学问题评分中生成论证过程，利用思维树上的偏好优化校准大型语言模型。2024年。[arxiv]
Yang 等人。金融知识大型语言模型。2024年。[arxiv]
Lin 等人。DogeRM：通过模型合并为奖励模型配备领域知识。2024年。[arxiv]
Bako 等人。评估大型语言模型对数据可视化中自然语言话语的语义剖析能力。2024年。[arxiv]
Huang 等人。RoLoRA：对经过旋转处理且无异常值的大型语言模型进行微调，以实现有效的权重-激活量化。2024年。[arxiv]
Jiang 等人。大型语言模型合作开展面向大众的自动科学新闻报道。2024年。[arxiv]
Inouye 等人。LoRA超参数的自动化调优。2024年。[论文]
Qi 等人。基于大型语言模型的西藏旅游景点信息生成系统研究。2024年。[arxiv]
Xu 等人。方向修正：利用合成偏好进行安全对齐。2024年。[arxiv]
Sun 等人。LAMBDA：一个基于大型模型的数据代理。2024年。[arxiv]
Zhu 等人。CollectiveSFT：通过医疗领域的集体指令，将大型语言模型扩展至中国医学基准。2024年。[arxiv]
Yu 等人。通过负注意力分数对齐纠正大型语言模型中的负面偏见。2024年。[arxiv]
Xie 等人。个性化数据集的力量：通过针对性的模型微调，提升小学阶段的中文作文写作水平。IALP 2024。[论文]
Liu 等人。Instruct-Code-Llama：通过在线评测反馈，提升语言模型在竞赛级别代码生成方面的能力。ICIC 2024。[论文]
Wang 等人。网络卫士：揭示监督式微调中安全数据选择对模型安全性的影响。ICIC 2024。[论文]
Xia 等人。理解大型语言模型微调的性能并估算成本。2024年。[arxiv]
Zeng 等人。感知、反思和计划：设计无需指令的目标导向城市导航大型语言模型代理。2024年。[arxiv]
Xia 等人。利用预训练语言模型进行精准的ESG预测。FinNLP 2024。[论文]
Liang 等人。I-SHEEP：通过迭代自我增强范式，从零开始实现大型语言模型的自我对齐。2024年。[arxiv]
Bai 等人。通过直接多偏好优化对大型语言模型进行推荐对齐。CIKM 2024。[论文]
Zhang 等人。CPsyCoun：一个基于报告的多轮对话重建与评估框架，用于中国心理咨询。ACL 2024。[论文]
StarWhisper：一款基于ChatGLM2-6B和Qwen-14B的天文学专用大型语言模型。
DISC-LawLLM：一款专注于中国法律领域的大型语言模型，基于Baichuan-13B，能够检索和推理法律知识。
Sunsimiao：一款专注于中国医学领域的大型语言模型，基于Baichuan-7B和ChatGLM-6B。
CareGPT：一系列专注于中国医学领域的大型语言模型，基于LLaMA2-7B和Baichuan-13B。
MachineMindset：一系列基于MBTI性格类型的大型语言模型，能够根据不同的数据集和训练方法为任何大型语言模型赋予16种不同的人格类型。
Luminia-13B-v3：一款专门用于生成稳定扩散元数据的大型语言模型。[演示]
Chinese-LLaVA-Med：一款基于LLaVA-1.5-7B的多模态大型语言模型，专注于中国医学领域。
AutoRE：一个基于大型语言模型的文档级关系抽取系统。
NVIDIA RTX AI Toolkit：用于在Windows PC上使用NVIDIA RTX微调大型语言模型的SDK。
LazyLLM：一种简单便捷的方式来构建多智能体大型语言模型应用，并支持通过LLaMA Factory进行模型微调。
RAG-Retrieval：一个完整的RAG检索模型微调、推理和蒸馏流程。[博客]
360-LLaMA-Factory：一个修改过的库，支持使用环形注意力进行长序列SFT和DPO。
Sky-T1：由NovaSky AI微调的一款类似o1的模型，成本非常低廉。
WeClone：一个一站式解决方案，可根据聊天记录创建您的数字化身。
EmoLLM：一个关于大型语言模型（LLMs）与心理健康的合作项目。

许可证

本仓库采用 Apache-2.0 许可证许可。

请遵守各模型的许可证条款以使用相应的模型权重：BLOOM / DeepSeek / Falcon / Gemma / GLM-4 / GPT-2 / Granite / InternLM / Llama / Llama 2 / Llama 3 / Llama 4 / MiniCPM / Mistral/Mixtral/Pixtral / Phi-3/Phi-4 / Qwen / StarCoder 2 / TeleChat2 / Yuan 2

引用

如果本工作对您有所帮助，请引用如下：

@inproceedings{zheng2024llamafactory,
  title={LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models},
  author={Yaowei Zheng and Richong Zhang and Junhao Zhang and Yanhan Ye and Zheyan Luo and Zhangchi Feng and Yongqiang Ma},
  booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)},
  address={曼谷, 泰国},
  publisher={Association for Computational Linguistics},
  year={2024},
  url={http://arxiv.org/abs/2403.13372}
}

致谢

本项目受益于 PEFT、TRL、QLoRA 和 FastChat。感谢他们的杰出工作。

星标历史

星标历史图

LLaMA Factory 快速上手指南

LLaMA Factory 是一个一站式大语言模型微调框架，支持通过命令行（CLI）或 Web 界面（LLaMA Board）对 100+ 种主流大模型（如 Llama 3, Qwen2.5, DeepSeek, GLM-4 等）进行全量微调、LoRA、QLoRA 及多模态训练。

1. 环境准备

系统要求

操作系统: Linux (推荐), macOS, Windows
Python: 3.8 - 3.12
GPU: NVIDIA GPU (推荐显存 ≥ 16GB)，支持 CUDA 11.1+；也支持 AMD ROCm 及华为昇腾 NPU。
磁盘空间: 根据模型大小预留足够空间（建议至少 50GB）。

前置依赖

确保已安装以下基础工具：

Git
CUDA Toolkit (如需 GPU 加速)
PyTorch (通常由安装脚本自动处理)

国内开发者提示：推荐使用国内镜像源加速依赖下载，后续安装步骤中已包含相关配置。

2. 安装步骤

方法一：源码安装（推荐）

克隆仓库并进入目录：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

基础安装（CPU/通用 GPU）

pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple

进阶安装（开启 FlashAttention-2 加速）

若你的显卡支持 Ampere 架构及以上（如 RTX 3090, A100, H100），强烈建议安装此版本以大幅提升训练速度：

pip install -e ".[torch,flash-attn,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple

量化训练支持 (QLoRA)

如需进行 4-bit/8-bit 量化微调，需额外安装 bitsandbytes：

pip install -e ".[torch,quantization,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple

方法二：Docker 安装（最简环境隔离）

拉取官方镜像并启动容器（自动挂载当前目录）：

docker run --gpus all -it --rm \
  -v $(pwd)/data:/app/data \
  -v $(pwd)/output:/app/output \
  -v $(pwd)/models:/app/models \
  hiyouga/llamafactory:latest

注：Windows PowerShell 用户请将 -v $(pwd) 替换为 -v ${PWD}。

3. 基本使用

LLaMA Factory 提供两种主要使用方式：Web UI (零代码) 和 命令行 (CLI)。

方式一：使用 LLaMA Board Web UI（推荐新手）

启动可视化界面，无需编写代码即可完成数据配置、训练参数调整和监控。

llamafactory-web

启动后在浏览器访问 http://localhost:7860。

选择模型: 在下拉菜单中选择预训练模型（如 Qwen2.5-7B-Instruct）。
准备数据: 上传或使用内置数据集（支持 JSON/Alpaca 格式）。
配置参数: 选择微调方法（如 lora）、学习率、Batch Size 等。
开始训练: 点击 "Start" 按钮，实时查看 Loss 曲线。

方式二：使用命令行 CLI（适合自动化/服务器）

1. 数据准备

将数据集整理为 JSONL 格式，例如 data/my_data.json：

{"messages": [{"role": "user", "content": "你好"}, {"role": "assistant", "content": "你好！有什么可以帮你的吗？"}]}
{"messages": [{"role": "user", "content": "介绍下北京"}, {"role": "assistant", "content": "北京是中国的首都..."}]}

在 dataset_info.json 中注册该数据集（或直接使用内置数据集名称）。

2. 执行微调命令

以下是一个使用 LoRA 微调 Qwen2.5-7B 的最小化示例：

llamafactory-cli train \
    --stage sft \
    --do_train \
    --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
    --dataset alpaca_en_demo \
    --template qwen \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir output/qwen2.5-lora \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --warmup_ratio 0.1 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

关键参数说明：

--model_name_or_path: 模型名称（自动从 HuggingFace/ModelScope 下载）或本地路径。
--dataset: 数据集名称（需在 dataset_info.json 中定义，内置数据集可直接用）。
--template: 对话模板，必须与模型匹配（如 qwen, llama3, chatglm 等）。
--finetuning_type: 微调类型 (full, freeze, lora, qlora)。
--output_dir: 模型保存路径。

3. 导出与推理

训练完成后，合并 LoRA 权重并启动推理：

# 导出合并后的模型
llamafactory-cli export \
    --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
    --adapter_name_or_path output/qwen2.5-lora \
    --template qwen \
    --export_dir output/qwen2.5-merged \
    --export_size 2 \
    --export_legacy_format False

# 启动 OpenAI 风格 API 服务
llamafactory-cli api \
    --model_name_or_path output/qwen2.5-merged \
    --template qwen \
    --api_port 8000

国内加速提示

若从 HuggingFace 下载模型缓慢，可设置环境变量使用 ModelScope 镜像：

export USE_MODELSCOPE_HUB=1

然后在命令中将 --model_name_or_path 替换为 ModelScope 上的模型 ID（如 qwen/Qwen2.5-7B-Instruct）。

版本历史

v0.9.42025/12/31

v0.9.32025/06/16

v0.9.22025/03/11

v0.9.12024/11/24

v0.9.02024/09/08

v0.8.32024/07/18

v0.8.22024/06/19

v0.8.12024/06/10

v0.8.02024/06/07

v0.7.12024/05/15

v0.7.02024/04/27

v0.6.32024/04/21

v0.6.22024/04/11

v0.6.12024/03/29

v0.6.02024/03/25

v0.5.32024/02/28

v0.5.22024/02/20

v0.5.02024/01/20

v0.4.02023/12/16

v0.3.32023/12/03

常见问题

使用 DeepSpeed 微调 Mixtral 模型时出现报错或训练卡死怎么办？

训练 Qwen3-VL (8B/4B) 等多模态模型时 GPU 利用率低下但不报错，如何解决？

百川 (Baichuan) 模型的 template 中 stop_words 配置是否正确？导出模型后推理异常如何处理？

如何使用 vLLM 部署经过 LLaMA-Factory 微调后的 InternVL3-HF 系列模型？

使用 DeepSpeed ZeRO-3 微调 Baichuan-13b-chat 系列模型后效果失效（回答不准确），但单卡训练正常，原因是什么？

量化后的 InternVL 模型在 vLLM 中运行时提示 'vocab_size' 属性错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent