LlamaFactory
LlamaFactory 是一个专为大语言模型(LLM)和视觉语言模型(VLM)打造的高效微调框架,旨在让模型定制变得简单快捷。它统一支持超过 100 种主流开源模型的训练,无论是 LLaMA、Qwen 还是多模态模型,都能在一个平台上一站式完成。
过去,微调大模型往往面临环境配置复杂、代码门槛高、资源消耗大等难题。LlamaFactory 通过提供零代码的命令行工具和直观的 Web 界面(LLaMA Board),极大地降低了操作难度,让用户无需深入底层代码即可轻松启动训练任务。同时,它在显存优化和训练速度上进行了深度打磨,支持多种高效微调算法,显著减少了硬件资源需求。
这款工具非常适合 AI 开发者、研究人员以及希望将大模型应用于特定场景的企业团队使用。无论你是想快速验证算法的研究者,还是需要定制行业专属模型的工程师,甚至是希望通过图形界面入门大模型的学生,都能从中受益。其独特的亮点在于广泛的模型兼容性、对国产算力(如华为昇腾 NPU)的良好支持,以及被亚马逊、英伟达等巨头认可的稳定性。借助 LlamaFactory,你可以更专注于业务逻辑与数据本身,高效打造属于自己的智能模型。
使用场景
某金融科技公司需要快速将通用的 Qwen2.5 大模型定制为精通内部合规文档的“风控助手”,以辅助分析师处理海量非结构化报告。
没有 LlamaFactory 时
- 环境配置繁琐:团队需手动编写复杂的 DeepSpeed 配置文件,针对不同显卡型号反复调试依赖库,耗费数天搭建训练环境。
- 多模型适配困难:若想对比 Llama 3 与 ChatGLM 的效果,必须重写数据预处理脚本和训练入口代码,切换成本极高。
- 资源利用率低:缺乏对 LoRA、QLoRA 等高效微调技术的统一封装,显存占用过大,导致只能在少量高端卡上运行,排队等待时间长。
- 过程监控黑盒:训练过程中难以直观查看损失曲线或即时测试模型输出,往往等到训练结束才发现效果不佳,需推倒重来。
使用 LlamaFactory 后
- 一键启动训练:通过简单的 YAML 配置文件或 Web UI 界面,仅需几分钟即可加载预置模板,自动完成环境适配并启动任务。
- 无缝切换模型:支持 100+ 种主流模型架构,只需修改配置中的模型名称参数,即可在同一套流程下快速验证不同基座的表现。
- 极致显存优化:内置优化的量化与并行策略,让单张消费级显卡也能流畅运行 7B 甚至更大参数模型的微调,大幅降低硬件门槛。
- 可视化全流程:集成 LLaMA Board 可视化面板,实时监测训练指标并支持在线对话测试,让迭代调优过程透明可控。
LlamaFactory 将原本需要资深算法工程师耗时数周的模型定制工作,转化为普通开发者几天内即可完成的标准化流程,极大加速了垂直领域 AI 应用的落地。
运行环境要求
- Linux
- macOS
- Windows
- NVIDIA GPU 必需(支持多卡),显存需求视模型大小而定(QLoRA 最低约 6-8GB,全量微调需更大),支持 CUDA
- 同时支持 AMD GPU (ROCm) 和华为 NPU
未说明(建议 16GB+ 以处理大型数据集和模型)

快速开始

已被 Amazon、NVIDIA、阿里云等采用。
👋 加入我们的 WeChat、NPU、Lab4AI、LLaMA Factory Online 用户群。
[ 英文 | 中文 ]
微调大型语言模型可以像…一样简单
https://github.com/user-attachments/assets/3991a3a8-4276-4d30-9cab-4cb0c4b9b99e
开始本地训练:
- 请参考 使用方法
开始云端训练:
- Colab(免费):https://colab.research.google.com/drive/1eRTPn37ltBbYsISy9Aw2NuI2Aq5CQrD9?usp=sharing
- PAI-DSW(免费试用):https://gallery.pai-ml.com/#/preview/deepLearning/nlp/llama_factory
- LLaMA Factory Online:https://www.llamafactory.com.cn/?utm_source=LLaMA-Factory
- Alaya NeW(云 GPU 优惠):https://docs.alayanew.com/docs/documents/useGuide/LLaMAFactory/mutiple/?utm_source=LLaMA-Factory
阅读技术文档:
- 文档(持续更新中):https://llamafactory.readthedocs.io/en/latest/
- AMD GPU 文档:https://rocm.docs.amd.com/projects/ai-developer-hub/en/latest/notebooks/fine_tune/llama_factory_llama3.html
- 官方博客:https://blog.llamafactory.net/en/
- 官方课程:https://www.lab4ai.cn/course/detail?id=7c13e60f6137474eb40f6fd3983c0f46&utm_source=LLaMA-Factory
[!注意] 除上述链接外,其他所有网站均为未经授权的第三方网站,请谨慎使用。
目录
特性
- 多种模型:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen3、Qwen3-VL、DeepSeek、Gemma、GLM、Phi 等。
- 集成方法:(连续)预训练、(多模态)监督微调、奖励建模、PPO、DPO、KTO、ORPO 等。
- 可扩展资源:通过 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 实现 16 位全量微调、冻结微调、LoRA 以及 2/3/4/5/6/8 位 QLoRA。
- 先进算法:GaLore、BAdam、APOLLO、Adam-mini、Muon、OFT、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 PiSSA。
- 实用技巧:FlashAttention-2、Unsloth、Liger Kernel、KTransformers、RoPE 缩放、NEFTune 和 rsLoRA。
- 广泛任务:多轮对话、工具使用、图像理解、视觉定位、视频识别、音频理解等。
- 实验监控工具:LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
- 更快推理:OpenAI 风格的 API、Gradio UI 和 CLI,搭配 vLLM worker 或 SGLang worker。
Day-N 对前沿模型微调的支持
| 支持日期 | 模型名称 |
|---|---|
| 第 0 天 | Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6 |
| 第 1 天 | Llama 3 / GLM-4 / Mistral Small / PaliGemma2 / Llama 4 |
博客
[!TIP] 我们现在为 LLaMA Factory 设立了专属博客!
- 💡 KTransformers 微调 × LLaMA Factory:用 2 块 4090 显卡 + CPU 微调 10000 亿参数模型(英文)
- 💡 Easy Dataset × LLaMA Factory:让大模型高效学习领域知识(英文)
- 使用 LLaMA-Factory 微调心理健康领域的 LLM(中文)
- 使用 LLaMA-Factory 微调 GPT-OSS 以用于角色扮演(中文)
- 基于 LLaMA-Factory 和 EasyR1 的一站式无代码模型强化学习与部署平台(中文)
- Apoidea Group 如何利用 LLaMA-Factory 在 Amazon SageMaker HyperPod 上,通过多模态模型增强银行文档的视觉信息提取(英文)
所有博客
更改日志
[25/10/26] 我们支持 Megatron-core 训练后端,使用 mcore_adapter。请参阅 PR #9237 以开始使用。
[25/08/22] 我们新增支持 OFT 和 OFTv2。使用方法请参阅 示例。
[25/08/20] 我们新增支持微调 Intern-S1-mini 模型。请参阅 PR #8976 以开始使用。
[25/08/06] 我们新增支持微调 GPT-OSS 模型。请参阅 PR #8826 以开始使用。
完整更改日志
[25/07/02] 我们新增支持微调 GLM-4.1V-9B-Thinking 模型。
[25/04/28] 我们新增支持微调 Qwen3 系列模型。
[25/04/21] 我们新增支持 Muon 优化器。使用方法请参阅 示例。感谢 @tianshijing 的 PR。
[25/04/16] 我们新增支持微调 InternVL3 模型。请参阅 PR #7258 以开始使用。
[25/04/14] 我们新增支持微调 GLM-Z1 和 Kimi-VL 模型。
[25/04/06] 我们新增支持微调 Llama 4 模型。请参阅 PR #7611 以开始使用。
[25/03/31] 我们新增支持微调 Qwen2.5 Omni 模型。请参阅 PR #7537 以开始使用。
[25/03/15] 我们新增支持 SGLang 作为推理后端。尝试设置 infer_backend: sglang 以加速推理。
[25/03/12] 我们新增支持微调 Gemma 3 模型。
[25/02/24] 宣布推出 EasyR1,这是一个高效、可扩展且支持多模态的 RL 训练框架,专为高效的 GRPO 训练而设计。
[25/02/11] 我们支持在导出模型检查点时保存 Ollama 的 modelfile。使用方法请参阅 示例。
[25/02/05] 我们支持在音频理解任务上对 Qwen2-Audio 和 MiniCPM-o-2.6 进行微调。
[25/01/31] 我们支持对 DeepSeek-R1 和 Qwen2.5-VL 模型进行微调。
[25/01/15] 我们支持 APOLLO 优化器。使用方法请参阅 示例。
[25/01/14] 我们支持对 MiniCPM-o-2.6 和 MiniCPM-V-2.6 模型进行微调。感谢 @BUAADreamer 的 PR。
[25/01/14] 我们支持对 InternLM 3 模型进行微调。感谢 @hhaAndroid 的 PR。
[25/01/10] 我们支持对 Phi-4 模型进行微调。
[24/12/21] 我们支持使用 SwanLab 进行实验跟踪和可视化。详情请参阅 本节。
[24/11/27] 我们支持对 Skywork-o1 模型以及 OpenO1 数据集进行微调。
[24/10/09] 我们支持从 Modelers Hub 下载预训练模型和数据集。使用方法请参阅 本教程。
[24/09/19] 我们支持对 Qwen2.5 模型进行微调。
[24/08/30] 我们支持对 Qwen2-VL 模型进行微调。感谢 @simonJJJ 的 PR。
[24/08/27] 我们支持 Liger Kernel。尝试设置 enable_liger_kernel: true 以实现高效训练。
[24/08/09] 我们支持 Adam-mini 优化器。使用方法请参阅 示例。感谢 @relic-yuexi 的 PR。
[24/07/04] 我们支持 无污染的打包训练。使用 neat_packing: true 可启用此功能。感谢 @chuan298 的 PR。
[24/06/16] 我们支持 PiSSA 算法。使用方法请参阅 示例。
[24/06/07] 我们支持对 Qwen2 和 GLM-4 模型进行微调。
[24/05/26] 我们支持用于偏好学习的 SimPO 算法。使用方法请参阅 示例。
[24/05/20] 我们支持对 PaliGemma 系列模型进行微调。请注意,PaliGemma 模型是预训练模型,您需要使用 paligemma 模板对其进行微调以完成对话生成。
[24/05/18] 我们支持用于偏好学习的 KTO 算法。使用方法请参阅 示例。
[24/05/14] 我们支持在 Ascend NPU 设备上进行训练和推理。详情请参阅 安装 部分。
[24/04/26] 我们支持对 LLaVA-1.5 多模态大语言模型进行微调。使用方法请参阅 示例。
[24/04/22] 我们提供了一个 Colab 笔记本,用于在免费的 T4 GPU 上对 Llama-3 模型进行微调。使用 LLaMA Factory 微调的两款 Llama-3 衍生模型已在 Hugging Face 上发布,请查看 Llama3-8B-Chinese-Chat 和 Llama3-Chinese 以获取详细信息。
[24/04/21] 我们支持根据 AstraMindAI 的实现 使用 Mixture-of-Depths。使用方法请参阅 示例。
[24/04/16] 我们支持 BAdam 优化器。使用方法请参阅 示例。
[24/04/16] 我们支持 unsloth 的长序列训练(在 24GB 显存下运行 Llama-2-7B-56k)。与 FlashAttention-2 相比,其速度提升了 117%,显存占用减少了 50%。更多基准测试结果可在 此页面 查看。
[24/03/31] 我们支持 ORPO。使用方法请参阅 示例。
[24/03/21] 我们的论文 “[LlamaFactory:统一高效的 100+ 语言模型微调]” 已在 arXiv 上发表!
[24/03/20] 我们支持 FSDP+QLoRA,可在两块 24GB 显存的 GPU 上对 70B 参数的模型进行微调。使用方法请参阅 示例。
[24/03/13] 我们支持 LoRA+。使用方法请参阅 示例。
[24/03/07] 我们支持 GaLore 优化器。使用方法请参阅 示例。
[24/03/07] 我们集成了 vLLM,以实现更快、更高效的并发推理。尝试设置 infer_backend: vllm,即可享受 270% 的推理速度提升。
[24/02/28] 我们支持权重分解的 LoRA (DoRA)。尝试设置 use_dora: true 以启用 DoRA 训练。
[24/02/15] 我们支持由 LLaMA Pro 提出的 块扩展。使用方法请参阅 示例。
[24/02/05] Qwen1.5(Qwen2 测试版)系列模型现已在 LLaMA-Factory 中得到支持。详情请参阅这篇 博客文章。
[24/01/18] 我们支持对大多数模型进行 代理微调,通过使用 dataset: glaive_toolcall_en 进行微调,为模型赋予工具使用能力。
[23/12/23] 我们支持 unsloth 的实现,以加速 LLaMA、Mistral 和 Yi 模型的 LoRA 微调。尝试设置 use_unsloth: true 参数以激活 unsloth 补丁。在我们的基准测试中,其速度提升了 170%,详情请参阅 此页面。
[23/12/12] 我们支持在我们的框架中对最新的 MoE 模型 Mixtral 8x7B 进行微调。硬件要求请参阅 此处。
[23/12/01] 我们支持从 ModelScope Hub 下载预训练模型和数据集。使用方法请参阅 本教程。
[23/10/21] 我们支持了用于微调的 NEFTune 技巧。尝试使用 neftune_noise_alpha: 5 参数来激活 NEFTune。
[23/09/27] 我们为 LLaMA 模型支持了由 LongLoRA 提出的 $S^2$-Attn。尝试使用 shift_attn: true 参数来启用移位短注意力机制。
[23/09/23] 我们在这个仓库中集成了 MMLU、C-Eval 和 CMMLU 基准测试。使用方法请参阅 示例。
[23/09/10] 我们支持了 FlashAttention-2。如果你使用的是 RTX4090、A100 或 H100 显卡,可以尝试使用 flash_attn: fa2 参数来启用 FlashAttention-2。
[23/08/12] 我们支持了 RoPE 缩放,以扩展 LLaMA 模型的上下文长度。在训练时尝试使用 rope_scaling: linear 参数,在推理时使用 rope_scaling: dynamic 参数,以实现位置嵌入的外推。
[23/08/11] 我们支持了针对指令微调模型的 DPO 训练。使用方法请参阅 示例。
[23/07/31] 我们支持了 数据流式加载。尝试使用 streaming: true 和 max_steps: 10000 参数,以流式方式加载你的数据集。
[23/07/29] 我们在 Hugging Face 上发布了两款经过指令微调的 13B 参数模型。详情请见这些 Hugging Face 仓库(LLaMA-2 / Baichuan)。
[23/07/18] 我们开发了一个用于训练、评估和推理的 一体化 Web 界面。尝试运行 train_web.py,即可在你的浏览器中对模型进行微调。感谢 @KanadeSiina 和 @codemayq 在开发过程中所做的努力。
[23/07/09] 我们发布了 FastEdit ⚡🩹,这是一个易于使用的工具包,可高效地编辑大型语言模型的事实性知识。如果你对此感兴趣,请关注 FastEdit。
[23/06/29] 我们提供了一个使用指令遵循数据集训练聊天模型的 可复现示例,详情请参阅 Baichuan-7B-sft。
[23/06/22] 我们的演示 API(src/api_demo.py)已与 OpenAI 的格式(OpenAI 官网)对齐,你可以在任何基于 ChatGPT 的应用程序中插入经过微调的模型。
[!TIP] 如果你无法使用最新功能,请拉取最新代码并重新安装 LLaMA-Factory。
支持的模型
| Model | Model size | Template |
|---|---|---|
| BLOOM/BLOOMZ | 560M/1.1B/1.7B/3B/7.1B/176B | - |
| DeepSeek (LLM/Code/MoE) | 7B/16B/67B/236B | deepseek |
| DeepSeek 3-3.2 | 236B/671B | deepseek3 |
| DeepSeek R1 (Distill) | 1.5B/7B/8B/14B/32B/70B/671B | deepseekr1 |
| ERNIE-4.5 | 0.3B/21B/300B | ernie_nothink |
| Falcon/Falcon H1 | 0.5B/1.5B/3B/7B/11B/34B/40B/180B | falcon/falcon_h1 |
| Gemma/Gemma 2/CodeGemma | 2B/7B/9B/27B | gemma/gemma2 |
| Gemma 3/Gemma 3n | 270M/1B/4B/6B/8B/12B/27B | gemma3/gemma3n |
| GLM-4/GLM-4-0414/GLM-Z1 | 9B/32B | glm4/glmz1 |
| GLM-4.5/GLM-4.5(6)V | 9B/106B/355B | glm4_moe/glm4_5v |
| GPT-2 | 0.1B/0.4B/0.8B/1.5B | - |
| GPT-OSS | 20B/120B | gpt_oss |
| Granite 3-4 | 1B/2B/3B/7B/8B | granite3/granite4 |
| Hunyuan/Hunyuan1.5 (MT) | 0.5B/1.8B/4B/7B/13B | hunyuan/hunyuan_small |
| InternLM 2-3 | 7B/8B/20B | intern2 |
| InternVL 2.5-3.5 | 1B/2B/4B/8B/14B/30B/38B/78B/241B | intern_vl |
| Intern-S1-mini | 8B | intern_s1 |
| Kimi-VL | 16B | kimi_vl |
| Ling 2.0 (mini/flash) | 16B/100B | bailing_v2 |
| LFM 2.5 (VL) | 1.2B/1.6B | lfm2/lfm2_vl |
| Llama | 7B/13B/33B/65B | - |
| Llama 2 | 7B/13B/70B | llama2 |
| Llama 3-3.3 | 1B/3B/8B/70B | llama3 |
| Llama 4 | 109B/402B | llama4 |
| Llama 3.2 Vision | 11B/90B | mllama |
| LLaVA-1.5 | 7B/13B | llava |
| LLaVA-NeXT | 7B/8B/13B/34B/72B/110B | llava_next |
| LLaVA-NeXT-Video | 7B/34B | llava_next_video |
| MiMo | 7B/309B | mimo/mimo_v2 |
| MiniCPM 4 | 0.5B/8B | cpm4 |
| MiniCPM-o/MiniCPM-V 4.5 | 8B/9B | minicpm_o/minicpm_v |
| MiniMax-M1/MiniMax-M2 | 229B/456B | minimax1/minimax2 |
| Ministral 3 | 3B/8B/14B | ministral3 |
| Mistral/Mixtral | 7B/8x7B/8x22B | mistral |
| PaliGemma/PaliGemma2 | 3B/10B/28B | paligemma |
| Phi-3/Phi-3.5 | 4B/14B | phi |
| Phi-3-small | 7B | phi_small |
| Phi-4-mini/Phi-4 | 3.8B/14B | phi4_mini/phi4 |
| Pixtral | 12B | pixtral |
| Qwen2 (Code/Math/MoE/QwQ) | 0.5B/1.5B/3B/7B/14B/32B/72B/110B | qwen |
| Qwen3 (MoE/Instruct/Thinking/Next) | 0.6B/1.7B/4B/8B/14B/32B/80B/235B | qwen3/qwen3_nothink |
| Qwen3.5 | 0.8B/2B/4B/9B/27B/35B/122B/397B | qwen3_5 |
| Qwen2-Audio | 7B | qwen2_audio |
| Qwen2.5-Omni | 3B/7B | qwen2_omni |
| Qwen3-Omni | 30B | qwen3_omni |
| Qwen2-VL/Qwen2.5-VL/QVQ | 2B/3B/7B/32B/72B | qwen2_vl |
| Qwen3-VL | 2B/4B/8B/30B/32B/235B | qwen3_vl |
| Seed (OSS/Coder) | 8B/36B | seed_oss/seed_coder |
| StarCoder 2 | 3B/7B/15B | - |
| TeleChat 2-2.5 | 3B/7B/35B/115B | telechat2 |
| Yuan 2 | 2B/51B/102B | yuan |
[!NOTE] For the "base" models, the
templateargument can be chosen fromdefault,alpaca,vicunaetc. But make sure to use the corresponding template for the "instruct/chat" models.If the model has both reasoning and non-reasoning versions, please use the
_nothinksuffix to distinguish between them. For example,qwen3andqwen3_nothink.Remember to use the SAME template in training and inference.
*: You should install the
transformersfrom main branch and useDISABLE_VERSION_CHECK=1to skip version check.**: You need to install a specific version of
transformersto use the corresponding model.
Please refer to constants.py for a full list of models we supported.
You also can add a custom chat template to template.py.
Supported Training Approaches
| Approach | Full-tuning | Freeze-tuning | LoRA | QLoRA | OFT | QOFT |
|---|---|---|---|---|---|---|
| Pre-Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| Supervised Fine-Tuning | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| Reward Modeling | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| PPO Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| DPO Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| KTO Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| ORPO Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
| SimPO Training | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: | :white_check_mark: |
[!TIP] The implementation details of PPO can be found in this blog.
Provided Datasets
Pre-training datasets
Supervised fine-tuning datasets
- 身份信息 (英&中)
- 斯坦福Alpaca (英)
- 斯坦福Alpaca (中)
- Alpaca GPT4 (英&中)
- Glaive函数调用V2 (英&中)
- LIMA (英)
- Guanaco数据集 (多语言)
- BELLE 2M (中)
- BELLE 1M (中)
- BELLE 0.5M (中)
- BELLE对话0.4M (中)
- BELLE学校数学0.25M (中)
- BELLE多轮对话0.8M (中)
- UltraChat (英)
- OpenPlatypus (英)
- CodeAlpaca 20k (英)
- Alpaca CoT (多语言)
- OpenOrca (英)
- SlimOrca (英)
- MathInstruct (英)
- Firefly 1.1M (中)
- Wiki QA (英)
- Web QA (中)
- WebNovel (中)
- Nectar (英)
- deepctrl (英&中)
- 广告生成 (中)
- ShareGPT超滤版 (英)
- ShareGPT4 (英&中)
- UltraChat 200k (英)
- Infinity Instruct (中)
- AgentInstruct (英)
- LMSYS聊天1M (英)
- Evol Instruct V2 (英)
- Cosmopedia (英)
- STEM (中)
- Ruozhiba (中)
- Neo-sft (中)
- Magpie-Pro-300K-Filtered (英)
- Magpie-ultra-v0.1 (英)
- WebInstructSub (英)
- OpenO1-SFT (英&中)
- Open-Thoughts (英)
- Open-R1-Math (英)
- 中文-DeepSeek-R1-Distill (中)
- LLaVA混合版 (英&中)
- 宝可梦-gpt4o-字幕 (英&中)
- DLR-Web (英)
- 开放助手 (德)
- Dolly 15k (德)
- Alpaca GPT4 (德)
- OpenSchnabeltier (德)
- Evol Instruct (德)
- Dolphin (德)
- Booksum (德)
- Airoboros (德)
- Ultrachat (德)
偏好数据集
部分数据集在使用前需要确认,因此建议您使用以下命令登录Hugging Face账号。
pip install "huggingface_hub<1.0.0"
huggingface-cli login
要求
| 必需 | 最低 | 推荐 |
|---|---|---|
| python | 3.11 | >=3.11 |
| torch | 2.0.0 | 2.6.0 |
| torchvision | 0.15.0 | 0.21.0 |
| transformers | 4.49.0 | 4.50.0 |
| datasets | 2.16.0 | 3.2.0 |
| accelerate | 0.34.0 | 1.2.1 |
| peft | 0.14.0 | 0.15.1 |
| trl | 0.8.6 | 0.9.6 |
| 可选 | 最低 | 推荐 |
|---|---|---|
| CUDA | 11.6 | 12.2 |
| deepspeed | 0.10.0 | 0.16.4 |
| bitsandbytes | 0.39.0 | 0.43.1 |
| vllm | 0.4.3 | 0.8.2 |
| flash-attn | 2.5.6 | 2.7.2 |
硬件需求
* 估算
| 方法 | 位数 | 7B | 14B | 30B | 70B | xB |
|---|---|---|---|---|---|---|
完整模型 (bf16 或 fp16) |
32 | 120GB | 240GB | 600GB | 1200GB | 18xGB |
完整模型 (pure_bf16) |
16 | 60GB | 120GB | 300GB | 600GB | 8xGB |
| 冻结/LoRA/GaLore/APOLLO/BAdam/OFT | 16 | 16GB | 32GB | 64GB | 160GB | 2xGB |
| QLoRA / QOFT | 8 | 10GB | 20GB | 40GB | 80GB | xGB |
| QLoRA / QOFT | 4 | 6GB | 12GB | 24GB | 48GB | x/2GB |
| QLoRA / QOFT | 2 | 4GB | 8GB | 16GB | 24GB | x/4GB |
入门指南
安装
[!重要] 安装是必须的。
从源码安装
git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt
可选依赖项包括:metrics、deepspeed。可通过以下命令安装:pip install -e . && pip install -r requirements/metrics.txt -r requirements/deepspeed.txt
特定功能所需的额外依赖项可在 examples/requirements/ 中找到。
使用 Docker 镜像安装
docker run -it --rm --gpus=all --ipc=host hiyouga/llamafactory:latest
该镜像基于 Ubuntu 22.04 (x86_64)、CUDA 12.4、Python 3.11、PyTorch 2.6.0 和 Flash-attn 2.7.4 构建。
预构建镜像请访问:https://hub.docker.com/r/hiyouga/llamafactory/tags
如需自行构建镜像,请参阅 构建 Docker。
Windows 用户须知
安装 PyTorch
在 Windows 平台上,您需要手动安装支持 GPU 的 PyTorch 版本。请参考 官方文档 和以下命令以安装支持 CUDA 的 PyTorch:
pip uninstall torch torchvision torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -c "import torch; print(torch.cuda.is_available())"
如果输出为 True,则表示您已成功安装支持 CUDA 的 PyTorch。
若遇到 Can't pickle local object 错误,请尝试将 dataloader_num_workers: 0。
安装 BitsAndBytes
如果您希望在 Windows 平台上启用量化 LoRA (QLoRA),则需要安装预先编译好的 bitsandbytes 库,该库支持 CUDA 11.1 至 12.2。请根据您的 CUDA 版本选择合适的 发布版本。
pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl
安装 Flash Attention-2
要在 Windows 平台上启用 FlashAttention-2,您需要使用来自 flash-attention-windows-wheel 的脚本自行编译并安装。
Ascend NPU 用户须知
要在 Ascend NPU 设备上安装 LLaMA Factory,请将 Python 升级至 3.10 或更高版本:pip install -r requirements/npu.txt。此外,您还需要安装 Ascend CANN 工具包和内核。请按照 安装教程 进行操作。
您也可以下载预构建的 Docker 镜像:
# Docker Hub
docker pull hiyouga/llamafactory:latest-npu-a2
docker pull hiyouga/llamafactory:latest-npu-a3
# quay.io
docker pull quay.io/ascend/llamafactory:latest-npu-a2
docker pull quay.io/ascend/llamafactory:latest-npu-a3
安装 BitsAndBytes
要在 Ascend NPU 上使用基于 bitsandbytes 的 QLoRA,请遵循以下 3 步骤:
- 手动编译 bitsandbytes:请参考 安装文档 中关于 NPU 版本的说明,完成编译和安装。编译过程需要至少 3.22.1 版本的 cmake 和至少 12.x 版本的 g++。
# 从源码安装 bitsandbytes
# 克隆 bitsandbytes 仓库,目前多后端重构分支已支持 Ascend NPU 后端
git clone -b multi-backend-refactor https://github.com/bitsandbytes-foundation/bitsandbytes.git
cd bitsandbytes/
# 安装依赖
pip install -r requirements-dev.txt
# 安装编译工具的依赖。请注意,此步骤的具体命令可能因操作系统而异,以下供参考
apt-get install -y build-essential cmake
# 编译 & 安装
cmake -DCOMPUTE_BACKEND=npu -S .
make
pip install .
- 从主分支安装 transformers。
git clone -b main https://github.com/huggingface/transformers.git
cd transformers
pip install .
- 在配置中设置
double_quantization: false。您可以参考 示例。
数据准备
有关数据集文件格式的详细信息,请参阅 data/README.md。您可以使用 HuggingFace / ModelScope / Modelers hub 上的数据集,也可以加载本地磁盘中的数据集,或指定指向 s3/gcs 云存储的路径。
[!注] 请更新
data/dataset_info.json以使用您自定义的数据集。
您还可以使用 Easy Dataset、DataFlow 和 GraphGen 来创建用于微调的合成数据。
快速入门
使用以下 3 条命令分别运行 Qwen3-4B-Instruct 模型的 LoRA 微调、推理 和 合并。
llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml
llamafactory-cli chat examples/inference/qwen3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml
更多高级用法(包括分布式训练)请参阅 examples/README.md。
[!提示] 使用
llamafactory-cli help查看帮助信息。如遇问题,请先阅读 常见问题解答。
使用 LLaMA Board GUI 进行微调(由 Gradio 提供支持)
llamafactory-cli webui
LLaMA Factory 在线
请阅读我们的 文档。
构建 Docker
对于 CUDA 用户:
cd docker/docker-cuda/
docker compose up -d
docker compose exec llamafactory bash
对于 Ascend NPU 用户:
cd docker/docker-npu/
docker compose up -d
docker compose exec llamafactory bash
对于 AMD ROCm 用户:
cd docker/docker-rocm/
docker compose up -d
docker compose exec llamafactory bash
不使用 Docker Compose 构建
对于 CUDA 用户:
docker build -f ./docker/docker-cuda/Dockerfile \
--build-arg PIP_INDEX=https://pypi.org/simple \
-t llamafactory:latest .
docker run -dit --ipc=host --gpus=all \
-p 7860:7860 \
-p 8000:8000 \
--name llamafactory \
llamafactory:latest
docker exec -it llamafactory bash
对于 Ascend NPU 用户:
docker build -f ./docker/docker-npu/Dockerfile \
--build-arg PIP_INDEX=https://pypi.org/simple \
-t llamafactory:latest .
docker run -dit --ipc=host \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-p 7860:7860 \
-p 8000:8000 \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
--name llamafactory \
llamafactory:latest
docker exec -it llamafactory bash
对于 AMD ROCm 用户:
docker build -f ./docker/docker-rocm/Dockerfile \
--build-arg PIP_INDEX=https://pypi.org/simple \
-t llamafactory:latest .
docker run -dit --ipc=host \
-p 7860:7860 \
-p 8000:8000 \
--device /dev/kfd \
--device /dev/dri \
--name llamafactory \
llamafactory:latest
docker exec -it llamafactory bash
使用 Docker 卷
您可以在 Dockerfile 中取消注释 VOLUME [ "/root/.cache/huggingface", "/app/shared_data", "/app/output" ] 来使用数据卷。
在构建 Docker 镜像时,使用 -v ./hf_cache:/root/.cache/huggingface 参数将本地目录挂载到容器中。以下数据卷可用。
hf_cache: 在宿主机上利用 Hugging Face 缓存。shared_data: 宿主机上用于存储数据集的目录。output: 将导出目录设置为此位置,以便可以直接在宿主机上访问合并结果。
使用 OpenAI 风格 API 和 vLLM 部署
API_PORT=8000 llamafactory-cli api examples/inference/qwen3.yaml infer_backend=vllm vllm_enforce_eager=true
[!TIP] 请访问 此页面 查阅 API 文档。
从 ModelScope Hub 下载
如果您在从 Hugging Face 下载模型和数据集时遇到困难,可以使用 ModelScope。
export USE_MODELSCOPE_HUB=1 # Windows 系统使用 `set USE_MODELSCOPE_HUB=1`
通过将 ModelScope Hub 的模型 ID 指定为 model_name_or_path 来训练模型。您可以在 ModelScope Hub 上找到完整的模型 ID 列表,例如 LLM-Research/Meta-Llama-3-8B-Instruct。
从 Modelers Hub 下载
您也可以使用 Modelers Hub 下载模型和数据集。
export USE_OPENMIND_HUB=1 # Windows 系统使用 `set USE_OPENMIND_HUB=1`
通过将 Modelers Hub 的模型 ID 指定为 model_name_or_path 来训练模型。您可以在 Modelers Hub 上找到完整的模型 ID 列表,例如 TeleAI/TeleChat-7B-pt。
使用 W&B 日志记录器
要使用 Weights & Biases 记录实验结果,您需要在 YAML 文件中添加以下参数。
report_to: wandb
run_name: test_run # 可选
在启动训练任务时,将 WANDB_API_KEY 设置为您的 API 密钥,以登录您的 W&B 账户。
使用 SwanLab 日志记录器
要使用 SwanLab 记录实验结果,您需要在 YAML 文件中添加以下参数。
use_swanlab: true
swanlab_run_name: test_run # 可选
在启动训练任务时,您可以通过三种方式登录 SwanLab:
- 在 YAML 文件中添加
swanlab_api_key=<your_api_key>,并将其设置为您的 API 密钥。 - 将环境变量
SWANLAB_API_KEY设置为您的 API 密钥。 - 使用
swanlab login命令完成登录。
使用 LLaMA Factory 的项目
如果您有希望纳入的项目,请通过电子邮件联系我们或创建拉取请求。
点击展开
- Wang 等人。ESRL:用于序列生成的高效采样强化学习。2023年。[arxiv]
- Yu 等人。文本分类中使用开放、封闭还是小型语言模型?2023年。[arxiv]
- Wang 等人。UbiPhysio:通过自然语言中的动作理解和反馈支持日常功能、健身和康复。2023年。[arxiv]
- Luceri 等人。利用大型语言模型检测社交媒体中的影响力活动。2023年。[arxiv]
- Zhang 等人。通过诱导幻觉缓解大型语言模型的幻觉问题。2023年。[arxiv]
- Wang 等人。更了解您的需求:借助类比推理增强的大型语言模型,实现对营销人员需求的结构化理解。KDD 2024。[arxiv]
- Wang 等人。CANDLE:从大型语言模型中迭代提炼概念化与实例化知识,用于常识推理。ACL 2024。[arxiv]
- Choi 等人。FACT-GPT:基于大型语言模型进行主张匹配的事实核查增强。2024年。[arxiv]
- Zhang 等人。AutoMathText:利用语言模型对数学文本进行自主数据选择。2024年。[arxiv]
- Lyu 等人。KnowTuning:面向大型语言模型的知识感知微调。2024年。[arxiv]
- Yang 等人。LaCo:通过层融合对大型语言模型进行剪枝。2024年。[arxiv]
- Bhardwaj 等人。语言模型就是荷马·辛普森!通过任务算术重新对齐微调后的语言模型以提高安全性。2024年。[arxiv]
- Yang 等人。通过小型共情模型增强大型语言模型,提升共情回复生成能力。2024年。[arxiv]
- Yi 等人。生成与验证结合:利用智能并行自动纠错解码加速大型语言模型推理。ACL 2024成果。[arxiv]
- Cao 等人。面向大型语言模型的头级可共享注意力机制。2024年。[arxiv]
- Zhang 等人。通过从资源丰富的语言中自我蒸馏,提升大型语言模型的多语言能力。2024年。[arxiv]
- Kim 等人。高效且有效的词汇扩展,助力多语种大型语言模型发展。2024年。[arxiv]
- Yu 等人。KIEval:面向大型语言模型的知识驱动型交互式评估框架。ACL 2024。[arxiv]
- Huang 等人。基于关键点的数据合成及其在数学推理中的增强作用。2024年。[arxiv]
- Duan 等人。否定之否定:通过分布差异优化实现无需人类正面样本的对齐。2024年。[arxiv]
- Xie 和 Schwertfeger。用大型语言模型赋能机器人技术:利用大型语言模型理解osmAG地图。2024年。[arxiv]
- Wu 等人。大型语言模型是并行的多语种学习者。2024年。[arxiv]
- Zhang 等人。EDT:基于熵的动态温度采样提升大型语言模型生成质量。2024年。[arxiv]
- Weller 等人。FollowIR:评估并训练信息检索模型遵循指令的能力。2024年。[arxiv]
- Hongbin Na。CBT-LLM:一款用于基于认知行为疗法的心理健康问答的中文大型语言模型。COLING 2024。[arxiv]
- Zan 等人。CodeS:通过多层草图实现自然语言到代码仓库的转换。2024年。[arxiv]
- Liu 等人。广泛的自我对比使语言模型无需反馈即可实现对齐。2024年。[arxiv]
- Luo 等人。BAdam:一种面向大型语言模型的内存高效的全参数训练方法。2024年。[arxiv]
- Du 等人。Chinese Tiny LLM:预训练一个以中文为中心的大型语言模型。2024年。[arxiv]
- Ma 等人。利用Givens旋转实现参数高效的准正交微调。ICML 2024。[arxiv]
- Liu 等人。利用大型语言模型动态生成个性。2024年。[arxiv]
- Shang 等人。我们利用大型语言模型理解剥离二进制代码已经走到了哪一步。2024年。[arxiv]
- Huang 等人。LLMTune:利用大型语言模型加速数据库参数调优。2024年。[arxiv]
- Deng 等人。文本-元组-表格:通过全局元组提取,迈向文本到表格生成的信息集成。2024年。[arxiv]
- Acikgoz 等人。Hippocrates:一个用于推动大型语言模型在医疗领域发展的开源框架。2024年。[arxiv]
- Zhang 等人。小型语言模型需要强大的验证器来自我纠正推理。ACL 2024成果。[arxiv]
- Zhou 等人。FREB-TQA:一个针对表格问答的细粒度鲁棒性评估基准。NAACL 2024。[arxiv]
- Xu 等人。大型语言模型在网络安全中的应用:系统性文献综述。2024年。[arxiv]
- Dammu 等人。“他们没有教养”:揭示大型语言模型生成对话中的隐蔽危害和社会威胁。2024年。[arxiv]
- Yi 等人。一种基于子空间导向的模型融合安全对齐框架,适用于大型语言模型。2024年。[arxiv]
- Lou 等人。SPO:基于隐式奖励建模的多维偏好顺序对齐。2024年。[arxiv]
- Zhang 等人。事半功倍:大型语言模型是优秀的自发性多语种学习者。2024年。[arxiv]
- Zhang 等人。TS-Align:一个师生协作框架,用于大规模迭代微调大型语言模型。2024年。[arxiv]
- Zihong Chen。基于XunziALLM的句子分割和标点符号添加。2024年。[论文]
- Gao 等人。兼得两者之长:迈向诚实且有用的大型语言模型。2024年。[arxiv]
- Wang 和 Song。MARS:利用多任务评估数据集衡量语言模型的形而上学推理能力。2024年。[arxiv]
- Hu 等人。基于Transformer模型的低秩适应(LoRA)的计算限制。2024年。[arxiv]
- Ge 等人。通过高效微调进行时间敏感的知识编辑。ACL 2024。[arxiv]
- Tan 等人。同行评审作为一种多轮且长上下文的对话,具有角色互动的特点。2024年。[arxiv]
- Song 等人。Turbo Sparse:仅用最少激活参数就达到大型语言模型的最先进水平。2024年。[arxiv]
- Gu 等人。RWKV-CLIP:一种鲁棒的视觉-语言表征学习器。2024年。[arxiv]
- Chen 等人。推进工具增强型大型语言模型:整合推理树中错误的见解。2024年。[arxiv]
- Zhu 等人。大型语言模型是优秀的统计学家吗?2024年。[arxiv]
- Li 等人。知晓未知:一种针对大型语言模型指令微调的不确定性敏感方法。2024年。[arxiv]
- Ding 等人。IntentionQA:一个用于评估语言模型在电子商务中理解购买意图能力的基准。2024年。[arxiv]
- He 等人。COMMUNITY-CROSS-INSTRUCT:无监督指令生成,用于将大型语言模型对齐到在线社区。2024年。[arxiv]
- Lin 等人。FVEL:通过定理证明,利用大型语言模型构建交互式形式化验证环境。2024年。[arxiv]
- Treutlein 等人。串联线索:大型语言模型可以从分散的训练数据中推断并表达潜在结构。2024年。[arxiv]
- Feng 等人。SS-Bench:一个用于社交故事生成与评估的基准。2024年。[arxiv]
- Feng 等人。自建上下文分解,并辅以细粒度对齐增强。2024年。[arxiv]
- Liu 等人。利用可穿戴生物信号,通过大型语言模型进行无袖血压测量。2024年。[arxiv]
- Iyer 等人。探索利用大型语言模型进行极低资源翻译:爱丁堡大学提交给美洲NLP 2024翻译任务的作品。美洲NLP 2024。[论文]
- Li 等人。通过在科学问题评分中生成论证过程,利用思维树上的偏好优化校准大型语言模型。2024年。[arxiv]
- Yang 等人。金融知识大型语言模型。2024年。[arxiv]
- Lin 等人。DogeRM:通过模型合并为奖励模型配备领域知识。2024年。[arxiv]
- Bako 等人。评估大型语言模型对数据可视化中自然语言话语的语义剖析能力。2024年。[arxiv]
- Huang 等人。RoLoRA:对经过旋转处理且无异常值的大型语言模型进行微调,以实现有效的权重-激活量化。2024年。[arxiv]
- Jiang 等人。大型语言模型合作开展面向大众的自动科学新闻报道。2024年。[arxiv]
- Inouye 等人。LoRA超参数的自动化调优。2024年。[论文]
- Qi 等人。基于大型语言模型的西藏旅游景点信息生成系统研究。2024年。[arxiv]
- Xu 等人。方向修正:利用合成偏好进行安全对齐。2024年。[arxiv]
- Sun 等人。LAMBDA:一个基于大型模型的数据代理。2024年。[arxiv]
- Zhu 等人。CollectiveSFT:通过医疗领域的集体指令,将大型语言模型扩展至中国医学基准。2024年。[arxiv]
- Yu 等人。通过负注意力分数对齐纠正大型语言模型中的负面偏见。2024年。[arxiv]
- Xie 等人。个性化数据集的力量:通过针对性的模型微调,提升小学阶段的中文作文写作水平。IALP 2024。[论文]
- Liu 等人。Instruct-Code-Llama:通过在线评测反馈,提升语言模型在竞赛级别代码生成方面的能力。ICIC 2024。[论文]
- Wang 等人。网络卫士:揭示监督式微调中安全数据选择对模型安全性的影响。ICIC 2024。[论文]
- Xia 等人。理解大型语言模型微调的性能并估算成本。2024年。[arxiv]
- Zeng 等人。感知、反思和计划:设计无需指令的目标导向城市导航大型语言模型代理。2024年。[arxiv]
- Xia 等人。利用预训练语言模型进行精准的ESG预测。FinNLP 2024。[论文]
- Liang 等人。I-SHEEP:通过迭代自我增强范式,从零开始实现大型语言模型的自我对齐。2024年。[arxiv]
- Bai 等人。通过直接多偏好优化对大型语言模型进行推荐对齐。CIKM 2024。[论文]
- Zhang 等人。CPsyCoun:一个基于报告的多轮对话重建与评估框架,用于中国心理咨询。ACL 2024。[论文]
- StarWhisper:一款基于ChatGLM2-6B和Qwen-14B的天文学专用大型语言模型。
- DISC-LawLLM:一款专注于中国法律领域的大型语言模型,基于Baichuan-13B,能够检索和推理法律知识。
- Sunsimiao:一款专注于中国医学领域的大型语言模型,基于Baichuan-7B和ChatGLM-6B。
- CareGPT:一系列专注于中国医学领域的大型语言模型,基于LLaMA2-7B和Baichuan-13B。
- MachineMindset:一系列基于MBTI性格类型的大型语言模型,能够根据不同的数据集和训练方法为任何大型语言模型赋予16种不同的人格类型。
- Luminia-13B-v3:一款专门用于生成稳定扩散元数据的大型语言模型。[演示]
- Chinese-LLaVA-Med:一款基于LLaVA-1.5-7B的多模态大型语言模型,专注于中国医学领域。
- AutoRE:一个基于大型语言模型的文档级关系抽取系统。
- NVIDIA RTX AI Toolkit:用于在Windows PC上使用NVIDIA RTX微调大型语言模型的SDK。
- LazyLLM:一种简单便捷的方式来构建多智能体大型语言模型应用,并支持通过LLaMA Factory进行模型微调。
- RAG-Retrieval:一个完整的RAG检索模型微调、推理和蒸馏流程。[博客]
- 360-LLaMA-Factory:一个修改过的库,支持使用环形注意力进行长序列SFT和DPO。
- Sky-T1:由NovaSky AI微调的一款类似o1的模型,成本非常低廉。
- WeClone:一个一站式解决方案,可根据聊天记录创建您的数字化身。
- EmoLLM:一个关于大型语言模型(LLMs)与心理健康的合作项目。
许可证
本仓库采用 Apache-2.0 许可证 许可。
请遵守各模型的许可证条款以使用相应的模型权重:BLOOM / DeepSeek / Falcon / Gemma / GLM-4 / GPT-2 / Granite / InternLM / Llama / Llama 2 / Llama 3 / Llama 4 / MiniCPM / Mistral/Mixtral/Pixtral / Phi-3/Phi-4 / Qwen / StarCoder 2 / TeleChat2 / Yuan 2
引用
如果本工作对您有所帮助,请引用如下:
@inproceedings{zheng2024llamafactory,
title={LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models},
author={Yaowei Zheng and Richong Zhang and Junhao Zhang and Yanhan Ye and Zheyan Luo and Zhangchi Feng and Yongqiang Ma},
booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)},
address={曼谷, 泰国},
publisher={Association for Computational Linguistics},
year={2024},
url={http://arxiv.org/abs/2403.13372}
}
致谢
本项目受益于 PEFT、TRL、QLoRA 和 FastChat。感谢他们的杰出工作。
星标历史

版本历史
v0.9.42025/12/31v0.9.32025/06/16v0.9.22025/03/11v0.9.12024/11/24v0.9.02024/09/08v0.8.32024/07/18v0.8.22024/06/19v0.8.12024/06/10v0.8.02024/06/07v0.7.12024/05/15v0.7.02024/04/27v0.6.32024/04/21v0.6.22024/04/11v0.6.12024/03/29v0.6.02024/03/25v0.5.32024/02/28v0.5.22024/02/20v0.5.02024/01/20v0.4.02023/12/16v0.3.32023/12/03常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

