torchtune

5.7k 714 中等 1 次阅读昨天BSD-3-Clause语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

torchtune 是 PyTorch 官方推出的原生大模型后训练库，旨在让开发者轻松构建、微调和实验大型语言模型。它主要解决了大模型定制过程中配置复杂、内存效率低以及多设备扩展难等痛点，提供了一套从监督微调（SFT）、知识蒸馏到人类反馈强化学习（如 DPO、PPO）的全流程解决方案。

这款工具特别适合 AI 研究人员和工程开发者使用。无论是希望快速上手的新手，还是需要深入定制算法的专家，都能通过其模块化的设计灵活调整训练策略。torchtune 内置了 Llama、Gemma、Qwen 等主流模型的简洁 PyTorch 实现，并支持最新的 Llama 3.3 及多模态版本。

其核心技术亮点在于极致的内存优化与性能表现，充分利用了最新的 PyTorch API，支持激活值卸载和多模态 QLoRA 等先进特性。用户可以通过简单的 YAML 配置文件，轻松在单卡、多卡乃至多节点集群上运行全量微调或参数高效微调（LoRA/QLoRA）。此外，torchtune 还紧跟社区步伐，迅速适配如 Llama 4、Qwen3 等前沿模型，让研究者能第一时间利用最新架构进行探索。借助 torchtune，大模型的后训练工作变得更加透明、高效且易于复现。

使用场景

某初创教育科技公司希望基于最新的 Llama 3.2 3B 模型，快速定制一个专为中学生设计的理科辅导助手，需在有限的单卡资源上完成高效微调。

没有 torchtune 时

环境搭建繁琐：团队需手动整合 Hugging Face Transformers、PEFT 和 Accelerate 等多个库，版本冲突频发，配置 LoRA 微调环境耗时数天。
显存优化困难：在单张消费级显卡上运行全量或大参数微调时，常因显存溢出（OOM）而被迫降低批次大小，导致训练极慢甚至无法启动。
算法复现门槛高：想要尝试知识蒸馏或 DPO 等进阶对齐算法，需从零编写复杂的损失函数和数据加载逻辑，研发周期被大幅拉长。
配置管理混乱：超参数分散在各个脚本文件中，修改实验配置如同“改代码”，难以追踪不同实验间的差异，复现性差。

使用 torchtune 后

开箱即用：直接调用 torchtune 内置的 Llama 3.2 原生实现和预置 YAML 配置，一行命令即可启动 LoRA 微调，环境准备时间从几天缩短至几小时。
极致显存效率：借助 torchtune 集成的激活值卸载（Activation Offloading）和 QLoRA 技术，成功在单卡上流畅训练 3B 模型，显存占用降低 40% 以上。
进阶算法轻松上手：通过切换配置文件，无缝启用知识蒸馏或 DPO 食谱，无需重写底层代码，快速验证了“教师模型”指导下的性能提升。
标准化实验管理：所有训练参数集中在于清晰的 YAML 文件中，团队成员可轻松复制、修改并对比不同实验配置，协作效率显著提升。

torchtune 将原本复杂的后训练流程转化为标准化的配置驱动模式，让开发者能专注于算法策略而非工程基建，极大加速了垂直领域大模型的落地进程。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（基于测试数据）
显存需求取决于模型大小和微调方法：单卡微调 Llama 3.1 8B (QLoRA) 需约 7.4GB，全量微调需 18.9GB+
多卡微调 Llama 3.1 70B/405B 需 A100 等高性能显卡，单卡显存占用 13.9GB-44.8GB
支持 CPU Offload 以降低显存需求

内存

未说明（建议根据模型大小配置充足系统内存以支持数据加载和 CPU Offload）

依赖

notes该工具专注于 PyTorch 原生实现，利用最新 PyTorch API 进行内存优化（如激活卸载、分块交叉熵、编译器优化等）。支持多种微调策略（SFT, LoRA, QLoRA, DPO, PPO, GRPO, QAT）及多节点训练。具体硬件需求高度依赖于所选模型参数量（从 0.5B 到 405B+）及微调配置，官方提供了针对不同显卡（如 RTX 4090, A6000, A100）的显存占用和吞吐量基准测试数据供参考。

python未说明

torch

torchtune

快速开始

torchtune

概述 | 安装 | 开始使用 | 文档 | 社区 | 引用 torchtune | 许可证

📣 最新更新 📣

2025年5月: torchtune 已新增对 Qwen3 模型的支持！所有配置请查看这里
2025年4月: Llama4 现已在 torchtune 中可用！您可以尝试我们的全参数和 LoRA 微调配置这里
2025年2月: 多节点训练现已在 torchtune 中正式开放使用指南！通过多节点进行全参数微调，以充分利用更大的批量大小和模型规模。
2024年12月: torchtune 现已支持 Llama 3.3 70B！按照我们的安装说明这里进行设置，然后运行任意一个配置这里。
2024年11月: torchtune 发布了 v0.4.0，其中包含了对激活卸载和多模态 QLoRA 等激动人心功能的稳定支持。
2024年11月: torchtune 已将 Gemma2 添加到其支持的模型列表中！
2024年10月: torchtune 增加了对 Qwen2.5 模型的支持——相关配置请见这里。
2024年9月: torchtune 现已支持 Llama 3.2 11B Vision、Llama 3.2 3B 和 Llama 3.2 1B 模型！按照我们的安装说明这里进行设置，然后运行任意一个文本配置这里或视觉配置这里。

概述 📚

torchtune 是一个基于 PyTorch 的库，用于轻松构建、后训练和实验大型语言模型。它提供：

可自定义的训练配方，适用于 SFT、知识蒸馏、DPO、PPO、GRPO 以及量化感知训练；
Llama、Gemma、Mistral、Phi、Qwen 等流行 LLM 的简单 PyTorch 实现；
利用最新 PyTorch API 实现的一流内存效率、性能优化和扩展能力；
使用 YAML 配置文件，方便地配置训练、评估、量化或推理流程。

后训练配方

torchtune 支持完整的后训练生命周期。一个成功的后训练模型通常会结合以下几种方法。

监督微调 (SFT)

权重更新方式	1 台设备	>1 台设备	>1 节点
全参数	✅	✅	✅
LoRA/QLoRA	✅	✅	✅

示例：tune run lora_finetune_single_device --config llama3_2/3B_lora_single_device
您也可以运行例如 tune ls lora_finetune_single_device 来查看所有可用配置。

知识蒸馏 (KD)

权重更新方式	1 台设备	>1 台设备	>1 节点
全参数	❌	❌	❌
LoRA/QLoRA	✅	✅	❌

示例：tune run knowledge_distillation_distributed --config qwen2/1.5B_to_0.5B_KD_lora_distributed
您还可以运行例如 tune ls knowledge_distillation_distributed 查看所有可用配置。

强化学习 / 人类反馈强化学习 (RLHF)

方法	权重更新方式	1 台设备	>1 台设备	>1 节点
DPO	全参数	❌	✅	❌
	LoRA/QLoRA	✅	✅	❌
PPO	全参数	✅	❌	❌
	LoRA/QLoRA	❌	❌	❌
GRPO	全参数	🚧	✅	✅
	LoRA/QLoRA	❌	❌	❌

示例：tune run lora_dpo_single_device --config llama3_1/8B_dpo_single_device
您也可以运行例如 tune ls full_dpo_distributed 查看所有可用配置。

量化感知训练 (QAT)

权重更新方式	1 台设备	>1 台设备	>1 节点
全参数	✅	✅	❌
LoRA/QLoRA	❌	✅	❌

示例：tune run qat_distributed --config llama3_1/8B_qat_lora
您还可以运行例如 tune ls qat_distributed 或 tune ls qat_single_device 查看所有可用配置。

以上配置仅为入门示例。完整的配方列表可在这里找到。如果您希望填补其中的空白，请提交 PR！如果您有全新的后训练方法想要在 torchtune 中实现，也欢迎随时提出 Issue。

模型

对于上述配方，torchtune 支持许多在 Hugging Face Hub 或 Kaggle Hub 上可用的最先进模型。我们支持的部分模型如下：

模型	尺寸
Llama4	Scout (17B x 16E) [模型, 配置]
Llama3.3	70B [模型, 配置]
Llama3.2-Vision	11B、90B [模型, 配置]
Llama3.2	1B、3B [模型, 配置]
Llama3.1	8B、70B、405B [模型, 配置]
Mistral	7B [模型, 配置]
Gemma2	2B、9B、27B [模型, 配置]
Microsoft Phi4	14B [模型, 配置]
Microsoft Phi3	Mini [模型, 配置]
Qwen3	0.6B、1.7B、4B、8B、14B、32B [模型, 配置]
Qwen2.5	0.5B、1.5B、3B、7B、14B、32B、72B [模型, 配置]
Qwen2	0.5B、1.5B、7B [模型, 配置]

我们一直在添加新模型，但如果您希望在 torchtune 中看到某个新模型，请随时提交 issue。

内存与训练速度

以下是不同 Llama 3.1 模型的内存需求和训练速度示例。

[!注意] 为了便于比较，以下所有数据均基于批次大小为 2（无梯度累积）、数据集打包至序列长度 2048，以及启用 Torch 编译的情况。

如果您有兴趣在不同的硬件或使用不同的模型上运行，请查看我们的内存优化文档这里，以找到适合您的设置。

模型	微调方法	可运行设备	每 GPU 峰值内存	每秒处理的 token 数 *
Llama 3.1 8B	全量微调	1x 4090	18.9 GiB	1650
Llama 3.1 8B	全量微调	1x A6000	37.4 GiB	2579
Llama 3.1 8B	LoRA	1x 4090	16.2 GiB	3083
Llama 3.1 8B	LoRA	1x A6000	30.3 GiB	4699
Llama 3.1 8B	QLoRA	1x 4090	7.4 GiB	2413
Llama 3.1 70B	全量微调	8x A100	13.9 GiB **	1568
Llama 3.1 70B	LoRA	8x A100	27.6 GiB	3497
Llama 3.1 405B	QLoRA	8x A100	44.8 GB	653

*= 在一个完整训练周期内测量
**= 使用带有融合优化器的 CPU offload

优化标志

torchtune 提供了多个用于提高内存效率和性能的工具。下表展示了将其中一些技术依次应用于 Llama 3.2 3B 模型的效果。每种技术都是在前一种技术的基础上添加的，除了 LoRA 和 QLoRA，它们不使用 optimizer_in_bwd 或 AdamW8bit 优化器。

基线使用配方=full_finetune_single_device，模型=Llama 3.2 3B，批次大小=2，最大序列长度=4096，精度=bf16，硬件=A100

技术	峰值活动内存 (GiB)	相对于前一次的内存变化 (%)	每秒处理的 token 数	相对于前一次的 token 数变化 (%)
基线	25.5	-	2091	-
+ 数据集打包	60.0	+135.16%	7075	+238.40%
+ 编译	51.0	-14.93%	8998	+27.18%
+ 分块交叉熵	42.9	-15.83%	9174	+1.96%
+ 激活检查点	24.9	-41.93%	7210	-21.41%
+ 将优化步骤融入反向传播	23.1	-7.29%	7309	+1.38%
+ 激活 offloading	21.8	-5.48%	7301	-0.11%
+ 8位 AdamW	17.6	-19.63%	6960	-4.67%
LoRA	8.5	-51.61%	8210	+17.96%
QLoRA	4.6	-45.71%	8035	-2.13%

表格中的最后一行与基线 + 数据集打包相比，内存减少了 81.9%，而每秒处理的 token 数增加了 284.3%。

重现最后一行的命令。

tune run lora_finetune_single_device --config llama3_2/3B_qlora_single_device \
dataset.packed=True \
compile=True \
loss=torchtune.modules.loss.CEWithChunkedOutputLoss \
enable_activation_checkpointing=True \
optimizer_in_bwd=False \
enable_activation_offloading=True \
optimizer=torch.optim.AdamW \
tokenizer.max_seq_len=4096 \
gradient_accumulation_steps=1 \
epochs=1 \
batch_size=2

安装 🛠️

torchtune 仅在最新的稳定版 PyTorch（当前为 2.6.0）以及预览版 nightly 版本上进行了测试，并利用 torchvision 对多模态 LLM 进行微调，同时借助 torchao 实现最新的量化技术；您也应安装这些库。

安装稳定版


# 安装稳定版 PyTorch、torchvision 和 torchao
pip install torch torchvision torchao
pip install torchtune

安装夜间版本

# 安装 PyTorch、torchvision 和 torchao 的夜间版本。
pip install --pre --upgrade torch torchvision torchao --index-url https://download.pytorch.org/whl/nightly/cu126 # 可选的完整选项包括 cpu/cu118/cu124/cu126/xpu/rocm6.2/rocm6.3/rocm6.4
pip install --pre --upgrade torchtune --extra-index-url https://download.pytorch.org/whl/nightly/cpu

您还可以查看我们的安装文档，以获取更多信息，包括从源代码安装 torchtune。

为了确认软件包是否正确安装，您可以运行以下命令：

tune --help

应该会看到如下输出：

usage: tune [-h] {ls,cp,download,run,validate} ...

欢迎使用 torchtune 命令行界面！

选项：
  -h, --help            显示此帮助信息并退出

...

开始使用 🚀

要开始使用 torchtune，请参阅我们的首次微调教程。我们的端到端工作流教程将向您展示如何评估、量化以及运行 Llama 模型的推理。本节的其余部分将以 Llama3.1 为例，快速概述这些步骤。

下载模型

请按照官方 meta-llama 仓库中的说明操作，以确保您有权访问官方 Llama 模型权重。确认权限后，您可以运行以下命令将权重下载到本地机器上。这还将下载分词器模型和负责任使用指南。

要下载 Llama3.1，您可以运行：

tune download meta-llama/Meta-Llama-3.1-8B-Instruct \
--output-dir /tmp/Meta-Llama-3.1-8B-Instruct \
--ignore-patterns "original/consolidated.00.pth" \
--hf-token <HF_TOKEN> \

[!提示] 设置您的环境变量 HF_TOKEN 或在命令中传递 --hf-token，以验证您的访问权限。您可以在 https://huggingface.co/settings/tokens 找到您的令牌。

运行微调配方

您可以在单个 GPU 上使用 LoRA 对 Llama3.1 8B 进行微调，命令如下：

tune run lora_finetune_single_device --config llama3_1/8B_lora_single_device

对于分布式训练，tune CLI 集成了 torchrun。要在两个 GPU 上运行 Llama3.1 8B 的完整微调：

tune run --nproc_per_node 2 full_finetune_distributed --config llama3_1/8B_full

[!提示] 请务必将任何 torchrun 命令放在配方规范之前。此后输入的任何 CLI 参数都会覆盖配置，而不会影响分布式训练。

修改配置

有两种方法可以修改配置：

配置覆盖

您可以直接从命令行覆盖配置字段：

tune run lora_finetune_single_device \
--config llama2/7B_lora_single_device \
batch_size=8 \
enable_activation_checkpointing=True \
max_steps_per_epoch=128

更新本地副本

您也可以将配置复制到本地目录，并直接修改内容：

tune cp llama3_1/8B_full ./my_custom_config.yaml
已复制到 ./my_custom_config.yaml

然后，您可以通过将 tune run 命令指向本地文件来运行自定义配方：

tune run full_finetune_distributed --config ./my_custom_config.yaml

请查看 tune --help 以了解所有可能的 CLI 命令和选项。有关使用和更新配置的更多信息，请参阅我们的配置深度解析。

自定义数据集

torchtune 支持在各种不同类型的数据集上进行微调，包括指令式、聊天式、偏好数据集等。如果您想了解更多关于如何将这些组件应用于您自己的自定义数据集进行微调的信息，请查看提供的链接以及我们的API 文档。

自定义设备

torchtune 支持在多种设备上进行微调，包括 NVIDIA GPU、Intel XPU、AMD ROCm、Apple MPS 和 Ascend NPU。如果您有兴趣在自定义设备上运行配方，例如 Intel XPU，请按照以下步骤操作。

步骤 1：参考 Intel GPU 入门指南来配置您的环境。

步骤 2：通过 CLI 覆盖或配置更改来更新设备信息。您可以直接从命令行覆盖配置字段：

tune run lora_finetune_single_device --config llama3_1/8B_lora_single_device device=xpu

或者编辑您本地的配置文件，将 device: cuda 替换为 device: xpu。

社区 🌍

torchtune 致力于与生态系统中的流行工具和库集成。以下仅是一些示例，更多仍在开发中：

Hugging Face Hub 用于访问模型权重
EleutherAI 的 LM Eval Harness 用于评估训练好的模型
Hugging Face Datasets 用于访问训练和评估数据集
PyTorch FSDP2 用于分布式训练
torchao 用于低精度数据类型和训练后量化技术
Weights & Biases 用于记录指标和检查点，并跟踪训练进度
Comet 是另一个用于记录的选项
ExecuTorch 用于设备端推理使用微调后的模型
bitsandbytes 用于我们单设备配方中的低内存优化器
PEFT 用于在 Hugging Face 生态系统中对 torchtune 模型进行持续微调或推理

社区贡献

我们非常珍视我们的社区以及各位优秀用户所做的贡献。我们将在此部分特别感谢其中一些贡献。如果您也想参与贡献，请参阅 CONTRIBUTING 指南。

@SalmanMohammadi，为 torchtune 添加了使用 PPO 进行人类反馈强化学习 (RLHF) 微调的完整端到端流程。
@fyabc，为 torchtune 添加了 Qwen2 模型、分词器及相应流程的集成。
@solitude-alive，为 torchtune 添加了 Gemma 2B 模型的支持，包括流程修改、模型数值验证以及流程正确性检查。
@yechenzhi，为 torchtune 添加了直接偏好优化 (DPO) 的支持，包含流程、配置文件及正确性验证。
@Optimox，为 torchtune 添加了所有 Gemma2 变体的支持！

致谢 🙏

本仓库中的 Transformer 代码灵感来源于原始的 Llama2 代码。同时，我们也衷心感谢 EleutherAI、Hugging Face 和 Weights & Biases，感谢他们作为出色的合作伙伴，与我们一起完成了 torchtune 中的一些集成工作。此外，我们还想感谢生态系统中其他一些优秀的库和工具：

gpt-fast，提供了高效的 LLM 推理技术，我们直接采用了这些现成的实现。
llama recipes，为 Llama2 社区的发展奠定了基础。
bitsandbytes，将多项内存与性能优化技术引入了 PyTorch 生态系统。
@winglian 和 axolotl，在 torchtune 的设计与功能集方面提供了早期反馈与头脑风暴。
lit-gpt，推动了 LLM 微调社区的进步。
HF TRL，使奖励建模对 PyTorch 社区更加易用。

引用 torchtune 📝

如果您觉得 torchtune 库很有用，请在您的工作中按以下方式引用它。

@software{torchtune,
  title = {torchtune: PyTorch 的微调库},
  author = {torchtune 维护者及贡献者},
  url = {https//github.com/pytorch/torchtune},
  license = {BSD-3-Clause},
  month = apr,
  year = {2024}
}

许可证

torchtune 采用 BSD 3 许可证发布。然而，您可能还需遵守其他法律义务，例如关于第三方模型的服务条款等，以规范您对相关内容的使用。

torchtune 快速上手指南

torchtune 是 PyTorch 官方推出的大语言模型（LLM）微调库，专为简化模型作者、后训练（Post-training）及实验流程而设计。它支持 SFT、LoRA/QLoRA、DPO、知识蒸馏等多种前沿训练方法，并针对 Llama、Qwen、Gemma、Mistral 等主流模型提供了开箱即用的配置。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 支持有限，建议使用 WSL2。
Python: 版本需为 3.9 或更高。
PyTorch: 需安装与您的 CUDA 版本匹配的最新版 PyTorch (建议 2.4+)。
GPU: 推荐使用 NVIDIA GPU。对于大模型全量微调或多卡训练，显存需求较高；若资源有限，可使用 LoRA 或 QLoRA 方案。
依赖管理: 推荐使用 conda 或 venv 创建独立的虚拟环境。

前置检查： 确保已安装 git 和 pip。若使用国内网络，建议配置 pip 国内镜像源以加速下载：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

1. 创建并激活虚拟环境

conda create -n torchtune python=3.10 -y
conda activate torchtune

2. 安装 PyTorch

请访问 PyTorch 官网获取适合您硬件的安装命令。以下为 CUDA 12.1 的示例：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

注：国内用户可使用清华源加速 PyTorch 安装（如果可用），或直接使用官方源。

3. 安装 torchtune

通过 pip 直接安装最新稳定版：

pip install torchtune

或者，若您希望体验最新功能（如最新的 Qwen3 或 Llama4 支持），可从源码安装：

git clone https://github.com/pytorch/torchtune.git
cd torchtune
pip install -e .

4. 验证安装

运行以下命令查看可用食谱（recipes）列表，确认安装成功：

tune ls

基本使用

torchtune 的核心工作流是通过 tune run 命令加载预设的 YAML 配置文件来启动训练。以下是使用 LoRA 方法微调 Llama 3.2 3B 模型的最简示例。

第一步：下载模型权重

torchtune 支持直接从 Hugging Face Hub 下载模型。首次运行时会自动下载，也可手动预下载。 (注：若访问 Hugging Face 受限，请配置 HF_ENDPOINT 或使用国内镜像站如 ModelScope)

# 设置环境变量（可选，用于指定模型缓存目录）
export HF_HOME=~/.cache/huggingface

# 运行命令时工具会自动拉取模型，无需单独执行下载脚本

第二步：运行微调任务

使用内置配置文件启动单卡 LoRA 微调。以下命令将自动处理数据加载、模型构建和训练循环。

tune run lora_finetune_single_device --config llama3_2/3B_lora_single_device

命令解析：

lora_finetune_single_device: 指定使用单卡 LoRA 微调食谱。
--config llama3_2/3B_lora_single_device: 指定针对 Llama 3.2 3B 模型的预设配置。

第三步：自定义配置（可选）

您可以复制默认配置文件进行修改，以适应自己的数据集或超参数：

# 1. 查看配置内容
tune cp llama3_2/3B_lora_single_device ./my_custom_config.yaml

# 2. 编辑 my_custom_config.yaml (修改 dataset, batch_size, epochs 等)
# vim my_custom_config.yaml 

# 3. 使用自定义配置运行
tune run lora_finetune_single_device --config ./my_custom_config.yaml

其他常用场景示例

全量微调 (Full Finetune):

tune run full_finetune_single_device --config llama3_2/3B_full_single_device

多卡分布式训练 (DDP):

tune run --nproc_per_node 4 full_finetune_distributed --config llama3_2/3B_full_distributed

知识蒸馏 (Knowledge Distillation):

tune run knowledge_distillation_distributed --config qwen2/1.5B_to_0.5B_KD_lora_distributed

DPO (人类反馈强化学习):

tune run lora_dpo_single_device --config llama3_1/8B_dpo_single_device

训练完成后，生成的适配器权重（adapter weights）或完整模型权重将保存在配置文件中指定的输出目录下，可直接用于推理或进一步评估。

版本历史

v0.6.12025/04/07

v0.6.02025/03/24

v0.5.02024/12/20

v0.4.02024/11/14

v0.3.12024/10/02

v0.3.02024/09/18

v0.2.12024/07/25

v0.2.02024/07/16

v0.1.12024/04/18

v0.1.02024/04/16

常见问题

如何保存微调后的模型以便使用 Hugging Face 的 `from_pretrained()` 加载？

如何在单 GPU 上解决显存不足（OOM）的问题？

如何确定合适的训练时长或 epoch 数量？

是否可以将模型和损失函数一起编译（compile）以提升性能？

配置文件中的 `shuffle: true` 是什么意思？如何调整输入输出序列长度？

如何使用 FSDP2 进行分布式微调？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架