ms-swift

13.5k 1.3k 中等 37 次阅读今天Apache-2.0开发框架其他语言模型

AI 解读由 AI 自动生成，仅供参考

ms-swift 是由 ModelScope 社区推出的轻量级大模型微调与部署框架，支持 600 多个纯文本大模型（如 Qwen3.5、Llama4、GLM-5）和 400 多个多模态大模型（如 Qwen3-VL、Llava、InternVL3.5）的全流程训练与部署。它覆盖预训练、指令微调（SFT）、人类对齐（DPO、GRPO 等）、推理、评估、量化及部署等环节，帮助用户高效定制专属模型。

ms-swift 解决了大模型训练门槛高、流程复杂、多模态支持不足等问题，通过统一接口简化从数据准备到模型上线的全过程。它特别适合 AI 开发者和研究人员使用，尤其适用于需要快速实验新算法、适配多种模型架构或进行多模态任务的场景。

技术上，ms-swift 集成了 Megatron 并行策略（TP/PP/CP/EP）加速训练，并支持 GRPO、DPO、KTO 等多种偏好学习与强化学习算法，同时兼容 vLLM、SGLang、LMDeploy 等推理后端，以及 GPTQ、AWQ、FP8 等量化方案，兼顾灵活性与高性能。

使用场景

某医疗AI创业团队希望基于开源多模态大模型，快速构建一个能理解医学影像（如X光片）并生成专业诊断建议的辅助系统。

没有 ms-swift 时

需手动适配多个主流多模态模型（如 LLaVA、InternVL3.5）的训练代码，每换一个模型就要重写数据加载和训练逻辑，耗时数周。
缺乏统一接口支持 DPO 或 GRPO 等对齐算法，难以利用医生标注的偏好数据优化模型输出的专业性和安全性。
在单台 A100 服务器上微调 GLM4.5-V 这类大模型时显存不足，需自行集成 DeepSpeed 或 Megatron 并行策略，技术门槛高。
无法便捷地对训练后的模型进行量化（如 AWQ）和部署，推理延迟高，难以满足临床实时性要求。

使用 ms-swift 后

一行命令即可切换 Qwen3-Omni、GLM4.5-V 等 400+ 多模态模型，内置医学图像-文本数据集模板，5 分钟启动 SFT 训练。
原生支持 DPO、GRPO 等人类反馈对齐算法，直接用医生提供的“好/坏”诊断样本优化模型，显著提升回答合规性。
自动启用 TP/PP 并行与梯度检查点，在单卡 A100 上成功微调 20B 级多模态模型，显存占用降低 40%。
训练完成后一键导出 AWQ 量化模型，并通过集成的 vLLM 加速推理，响应时间从 8 秒降至 1.2 秒。

ms-swift 将多模态大模型从实验到落地的周期从数月压缩至几天，让小团队也能高效驾驭前沿 AI 能力。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

支持 NVIDIA GPU（A10/A100/H100、RTX 系列、T4/V100）、Apple MPS、CPU 及国产昇腾 NPU
显存最低可支持 9GB（用于 7B 模型 QLoRA 训练）
未明确指定 CUDA 版本

内存

未说明

依赖

notes支持多种轻量化微调方法（如 LoRA、QLoRA 等）和量化训练（BNB、AWQ、GPTQ 等），可在低至 9GB 显存的设备上训练 7B 模型；支持分布式训练（DeepSpeed、FSDP、Megatron 等）及多模态模型训练；提供 Web UI 界面和完整训练-推理-评估-部署 pipeline。

python3.11

torch>=2.0

modelscope>=1.23

快速开始

SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning，可扩展轻量级微调基础设施）

ModelScope 社区官网
中文｜ English

论文｜英文文档｜中文文档

☎ 交流群组

您可以通过加入我们的群组与我们联系和交流：

Discord 群组	微信群

📝 简介

🍲 ms-swift 是由 ModelScope 社区提供的大模型与多模态大模型微调及部署框架。目前支持 600+ 纯文本大模型 和 400+ 多模态大模型 的训练（预训练、微调、人类对齐）、推理、评估、量化和部署。其中大模型包括：Qwen3、Qwen3.5、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4 等；多模态大模型包括：Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2 等。

🍔 此外，ms-swift 集成了最新的训练技术，包括 Megatron 并行技术（如 TP、PP、CP、EP）以加速训练，以及丰富的 GRPO（Generalized Reinforcement Learning Policy Optimization，广义强化学习策略优化）算法族强化学习算法，包括：GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++ 等，以提升模型智能。ms-swift 支持广泛的训练任务，包括偏好学习算法（如 DPO、KTO、RM、CPO、SimPO、ORPO），以及 Embedding、Reranker 和序列分类任务。ms-swift 提供了大模型训练的全链路支持，包括使用 vLLM、SGLang 和 LMDeploy 对推理、评估和部署模块进行加速，以及使用 GPTQ、AWQ、BNB 和 FP8 技术进行模型量化。

为什么选择 ms-swift？

🍎 模型类型：支持 600+ 纯文本大模型、400+ 多模态大模型，以及 All-to-All 全模态模型，覆盖从训练到部署的完整流程，并对热门模型提供 Day-0 支持。
数据集类型：内置 150+ 个用于预训练、微调、人类对齐、多模态等任务的数据集，同时支持自定义数据集。用户只需准备数据集即可一键训练。
硬件支持：支持 A10/A100/H100、RTX 系列、T4/V100、CPU、MPS，以及国产硬件 Ascend NPU 等。
轻量级训练：支持 LoRA、QLoRA、DoRA、LoRA+、LLaMAPro、LongLoRA、LoRA-GA、ReFT、RS-LoRA、Adapter、LISA 等轻量级微调方法。
量化训练：支持在 BNB、AWQ、GPTQ、AQLM、HQQ、EETQ 量化模型上进行训练，7B 模型仅需 9GB 训练资源。
显存优化：支持 GaLore、Q-Galore、UnSloth、Liger-Kernel、Flash-Attention 2/3，以及 Ulysses 和 Ring-Attention 序列并行技术，显著降低长文本训练的显存消耗。
分布式训练：支持分布式数据并行（DDP）、device_map 简易模型并行、DeepSpeed ZeRO2/ZeRO3、FSDP/FSDP2，以及 Megatron 分布式训练技术。
🍓 多模态训练：支持多模态打包（packing）技术，训练速度提升 100%+；支持文本、图像、视频和音频的混合模态数据训练；支持对 ViT/Aligner/LLM 进行独立控制。
Agent 训练：支持 Agent 模板，允许使用同一份数据集训练不同模型。
🍊 训练任务：支持预训练和指令微调，以及 DPO、GKD、KTO、RM、CPO、SimPO、ORPO 等训练任务，并支持 Embedding/Reranker 和序列分类任务。
🥥 Megatron 并行：提供 TP/PP/SP/CP/ETP/EP/VPP 并行策略，显著提升 MoE（Mixture of Experts，混合专家）模型训练速度。支持 300+ 纯文本大模型和 100+ 多模态大模型的全参数和 LoRA 训练方法，支持 CPT/SFT/GRPO/DPO/KTO/RM 训练任务。
🍉 强化学习：内置 丰富的 GRPO 算法族，包括 GRPO、DAPO、GSPO、SAPO、CISPO、CHORD、RLOO、Reinforce++ 等。支持同步和异步 vLLM 引擎推理加速，通过插件机制支持可扩展的奖励函数、多轮推理调度器（Schedulers）和环境。
全链路能力：覆盖训练、推理、评估、量化和部署的完整工作流。
UI 训练：提供 Web-UI 界面，用于训练、推理、评估和量化，完成大模型的全链路操作。
推理加速：支持 Transformers、vLLM、SGLang 和 LmDeploy 推理加速引擎，提供 OpenAI 接口以加速推理、部署和评估模块。
模型评估：使用 EvalScope 作为评估后端，支持 100+ 个评估数据集，用于评估纯文本和多模态模型。
模型量化：支持 AWQ、GPTQ、FP8 和 BNB 的量化导出。导出的模型可使用 vLLM/SGLang/LmDeploy 进行推理加速。

🎉 新闻

🎁 2026.03.03：ms-swift v4.0 主版本正式发布。发布说明请参见此处。您可以在此 issue 中向我们提供您的建议。感谢您的支持！
🎁 2025.11.14：Megatron GRPO 现已可用！请查看文档和示例。
🎁 2025.11.04：支持 Mcore-Bridge，使 Megatron 训练像 transformers 一样简单易用。
🎁 2025.10.28：Ray 支持，详见此处。
🎁 2025.09.07：新增对 CHORD 训练算法的支持。详见文档。
🎁 2025.09.06：Ulysses 现在可与 ring-attention 结合使用，允许将序列分片为任意数量的块（不再受限于注意力头的数量）。参数仍为 --sequence_parallel_size N。
🎁 2025.09.02：Megatron-SWIFT 现已支持多模态模型训练。文档见此处。
🎁 2025.08.12：在 SFT（Supervised Fine-Tuning，监督微调）训练中支持 Dynamic Fine-Tuning（DFT），使用参数 --enable_dft_loss true。训练脚本见此处。
🎁 2025.07.09：Megatron-SWIFT 支持 LoRA（Low-Rank Adaptation，低秩适配）训练。相比 ms-swift，在 MoE（Mixture of Experts，混合专家）模型上显著提速。训练脚本见此处。
🎁 2025.06.23：支持重排序（reranker）模型的微调。训练脚本见：Reranker。
🎁 2025.06.15：支持在纯文本大模型和多模态模型上进行 GKD（Generalized Knowledge Distillation，广义知识蒸馏）训练。训练脚本见：纯文本，多模态。

🎁 2025.06.11：支持在 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）训练中使用 Megatron 并行技术。训练脚本见此处。
🎁 2025.05.29：在预训练、SFT、DPO 和 GRPO 中支持序列并行（sequence parallel）。脚本见此处。
🎁 2025.05.11：GRPO 现在支持为奖励模型（reward model）自定义处理逻辑。GenRM 示例见此处。
🎁 2025.04.15：ms-swift 论文已被 AAAI 2025 接收。论文链接见此处。
🎁 2025.03.23：GRPO 现在支持多轮对话场景（例如智能体工具调用）的训练。请参考文档。
🎁 2025.03.16：现已支持 Megatron 的并行训练技术。请参阅 Megatron-SWIFT 训练文档。
🎁 2025.03.15：支持纯文本和多模态模型的嵌入（embedding）模型微调。请查看训练脚本。
🎁 2025.03.05：GRPO 支持混合模式，可在 4 张 GPU（4*80G）上训练 72B 模型的脚本见此处。同时支持与 vLLM 结合的张量并行（tensor parallelism），训练脚本见此处。
🎁 2025.02.21：GRPO 算法现已支持 LMDeploy，训练脚本见此处。此外，GRPO 算法性能已通过测试，结合多种技巧最高可实现 300% 的训练速度提升。WanDB 表格见此处。
🎁 2025.02.21：现已支持 swift sample 命令。强化微调脚本见此处，大模型 API 蒸馏采样脚本见此处。
🔥 2025.02.12：新增对 GRPO（Group Relative Policy Optimization，组相对策略优化）训练算法的支持。文档见此处。
🎁 2024.12.04：ms-swift 3.0 重大更新。请参阅发布说明和变更。
🎉 2024.08.12：ms-swift 论文已在 arXiv 上发布，可在此处阅读链接。
🔥 2024.08.05：支持使用 evalscope 作为后端评估大模型和多模态模型。
🔥 2024.07.29：支持使用 vllm 和 lmdeploy 加速大模型和多模态模型的推理。在执行 infer/deploy/eval 时，可指定 --infer_backend vllm/lmdeploy。
🔥 2024.07.24：支持多模态大模型的人类偏好对齐训练，包括 DPO/ORPO/SimPO/CPO/KTO/RM/PPO。
🔥 2024.02.01：支持智能体（Agent）训练！该训练算法源自此论文。

🛠️ 安装

使用 pip 安装：

pip install ms-swift -U

# 使用 uv
pip install uv
uv pip install ms-swift -U --torch-backend=auto

从源码安装：

# pip install git+https://github.com/modelscope/ms-swift.git

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
# main 分支对应 swift 4.x。如需安装 swift 3.x，请运行以下命令：
# git checkout release/3.12
pip install -e .

使用 uv

uv pip install -e . --torch-backend=auto


运行环境：

|              | 范围         | 推荐版本            | 说明                                      |
|--------------|--------------|---------------------|-------------------------------------------|
| python       | >=3.9        | 3.11/3.12           |                                           |
| cuda         |              | cuda12              | 如果使用 CPU、NPU 或 MPS 则无需安装       |
| torch        | >=2.0        | 2.8.0/2.10.0        |                                           |
| transformers | >=4.33       | 4.57.6/5.2.0        |                                           |
| modelscope   | >=1.23       |                     |                                           |
| peft         | >=0.11,<0.19 |                     |                                           |
| flash_attn   |              | 2.8.3/3.0.0b1       |                                           |
| trl          | >=0.15,<0.30 | 0.28.0              | RLHF（基于人类反馈的强化学习）            |
| deepspeed    | >=0.14       | 0.18.8              | 训练                                      |
| vllm         | >=0.5.1      | 0.11.0/0.17.1       | 推理/部署                                 |
| sglang       | >=0.4.6      |                     | 推理/部署                                 |
| lmdeploy     | >=0.5        | 0.10.1              | 推理/部署                                 |
| evalscope    | >=1.0        |                     | 评估                                      |
| gradio       |              | 5.32.1              | Web-UI/应用                               |

更多可选依赖项，请参考 [此处](https://github.com/modelscope/ms-swift/blob/main/requirements/install_all.sh)。


## 🚀 快速开始

在单张 3090 GPU 上对 Qwen3-4B-Instruct-2507 进行 10 分钟的自我认知微调：

### 命令行接口（推荐）

```shell
# 显存占用约 13GB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model Qwen/Qwen3-4B-Instruct-2507 \
    --tuner_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
              'AI-ModelScope/alpaca-gpt4-data-en#500' \
              'swift/self-cognition#500' \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --model_author swift \
    --model_name swift-robot

提示：

如果你想使用自定义数据集进行训练，可以参考此指南来组织你的数据集格式，并指定 --dataset <dataset_path>。
--model_author 和 --model_name 参数仅在数据集中包含 swift/self-cognition 时生效。
若要使用其他模型进行训练，只需修改 --model <model_id/model_path>。
默认情况下，使用 ModelScope 下载模型和数据集。如果你想使用 HuggingFace，只需指定 --use_hf true。

训练完成后，使用以下命令加载训练好的权重进行推理：

此处 --adapters 应替换为训练过程中生成的最后一个 checkpoint 文件夹。由于 adapters 文件夹中包含训练参数文件 args.json，因此无需单独指定 --model、--system；Swift 会自动读取这些参数。若要禁用此行为，可设置 --load_args false。

# 使用交互式命令行进行推理。
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --temperature 0 \
    --max_new_tokens 2048

# 合并 LoRA 权重并使用 vLLM 加速推理
CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --merge_lora true \
    --infer_backend vllm \
    --vllm_max_model_len 8192 \
    --temperature 0 \
    --max_new_tokens 2048

最后，使用以下命令将模型推送到 ModelScope：

CUDA_VISIBLE_DEVICES=0 \
swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>' \
    --use_hf false

Web-UI

Web-UI 是一个基于 Gradio 界面技术的零门槛训练与部署界面解决方案。更多详情请查看此处。

SWIFT_UI_LANG=en swift web-ui

使用 Python

ms-swift 也支持使用 Python 进行训练和推理。以下是训练和推理的伪代码。更多详情请参考此处。

训练：

from peft import LoraConfig, get_peft_model
from swift import get_model_processor, get_template, load_dataset, EncodePreprocessor
from swift.trainers import Seq2SeqTrainer, Seq2SeqTrainingArguments
# 获取模型和模板，并添加可训练的 LoRA 模块
model, tokenizer = get_model_processor(model_id_or_path, ...)
template = get_template(tokenizer, ...)
lora_config = LoraConfig(...)
model = get_peft_model(model, lora_config)

# 下载并加载数据集，将文本编码为 token
train_dataset, val_dataset = load_dataset(dataset_id_or_path, ...)
train_dataset = EncodePreprocessor(template=template)(train_dataset, num_proc=num_proc)
val_dataset = EncodePreprocessor(template=template)(val_dataset, num_proc=num_proc)

# 训练模型
training_args = Seq2SeqTrainingArguments(...)
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    template=template,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
)
trainer.train()

推理：

from swift import TransformersEngine, InferRequest, RequestConfig
# 使用原生 Transformers 引擎进行推理
engine = TransformersEngine(model_id_or_path, adapters=[lora_checkpoint])
infer_request = InferRequest(messages=[{'role': 'user', 'content': 'who are you?'}])
request_config = RequestConfig(max_tokens=max_new_tokens, temperature=temperature)

resp_list = engine.infer([infer_request], request_config)
print(f'response: {resp_list[0].choices[0].message.content}')

✨ 使用方法

以下是一个使用 ms-swift 从训练到部署的最小示例。更多详情，请查看示例。

如果你想使用其他模型或数据集（包括多模态模型和数据集），只需修改 --model 参数以指定对应模型的 ID 或路径，并修改 --dataset 参数以指定对应数据集的 ID 或路径。
默认情况下，使用 ModelScope 下载模型和数据集。如果你想使用 HuggingFace，只需指定 --use_hf true。

有用链接
🔥命令行参数
Megatron-SWIFT
GRPO
支持的模型和数据集
自定义模型, 🔥自定义数据集
大语言模型（LLM）教程

训练

支持的训练方法：

方法	全参数训练（Full-Parameter）	LoRA	QLoRA	Deepspeed	多机训练（Multi-Machine）	多模态（Multimodal）
预训练（Pre-training）	✅	✅	✅	✅	✅	✅
监督微调（Supervised Fine-Tuning）	✅	✅	✅	✅	✅	✅
GRPO	✅	✅	✅	✅	✅	✅
GKD	✅	✅	✅	✅	✅	✅
PPO	✅	✅	✅	✅	✅	❌
DPO	✅	✅	✅	✅	✅	✅
KTO	✅	✅	✅	✅	✅	✅
奖励模型（Reward Model）	✅	✅	✅	✅	✅	✅
CPO	✅	✅	✅	✅	✅	✅
SimPO	✅	✅	✅	✅	✅	✅
ORPO	✅	✅	✅	✅	✅	✅
嵌入模型训练（Embedding）	✅	✅	✅	✅	✅	✅
重排序模型（Reranker）	✅	✅	✅	✅	✅	✅
序列分类（Sequence Classification）	✅	✅	✅	✅	✅	✅

预训练（Pre-training）：


# 8*A100
NPROC_PER_NODE=8 \
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
swift pt \
    --model Qwen/Qwen2.5-7B \
    --dataset swift/chinese-c4 \
    --streaming true \
    --tuner_type full \
    --deepspeed zero2 \
    --output_dir output \
    --max_steps 10000 \
    ...

微调（Fine-tuning）:

CUDA_VISIBLE_DEVICES=0 swift sft \
    --model Qwen/Qwen2.5-7B-Instruct \
    --dataset AI-ModelScope/alpaca-gpt4-data-en \
    --tuner_type lora \
    --output_dir output \
    ...

基于人类反馈的强化学习（RLHF）:

CUDA_VISIBLE_DEVICES=0 swift rlhf \
    --rlhf_type dpo \
    --model Qwen/Qwen2.5-7B-Instruct \
    --dataset hjh0119/shareAI-Llama3-DPO-zh-en-emoji \
    --tuner_type lora \
    --output_dir output \
    ...

Megatron-SWIFT

ms-swift 支持使用 Megatron 并行技术加速训练，包括大规模集群训练和 MoE（Mixture of Experts，混合专家）模型训练。支持以下训练方法：

方法	全参数微调（Full-Parameter）	LoRA	MoE	多模态（Multimodal）	FP8
预训练（Pre-training）	✅	✅	✅	✅	✅
监督微调（Supervised Fine-Tuning）	✅	✅	✅	✅	✅
GRPO	✅	✅	✅	✅	✅
GKD	✅	✅	✅	✅	✅
DPO	✅	✅	✅	✅	✅
KTO	✅	✅	✅	✅	✅
奖励模型（RM）	✅	✅	✅	✅	✅
嵌入模型（Embedding）	✅	✅	✅	✅	✅
重排序模型（Reranker）	✅	✅	✅	✅	✅
序列分类（Sequence Classification）	✅	✅	✅	✅	✅

NPROC_PER_NODE=2 CUDA_VISIBLE_DEVICES=0,1 megatron sft \
    --model Qwen/Qwen2.5-7B-Instruct \
    --save_safetensors true \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh \
    --tuner_type lora \
    --output_dir output \
    ...

强化学习（Reinforcement Learning）

ms-swift 支持丰富的 GRPO 系列算法：

方法	全参数微调（Full-Parameter）	LoRA	多模态（Multimodal）	多机（Multi-Machine）
GRPO	✅	✅	✅	✅
DAPO	✅	✅	✅	✅
GSPO	✅	✅	✅	✅
SAPO	✅	✅	✅	✅
CISPO	✅	✅	✅	✅
CHORD	✅	✅	✅	✅
RLOO	✅	✅	✅	✅
Reinforce++	✅	✅	✅	✅

CUDA_VISIBLE_DEVICES=0,1,2,3 NPROC_PER_NODE=4 \
swift rlhf \
    --rlhf_type grpo \
    --model Qwen/Qwen2.5-7B-Instruct \
    --tuner_type lora \
    --use_vllm true \
    --vllm_mode colocate \
    --dataset AI-MO/NuminaMath-TIR#10000 \
    --output_dir output \
    ...

推理（Inference）

CUDA_VISIBLE_DEVICES=0 swift infer \
    --model Qwen/Qwen2.5-7B-Instruct \
    --stream true \
    --infer_backend transformers \
    --max_new_tokens 2048

# LoRA
CUDA_VISIBLE_DEVICES=0 swift infer \
    --model Qwen/Qwen2.5-7B-Instruct \
    --adapters swift/test_lora \
    --stream true \
    --infer_backend transformers \
    --temperature 0 \
    --max_new_tokens 2048

接口推理（Interface Inference）

CUDA_VISIBLE_DEVICES=0 swift app \
    --model Qwen/Qwen2.5-7B-Instruct \
    --stream true \
    --infer_backend transformers \
    --max_new_tokens 2048

部署（Deployment）

CUDA_VISIBLE_DEVICES=0 swift deploy \
    --model Qwen/Qwen2.5-7B-Instruct \
    --infer_backend vllm

采样（Sampling）

CUDA_VISIBLE_DEVICES=0 swift sample \
    --model LLM-Research/Meta-Llama-3.1-8B-Instruct \
    --sampler_engine transformers \
    --num_return_sequences 5 \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh#5

评估（Evaluation）

CUDA_VISIBLE_DEVICES=0 swift eval \
    --model Qwen/Qwen2.5-7B-Instruct \
    --infer_backend lmdeploy \
    --eval_backend OpenCompass \
    --eval_dataset ARC_c

量化（Quantization）

CUDA_VISIBLE_DEVICES=0 swift export \
    --model Qwen/Qwen2.5-7B-Instruct \
    --quant_bits 4 --quant_method awq \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh \
    --output_dir Qwen2.5-7B-Instruct-AWQ

推送模型（Push Model）

swift export \
    --model <model-path> \
    --push_to_hub true \
    --hub_model_id '<model-id>' \
    --hub_token '<sdk-token>'

🏛 许可证（License）

本框架采用 Apache License (Version 2.0) 许可证。对于模型和数据集，请参考原始资源页面并遵守相应的许可证。

📎 引用（Citation）

@misc{zhao2024swiftascalablelightweightinfrastructure,
      title={SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning},
      author={Yuze Zhao and Jintao Huang and Jinghan Hu and Xingjun Wang and Yunlin Mao and Daoze Zhang and Zeyinzi Jiang and Zhikai Wu and Baole Ai and Ang Wang and Wenmeng Zhou and Yingda Chen},
      year={2024},
      eprint={2408.05517},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.05517},
}

Star History（Star 历史）

ms-swift 快速上手指南

环境准备

操作系统：Linux / macOS / Windows（推荐 Linux）
Python 版本：≥ 3.11
PyTorch 版本：≥ 2.0
ModelScope 版本：≥ 1.23
硬件支持：A10/A100/H100、RTX 系列、T4/V100、CPU、MPS，以及国产昇腾 NPU 等

💡 建议使用国内镜像源加速安装（如清华源、阿里源）。

安装步骤

1. 创建并激活虚拟环境（可选但推荐）

python -m venv swift-env
source swift-env/bin/activate  # Linux/macOS
# swift-env\Scripts\activate  # Windows

2. 安装 ms-swift

使用 pip 安装（推荐使用国内镜像加速）：

pip install ms-swift -i https://pypi.tuna.tsinghua.edu.cn/simple

或从源码安装（获取最新功能）：

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

⚠️ 若使用昇腾 NPU，请参考官方文档配置 CANN 和自定义算子。

基本使用

以下是一个使用 LoRA 微调 Qwen3 模型的最简示例：

# 下载示例脚本（首次运行会自动下载模型和数据集）
swift sft \
    --model_type qwen3-7b \
    --dataset alpaca-en \
    --lora_target_modules ALL \
    --output_dir output_qwen3_lora

训练完成后，可直接进行推理：

swift infer \
    --ckpt_dir output_qwen3_lora/vx-x_xxx/checkpoint-xxx \
    --load_dataset_config true

✅ ms-swift 内置 150+ 数据集和 1000+ 模型，支持一行命令完成训练、推理、评估、量化全流程。更多高级用法请参考中文文档。

版本历史

v4.0.42026/04/03

v4.0.32026/03/29

v4.0.22026/03/14

v4.0.12026/03/08

v4.0.02026/03/03

v3.12.62026/02/28

v3.12.52026/02/14

v3.12.42026/02/03

v3.12.32026/01/24

v3.12.22026/01/17

v3.12.12026/01/08

v3.12.02025/12/30

v3.11.32025/12/28

v3.11.22025/12/21

v3.11.12025/12/15

v3.11.02025/12/09

v3.10.32025/11/30

v3.10.22025/11/23

v3.10.12025/11/16

v3.10.02025/11/11

常见问题

如何对 MiniCPM-V 2.6 进行推理和 LoRA 微调？

为什么使用 --model_type minicpm-v-v2_6-chat 报错“model_type not in MODEL_MAPPING”？

LoRA 微调后的模型显存占用高，甚至在 int4 模型上也出现 CUDA out of memory，怎么办？

如何加载 LoRA 微调后的模型进行推理自己的测试集？

推理时出现 “probability tensor contains either inf, nan or element < 0” 错误怎么办？

如何下载模型到本地指定路径用于微调或推理？

如何在 ms-swift 3.0 中简化 model_type 的使用？

ms-swift 3.0 是否支持多 LoRA 推理和批量推理？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架