SPPO

585 47 中等 2 次阅读 3天前Apache-2.0开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

SPPO是一个用于语言模型对齐的开源自我博弈偏好优化框架。它通过让模型与自身的历史版本进行博弈，学习优化响应偏好，从而提升模型在对话、指令跟随等方面的表现。该方法不需要依赖GPT-4等外部强信号的偏好数据，仅依靠模型自身生成的数据进行迭代优化。

它主要解决了语言模型对齐过程中对高质量人类偏好数据依赖性强、成本高的问题，提供了一种更高效且理论上有收敛保证的优化途径。实验表明，基于SPPO微调的模型在AlpacaEval 2.0等基准上能显著超越原始基础模型以及使用DPO等方法训练的模型。

该工具主要面向人工智能领域的研究人员和开发者，特别是那些从事大语言模型训练、对齐优化或强化学习应用的团队。它也适合对模型自我改进机制感兴趣的高级实践者进行实验和探索。

SPPO的核心技术亮点在于其自我博弈框架和相应的SPPO损失函数，该框架理论上能确保模型在一般性（可能非传递性）的偏好设定下收敛至冯·诺依曼优胜者（即纳什均衡）。项目已提供了基于Mistral-7B和Llama-3-8B等模型的多轮迭代训练版本，方便社区直接使用或进一步研究。

使用场景

一家AI创业公司的算法团队正在开发一款智能客服助手，他们基于开源的Llama-3-8B-Instruct模型进行微调，希望它能更流畅、更贴切地处理用户的开放式咨询，从而替代部分人工客服。

没有 SPPO 时

回复质量不稳定：模型有时能给出专业回答，但有时又会生成冗长、重复或略微偏离核心问题的内容，需要人工设定大量规则和后处理逻辑来“兜底”。
难以把握“贴心”与“专业”的度：对于用户情绪化的问题（如投诉），模型的回复要么过于机械冰冷，要么过度共情而显得不专业，调整提示词（Prompt）的效果时好时坏。
依赖外部强反馈信号，成本高昂：为了优化模型，团队考虑使用基于GPT-4等强大模型的反馈或人工标注偏好数据来训练，但这过程昂贵、耗时，且引入了对闭源模型的依赖。
对齐优化过程复杂：尝试使用类似DPO（直接偏好优化）的方法进行迭代时，需要精心构建成对的偏好数据，训练过程不稳定，效果提升遇到瓶颈。

使用 SPPO 后

回复质量显著且稳定提升：经过SPPO迭代训练后，模型在AlpacaEval 2.0等基准测试上的胜率大幅提升（例如从22.92%提升至38.77%），生成的回复更一致地做到直接、准确、有用，减少了不可预测的“胡言乱语”。
自主学会平衡语气与专业性：在SPPO的自对弈框架下，模型通过自我博弈不断探索和改进策略，能够自动学习到在安抚用户情绪与提供实质性解决方案之间取得更好平衡的回应方式。
摆脱对昂贵外部反馈的依赖：SPPO的核心优势在于其自对弈机制，模型通过与自身的历史版本进行博弈来优化，无需依赖GPT-4等外部强模型的偏好数据或昂贵的人工标注，实现了更高效、低成本的对齐。
提供理论保证且易于实施的优化路径：SPPO提供了收敛性理论保证，并且其开源代码和脚本让团队能够基于已有模型（如Llama-3-8B-Instruct）直接启动迭代训练，流程清晰，效果随着迭代次数增加而稳步提升。

SPPO使得该团队能够利用开源模型，以较低成本训练出一个在对话质量上接近甚至超越某些更大规模或闭源模型的智能客服核心引擎。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU，显存未明确说明，CUDA 版本未明确说明

内存

未说明

依赖

notes1. 基于 alignment-handbook 代码库。2. 使用 vllm 进行生成，使用 PairRM 进行排序。3. 训练脚本可能尝试将数据集推送到 Hugging Face Hub，需注意权限或修改脚本。4. 支持多 GPU 运行（通过 frac_len 和 data_frac 参数）。5. 首次运行需要下载基础模型（如 Mistral-7B-Instruct-v0.2 或 Llama-3-8B-Instruct）。

python3.10

vllm

llm-blender

快速开始

SPPO：语言模型对齐的自博弈偏好优化

本仓库包含论文 Self-Play Preference Optimization for Language Model Alignment 的官方代码和已发布的模型。

作者：Yue Wu*, Zhiqing Sun*, Huizhuo Yuan*, Kaixuan Ji, Yiming Yang, Quanquan Gu

[项目主页] [Huggingface] [论文]

🔔 新闻

[2025年1月22日] SPPO 已被 ICLR 2025 接收！
[2024年6月29日] 我们发布了基于 gemma-2-9b-it 训练的 Gemma-2-9B-It-SPPO-Iter3，其在 AlpacaEval 2.0 LC 上的胜率达到 53.27。
[2024年6月25日] 我们的代码已开源！
[2024年5月1日] 我们的论文已在 arXiv 上发布：https://arxiv.org/abs/2405.00675。

关于 SPPO

我们提出了一个名为 SPPO 的新自博弈框架，用于语言模型对齐，以及一个从该自博弈框架推导出的新学习目标（称为 SPPO 损失），以高效微调大型语言模型。

AlpacaEval 2.0 排行榜结果，展示了正常和长度控制（LC）胜率的百分比（%）。Mistral-7B-SPPO 可以超越更大的模型，而 Mistral-7B-SPPO（best-of-16）可以超越 GPT-4（6/13）等专有模型。Llama-3-8B-SPPO 表现出更佳的性能。

SPPO 可以在没有强大外部信号（如来自 GPT-4 的响应或偏好）的情况下，显著提升 LLM 的性能。它能够超越使用迭代直接偏好优化（DPO）等方法训练的模型。SPPO 具有理论依据，确保 LLM 在一般的、可能非传递性的偏好下能够收敛到冯·诺依曼赢家（即纳什均衡），并通过在多个数据集上的广泛评估进行了实证验证。

更多细节，请查看我们的论文。

基础模型与已发布模型

模型	AlpacaEval2.0 LC 胜率	AlpacaEval2.0 胜率
🤗Mistral-7B-Instruct-v0.2	17.11	14.72
🤗Mistral-7B-SPPO Iter1	24.79	23.51
🤗Mistral-7B-SPPO Iter2	26.89	27.62
🤗Mistral-7B-SPPO Iter3	28.53	31.02
🤗Llama-3-8B-Instruct	22.92	22.57
🤗Llama-3-8B-SPPO Iter1	31.73	31.74
🤗Llama-3-8B-SPPO Iter2	35.15	35.98
🤗Llama-3-8B-SPPO Iter3	38.77	39.85
🤗Gemma-2-9B-It	45.08	35.62
🤗Gemma-2-9B-SPPO Iter1	48.70	40.76
🤗Gemma-2-9B-SPPO Iter2	50.93	44.64
🤗Gemma-2-9B-SPPO Iter3	53.27	47.74

环境设置

我们的训练代码基于 alignment-handbook 代码库。我们使用 vllm 进行生成，使用 pairRM 进行排序。请按照以下步骤设置您的环境：

创建虚拟环境：

conda create -n sppo python=3.10
conda activate sppo

安装用于生成的 vllm：
```
pip install vllm
```

安装 PairRM：

git clone https://github.com/yuchenlin/LLM-Blender.git
cd LLM-Blender
pip install -e .

下载并安装训练依赖项：

git clone https://github.com/uclaml/SPPO.git
cd SPPO
pip install -e .

训练脚本

根据您选择的基础模型执行相应的训练脚本：

对于 Mistral-7B-Instruct-v0.2：
```
bash run_sppo_mistral.sh
```
对于 Llama-3-8B-Instruct：
```
bash run_sppo_llama-3.sh
```

这些脚本管理训练迭代、生成和 PairRM 排序过程。请注意，某些脚本可能会尝试将数据集推送到 Hugging Face Hub 上的 UCLA-AGI 组织。请确保您有写入权限，或相应地修改组织名称，或者在必要时注释掉任何 push_to_hub 命令。每个组件的详细脚本如下：

脚本功能分解：

生成（Generation）：
```
python scripts/generate.py --model $MODEL --maxlen 2048 --output_dir $OUTPUT_DIR --prompts $PROMPTS
```
主要参数：
- model：指定用于生成的模型。在第一次迭代中，模型应为 mistralai/Mistral-7B-Instruct-v0.2 或 meta-llama/Meta-Llama-3-8B-Instruct。
- maxlen：设置生成的最大令牌长度，定义了生成令牌的最大数量。
- pairs：决定每个提示（prompt）生成的样本数量，默认设置为 5。请注意，整个流程不支持更改此数字。
- output_dir：指定保存中间结果的目录路径。
- prompts：定义用于生成的提示集合。
- frac_len：通过将提示分成不同的部分，使 vllm 能够在多个 GPU 上运行。frac_len 定义了每个部分中的提示数量。使用示例请参见 generate.sh。
- data_frac：与 frac_len 配合用于多 GPU 设置，data_frac 表示当前 GPU 正在处理的数据部分。更多详情请参考 generate.sh。
排序（Ranking）：
```
python scripts/rank.py --output_dir $OUTPUT_DIR --prompts $PROMPTS
```
主要参数：
- output_dir：指定保存中间结果的目录路径。请注意，默认脚本会尝试将数据集推送到 Hugging Face 的 UCLA-AGI 组织下。您可能需要将其调整为您自己的组织、获取 UCLA-AGI 的写入权限，或在必要时禁用 push_to_hub 命令。
- pairs：设置每个提示生成的样本数量，默认为 5。请注意，整个流程不支持其他数字。
- frac_len：此参数用于通过将提示分成不同的部分，使 PairRM 能够在多个 GPU 上运行。frac_len 决定了每个部分中的提示数量。使用示例请参考 generate.sh。
- data_frac：与 frac_len 类似，此选项用于在多个 GPU 上运行 PairRM。它指定当前 GPU 正在处理的数据部分。示例请参见 generate.sh。
- prompts：定义用于生成的提示集合。
- gpu：指示用于排序的 GPU 索引；它应与 data_frac 参数匹配。
训练（Training）：
```
bash scripts/pipeline.sh --model $MODEL --iter $ITER --dataset $DATASET --output_dir $OUTPUT_DIR --num 1
```
主要参数：
- model：用于训练的基础模型。
- dataset：用于训练的数据集。
- output_dir：输出模型的名称。
- num：训练的轮数（epochs）。

评估（Evaluation）

我们遵循既定的评估指南，并使用了以下代码库：

我们在 models_configs 目录中提供了在 AlpacaEval 2 期间使用的模型配置。请注意，在我们的模型首次发布后，我们使用略微修改的提示对其进行了重新训练。重新训练后观察到的胜率与原始结果相当。

故障排除（Troubleshoot）

有关论文的问题，请通过电子邮件联系作者。如果您在代码中遇到任何问题或希望报告错误，请随时在我们的 GitHub 仓库中提交问题（issue）。

星标历史（Star History）

引用（Citation）

@article{wu2024self,
  title={Self-play preference optimization for language model alignment},
  author={Wu, Yue and Sun, Zhiqing and Yuan, Huizhuo and Ji, Kaixuan and Yang, Yiming and Gu, Quanquan},
  year={2024}
}

致谢（Acknowledgements）

我们感谢 The Alignment Handbook 的作者对训练代码的基础性贡献。我们也感谢使用 PairRM 进行排序以及使用 vllm 进行生成。

SPPO 快速上手指南

SPPO（Self-Play Preference Optimization）是一种用于语言模型对齐的自博弈偏好优化方法。本指南将帮助您快速搭建环境并运行 SPPO。

环境准备

操作系统: Linux (推荐 Ubuntu 20.04 或更高版本)
Python: 3.10
包管理器: pip, conda (可选，用于创建虚拟环境)
硬件: 支持 CUDA 的 NVIDIA GPU (建议显存 >= 24GB 以运行 7B/8B 模型)
网络: 可访问 Hugging Face 和 GitHub (建议配置国内镜像源以加速下载)

安装步骤

创建并激活虚拟环境 (推荐使用 conda):

conda create -n sppo python=3.10
conda activate sppo

安装 vLLM (用于高效推理生成):
```
pip install vllm
```

安装 PairRM (用于响应排序):

git clone https://github.com/yuchenlin/LLM-Blender.git
cd LLM-Blender
pip install -e .
cd ..

下载 SPPO 代码库并安装训练依赖:

git clone https://github.com/uclaml/SPPO.git
cd SPPO
pip install -e .

国内加速建议:

在运行 pip install 前，可设置 PyPI 镜像源，例如：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

如需加速 git clone，可使用 ghproxy.com 等代理服务。

基本使用

以下以使用 Mistral-7B-Instruct-v0.2 作为基础模型为例，展示如何启动一轮完整的 SPPO 训练流程。

进入项目目录:
```
cd SPPO
```
运行训练脚本: 执行以下命令将自动进行数据生成、PairRM 排序和模型训练：
```
bash run_sppo_mistral.sh
```
注意：首次运行会下载基础模型和数据集，请确保网络通畅。脚本默认配置可能尝试将数据推送至 Hugging Face Hub，如无权限可注释掉相关 push_to_hub 命令。

（可选）分步执行: 您也可以手动执行核心步骤：

生成响应:

python scripts/generate.py --model mistralai/Mistral-7B-Instruct-v0.2 --maxlen 2048 --output_dir ./output --prompts ./data/prompts.jsonl

使用 PairRM 排序:

python scripts/rank.py --output_dir ./output --prompts ./data/prompts.jsonl

训练模型:

bash scripts/pipeline.sh --model mistralai/Mistral-7B-Instruct-v0.2 --iter 1 --dataset ./output/ranked_data --output_dir ./sppo_model --num 1

训练完成后，模型将保存在指定的 output_dir 中，您可以使用类似 transformers 库的方式加载和使用它。

常见问题

Gemma-2-9B 在安装最新 vLLM 后停止工作，如何解决？

Gemma-2-9B 的结果与论文不符，请问使用了什么数据集？

SPPO 代码可以在家庭实验室（例如 2 张 RTX 4090）上运行吗？

是否有适用于 Gemma 2 9B 和 27B 的 SPPO 代码或模型？

如何为家庭实验室（2张家用GPU）适配4-bit量化训练/响应生成？

为什么训练代码中仍在使用 DPO Trainer，而不是论文中的 SPPO？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架