Online-RLHF

543 48 较难 1 次阅读 4天前开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Online-RLHF 是一套专注于大语言模型（LLM）对齐的开源解决方案，核心提供了在线迭代式强化学习人类反馈（Online Iterative RLHF）及在线迭代直接偏好优化（DPO）的完整实施指南。

当前多数开源项目仍局限于“离线”训练模式，即使用固定数据集进行一次性优化，难以持续适应模型生成的新分布。Online-RLHF 旨在填补这一空白，通过引入在线迭代工作流，让模型在训练过程中不断利用自身生成的新数据进行自我进化。其最显著的技术亮点在于，仅依赖完全开源的数据资源，经过该流程优化的模型在多项权威基准测试中，性能即可媲美甚至超越 Meta 官方的 LLaMA3-8B-Instruct 版本。

该项目不仅公开了详细的复现食谱，还配套发布了包括监督微调（SFT）模型、多种奖励模型（如 Bradley-Terry 模型、生成式成对偏好模型等）以及多轮迭代后的最终 RLHF 模型权重，极大地降低了复现门槛。

Online-RLHF 非常适合 AI 研究人员、大模型开发者以及对模型对齐技术有深入需求的工程师使用。如果你希望探索比传统离线训练更高效的模型优化路径，或者需要在无专有数据的情况下构建高性能指令跟随模型，这套工具将提供极具价值的参考与实践基础。需要注意的是，部署时需区分推理与训练环境，并特别注意 numpy 版本兼容性要求。

使用场景

某初创团队正在基于 LLaMA3-8B 构建垂直领域的医疗咨询助手，急需提升模型在复杂病例推理和事实准确性上的表现。

没有 Online-RLHF 时

数据滞后导致性能瓶颈：团队仅能依赖静态的离线数据集进行微调，模型无法从新生成的回复中学习，导致在迭代优化时遭遇明显的性能天花板。
对齐效果不及预期：受限于离线训练模式，模型在 Truthful QA（事实真实性）和逻辑推理任务上的得分难以超越官方基线，甚至出现“越训越呆”的现象。
资源浪费与复现困难：尝试自行搭建在线强化学习流程时，因缺乏成熟的开源配方，导致环境配置冲突频发（如 NumPy 版本问题），耗费大量算力却难以复现论文中的优异结果。

使用 Online-RLHF 后

闭环迭代突破上限：利用 Online-RLHF 提供的在线迭代 DPO 流程，模型能够实时利用自身生成的新数据进行训练，仅在开源数据支持下，Truthful QA 得分便从 0.53 跃升至 0.64，显著优于原版 LLaMA3-8B-Instruct。
关键指标全面反超：经过三轮迭代，模型在 GSM8K 数学推理和 HumanEval 代码生成任务上分别达到 85.3 和 0.683 的高分，在多项基准测试中实现了比肩甚至超越闭源大模型的效果。
开箱即用的高效落地：直接复用官方提供的详细食谱（Recipe）和预训练检查点，团队快速避开了环境兼容陷阱，将原本数周的算法调试周期缩短至几天，迅速完成了模型部署。

Online-RLHF 通过打通“生成 - 反馈 - 学习”的实时闭环，让开发者仅凭开源数据即可低成本打造出具备顶尖对齐能力的专用大模型。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
测试环境为 CUDA 12.0-12.2 及 12.6
SFT 训练示例使用 8 卡 (nproc_per_node=8)，若显存不足建议使用 DeepSpeed Stage 3 和梯度检查点
推理部分明确提到使用多 GPU (示例为 8 卡) 并行生成数据

内存

未说明 (建议根据模型大小和批量大小配置，通常大模型训练需 64GB+)

依赖

notes1. 强烈建议将推理 (inference) 和训练 (training) 环境分开部署。2. NumPy 版本必须低于 2.0 (推荐 1.26.4)，否则会遇到意外错误。3. 需要登录 Hugging Face 账号以访问 LLaMA3 等模型。4. 安装 axolotl 后需手动修复 pynvml 导入错误。5. 若遇到 BFloat16 类型错误，需调整 transformers 版本。6. 多卡训练时需根据实际 GPU 数量调整配置文件中的进程数。

python3.10.9

torch==2.1.2

numpy<2.0 (推荐 1.26.4)

flash-attn==2.6.3

transformers==4.43.4

accelerate==0.33.0

deepspeed==0.14.5

vllm==0.5.4

axolotl

FastChat

wandb==0.17.7

快速开始

在线 RLHF

TL;DR：这是一个使用在线迭代 RLHF对大型语言模型（LLMs）进行对齐的仓库。同时请查看我们的技术报告和Huggingface 仓库！

我们介绍了在线迭代人类反馈强化学习（RLHF）的工作流程，该方法在最近的 LLM 文献中被广泛报道为显著优于离线版本。然而，现有的开源 RLHF 项目大多仍局限于离线学习场景。在此仓库中，我们旨在填补这一空白，并提供一套易于复现的详细方案，用于实现在线迭代 RLHF。特别地，借助我们的方案，仅使用开源数据，我们就能达到与 LLaMA3-8B-instruct 相当甚至更好的效果。

模型发布

SFT 模型：更多 SFT 检查点请见这里，数据集请参阅RLHFlow/RLHFlow-SFT-Dataset-ver2。

奖励模型：更多奖励模型请见这里。

奖励模型：布拉德利-特里模型
RLHFlow/pair-preference-model-LLaMA3-8B：生成式成对偏好模型
RLHFlow/ArmoRM-Llama3-8B-v0.1：多头奖励模型，采用专家混合聚合机制

RLHF 模型：

RLHF 模型：基于 RLHFlow/LLaMA3-SFT 训练
RLHF 模型 v2 iter1：基于 RLHFlow/LLaMA3-SFT-v2 训练
RLHF 模型 v2 iter2：基于 RLHFlow/LLaMA3-SFT-v2 训练
RLHF 模型 v2 iter3：基于 RLHFlow/LLaMA3-SFT-v2 训练

模型	LC AlpacaEval	MATH	GSM8K	HumanEval	HumanEval+	MMLU	ARC-c	Truthful QA
RLHFlow/LLaMA3-SFT	12.47 (1146 token)	30	76.9	0.634	0.561	0.6462	0.5862	0.5345
RLHFlow/LLaMA3-SFT-v2	12.66 (1175 token)	41.1	83.4	0.665	0.616	0.648	0.5998	0.5393
RLHFlow/LLaMA3-iterative-DPO-final (v1)	30.9	31.3	82.1	0.64	0.585	0.6545	0.628	0.6216
RLHFlow/Llama3-v2-iterative-DPO-iter1	-	43	85.3	0.634	0.585	0.6494	0.634	0.5955
RLHFlow/Llama3-v2-iterative-DPO-iter2	-	43.8	84.8	0.671	0.591	0.6477	0.651	0.6331
RLHFlow/Llama3-v2-iterative-DPO-iter3	31.31 (2157 token)	44.4	85.3	0.683	0.622	0.6466	0.6596	0.6473
meta-llama/Meta-Llama-3-8B-Instruct	22.9	26.3	70.2	0.64	0.567	0.6561	0.5819	0.5166
meta-llama/Llama-3.1-8B-Instruct	20.9	50	86.5	0.689	0.622	0.682	0.558	0.5408

安装说明

建议为推理和训练分别设置两个独立的环境。

请注意，numpy 版本应为 numpy<2.0。Numpy 2.0 会出现意外问题！！！

SFT 环境

conda create -n sft python=3.10.9
conda activate sft

## 获取 axolotl 以用于通用模型
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl
git checkout 55cc214c767741e83ee7b346e5e13e6c03b7b9fa
pip install -e .

# 测试的 CUDA 版本为 12.1、12.2。您可能需要根据自己的 CUDA 版本更新 PyTorch 版本……
# 您可能会遇到与 CUDA 和 flash-attn 相关的未定义符号错误，而 2.1.2 可以解决这个问题……
pip3 install torch==2.1.2 torchvision torchaudio
pip install flash-attn

# 修复 axolotl 的一个错误：ModuleNotFoundError: 没有名为 'pynvml.nvml' 的模块；'pynvml' 不是包
pip install nvidia-ml-py3
# 同时编辑 axolotl/src/axolotl/utils/bench.py（第 6 行）为：``from pynvml import NVMLError''

获取 FastChat

git clone https://github.com/lm-sys/FastChat.git cd FastChat pip install -e .

git clone https://github.com/WeiXiongUST/RLHF-Reward-Modeling.git pip install deepspeed


您还需要安装 wandb 来记录训练过程，并使用 HuggingFace 账号登录以访问 Gemma。

```shell
pip install wandb
wandb login

huggingface-cli login

推理环境

conda create -n vllm python=3.10.9
conda activate vllm
pip install datasets

# 以下代码已在 CUDA12.0-12.2 和 CUDA12.6 上测试过。
# 如果要开发 llama-3、mistral、gemma-1、1.1、2、deepseek，可以考虑使用以下 vllm 版本
pip install vllm==0.5.4

pip install accelerate==0.33.0
pip install deepspeed==0.14.5
pip install transformers==4.43.4
pip install numpy==1.26.4 #请注意，numpy 版本应为 `numpy<2.0`。`Numpy 2.0` 会遇到意外问题！！！

训练环境

conda create -n rlhflow python=3.10.9
conda activate rlhflow

git clone https://github.com/huggingface/alignment-handbook.git
cd ./alignment-handbook/
git checkout 27f7dbf00663dab66ad7334afb7a1311fa251f41
pip3 install torch==2.1.2 torchvision torchaudio
python -m pip install .
pip install flash-attn==2.6.3
pip install accelerate==0.33.0
pip install huggingface-hub==0.24.7

您还需要安装 wandb 来记录训练过程，并使用您的 HuggingFace 账号登录，以便访问 LLaMA3 模型。

pip install wandb==0.17.7

wandb login
huggingface-cli login

开始使用

本节将提供逐步指导。

第一步：监督微调

我们需要将 SFT 数据处理成标准格式。示例请参阅RLHFlow/RLHFlow-SFT-Dataset-ver2。

cd sft
torchrun --nproc_per_node 8 --master_port 20001 -m axolotl.cli.train llama3-8b-it.yaml

您也可以通过命令行或修改 llama3-8b-it.yaml 中的 ScriptArguments 来调整学习率、批量大小、输出路径等。如果遇到内存不足的问题，可以使用 Gemma-2b-it 并结合 deepspeed stage 3 和梯度检查点（在配置中设置）来运行代码。

torchrun --nproc_per_node 8 --master_port 20001 -m axolotl.cli.train llama3-8b-it.yaml --deepspeed ../configs/deepspeed_stage3.json

第2步奖励建模

我们建议感兴趣的读者参考这个仓库，其中提供了训练当前最先进开源奖励/偏好模型的详细流程。我们已经训练了多个奖励模型，并将其发布在Hugging Face上，例如sfairXC/FsfairX-LLaMA3-RM-v0.1、RLHFlow/pair-preference-model-LLaMA3-8B、RLHFlow/ArmoRM-Llama3-8B-v0.1，这些都是截至目前（2024年5月）最先进的开源奖励模型。

第3.1步数据生成

我们在Hugging Face上准备了一些提示词集合：

UltraFeedback RLHFlow/ultrafeedback_iter1、RLHFlow/ultrafeedback_iter2、RLHFlow/ultrafeedback_iter3
RLHFlow/iterative-prompt-v1-iter1-20K、RLHFlow/iterative-prompt-v1-iter2-20K、RLHFlow/iterative-prompt-v1-iter3-20K……

为了加速数据生成，我们使用VLLM。我们准备了两种使用VLLM进行推理的方式，以实现更稳健的部署，您可以尝试并选择最适合您环境的一种。这里以LLaMA3-8B为例。

您可以创建一个test_gen.sh文件，将以下内容复制到该文件中，然后运行bash test_gen.sh。

# 方法一：初始化4个VLLM进程，并将提示词集分配给这4个代理
# 生成的样本将存储在output_dir + local_index + ".jsonl"中

my_world_size=8 # 您使用的GPU数量
infer_model=RLHFlow/LLaMA3-SFT
prompt_dir=RLHFlow/test_generation_2k
mkdir data
output_dir=./data/gen_data

conda activate vllm
CUDA_VISIBLE_DEVICES=0 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 0 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=1 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 1 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=2 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 2 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=3 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 3 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=4 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 4 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=5 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 5 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=6 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 6 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=7 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 7 --my_world_size ${my_world_size}  &

# 然后，我们将这8个数据集合并为一个。
wait
python ./generation/merge_data.py --base_path ${output_dir} --output_dir ./data/gen_data.json --num_datasets ${my_world_size}

我们也可以使用API服务器来生成新的响应。

mkdir data
conda activate vllm

# 注册API服务器
bash ./generation/register_server.sh RLHFlow/LLaMA3-SFT

# 开始生成
python ./generation/gen_hf.py --ports 8000 8001 8002 8003 8004 8005 8006 8007 --tokenizer RLHFlow/LLaMA3-SFT --dataset_name_or_path RLHFlow/test_generation_2k --output_dir ./data/gen_data.jsonl --K 4 --temperature 1.0

第3.2步数据标注

接下来，我们调用第2步中训练好的奖励/偏好模型对生成的响应进行排序。

accelerate launch ./annotate_data/get_rewards.py --dataset_name_or_path ./data/gen_data.jsonl --output_dir ./data/data_with_rewards.jsonl --K 4

如果您遇到``TypeError: Got unsupported ScalarType BFloat16''错误，请考虑调整您的transformers版本。

第3.3步训练

conda activate rlhflow
accelerate launch --config_file ./configs/zero2.yaml dpo_iteration/run_dpo.py ./configs/training.yaml

如果您遇到``RuntimeError: CUDA error: invalid device ordinal, CUDA kernel errors might be asynchronously reported at some other API call''错误，您需要根据自己的GPU数量调整配置文件中的num_of_process参数。

整体流程

我们将所有步骤整合在一起，以便迭代训练能够自动运行。请注意，我们设置了sleep 1m来等待API注册完成以便进行推理。您可能需要根据自己的环境调整这个参数。

bash run_loop2.sh

致谢

作者谨向优秀的开源社区表示感谢，包括Hugging Face TRL团队、Hugging Face H4团队、Allen Institute AI RewardBench团队、Meta LLaMA团队、evalplus团队以及Axolotl团队，感谢他们分享的模型、代码和训练数据集。

引用

如果您觉得本仓库的内容有用，请考虑按如下方式引用：

@misc{dong2024rlhf,
      title={RLHF工作流：从奖励建模到在线RLHF}, 
      author={Hanze Dong、Wei Xiong、Bo Pang、Haoxiang Wang、Han Zhao、Yingbo Zhou、Nan Jiang、Doyen Sahoo、Caiming Xiong、Tong Zhang},
      year={2024},
      eprint={2405.07863},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}
@inproceedings{xiong2023iterative,
  title={基于人类反馈的迭代偏好学习：在KL约束下弥合理论与实践的差距——关于RLHF的研究},
  author={Xiong, Wei、Dong, Hanze、Ye, Chenlu、Wang, Ziqi、Zhong, Han、Ji, Heng、Jiang, Nan、Zhang, Tong},
  booktitle={ICLR 2024基础模型的数学与经验理解研讨会}
}

Online-RLHF 快速上手指南

Online-RLHF 是一个用于通过**在线迭代强化学习人类反馈（Online Iterative RLHF）**来对齐大语言模型（LLM）的开源项目。该项目仅使用开源数据即可达到媲美甚至超越 LLaMA3-8B-Instruct 的效果。

1. 环境准备

系统要求

操作系统: Linux (推荐 Ubuntu)
Python 版本: 3.10.9
CUDA 版本: 推荐 12.1 - 12.2 (已测试兼容 12.0-12.6)
GPU: 建议多卡环境以加速训练和推理

重要依赖警告

NumPy 版本必须小于 2.0 (numpy<2.0)，否则会遇到未知错误。
需要注册并登录 Hugging Face 账号以访问 LLaMA3 等模型。
需要注册 Weights & Biases (wandb) 账号以记录训练日志。

2. 安装步骤

本项目建议为推理、SFT 训练和RLHF 训练分别创建独立的 Conda 环境。

2.1 SFT 环境 (监督微调)

conda create -n sft python=3.10.9
conda activate sft

# 安装 Axolotl (用于通用模型微调)
git clone https://github.com/OpenAccess-AI-Collective/axolotl
cd axolotl
git checkout 55cc214c767741e83ee7b346e5e13e6c03b7b9fa
pip install -e .

# 安装 PyTorch 和 Flash-Attention (根据 CUDA 版本调整 torch 版本)
pip3 install torch==2.1.2 torchvision torchaudio
pip install flash-attn

# 修复 Axolotl 依赖问题
pip install nvidia-ml-py3
# 注意：需手动编辑 axolotl/src/axolotl/utils/bench.py 第 6 行，改为: from pynvml import NVMLError

# 安装 FastChat 和 Reward Modeling 相关依赖
cd ..
git clone https://github.com/lm-sys/FastChat.git
cd FastChat
pip install -e .

cd ..
git clone https://github.com/WeiXiongUST/RLHF-Reward-Modeling.git
pip install deepspeed

# 登录 WandB 和 HuggingFace
pip install wandb
wandb login
huggingface-cli login

2.2 推理环境 (Data Generation)

conda create -n vllm python=3.10.9
conda activate vllm

pip install datasets

# 安装 vLLM 及相关依赖 (适配 LLaMA3, Mistral 等)
pip install vllm==0.5.4
pip install accelerate==0.33.0
pip install deepspeed==0.14.5
pip install transformers==4.43.4

# 【关键】锁定 NumPy 版本
pip install numpy==1.26.4

2.3 RLHF 训练环境

conda create -n rlhflow python=3.10.9
conda activate rlhflow

# 安装 Alignment Handbook
git clone https://github.com/huggingface/alignment-handbook.git
cd ./alignment-handbook/
git checkout 27f7dbf00663dab66ad7334afb7a1311fa251f41

pip3 install torch==2.1.2 torchvision torchaudio
python -m pip install .

# 安装其他关键依赖
pip install flash-attn==2.6.3
pip install accelerate==0.33.0
pip install huggingface-hub==0.24.7
pip install wandb==0.17.7

# 登录账号
wandb login
huggingface-cli login

3. 基本使用流程

以下是实现一次完整在线迭代 RLHF 的核心步骤。

第一步：监督微调 (SFT)

将数据处理为标准格式（参考 RLHFlow/RLHFlow-SFT-Dataset-ver2），然后启动训练。

cd sft
# 单卡或多卡训练示例
torchrun --nproc_per_node 8 --master_port 20001 -m axolotl.cli.train llama3-8b-it.yaml

注：若显存不足，可添加 --deepspeed ../configs/deepspeed_stage3.json 参数。

第二步：奖励模型 (Reward Modeling)

使用已有的开源奖励模型或对数据进行标注。项目提供了多个 SOTA 奖励模型（如 sfairXC/FsfairX-LLaMA3-RM-v0.1）。详细训练方法可参考 RLHF-Reward-Modeling。

第三步：数据生成与标注 (Data Generation & Annotation)

3.1 生成数据

使用 vLLM 加速生成回复。创建 test_gen.sh 并运行：

my_world_size=8 
infer_model=RLHFlow/LLaMA3-SFT
prompt_dir=RLHFlow/test_generation_2k
mkdir data
output_dir=./data/gen_data

conda activate vllm
# 并行启动多个生成进程
CUDA_VISIBLE_DEVICES=0 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 0 --my_world_size ${my_world_size}  &
CUDA_VISIBLE_DEVICES=1 python ./generation/gen_hf2.py --model_name_or_path ${infer_model} --dataset_name_or_path ${prompt_dir} --output_dir ${output_dir} --K 4 --temperature 1.0 --local_index 1 --my_world_size ${my_world_size}  &
# ... (根据 GPU 数量继续启动其他进程，直至 my_world_size-1)

wait
# 合并生成的数据
python ./generation/merge_data.py --base_path ${output_dir} --output_dir ./data/gen_data.json --num_datasets ${my_world_size}

3.2 标注数据

使用奖励模型对生成的回复进行打分排序：

accelerate launch ./annotate_data/get_rewards.py --dataset_name_or_path ./data/gen_data.jsonl --output_dir ./data/data_with_rewards.jsonl --K 4

注：若遇到 BFloat16 类型错误，请检查并调整 transformers 版本。

第四步：迭代训练 (DPO Training)

切换到 rlhflow 环境开始 DPO 迭代训练：

conda activate rlhflow
accelerate launch --config_file ./configs/zero2.yaml dpo_iteration/run_dpo.py ./configs/training.yaml

注：若遇到 invalid device ordinal 错误，请根据实际 GPU 数量修改配置文件中的 num_of_process。

自动化全流程

项目支持将上述步骤整合为自动迭代脚本。使用时请注意调整脚本中的等待时间（如 sleep 1m），以确保 API 服务注册完成。

常见问题

迭代式 DPO（Iterative DPO）的训练流程是怎样的？参考模型（Reference Policy）在每一轮迭代中会更新吗？

为什么离线 DPO 训练推荐使用 Nectar 数据集而不是 HH-RLHF 数据集？

迭代数据集中的 'context_messages' 包含 'assistant' 标签的内容，这是否意味着存在信息泄露？

复现迭代 DPO 时，推荐的超参数（学习率、优化器、Batch Size）是什么？

使用 MT-Bench 或 AlpacaEval 评估模型时，得到的分数与论文报告不符，可能的原因及解决方法是什么？

在迭代过程中，历史数据集是否会累积？每一轮训练是使用累积数据还是仅使用新数据？

如何将迭代式 DPO 应用到 Llama3-70B 等大模型上？有什么注意事项？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Online-RLHF 时

使用 Online-RLHF 后

运行环境要求

快速开始

在线 RLHF

模型发布

安装说明

获取 FastChat

开始使用

第一步：监督微调

第2步 奖励建模

第3.1步 数据生成

第3.2步 数据标注

第3.3步 训练

整体流程

致谢

引用

Online-RLHF 快速上手指南

1. 环境准备

系统要求

重要依赖警告

2. 安装步骤

2.1 SFT 环境 (监督微调)

2.2 推理环境 (Data Generation)

2.3 RLHF 训练环境

3. 基本使用流程

第一步：监督微调 (SFT)

第二步：奖励模型 (Reward Modeling)

第三步：数据生成与标注 (Data Generation & Annotation)

3.1 生成数据

3.2 标注数据

第四步：迭代训练 (DPO Training)

自动化全流程

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

第2步奖励建模

第3.1步数据生成

第3.2步数据标注

第3.3步训练