verl-agent

1.8k 163 较难 1 次阅读今天Apache-2.0Agent开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

verl-agent 是 veRL 框架的进阶扩展，专为通过强化学习（RL）训练大型语言模型（LLM）及视觉语言模型（VLM）智能体而设计。它不仅是 NeurIPS 2025 获奖论文"Group-in-Group Policy Optimization"的官方代码实现，更致力于解决传统方法在处理长程、多轮交互任务时的瓶颈。

过往方案通常简单拼接完整的交互历史，导致上下文冗余且难以扩展。verl-agent 创新性地提出了“步独立多轮展开机制”，允许开发者对每一步的输入结构、历史记录管理及记忆模块进行完全自定义。这一架构突破使得模型能够高效应对如 ALFWorld 等需要长达 50 步以上才能完成的复杂任务，显著提升了长周期训练的稳定性与可扩展性。

该工具内置了包括最新 GiGPO 在内的多种强化学习算法，并提供了丰富的智能体环境，支持文本与视觉双重任务场景。同时，它还集成了模块化记忆管理器，并持续跟进社区前沿，已支持 Qwen3-VL、LoRA 微调及 REINFORCE++ 等特性。

verl-agent 非常适合从事大模型智能体研发的研究人员与工程师使用。如果你正在探索如何让 AI 在复杂环境中具备更强的推理与规划能力，或者需要构建稳定的多轮交互系统，verl-agent 将提供一个灵活、高效且经过学术验证的开发底座。

使用场景

某自动驾驶研发团队正致力于训练一个能在复杂城市路况中连续执行 50 步以上导航指令的多模态智能体（VLM Agent）。

没有 verl-agent 时

长程任务记忆丢失：传统方法简单拼接所有历史交互，导致上下文窗口迅速爆满，智能体在任务后期“忘记”早期的关键路标或指令。
训练结构僵化：无法针对不同步骤定制输入结构，难以灵活引入外部地图记忆模块，导致模型在处理长序列决策时效率极低。
算法适配困难：缺乏针对多轮对话优化的强化学习算法，直接使用标准 PPO 等算法在长步数任务（如 ALFWorld）中收敛极慢甚至不收敛。
多模态支持割裂：视觉与文本数据的处理流程分离，难以统一训练能同时理解摄像头画面和自然语言指令的端到端代理。

使用 verl-agent 后

步长独立记忆机制：利用其“步长独立多轮展开机制”，团队为每一步设计了独立的输入结构和专用记忆模块，智能体在 50 步后仍能精准回忆起始指令。
高度定制化架构：灵活配置每步的历史管理策略，轻松集成外部知识库，显著提升了长程任务中的推理稳定性和资源利用率。
先进算法加持：直接应用内置的 GiGPO（组内组策略优化）算法，在复杂导航任务中的训练收敛速度提升明显，成功率大幅超越基线。
原生多模态融合：依托对 Qwen3-VL 等模型的原生支持，实现了视觉感知与语言决策的无缝联合训练，智能体能更准确地识别红绿灯并执行转向。

verl-agent 通过创新的步长独立机制与专用强化学习算法，彻底解决了长程多模态智能体训练中记忆断裂与收敛困难的核心瓶颈。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU (提及支持使用 2 张 H100 GPU 训练 7B 模型)，显存需求视模型大小而定，需支持 CUDA

内存

未说明

依赖

notes该工具是 veRL 的扩展，专为通过强化学习训练 LLM Agent 设计。支持多模态（文本 + 图像）和纯文本任务。支持多种模型（如 Qwen3, Qwen2.5, LLaMA3.2 等）及多种 RL 算法（GiGPO, PPO, GRPO 等）。支持 LoRA 微调以降低计算成本。需单独安装支持的环境（如 ALFWorld, WebShop, Sokoban 等）。建议使用支持最新特性的深度学习框架版本以兼容 Qwen3 等新模型。

python未说明

veRL

torch

transformers

accelerate

gym

LoRA

快速开始

logo

基于组内分组策略优化的大型语言模型智能体训练
NeurIPS 2025

verl-agent 是 veRL 的扩展，专门用于通过强化学习（RL）训练大型语言模型（LLM）智能体。

与以往简单地拼接完整交互历史的方法不同，verl-agent 提出了与步骤无关的多轮展开机制，允许对每一步的输入结构、历史管理和记忆模块进行完全自定义。这种设计使 verl-agent 在超长时序、多轮次的强化学习训练中具有极高的可扩展性（例如，ALFWorld中的任务可能需要多达50步才能完成）。

verl-agent 提供了多样化的强化学习算法（包括我们新提出的 GiGPO 算法）以及丰富的智能体环境套件，支持在视觉和文本任务中开发推理型智能体。

新闻

[2026.02] HGPO 被 ICLR 2026 接受！🎉🎉🎉 [论文] [代码]
[2026.02] 🔥 我们开源了 Dr. MAS，它支持多智能体 LLM 系统的稳定端到端强化学习后训练！[论文] [代码]
[2025.12] 支持 Qwen3-VL！示例请见这里。
[2025.09] GiGPO 现已被 ROLL 支持！[文档] [训练曲线]。
[2025.09] verl-agent 风格的训练流程现已被 OpenManus-RL 支持！
[2025.09] GiGPO 被 NeurIPS 2025 接受！🎉🎉🎉
[2025.08] 增加了Search-R1 实验和基于相似性的 GiGPO！查看 GiGPO 在 Search-R1 实验中的优异表现这里。
[2025.07] GiGPO 和 verl-agent 将于 7 月 11 日在 LF AI & Data Singapore 主办的 Agent for SWE 聚会上进行演讲。
[2025.07] 添加了模块化内存管理器。详情请见这里。
[2025.06] 重大更新：合并了最新版 veRL 中的所有功能。例如，verl-agent 现在支持 Qwen3、LoRA、REINFORCE++ 等。欢迎探索！
[2025.05] 代码发布，并发表了关于 GiGPO 的论文。

快速功能概览

功能类别	支持的能力
交互	✅ 多轮智能体-环境交互 ✅ 分步交互 ✅ 可扩展至长时序任务
记忆	✅ 完全可定制的记忆模块 ✅ 灵活的历史管理
输入灵活性	✅ 每步输入结构完全可定制
执行	✅ 并行化的 Gym 环境 ✅ 支持群体环境（用于群体强化学习）
模型支持	✅ Qwen3 ✅ Qwen3-VL ✅ Qwen2.5 ✅ Qwen2.5-VL ✅ LLaMA3.2 以及其他
模态	✅ 纯文本 ✅ 文本+图像（多模态）
轻量级训练	✅ 支持 LoRA 训练
环境	✅ ALFWorld ✅ WebShop ✅ Search (工具调用) ✅ Sokoban ✅ Gym Cards ✅ AppWorld
强化学习算法	✅ GiGPO ✅ GRPO ✅ PPO ✅ DAPO ✅ GSPO ✅ RLOO ✅ REINFORCE++ ✅ 支持动态采样与裁剪更高以及其他
基于提示的智能体	✅ 基于 GPT-4o 提示的智能体

框架对比

核心特性

多轮智能体与环境交互

verl-agent 支持智能体与环境之间的多步交互循环。每一步后，智能体都会感知环境反馈，从而为强化学习奠定基础。
完全可自定义的记忆模块与每步输入结构

verl-agent 拥有可自定义的记忆模块（详见这里），允许灵活选择每一步需要包含的历史信息。通常，每一步的输入由当前观测以及一段简洁的历史摘要组成（提示请参见这里）。开发者可以自由定义要包含的内容，例如最近的几步、关键事件、摘要或外部知识。无需拼接完整的历史记录，每一步的输入结构都完全可自定义。
可扩展至超长时序优化场景

先前的工作，如 RAGEN 和 Search-R1，会将状态和响应的整个历史序列拼接在一起。这会导致上下文长度随交互轮次迅速增长，难以扩展到长时序场景。相比之下，verl-agent 采用逐步构建输入的方式，每一步的输入都简洁且可定制。这种设计使上下文长度几乎保持恒定，从而使 verl-agent 在长时序场景中（例如 ALFWorld 中的 30–50 步）具有极高的可扩展性，而不会遇到 token 限制或效率问题。
并行化的 Gym 风格环境与分组环境

verl-agent 提供了支持并行化环境的 Gym 风格接口，能够实现高吞吐量的模拟运行，从而加速训练。此外，verl-agent 还引入了分组环境的概念：在一个分组内的所有环境中，reset() 时的初始状态完全相同。这对于 GRPO 和 DAPO 等需要在相同状态下进行多次模拟的算法尤为有用。您可以通过配置文件 ppo_trainer.yaml 中的 env.rollout.n 来设置每个分组的模拟次数。
支持多种模型

verl-agent 支持广泛的大型语言模型，包括 Qwen3、Qwen3-VL、Qwen2.5、LLaMA3.2、Qwen2.5-VL 等，满足不同部署需求的灵活性。
LoRA 微调支持

verl-agent 提供对 LoRA（低秩适应）的支持，显著降低计算成本。现在，使用 2 张 H100 GPU 卡即可训练 7B 参数规模的模型。
视觉-语言智能体支持

除了文本型智能体外，verl-agent 还支持视觉-语言智能体的训练，从而在需要同时具备视觉感知和语言理解能力的环境中实现多模态推理。
丰富的环境套件

verl-agent 提供多样化的交互式环境，包括 Search-R1 实验、具身 AI 环境如 ALFWorld、视觉类游戏如 Sokoban 和 Gym Cards，以及数字界面控制任务，例如 WebShop 和 AppWorld（实验性）。
多样化的强化学习算法

verl-agent 包含多种强化学习算法的实现，例如 GRPO、PPO、DAPO、GSPO、RLOO，以及我们最新的最先进算法 GiGPO。此外，还支持若干结合动态采样和 clip-higher 技术的变体。

结果

⚠️ 注意：在“[2025.06.03] 主要更新”之后，GiGPO 的性能略有提升。若需复现原始论文结果，请使用该“[2025.06.03] 主要更新”之前发布的版本。

算法	任务	模型	成功率（论文）
GiGPO	ALFWorld	Qwen2.5-1.5B-Instruct	86.7%
GiGPO	ALFWorld	Qwen2.5-7B-Instruct	90.8%
GiGPO	WebShop	Qwen2.5-1.5B-Instruct	67.4%
GiGPO	WebShop	Qwen2.5-7B-Instruct	75.2%
GiGPO	Sokoban [6x6]	Qwen2.5-VL-3B-Instruct	81.0%
GiGPO	EZPoints	Qwen2.5-VL-3B-Instruct	100.0%
GiGPO	NumberLine	Qwen2-VL-2B-Instruct	100.0%

日期	方法	NQ†	TriviaQA*	PopQA*	HotpotQA†	2Wiki*	MuSiQue*	Bamboogle*	平均
Qwen2.5-3B-Instruct
2025.03	R1-Instruct	27.0	53.7	19.9	23.7	29.2	7.2	29.3	27.1
2025.03	Search-R1	34.1	54.5	37.8	32.4	31.9	10.3	26.4	32.5
2025.05	ZeroSearch	41.4	57.4	44.8	27.4	30.0	9.8	11.1	31.7
2025.05	StepSearch	-	-	-	34.5	32.0	17.4	34.4	-
2025.05	GiGPO	42.0	59.5	42.4	36.9	37.0	12.6	64.1	42.1
Qwen2.5-7B-Instruct
2025.03	R1-Instruct	21.0	44.9	17.1	20.8	27.5	6.0	19.2	22.4
2025.03	Search-R1	39.3	61.0	39.7	37.0	40.1	14.6	36.8	38.5
2025.05	ZeroSearch	43.6	61.8	51.5	34.6	35.2	18.4	27.8	39.1
2025.05	StepSearch	-	-	-	38.6	36.6	22.6	40.0	-
2025.05	GiGPO	46.4	64.7	46.1	41.6	43.6	18.9	68.9	47.2

我们已在 HuggingFace 上发布了我们的模型。

安装

安装 veRL

conda create -n verl-agent python==3.12 -y
conda activate verl-agent

pip3 install vllm==0.11.0

pip3 install flash-attn==2.7.4.post1 --no-build-isolation --no-cache-dir
pip install -e .

安装支持的环境

⚠️ 重要提示： 要在这些环境中运行智能体，您必须先安装并配置相应的环境。我们强烈建议将每个环境分别安装在独立的 conda 环境中，以避免潜在的包版本冲突。

1. ALFWorld

使用 pip 安装：

pip3 install gymnasium==0.29.1
pip3 install stable-baselines3==2.6.0
pip install alfworld

下载 PDDL 和游戏文件以及预训练的 MaskRCNN 检测器（将存储在 ~/.cache/alfworld/ 中）：

alfworld-download -f

使用 --extra 下载预训练检查点和 seq2seq 数据。

玩一个 Textworld 游戏：

alfworld-play-tw

2. WebShop

WebShop 需要 Python <=3.10，因此请先创建一个新的 verl-agent-webshop 环境：

conda create -n verl-agent-webshop python==3.10 -y
conda activate verl-agent-webshop

安装 WebShop：

cd ./agent_system/environments/env_package/webshop/webshop
./setup.sh -d all

注意：如果遇到 gdown 相关问题，您可能需要访问 https://drive.google.com/，获取您的 Google Drive cookie，并将其粘贴到 .cache/gdown/cookies.txt 文件中。或者您也可以手动下载这些文件。

WebShop 安装完成后，返回仓库根目录，在 verl-agent 中安装 verl 包：

cd repo_root/
pip3 install torch==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn==2.7.4.post1 --no-build-isolation
pip3 install -e .
pip3 install vllm==0.8.2
# spacy 3.7.2 要求 typer<0.10.0,>=0.3.0，但您当前的 typer 版本为 0.15.2，这与要求不兼容。
# weasel 0.3.4 也要求 typer<0.10.0,>=0.3.0，而您目前的 typer 版本同样不兼容。

这些警告可以安全地忽略。

3. 搜索

cd ./agent_system/environments/env_package/search/third_party
pip install -e .
pip install gym==0.26.2

准备数据集（数据将保存在 ~/data/searchR1_processed_direct）：

cd repo_root/
python examples/data_preprocess/preprocess_search_r1_dataset.py

由于 pip 中无法直接获取 faiss-gpu，我们为本地检索服务器单独搭建了一个 conda 环境。运行该服务器时，每块 GPU 大约会占用 6GB 显存，请务必在训练配置中考虑到这一点。构建检索环境：

# 创建并激活 Python 3.10 的检索环境
conda create -n retriever python=3.10 -y
conda activate retriever

# 安装支持 GPU 的 PyTorch 及相关库
conda install numpy==1.26.4 # 防止通过 pip 安装不兼容版本的 numpy
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

# 安装其他 Python 包
pip install transformers datasets pyserini huggingface_hub

# 安装 GPU 版本的 faiss
conda install faiss-gpu==1.8.0 -c pytorch -c nvidia -y

# 安装 API 服务框架
pip install uvicorn fastapi

下载索引：

conda activate retriever

local_dir=~/data/searchR1
python examples/search/searchr1_download.py --local_dir $local_dir
cat $local_dir/part_* > $local_dir/e5_Flat.index
gzip -d $local_dir/wiki-18.jsonl.gz

启动本地 flat e5 检索服务器：

conda activate retriever

# 将输出重定向到文件，避免终端混乱
# 我们观察到直接输出到终端会导致服务器响应时间飙升
bash examples/search/retriever/retrieval_launch.sh > retrieval_server.log

4. 拖把推箱

pip install matplotlib
pip install gym==0.26.2
pip install gym_sokoban==0.0.6

5. Gym Cards

cd repo_root/
pip3 install -e ./agent_system/environments/env_package/gym_cards/gym-cards/
pip3 install gymnasium==0.29.1
pip3 install stable-baselines3==2.6.0

6. AppWorld（实验性）

安装 AppWorld 包

cd repo_root/
pip install git+https://github.com/StonyBrookNLP/appworld.git
appworld install
pip install -e .

对于 appworld 的不兼容警告可以忽略，因为我们不会在 verl-agent 环境中运行 AppWorld。

为 AppWorld 服务器创建专用的 conda 环境 appworld：

conda create -n appworld python=3.12 -y
conda activate appworld
pip install git+https://github.com/StonyBrookNLP/appworld.git
appworld install
appworld download data

示例运行

强化学习训练

我们在 "examples/" 目录下提供了开箱即用的脚本，用于在不同环境中训练智能体。

以下是一些示例：

1. GiGPO

GiGPO 是我们提出的一种新算法，旨在支持长 horizon LLM 智能体训练中的细粒度信用分配。它引入了两级分组机制：

轨迹级分组通过总回报来捕捉任务的整体成功情况（类似于 GRPO）。
步骤级分组则收集不同轨迹中重复出现的状态，以计算单个动作的相对优势。

GiGPO 完全无需价值网络，其显存占用和 LLM 推理成本与 GRPO 相同，但训练效率和性能却显著提升。

bash examples/gigpo_trainer/run_alfworld.sh # ALFWorld

bash examples/gigpo_trainer/run_webshop.sh # WebShop

bash examples/gigpo_trainer/run_search.sh # 搜索

bash examples/gigpo_trainer/run_sokoban.sh # 拖把推箱

2. GRPO

GRPO 是一种无需价值网络的算法，它基于一组完整的轨迹来估计相对优势。

bash examples/grpo_trainer/run_alfworld.sh # ALFWorld

bash examples/grpo_trainer/run_webshop.sh # WebShop

3. PPO

PPO 是一种经典的策略梯度算法，通过裁剪目标函数来更新策略，从而确保学习过程的稳定性。它需要一个独立的价值网络（critic）来估计状态值。

bash examples/ppo_trainer/run_alfworld.sh # ALFWorld

bash examples/ppo_trainer/run_webshop.sh # WebShop

4. RLOO

对于 RLOO，我们使用留一法估计，并采用 PPO 裁剪更新（而非 REINFORCE 更新），使其更接近 LOOP。

bash examples/rloo_trainer/run_alfworld.sh # ALFWorld

bash examples/rloo_trainer/run_webshop.sh # WebShop

5. DAPO

DAPO 在 GRPO 的基础上，加入了动态采样和裁剪增强等技术。

bash examples/dapo_trainer/run_alfworld.sh # ALFWorld

bash examples/dapo_trainer/run_webshop.sh # WebShop

6. 动态 GiGPO

动态 GiGPO 结合了 DAPO 的动态采样和裁剪增强技术。

bash examples/gigpo_dynamic_trainer/run_alfworld.sh # ALFWorld

bash examples/gigpo_dynamic_trainer/run_webshop.sh # WebShop

LoRA

bash examples/gigpo_trainer/run_alfworld_lora.sh

基于提示的 GPT-4o 智能体

我们还提供了一个基于提示的 GPT-4o 智能体。

bash examples/prompt_agent/run_gpt4o_agent.sh

常见问题解答

1. 自定义记忆模块

verl-agent 支持可定制且灵活的记忆系统，用于管理和格式化智能体与环境之间的交互历史。我们提供了一个默认的 SimpleMemory 实现作为起点。该记忆模块会在 env_manager.py 中被调用（即 build_text_obs()），以在每一步构建观测信息。

鼓励开发者扩展此模块，加入自定义的记忆策略，例如动态摘要、选择性记忆保留或外部知识整合，从而更好地处理长时程的交互历史。

2. 数据准备

对于大多数环境（如 AFLWorld、WebShop、Sokoban 等），我们仅通过数据准备来标明模态，即“文本”或“视觉”。例如，如果任务完全是基于文本的，则数据将为空字符串 ""；若涉及视觉输入，则为 "<image>"。至于智能体的输入（包括任务指令、观测和提示），我们遵循经典的强化学习流程。也就是说，LLM 智能体的输入来自环境通过 env.step() 返回的反馈。在 search-r1 实验中，由于任务是从数据集中抽取的，我们利用 env_kwargs 参数将任务传递给环境，具体方式是：envs.reset(kwargs=gen_batch.non_tensor_batch.pop('env_kwargs', None))。

3. 自定义你的提示模板

我们在实现中采用了一种简单且极简的提示格式。例如，在 WebShop 环境中：

你是一位在 WebShop 电子商务环境中工作的专家级自主智能体。
你的任务是：{task_description}。在此之前，你已经完成了 {step_count} 步操作。以下是最近的 {history_length} 次观察以及你所采取的相应行动：{action_history}。你现在处于第 {current_step} 步，当前的观察结果是：{current_observation}。当前状态下，你可以采取的动作有：[{available_actions}]。

现在轮到你为当前步骤选择并执行一个动作了。
你应该首先对当前情况进行逐步推理，然后仔细思考哪个可执行动作最能推动购物目标的实现。这一推理过程必须被包裹在 <think></think> 标签内。完成推理后，请选择当前步骤的一个可执行动作，并将其置于 <action></action> 标签中呈现。

如果你希望进一步优化或自定义这些提示模板，可以在以下路径找到并编辑它们：agent_system/environments/prompts。

4. 添加新环境

要添加一个新的环境，

在 agent_system/environments/env_package/ 中创建你的环境包（遵循 Gym 风格的接口和多进程执行方式）；
在 agent_system/environments/prompts 中定义相应的提示文件；
按照 EnvironmentManagerBase 定义的结构，在 env_manager.py 中注册你的新环境。

以 WebShop 环境为例：

环境包：webshop 包
提示：webshop 提示
环境管理器：webshop 环境管理器

贡献说明

我们欢迎并感谢所有贡献！如果你有任何改进 verl-agent 的想法，请随时提交拉取请求（PR）。

一些示例贡献包括：

AppWorld 错误修复：修复了兼容性问题，确保与实验性 AppWorld 环境的稳定集成。
异步回放缓冲：通过支持异步回放缓冲管道，提升了训练效率和吞吐量。
新增交互式环境：增加了对更多交互式环境的支持，从而扩展了基准测试的覆盖范围和任务多样性。

致谢

verl-agent 代码库构建于 veRL 之上。
所支持的环境改编自 ALFWorld、Sokoban、SkyRL-Gym、Search-R1、Gym Cards、WebShop 和 AppWorld。我们向这些项目的作者和贡献者致以诚挚的谢意，感谢他们所做的宝贵工作。

同时，我们也特别感谢以下贡献者对本项目的具体改进：WebShop 错误修复（@YSLIU627）、GSPO 支持（@MakeKJ）、Qwen3-VL 支持（@FabianSchuetze）。

由 verl-agent 和 GiGPO 驱动的杰出成果

HGPO：针对长时程智能体任务的“群体层次”策略优化。
Dr. MAS：用于多智能体 LLM 系统的稳定端到端强化学习后处理。[](https://github.com/langfengQ/DrMAS)
AgentOCR：通过将多轮智能体历史渲染成图像并采用智能体自我压缩技术，实现高效的令牌压缩。
OpenManus-RL：一个用于 LLM 智能体实时流式强化学习调优的开源框架。[](https://github.com/OpenManus/OpenManus-RL)
RLVMR：在长时程任务中为智能体提供细粒度的元推理奖励。[](https://github.com/Tencent/DigitalHuman/tree/main/RLVMR)
UI-S1：一种基于半在线强化学习的 GUI 自动化模型，可稳定执行长时程任务。[](https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1)
通过早期经验进行智能体学习：一种可扩展的无奖励范式，通过隐式世界建模和自我反思，弥合模仿学习与强化学习之间的鸿沟。
SPEAR：结合渐进式探索的自我模仿技术，用于智能体强化学习（ICLR 2026）。[](https://github.com/TencentYoutuResearch/SPEAR/tree/main/)

引用说明

如果你在研究或应用中使用了 verl-agent 和 GiGPO，并认为它们对你有所帮助，请考虑引用我们的工作：

@article{feng2025group,
  title={Group-in-Group Policy Optimization for LLM Agent Training},
  author={Feng, Lang and Xue, Zhenghai and Liu, Tingcong and An, Bo},
  journal={arXiv preprint arXiv:2505.10978},
  year={2025}
}

星标历史

verl-agent 快速上手指南

verl-agent 是基于 veRL 的扩展框架，专为通过强化学习（RL）训练大语言模型（LLM）智能体而设计。其核心优势在于步独立的多轮滚动机制，支持完全自定义的每步输入结构和记忆模块，能够高效处理长程多轮任务（如 ALFWorld 中长达 50 步的任务）。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
Python: 3.9 或更高版本
GPU: 支持 CUDA 的 NVIDIA GPU (建议显存 >= 24GB，若使用 LoRA 可降低要求)
CUDA: 11.8 或 12.1+
依赖管理: 推荐使用 conda 或 venv 创建独立虚拟环境

2. 安装步骤

2.1 安装 veRL 核心库

首先克隆并安装基础的 veRL 库。国内用户建议使用镜像源加速下载。

# 克隆 veRL 仓库
git clone https://github.com/volcengine/verl.git
cd verl

# 创建并激活虚拟环境 (示例使用 conda)
conda create -n verl python=3.9 -y
conda activate verl

# 安装 PyTorch (请根据实际 CUDA 版本选择，此处以 CUDA 11.8 为例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装 veRL 依赖
pip install -e .

2.2 安装 verl-agent

克隆 verl-agent 项目并安装其特定依赖：

cd ..
git clone https://github.com/langfengQ/verl-agent.git
cd verl-agent

# 安装 verl-agent 额外依赖
pip install -e .

2.3 安装支持的环境

根据您想要运行的任务，安装对应的环境依赖。以下是常用环境的安装命令：

1. ALFWorld (具身智能任务)

pip install alfworld
alfworld-download

2. WebShop (网页购物任务)

pip install webshop

3. Search (工具调用/搜索任务)

无需额外安装重型依赖，确保网络可访问搜索引擎 API 即可。

4. Sokoban (推箱子视觉任务)

pip install gym-sokoban

5. Gym Cards (卡牌游戏)

pip install gym-cards

注意: 若需运行多模态任务（如 Sokoban），请确保已安装对应的视觉编码器依赖（如 transformers, accelerate 等，通常包含在主依赖中）。

3. 基本使用

verl-agent 提供了多种强化学习算法（如 GiGPO, GRPO, PPO 等）的启动脚本。以下以 GiGPO 算法在 ALFWorld 环境 上训练为例。

3.1 数据准备

确保环境变量配置正确，或者在配置文件中指定数据路径。对于 ALFWorld，alfworld-download 命令会自动处理数据。

3.2 运行训练示例

进入项目根目录，执行以下命令启动训练。该示例使用 Qwen2.5-1.5B-Instruct 模型在 ALFWorld 上进行 GiGPO 训练。

bash examples/gigpo_trainer/run_alfworld_qwen2.5.sh

如果您想尝试其他算法或环境，可以参考 examples/ 目录下的脚本：

GRPO 算法:

bash examples/grpo_trainer/run_alfworld_qwen2.5.sh

PPO 算法:

bash examples/ppo_trainer/run_alfworld_qwen2.5.sh

多模态任务 (Sokoban + Qwen3-VL):

bash examples/gigpo_trainer/run_sokoban_qwen3vl.sh

3.3 开启 LoRA 微调（降低显存需求）

若显存有限，可在配置文件或启动脚本中启用 LoRA。在对应的 .yaml 配置文件（如 verl/trainer/config/ppo_trainer.yaml）中设置：

actor:
  fsdp_config:
    ...
  lora:
    rank: 64
    alpha: 128
    dropout: 0.0
    target_modules: ["q_proj", "v_proj"] # 根据模型架构调整

然后正常运行上述训练脚本即可。

3.4 查看训练日志

训练过程中，日志将输出到终端，同时支持集成 Weights & Biases (W&B) 进行可视化监控。若需启用 W&B，请在运行前登录：

wandb login

训练指标（如成功率、奖励曲线）将自动同步至您的 W&B 仪表盘。

版本历史

v0.1.02025/12/11

常见问题

运行训练脚本时遇到 NCCL 通信错误导致无法启动，如何解决？

运行脚本时提示 CPU 资源不足（需要超过 70 个 CPU），但机器核心数有限，如何调整？

在 AppWorld 基准测试中遇到 'Connection refused' 错误或导入问题，应该如何配置环境？

复现 WebShop 示例脚本时验证成功率始终为 0，可能是什么原因？

GiGPO 训练脚本中的 `train_data_size` 和 `group_size` 参数分别代表什么含义？

如何在资源受限的设备上调整 WebShop 训练参数以避免 Ray 报错？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

使用场景

没有 verl-agent 时

使用 verl-agent 后

运行环境要求

快速开始

基于组内分组策略优化的大型语言模型智能体训练 NeurIPS 2025

新闻

快速功能概览

框架对比

目录

核心特性

结果

安装

安装 veRL

安装支持的环境

1. ALFWorld

2. WebShop

3. 搜索

4. 拖把推箱

5. Gym Cards

6. AppWorld（实验性）

示例运行

强化学习训练

1. GiGPO

2. GRPO

3. PPO

4. RLOO

5. DAPO

6. 动态 GiGPO

LoRA

基于提示的 GPT-4o 智能体

常见问题解答

1. 自定义记忆模块

2. 数据准备

3. 自定义你的提示模板

4. 添加新环境

贡献说明

致谢

由 verl-agent 和 GiGPO 驱动的杰出成果

引用说明

星标历史

verl-agent 快速上手指南

1. 环境准备

2. 安装步骤

2.1 安装 veRL 核心库

2.2 安装 verl-agent

2.3 安装支持的环境

1. ALFWorld (具身智能任务)

2. WebShop (网页购物任务)

3. Search (工具调用/搜索任务)

4. Sokoban (推箱子视觉任务)

5. Gym Cards (卡牌游戏)

3. 基本使用

3.1 数据准备

3.2 运行训练示例

3.3 开启 LoRA 微调（降低显存需求）

3.4 查看训练日志

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

基于组内分组策略优化的大型语言模型智能体训练
NeurIPS 2025