RAGEN
RAGEN 是一个基于强化学习训练智能体推理能力的开源框架。它通过构建交互式、随机化的环境,让大型语言模型(LLM)驱动的智能体在其中学习如何通过“思考-行动”的循环来解决问题,并利用环境反馈来优化自身的推理和决策策略。
该框架旨在解决一个核心难题:在复杂的多步任务中,如何稳定、高效地训练智能体的推理能力,并诊断训练失败的原因。传统方法往往难以深入理解智能体在训练中为何表现不佳,而 RAGEN 提供了专门的诊断工具,帮助开发者洞察训练过程,识别并修复如“推理崩溃”等隐藏问题。
RAGEN 主要面向AI研究人员和开发者,特别是那些致力于强化学习、智能体研究或希望提升LLM在交互任务中表现的用户。它内置了从游戏(如推箱子)到编程解题(如DeepCoder)等多种测试环境,并提供了兼容 OpenAI Gym 的接口,方便用户集成自定义任务。
其技术核心是 StarPO 框架,它将智能体与环境的交互统一建模,支持对整个任务轨迹进行优化。最新发布的 V2 版本引入了两项关键创新:SNR自适应过滤能根据奖励信号的稳定性动态筛选训练数据,以降低噪声干扰;推理崩溃诊断则通过互信息等指标,实时监测训练过程中智能体是否陷入僵化的思维模板,从而保障训练的稳定性与效果。
使用场景
一家金融科技公司的算法团队正在开发一个智能投资助手,该助手需要根据实时市场新闻、公司财报等复杂文本信息进行推理,最终生成交易建议或风险预警。
没有 RAGEN 时
团队使用传统的强化学习框架训练这个基于大语言模型的智能体,遇到了以下典型问题:
- 训练过程不稳定且难以诊断:智能体在训练中偶尔会“崩溃”,输出无意义的重复建议,但团队缺乏有效的工具来定位这是由奖励噪声、策略退化还是环境交互问题引起的,只能靠经验和试错调整超参数。
- 奖励信号设计粗糙低效:团队使用简单的回合最终结果(如模拟交易盈亏)作为奖励,导致信用分配问题严重。智能体难以理解漫长推理链中哪些具体步骤对最终结果负责,学习效率低下。
- 多轮复杂推理优化困难:投资决策需要“阅读新闻 -> 分析影响 -> 对比历史 -> 生成建议”的多轮深度推理。传统框架难以对这类包含内部“思考”状态的轨迹进行灵活建模和优化,常将推理过程视为黑箱。
使用 RAGEN 后
团队采用 RAGEN 的 StarPO 框架及其诊断工具来重构训练流程,情况得到显著改善:
- 通过诊断工具定位并修复故障模式:利用 RAGEN V2 新增的“推理崩溃诊断”和互信息指标,团队能可视化监测训练中何时出现模板化输出,并运用“SNR自适应过滤”自动过滤高方差奖励的回合,从而稳定了训练过程,大幅减少了调试时间。
- 实现细粒度、基于轨迹的奖励分配:StarPO 框架支持在完整的“状态-思考-动作”轨迹级别进行优化。团队可以为“识别风险关键词”、“正确关联历史案例”等中间推理步骤设计奖励信号,让智能体更清晰地学习到有效的推理模式。
- 灵活建模并优化多轮推理策略:RAGEN 原生支持对包含内部推理链的交互过程进行建模。团队可以方便地配置智能体与环境的多轮交互逻辑,并利用其提供的多种环境(如 SearchQA)进行迁移学习和测试,使智能体能更稳健地进行复杂分析。
RAGEN 通过其集成的诊断能力和灵活的轨迹级优化框架,将强化学习训练从一个难以调试的“黑箱”过程,转变为一个可分析、可控制且高效的系统工程。
运行环境要求
- Linux
- macOS
需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+
16GB+

快速开始
RAGEN:通过强化推理训练智能体
诊断智能体故障模式,让您的强化学习训练更出色。

RAGEN (Reasoning AGENT) 是一个用于训练推理智能体的灵活强化学习框架。
我们开发了诊断工具来理解智能体强化学习训练如何运作,以及如何修复隐藏的问题。
寻找 V1 版本的 README? 请查看这里。
新闻
- 2026.3.12. 我们很高兴发布 RAGEN V2!我们引入了一项关于智能体强化学习中推理崩溃的系统性研究,以及用于稳定训练的轻量级干预措施。参见v2 论文。
- 2025.4.20. RAGEN V1 论文在 arXiv 上发表。
- 2025.1.27. RAGEN 初始版本发布。帖子。
关于
RAGEN 围绕 StarPO (State-Thinking-Actions-Reward Policy Optimization) 构建,这是一个统一的强化学习框架,用于训练多轮次、轨迹级别的智能体,并能灵活控制推理过程、奖励分配机制和提示-推演结构。
RAGEN 具有以下灵活性:
- StarPO 框架。 针对多轮次智能体的统一优化,支持轨迹级别和轮次级别的训练。
- 10 个内置环境。 Sokoban, FrozenLake, WebShop, DeepCoder, SearchQA, Lean, Bandit, Countdown, MetaMathQA, Sudoku。
- Gym 兼容接口。 易于添加自定义环境。
RAGEN V2 额外引入了:
- SNR-自适应过滤 (V2)。 基于奖励方差的轻量级推演过滤,以减轻噪声梯度更新的影响。
- 推理崩溃诊断 (V2)。 使用互信息代理指标来检测和监控训练过程中的模板崩溃。
算法
StarPO:通过轨迹级别优化强化推理

StarPO (状态-思考-行动-奖励策略优化) 框架包含两个交错阶段:推演阶段和更新阶段。LLM 生成推理引导的行动与环境交互,收集轨迹级别的奖励,以联合优化推理和行动策略。
MDP 公式化。 智能体-环境交互被表述为马尔可夫决策过程 (MDPs),其中状态和行动是令牌序列,允许 LLM 对环境动态进行推理。目标是在多个交互轮次中最大化期望累积奖励。
推演阶段。 给定一个初始状态,LLM 生成多个轨迹。在每一步,模型产生一个推理引导的行动:<think>...</think><ans> action </ans>。环境返回反馈(奖励和下一个状态)。
更新阶段。 StarPO 使用重要性采样优化整个轨迹。它支持:
- PPO。 通过轨迹上的价值函数进行令牌级别的优势估计。
- GRPO。 分配给完整轨迹的归一化奖励。
V2:诊断模板崩溃
仅凭熵无法检测模板崩溃,即推理在单个输入内看似多样,但在不同输入之间变得与输入无关。RAGEN V2 将推理质量分解为两个轴:
- 输入内多样性: 条件熵 H(Z|X)
- 跨输入可区分性: 互信息 I(X;Z)
SNR-自适应过滤使用奖励方差作为轻量级代理指标,在每次迭代中选择高信噪比的提示,直接解决模板崩溃的根本原因。
更新日志
2026.3.12. RAGEN V2 发布!查看我们的v2 论文。
较早的更新
2025.5.8. 官方文档发布。
2025.5.2. 用于记录代码库小更新的跟踪文档发布。
2025.4.20. RAGEN V1 论文发表。代码库重构:veRL 集成为子模块;架构分解为三个模块——环境状态管理器、上下文管理器和智能体代理。
2025.3.13. RAGEN 代码库重构进行中。参见开发分支。
2025.3.8. veRL 中的 KL 项问题已修复。默认优势估计器改为 GAE (PPO) 以获得更稳定的训练。
2025.1.27. RAGEN 初始版本发布。帖子。
开始使用
git clone https://github.com/mll-lab-nu/RAGEN.git
cd RAGEN
conda create -n ragen python=3.12 -y && conda activate ragen
bash scripts/setup_ragen.sh
使用 bash scripts/setup_ragen.sh --with-search 来包含搜索环境。对于 WebShop,请参阅 docs/experiment_webshop_release.md。
四种推理机制
RAGEN V2 沿着两个维度诊断智能体行为——输入内多样性(条件熵,Conditional Entropy)和跨输入区分度(互信息,Mutual Information)——从而得出四种不同的推理机制:

左图:输入驱动的推理会适应当前状态;模板化推理在不同输入下产生几乎相同的响应。右图:沿着两个维度的四种推理机制——条件熵 H(Z|X)(输入内多样性)和互信息 I(X;Z)(输入依赖性)。模板化坍缩(高熵,低互信息)对于现有的基于熵的度量指标是不可见的。
训练(无过滤,默认):
python train.py --config-name _2_sokoban
使用 SNR 自适应过滤进行训练(V2, Top-p):
python train.py --config-name _2_sokoban \
actor_rollout_ref.rollout_filter_strategy=top_p \
actor_rollout_ref.rollout.rollout_filter_value=0.9
评估:
python -m ragen.llm_agent.agent_proxy --config-name _2_sokoban
SNR 自适应过滤在各种算法、模型规模和模态下都能持续改善训练效果(绿色 = 过滤带来的增益):

更多过滤策略(Top-k、线性模式等)请参阅轨迹过滤指南。
未来计划
我们正在积极开发下一代 RAGEN 基础设施和诊断工具,目标是在 2026 年 3 月底发布。
基础设施
- 异步轨迹引擎
- 基于 HTTP 的环境接口
- 分层环境包装器
- 可选的环境依赖
诊断与训练质量
- 扩展的基准测试套件,用于在各种现实世界的智能体任务中压力测试诊断工具
- 扩展的互信息诊断仪表板,包括更丰富的 WandB 可视化,用于展示训练过程中的熵、互信息代理指标和梯度分解
- 强化学习训练指标指南,包括一篇实践者博客,介绍如何解读训练信号(奖励分布、熵、互信息、梯度范数)并在投入完整训练前采取行动
框架
- 更新 RAGEN V2 的完整文档
- 多模态智能体支持(基于 VAGEN 构建)
- 基准测试结果的公开排行榜
文档
- 完整文档 (我们将很快发布更新版本。)
- 轨迹过滤指南
- 互信息指标参考
- 添加自定义环境——兼容 Gym 的接口,请参阅
config/envs.yaml和文档 - 实验复现:主表 | 干预扫描 | FrozenLake | Sokoban 梯度分析 | 搜索 | DeepCoder | WebShop
由 RAGEN 赋能或启发的优秀工作
- ROLL:用于大语言模型强化学习的高效扩展库
- VAGEN:使用多轮强化学习训练视觉智能体
- Search-R1:使用强化学习训练大语言模型进行推理并调用搜索引擎
- ZeroSearch:在不进行搜索的情况下激励大语言模型的搜索能力
- Agent-R1:使用端到端强化学习训练强大的大语言模型智能体
- OpenManus-RL:用于大语言模型智能体的强化学习调优
- MetaSpatial:强化视觉语言模型中的 3D 空间推理能力
- s3:通过强化学习进行高效而有效的搜索智能体训练
贡献者
Zihan Wang*, Kangrui Wang*, Qineng Wang*, Pingyue Zhang*, Linjie Li*, Zhengyuan Yang, Xing Jin, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
* 同等贡献。
致谢
我们感谢 DeepSeek 团队早期的概念启发。我们感谢 veRL 团队提供的基础设施支持。我们感谢 TinyZero 团队的发现,这些发现为我们最初的探索提供了信息。我们感谢与 Han Liu, Xinyu Xing, Li Erran Li, John Schulman, Akari Asai, Eiso Kant, Lu Lu, Runxin Xu, Huajian Xin, Zijun Liu, Weiyi Liu, Weimin Wu, Yibo Wen, Jiarui Liu, Lorenzo Xiao, Ishan Mukherjee, Anabella Isaro, Haosen Sun, How-Yeh Wan, Lester Xue, Matthew Khoriaty, Haoxiang Sun, Jiajun Liu 进行的富有洞察力的讨论。
对于 RAGEN V2,我们还要感谢 Yuxiang Lin 和 Kyunghyun Cho 的支持。
Star 历史
引用
@misc{ragen-v2,
title={RAGEN-V2: Understanding Reasoning Collapse in LLM Agent Reinforcement Learning},
author={Zihan Wang and Chi Gui and Xing Jin and Qineng Wang and Licheng Liu and Kangrui Wang and Shiqi Chen and Linjie Li and Zhengyuan Yang and Pingyue Zhang and Yiping Lu and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},
year={2026},
url={https://ragen-ai.github.io/v2},
}
@misc{ragen,
title={RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning},
author={Zihan Wang and Kangrui Wang and Qineng Wang and Pingyue Zhang and Linjie Li and Zhengyuan Yang and Xing Jin and Kefan Yu and Minh Nhat Nguyen and Licheng Liu and Eli Gottlieb and Yiping Lu and Kyunghyun Cho and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},
year={2025},
eprint={2504.20073},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2504.20073},
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
