Awesome-AgenticLLM-RL-Papers

1.7k 76 非常简单 2 次阅读昨天语言模型Agent其他

AI 解读由 AI 自动生成，仅供参考

Awesome-AgenticLLM-RL-Papers 是一个专注于大语言模型智能体强化学习（Agentic RL）领域的开源论文合集。作为官方调研论文的配套资源库，它系统整理了该方向的核心研究文献。面对 LLM 智能体技术快速迭代、算法层出不穷的现状，研究人员往往难以全面把握技术脉络。Awesome-AgenticLLM-RL-Papers 解决了信息碎片化的问题，提供了从基础 PPO 到最新偏好优化方法的完整图谱。

适合从事大模型对齐、强化学习研究的科研人员，以及希望深入理解 Agent 训练机制的开发者。Awesome-AgenticLLM-RL-Papers 不仅收录了经典算法，还详细对比了 Clip、KL Penalty 等关键机制，涵盖奖励信号、目标类型等多个维度。内容涵盖了 PPO 家族与 DPO 家族等多种主流方法，帮助读者快速定位所需技术路线。每个条目都附带了原始论文链接及对应的代码或模型资源地址，极大方便了后续复现与验证。对于想要追踪前沿动态或寻找特定算法实现的技术人员来说，这是一个不可或缺的参考指南。

使用场景

某金融科技公司的算法团队正在构建一个自动化交易智能体，急需利用强化学习优化其多步决策能力。

没有 Awesome-AgenticLLM-RL-Papers 时

研究人员需手动阅读数十篇论文才能理清 PPO 与 DPO 家族的技术演进脉络，效率低下。
难以判断哪种算法更适合处理带有噪声的交易奖励信号，导致多次实验失败且成本高昂。
无法快速找到支持过程监督（Process Supervision）的具体开源实现，只能从零开始复现。
对最新的自适应 KL 惩罚机制缺乏了解，模型在长序列训练中容易出现收敛不稳定问题。

使用 Awesome-AgenticLLM-RL-Papers 后

借助结构化表格直接对比 PSGPO 等算法的机制，快速选定适配高频交易场景的策略。
明确不同方法在 Clip 和 KL Penalty 上的配置差异，有效规避训练发散风险并稳定损失函数。
一键跳转至 VinePPO 或 PF-PPO 的代码仓库，节省大量环境搭建与基础逻辑编写时间。
掌握 VAPO 的方差控制特性，显著提升智能体在复杂多变市场环境下的鲁棒性与收益表现。

通过系统梳理前沿算法图谱，Awesome-AgenticLLM-RL-Papers 让团队精准匹配技术选型，将模型调优效率提升数倍。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该仓库为论文调研清单（Survey Paper Collection），本身不包含可执行代码或安装脚本，具体环境需求需参考各子项目链接。

python未说明

未说明

快速开始

Awesome-AgenticLLM-RL-Papers

这是调查论文《大语言模型（LLMs）代理强化学习（Agentic Reinforcement Learning）全景：综述》的官方仓库。

ArXiv – https://arxiv.org/abs/2509.02547

HuggingFace – https://huggingface.co/papers/2509.02547

Citation

@article{
      zhang2026landscapeagenticreinforcementlearning,
      title={The Landscape of Agentic Reinforcement Learning for {LLM}s: A Survey},
      author={Guibin Zhang and Hejia Geng and Xiaohang Yu and Zhenfei Yin and Zaibin Zhang and Zelin Tan and Heng Zhou and Zhong-Zhi Li and Xiangyuan Xue and Yijiang Li and Yifan Zhou and Yang Chen and Chen Zhang and Yutao Fan and Zihu Wang and Songtao Huang and Francisco Piedrahita Velez and Yue Liao and Hongru WANG and Mengyue Yang and Heng Ji and Jun Wang and Shuicheng YAN and Philip Torr and LEI BAI},
      journal={Transactions on Machine Learning Research},
      issn={2835-8856},
      year={2026},
      url={https://openreview.net/forum?id=RY19y2RI1O},
      note={Survey Certification}
}

第 2.7 节代理强化学习（Agentic RL）：算法

Clip（截断）对应于防止策略比率（policy ratio）偏离 1 过远，以确保更新稳定。
KL penalty（KL 惩罚）对应于对所学策略与参考策略之间的 KL 散度（KL divergence）进行惩罚，以确保对齐。

方法	年份	目标类型	截断	KL 惩罚	关键机制	信号	链接	资源
*PPO 系列*
PPO	2017	策略梯度	是	否	策略比率截断	奖励	论文	-
VAPO	2025	策略梯度	是	自适应	自适应 KL 惩罚 + 方差控制	奖励 + 方差信号	论文	-
PF-PPO	2024	策略梯度	是	是	策略过滤	噪声奖励	论文	代码
VinePPO	2024	策略梯度	是	是	无偏值估计	奖励	论文	代码
PSGPO	2024	策略梯度	是	是	过程监督	过程奖励	论文	-
*DPO 系列*
DPO	2024	偏好优化	否	是	与策略相关的隐式奖励	人类偏好	论文	-
β-DPO	2024	偏好优化	否	自适应	动态 KL 系数	人类偏好	论文	代码
SimPO	2024	偏好优化	否	缩放	使用序列平均对数概率作为隐式奖励	人类偏好	论文	代码
IPO	2024	隐式偏好	否	否	将大语言模型作为偏好分类器	偏好排名	论文	-
KTO	2024	知识转移优化	否	是	教师模型稳定化	师生 Logits	论文	代码模型
ORPO	2024	在线正则化偏好优化	否	是	在线稳定化	在线反馈奖励	论文	代码模型
Step-DPO	2024	偏好优化	否	是	逐步监督	逐步偏好	论文	代码模型
LCPO	2025	偏好优化	否	是	有限数据/训练下的长度偏好	奖励	论文	-
*GRPO 系列*
GRPO	2025	基于组奖励的策略梯度	是	是	基于组的相对奖励以消除值估计	基于组的奖励	论文	-
DAPO	2025	GRPO 的替代方案	是	是	解耦截断 + 动态采样	动态基于组的奖励	论文	代码模型网站
LUFFY	2025	同 GRPO	是	是	混合策略 GRPO 配合离策略推理引导	基于组的奖励 (同策略 + 离策略)	论文	代码模型
GSPO	2025	GRPO 的替代方案	是	是	序列级截断、奖励、优化	平滑的基于组的奖励	论文	-
GMPO	2025	GRPO 的替代方案	是	是	词元级奖励的几何平均	基于边界的奖励	论文	代码
ProRL	2025	同 GRPO	是	是	参考策略重置	基于组的奖励	论文	模型
Posterior-GRPO	2025	同 GRPO	是	是	仅奖励成功的过程	基于过程的奖励	论文	-
Dr.GRPO	2025	无偏 GRPO 目标	是	是	消除优化中的偏差	基于组的奖励	论文	代码模型
Step-GRPO	2025	同 GRPO	是	是	基于规则的推理奖励	逐步奖励	论文	代码模型
SRPO	2025	同 GRPO	是	是	两阶段历史重采样	奖励	论文	模型
GRESO	2025	同 GRPO	是	是	预展开过滤	奖励	论文	代码网站
StarPO	2025	同 GRPO	是	是	多轮交互的推理引导动作	基于组的奖励	论文	代码网站
GHPO	2025	策略梯度	是	是	自适应提示优化	奖励	论文	代码
Skywork R1V2	2025	具有混合奖励信号的 GRPO	是	是	选择性样本缓冲区	多模态奖励	论文	代码模型
ASPO	2025	具有形状化优势函数的 GRPO	是	是	截断的优势偏差	基于组的奖励	论文	代码模型
TreePo	2025	同 GRPO	是	是	自引导展开，减少计算负担	基于组的奖励	论文	代码模型网站
EDGE-GRPO	2025	同 GRPO	是	是	熵驱动优势 + 错误修正	基于组的奖励	论文	代码模型
ARPO	2025	同 GRPO	是	是	熵感知智能体展开 + 逐步信用分配	逐步奖励/熵信号	论文	代码模型
DARS	2025	同 GRPO	是	否	针对最难问题的多阶段展开	基于组的奖励	论文	代码模型
CHORD	2025	加权 GRPO + SFT	是	是	辅助监督损失	基于组的奖励	论文	代码
PAPO	2025	GRPO 的替代方案	是	是	隐式感知损失	基于组的奖励	论文	代码模型网站
Pass@k Training	2025	同 GRPO	是	是	将 Pass@k 指标作为奖励	基于组的奖励	论文	代码
KTAE	2025	同 GRPO	是	是	词元级优势估计	基于组的奖励	论文	代码

第 4.1 节任务：搜索与研究智能体 (Agent)

方法	类别	基础大语言模型 (LLM)	链接	资源
*开源方法*
DeepRetrieval	外部	Qwen2.5-3B-Instruct, Llama-3.2-3B-Instruct	论文	代码
Search-R1	外部	Qwen2.5-3B/7B-Base/Instruct	论文	代码
R1-Searcher	外部	Qwen2.5-7B, Llama3.1-8B-Instruct	论文	代码
R1-Searcher++	外部	Qwen2.5-7B-Instruct	论文	代码
ReSearch	外部	Qwen2.5-7B/32B-Instruct	论文	代码
StepSearch	外部	Qwen2.5-3B/7B-Base/Instruct	论文	代码
Tool-Star	外部	Qwen2.5-3B-Instruct, Llama3.2-3B-Instruct	论文	代码
WebDancer	外部	Qwen2.5-7B/32B, QWQ-32B	论文	代码
WebThinker	外部	QwQ-32B, DeepSeek-R1-Distilled-Qwen-7B/14B/32B, Qwen2.5-32B-Instruct	论文	代码
WebSailor	外部	Qwen2.5-3B/7B/32B/72B	论文	代码
AutoTIR	外部	Qwen2.5-7B-Instruct	论文	代码
WebWatcher	外部	Qwen2.5-VL-7B/32B	论文	代码
ASearcher	外部	Qwen2.5-7B/14B, QwQ-32B	论文	代码
ZeroSearch	内部	Qwen2.5-3B/7B-Base/Instruct	论文	代码
SSRL	内部	Qwen2.5-1.5B/3B/7B/14B/32B/72B-Instruct, Llama-3.2-1B/8B-Instruct, Llama-3.1-8B/70B-Instruct, Qwen3-0.6B/1.7B/4B/8B/14B/32B	论文	代码
Search Self-play	外部	Qwen2.5-7B/14B/32B, LLaMA-3.1-8B, Qwen3-8B	论文	代码
*闭源方法*
OpenAI Deep Research	外部	OpenAI Models	博客	官网
Perplexity’s DeepResearch	外部	-	博客	官网
Google Gemini’s DeepResearch	外部	Gemini	博客	官网
Kimi-Researcher	外部	Kimi K2	博客	官网
Grok AI DeepSearch	外部	Grok3	博客	官网
Doubao with Deep Think	外部	Doubao	博客	官网

Sec4.2 任务：代码智能体 (Code Agent)

方法	RL 奖励类型 (强化学习奖励)	基础 LLM (大语言模型)	链接	资源
*用于代码生成的强化学习 (RL)*
AceCoder	结果型 (Outcome)	Qwen2.5-Coder-7B-Base/Instruct, Qwen2.5-7B-Instruct	Paper	Code
DeepCoder-14B	结果型 (Outcome)	Deepseek-R1-Distilled-Qwen-14B	Blog	Code
RLTF	结果型 (Outcome)	CodeGen-NL 2.7B, CodeT5	Paper	Code
CURE	结果型 (Outcome)	Qwen2.5-7B/14B-Instruct, Qwen3-4B	Paper	Code
Absolute Zero	结果型 (Outcome)	Qwen2.5-7B/14B, Qwen2.5-Coder-3B/7B/14B, Llama-3.1-8B	Paper	Code
MSRL	结果型 (Outcome)	Qwen2.5-VL-7B-Instruct	Paper	Code
StepCoder	过程型 (Process)	DeepSeek-Coder-Instruct-6.7B	Paper	Code
Process Supervision-Guided PO	过程型 (Process)	-	Paper	-
CodeBoost	过程型 (Process)	Qwen2.5-Coder-7B-Instruct, Llama-3.1-8B-Instruct, Seed-Coder-8B-Instruct, Yi-Coder-9B-Chat	Paper	Code
PRLCoder	过程型 (Process)	CodeT5+, Unixcoder, T5-base	Paper	-
o1-Coder	过程型 (Process)	DeepSeek-1.3B-Instruct	Paper	Code
CodeFavor	过程型 (Process)	Mistral-NeMo-12B-Instruct, Gemma-2-9B-Instruct, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3	Paper	Code
Focused-DPO	过程型 (Process)	DeepSeek-Coder-6.7B-Base/Instruct, Magicoder-S-DS-6.7B, Qwen2.5-Coder-7B-Instruct	Paper	-
*用于迭代式代码优化的强化学习 (RL)*
RLEF	结果型 (Outcome)	Llama-3.0-8B-Instruct, Llama-3.1-8B/70B-Instruct	Paper	-
μCode	结果型 (Outcome)	Llama-3.2-1B/8B-Instruct	Paper	Code
R1-Code-Interpreter	结果型 (Outcome)	Qwen2.5-7B/14B-Instruct-1M, Qwen2.5-3B-Instruct	Paper	Code
IterPref	过程型 (Process)	Deepseek-Coder-7B-Instruct, Qwen2.5-Coder-7B, StarCoder2-15B	Paper	-
LeDex	过程型 (Process)	StarCoder-15B, CodeLlama-7B/13B	Paper	-
CTRL	过程型 (Process)	Qwen2.5-Coder-7B/14B/32B-Instruct	Paper	Code
ReVeal	过程型 (Process)	DAPO-Qwen-32B, Qwen2.5-32B-Instruc(not-working)	Paper	-
Posterior-GRPO	过程型 (Process)	Qwen2.5-Coder-3B/7B-Base, Qwen2.5-Math-7B	Paper	-
Policy Filtration for RLHF	过程型 (Process)	DeepSeek-Coder-6.7B, Qwen1.5-7B	Paper	Code
*用于自动化软件工程 (SWE) 的强化学习 (RL)*
DeepSWE	结果型 (Outcome)	Qwen3-32B	Blog	Code
SWE-RL	结果型 (Outcome)	Llama-3.3-70B-Instruct	Paper	Code
Satori-SWE	结果型 (Outcome)	Qwen-2.5-Math-7B	Paper	Code
RLCoder	结果型 (Outcome)	CodeLlama7B, StartCoder-7B, StarCoder2-7B, DeepSeekCoder-1B/7B	Paper	Code
Qwen3-Coder	结果型 (Outcome)	-	Paper	Code
ML-Agent	结果型 (Outcome)	Qwen2.5-7B-Base/Instruct, DeepSeek-R1-Distill-Qwen-7B	Paper	Code
DeepAnalyze	结果型 (Outcome)	DeepSeek-R1-Distill-Qwen3-8B	Paper	Code
Golubev et al.	过程型 (Process)	Qwen2.5-72B-Instruct	Paper	-
SWEET-RL	过程型 (Process)	Llama-3.1-8B/70B-Instruct	Paper	Code

第 4.3 节任务：数学智能体

方法	奖励类型	链接	资源
*用于非形式化数学推理的强化学习 (RL)*
ARTIST	结果	论文	-
ToRL	结果	论文	代码模型
ZeroTIR	结果	论文	代码模型
TTRL	结果	论文	代码
RENT	结果	论文	代码网站
Satori	结果	论文	代码模型网站
1-shot RLVR	结果	论文	代码模型
Prover-Verifier Games (legibility)	结果	论文	-
rStar2-Agent	结果	论文	代码
Tool-Star	结果	论文	代码
Parallel-R1	结果	论文	代码
START	过程	论文	-
LADDER	过程	论文	-
SWiRL	过程	论文	-
RLoT	过程	论文	代码
AutoTIR	过程	论文	代码
SCRIBE	过程	论文	-
*用于形式化数学推理的强化学习 (RL)*
DeepSeek-Prover-v1.5	结果	论文	代码模型
Leanabell-Prover	结果	论文	代码模型
Kimina-Prover (Preview)	结果	论文	代码模型
Seed-Prover	结果	论文	代码
DeepSeek-Prover-v2	过程	论文	代码模型
ProofNet++	过程	论文	-
Leanabell-Prover-v2	过程	论文	代码
*混合式*
InternLM2.5-StepProver	混合	论文	代码
Lean-STaR	混合	论文	代码模型网站
STP	混合	论文	代码模型

第 4.4 节任务：GUI 智能体

方法	范式	环境	链接	资源
*非强化学习 (RL) GUI 智能体*
MM-Navigator	基础视觉语言模型 (VLM)	-	论文	代码
SeeAct	基础视觉语言模型 (VLM)	-	论文	代码
TRISHUL	基础视觉语言模型 (VLM)	-	论文	-
InfiGUIAgent	监督微调 (SFT)	-	论文	代码模型网站
UI-AGILE	监督微调 (SFT)	-	论文	代码模型
TongUI	监督微调 (SFT)	-	论文	代码模型网站
*基于强化学习 (RL) 的 GUI 智能体*
GUI-R1	强化学习 (RL)	静态	论文	代码模型
UI-R1	强化学习 (RL)	静态	论文	代码模型
InFiGUI-R1	强化学习 (RL)	静态	论文	代码模型
AgentCPM	强化学习 (RL)	静态	论文	代码模型
WebAgent-R1	强化学习 (RL)	交互式	论文	-
Vattikonda et al.	强化学习 (RL)	交互式	论文	-
UI-TARS	强化学习 (RL)	交互式	论文	代码模型网站
DiGiRL	强化学习 (RL)	交互式	论文	代码模型网站
ZeroGUI	强化学习 (RL)	交互式	论文	代码
MobileGUI-RL	强化学习 (RL)	交互式	论文	-

第 4.5 节任务：视觉智能体中的强化学习

待添加

第 4.6 节任务：具身智能体中的强化学习

待添加

第 4.7 节任务：多智能体系统中的强化学习

“动态”表示多智能体系统是否为任务动态的，即是否使用不同的配置（智能体数量、拓扑结构、推理深度、提示词等）处理不同的任务查询。
“训练”表示该方法是否涉及对智能体的大语言模型（LLM）主干进行训练。

方法	动态	训练	强化学习算法	链接	资源
*无强化学习的多智能体系统（非详尽列表）*
CAMEL	✗	✗	-	Paper	Code Model
MetaGPT	✗	✗	-	Paper	Code
MAD	✗	✗	-	Paper	Code
MoA	✗	✗	-	Paper	Code
AFlow	✗	✗	-	Paper	Code
*基于强化学习的多智能体训练*
GPTSwarm	✗	✗	策略梯度	Paper	Code Website
MaAS	✓	✗	策略梯度	Paper	Code
G-Designer	✓	✗	策略梯度	Paper	Code
MALT	✗	✓	DPO	Paper	-
MARFT	✗	✓	MARFT	Paper	Code
MAPoRL	✓	✓	PPO	Paper	Code
MLPO	✓	✓	MLPO	Paper	-
ReMA	✓	✓	MAMRP	Paper	Code
FlowReasoner	✓	✓	GRPO	Paper	Code
LERO	✓	✓	MLPO	Paper	-
CURE	✗	✓	基于规则的强化学习	Paper	Code Model
MMedAgent-RL	✗	✓	GRPO	Paper	-
OWL	✓	✓	DPO	Paper	Code

第 4.8 节任务：其他任务

待添加

第 5.1 节环境

智能体能力由以下表示：
① 推理，② 规划，③ 工具使用，④ 记忆，⑤ 协作，⑥ 自我改进。

环境 / 基准测试	智能体能力	任务领域	模态	链接	资源
LMRL-Gym	①, ④	交互	文本	论文	代码
ALFWorld	②, ①	具身，文本游戏	文本	论文	代码网站
TextWorld	②, ①	文本游戏	文本	论文	代码
ScienceWorld	①, ②	具身，科学	文本	论文	代码网站
AgentGym	①, ④	文本游戏	文本	论文	代码网站
Agentbench	①	通用	文本，视觉	论文	代码
InternBootcamp	①	通用，编程，逻辑	文本	论文	代码
LoCoMo	④	交互	文本	论文	代码网站
MemoryAgentBench	④	交互	文本	论文	代码
WebShop	②, ③	网页	文本	论文	代码网站
Mind2Web	②, ③	网页	文本，视觉	论文	代码网站
WebArena	②, ③	网页	文本	论文	代码网站
VisualwebArena	①, ②, ③	网页	文本，视觉	论文	代码网站
AppWorld	②, ③	应用	文本	论文	代码网站
AndroidWorld	②, ③	图形界面，应用	文本，视觉	论文	代码
OSWorld	②, ③	图形界面，操作系统	文本，视觉	论文	代码网站
Debug-Gym	①, ③	软件工程	文本	论文	代码网站
MLE-Dojo	②, ①	机器学习工程	文本	论文	代码网站
τ-bench	①, ③	软件工程	文本	论文	代码
TheAgentCompany	②, ③, ⑤	软件工程	文本	论文	代码网站
MedAgentGym	①	科学	文本	论文	代码
SecRepoBench	①, ③	编程，安全	文本	论文	-
R2E-Gym	①, ②	软件工程	文本	论文	代码网站
HumanEval	①	编程	文本	论文	代码
MBPP	①	编程	文本	论文	代码
BigCodeBench	①	编程	文本	论文	代码网站
LiveCodeBench	①	编程	文本	论文	代码网站
SWE-bench	①, ③	软件工程	文本	论文	代码网站
SWE-rebench	①, ③	软件工程	文本	论文	网站
DevBench	②, ①	软件工程	文本	论文	代码
ProjectEval	②, ①	软件工程	文本	论文	代码网站
DA-Code	①, ③	数据科学，软件工程	文本	论文	代码网站
ColBench	②, ①, ③	软件工程，网页开发	文本	论文	代码网站
NoCode-bench	②, ①	软件工程	文本	论文	代码网站
MLE-Bench	②, ①, ③	机器学习工程	文本	论文	代码网站
PaperBench	②, ①, ③	机器学习工程	文本	论文	代码网站
Crafter	②, ④	游戏	视觉	论文	代码网站
Craftax	②, ④	游戏	视觉	论文	代码
ELLM (Crafter variant)	②, ①	游戏	视觉	论文	代码网站
SMAC / SMAC-Exp	⑤, ②	游戏	视觉	论文	代码
Factorio	②, ①	游戏	视觉	论文	代码网站

第 5.2 节框架

框架	类型	关键特性	链接	资源
*智能体强化学习 (RL) 框架*
Verifiers	智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习	可验证的环境配置	-	代码
SkyRL-v0/v0.1	智能体强化学习 (RL)	长周期现实世界训练	博客 (v0) 博客 (v0.1)	代码
AREAL	智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习	异步训练	论文	代码
MARTI	多智能体强化学习 / 大语言模型 (LLM) 强化学习	集成多智能体训练	-	代码
EasyR1	智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习	多模态支持	-	代码
AgentFly	智能体强化学习 (RL)	可扩展异步执行	论文	代码
Agent Lightning	智能体强化学习 (RL)	解耦分层强化学习	论文	代码
*人类反馈强化学习 (RLHF) 与大语言模型 (LLM) 微调框架*
OpenRLHF	人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习	高性能可扩展人类反馈强化学习	论文	代码
TRL	人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习	Hugging Face 人类反馈强化学习	-	代码
trlX	人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习	分布式大模型人类反馈强化学习	论文	代码
HybridFlow	人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习	简化的实验管理	论文	代码
SLiMe	人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习	高性能异步强化学习	-	代码
*通用强化学习 (RL) 框架*
RLlib	通用强化学习 / 多智能体强化学习	生产级可扩展库	论文	代码
Acme	通用强化学习	模块化分布式组件	论文	代码
Tianshou	通用强化学习	高性能 PyTorch 平台	论文	代码
Stable Baselines3	通用强化学习	可靠的 PyTorch 算法	论文	代码
PFRL	通用强化学习	基准测试原型算法	论文	代码

Awesome-AgenticLLM-RL-Papers 快速上手指南

本仓库是论文《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》的官方配套资源库，汇集了大语言模型智能体强化学习（Agentic RL）领域的最新算法、任务实现及开源项目。它不是独立的训练框架，而是连接研究论文与落地代码的资源导航站。

环境准备

本工具主要作为文献与代码索引，无需复杂的本地运行环境，但建议准备以下条件以便后续调用相关项目：

操作系统：Linux / macOS / Windows (WSL)
版本控制工具：Git (用于克隆本仓库及相关子项目)
网络环境：需能访问 GitHub、ArXiv、HuggingFace 等科研站点
开发语言：Python (若需运行链接中的具体 RL 项目)

安装步骤

由于本仓库为资源集合，主要通过 Git 获取最新内容。

打开终端，克隆本仓库到本地：

git clone https://github.com/your-repo/Awesome-AgenticLLM-RL-Papers.git

(注：若网络访问受限，可使用国内镜像源或代理加速)

cd Awesome-AgenticLLM-RL-Papers
ls

基本使用

本仓库的核心价值在于分类整理算法与项目链接，请按以下步骤高效利用：

1. 浏览核心算法表

在 README.md 中查找 Sec2.7 Agentic RL: Algorithms 章节。这里按算法家族（如 PPO family, DPO family, GRPO family）整理了关键机制、年份及信号类型。

示例：寻找基于组的奖励方法时，直接定位 GRPO family 下的 DAPO 或 TreePo。

2. 获取具体项目代码

表格中的 Link 或 Resource 列提供了论文、代码库或模型的直接跳转地址。

获取代码：点击 [Code](https://...) 链接跳转到对应 GitHub 仓库进行二次克隆。
下载模型：点击 [Model](https://huggingface.co/...) 链接在 HuggingFace 下载预训练权重。

3. 参考特定任务实现

查看 Sec4.1 Task: Search & Research Agent 章节，了解搜索与研究类智能体的基座模型（Base LLM）及开源实现。

示例：若需构建搜索智能体，可参考 Search-R1 或 WebDancer 的实现路径。

4. 引用规范

在学术研究中引用本资源时，请使用以下 BibTeX：

@article{
      zhang2026landscapeagenticreinforcementlearning,
      title={The Landscape of Agentic Reinforcement Learning for {LLM}s: A Survey},
      author={Guibin Zhang and Hejia Geng and Xiaohang Yu and Zhenfei Yin and Zaibin Zhang and Zelin Tan and Heng Zhou and Zhong-Zhi Li and Xiangyuan Xue and Yijiang Li and Yifan Zhou and Yang Chen and Chen Zhang and Yutao Fan and Zihu Wang and Songtao Huang and Francisco Piedrahita Velez and Yue Liao and Hongru WANG and Mengyue Yang and Heng Ji and Jun Wang and Shuicheng YAN and Philip Torr and LEI BAI},
      journal={Transactions on Machine Learning Research},
      issn={2835-8856},
      year={2026},
      url={https://openreview.net/forum?id=RY19y2RI1O},
      note={Survey Certification}
}

常见问题

如何推荐遗漏的强化学习相关论文？

新提交的论文会如何被分类？

发现论文链接错误如何处理？

并行推理相关的 RL 论文会被收录吗？

如何推荐 GRPO 家族的算法改进论文？

离策略引导的推理框架论文适合收录吗？

如何贡献多智能体系统的论文和代码？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

使用场景

没有 Awesome-AgenticLLM-RL-Papers 时

使用 Awesome-AgenticLLM-RL-Papers 后

运行环境要求

快速开始

Awesome-AgenticLLM-RL-Papers

Citation

第 2.7 节 代理强化学习（Agentic RL）：算法

第 4.1 节 任务：搜索与研究智能体 (Agent)

Sec4.2 任务：代码智能体 (Code Agent)

第 4.3 节 任务：数学智能体

第 4.4 节 任务：GUI 智能体

第 4.5 节 任务：视觉智能体中的强化学习

第 4.6 节 任务：具身智能体中的强化学习

第 4.7 节 任务：多智能体系统中的强化学习

第 4.8 节 任务：其他任务

第 5.1 节 环境

第 5.2 节 框架

Awesome-AgenticLLM-RL-Papers 快速上手指南

环境准备

安装步骤

基本使用

1. 浏览核心算法表

2. 获取具体项目代码

3. 参考特定任务实现

4. 引用规范

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

第 2.7 节代理强化学习（Agentic RL）：算法

第 4.1 节任务：搜索与研究智能体 (Agent)

第 4.3 节任务：数学智能体

第 4.4 节任务：GUI 智能体

第 4.5 节任务：视觉智能体中的强化学习

第 4.6 节任务：具身智能体中的强化学习

第 4.7 节任务：多智能体系统中的强化学习

第 4.8 节任务：其他任务

第 5.1 节环境

第 5.2 节框架