Awesome-AgenticLLM-RL-Papers
Awesome-AgenticLLM-RL-Papers 是一个专注于大语言模型智能体强化学习(Agentic RL)领域的开源论文合集。作为官方调研论文的配套资源库,它系统整理了该方向的核心研究文献。面对 LLM 智能体技术快速迭代、算法层出不穷的现状,研究人员往往难以全面把握技术脉络。Awesome-AgenticLLM-RL-Papers 解决了信息碎片化的问题,提供了从基础 PPO 到最新偏好优化方法的完整图谱。
适合从事大模型对齐、强化学习研究的科研人员,以及希望深入理解 Agent 训练机制的开发者。Awesome-AgenticLLM-RL-Papers 不仅收录了经典算法,还详细对比了 Clip、KL Penalty 等关键机制,涵盖奖励信号、目标类型等多个维度。内容涵盖了 PPO 家族与 DPO 家族等多种主流方法,帮助读者快速定位所需技术路线。每个条目都附带了原始论文链接及对应的代码或模型资源地址,极大方便了后续复现与验证。对于想要追踪前沿动态或寻找特定算法实现的技术人员来说,这是一个不可或缺的参考指南。
使用场景
某金融科技公司的算法团队正在构建一个自动化交易智能体,急需利用强化学习优化其多步决策能力。
没有 Awesome-AgenticLLM-RL-Papers 时
- 研究人员需手动阅读数十篇论文才能理清 PPO 与 DPO 家族的技术演进脉络,效率低下。
- 难以判断哪种算法更适合处理带有噪声的交易奖励信号,导致多次实验失败且成本高昂。
- 无法快速找到支持过程监督(Process Supervision)的具体开源实现,只能从零开始复现。
- 对最新的自适应 KL 惩罚机制缺乏了解,模型在长序列训练中容易出现收敛不稳定问题。
使用 Awesome-AgenticLLM-RL-Papers 后
- 借助结构化表格直接对比 PSGPO 等算法的机制,快速选定适配高频交易场景的策略。
- 明确不同方法在 Clip 和 KL Penalty 上的配置差异,有效规避训练发散风险并稳定损失函数。
- 一键跳转至 VinePPO 或 PF-PPO 的代码仓库,节省大量环境搭建与基础逻辑编写时间。
- 掌握 VAPO 的方差控制特性,显著提升智能体在复杂多变市场环境下的鲁棒性与收益表现。
通过系统梳理前沿算法图谱,Awesome-AgenticLLM-RL-Papers 让团队精准匹配技术选型,将模型调优效率提升数倍。
运行环境要求
- 未说明
未说明
未说明

快速开始
Awesome-AgenticLLM-RL-Papers
这是调查论文《大语言模型(LLMs)代理强化学习(Agentic Reinforcement Learning)全景:综述》的官方仓库。
ArXiv – https://arxiv.org/abs/2509.02547
HuggingFace – https://huggingface.co/papers/2509.02547
Citation
@article{
zhang2026landscapeagenticreinforcementlearning,
title={The Landscape of Agentic Reinforcement Learning for {LLM}s: A Survey},
author={Guibin Zhang and Hejia Geng and Xiaohang Yu and Zhenfei Yin and Zaibin Zhang and Zelin Tan and Heng Zhou and Zhong-Zhi Li and Xiangyuan Xue and Yijiang Li and Yifan Zhou and Yang Chen and Chen Zhang and Yutao Fan and Zihu Wang and Songtao Huang and Francisco Piedrahita Velez and Yue Liao and Hongru WANG and Mengyue Yang and Heng Ji and Jun Wang and Shuicheng YAN and Philip Torr and LEI BAI},
journal={Transactions on Machine Learning Research},
issn={2835-8856},
year={2026},
url={https://openreview.net/forum?id=RY19y2RI1O},
note={Survey Certification}
}
第 2.7 节 代理强化学习(Agentic RL):算法
Clip(截断)对应于防止策略比率(policy ratio)偏离 1 过远,以确保更新稳定。
KL penalty(KL 惩罚)对应于对所学策略与参考策略之间的 KL 散度(KL divergence)进行惩罚,以确保对齐。
| 方法 | 年份 | 目标类型 | 截断 | KL 惩罚 | 关键机制 | 信号 | 链接 | 资源 |
|---|---|---|---|---|---|---|---|---|
| PPO 系列 | ||||||||
| PPO | 2017 | 策略梯度 | 是 | 否 | 策略比率截断 | 奖励 | 论文 | - |
| VAPO | 2025 | 策略梯度 | 是 | 自适应 | 自适应 KL 惩罚 + 方差控制 | 奖励 + 方差信号 | 论文 | - |
| PF-PPO | 2024 | 策略梯度 | 是 | 是 | 策略过滤 | 噪声奖励 | 论文 | 代码 |
| VinePPO | 2024 | 策略梯度 | 是 | 是 | 无偏值估计 | 奖励 | 论文 | 代码 |
| PSGPO | 2024 | 策略梯度 | 是 | 是 | 过程监督 | 过程奖励 | 论文 | - |
| DPO 系列 | ||||||||
| DPO | 2024 | 偏好优化 | 否 | 是 | 与策略相关的隐式奖励 | 人类偏好 | 论文 | - |
| β-DPO | 2024 | 偏好优化 | 否 | 自适应 | 动态 KL 系数 | 人类偏好 | 论文 | 代码 |
| SimPO | 2024 | 偏好优化 | 否 | 缩放 | 使用序列平均对数概率作为隐式奖励 | 人类偏好 | 论文 | 代码 |
| IPO | 2024 | 隐式偏好 | 否 | 否 | 将大语言模型作为偏好分类器 | 偏好排名 | 论文 | - |
| KTO | 2024 | 知识转移优化 | 否 | 是 | 教师模型稳定化 | 师生 Logits | 论文 | 代码 模型 |
| ORPO | 2024 | 在线正则化偏好优化 | 否 | 是 | 在线稳定化 | 在线反馈奖励 | 论文 | 代码 模型 |
| Step-DPO | 2024 | 偏好优化 | 否 | 是 | 逐步监督 | 逐步偏好 | 论文 | 代码 模型 |
| LCPO | 2025 | 偏好优化 | 否 | 是 | 有限数据/训练下的长度偏好 | 奖励 | 论文 | - |
| GRPO 系列 | ||||||||
| GRPO | 2025 | 基于组奖励的策略梯度 | 是 | 是 | 基于组的相对奖励以消除值估计 | 基于组的奖励 | 论文 | - |
| DAPO | 2025 | GRPO 的替代方案 | 是 | 是 | 解耦截断 + 动态采样 | 动态基于组的奖励 | 论文 | 代码 模型 网站 |
| LUFFY | 2025 | 同 GRPO | 是 | 是 | 混合策略 GRPO 配合离策略推理引导 | 基于组的奖励 (同策略 + 离策略) | 论文 | 代码 模型 |
| GSPO | 2025 | GRPO 的替代方案 | 是 | 是 | 序列级截断、奖励、优化 | 平滑的基于组的奖励 | 论文 | - |
| GMPO | 2025 | GRPO 的替代方案 | 是 | 是 | 词元级奖励的几何平均 | 基于边界的奖励 | 论文 | 代码 |
| ProRL | 2025 | 同 GRPO | 是 | 是 | 参考策略重置 | 基于组的奖励 | 论文 | 模型 |
| Posterior-GRPO | 2025 | 同 GRPO | 是 | 是 | 仅奖励成功的过程 | 基于过程的奖励 | 论文 | - |
| Dr.GRPO | 2025 | 无偏 GRPO 目标 | 是 | 是 | 消除优化中的偏差 | 基于组的奖励 | 论文 | 代码 模型 |
| Step-GRPO | 2025 | 同 GRPO | 是 | 是 | 基于规则的推理奖励 | 逐步奖励 | 论文 | 代码 模型 |
| SRPO | 2025 | 同 GRPO | 是 | 是 | 两阶段历史重采样 | 奖励 | 论文 | 模型 |
| GRESO | 2025 | 同 GRPO | 是 | 是 | 预展开过滤 | 奖励 | 论文 | 代码 网站 |
| StarPO | 2025 | 同 GRPO | 是 | 是 | 多轮交互的推理引导动作 | 基于组的奖励 | 论文 | 代码 网站 |
| GHPO | 2025 | 策略梯度 | 是 | 是 | 自适应提示优化 | 奖励 | 论文 | 代码 |
| Skywork R1V2 | 2025 | 具有混合奖励信号的 GRPO | 是 | 是 | 选择性样本缓冲区 | 多模态奖励 | 论文 | 代码 模型 |
| ASPO | 2025 | 具有形状化优势函数的 GRPO | 是 | 是 | 截断的优势偏差 | 基于组的奖励 | 论文 | 代码 模型 |
| TreePo | 2025 | 同 GRPO | 是 | 是 | 自引导展开,减少计算负担 | 基于组的奖励 | 论文 | 代码 模型 网站 |
| EDGE-GRPO | 2025 | 同 GRPO | 是 | 是 | 熵驱动优势 + 错误修正 | 基于组的奖励 | 论文 | 代码 模型 |
| ARPO | 2025 | 同 GRPO | 是 | 是 | 熵感知智能体展开 + 逐步信用分配 | 逐步奖励/熵信号 | 论文 | 代码 模型 |
| DARS | 2025 | 同 GRPO | 是 | 否 | 针对最难问题的多阶段展开 | 基于组的奖励 | 论文 | 代码 模型 |
| CHORD | 2025 | 加权 GRPO + SFT | 是 | 是 | 辅助监督损失 | 基于组的奖励 | 论文 | 代码 |
| PAPO | 2025 | GRPO 的替代方案 | 是 | 是 | 隐式感知损失 | 基于组的奖励 | 论文 | 代码 模型 网站 |
| Pass@k Training | 2025 | 同 GRPO | 是 | 是 | 将 Pass@k 指标作为奖励 | 基于组的奖励 | 论文 | 代码 |
| KTAE | 2025 | 同 GRPO | 是 | 是 | 词元级优势估计 | 基于组的奖励 | 论文 | 代码 |
第 4.1 节 任务:搜索与研究智能体 (Agent)
| 方法 | 类别 | 基础大语言模型 (LLM) | 链接 | 资源 |
|---|---|---|---|---|
| 开源方法 | ||||
| DeepRetrieval | 外部 | Qwen2.5-3B-Instruct, Llama-3.2-3B-Instruct | 论文 | 代码 |
| Search-R1 | 外部 | Qwen2.5-3B/7B-Base/Instruct | 论文 | 代码 |
| R1-Searcher | 外部 | Qwen2.5-7B, Llama3.1-8B-Instruct | 论文 | 代码 |
| R1-Searcher++ | 外部 | Qwen2.5-7B-Instruct | 论文 | 代码 |
| ReSearch | 外部 | Qwen2.5-7B/32B-Instruct | 论文 | 代码 |
| StepSearch | 外部 | Qwen2.5-3B/7B-Base/Instruct | 论文 | 代码 |
| Tool-Star | 外部 | Qwen2.5-3B-Instruct, Llama3.2-3B-Instruct | 论文 | 代码 |
| WebDancer | 外部 | Qwen2.5-7B/32B, QWQ-32B | 论文 | 代码 |
| WebThinker | 外部 | QwQ-32B, DeepSeek-R1-Distilled-Qwen-7B/14B/32B, Qwen2.5-32B-Instruct | 论文 | 代码 |
| WebSailor | 外部 | Qwen2.5-3B/7B/32B/72B | 论文 | 代码 |
| AutoTIR | 外部 | Qwen2.5-7B-Instruct | 论文 | 代码 |
| WebWatcher | 外部 | Qwen2.5-VL-7B/32B | 论文 | 代码 |
| ASearcher | 外部 | Qwen2.5-7B/14B, QwQ-32B | 论文 | 代码 |
| ZeroSearch | 内部 | Qwen2.5-3B/7B-Base/Instruct | 论文 | 代码 |
| SSRL | 内部 | Qwen2.5-1.5B/3B/7B/14B/32B/72B-Instruct, Llama-3.2-1B/8B-Instruct, Llama-3.1-8B/70B-Instruct, Qwen3-0.6B/1.7B/4B/8B/14B/32B | 论文 | 代码 |
| Search Self-play | 外部 | Qwen2.5-7B/14B/32B, LLaMA-3.1-8B, Qwen3-8B | 论文 | 代码 |
| 闭源方法 | ||||
| OpenAI Deep Research | 外部 | OpenAI Models | 博客 | 官网 |
| Perplexity’s DeepResearch | 外部 | - | 博客 | 官网 |
| Google Gemini’s DeepResearch | 外部 | Gemini | 博客 | 官网 |
| Kimi-Researcher | 外部 | Kimi K2 | 博客 | 官网 |
| Grok AI DeepSearch | 外部 | Grok3 | 博客 | 官网 |
| Doubao with Deep Think | 外部 | Doubao | 博客 | 官网 |
Sec4.2 任务:代码智能体 (Code Agent)
| 方法 | RL 奖励类型 (强化学习奖励) | 基础 LLM (大语言模型) | 链接 | 资源 |
|---|---|---|---|---|
| 用于代码生成的强化学习 (RL) | ||||
| AceCoder | 结果型 (Outcome) | Qwen2.5-Coder-7B-Base/Instruct, Qwen2.5-7B-Instruct | Paper | Code |
| DeepCoder-14B | 结果型 (Outcome) | Deepseek-R1-Distilled-Qwen-14B | Blog | Code |
| RLTF | 结果型 (Outcome) | CodeGen-NL 2.7B, CodeT5 | Paper | Code |
| CURE | 结果型 (Outcome) | Qwen2.5-7B/14B-Instruct, Qwen3-4B | Paper | Code |
| Absolute Zero | 结果型 (Outcome) | Qwen2.5-7B/14B, Qwen2.5-Coder-3B/7B/14B, Llama-3.1-8B | Paper | Code |
| MSRL | 结果型 (Outcome) | Qwen2.5-VL-7B-Instruct | Paper | Code |
| StepCoder | 过程型 (Process) | DeepSeek-Coder-Instruct-6.7B | Paper | Code |
| Process Supervision-Guided PO | 过程型 (Process) | - | Paper | - |
| CodeBoost | 过程型 (Process) | Qwen2.5-Coder-7B-Instruct, Llama-3.1-8B-Instruct, Seed-Coder-8B-Instruct, Yi-Coder-9B-Chat | Paper | Code |
| PRLCoder | 过程型 (Process) | CodeT5+, Unixcoder, T5-base | Paper | - |
| o1-Coder | 过程型 (Process) | DeepSeek-1.3B-Instruct | Paper | Code |
| CodeFavor | 过程型 (Process) | Mistral-NeMo-12B-Instruct, Gemma-2-9B-Instruct, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3 | Paper | Code |
| Focused-DPO | 过程型 (Process) | DeepSeek-Coder-6.7B-Base/Instruct, Magicoder-S-DS-6.7B, Qwen2.5-Coder-7B-Instruct | Paper | - |
| 用于迭代式代码优化的强化学习 (RL) | ||||
| RLEF | 结果型 (Outcome) | Llama-3.0-8B-Instruct, Llama-3.1-8B/70B-Instruct | Paper | - |
| μCode | 结果型 (Outcome) | Llama-3.2-1B/8B-Instruct | Paper | Code |
| R1-Code-Interpreter | 结果型 (Outcome) | Qwen2.5-7B/14B-Instruct-1M, Qwen2.5-3B-Instruct | Paper | Code |
| IterPref | 过程型 (Process) | Deepseek-Coder-7B-Instruct, Qwen2.5-Coder-7B, StarCoder2-15B | Paper | - |
| LeDex | 过程型 (Process) | StarCoder-15B, CodeLlama-7B/13B | Paper | - |
| CTRL | 过程型 (Process) | Qwen2.5-Coder-7B/14B/32B-Instruct | Paper | Code |
| ReVeal | 过程型 (Process) | DAPO-Qwen-32B, Qwen2.5-32B-Instruc(not-working) | Paper | - |
| Posterior-GRPO | 过程型 (Process) | Qwen2.5-Coder-3B/7B-Base, Qwen2.5-Math-7B | Paper | - |
| Policy Filtration for RLHF | 过程型 (Process) | DeepSeek-Coder-6.7B, Qwen1.5-7B | Paper | Code |
| 用于自动化软件工程 (SWE) 的强化学习 (RL) | ||||
| DeepSWE | 结果型 (Outcome) | Qwen3-32B | Blog | Code |
| SWE-RL | 结果型 (Outcome) | Llama-3.3-70B-Instruct | Paper | Code |
| Satori-SWE | 结果型 (Outcome) | Qwen-2.5-Math-7B | Paper | Code |
| RLCoder | 结果型 (Outcome) | CodeLlama7B, StartCoder-7B, StarCoder2-7B, DeepSeekCoder-1B/7B | Paper | Code |
| Qwen3-Coder | 结果型 (Outcome) | - | Paper | Code |
| ML-Agent | 结果型 (Outcome) | Qwen2.5-7B-Base/Instruct, DeepSeek-R1-Distill-Qwen-7B | Paper | Code |
| DeepAnalyze | 结果型 (Outcome) | DeepSeek-R1-Distill-Qwen3-8B | Paper | Code |
| Golubev et al. | 过程型 (Process) | Qwen2.5-72B-Instruct | Paper | - |
| SWEET-RL | 过程型 (Process) | Llama-3.1-8B/70B-Instruct | Paper | Code |
第 4.3 节 任务:数学智能体
| 方法 | 奖励类型 | 链接 | 资源 |
|---|---|---|---|
| 用于非形式化数学推理的强化学习 (RL) | |||
| ARTIST | 结果 | 论文 | - |
| ToRL | 结果 | 论文 | 代码 模型 |
| ZeroTIR | 结果 | 论文 | 代码 模型 |
| TTRL | 结果 | 论文 | 代码 |
| RENT | 结果 | 论文 | 代码 网站 |
| Satori | 结果 | 论文 | 代码 模型 网站 |
| 1-shot RLVR | 结果 | 论文 | 代码 模型 |
| Prover-Verifier Games (legibility) | 结果 | 论文 | - |
| rStar2-Agent | 结果 | 论文 | 代码 |
| Tool-Star | 结果 | 论文 | 代码 |
| Parallel-R1 | 结果 | 论文 | 代码 |
| START | 过程 | 论文 | - |
| LADDER | 过程 | 论文 | - |
| SWiRL | 过程 | 论文 | - |
| RLoT | 过程 | 论文 | 代码 |
| AutoTIR | 过程 | 论文 | 代码 |
| SCRIBE | 过程 | 论文 | - |
| 用于形式化数学推理的强化学习 (RL) | |||
| DeepSeek-Prover-v1.5 | 结果 | 论文 | 代码 模型 |
| Leanabell-Prover | 结果 | 论文 | 代码 模型 |
| Kimina-Prover (Preview) | 结果 | 论文 | 代码 模型 |
| Seed-Prover | 结果 | 论文 | 代码 |
| DeepSeek-Prover-v2 | 过程 | 论文 | 代码 模型 |
| ProofNet++ | 过程 | 论文 | - |
| Leanabell-Prover-v2 | 过程 | 论文 | 代码 |
| 混合式 | |||
| InternLM2.5-StepProver | 混合 | 论文 | 代码 |
| Lean-STaR | 混合 | 论文 | 代码 模型 网站 |
| STP | 混合 | 论文 | 代码 模型 |
第 4.4 节 任务:GUI 智能体
| 方法 | 范式 | 环境 | 链接 | 资源 |
|---|---|---|---|---|
| 非强化学习 (RL) GUI 智能体 | ||||
| MM-Navigator | 基础视觉语言模型 (VLM) | - | 论文 | 代码 |
| SeeAct | 基础视觉语言模型 (VLM) | - | 论文 | 代码 |
| TRISHUL | 基础视觉语言模型 (VLM) | - | 论文 | - |
| InfiGUIAgent | 监督微调 (SFT) | - | 论文 | 代码 模型 网站 |
| UI-AGILE | 监督微调 (SFT) | - | 论文 | 代码 模型 |
| TongUI | 监督微调 (SFT) | - | 论文 | 代码 模型 网站 |
| 基于强化学习 (RL) 的 GUI 智能体 | ||||
| GUI-R1 | 强化学习 (RL) | 静态 | 论文 | 代码 模型 |
| UI-R1 | 强化学习 (RL) | 静态 | 论文 | 代码 模型 |
| InFiGUI-R1 | 强化学习 (RL) | 静态 | 论文 | 代码 模型 |
| AgentCPM | 强化学习 (RL) | 静态 | 论文 | 代码 模型 |
| WebAgent-R1 | 强化学习 (RL) | 交互式 | 论文 | - |
| Vattikonda et al. | 强化学习 (RL) | 交互式 | 论文 | - |
| UI-TARS | 强化学习 (RL) | 交互式 | 论文 | 代码 模型 网站 |
| DiGiRL | 强化学习 (RL) | 交互式 | 论文 | 代码 模型 网站 |
| ZeroGUI | 强化学习 (RL) | 交互式 | 论文 | 代码 |
| MobileGUI-RL | 强化学习 (RL) | 交互式 | 论文 | - |
第 4.5 节 任务:视觉智能体中的强化学习
待添加
第 4.6 节 任务:具身智能体中的强化学习
待添加
第 4.7 节 任务:多智能体系统中的强化学习
“动态”表示多智能体系统是否为任务动态的,即是否使用不同的配置(智能体数量、拓扑结构、推理深度、提示词等)处理不同的任务查询。
“训练”表示该方法是否涉及对智能体的大语言模型(LLM)主干进行训练。
| 方法 | 动态 | 训练 | 强化学习算法 | 链接 | 资源 |
|---|---|---|---|---|---|
| 无强化学习的多智能体系统(非详尽列表) | |||||
| CAMEL | ✗ | ✗ | - | Paper | Code Model |
| MetaGPT | ✗ | ✗ | - | Paper | Code |
| MAD | ✗ | ✗ | - | Paper | Code |
| MoA | ✗ | ✗ | - | Paper | Code |
| AFlow | ✗ | ✗ | - | Paper | Code |
| 基于强化学习的多智能体训练 | |||||
| GPTSwarm | ✗ | ✗ | 策略梯度 | Paper | Code Website |
| MaAS | ✓ | ✗ | 策略梯度 | Paper | Code |
| G-Designer | ✓ | ✗ | 策略梯度 | Paper | Code |
| MALT | ✗ | ✓ | DPO | Paper | - |
| MARFT | ✗ | ✓ | MARFT | Paper | Code |
| MAPoRL | ✓ | ✓ | PPO | Paper | Code |
| MLPO | ✓ | ✓ | MLPO | Paper | - |
| ReMA | ✓ | ✓ | MAMRP | Paper | Code |
| FlowReasoner | ✓ | ✓ | GRPO | Paper | Code |
| LERO | ✓ | ✓ | MLPO | Paper | - |
| CURE | ✗ | ✓ | 基于规则的强化学习 | Paper | Code Model |
| MMedAgent-RL | ✗ | ✓ | GRPO | Paper | - |
| OWL | ✓ | ✓ | DPO | Paper | Code |
第 4.8 节 任务:其他任务
待添加
第 5.1 节 环境
智能体能力由以下表示:
① 推理,② 规划,③ 工具使用,④ 记忆,⑤ 协作,⑥ 自我改进。
| 环境 / 基准测试 | 智能体能力 | 任务领域 | 模态 | 链接 | 资源 |
|---|---|---|---|---|---|
| LMRL-Gym | ①, ④ | 交互 | 文本 | 论文 | 代码 |
| ALFWorld | ②, ① | 具身,文本游戏 | 文本 | 论文 | 代码 网站 |
| TextWorld | ②, ① | 文本游戏 | 文本 | 论文 | 代码 |
| ScienceWorld | ①, ② | 具身,科学 | 文本 | 论文 | 代码 网站 |
| AgentGym | ①, ④ | 文本游戏 | 文本 | 论文 | 代码 网站 |
| Agentbench | ① | 通用 | 文本,视觉 | 论文 | 代码 |
| InternBootcamp | ① | 通用,编程,逻辑 | 文本 | 论文 | 代码 |
| LoCoMo | ④ | 交互 | 文本 | 论文 | 代码 网站 |
| MemoryAgentBench | ④ | 交互 | 文本 | 论文 | 代码 |
| WebShop | ②, ③ | 网页 | 文本 | 论文 | 代码 网站 |
| Mind2Web | ②, ③ | 网页 | 文本,视觉 | 论文 | 代码 网站 |
| WebArena | ②, ③ | 网页 | 文本 | 论文 | 代码 网站 |
| VisualwebArena | ①, ②, ③ | 网页 | 文本,视觉 | 论文 | 代码 网站 |
| AppWorld | ②, ③ | 应用 | 文本 | 论文 | 代码 网站 |
| AndroidWorld | ②, ③ | 图形界面,应用 | 文本,视觉 | 论文 | 代码 |
| OSWorld | ②, ③ | 图形界面,操作系统 | 文本,视觉 | 论文 | 代码 网站 |
| Debug-Gym | ①, ③ | 软件工程 | 文本 | 论文 | 代码 网站 |
| MLE-Dojo | ②, ① | 机器学习工程 | 文本 | 论文 | 代码 网站 |
| τ-bench | ①, ③ | 软件工程 | 文本 | 论文 | 代码 |
| TheAgentCompany | ②, ③, ⑤ | 软件工程 | 文本 | 论文 | 代码 网站 |
| MedAgentGym | ① | 科学 | 文本 | 论文 | 代码 |
| SecRepoBench | ①, ③ | 编程,安全 | 文本 | 论文 | - |
| R2E-Gym | ①, ② | 软件工程 | 文本 | 论文 | 代码 网站 |
| HumanEval | ① | 编程 | 文本 | 论文 | 代码 |
| MBPP | ① | 编程 | 文本 | 论文 | 代码 |
| BigCodeBench | ① | 编程 | 文本 | 论文 | 代码 网站 |
| LiveCodeBench | ① | 编程 | 文本 | 论文 | 代码 网站 |
| SWE-bench | ①, ③ | 软件工程 | 文本 | 论文 | 代码 网站 |
| SWE-rebench | ①, ③ | 软件工程 | 文本 | 论文 | 网站 |
| DevBench | ②, ① | 软件工程 | 文本 | 论文 | 代码 |
| ProjectEval | ②, ① | 软件工程 | 文本 | 论文 | 代码 网站 |
| DA-Code | ①, ③ | 数据科学,软件工程 | 文本 | 论文 | 代码 网站 |
| ColBench | ②, ①, ③ | 软件工程,网页开发 | 文本 | 论文 | 代码 网站 |
| NoCode-bench | ②, ① | 软件工程 | 文本 | 论文 | 代码 网站 |
| MLE-Bench | ②, ①, ③ | 机器学习工程 | 文本 | 论文 | 代码 网站 |
| PaperBench | ②, ①, ③ | 机器学习工程 | 文本 | 论文 | 代码 网站 |
| Crafter | ②, ④ | 游戏 | 视觉 | 论文 | 代码 网站 |
| Craftax | ②, ④ | 游戏 | 视觉 | 论文 | 代码 |
| ELLM (Crafter variant) | ②, ① | 游戏 | 视觉 | 论文 | 代码 网站 |
| SMAC / SMAC-Exp | ⑤, ② | 游戏 | 视觉 | 论文 | 代码 |
| Factorio | ②, ① | 游戏 | 视觉 | 论文 | 代码 网站 |
第 5.2 节 框架
| 框架 | 类型 | 关键特性 | 链接 | 资源 |
|---|---|---|---|---|
| 智能体强化学习 (RL) 框架 | ||||
| Verifiers | 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 | 可验证的环境配置 | - | 代码 |
| SkyRL-v0/v0.1 | 智能体强化学习 (RL) | 长周期现实世界训练 | 博客 (v0) 博客 (v0.1) | 代码 |
| AREAL | 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 | 异步训练 | 论文 | 代码 |
| MARTI | 多智能体强化学习 / 大语言模型 (LLM) 强化学习 | 集成多智能体训练 | - | 代码 |
| EasyR1 | 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 | 多模态支持 | - | 代码 |
| AgentFly | 智能体强化学习 (RL) | 可扩展异步执行 | 论文 | 代码 |
| Agent Lightning | 智能体强化学习 (RL) | 解耦分层强化学习 | 论文 | 代码 |
| 人类反馈强化学习 (RLHF) 与大语言模型 (LLM) 微调框架 | ||||
| OpenRLHF | 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 | 高性能可扩展人类反馈强化学习 | 论文 | 代码 |
| TRL | 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 | Hugging Face 人类反馈强化学习 | - | 代码 |
| trlX | 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 | 分布式大模型人类反馈强化学习 | 论文 | 代码 |
| HybridFlow | 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 | 简化的实验管理 | 论文 | 代码 |
| SLiMe | 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 | 高性能异步强化学习 | - | 代码 |
| 通用强化学习 (RL) 框架 | ||||
| RLlib | 通用强化学习 / 多智能体强化学习 | 生产级可扩展库 | 论文 | 代码 |
| Acme | 通用强化学习 | 模块化分布式组件 | 论文 | 代码 |
| Tianshou | 通用强化学习 | 高性能 PyTorch 平台 | 论文 | 代码 |
| Stable Baselines3 | 通用强化学习 | 可靠的 PyTorch 算法 | 论文 | 代码 |
| PFRL | 通用强化学习 | 基准测试原型算法 | 论文 | 代码 |
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。