AgentsMeetRL
AgentsMeetRL 是一个专注于“大语言模型智能体与强化学习结合”的开源项目精选清单。随着大模型在复杂任务中需要更强的自主决策能力,如何让智能体通过试错和自我进化来掌握工具使用、多轮交互及逻辑推理,成为当前技术攻关的难点。AgentsMeetRL 正是为了解决这一痛点而生,它系统性地梳理了全球范围内利用强化学习训练 LLM 智能体的优质开源代码库。
这份清单不仅涵盖了通用的强化学习训练框架(如 veRL、OpenRLHF),还细致地分类整理了涉及搜索增强、网页操作、代码工程、多智能体协作、记忆管理以及安全对齐等垂直领域的具体实现。其独特亮点在于深入剖析了各个项目所依赖的技术栈,包括具体的 RL 算法、奖励机制设计以及训练环境选择,并提供了交互式仪表盘供用户直观浏览技术细节。
AgentsMeetRL 非常适合 AI 研究人员、大模型应用开发者以及对智能体前沿技术感兴趣的技术爱好者使用。无论是希望寻找合适的基线模型进行二次开发,还是想要了解业界最新的技术选型趋势,都能在这里获得极具价值的参考指引,从而加速高质量智能体系统的构建与迭代。
使用场景
某 AI 初创团队正致力于开发一款能自主操作浏览器完成复杂数据抓取与表单填写的智能助手,急需引入强化学习(RL)来提升代理在动态网页环境中的决策能力。
没有 AgentsMeetRL 时
- 技术选型迷茫:面对 GitHub 上数百个零散的 RL 项目,团队难以快速区分哪些是专为"Web & GUI"场景设计,哪些仅适用于纯文本推理,导致大量时间浪费在无效代码阅读上。
- 架构重复造轮子:由于缺乏对现有“基础框架”(如 veRL、OpenRLHF)的系统梳理,开发人员误以为需要从头搭建训练基础设施,延误了核心算法的研发进度。
- 奖励机制设计困难:在定义代理操作浏览器的成功标准时,找不到成熟的"Reward & Training"案例参考,导致模型训练收敛缓慢且容易出现死循环。
- 安全隐患被忽视:团队专注于功能实现,却因未查阅"Safety"分类下的对抗性测试项目,导致代理在面对恶意网页弹窗时缺乏防御机制。
使用 AgentsMeetRL 后
- 精准定位资源:通过 AgentsMeetRL 的分类标签,团队直接锁定了 20 个专注于"Web & GUI"和"Tool-Use"的开源项目,半天内就完成了技术栈调研。
- 复用成熟框架:依据列表中推荐的通用 RL 训练框架,团队直接集成了经过验证的代码库,将原本需两周的基础设施搭建工作缩短至两天。
- 优化奖励模型:参考列表中"Reward & Training"类别的成功实践,团队快速设计了基于页面状态变化的稀疏奖励函数,显著提升了代理的操作成功率。
- 构建安全防线:利用 AgentsMeetRL 提供的安全对齐项目,团队为代理添加了防注入和异常拦截模块,确保其在真实网络环境中的鲁棒性。
AgentsMeetRL 将分散的强化学习智能体资源转化为结构化的技术地图,帮助开发者从“盲目摸索”转向“站在巨人肩膀上创新”。
运行环境要求
未说明
未说明

快速开始
当LLM智能体遇上强化学习
AgentsMeetRL 是一个精彩的列表,汇总了使用强化学习训练 LLM 智能体的 开源仓库:
- 🤖 判断一个项目是否为智能体项目的标准是:它必须具备以下至少一项:多轮交互或工具使用(因此,TIR 项目和工具集成推理也被纳入本仓库)。
- ⚠️ 本项目基于对使用 LLM 编码智能体的开源仓库进行的代码分析,其中可能包含不准确的情况。尽管已人工审核,但仍可能存在遗漏。如果您发现任何错误,请随时通过 issue 或 PR 告知我们——我们非常欢迎!
- 🚀 我们特别关注各个项目所依赖的强化学习框架、RL 算法、奖励机制以及环境,以便大家参考这些优秀的开源项目是如何做出技术选择的。请查看每个表格下方的 [点击查看技术细节]。
- 📅 最后更新日期:2026年3月24日
- 🤗 欢迎随时提交您自己的项目——我们非常期待您的贡献!
分类体系:
- 基础框架:用于 LLM 智能体的通用 RL 训练框架(例如 veRL、OpenRLHF、trl)
- 通用/多任务:在多个任务或环境中进行训练和评估的智能体系统
- 搜索与RAG:利用检索工具增强 LLM 推理能力的搜索增强型推理智能体
- Web与GUI:与网页浏览器、移动/桌面 GUI 或操作系统交互的智能体
- 工具使用:经过训练以调用外部工具(API、代码执行器、MCP 等)的智能体
- 代码与SWE:软件工程和代码生成智能体
- 推理:具备工具集成或多轮推理能力的智能体(数学、问答、视觉等)
- 多智能体RL:通过强化学习实现的多智能体协作、谈判或信用分配
- 记忆:能够学习管理、检索或演化记忆的智能体
- 具身:在具身化/物理仿真环境中运行的智能体
- 领域特定:针对特定领域的 RL 智能体(如医疗、操作系统调优等)
- 奖励与训练:用于智能体的进程/结果奖励模型及训练方法
- 安全:用于智能体安全对齐、对抗性红队测试以及防越狱/攻防的强化学习
- VLM智能体:通过强化学习训练的视觉-语言模型智能体,用于多模态交互
- 自我进化:通过 RL 反馈循环实现自我进化的智能体(⚠️ 此定义仍在社区中不断发展)
- 环境:用于智能体训练/评估的基准、模拟环境和沙盒环境
部分枚举:
- 奖励类型枚举:
- 外部验证器:例如编译器或数学求解器
- 基于规则:例如具有精确匹配评分的 LaTeX 解析器
- 基于模型:例如经过训练的验证 LLM 或奖励 LLM
- 自定义
更新
- 📢 2026年3月更新:将分类体系由12类重组为16类。新增约70个仓库,涵盖2025年9月至2026年3月期间的内容。新增类别包括多智能体RL、奖励与训练、安全、VLM智能体、自我进化以及领域特定。原GUI和Web合并为Web与GUI,TextGame和Biomedical作为独立类别已被取消。总仓库数量从约134个增加到205个。
🔧 基础框架
| GitHub 仓库 | 🌟 星数 | 日期 | 组织 | 论文链接 |
|---|---|---|---|---|
| Open-AgentRL | 2026.2 | Gen-Verse | 论文 | |
| OpenClaw-RL | 2026.3 | Gen-Verse | 论文 | |
| Claw-R1 | 2026.3 | 中国科学技术大学 | -- | |
| prime-rl | 2025.2 | Prime Intellect | -- | |
| NeMo-RL | 2026.1 | 英伟达 | -- | |
| RLinf | 2025.8 | 清华大学/Infinigence AI/北京大学 | 论文 | |
| siiRL | 2025.7 | 上海创新研究院 | 论文 | |
| slime | 2025.6 | 清华大学 (THUDM) | 博客 | |
| agent-lightning | 2025.6 | 微软研究院 | 论文 | |
| AReaL | 2025.6 | 蚂蚁集团/清华大学 | 论文 | |
| ROLL | 2025.6 | 阿里巴巴 | 论文 | |
| MARTI | 2025.5 | 清华大学 | -- | |
| RL2 | 2025.4 | Accio | – | |
| verifiers | 2025.3 | 个人 | -- | |
| oat | 2024.11 | 新加坡国立大学/Sea AI | 论文 | |
| veRL | 2024.10 | 字节跳动 | 论文 | |
| OpenRLHF | 2023.7 | OpenRLHF | 论文 | |
| trl | 2019.11 | HuggingFace | -- |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| Open-AgentRL | GRPO-TCR | 单智能体 | 两者均有 | 多轮 | 推理/GUI/编码 | 模型(PRM) | 是(SandboxFusion) |
| OpenClaw-RL | GRPO/OPD | 单/多智能体 | 两者均有 | 多轮 | 终端/GUI/SWE/工具调用 | 模型/外部 | 是 |
| Claw-R1 | 通用强化学习框架 | 多智能体 | 两者均有 | 多轮 | 通用智能体 | 全部 | 是(与框架无关) |
| prime-rl | GRPO/PPO | 多智能体 | 结果奖励 | 多轮 | 数学/代码/搜索 | 模型/外部 | 是 |
| NeMo-RL | GRPO/DAPO/GDPO/DPO | 单智能体 | 结果奖励 | 多轮 | 数学/推理/代码 | 规则/外部 | 否 |
| RLinf | PPO/GRPO/DAPO/SAC/REINFORCE++/CrossQ/RLPD | 单/多智能体 | 两者均有 | 多轮 | 机器人技术/数学/代码/QA/VQA | 全部(规则/模型/外部) | 是 |
| siiRL | PPO/GRPO/CPGD/MARFT | 多智能体 | 两者均有 | 多轮 | LLM/VLM/LLM-MAS 后训练 | 模型/规则 | 计划中 |
| slime | GRPO/GSPO/REINFORCE++ | 单智能体 | 两者均有 | 双向 | 数学/代码 | 外部验证器 | 是 |
| agent-lightning | PPO/自定义/自动提示优化 | 多智能体 | 结果奖励 | 多轮 | 计算器/SQL | 模型/外部/规则 | 是 |
| AReaL | PPO | 单/多智能体 | 结果奖励 | 双向 | 数学/代码 | 外部 | 是 |
| ROLL | PPO/GRPO/Reinforce++/TOPR/RAFT++ | 多智能体 | 两者均有 | 多轮 | 数学/QA/代码/对齐 | 全部 | 是 |
| MARTI | PPO/GRPO/REINFORCE++/TTRL | 多智能体 | 两者均有 | 多轮 | 数学 | 全部 | 是 |
| RL2 | Dr. GRPO/PPO/DPO | 单智能体 | 两者均有 | 双向 | QA/对话 | 规则/模型/外部 | 是 |
| verifiers | GRPO | 多智能体 | 结果奖励 | 双向 | 推理/数学/代码 | 全部 | 代码 |
| oat | PPO/GRPO | 单智能体 | 结果奖励 | 多轮 | 数学/对齐 | 外部 | 否 |
| veRL | PPO/GRPO | 单智能体 | 结果奖励 | 双向 | 数学/QA/推理/搜索 | 全部 | 是 |
| OpenRLHF | PPO/REINFORCE++/GRPO/DPO/IPO/KTO/RLOO | 多智能体 | 两者均有 | 双向 | 对话/聊天/补全 | 规则/模型/外部 | 是 |
| trl | PPO/GRPO/DPO | 单智能体 | 两者均有 | 单轮 | QA | 自定义 | 否 |
💪 通用/多任务
| GitHub 仓库 | 🌟 星数 | 发布日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| MetaClaw | 2026.3 | 北卡罗来纳大学教堂山分校(AIMING 实验室) | 论文 | 自定义 | |
| SkillRL | 2026.2 | 北卡罗来纳大学教堂山分校(AIMING 实验室) | 论文 | 自定义 | |
| LLM-in-Sandbox | 2026.1 | 中国人民大学/微软亚洲研究院/清华大学 | 论文 | rllm(结合 veRL) | |
| youtu-agent | 2025.12 | 腾讯优图实验室 | 论文 | 自定义 | |
| DEPO | 2025.11 | 香港科技大学/上海交通大学 | 论文 | LLaMA-Factory | |
| SPEAR | 2025.10 | 腾讯优图实验室 | 论文 | veRL/verl-agent | |
| DeepAgent | 2025.10 | 中国人民大学/小红书 | 论文 | 自定义 | |
| AgentRL | 2025.9 | 清华大学 | 论文 | veRL | |
| AgentGym-RL | 2025.9 | 复旦大学 | 论文 | veRL | |
| Agent_Foundation_Models | 2025.8 | OPPO 个人 AI 实验室 | 论文 | veRL | |
| Trinity-RFT | 2025.5 | 阿里巴巴 | 论文 | veRL | |
| SPA-RL-Agent | 2025.5 | 香港理工大学 | 论文 | TRL | |
| verl-agent | 2025.5 | 新加坡南洋理工大学/Skywork | 论文 | veRL | |
| VAGEN | 2025.3 | RAGEN-AI | 论文 | veRL | |
| ART | 2025.3 | OpenPipe | 论文 | TRL | |
| OpenManus-RL | 2025.3 | 伊利诺伊大学厄巴纳-香槟分校/MetaGPT | —— | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| MetaClaw | GRPO (LoRA) | 单智能体 | 过程奖励 | 多轮 | 通用代理任务 | 模型(PRM)奖励 | 是(技能增强) |
| SkillRL | GRPO | 单智能体 | 结果奖励 | 多轮 | ALFWorld/WebShop/搜索 | 规则奖励 | 是(网页搜索、动作) |
| LLM-in-Sandbox | GRPO++ | 单智能体 | 结果奖励 | 多轮 | 数学/物理/化学/生物医学/长上下文/IF/SWE | 规则奖励 | 是(代码沙箱,含终端、文件、互联网) |
| youtu-agent | 无训练 GRPO | 单智能体 | 结果奖励 | 多轮 | 深度研究/数据分析/工具使用 | 模型/外部奖励 | 是(网页搜索、代码、文件) |
| DEPO | KTO + 效率损失 | 单智能体 | 结果与过程奖励 | 多轮 | BabyAI/WebShop 等代理任务 | 规则奖励 | 是 |
| SPEAR | GRPO/GiGPO + SIL | 单智能体 | 结果与过程奖励 | 多轮 | 数学/代理任务 | 规则/外部奖励 | 是(搜索、沙箱、浏览器) |
| DeepAgent | ToolPO | 单智能体 | 结果奖励 | 多轮 | ToolBench/ALFWorld/WebShop/GAIA/HLE | 模型奖励 | 是(16,000+ RapidAPIs) |
| AgentRL | GRPO/REINFORCE++/RLOO/ReMax/GAE | 单智能体 | 结果奖励 | 多轮 | 代理任务 | 外部奖励 | 是 |
| AgentGym-RL | PPO/GRPO/RLOO/REINFORCE++ | 单智能体 | 结果奖励 | 多轮 | 网页/搜索/游戏/具身智能/科学 | 规则/模型/外部奖励 | 是(网页、搜索、环境 API) |
| Agent_Foundation_Models | DAPO/PPO | 单智能体 | 结果奖励 | 单轮 | QA/代码/数学 | 规则/外部奖励 | 是 |
| Trinity-RFT | PPO/GRPO | 单智能体 | 结果奖励 | 结果与过程奖励 | 数学/文本游戏/网页 | 所有奖励类型 | 是 |
| SPA-RL-Agent | PPO | 单智能体 | 过程奖励 | 多轮 | 导航/网页/文本游戏 | 模型奖励 | 否 |
| verl-agent | PPO/GRPO/GiGPO/DAPO/RLOO/REINFORCE++ | 多智能体 | 结果与过程奖励 | 多轮 | 手机使用/数学/代码/网页/文本游戏 | 所有奖励类型 | 是 |
| VAGEN | PPO/GRPO | 单智能体 | 结果与过程奖励 | 多轮 | 文本游戏/导航 | 所有奖励类型 | 是 |
| ART | GRPO | 多智能体 | 结果与过程奖励 | 多轮 | 文本游戏 | 所有奖励类型 | 是 |
| OpenManus-RL | PPO/DPO/GRPO | 多智能体 | 结果奖励 | 多轮 | 文本游戏 | 所有奖励类型 | 是 |
🔍 搜索与 RAG 代理
| GitHub 仓库 | 🌟 星数 | 发布日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| ProRAG | 2026.1 | 人大 | 论文 | 自定义 | |
| MemSearcher | 2025.11 | 中科院 | 论文 | 自定义 | |
| ReSeek | 2025.10 | 腾讯PCG BAC/清华大学 | 论文 | veRL | |
| AutoGraph-R1 | 2025.10 | 香港科技大学KnowComp | 论文 | 自定义 | |
| Tree-GRPO | 2025.9 | 高德地图 | 论文 | veRL | |
| ASearcher | 2025.8 | 蚂蚁集团研究强化学习实验室 清华大学 & UW |
论文 | RealHF/AReaL | |
| Graph-R1 | 2025.7 | 北邮/NTU/NUS | 论文 | veRL | |
| Kimi-Researcher | 2025.6 | Moonshot AI | 博客 | 自定义 | |
| R-Search | 2025.6 | 个人 | -- | veRL | |
| R1-Searcher-plus | 2025.5 | 人大 | 论文 | 自定义 | |
| StepSearch | 2025.5 | 商汤科技 | 论文 | veRL | |
| AutoRefine | 2025.5 | 中国科学技术大学 | 论文 | veRL | |
| ZeroSearch | 2025.5 | 阿里巴巴 | 论文 | veRL | |
| ReasonRAG | 2025.5 | 香港城市大学 / 华为 | 论文 | 自定义 | |
| Agentic-RAG-R1 | 2025.12 | 北京大学 | -- | 自定义 | |
| WebThinker | 2025.4 | 人大 | 论文 | 自定义 | |
| DeepResearcher | 2025.4 | 上海交通大学 | 论文 | veRL | |
| Search-R1 | 2025.3 | UIUC/Google | 论文1, 论文2 | veRL | |
| R1-Searcher | 2025.3 | 人大 | 论文 | OpenRLHF | |
| C-3PO | 2025.2 | 阿里巴巴 | 论文 | OpenRLHF | |
| DeepRetrieval | 2025.2 | UIUC | 论文 | veRL | |
| SSRL | 2025.8 | 清华大学 | 论文 | 自定义 | |
| Research-Venus | 2025.8 | 蚂蚁集团 | 论文 | 自定义 | |
| DeepResearch | 2025.9 | 阿里巴巴/通义实验室 | 论文 | 自定义 | |
| DeepDive | 2025.9 | 清华大学/THUDM | 论文 | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| ProRAG | GRPO + DGA(双粒度优势) | 单 | 两者 | 多 | 多跳 RAG | 模型(通过 MCTS 的 PRM) | 是(检索) |
| MemSearcher | 多上下文 GRPO | 单 | 结果 | 多 | 搜索/QA + 记忆 | 规则/模型 | 是(网络搜索 + 记忆) |
| ReSeek | GRPO/PPO | 单 | 两者 | 多 | QA/搜索 | 规则 | 搜索/JUDGE |
| AutoGraph-R1 | GRPO(通过 VeRL) | 单 | 结果 | 多 | 面向 QA 的知识图谱构建 | 规则 | 是(图谱检索) |
| Tree-GRPO | GRPO/Tree-GRPO | 单 | 结果 | 多 | 搜索 | 规则 | 搜索 |
| ASearcher | PPO/GRPO + 解耦 PPO | 单 | 结果 | 多 | 数学/代码/搜索问答 | 外部/规则 | 是 |
| Graph-R1 | GRPO/REINFORCE++/PPO | 单 | 结果 | 多 | 知识图谱问答 | 规则(EM/F1) | 是(图谱检索) |
| Kimi-Researcher | REINFORCE | 单 | 结果 | 多 | 研究 | 结果 | 搜索、浏览、编码 |
| R-Search | PPO/GRPO | 单 | 两者 | 多 | QA/搜索 | 全部 | 是 |
| R1-Searcher-plus | 自定义 | 单 | 结果 | 多 | 搜索 | 模型 | 搜索 |
| StepSearch | PPO | 单 | 迁移 | 多 | QA | 模型 | 搜索 |
| AutoRefine | PPO/GRPO | 多 | 两者 | 多 | RAG QA | 规则 | 搜索 |
| ZeroSearch | PPO/GRPO/REINFORCE | 单 | 结果 | 多 | QA/搜索 | 规则 | 是 |
| ReasonRAG | DPO + 基于 MCTS 的 PRM | 单 | 过程 | 多 | 多跳 QA | 模型(PRM) | 是(维基百科搜索) |
| Agentic-RAG-R1 | GRPO | 单 | 结果 | 多 | 知识密集型 QA | 规则/模型 | 是(维基百科/文档搜索) |
| WebThinker | DPO | 单 | 结果 | 多 | 推理/QA/研究 | 模型/外部 | 网络浏览 |
| DeepResearcher | PPO/GRPO | 多 | 结果 | 多 | 研究 | 全部 | 是 |
| Search-R1 | PPO/GRPO | 单 | 结果 | 多 | 搜索 | 全部 | 搜索 |
| R1-Searcher | PPO/DPO | 单 | 两者 | 多 | 搜索 | 全部 | 是 |
| C-3PO | PPO | 多 | 结果 | 多 | 搜索 | 模型 | 是 |
| DeepRetrieval | GRPO | 单 | 结果 | 多 | 查询生成/信息检索 | 规则 | 是(搜索) |
| SSRL | GRPO | 单 | 结果 | 多 | 自我搜索 | 规则 | 是(自我搜索) |
| Research-Venus | GRPO | 单 | 两者 | 多 | 深度研究 | 模型(原子思维) | 是(搜索) |
| DeepResearch | 基于强化学习 | 单 | 结果 | 多 | 深度研究 | 模型 | 是(搜索、浏览) |
| DeepDive | GRPO | 单 | 结果 | 多 | 知识图谱增强的搜索 | 规则 | 是(知识图谱 + 搜索) |
🌐 网络与 GUI 代理
| GitHub 仓库 | 🌟 星数 | 日期 | 组织 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| MobileAgent | 2025.9 | X-PLUG (通义千问) | paper | veRL | |
| InfiGUI-G1 | 2025.8 | InfiX AI | Paper | veRL | |
| UI-AGILE | 2025.7 | 厦门大学 | Paper | 自定义 | |
| gui-rcpo | 2025.8 | 浙江大学 | Paper | 自定义 | |
| Grounding-R1 | 2025.6 | Salesforce | blog | trl | |
| AgentCPM-GUI | 2025.6 | OpenBMB/清华大学/中国人民大学 | Paper | Huggingface | |
| TTI | 2025.6 | 卡内基梅隆大学 | Paper | 自定义 | |
| SE-GUI | 2025.5 | 南开大学/vivo | Paper | trl | |
| ARPO | 2025.5 | 香港中文大学/香港科技大学 | Paper | veRL | |
| GUI-G1 | 2025.5 | 中国人民大学 | Paper | TRL | |
| WebAgent-R1 | 2025.5 | 亚马逊/弗吉尼亚大学 | Paper | 自定义 | |
| GUI-R1 | 2025.4 | 中国科学院/NUS | Paper | veRL | |
| UI-R1 | 2025.3 | vivo/香港中文大学 | Paper | TRL | |
| CollabUIAgents | 2025.2 | 清华大学/阿里巴巴/香港科技大学 | Paper | 自定义 | |
| WebAgent | 2025.1 | 阿里巴巴 | paper1, paper2 | LLaMA-Factory | |
| UI-TARS | 2025.9 | 字节跳动 Seed | Paper | 自定义 | |
| DigiQ | 2025.2 | 加州大学伯克利分校/卡内基梅隆大学/亚马逊 | Paper | 自定义 | |
| ZeroGUI | 2025.5 | 上海人工智能实验室 | Paper | 自定义 | |
| InfiGUI-R1 | 2025.4 | 浙江大学 | Paper | 自定义 | |
| GUI-Agent-RL | 2025.2 | 微软 | Paper | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| MobileAgent | 半在线强化学习 | 单智能体 | 同时使用 | 多轮 | 移动 GUI/自动化 | 规则 | 是 |
| InfiGUI-G1 | AEPO | 单智能体 | 结果奖励 | 单轮 | GUI/接地 | 规则 | 否 |
| UI-AGILE | GRPO | 单智能体 | 结果奖励 | 单轮 | GUI 接地 | 规则(连续) | 否 |
| gui-rcpo | RCPO | 单智能体 | 结果奖励 | 单轮 | GUI 接地 | 规则(自监督) | 否 |
| Grounding-R1 | GRPO | 单智能体 | 结果奖励 | 多轮 | GUI 接地 | 模型 | 是 |
| AgentCPM-GUI | GRPO | 单智能体 | 结果奖励 | 多轮 | 移动 GUI | 模型 | 是 |
| TTI | REINFORCE/BC | 单智能体 | 结果奖励 | 多轮 | 网页 | 外部工具 | 网页浏览 |
| SE-GUI | GRPO | 单智能体 | 同时使用 | 单轮 | GUI 接地 | 规则 | 是 |
| ARPO | GRPO | 单智能体 | 结果奖励 | 多轮 | GUI | 外部工具 | 计算机操作 |
| GUI-G1 | GRPO | 单智能体 | 结果奖励 | 单轮 | GUI | 规则/外部工具 | 否 |
| WebAgent-R1 | M-GRPO | 单智能体 | 结果奖励 | 多轮 | 网页导航(WebArena-Lite) | 规则(任务成功) | 是(网页浏览) |
| GUI-R1 | GRPO | 单智能体 | 结果奖励 | 多轮 | GUI | 规则 | 否 |
| UI-R1 | GRPO | 单智能体 | 过程奖励和结果奖励 | 同时使用 | GUI | 规则 | 计算机/手机使用 |
| CollabUIAgents | DPO(信用再分配) | 多智能体 | 过程奖励 | 多轮 | GUI(移动 + 网页) | 模型(LLM) | 是(GUI 交互) |
| WebAgent | DAPO | 多智能体 | 过程奖励 | 多轮 | 网页 | 模型 | 是 |
| UI-TARS | 多轮强化学习 | 单智能体 | 同时使用 | 多轮 | GUI(跨平台) | 模型 | 是(GUI 操作) |
| DigiQ | 基于价值的离线强化学习 | 单智能体 | 结果奖励 | 多轮 | 安卓设备控制 | 模型(Q 函数) | 是 |
| ZeroGUI | 在线强化学习 | 单智能体 | 结果奖励 | 多轮 | GUI 智能体 | 规则 | 是(GUI 操作) |
| InfiGUI-R1 | 强化学习 + 子目标引导 | 单智能体 | 同时使用 | 多轮 | GUI 推理 | 规则 | 是 |
| GUI-Agent-RL | 基于价值的强化学习(VEM) | 单智能体 | 结果奖励 | 多轮 | GUI(网上购物) | 模型 | 是 |
🔨 工具使用智能体
| GitHub 仓库 | 🌟 星数 | 发布日期 | 组织 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| MATPO | 2025.10 | MiroMind AI | 论文 | 自定义 | |
| MiroRL | 2025.8 | MiroMindAI | HF 仓库 | veRL | |
| verl-tool | 2025.6 | TIGER-Lab | X | veRL | |
| Multi-Turn-RL-Agent | 2025.5 | 明尼苏达大学 | 论文 | 自定义 | |
| Tool-N1 | 2025.5 | NVIDIA | 论文 | veRL | |
| Tool-Star | 2025.5 | 人大 | 论文 | LLaMA-Factory | |
| RL-Factory | 2025.5 | Simple-Efficient | 模型 | veRL | |
| ReTool | 2025.4 | 字节跳动 | 论文 | veRL | |
| AWorld | 2025.3 | 蚂蚁集团 (inclusionAI) | 论文 | veRL | |
| Agent-R1 | 2025.3 | 中国科学技术大学 | 论文 | veRL | |
| ReCall | 2025.3 | 百川 | 论文 | veRL | |
| ToolRL | 2025.4 | UIUC | 论文 | veRL |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多回合 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| MATPO | GRPO (多智能体) | 多 | 结果 | 多 | 工具使用/搜索 | 规则 | 是(MCP:Serper,网页抓取) |
| MiroRL | GRPO | 单 | 两者 | 多 | 推理/规划/工具使用 | 基于规则 | MCP |
| verl-tool | PPO/GRPO | 单 | 两者 | 两者 | 数学/代码 | 规则/外部 | 是 |
| Multi-Turn-RL-Agent | GRPO | 单 | 两者 | 多 | 工具使用/数学 | 规则/外部 | 是 |
| Tool-N1 | PPO | 单 | 结果 | 多 | 数学/对话 | 全部 | 是 |
| Tool-Star | PPO/DPO/ORPO/SimPO/KTO | 单 | 结果 | 多 | 多模态/工具使用/对话 | 模型/外部 | 是 |
| RL-Factory | GRPO | 多 | 两者 | 多 | 工具使用/NL2SQL | 全部 | MCP |
| ReTool | PPO | 单 | 结果 | 多 | 数学 | 外部 | 代码 |
| AWorld | GRPO | 两者 | 结果 | 多 | 搜索/网络/代码 | 外部/规则 | 是 |
| Agent-R1 | PPO/GRPO | 单 | 两者 | 多 | 工具使用/QA | 模型 | 是 |
| ReCall | PPO/GRPO/RLOO/REINFORCE++/ReMax | 单 | 结果 | 多 | 工具使用/数学/QA | 全部 | 是 |
| ToolRL | GRPO/PPO | 单 | 结果 | 多 | 工具学习 | 规则/外部 | 是 |
💻 代码与软件工程智能体
| GitHub 仓库 | 🌟 星数 | 发布日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| CUDA-Agent | 2026.2 | 字节跳动/清华大学 | 论文 | 自定义 | |
| LLM-in-Sandbox | 2026.1 | 人大/MSRA/清华 | 论文 | rllm (w/ veRL) | |
| PPP-Agent | 2025.11 | 卡内基梅隆大学/OpenHands | 论文 | veRL | |
| RepoDeepSearch | 2025.8 | 北大、字节跳动、北理工 | 论文 | veRL | |
| CUDA-L1 | 2025.7 | DeepReinforce AI | 论文 | 自定义 | |
| MedAgentGym | 2025.6 | 埃默里大学/佐治亚理工学院 | 论文 | Hugginface | |
| CURE | 2025.6 | 芝加哥大学 普林斯顿大学/字节跳动 |
论文 | Huggingface | |
| Time-R1 | 2025.5 | UIUC | 论文 | veRL | |
| ML-Agent | 2025.5 | MASWorks | 论文 | 自定义 | |
| SkyRL | 2025.4 | NovaSky | 论文 | veRL | |
| digitalhuman | 2025.4 | 腾讯 | 论文 | veRL | |
| sweet_rl | 2025.3 | Meta/UCB | 论文 | OpenRLHF | |
| swe-rl | 2025.2 | Meta/UIUC/CMU | 论文 | 自定义 | |
| rllm | 2025.1 | 伯克利天空计算实验室 BAIR / Together AI |
Notion 博客 | veRL | |
| open-r1 | 2025.1 | HuggingFace | -- | TRL | |
| R1-Code-Interpreter | 2025.5 | MIT | 论文 | 自定义 | |
| CTRL | 2025.2 | 香港大学/字节跳动 | 论文 | 自定义 | |
| DeepAnalyze | 2025.10 | 人大/清华 | 论文 | 自定义 | |
| AceCoder | 2025.2 | 渥太华大学 (TIGER-Lab) | 论文 | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| CUDA-Agent | 智能体强化学习(分阶段) | 单智能体 | 结果奖励 | 多轮 | CUDA 核函数生成 | 规则奖励(正确性 + 性能) | 是(编译/验证/性能分析) |
| LLM-in-Sandbox | GRPO++ | 单智能体 | 结果奖励 | 多轮 | 编码/SWE + 通用任务(数学/科学/生物) | 规则奖励 | 是(带终端、文件和互联网的代码沙箱) |
| PPP-Agent | PPP-RL | 单智能体 | 结果和过程奖励 | 多轮 | SWE/科研 | 规则+模型奖励 | 搜索、提问、浏览 |
| RepoDeepSearch | GRPO | 单智能体 | 结果和过程奖励 | 多轮 | 搜索/修复 | 规则/外部奖励 | 是 |
| CUDA-L1 | 对比强化学习 | 单智能体 | 结果奖励 | 单轮 | CUDA 优化 | 规则奖励(性能) | 否 |
| MedAgentGym | SFT/DPO/PPO/GRPO | 单智能体 | 结果奖励 | 多轮 | 医疗/编码 | 外部奖励 | 是 |
| CURE | PPO | 单智能体 | 结果奖励 | 单轮 | 编码 | 外部奖励 | 否 |
| Time-R1 | PPO/GRPO/DPO | 多智能体 | 结果奖励 | 多轮 | 时序相关任务 | 全部 | 代码 |
| ML-Agent | 自定义 | 单智能体 | 迁移奖励 | 多轮 | 编码 | 全部 | 是 |
| SkyRL | PPO/GRPO | 单智能体 | 结果奖励 | 多轮 | 数学/编码 | 全部 | 代码 |
| digitalhuman | PPO/GRPO/ReMax/RLOO | 多智能体 | 结果奖励 | 多轮 | 同理心/数学/编码/多模态问答 | 规则/模型/外部奖励 | 是 |
| sweet_rl | DPO | 多智能体 | 过程奖励 | 多轮 | 设计/编码 | 模型奖励 | 网页浏览 |
| swe-rl | 基于强化学习 | 单智能体 | 结果奖励 | 单轮 | SWE(SWE-bench) | 规则奖励(相似性) | 否 |
| rllm | PPO/GRPO | 单智能体 | 结果奖励 | 多轮 | 代码编辑 | 外部奖励 | 是 |
| open-r1 | GRPO | 单智能体 | 结果奖励 | 单轮 | 数学/编码 | 全部 | 是 |
| R1-Code-Interpreter | GRPO | 单智能体 | 结果奖励 | 多轮 | 代码解释 | 规则/外部奖励 | 是(代码执行) |
| CTRL | 强化学习(批评-修正) | 单智能体 | 过程奖励 | 多轮 | 代码优化 | 模型奖励 | 是(代码执行) |
| DeepAnalyze | 课程制强化学习 | 单智能体 | 结果奖励 | 多轮 | 数据科学 | 规则/外部奖励 | 是(代码执行) |
| AceCoder | GRPO | 单智能体 | 结果奖励 | 单轮 | 代码生成 | 外部奖励(测试用例) | 是 |
🤔 推理智能体
| GitHub 仓库 | 🌟 星数 | 发布日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| Agent0 | 2025.10 | 北卡罗来纳大学教堂山分校 / Salesforce Research / 斯坦福大学 | 论文 | veRL | |
| KG-R1 | 2025.9 | 伊利诺伊大学厄巴纳-香槟分校/谷歌 | 论文1, 论文2 | veRL | |
| AgentFlow | 2025.09 | 斯坦福大学 | arXiv | veRL | |
| ARPO | 2025.7 | 中国人民大学、快手 | 论文 | veRL | |
| terminal-bench-rl | 2025.7 | 个人(Danau5tin) | 无 | rLLM | |
| MOTIF | 2025.6 | 马里兰大学 | 论文 | trl | |
| cmriat/l0 | 2025.6 | CMRIAT | 论文 | veRL | |
| agent-distillation | 2025.5 | KAIST | 论文 | 自定义 | |
| EasyR1 | 2025.4 | 个人 | repo1/paper2 | veRL | |
| AutoCoA | 2025.3 | 北京交通大学 | 论文 | veRL | |
| ToRL | 2025.3 | 上海交通大学 | 论文 | veRL | |
| ReMA | 2025.3 | 上海交通大学、伦敦大学学院 | 论文 | veRL | |
| Agentic-Reasoning | 2025.2 | 牛津大学 | 论文 | 自定义 | |
| SimpleTIR | 2025.2 | 新加坡国立大学、字节跳动 | Notion 博客 | veRL | |
| openrlhf_async_pipline | 2024.5 | OpenRLHF | 论文 | OpenRLHF |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| Agent0 | ADPO | 多智能体 | 过程奖励 | 多轮 | 数学/视觉 | 模型/验证器 | 是 |
| KG-R1 | GRPO/PPO | 单智能体 | 双重奖励 | 多轮 | 知识图谱问答 | 规则/模型 | 知识图谱检索 |
| AgentFlow | Flow-GRPO | 单智能体 | 结果奖励 | 多轮 | 搜索/数学/问答 | 模型/外部工具 | 是 |
| ARPO | GRPO | 单智能体 | 结果奖励 | 多轮 | 数学/编程 | 模型/规则 | 是 |
| terminal-bench-rl | GRPO | 单智能体 | 结果奖励 | 多轮 | 编程/终端 | 模型+外部验证器 | 是 |
| MOTIF | GRPO | 单智能体 | 结果奖励 | 多轮 | 问答 | 规则 | 否 |
| cmriat/l0 | PPO | 多智能体 | 过程奖励 | 多轮 | 问答 | 全部 | 是 |
| agent-distillation | PPO | 单智能体 | 过程奖励 | 多轮 | 问答/数学 | 外部工具 | 是 |
| EasyR1 | GRPO | 单智能体 | 过程奖励 | 多轮 | 视觉-语言 | 模型 | 是 |
| AutoCoA | GRPO | 多智能体 | 结果奖励 | 多轮 | 推理/数学/问答 | 全部 | 是 |
| ToRL | GRPO | 单智能体 | 结果奖励 | 单轮 | 数学 | 规则/外部工具 | 是 |
| ReMA | PPO | 多智能体 | 结果奖励 | 多轮 | 数学 | 规则 | 否 |
| Agentic-Reasoning | 自定义 | 单智能体 | 过程奖励 | 多轮 | 问答/数学 | 外部工具 | 网页浏览 |
| SimpleTIR | PPO/GRPO(带扩展) | 单智能体 | 结果奖励 | 多轮 | 数学、编程 | 全部 | 是 |
| openrlhf_async_pipline | PPO/REINFORCE++/DPO/RLOO | 单智能体 | 结果奖励 | 多轮 | 对话/推理/问答 | 全部 | 否 |
👥 多智能体强化学习
| GitHub 仓库 | 🌟 星数 | 日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| PettingLLMs | 2025.10 | Intel / UCSD | 论文 | 自定义 | |
| MASPRM | 2025.10 | UBC / Huawei | 论文 | 自定义 | |
| ARIA | 2025.6 | 复旦大学 | 论文 | 自定义 | |
| AMPO | 2025.5 | 阿里巴巴通义实验室 | 论文 | veRL | |
| MAPoRL | 2025.8 | 学术界 | —— | 自定义 | |
| FlowReasoner | 2025.4 | 海 AI 实验室 / 新加坡国立大学 | 论文 | 自定义 | |
| DrMAS | 2026.2 | 南洋理工大学 | 论文 | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多回合 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| PettingLLMs | AT-GRPO | 多 | 两者 | 多 | 游戏/代码/数学/规划 | 规则(可验证) | 否 |
| MASPRM | PRM(由 MCTS 滚出训练) | 多 | 过程 | 多 | 推理(GSM8K/MATH/MMLU) | 学习型 PRM | 否 |
| ARIA | REINFORCE | 两者 | 过程 | 多 | 谈判/讨价还价 | 其他 | 否 |
| AMPO | BC/AMPO(GRPO 改进) | 多 | 结果 | 多 | 社交互动 | 基于模型 | 否 |
| MAPoRL | PPO | 多 | 结果 | 多 | LLM 协作任务 | 规则 | 否 |
| FlowReasoner | GRPO | 多 | 结果 | 多 | 多智能体工作流设计 | 规则 | 是 |
| DrMAS | GRPO(按智能体) | 多 | 结果 | 多 | 多智能体 LLM 系统 | 规则 | 否 |
🧠 记忆
| GitHub 仓库 | 🌟 星数 | 日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| MEM1 | 2025.7 | MIT | 论文 | veRL(基于 Search-R1) | |
| Memento | 2025.6 | UCL、华为 | 论文 | 自定义 | |
| MemAgent | 2025.6 | 字节跳动、清华 SIA | 论文 | veRL |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多回合 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| MEM1 | PPO/GRPO | 单 | 结果 | 多 | 网店/GSM8K/QA | 规则/模型 | 是 |
| Memento | 软 Q-Learning | 单 | 结果 | 多 | 研究/QA/代码/网络 | 外部/规则 | 是 |
| MemAgent | PPO、GRPO、DPO | 多 | 结果 | 多 | 长上下文 QA | 规则/模型/外部 | 是 |
🦾 具身
| GitHub 仓库 | 🌟 星数 | 日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| Embodied-R1 | 2025.6 | 天津大学 | 论文 | veRL | |
| STeCa | 2025.2 | 香港理工大学 | 论文 | FastChat/TRL |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多回合 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| Embodied-R1 | GRPO | 单 | 结果 | 单 | 定位/航点 | 规则 | 否 |
| STeCa | DPO(RFT) | 单 | 两者 | 多 | 具身/家务 | 规则/MC | 环境动作 |
🏷️ 领域专用
| GitHub 仓库 | 🌟 星数 | 日期 | 机构 | 论文链接 | 强化学习框架 | 领域 |
|---|---|---|---|---|---|---|
| MedSAM-Agent | 2026.2 | 香港中文大学/腾讯 | 论文 | 自定义 | 医疗 | |
| OS-R1 | 2025.8 | 中国科学院计算技术研究所 | 论文 | 自定义 | 操作系统/系统 | |
| MMedAgent-RL | 2025.8 | 未知 | 论文 | 未知 | 医疗 | |
| DoctorAgent-RL | 2025.5 | 中国科学院大学/中国科学院/中国科学技术大学 | 论文 | RAGEN | 医疗 | |
| Biomni | 2025.3 | 斯坦福大学(SNAP) | 论文 | 自定义 | 生物医学 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| MedSAM-Agent | GRPO(通过 veRL) | 单 | 两者 | 多 | 医学图像分割 | 模型(临床保真度) | 是(SAM/MedSAM2) |
| OS-R1 | GRPO(通过 veRL) | 单 | 结果 | 多 | Linux 内核调优 | 规则 | 是(LightRAG、内核配置) |
| MMedAgent-RL | 未知 | 多 | 未知 | 未知 | 未知 | 未知 | 未知 |
| DoctorAgent-RL | GRPO | 多 | 两者 | 多 | 问诊/诊断 | 模型/规则 | 否 |
| Biomni | 待定 | 单 | 待定 | 单 | scRNAseq/CRISPR/ADMET/知识 | 待定 | 是 |
🎯 奖励与训练方法
| GitHub 仓库 | 🌟 星数 | 日期 | 机构 | 论文链接 | 重点 |
|---|---|---|---|---|---|
| ToolPRMBench | 2026.1 | 亚利桑那州立大学 | 论文 | 工具使用 PRM 基准测试 | |
| RLVR-World | 2025.5 | 清华大学机器学习组 | 论文 | 用于世界模型的 RLVR | |
| AgentPRM | 2025.2 | 康奈尔大学 | 论文 | 针对智能体的过程奖励 | |
| Agentic-Reward-Modeling | 2025.2 | 清华大学 KEG 小组 | 论文 | 聚合式奖励代理 | |
| AgentRM | 2025.2 | 清华大学 THUNLP | 论文 | 可泛化的智能体 RM |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | 奖励类型 | 工具使用 |
|---|---|---|---|---|---|---|---|
| ToolPRMBench | 无(基准测试) | 单 | 过程 | 多 | 工具使用 | 规则/模型 | 是 |
| RLVR-World | RLVR | 单 | 结果 | 多 | 世界建模(语言/视频) | 模型(可验证) | 否 |
| AgentPRM | PPO/DPO + PRM | 单 | 过程 | 多 | ALFWorld/通用 | 模型(PRM) | 是 |
| Agentic-Reward-Modeling | DPO/Best-of-N | 单 | 结果 | 单 | 通用指令 | 模型(奖励代理) | 是(验证) |
| AgentRM | MCTS/RM 引导 | 单 | 结果 | 多 | 9 个智能体任务 | 模型(回归 PRM) | 是 |
🛡️ 安全
| GitHub 仓库 | 🌟 星数 | 日期 | 组织 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| SafeSearch | 2025.11 | Amazon Science | 论文 | veRL | |
| curiosity_redteam | 2024.2 | MIT | 论文 | 自定义 | |
| RLbreaker | 2024.6 | 普渡大学 | 论文 | 自定义 | |
| xJailbreak | 2025.1 | 学术界 | 论文 | 自定义 | |
| Auto-RT | 2025.1 | ICIP-CAS | 论文 | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单/多智能体 | 结果/过程奖励 | 单/多回合 | 任务 | Beliebte Suchanfragen:
🔄 自我进化
⚠️ 注: 在针对大语言模型智能体的强化学习背景下,“自我进化”的定义仍在发展中,尚未完全确立。本类别目前收录了论文标题中明确包含“self-evolving”或“self-evolution”的相关工作,这些工作中的智能体通过强化学习驱动的反馈循环实现自我改进。
| GitHub 仓库 | 🌟 星数 | 发布日期 | 机构 | 论文链接 | 强化学习框架 |
|---|---|---|---|---|---|
| AgentEvolver | 2025.11 | 阿里巴巴/通义实验室 | 论文 | 自定义 | |
| SEAgent | 2025.8 | 上海人工智能实验室 / 香港中文大学 | 论文 | 自定义 | |
| MemSkill | 2026.2 | 南洋理工大学/伊利诺伊大学厄巴纳-香槟分校/芝加哥大学/清华大学 | 论文 | 自定义 | |
| MemRL | 2026.1 | 上海交通大学/西安电子科技大学/新加坡国立大学/中国科学技术大学/MemTensor | 论文 | 自定义 | |
| RAGEN | 2025.1 | RAGEN-AI | 论文 | veRL | |
| WebRL | 2024.11 | 清华大学/智谱AI | 论文 | 自定义 |
📋 点击查看技术细节
| GitHub 仓库 | 强化学习算法 | 单智能体/多智能体 | 结果奖励/过程奖励 | 单轮/多轮 | 任务 | Beliebte Artikel | :----: | :----: | :----: | :----: | :----: | :----: | :----: | :----: | | AgentEvolver | ADCA-GRPO | 单智能体 | 结果奖励 | 多轮 | 社交游戏/工具使用 | 规则 | 是 | | SEAgent | GRPO | 单智能体 | 结果奖励 | 多轮 | 计算机使用 (OSWorld) | 模型 | 是 (基于截图) | | MemSkill | PPO | 单智能体 | 过程奖励 | 多轮 | QA/ALFWorld | 模型 (学习到的技能) | 是 | | MemRL | 基于强化学习 (Q值) | 单智能体 | 过程奖励 | 多轮 | HLE/BigCodeBench/ALFWorld | 模型 (检索) | 是 | | RAGEN | PPO/GRPO (StarPO) | 单智能体 | 结果奖励和过程奖励 | 多轮 | 文本游戏 | 全部 | 是 | | WebRL | 行动者-评论家强化学习 + ORM | 单智能体 | 结果奖励 | 多轮 | 网页导航 (WebArena) | 模型 (ORM) | 是 (网页浏览) |
⛰️ 环境
| GitHub 仓库 | 🌟 星数 | 发布日期 | 组织 | 任务 |
|---|---|---|---|---|
| OpenSandbox | 2026.3 | 阿里巴巴 | 代码/GUI/智能体评估 | |
| OpenEnv | 2026.3 | Meta (PyTorch) | 国际象棋/街机/金融 | |
| NeMo-Gym | 2026.1 | NVIDIA | 多步/多轮 | |
| open-trajectory-gym | 2026.3 | 个人 | CTF/安全 | |
| R2E-Gym | 2025.4 | UC Berkeley/ANU | 软件工程 | |
| LoCoBench-Agent | 2025.11 | Salesforce AI Research | 软件工程 | |
| Simia-Agent-Training | 2025.10 | 微软 | 工具使用/API | |
| PaperArena | 2025.9 | 中国科学技术大学 | 科学文献问答 | |
| enterprise-deep-research | 2025.9 | Salesforce AI Research | 深度研究 | |
| CompassVerifier | 2025.7 | 上海人工智能实验室 | 推理 | |
| SWE-smith | 2025.4 | 普林斯顿/斯坦福/SWE-bench | 软件工程 | |
| SWE-Gym | 2024.12 | UC Berkeley/UIUC/CMU/苹果 | 软件工程 | |
| Mind2Web-2 | 2025.6 | 俄亥俄州立大学 | 网页 | |
| gem | 2025.5 | 海洋人工智能实验室 | 数学/代码/游戏/问答 | |
| MLE-Dojo | 2025.5 | GIT, 斯坦福 | 机器学习工程 | |
| atropos | 2025.4 | Nous Research | 游戏/代码/工具 | |
| InternBootcamp | 2025.4 | InternBootcamp | 编程/问答/游戏 | |
| loong | 2025.3 | CAMEL-AI.org | RLVR | |
| DataSciBench | 2025.2 | 清华大学 | 数据分析 | |
| reasoning-gym | 2025.1 | open-thought | 数学/游戏 | |
| llmgym | 2025.1 | tensorzero | 文本游戏/工具 | |
| debug-gym | 2024.11 | 微软研究院 | 调试/游戏/代码 | |
| gym-llm | 2024.8 | Rodrigo Sánchez Molina | 控制/游戏 | |
| AgentGym | 2024.6 | 复旦大学 | 网页/游戏 | |
| tau-bench | 2024.6 | Sierra | 工具 | |
| appworld | 2024.6 | 石溪大学 | 手机使用 | |
| android_world | 2024.5 | Google 研究院 | 手机使用 | |
| TheAgentCompany | 2024.3 | CMU, 杜克大学 | 编程 | |
| LlamaGym | 2024.3 | Rohan Pandey | 游戏 | |
| visualwebarena | 2024.1 | CMU | 网页 | |
| LMRL-Gym | 2023.12 | UC Berkeley | 游戏 | |
| OSWorld | 2023.10 | 香港大学、CMU、Salesforce、滑铁卢 | 计算机使用 | |
| webarena | 2023.7 | CMU | 网页 | |
| AgentBench | 2023.7 | 清华大学 | 游戏/网页/问答/工具 | |
| WebShop | 2022.7 | Princeton-NLP | 网页 | |
| ScienceWorld | 2022.3 | AllenAI | 文本游戏/科学问答 | |
| alfworld | 2020.10 | 微软、CMU、华盛顿大学 | 身体化 | |
| factorio-learning-environment | 2021.6 | JackHopkins | 游戏 | |
| jericho | 2018.10 | 微软、GIT | 文本游戏 | |
| TextWorld | 2018.6 | 微软研究院 | 文本游戏 |
审核中/等待开源
- JoyAgents-R1:基于强化学习的多功能多大模型智能体联合进化动力学
- Shop-R1:通过强化学习奖励大模型模拟在线购物中的人类行为
- 利用强化学习训练长上下文、多轮次的软件工程智能体
- 少行动,多推理!教导模型高效行动
- 基于强化学习的大模型代理式推理与工具集成
- ComputerRL:面向计算机使用智能体的端到端在线强化学习规模化
- Atom-Searcher:通过细粒度原子级思维奖励增强代理式深度研究
- MUA-RL:用于代理式工具使用的多轮用户交互智能体强化学习
- 理解工具集成式推理
- Memory-R1:通过强化学习提升大语言模型智能体的记忆管理与利用能力
- 鼓励良好过程,无需良好答案:大模型智能体规划的强化学习
- SFR-DeepResearch:迈向自主推理单智能体的有效强化学习
- WebExplorer:探索与进化,用于训练长 horizon 的网页智能体
- EnvX:用代理式 AI 实现万物智能化
- UI-TARS-2 技术报告:利用多轮次强化学习推进 GUI 智能体发展
- UI-Venus 技术报告:借助 RFT 构建高性能 GUI 智能体
- Agent2:一种用于强化学习自动化的智能体生成智能体框架
- Tool-R1:针对代理式工具使用的样本高效强化学习
- 面向大语言模型智能体安全的对抗性强化学习
- 学习精炼:一种用于迭代构建 SPARQL 查询的代理式强化学习方法
- InfoFlow:通过奖励密度优化强化搜索智能体
星标历史
引用
如果您觉得本仓库有用,请考虑引用:
@misc{agentsMeetRL,
title={当大模型智能体遇到强化学习:全面综述},
author={AgentsMeetRL 贡献者},
year={2025},
url={https://github.com/thinkwee/agentsMeetRL}
}
由 AgentsMeetRL 社区用心制作
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
