AgentsMeetRL

922 41 非常简单 1 次阅读今天Agent语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

AgentsMeetRL 是一个专注于“大语言模型智能体与强化学习结合”的开源项目精选清单。随着大模型在复杂任务中需要更强的自主决策能力，如何让智能体通过试错和自我进化来掌握工具使用、多轮交互及逻辑推理，成为当前技术攻关的难点。AgentsMeetRL 正是为了解决这一痛点而生，它系统性地梳理了全球范围内利用强化学习训练 LLM 智能体的优质开源代码库。

这份清单不仅涵盖了通用的强化学习训练框架（如 veRL、OpenRLHF），还细致地分类整理了涉及搜索增强、网页操作、代码工程、多智能体协作、记忆管理以及安全对齐等垂直领域的具体实现。其独特亮点在于深入剖析了各个项目所依赖的技术栈，包括具体的 RL 算法、奖励机制设计以及训练环境选择，并提供了交互式仪表盘供用户直观浏览技术细节。

AgentsMeetRL 非常适合 AI 研究人员、大模型应用开发者以及对智能体前沿技术感兴趣的技术爱好者使用。无论是希望寻找合适的基线模型进行二次开发，还是想要了解业界最新的技术选型趋势，都能在这里获得极具价值的参考指引，从而加速高质量智能体系统的构建与迭代。

使用场景

某 AI 初创团队正致力于开发一款能自主操作浏览器完成复杂数据抓取与表单填写的智能助手，急需引入强化学习（RL）来提升代理在动态网页环境中的决策能力。

没有 AgentsMeetRL 时

技术选型迷茫：面对 GitHub 上数百个零散的 RL 项目，团队难以快速区分哪些是专为"Web & GUI"场景设计，哪些仅适用于纯文本推理，导致大量时间浪费在无效代码阅读上。
架构重复造轮子：由于缺乏对现有“基础框架”（如 veRL、OpenRLHF）的系统梳理，开发人员误以为需要从头搭建训练基础设施，延误了核心算法的研发进度。
奖励机制设计困难：在定义代理操作浏览器的成功标准时，找不到成熟的"Reward & Training"案例参考，导致模型训练收敛缓慢且容易出现死循环。
安全隐患被忽视：团队专注于功能实现，却因未查阅"Safety"分类下的对抗性测试项目，导致代理在面对恶意网页弹窗时缺乏防御机制。

使用 AgentsMeetRL 后

精准定位资源：通过 AgentsMeetRL 的分类标签，团队直接锁定了 20 个专注于"Web & GUI"和"Tool-Use"的开源项目，半天内就完成了技术栈调研。
复用成熟框架：依据列表中推荐的通用 RL 训练框架，团队直接集成了经过验证的代码库，将原本需两周的基础设施搭建工作缩短至两天。
优化奖励模型：参考列表中"Reward & Training"类别的成功实践，团队快速设计了基于页面状态变化的稀疏奖励函数，显著提升了代理的操作成功率。
构建安全防线：利用 AgentsMeetRL 提供的安全对齐项目，团队为代理添加了防注入和异常拦截模块，确保其在真实网络环境中的鲁棒性。

AgentsMeetRL 将分散的强化学习智能体资源转化为结构化的技术地图，帮助开发者从“盲目摸索”转向“站在巨人肩膀上创新”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesAgentsMeetRL 本身是一个开源项目汇总列表（Awesome List），用于整理和分类使用强化学习训练 LLM Agent 的仓库，而非一个可直接运行的单一软件工具。因此，README 中未提供具体的操作系统、GPU、内存、Python 版本或依赖库安装需求。用户需根据列表中具体引用的子项目（如 OpenRLHF, veRL, trl 等）查阅其各自的文档以获取运行环境要求。

python未说明

快速开始

当LLM智能体遇上强化学习

AgentsMeetRL 是一个精彩的列表，汇总了使用强化学习训练 LLM 智能体的 开源仓库：

🤖 判断一个项目是否为智能体项目的标准是：它必须具备以下至少一项：多轮交互或工具使用（因此，TIR 项目和工具集成推理也被纳入本仓库）。
⚠️ 本项目基于对使用 LLM 编码智能体的开源仓库进行的代码分析，其中可能包含不准确的情况。尽管已人工审核，但仍可能存在遗漏。如果您发现任何错误，请随时通过 issue 或 PR 告知我们——我们非常欢迎！
🚀 我们特别关注各个项目所依赖的强化学习框架、RL 算法、奖励机制以及环境，以便大家参考这些优秀的开源项目是如何做出技术选择的。请查看每个表格下方的 [点击查看技术细节]。
📅 最后更新日期：2026年3月24日
🤗 欢迎随时提交您自己的项目——我们非常期待您的贡献！

分类体系：

基础框架：用于 LLM 智能体的通用 RL 训练框架（例如 veRL、OpenRLHF、trl）
通用/多任务：在多个任务或环境中进行训练和评估的智能体系统
搜索与RAG：利用检索工具增强 LLM 推理能力的搜索增强型推理智能体
Web与GUI：与网页浏览器、移动/桌面 GUI 或操作系统交互的智能体
工具使用：经过训练以调用外部工具（API、代码执行器、MCP 等）的智能体
代码与SWE：软件工程和代码生成智能体
推理：具备工具集成或多轮推理能力的智能体（数学、问答、视觉等）
多智能体RL：通过强化学习实现的多智能体协作、谈判或信用分配
记忆：能够学习管理、检索或演化记忆的智能体
具身：在具身化/物理仿真环境中运行的智能体
领域特定：针对特定领域的 RL 智能体（如医疗、操作系统调优等）
奖励与训练：用于智能体的进程/结果奖励模型及训练方法
安全：用于智能体安全对齐、对抗性红队测试以及防越狱/攻防的强化学习
VLM智能体：通过强化学习训练的视觉-语言模型智能体，用于多模态交互
自我进化：通过 RL 反馈循环实现自我进化的智能体（⚠️ 此定义仍在社区中不断发展）
环境：用于智能体训练/评估的基准、模拟环境和沙盒环境

部分枚举：

奖励类型枚举：
- 外部验证器：例如编译器或数学求解器
- 基于规则：例如具有精确匹配评分的 LaTeX 解析器
- 基于模型：例如经过训练的验证 LLM 或奖励 LLM
- 自定义

更新

📢 2026年3月更新：将分类体系由12类重组为16类。新增约70个仓库，涵盖2025年9月至2026年3月期间的内容。新增类别包括多智能体RL、奖励与训练、安全、VLM智能体、自我进化以及领域特定。原GUI和Web合并为Web与GUI，TextGame和Biomedical作为独立类别已被取消。总仓库数量从约134个增加到205个。

🔧 基础框架

GitHub 仓库	日期	组织	论文链接
Open-AgentRL	2026.2	Gen-Verse	论文
OpenClaw-RL	2026.3	Gen-Verse	论文
Claw-R1	2026.3	中国科学技术大学	--
prime-rl	2025.2	Prime Intellect	--
NeMo-RL	2026.1	英伟达	--
RLinf	2025.8	清华大学/Infinigence AI/北京大学	论文
siiRL	2025.7	上海创新研究院	论文
slime	2025.6	清华大学 (THUDM)	博客
agent-lightning	2025.6	微软研究院	论文
AReaL	2025.6	蚂蚁集团/清华大学	论文
ROLL	2025.6	阿里巴巴	论文
MARTI	2025.5	清华大学	--
RL2	2025.4	Accio	–
verifiers	2025.3	个人	--
oat	2024.11	新加坡国立大学/Sea AI	论文
veRL	2024.10	字节跳动	论文
OpenRLHF	2023.7	OpenRLHF	论文
trl	2019.11	HuggingFace	--

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
Open-AgentRL	GRPO-TCR	单智能体	两者均有	多轮	推理/GUI/编码	模型（PRM）	是（SandboxFusion）
OpenClaw-RL	GRPO/OPD	单/多智能体	两者均有	多轮	终端/GUI/SWE/工具调用	模型/外部	是
Claw-R1	通用强化学习框架	多智能体	两者均有	多轮	通用智能体	全部	是（与框架无关）
prime-rl	GRPO/PPO	多智能体	结果奖励	多轮	数学/代码/搜索	模型/外部	是
NeMo-RL	GRPO/DAPO/GDPO/DPO	单智能体	结果奖励	多轮	数学/推理/代码	规则/外部	否
RLinf	PPO/GRPO/DAPO/SAC/REINFORCE++/CrossQ/RLPD	单/多智能体	两者均有	多轮	机器人技术/数学/代码/QA/VQA	全部（规则/模型/外部）	是
siiRL	PPO/GRPO/CPGD/MARFT	多智能体	两者均有	多轮	LLM/VLM/LLM-MAS 后训练	模型/规则	计划中
slime	GRPO/GSPO/REINFORCE++	单智能体	两者均有	双向	数学/代码	外部验证器	是
agent-lightning	PPO/自定义/自动提示优化	多智能体	结果奖励	多轮	计算器/SQL	模型/外部/规则	是
AReaL	PPO	单/多智能体	结果奖励	双向	数学/代码	外部	是
ROLL	PPO/GRPO/Reinforce++/TOPR/RAFT++	多智能体	两者均有	多轮	数学/QA/代码/对齐	全部	是
MARTI	PPO/GRPO/REINFORCE++/TTRL	多智能体	两者均有	多轮	数学	全部	是
RL2	Dr. GRPO/PPO/DPO	单智能体	两者均有	双向	QA/对话	规则/模型/外部	是
verifiers	GRPO	多智能体	结果奖励	双向	推理/数学/代码	全部	代码
oat	PPO/GRPO	单智能体	结果奖励	多轮	数学/对齐	外部	否
veRL	PPO/GRPO	单智能体	结果奖励	双向	数学/QA/推理/搜索	全部	是
OpenRLHF	PPO/REINFORCE++/GRPO/DPO/IPO/KTO/RLOO	多智能体	两者均有	双向	对话/聊天/补全	规则/模型/外部	是
trl	PPO/GRPO/DPO	单智能体	两者均有	单轮	QA	自定义	否

💪 通用/多任务

GitHub 仓库	发布日期	机构	论文链接	强化学习框架
MetaClaw	2026.3	北卡罗来纳大学教堂山分校（AIMING 实验室）	论文	自定义
SkillRL	2026.2	北卡罗来纳大学教堂山分校（AIMING 实验室）	论文	自定义
LLM-in-Sandbox	2026.1	中国人民大学/微软亚洲研究院/清华大学	论文	rllm（结合 veRL）
youtu-agent	2025.12	腾讯优图实验室	论文	自定义
DEPO	2025.11	香港科技大学/上海交通大学	论文	LLaMA-Factory
SPEAR	2025.10	腾讯优图实验室	论文	veRL/verl-agent
DeepAgent	2025.10	中国人民大学/小红书	论文	自定义
AgentRL	2025.9	清华大学	论文	veRL
AgentGym-RL	2025.9	复旦大学	论文	veRL
Agent_Foundation_Models	2025.8	OPPO 个人 AI 实验室	论文	veRL
Trinity-RFT	2025.5	阿里巴巴	论文	veRL
SPA-RL-Agent	2025.5	香港理工大学	论文	TRL
verl-agent	2025.5	新加坡南洋理工大学/Skywork	论文	veRL
VAGEN	2025.3	RAGEN-AI	论文	veRL
ART	2025.3	OpenPipe	论文	TRL
OpenManus-RL	2025.3	伊利诺伊大学厄巴纳-香槟分校/MetaGPT	——	自定义

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
MetaClaw	GRPO (LoRA)	单智能体	过程奖励	多轮	通用代理任务	模型（PRM）奖励	是（技能增强）
SkillRL	GRPO	单智能体	结果奖励	多轮	ALFWorld/WebShop/搜索	规则奖励	是（网页搜索、动作）
LLM-in-Sandbox	GRPO++	单智能体	结果奖励	多轮	数学/物理/化学/生物医学/长上下文/IF/SWE	规则奖励	是（代码沙箱，含终端、文件、互联网）
youtu-agent	无训练 GRPO	单智能体	结果奖励	多轮	深度研究/数据分析/工具使用	模型/外部奖励	是（网页搜索、代码、文件）
DEPO	KTO + 效率损失	单智能体	结果与过程奖励	多轮	BabyAI/WebShop 等代理任务	规则奖励	是
SPEAR	GRPO/GiGPO + SIL	单智能体	结果与过程奖励	多轮	数学/代理任务	规则/外部奖励	是（搜索、沙箱、浏览器）
DeepAgent	ToolPO	单智能体	结果奖励	多轮	ToolBench/ALFWorld/WebShop/GAIA/HLE	模型奖励	是（16,000+ RapidAPIs）
AgentRL	GRPO/REINFORCE++/RLOO/ReMax/GAE	单智能体	结果奖励	多轮	代理任务	外部奖励	是
AgentGym-RL	PPO/GRPO/RLOO/REINFORCE++	单智能体	结果奖励	多轮	网页/搜索/游戏/具身智能/科学	规则/模型/外部奖励	是（网页、搜索、环境 API）
Agent_Foundation_Models	DAPO/PPO	单智能体	结果奖励	单轮	QA/代码/数学	规则/外部奖励	是
Trinity-RFT	PPO/GRPO	单智能体	结果奖励	结果与过程奖励	数学/文本游戏/网页	所有奖励类型	是
SPA-RL-Agent	PPO	单智能体	过程奖励	多轮	导航/网页/文本游戏	模型奖励	否
verl-agent	PPO/GRPO/GiGPO/DAPO/RLOO/REINFORCE++	多智能体	结果与过程奖励	多轮	手机使用/数学/代码/网页/文本游戏	所有奖励类型	是
VAGEN	PPO/GRPO	单智能体	结果与过程奖励	多轮	文本游戏/导航	所有奖励类型	是
ART	GRPO	多智能体	结果与过程奖励	多轮	文本游戏	所有奖励类型	是
OpenManus-RL	PPO/DPO/GRPO	多智能体	结果奖励	多轮	文本游戏	所有奖励类型	是

🔍 搜索与 RAG 代理

GitHub 仓库	发布日期	机构	论文链接	强化学习框架
ProRAG	2026.1	人大	论文	自定义
MemSearcher	2025.11	中科院	论文	自定义
ReSeek	2025.10	腾讯PCG BAC/清华大学	论文	veRL
AutoGraph-R1	2025.10	香港科技大学KnowComp	论文	自定义
Tree-GRPO	2025.9	高德地图	论文	veRL
ASearcher	2025.8	蚂蚁集团研究强化学习实验室清华大学 & UW	论文	RealHF/AReaL
Graph-R1	2025.7	北邮/NTU/NUS	论文	veRL
Kimi-Researcher	2025.6	Moonshot AI	博客	自定义
R-Search	2025.6	个人	--	veRL
R1-Searcher-plus	2025.5	人大	论文	自定义
StepSearch	2025.5	商汤科技	论文	veRL
AutoRefine	2025.5	中国科学技术大学	论文	veRL
ZeroSearch	2025.5	阿里巴巴	论文	veRL
ReasonRAG	2025.5	香港城市大学 / 华为	论文	自定义
Agentic-RAG-R1	2025.12	北京大学	--	自定义
WebThinker	2025.4	人大	论文	自定义
DeepResearcher	2025.4	上海交通大学	论文	veRL
Search-R1	2025.3	UIUC/Google	论文1, 论文2	veRL
R1-Searcher	2025.3	人大	论文	OpenRLHF
C-3PO	2025.2	阿里巴巴	论文	OpenRLHF
DeepRetrieval	2025.2	UIUC	论文	veRL
SSRL	2025.8	清华大学	论文	自定义
Research-Venus	2025.8	蚂蚁集团	论文	自定义
DeepResearch	2025.9	阿里巴巴/通义实验室	论文	自定义
DeepDive	2025.9	清华大学/THUDM	论文	自定义

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单/多轮	任务	奖励类型	工具使用
ProRAG	GRPO + DGA（双粒度优势）	单	两者	多	多跳 RAG	模型（通过 MCTS 的 PRM）	是（检索）
MemSearcher	多上下文 GRPO	单	结果	多	搜索/QA + 记忆	规则/模型	是（网络搜索 + 记忆）
ReSeek	GRPO/PPO	单	两者	多	QA/搜索	规则	搜索/JUDGE
AutoGraph-R1	GRPO（通过 VeRL）	单	结果	多	面向 QA 的知识图谱构建	规则	是（图谱检索）
Tree-GRPO	GRPO/Tree-GRPO	单	结果	多	搜索	规则	搜索
ASearcher	PPO/GRPO + 解耦 PPO	单	结果	多	数学/代码/搜索问答	外部/规则	是
Graph-R1	GRPO/REINFORCE++/PPO	单	结果	多	知识图谱问答	规则（EM/F1）	是（图谱检索）
Kimi-Researcher	REINFORCE	单	结果	多	研究	结果	搜索、浏览、编码
R-Search	PPO/GRPO	单	两者	多	QA/搜索	全部	是
R1-Searcher-plus	自定义	单	结果	多	搜索	模型	搜索
StepSearch	PPO	单	迁移	多	QA	模型	搜索
AutoRefine	PPO/GRPO	多	两者	多	RAG QA	规则	搜索
ZeroSearch	PPO/GRPO/REINFORCE	单	结果	多	QA/搜索	规则	是
ReasonRAG	DPO + 基于 MCTS 的 PRM	单	过程	多	多跳 QA	模型（PRM）	是（维基百科搜索）
Agentic-RAG-R1	GRPO	单	结果	多	知识密集型 QA	规则/模型	是（维基百科/文档搜索）
WebThinker	DPO	单	结果	多	推理/QA/研究	模型/外部	网络浏览
DeepResearcher	PPO/GRPO	多	结果	多	研究	全部	是
Search-R1	PPO/GRPO	单	结果	多	搜索	全部	搜索
R1-Searcher	PPO/DPO	单	两者	多	搜索	全部	是
C-3PO	PPO	多	结果	多	搜索	模型	是
DeepRetrieval	GRPO	单	结果	多	查询生成/信息检索	规则	是（搜索）
SSRL	GRPO	单	结果	多	自我搜索	规则	是（自我搜索）
Research-Venus	GRPO	单	两者	多	深度研究	模型（原子思维）	是（搜索）
DeepResearch	基于强化学习	单	结果	多	深度研究	模型	是（搜索、浏览）
DeepDive	GRPO	单	结果	多	知识图谱增强的搜索	规则	是（知识图谱 + 搜索）

🌐 网络与 GUI 代理

GitHub 仓库	日期	组织	论文链接	强化学习框架
MobileAgent	2025.9	X-PLUG (通义千问)	paper	veRL
InfiGUI-G1	2025.8	InfiX AI	Paper	veRL
UI-AGILE	2025.7	厦门大学	Paper	自定义
gui-rcpo	2025.8	浙江大学	Paper	自定义
Grounding-R1	2025.6	Salesforce	blog	trl
AgentCPM-GUI	2025.6	OpenBMB/清华大学/中国人民大学	Paper	Huggingface
TTI	2025.6	卡内基梅隆大学	Paper	自定义
SE-GUI	2025.5	南开大学/vivo	Paper	trl
ARPO	2025.5	香港中文大学/香港科技大学	Paper	veRL
GUI-G1	2025.5	中国人民大学	Paper	TRL
WebAgent-R1	2025.5	亚马逊/弗吉尼亚大学	Paper	自定义
GUI-R1	2025.4	中国科学院/NUS	Paper	veRL
UI-R1	2025.3	vivo/香港中文大学	Paper	TRL
CollabUIAgents	2025.2	清华大学/阿里巴巴/香港科技大学	Paper	自定义
WebAgent	2025.1	阿里巴巴	paper1, paper2	LLaMA-Factory
UI-TARS	2025.9	字节跳动 Seed	Paper	自定义
DigiQ	2025.2	加州大学伯克利分校/卡内基梅隆大学/亚马逊	Paper	自定义
ZeroGUI	2025.5	上海人工智能实验室	Paper	自定义
InfiGUI-R1	2025.4	浙江大学	Paper	自定义
GUI-Agent-RL	2025.2	微软	Paper	自定义

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
MobileAgent	半在线强化学习	单智能体	同时使用	多轮	移动 GUI/自动化	规则	是
InfiGUI-G1	AEPO	单智能体	结果奖励	单轮	GUI/接地	规则	否
UI-AGILE	GRPO	单智能体	结果奖励	单轮	GUI 接地	规则（连续）	否
gui-rcpo	RCPO	单智能体	结果奖励	单轮	GUI 接地	规则（自监督）	否
Grounding-R1	GRPO	单智能体	结果奖励	多轮	GUI 接地	模型	是
AgentCPM-GUI	GRPO	单智能体	结果奖励	多轮	移动 GUI	模型	是
TTI	REINFORCE/BC	单智能体	结果奖励	多轮	网页	外部工具	网页浏览
SE-GUI	GRPO	单智能体	同时使用	单轮	GUI 接地	规则	是
ARPO	GRPO	单智能体	结果奖励	多轮	GUI	外部工具	计算机操作
GUI-G1	GRPO	单智能体	结果奖励	单轮	GUI	规则/外部工具	否
WebAgent-R1	M-GRPO	单智能体	结果奖励	多轮	网页导航（WebArena-Lite）	规则（任务成功）	是（网页浏览）
GUI-R1	GRPO	单智能体	结果奖励	多轮	GUI	规则	否
UI-R1	GRPO	单智能体	过程奖励和结果奖励	同时使用	GUI	规则	计算机/手机使用
CollabUIAgents	DPO（信用再分配）	多智能体	过程奖励	多轮	GUI（移动 + 网页）	模型（LLM）	是（GUI 交互）
WebAgent	DAPO	多智能体	过程奖励	多轮	网页	模型	是
UI-TARS	多轮强化学习	单智能体	同时使用	多轮	GUI（跨平台）	模型	是（GUI 操作）
DigiQ	基于价值的离线强化学习	单智能体	结果奖励	多轮	安卓设备控制	模型（Q 函数）	是
ZeroGUI	在线强化学习	单智能体	结果奖励	多轮	GUI 智能体	规则	是（GUI 操作）
InfiGUI-R1	强化学习 + 子目标引导	单智能体	同时使用	多轮	GUI 推理	规则	是
GUI-Agent-RL	基于价值的强化学习（VEM）	单智能体	结果奖励	多轮	GUI（网上购物）	模型	是

🔨 工具使用智能体

GitHub 仓库	发布日期	组织	论文链接	强化学习框架
MATPO	2025.10	MiroMind AI	论文	自定义
MiroRL	2025.8	MiroMindAI	HF 仓库	veRL
verl-tool	2025.6	TIGER-Lab	X	veRL
Multi-Turn-RL-Agent	2025.5	明尼苏达大学	论文	自定义
Tool-N1	2025.5	NVIDIA	论文	veRL
Tool-Star	2025.5	人大	论文	LLaMA-Factory
RL-Factory	2025.5	Simple-Efficient	模型	veRL
ReTool	2025.4	字节跳动	论文	veRL
AWorld	2025.3	蚂蚁集团 (inclusionAI)	论文	veRL
Agent-R1	2025.3	中国科学技术大学	论文	veRL
ReCall	2025.3	百川	论文	veRL
ToolRL	2025.4	UIUC	论文	veRL

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单/多回合	任务	奖励类型	工具使用
MATPO	GRPO (多智能体)	多	结果	多	工具使用/搜索	规则	是（MCP：Serper，网页抓取）
MiroRL	GRPO	单	两者	多	推理/规划/工具使用	基于规则	MCP
verl-tool	PPO/GRPO	单	两者	两者	数学/代码	规则/外部	是
Multi-Turn-RL-Agent	GRPO	单	两者	多	工具使用/数学	规则/外部	是
Tool-N1	PPO	单	结果	多	数学/对话	全部	是
Tool-Star	PPO/DPO/ORPO/SimPO/KTO	单	结果	多	多模态/工具使用/对话	模型/外部	是
RL-Factory	GRPO	多	两者	多	工具使用/NL2SQL	全部	MCP
ReTool	PPO	单	结果	多	数学	外部	代码
AWorld	GRPO	两者	结果	多	搜索/网络/代码	外部/规则	是
Agent-R1	PPO/GRPO	单	两者	多	工具使用/QA	模型	是
ReCall	PPO/GRPO/RLOO/REINFORCE++/ReMax	单	结果	多	工具使用/数学/QA	全部	是
ToolRL	GRPO/PPO	单	结果	多	工具学习	规则/外部	是

💻 代码与软件工程智能体

GitHub 仓库	发布日期	机构	论文链接	强化学习框架
CUDA-Agent	2026.2	字节跳动/清华大学	论文	自定义
LLM-in-Sandbox	2026.1	人大/MSRA/清华	论文	rllm (w/ veRL)
PPP-Agent	2025.11	卡内基梅隆大学/OpenHands	论文	veRL
RepoDeepSearch	2025.8	北大、字节跳动、北理工	论文	veRL
CUDA-L1	2025.7	DeepReinforce AI	论文	自定义
MedAgentGym	2025.6	埃默里大学/佐治亚理工学院	论文	Hugginface
CURE	2025.6	芝加哥大学普林斯顿大学/字节跳动	论文	Huggingface
Time-R1	2025.5	UIUC	论文	veRL
ML-Agent	2025.5	MASWorks	论文	自定义
SkyRL	2025.4	NovaSky	论文	veRL
digitalhuman	2025.4	腾讯	论文	veRL
sweet_rl	2025.3	Meta/UCB	论文	OpenRLHF
swe-rl	2025.2	Meta/UIUC/CMU	论文	自定义
rllm	2025.1	伯克利天空计算实验室 BAIR / Together AI	Notion 博客	veRL
open-r1	2025.1	HuggingFace	--	TRL
R1-Code-Interpreter	2025.5	MIT	论文	自定义
CTRL	2025.2	香港大学/字节跳动	论文	自定义
DeepAnalyze	2025.10	人大/清华	论文	自定义
AceCoder	2025.2	渥太华大学 (TIGER-Lab)	论文	自定义

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单轮/多轮	任务	奖励类型	工具使用
CUDA-Agent	智能体强化学习（分阶段）	单智能体	结果奖励	多轮	CUDA 核函数生成	规则奖励（正确性 + 性能）	是（编译/验证/性能分析）
LLM-in-Sandbox	GRPO++	单智能体	结果奖励	多轮	编码/SWE + 通用任务（数学/科学/生物）	规则奖励	是（带终端、文件和互联网的代码沙箱）
PPP-Agent	PPP-RL	单智能体	结果和过程奖励	多轮	SWE/科研	规则+模型奖励	搜索、提问、浏览
RepoDeepSearch	GRPO	单智能体	结果和过程奖励	多轮	搜索/修复	规则/外部奖励	是
CUDA-L1	对比强化学习	单智能体	结果奖励	单轮	CUDA 优化	规则奖励（性能）	否
MedAgentGym	SFT/DPO/PPO/GRPO	单智能体	结果奖励	多轮	医疗/编码	外部奖励	是
CURE	PPO	单智能体	结果奖励	单轮	编码	外部奖励	否
Time-R1	PPO/GRPO/DPO	多智能体	结果奖励	多轮	时序相关任务	全部	代码
ML-Agent	自定义	单智能体	迁移奖励	多轮	编码	全部	是
SkyRL	PPO/GRPO	单智能体	结果奖励	多轮	数学/编码	全部	代码
digitalhuman	PPO/GRPO/ReMax/RLOO	多智能体	结果奖励	多轮	同理心/数学/编码/多模态问答	规则/模型/外部奖励	是
sweet_rl	DPO	多智能体	过程奖励	多轮	设计/编码	模型奖励	网页浏览
swe-rl	基于强化学习	单智能体	结果奖励	单轮	SWE（SWE-bench）	规则奖励（相似性）	否
rllm	PPO/GRPO	单智能体	结果奖励	多轮	代码编辑	外部奖励	是
open-r1	GRPO	单智能体	结果奖励	单轮	数学/编码	全部	是
R1-Code-Interpreter	GRPO	单智能体	结果奖励	多轮	代码解释	规则/外部奖励	是（代码执行）
CTRL	强化学习（批评-修正）	单智能体	过程奖励	多轮	代码优化	模型奖励	是（代码执行）
DeepAnalyze	课程制强化学习	单智能体	结果奖励	多轮	数据科学	规则/外部奖励	是（代码执行）
AceCoder	GRPO	单智能体	结果奖励	单轮	代码生成	外部奖励（测试用例）	是

🤔 推理智能体

GitHub 仓库	发布日期	机构	论文链接	强化学习框架
Agent0	2025.10	北卡罗来纳大学教堂山分校 / Salesforce Research / 斯坦福大学	论文	veRL
KG-R1	2025.9	伊利诺伊大学厄巴纳-香槟分校/谷歌	论文1, 论文2	veRL
AgentFlow	2025.09	斯坦福大学	arXiv	veRL
ARPO	2025.7	中国人民大学、快手	论文	veRL
terminal-bench-rl	2025.7	个人（Danau5tin）	无	rLLM
MOTIF	2025.6	马里兰大学	论文	trl
cmriat/l0	2025.6	CMRIAT	论文	veRL
agent-distillation	2025.5	KAIST	论文	自定义
EasyR1	2025.4	个人	repo1/paper2	veRL
AutoCoA	2025.3	北京交通大学	论文	veRL
ToRL	2025.3	上海交通大学	论文	veRL
ReMA	2025.3	上海交通大学、伦敦大学学院	论文	veRL
Agentic-Reasoning	2025.2	牛津大学	论文	自定义
SimpleTIR	2025.2	新加坡国立大学、字节跳动	Notion 博客	veRL
openrlhf_async_pipline	2024.5	OpenRLHF	论文	OpenRLHF

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
Agent0	ADPO	多智能体	过程奖励	多轮	数学/视觉	模型/验证器	是
KG-R1	GRPO/PPO	单智能体	双重奖励	多轮	知识图谱问答	规则/模型	知识图谱检索
AgentFlow	Flow-GRPO	单智能体	结果奖励	多轮	搜索/数学/问答	模型/外部工具	是
ARPO	GRPO	单智能体	结果奖励	多轮	数学/编程	模型/规则	是
terminal-bench-rl	GRPO	单智能体	结果奖励	多轮	编程/终端	模型+外部验证器	是
MOTIF	GRPO	单智能体	结果奖励	多轮	问答	规则	否
cmriat/l0	PPO	多智能体	过程奖励	多轮	问答	全部	是
agent-distillation	PPO	单智能体	过程奖励	多轮	问答/数学	外部工具	是
EasyR1	GRPO	单智能体	过程奖励	多轮	视觉-语言	模型	是
AutoCoA	GRPO	多智能体	结果奖励	多轮	推理/数学/问答	全部	是
ToRL	GRPO	单智能体	结果奖励	单轮	数学	规则/外部工具	是
ReMA	PPO	多智能体	结果奖励	多轮	数学	规则	否
Agentic-Reasoning	自定义	单智能体	过程奖励	多轮	问答/数学	外部工具	网页浏览
SimpleTIR	PPO/GRPO（带扩展）	单智能体	结果奖励	多轮	数学、编程	全部	是
openrlhf_async_pipline	PPO/REINFORCE++/DPO/RLOO	单智能体	结果奖励	多轮	对话/推理/问答	全部	否

👥 多智能体强化学习

GitHub 仓库	日期	机构	论文链接	强化学习框架
PettingLLMs	2025.10	Intel / UCSD	论文	自定义
MASPRM	2025.10	UBC / Huawei	论文	自定义
ARIA	2025.6	复旦大学	论文	自定义
AMPO	2025.5	阿里巴巴通义实验室	论文	veRL
MAPoRL	2025.8	学术界	——	自定义
FlowReasoner	2025.4	海 AI 实验室 / 新加坡国立大学	论文	自定义
DrMAS	2026.2	南洋理工大学	论文	自定义

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单/多回合	任务	奖励类型	工具使用
PettingLLMs	AT-GRPO	多	两者	多	游戏/代码/数学/规划	规则（可验证）	否
MASPRM	PRM（由 MCTS 滚出训练）	多	过程	多	推理（GSM8K/MATH/MMLU）	学习型 PRM	否
ARIA	REINFORCE	两者	过程	多	谈判/讨价还价	其他	否
AMPO	BC/AMPO（GRPO 改进）	多	结果	多	社交互动	基于模型	否
MAPoRL	PPO	多	结果	多	LLM 协作任务	规则	否
FlowReasoner	GRPO	多	结果	多	多智能体工作流设计	规则	是
DrMAS	GRPO（按智能体）	多	结果	多	多智能体 LLM 系统	规则	否

🧠 记忆

GitHub 仓库	日期	机构	论文链接	强化学习框架
MEM1	2025.7	MIT	论文	veRL（基于 Search-R1）
Memento	2025.6	UCL、华为	论文	自定义
MemAgent	2025.6	字节跳动、清华 SIA	论文	veRL

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单/多回合	任务	奖励类型	工具使用
MEM1	PPO/GRPO	单	结果	多	网店/GSM8K/QA	规则/模型	是
Memento	软 Q-Learning	单	结果	多	研究/QA/代码/网络	外部/规则	是
MemAgent	PPO、GRPO、DPO	多	结果	多	长上下文 QA	规则/模型/外部	是

🦾 具身

GitHub 仓库	🌟 星数	日期	机构	论文链接	强化学习框架
Embodied-R1		2025.6	天津大学	论文	veRL
STeCa		2025.2	香港理工大学	论文	FastChat/TRL

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单/多智能体	结果/过程奖励	单/多回合	任务	奖励类型	工具使用
Embodied-R1	GRPO	单	结果	单	定位/航点	规则	否
STeCa	DPO（RFT）	单	两者	多	具身/家务	规则/MC	环境动作

🏷️ 领域专用

GitHub 仓库	日期	机构	论文链接	强化学习框架	领域
MedSAM-Agent	2026.2	香港中文大学/腾讯	论文	自定义	医疗
OS-R1	2025.8	中国科学院计算技术研究所	论文	自定义	操作系统/系统
MMedAgent-RL	2025.8	未知	论文	未知	医疗
DoctorAgent-RL	2025.5	中国科学院大学/中国科学院/中国科学技术大学	论文	RAGEN	医疗
Biomni	2025.3	斯坦福大学（SNAP）	论文	自定义	生物医学

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
MedSAM-Agent	GRPO（通过 veRL）	单	两者	多	医学图像分割	模型（临床保真度）	是（SAM/MedSAM2）
OS-R1	GRPO（通过 veRL）	单	结果	多	Linux 内核调优	规则	是（LightRAG、内核配置）
MMedAgent-RL	未知	多	未知	未知	未知	未知	未知
DoctorAgent-RL	GRPO	多	两者	多	问诊/诊断	模型/规则	否
Biomni	待定	单	待定	单	scRNAseq/CRISPR/ADMET/知识	待定	是

🎯 奖励与训练方法

GitHub 仓库	日期	机构	论文链接	重点
ToolPRMBench	2026.1	亚利桑那州立大学	论文	工具使用 PRM 基准测试
RLVR-World	2025.5	清华大学机器学习组	论文	用于世界模型的 RLVR
AgentPRM	2025.2	康奈尔大学	论文	针对智能体的过程奖励
Agentic-Reward-Modeling	2025.2	清华大学 KEG 小组	论文	聚合式奖励代理
AgentRM	2025.2	清华大学 THUNLP	论文	可泛化的智能体 RM

📋 点击查看技术细节

GitHub 仓库	强化学习算法	单智能体/多智能体	结果奖励/过程奖励	单轮/多轮	任务	奖励类型	工具使用
ToolPRMBench	无（基准测试）	单	过程	多	工具使用	规则/模型	是
RLVR-World	RLVR	单	结果	多	世界建模（语言/视频）	模型（可验证）	否
AgentPRM	PPO/DPO + PRM	单	过程	多	ALFWorld/通用	模型（PRM）	是
Agentic-Reward-Modeling	DPO/Best-of-N	单	结果	单	通用指令	模型（奖励代理）	是（验证）
AgentRM	MCTS/RM 引导	单	结果	多	9 个智能体任务	模型（回归 PRM）	是

🛡️ 安全

GitHub 仓库	日期	组织	论文链接	强化学习框架
SafeSearch	2025.11	Amazon Science	论文	veRL
curiosity_redteam	2024.2	MIT	论文	自定义
RLbreaker	2024.6	普渡大学	论文	自定义
xJailbreak	2025.1	学术界	论文	自定义
Auto-RT	2025.1	ICIP-CAS	论文	自定义

📋 点击查看技术细节

🔄 自我进化

⚠️ 注: 在针对大语言模型智能体的强化学习背景下，“自我进化”的定义仍在发展中，尚未完全确立。本类别目前收录了论文标题中明确包含“self-evolving”或“self-evolution”的相关工作，这些工作中的智能体通过强化学习驱动的反馈循环实现自我改进。

GitHub 仓库	发布日期	机构	论文链接	强化学习框架
AgentEvolver	2025.11	阿里巴巴/通义实验室	论文	自定义
SEAgent	2025.8	上海人工智能实验室 / 香港中文大学	论文	自定义
MemSkill	2026.2	南洋理工大学/伊利诺伊大学厄巴纳-香槟分校/芝加哥大学/清华大学	论文	自定义
MemRL	2026.1	上海交通大学/西安电子科技大学/新加坡国立大学/中国科学技术大学/MemTensor	论文	自定义
RAGEN	2025.1	RAGEN-AI	论文	veRL
WebRL	2024.11	清华大学/智谱AI	论文	自定义

📋 点击查看技术细节

⛰️ 环境

GitHub 仓库	发布日期	组织	任务
OpenSandbox	2026.3	阿里巴巴	代码/GUI/智能体评估
OpenEnv	2026.3	Meta (PyTorch)	国际象棋/街机/金融
NeMo-Gym	2026.1	NVIDIA	多步/多轮
open-trajectory-gym	2026.3	个人	CTF/安全
R2E-Gym	2025.4	UC Berkeley/ANU	软件工程
LoCoBench-Agent	2025.11	Salesforce AI Research	软件工程
Simia-Agent-Training	2025.10	微软	工具使用/API
PaperArena	2025.9	中国科学技术大学	科学文献问答
enterprise-deep-research	2025.9	Salesforce AI Research	深度研究
CompassVerifier	2025.7	上海人工智能实验室	推理
SWE-smith	2025.4	普林斯顿/斯坦福/SWE-bench	软件工程
SWE-Gym	2024.12	UC Berkeley/UIUC/CMU/苹果	软件工程
Mind2Web-2	2025.6	俄亥俄州立大学	网页
gem	2025.5	海洋人工智能实验室	数学/代码/游戏/问答
MLE-Dojo	2025.5	GIT, 斯坦福	机器学习工程
atropos	2025.4	Nous Research	游戏/代码/工具
InternBootcamp	2025.4	InternBootcamp	编程/问答/游戏
loong	2025.3	CAMEL-AI.org	RLVR
DataSciBench	2025.2	清华大学	数据分析
reasoning-gym	2025.1	open-thought	数学/游戏
llmgym	2025.1	tensorzero	文本游戏/工具
debug-gym	2024.11	微软研究院	调试/游戏/代码
gym-llm	2024.8	Rodrigo Sánchez Molina	控制/游戏
AgentGym	2024.6	复旦大学	网页/游戏
tau-bench	2024.6	Sierra	工具
appworld	2024.6	石溪大学	手机使用
android_world	2024.5	Google 研究院	手机使用
TheAgentCompany	2024.3	CMU, 杜克大学	编程
LlamaGym	2024.3	Rohan Pandey	游戏
visualwebarena	2024.1	CMU	网页
LMRL-Gym	2023.12	UC Berkeley	游戏
OSWorld	2023.10	香港大学、CMU、Salesforce、滑铁卢	计算机使用
webarena	2023.7	CMU	网页
AgentBench	2023.7	清华大学	游戏/网页/问答/工具
WebShop	2022.7	Princeton-NLP	网页
ScienceWorld	2022.3	AllenAI	文本游戏/科学问答
alfworld	2020.10	微软、CMU、华盛顿大学	身体化
factorio-learning-environment	2021.6	JackHopkins	游戏
jericho	2018.10	微软、GIT	文本游戏
TextWorld	2018.6	微软研究院	文本游戏

审核中/等待开源

星标历史

引用

如果您觉得本仓库有用，请考虑引用：

@misc{agentsMeetRL,
  title={当大模型智能体遇到强化学习：全面综述},
  author={AgentsMeetRL 贡献者},
  year={2025},
  url={https://github.com/thinkwee/agentsMeetRL}
}

由 AgentsMeetRL 社区用心制作

AgentsMeetRL 快速上手指南

AgentsMeetRL 并非一个单一的 Python 库，而是一个汇总了使用强化学习（RL）训练大语言模型（LLM）智能体的开源项目清单。它涵盖了从基础框架（如 veRL, OpenRLHF）到具体应用场景（如代码生成、Web 操作、多智能体协作）的各类仓库。

本指南将指导你如何利用该清单选择合适的基础框架，并以目前社区最流行的 OpenRLHF 或 veRL 为例，快速搭建一个 LLM 智能体强化学习环境。

1. 环境准备

在开始之前，请确保你的开发环境满足以下要求。由于强化学习训练对算力要求较高，建议使用配备 NVIDIA GPU 的 Linux 服务器。

操作系统: Linux (Ubuntu 20.04/22.04 推荐)
硬件要求:
- GPU: 至少 1 张 NVIDIA A100/H100 或同等算力显卡 (显存建议 24GB+)
- CPU: 8 核以上
- 内存: 32GB+
软件依赖:
- Python: 3.9 - 3.11
- CUDA: 11.8 或 12.1+
- Git
前置知识: 熟悉 PyTorch 和 Hugging Face Transformers 基础用法。

💡 国内开发者提示: 建议配置国内镜像源以加速依赖下载。

Pip 源：https://pypi.tuna.tsinghua.edu.cn/simple

Hugging Face 镜像：export HF_ENDPOINT=https://hf-mirror.com

2. 安装步骤

由于 AgentsMeetRL 包含多个独立项目，你需要根据需求选择其中一个“基础框架（Base Framework）”进行安装。以下以清单中星数较高且通用的 OpenRLHF 为例（其他如 veRL, trl 安装逻辑类似）。

步骤 2.1: 克隆项目

git clone https://github.com/OpenRLHF/OpenRLHF.git
cd OpenRLHF

步骤 2.2: 创建虚拟环境并安装依赖

推荐使用 Conda 管理环境：

conda create -n openrlhf python=3.10 -y
conda activate openrlhf

# 使用清华源加速安装
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 OpenRLHF 包本身
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

步骤 2.3: 验证安装

检查是否成功导入核心模块：

python -c "import openrlhf; print('OpenRLHF installed successfully!')"

3. 基本使用

以下示例展示如何使用 OpenRLHF 框架，通过 PPO 算法对一个简单的数学推理智能体进行强化学习微调。此流程对应 AgentsMeetRL 分类中的 Base Framework 和 Reasoning 类别。

步骤 3.1: 准备数据

创建一个简单的 JSONL 格式提示文件 prompt.jsonl，每行包含一个用于训练的 prompt：

{"prompt": "Calculate 23 * 45."}
{"prompt": "What is the square root of 144?"}

步骤 3.2: 启动训练

使用 openrlhf 命令行工具启动 PPO 训练。以下命令假设使用本地单卡环境，并加载一个小型预训练模型（如 Qwen-1.5-0.5B 或 TinyLlama）作为演示。

openrlhf train_ppo \
  --pretrain_models Qwen/Qwen1.5-0.5B-Chat \
  --reward_pretrain_models Qwen/Qwen1.5-0.5B-Chat \
  --save_path ./checkpoint/llama-0.5b-ppo \
  --micro_train_batch_size 2 \
  --train_batch_size 8 \
  --micro_rollout_batch_size 4 \
  --rollout_batch_size 8 \
  --max_samples 100 \
  --max_epochs 1 \
  --prompt_max_len 1024 \
  --generate_max_len 1024 \
  --zero_stage 2 \
  --bf16 \
  --actor_learning_rate 5e-7 \
  --critic_learning_rate 9e-6 \
  --init_kl_coef 0.01 \
  --prompt_data prompt.jsonl \
  --input_key prompt \
  --apply_chat_template \
  --normalize_reward \
  --adam_offload \
  --flash_attn \
  --gradient_checkpointing

步骤 3.3: 查看结果

训练完成后，模型权重将保存在 ./checkpoint/llama-0.5b-ppo 目录下。你可以使用 Hugging Face transformers 加载该模型进行测试：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_path = "./checkpoint/llama-0.5b-ppo"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")

input_text = "Calculate 123 + 456."
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

进阶探索: 访问 AgentsMeetRL 交互式看板浏览更多特定领域的项目（如 Web & GUI, Code & SWE, Multi-Agent RL），点击对应项目的 "Click to view technical details" 查看其具体的 Reward 类型和环境配置，重复上述安装步骤即可复用其技术栈。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent