Awesome-RL-for-LRMs

GitHub
2.4k 130 非常简单 1 次阅读 今天MIT开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

Awesome-RL-for-LRMs 是一份由清华大学团队维护的开源综述资源库,专注于“大推理模型中的强化学习”这一前沿领域。随着大语言模型在复杂逻辑推理任务上的需求激增,如何通过强化学习(RL)有效提升模型的推理能力成为关键挑战。该资源库系统性地梳理了相关研究进展,涵盖了从奖励机制设计(如生成式奖励、稠密奖励)、策略优化算法(如基于批评家或无批评家的方法),到前沿模型应用等核心维度。

它主要解决了研究人员和开发者在面对海量碎片化论文时,难以快速把握技术脉络、分类体系及最新突破的痛点。通过结构化的论文列表和清晰的分类导航,Awesome-RL-for-LRMs 帮助用户高效定位关于无监督奖励、在线训练及多智能体协作等关键技术的具体成果。

这份资源特别适合人工智能领域的研究人员、算法工程师以及对大模型推理机制感兴趣的技术爱好者使用。其独特亮点在于不仅提供静态的论文清单,还保持高频更新,及时收录如 SSRL(无需外部搜索的智能体搜索)、MARTI(多智能体强化训练框架)等最新开源项目与理论突破,是探索大模型推理能力进化路径的实用指南。

使用场景

某顶尖 AI 实验室的研究团队正致力于开发下一代具备深度逻辑推理能力的大模型,急需通过强化学习(RL)优化模型的思维链路径。

没有 Awesome-RL-for-LRMs 时

  • 文献检索如大海捞针:研究人员需在 arXiv 上手动筛选海量论文,难以区分哪些是专门针对“大推理模型”的 RL 研究,哪些只是通用 LLM 的微调,效率极低。
  • 技术路线选择盲目:面对生成式奖励、密集奖励或无监督奖励等多种设计范式,团队缺乏系统性的对比视角,容易在错误的奖励函数设计上浪费数周算力资源。
  • 算法复现门槛高:找不到经过验证的策略优化算法(如免 Critic 算法)的最佳实践代码,导致从零复现前沿论文时频繁遇到收敛失败的问题。
  • 领域动态滞后:由于该细分领域更新极快,团队难以实时掌握像 SSRL 或 MARTI 这样的最新框架,导致研发起点落后于社区平均水平。

使用 Awesome-RL-for-LRMs 后

  • 知识获取精准高效:团队直接利用其结构化的论文列表,按“奖励设计”和“策略优化”分类快速锁定几十篇核心文献,将调研时间从两周缩短至两天。
  • 技术方案决策科学:借助综述中对不同奖励机制的深度剖析,团队迅速确定了适合当前任务的“密集奖励 + 策略梯度”组合,避免了无效的试错成本。
  • 工程落地有章可循:通过关联的开源项目链接(如 TTRL、MARTI),研究人员直接参考了成熟的代码实现,大幅降低了算法复现难度并加速了实验迭代。
  • 紧跟前沿保持领先:依托其持续的新闻更新机制,团队第一时间集成了最新的智能体记忆模块研究成果,确保模型架构始终处于行业第一梯队。

Awesome-RL-for-LRMs 不仅是一份文献清单,更是大推理模型研发团队在强化学习探索路上的导航仪与加速器。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个综述列表(Awesome List),主要收集了关于大型推理模型强化学习(RL for LRMs)的论文、前沿模型和相关开源项目链接。它本身不是一个可执行的软件工具或框架,因此没有特定的运行环境、依赖库或硬件需求。用户若需运行列表中提到的具体模型(如 Qwen3, GLM-4.5 等)或代码库(如 SSRL, MARTI 等),需参考各个独立项目的 README 文件以获取相应的环境配置信息。
python未说明
Awesome-RL-for-LRMs hero image

快速开始

大型推理模型的强化学习综述

Awesome Survey Github HF Papers Twitter

我们欢迎各位就尚未提及的相关工作提出议题,我们将在下一次更新中予以回应!

🎉 新闻

  • [2025-11-05] 🔥 很高兴发布关于智能体记忆的论文列表,涵盖上下文管理和经验学习方面的突破性进展,这些进展为自我改进的人工智能智能体提供了强大支持。请查看:GitHub
  • [2025-10] 🎉 荣幸受邀在BAAIQingke Talk以及腾讯Wiztalk上发表演讲!以下是演讲幻灯片:Slides
  • [2025-09-18] 🎉 我们已更新了综述中按类别结构整理的完整论文列表!
  • [2025-09-12] 🎉 我们的综述在🤗 Hugging Face Daily Papers上被评为今日最佳论文#1
  • [2025-09-11] 🔥 很高兴发布我们的大型推理模型强化学习综述!我们很快将用新的分类结构更新完整的论文列表。请查看:论文
  • [2025-08-15] 🔥 推出SSRL:一种无需依赖外部搜索引擎的智能体搜索强化学习研究。请查看:GitHub论文
  • [2025-05-27] 🔥 推出MARTI:一个基于大语言模型的多智能体强化训练与推理框架。请查看:GitHub
  • [2025-04-23] 🔥 推出TTRL:一种开源解决方案,用于在没有真实标签的数据(尤其是测试数据)上进行在线强化学习。请查看:GitHub论文
  • [2025-03-20] 🔥 我们很高兴推出关于推理模型强化学习的论文和项目合集!

🎈 引用

如果您觉得本综述有所帮助,请引用我们的工作:

@article{zhang2025survey,
  title={A survey of reinforcement learning for large reasoning models},
  author={Zhang, Kaiyan and Zuo, Yuxin and He, Bingxiang and Sun, Youbang and Liu, Runze and Jiang, Che and Fan, Yuchen and Tian, Kai and Jia, Guoli and Li, Pengfei and others},
  journal={arXiv preprint arXiv:2509.08827},
  year={2025}
}

📖 目录

🗺️ 概述

本综述全面探讨了大型推理模型的强化学习

大型推理模型强化学习综述概览

我们将综述分为五个主要部分:

  1. 基础组件: 奖励设计、策略优化和采样策略
  2. 基础问题: 大型推理模型强化学习中的关键争论与挑战
  3. 训练资源: 静态语料库、动态环境和基础设施
  4. 应用: 不同领域的实际应用
  5. 未来方向: 新兴的研究机遇与挑战

📄 论文列表

前沿模型

日期 名称 标题 论文 Github
2025-08 Intern-S1 Intern-S1:科学多模态基础模型 论文 GitHub 星标
2025-08 GLM-4.5 GLM-4.5:智能体、推理与编码(ARC)基础模型 论文 GitHub 星标
2025-08 gpt-oss gpt-oss-120b & gpt-oss-20b 模型卡片 论文 GitHub 星标
2025-08 InternVL3.5 InternVL3.5:在通用性、推理能力和效率方面推进开源多模态模型 论文 GitHub 星标
2025-07 Kimi K2 Kimi K2:开放的智能体式人工智能 论文 GitHub 星标
2025-07 Step 3 Step-3:规模大但价格亲民——面向低成本解码的模型与系统协同设计 论文 GitHub 星标
2025-07 GLM-4.1V-Thinking GLM-4.5V 和 GLM-4.1V-Thinking:迈向基于可扩展强化学习的多功能多模态推理 论文 GitHub 星标
2025-07 Skywork-R1V3 Skywork-R1V3 技术报告 论文 GitHub 星标
2025-07 GLM-4.5V GLM-4.5V 和 GLM-4.1V-Thinking:迈向基于可扩展强化学习的多功能多模态推理 论文 GitHub 星标
2025-06 Magistral Magistral 论文 -
2025-06 Minimax-M1 MiniMax-M1:利用闪电注意力高效扩展推理时计算资源 论文 GitHub 星标
2025-05 MiMo MiMo:释放语言模型的推理潜力——从预训练到后训练 论文 GitHub 星标
2025-05 Qwen3 Qwen3 技术报告 论文 GitHub 星标
2025-05 Llama-Nemotron-Ultra Llama-Nemotron:高效推理模型 论文 GitHub 星标
2025-05 INTELLECT-2 INTELLECT-2:通过全球去中心化强化学习训练的推理模型 论文 -
2025-05 Hunyuan-TurboS Hunyuan-TurboS:通过 Mamba-Transformer 协同与自适应思维链推进大型语言模型 论文 GitHub 星标
2025-05 Skywork OR-1 Skywork 开放推理器 1 技术报告 论文 GitHub 星标
2025-04 Phi-4 Reasoning Phi-4-reasoning 技术报告 论文 -
2025-04 Skywork-R1V2 Skywork R1V2:用于推理的多模态混合强化学习 论文 GitHub 星标
2025-04 InternVL3 InternVL3:探索开源多模态模型的高级训练与推理时策略 论文 GitHub 星标
2025-03 ORZ Open-Reasoner-Zero:在基础模型上扩展强化学习的开源方法 论文 GitHub 星标
2025-01 DeepSeek-R1 DeepSeek-R1:通过强化学习激励大型语言模型的推理能力 论文 GitHub 星标
- QwQ QwQ-32B:拥抱强化学习的力量 博客 GitHub 星标
- Seed-OSS Seed-OSS 开源模型 论文 GitHub 星标
- ERNIE-4.5-Thinking ERNIE 4.5 技术报告 博客 -

奖励设计

生成式奖励

日期 名称 标题 论文 Github
2025-08 CAPO CAPO:通过可验证的生成式信用分配提升大模型推理能力 论文 GitHub Star
2025-08 CompassVerifier CompassVerifier:用于大模型评估与结果奖励的统一且鲁棒的验证器 论文 GitHub Star
2025-08 Cooper Cooper:在大语言模型强化学习中协同优化策略与奖励模型 论文 GitHub Star
2025-08 ReviewRL ReviewRL:迈向基于强化学习的自动化科学评审 论文 GitHub Star
2025-08 Rubicon 基于评分标准锚点的强化学习 论文 -
2025-08 RuscaRL 打破探索瓶颈:面向通用大模型推理的评分标准辅助强化学习 论文 -
2025-07 OMNI-THINKER OMNI-THINKER:通过混合奖励的多任务强化学习提升大模型跨领域泛化能力 论文 -
2025-07 URPO URPO:面向大语言模型的统一奖励与策略优化框架 论文 -
2025-07 RaR 评分标准即奖励:超越可验证领域的强化学习 论文 -
2025-07 RLCF 对齐语言模型时,检查清单比奖励模型更有效 论文 -
2025-07 PCL 针对语言模型的完成后学习 论文 -
2025-07 K2 KIMI K2:开放的代理智能 论文 -
2025-07 LIBRA LIBRA:通过学会思考来评估和改进奖励模型 论文 -
2025-07 TP-GRPO 善于学习者会反思自己的思维:生成式PRM使大型推理模型成为更高效的数学学习者 论文 GitHub Star
2025-06 RewardAnything RewardAnything:可泛化的遵循原则的奖励模型 论文 博客
2025-06 Writing-Zero Writing-Zero:弥合不可验证任务与可验证奖励之间的鸿沟 论文 -
2025-06 Critique-GRPO Critique-GRPO:利用自然语言和数值反馈推进大模型推理 论文 GitHub Star
2025-06 PAG PAG:以策略作为生成式验证器的多轮强化大模型自我修正 论文 -
2025-06 GRAM GRAM:用于奖励泛化的生成式基础奖励模型 论文 GitHub Star
2025-06 ProxyReward 从通用到定向奖励:在开放式长上下文生成任务中超越GPT-4 论文 -
2025-06 QA-LIGN QA-LIGN:通过宪法式分解问答对大模型进行对齐 论文 -
2025-05 RM-R1 RM-R1:将奖励建模视为推理 论文 GitHub Star
2025-05 J1 J1:通过强化学习激励“法官型”大模型思考 论文 -
2025-05 TinyV TinyV:减少验证中的假阴性有助于提升大模型推理的强化学习效果 论文 GitHub Star
2025-05 General-Reasoner General-reasoner:推动大模型在所有领域的推理能力 论文 -
2025-05 RRM 奖励推理模型 论文 -
2025-05 RL Tango RL Tango:为语言推理同时强化生成器与验证器 论文 GitHub Star
2025-05 Think-RM Think-RM:在生成式奖励模型中实现长 horizon 推理 论文 GitHub Star
2025-04 JudgeLRM JudgeLRM:将大型推理模型用作评判者 论文 GitHub Star
2025-04 GenPRM GenPRM:通过生成式推理扩展过程奖励模型的测试时计算规模 论文 GitHub Star
2025-04 DeepSeek-GRM 通用奖励建模的推理时扩展 论文 -
2025-04 AIR AIR:偏好数据集中标注、指令与响应对的系统性分析 论文 -
2025-04 Pairwise-RL 用于RLHF的统一成对框架:连接生成式奖励建模与策略优化 论文 -
2025-04 xVerify xVerify:高效推理模型评估用答案验证器 论文 GitHub Star
2025-04 Seed-Thinking-v1.5 Seed1.5-Thinking:借助强化学习推进卓越推理模型的发展 论文 -
2025-04 ThinkPRM 会思考的进程奖励模型 论文 GitHub Star
2025-03 - 跨越奖励之桥:通过可验证奖励在不同领域扩展强化学习 论文 -
2025-02 - 数学推理的自奖励修正 论文 GitHub Star
2024-10 GenRM 生成式奖励模型 论文 -
2024-08 CLoud 大声批评型奖励模型 论文 GitHub Star
2024-08 Generative Verifier 生成式验证器:将奖励建模视为下一个词预测 论文 -
2024-01 Self-Rewarding LM 自奖励语言模型 论文 -
2023-10 Auto-J 用于评估对齐情况的生成式评判者 论文 GitHub Star
2023-06 Judge LLM-as-a-Judge 使用mt-bench和chatbot arena评判“法官型”大模型 论文 GitHub Star

密集奖励

日期 名称 标题 论文 Github
2025-09 Tree-GRPO 面向LLM智能体强化学习的树搜索 论文 GitHub Star
2025-09 AttnRL 注意力作为指南针:推理模型中基于过程监督的强化学习的高效探索 论文 GitHub Star
2025-09 TARL 面向交互式多模态工具使用智能体的过程监督强化学习 论文 -
2025-09 PROF 不止于正确性:通过强化学习训练协调过程与结果奖励 论文 GitHub Star
2025-09 HICRA 通过强化学习在LLM中涌现层次化推理 论文 -
2025-08 KlearReasoner Klear-Reasoner:通过梯度保持剪裁策略优化提升推理能力 论文 GitHub Star
2025-08 CAPO CAPO:通过可验证的生成式信用分配增强LLM推理能力 论文 GitHub Star
2025-08 GTPO & GRPO-S GTPO和GRPO-S:结合策略熵的标记级和序列级奖励塑造 论文 -
2025-08 VSRM 通过可验证的逐步奖励促进高效推理 论文 -
2025-08 G-RA 基于门控奖励稳定长期多轮强化学习 论文 -
2025-08 SSPO SSPO:用于过程监督和推理压缩的自追踪逐步偏好优化 论文 -
2025-08 AIRL-S 你的RL奖励函数就是最好的PRM用于搜索:统一RL与基于搜索的TTS 论文 -
2025-08 TreePO TreePO:利用启发式树状建模弥合策略优化、有效性与推理效率之间的差距 论文 GitHub Star
2025-08 MUA-RL MUA-RL:面向代理式工具使用的多轮用户交互智能体强化学习 论文 -
2025-07 SPRO 通过重新定义逐步优势进行自我引导的过程奖励优化,以加强过程强化 论文 -
2025-07 FR3E 首次返回,激发熵的探索 论文 -
2025-07 ARPO 代理式强化策略优化 论文 GitHub Star
2025-07 TP-GRPO 好的学习者会思考自己的思维:生成式PRM使大型推理模型成为更高效的数学学习者 论文 GitHub Star
2025-06 TreeRPO TreeRPO:树相对策略优化 论文 GitHub Star
2025-06 TreeRL TreeRL:基于在线策略树搜索的LLM强化学习 论文 GitHub Star
2025-06 Entropy Advantage 带有探索的推理:LLM强化学习的熵视角 论文 -
2025-06 ReasonFlux-PRM ReasonFlux-PRM:面向LLM长链式思维推理的轨迹感知PRM 论文 GitHub Star
2025-05 S-GRPO S-GRPO:通过强化学习实现推理模型的早期退出 论文 -
2025-05 GiGPO 面向LLM智能体训练的组内组策略优化 论文 GitHub Star
2025-05 - 通过轮次级信用分配强化LLM智能体的多轮推理 论文 -
2025-05 Tango RL探戈:联合强化生成器与验证器进行语言推理 论文 GitHub Star
2025-05 StepSearch StepSearch:通过逐步近端策略优化激发LLM的搜索能力 论文 GitHub Star
2025-05 - 通过大型语言模型奖励分解,使对话智能体与全局反馈对齐 论文 -
2025-05 Tool-Star Tool-Star:通过强化学习赋能LLM驱动的多工具推理者 论文 GitHub Star
2025-05 SPA-RL SPA-RL:通过逐步进展归因强化LLM智能体 论文 GitHub Star
2025-05 SPO 段落策略优化:大型语言模型RL中的有效段级信用分配 论文 GitHub Star
2025-04 GenPRM GenPRM:通过生成式推理扩展过程奖励模型的测试时计算 论文 GitHub Star
2025-04 PURE 停止求和:最小形式的信用分配就是过程奖励模型进行推理所需要的全部 论文 GitHub Star
2025-03 MRT 通过元强化微调优化测试时计算 论文 GitHub Star
2025-03 SWEET-RL SWEET-RL:在协作推理任务上训练多轮LLM智能体 论文 GitHub Star
2025-02 PRIME 通过隐式奖励进行过程强化 论文 GitHub Star
2024-12 Implicit PRM 无需过程标签即可获得免费的过程奖励 论文 GitHub Star
2024-10 VinePPO VinePPO:改进LLM RL训练中的信用分配 论文 GitHub Star
2024-10 PAV 奖励进展:扩展用于LLM推理的自动化过程验证器 论文 -
2024-04 - 从$r$到$Q^*$:你的语言模型其实是一个Q函数 论文 -
2024-03 GELI 通过将一次全局显式标注分解为局部隐式多模态反馈来改进对话智能体 论文 -
2023-12 Math-Shepherd Math-Shepherd:无需人工标注即可逐步验证并强化LLM 论文 -
2023-05 PRM800K 让我们一步步验证吧 论文 GitHub Star
2022-11 - 利用过程与结果反馈解决数学应用题 论文 -

无监督奖励

日期 名称 标题 论文 Github
2025-09 Vision-Zero Vision-Zero:通过策略性游戏化自我博弈实现可扩展的多模态语言模型自我改进 论文 GitHub 星标
2025-08 Co-Reward Co-Reward:基于对比一致性的自监督强化学习用于大语言模型推理 论文 GitHub 星标
2025-08 SQLM 自提问语言模型 论文 GitHub 星标
2025-08 R-zero R-Zero:从零数据开始自我演化的推理型大语言模型 论文 GitHub 星标
2025-08 ETTRL ETTRL:通过熵机制在大语言模型测试时强化学习中平衡探索与利用 论文 -
2025-07 RLSF 基于自我反馈的强化学习对大语言模型进行后训练 论文 -
2025-06 RLSC 只需置信度:语言模型的小样本强化学习微调 论文 -
2025-06 RPT 强化预训练 论文 -
2025-06 CoVo 一致性路径通向真理:用于大语言模型推理的自奖励强化学习 论文 GitHub 星标
2025-06 SEAL 自适应语言模型 论文 -
2025-06 Spurious Rewards 虚假奖励:重新思考 RLVR 中的训练信号 论文 GitHub 星标
2025-06 No Free Lunch 没有免费的午餐:重新思考大语言模型推理的内部反馈 论文 -
2025-05 Absolute Zero Absolute Zero:零数据下的强化自我博弈推理 论文 GitHub 星标
2025-05 EM-RL 熵最小化在大语言模型推理中的不合理有效性 论文 GitHub 星标
2025-05 SSR-Zero SSR-Zero:用于机器翻译的简单自奖励强化学习 论文 GitHub 星标
2025-05 - 来自格式和长度的代理信号:无需真实答案的强化学习解决数学问题 论文 GitHub 星标
2025-05 RLIF 学习在没有外部奖励的情况下进行推理 论文 GitHub 星标
2025-05 SeRL SeRL:针对有限数据的大语言模型自我博弈强化学习 论文 GitHub 星标
2025-05 SRT 大型推理模型能否自我训练? 论文 GitHub 星标
2025-05 RENT-RL 单纯最大化置信度即可提升推理能力 论文 GitHub 星标
2025-04 EMPO 正确的问题本身就是答案的一半:完全无监督的大语言模型推理激励机制 论文 GitHub 星标
2025-04 TRANS-ZERO TRANS-ZERO:自我博弈激励大语言模型进行无平行语料的多语言翻译 论文 GitHub 星标
2025-04 TTRL TTRL:测试时强化学习 论文 GitHub 星标
2025-04 One-Shot-RLVR 使用单个训练样例对大语言模型进行推理强化学习 论文 GitHub 星标
2025-02 CAGSR 一种使用交叉注意力信号对大语言模型进行微调的自监督强化学习方法 论文 -
2024-07 MINIMO 从内在动机出发学习形式数学 论文 GitHub 星标

奖励塑造

日期 名称 标题 论文 GitHub
2025-09 CDE CDE:用于大型语言模型高效强化学习的 curiosity-driven 探索 论文 -
2025-09 DARLING 联合强化语言模型生成中的多样性和质量 论文 GitHub 星标
2025-09 DRER 通过 RL 增强的思维链重新思考大型语言模型中的推理质量 论文 -
2025-09 OBE 面向 LLM 推理的基于结果的探索 论文 -
2025-08 Pass@kTraining 用于自适应平衡大型推理模型探索与利用的 Pass@k 训练 论文 GitHub 星标
2025-05 PKPO Pass@K 策略优化:解决更难的强化学习问题 论文 -
2025-05 rl-without-gt 来自格式和长度的替代信号:无需真实答案的数学问题求解强化学习 论文 GitHub 星标
2025-03 CrossDomain-RLVR 跨越奖励之桥:通过可验证奖励拓展跨不同领域的强化学习 论文 -
2025-01 DeepSeek-R1 DeepSeek-R1:通过强化学习激励 LLM 的推理能力 论文 GitHub 星标
2024-09 Qwen2.5-Math Qwen2.5-math 技术报告:通过自我改进迈向数学专家模型 论文 GitHub 星标

策略优化

策略梯度目标

日期 名称 标题 论文 GitHub
2017-07 PPO 近端策略优化算法 论文 -
- PG 带函数近似的强化学习策略梯度方法。 论文 -
- REINFORCE 用于联结主义强化学习的简单统计梯度跟踪算法 论文 -
- TRPO 信任区域策略优化 论文 -

基于评价器的算法

日期 名称 标题 论文 Github
2025-08 VL-DAC 在合成世界中利用强化学习提升视觉-语言模型训练,以实现现实世界的成功 论文 GitHub 星标
2025-08 VRPO VRPO:在噪声监督下重新思考价值建模以进行稳健的强化学习训练 论文 -
2025-05 VerIPO VerIPO:具有迭代策略优化的长推理视频-R1模型 论文 GitHub 星标
2025-04 VAPO Vapo:用于高级推理任务的高效且可靠的强化学习 论文 -
2025-03 VCPPO PPO在长CoT中崩溃的背后是什么?价值优化才是关键 论文 -
2025-03 Open reasoner-zero open reasoner-zero:一种在基础模型上扩展强化学习的开源方法 论文 GitHub 星标
2025-02 PRIME 通过隐式奖励进行过程强化 论文 GitHub 星标
2024-12 Implicit PRM 无需过程标签即可获得免费的过程奖励 论文 GitHub 星标
2023-12 Math-shepherd Math-shepherd:无需人工标注即可逐步验证并强化LLM 论文 -
2015-06 GAE 使用广义优势估计进行高维连续控制 论文 -
- Autopsv Autopsv:自动化过程监督验证器。 论文 GitHub 星标

无评论家算法

日期 名称 标题 论文 Github
2025-09 UPGE 面向大型语言模型后训练的统一视角 论文 GitHub Star
2025-09 SPO 单流策略优化 论文 -
2025-08 LitePPO 第一部分:技巧还是陷阱?深入探讨用于LLM推理的强化学习 论文 -
2025-07 R1-RE R1-RE:基于RLVR的跨领域关系抽取 论文 -
2025-07 GSPO 群组序列策略优化 论文 -
2025-06 CISPO MiniMax-M1:通过闪电注意力高效扩展推理时计算 论文 GitHub Star
2025-05 KRPO 基于卡尔曼滤波增强的群组相对策略优化,用于语言模型推理 论文 GitHub Star
2025-05 CPGD CPGD:迈向稳定的语言模型规则基强化学习 论文 GitHub Star
2025-05 NFT 在数学推理中弥合监督学习与强化学习 论文 -
2025-05 Clip-Cov/KL-Cov 强化学习在推理型语言模型中的熵机制 论文 GitHub Star
2025-03 OpenVLThinker OpenVLThinker:通过迭代SFT-RL循环实现复杂的视觉-语言推理 论文 GitHub Star
2025-03 DAPO DAPO:大规模开源LLM强化学习系统 论文 GitHub Star
2025-03 Dr. GRPO 理解类似R1-Zero的训练:一个关键视角 论文 GitHub Star
2025-01 Kimi k1.5 Kimi k1.5:利用LLM扩展强化学习 论文 -
2024-02 RLOO 回归基础:重新审视针对LLM人类反馈学习的强化风格优化 论文 -
2024-02 GRPO DeepSeekMath:突破开放语言模型的数学推理极限 论文 GitHub Star
2023-10 ReMax ReMax:一种简单、有效且高效的大型语言模型对齐方法 论文 GitHub Star
- REINFORCE 用于联结主义强化学习的简单统计梯度跟随算法 论文 -
- REINFORCE++ REINFORCE++:一种对提示和奖励模型均具有鲁棒性的高效RLHF算法 论文 GitHub Star
- VinePPO VINEPPO:通过精细化信用分配释放LLM推理的RL潜力 论文 GitHub Star
- FlashRL 基于量化回放的快速RL训练 论文 GitHub Star

离策略优化

日期 名称 标题 论文 Github
2025-09 BRIDGE 超越两阶段训练:LLM 推理中的协作式 SFT 和 RL 论文 GitHub 星标
2025-09 HPT 通往大语言模型后训练统一视角之路 论文 GitHub 星标
2025-08 DFT 关于 SFT 的泛化:基于奖励校正的强化学习视角 论文 GitHub 星标
2025-08 RED 回忆-扩展动力学:通过可控探索与精细化离线整合提升小型语言模型性能 论文 GitHub 星标
2025-07 Prefix‑RFT 使用前缀采样融合监督与强化微调 论文 -
2025-07 ReMix 挤干湿海绵:面向大语言模型的高效离策略强化微调 论文 GitHub 星标
2025-06 ReLIFT 学习强化学习无法做到的事:针对最难问题的交错式在线微调 论文 GitHub 星标
2025-06 BREAD BREAD:基于专家锚点的分支式 rollout,连接 SFT 和 RL 以实现推理 论文 -
2025-06 SRFT SRFT:一种结合监督与强化微调的单阶段推理方法 论文 -
2025-05 AMPO 通过模式策略优化实现社交语言代理的自适应思维 论文 GitHub 星标
2025-05 UFT UFT:统一监督与强化微调 论文 GitHub 星标
2025-04 LUFFY 在离策略指导下学习推理 论文 GitHub 星标
2025-03 SPO 软策略优化:面向序列模型的在线离策略 RL 论文 GitHub 星标
2025-03 TOPR TAPERED OFF-POLICY REINFORCE:稳定高效的 LLM 强化学习 论文 -
2024-05 IFT 直观微调:迈向将对齐简化为单一过程 论文 GitHub 星标
2023-05 DPO 直接偏好优化:你的语言模型其实是一个奖励模型 论文 -
2015-11 - 深度卷积网络的定点量化 论文 -
- - 你的高效 RL 框架其实暗中为你带来了离策略 RL 训练 论文 GitHub 星标

离策略优化(经验回放)

日期 名称 标题 论文 Github
2025-09 SAPO 分享即关怀:通过集体强化学习经验共享实现高效的语言模型后训练 论文 -
2025-09 SEELE 停留在最佳状态:基于能力自适应提示支架的响应式推理进化 论文 GitHub 星标
2025-08 Memory-R1 Memory-R1:通过强化学习增强大型语言模型智能体的记忆管理与利用能力 论文 -
2025-07 RLEP RLEP:面向LLM推理的带经验回放的强化学习 论文 GitHub 星标
2025-06 EFRame EFRame:基于探索-过滤-重放强化学习框架的深度推理 论文 GitHub 星标
2025-05 ARPO ARPO:带有经验回放的GUI智能体端到端策略优化 论文 GitHub 星标
2025-04 - 通过回顾性回放提升LLM推理的强化学习探索 论文 -

正则化目标

日期 名称 标题 论文 Github
2025-10 ASPO ASPO:非对称重要性采样策略优化 论文 GitHub Star数
2025-09 CE-GPPO CE-GPPO:强化学习中基于梯度保留剪裁的协调熵策略优化 论文 GitHub Star数
2025-09 CDE CDE:用于大语言模型高效强化学习的 curiosity-driven 探索 论文 -
2025-09 DPH RL 散度的选择:可验证奖励下缓解强化学习多样性崩溃被忽视的关键 论文 GitHub Star数
2025-09 empgseed-seed 利用不确定性:面向长时序 LLM 代理的熵调节策略梯度 论文 -
2025-07 Archer 稳定知识,促进推理:RLVR 的双令牌约束 论文 GitHub Star数
2025-06 Bingo Bingo:通过动态且基于重要性的强化学习提升 LLM 的高效推理能力 论文 GitHub Star数
2025-06 HighEntropy RL 超越 80/20 法则:高熵少数令牌驱动 LLM 推理的有效强化学习 论文 -
2025-06 Entropy RL 带探索的推理:LLM 强化学习的熵视角 论文 -
2025-06 ALP RL 恰到好处的思考:自适应长度惩罚强化学习实现高效推理 论文 -
2025-05 DisCO DisCO:利用判别式约束优化强化大型推理模型 论文 GitHub Star数
2025-05 Skywork OR1 Skywork Open Reasoner 1 技术报告 论文 GitHub Star数
2025-05 Entropy Mechanism 推理语言模型强化学习的熵机制 论文 GitHub Star数
2025-05 ProRL ProRL:延长强化学习时间扩大大语言模型的推理边界 论文 -
2025-05 Short RL 通过长度感知优化实现推理模型的高效强化学习训练 论文 GitHub Star数
2025-03 DAPO DAPO:大规模开源 LLM 强化学习系统 论文 -
2025-03 L1 L1:利用强化学习控制推理模型的思考时长 论文 GitHub Star数

采样策略

动态与结构化采样

日期 名称 标题 论文 Github
2025-10 EEPO EEPO:通过先采样后遗忘增强探索的策略优化 论文 GitHub Star
2025-09 AttnRL 注意力作为指南:推理模型中基于过程监督的强化学习高效探索 论文 -
2025-09 DACE 知道何时探索:难度感知置信度作为大语言模型强化学习的指导 论文 -
2025-09 Parallel-R1 Parallel-R1:通过强化学习实现并行思维 论文 GitHub Star
2025-08 G^2RPO-A G^2RPO-A:自适应引导下的引导式群体相对策略优化 论文 GitHub Star
2025-08 RuscaRL 打破探索瓶颈:用于通用大语言模型推理的评分标准支撑强化学习 论文 -
2025-08 TreePO TreePO:利用启发式树状建模弥合策略优化与推理效率之间的差距 论文 GitHub Star
2025-07 ARPO 主体式强化策略优化 论文 GitHub Star
2025-06 TreeRPO TreeRPO:树状相对策略优化 论文 GitHub Star
2025-06 E2H 由易到难的任务课程式强化学习提升大语言模型推理能力 论文 -
2025-06 TreeRL TreeRL:基于策略树搜索的大语言模型强化学习 论文 GitHub Star
2025-05 ToTRL ToTRL:通过解谜解锁大语言模型思维树推理潜力 论文 -
2025-03 DARS DARS:通过动态动作重采样和自适应树遍历提升编码智能体性能 论文 GitHub Star
2025-03 DAPO DAPO:大规模开源大语言模型强化学习系统 论文 GitHub Star
2025-02 PRIME 通过隐式奖励进行过程强化 论文 GitHub Star
- POLARIS POLARIS:一种针对先进推理模型的强化学习规模化后训练方案 博客 GitHub Star

采样超参数

日期 名称 标题 论文 Github
2025-08 GFPO 多采样少思考:用于简洁推理的分组过滤策略优化 论文 -
2025-06 AceReason-Nemotron 1.1 AceReason-Nemotron 1.1:通过SFT与RL协同推进数学与代码推理 论文 -
2025-06 T-PPO 截断近端策略优化 论文 -
2025-06 Confucius3-Math Confucius3-Math:面向中国中小学数学学习的轻量级高性能推理LLM 论文 GitHub Star
2025-05 E3-RL4LLMs 提升LLM强化学习中的效率与探索能力 论文 GitHub Star
2025-05 AceReason-Nemotron AceReason-Nemotron:通过强化学习推进数学和代码推理 论文 -
2025-05 Pro-RL ProRL:延长型强化学习拓展大语言模型的推理边界 论文 -
2025-03 - 输出长度对DeepSeek-R1强制思维安全性的影响 论文 -
2025-03 DAPO DAPO:大规模开源LLM强化学习系统 论文 GitHub Star
2025-02 PRIME 通过隐式奖励进行过程强化 论文 GitHub Star
2025-02 - 训练语言模型以高效推理 论文 -
- DeepScaleR DeepScaleR:通过强化学习扩展,以1.5B模型超越O1预览 论文 GitHub Star
- POLARIS POLARIS:针对高级推理模型的训练后强化学习扩展方案 论文 GitHub Star

训练资源

静态语料库(代码)

日期 名称 标题 论文 Github
2025-05 rStar-Coder rStar-Coder:利用大规模验证数据集扩展竞赛编程推理能力 论文 GitHub Star数
2025-04 Z1 Z1:基于代码的高效测试时扩展 论文 GitHub Star数
2025-04 OpenCodeReasoning OpenCodeReasoning:推进竞赛编程的数据蒸馏技术 论文 -
2025-04 LeetCodeDataset LeetCodeDataset:用于代码大模型稳健评估与高效训练的时间序列数据集 论文 GitHub Star数
2025-03 KodCode KodCode:多样化、高挑战性且可验证的合成编程数据集 论文 -
2025-01 SWE-Fixer SWE-Fixer:训练开源大模型以高效解决 GitHub 问题 论文 GitHub Star数
2024-12 SWE-Gym 使用 SWE-Gym 训练软件工程智能体和验证器 论文 GitHub Star数
- Code-R1 Code-R1:通过可靠奖励重现代码领域的 R1 论文 GitHub Star数
- codeforces-cots CodeForces CoTs 论文 -
- DeepCoder DeepCoder:O3-mini 级别的全开源 14B 编码器 博客 GitHub Star数

静态语料库(STEM)

日期 名称 标题 论文 Github
2025-09 SSMR-Bench 为评估与强化学习合成乐谱问题 论文 GitHub Star数
2025-09 Loong Loong:通过验证器大规模合成长链式思维 论文 GitHub Star数
2025-07 MegaScience MegaScience:推动科学推理后训练数据集的前沿 论文 -
2025-06 ReasonMed ReasonMed:一个由多智能体生成的 37 万条数据集,用于推进医学推理 论文 GitHub Star数
2025-05 ChemCoTDataset 超越化学问答:用模块化化学操作评估大模型的化学推理能力 论文 -
2025-02 NaturalReasoning NaturalReasoning:在真实场景中使用 280 万个高挑战性问题进行推理 论文 -
2025-01 SCP-116K SCP-116K:高质量的问题-解答数据集,以及高等教育科学领域自动化提取的通用流程 论文 -

静态语料库(数学)

日期 名称 标题 论文 Github
2025-07 MiroMind-M1-RL-62K MiroMind-M1:基于上下文感知多阶段策略优化的开源数学推理进展 论文 GitHub 星标
2025-04 DeepMath DeepMath-103K:用于推进推理的大规模、具有挑战性、去污染且可验证的数学数据集 论文 GitHub 星标
2025-04 OpenMathReasoning AIMO-2 冠军方案:使用 OpenMathReasoning 数据集构建最先进的数学推理模型 论文 GitHub 星标
2025-03 STILL-3-RL 关于激发和改进 R1 类推理模型的实证研究 论文 GitHub 星标
2025-03 Light-R1 Light-R1:从零开始及更进一步的长 COT 课程化 SFT、DPO 和 RL 论文 -
2025-03 DAPO DAPO:大规模开源 LLM 强化学习系统 论文 GitHub 星标
2025-03 OpenReasoningZero Open-Reasoner-Zero:在基础模型上扩展强化学习的开源方法 论文 GitHub 星标
2025-02 PRIME 通过隐式奖励进行过程强化 论文 GitHub 星标
2025-02 LIMO Limo:少即是多,用于推理 论文 GitHub 星标
2025-02 LIMR Limr:少即是多,用于 RL 扩展 论文 GitHub 星标
2025-02 Big-MATH Big-Math:用于语言模型中强化学习的大规模高质量数学数据集 论文 -
- NuminaMath 1.5 Numinamath:ai4maths 领域内最大的公开数据集,包含 86 万对竞赛数学题目与解答 论文 GitHub 星标
- OpenR1-Math Open R1:DeepSeek-R1 的完全开源复现 博客 GitHub 星标
- DeepScaleR DeepScaleR:通过 RL 扩展超越 O1 预览版的 15 亿参数模型 论文 -

静态语料库(代理)

日期 名称 标题 论文 Github
2025-08 ASearcher 超越十步:利用大规模异步强化学习解锁长 horizon 的智能体搜索 论文 -
2025-07 WebShaper WebShaper:通过信息搜索形式化实现智能体式数据合成 论文 -
2025-05 ZeroSearch ZeroSearch:无需实际搜索即可激励大模型的搜索能力 论文 GitHub 星标
2025-04 ToolRL ToolRL:奖励是工具学习所需的一切 论文 GitHub 星标
2025-03 Search-R1 Search-R1:利用强化学习训练大模型进行推理并调用搜索引擎 论文 GitHub 星标
2025-03 ToRL ToRL:扩展工具集成的强化学习 论文 GitHub 星标
- MicroThinker MiroVerse V0.1:一个可复现、全轨迹、不断增长的深度研究数据集 论文 -
2025-03 DeepRetrieval DeepRetrieval:利用强化学习通过大语言模型“黑掉”真实搜索引擎和检索器 论文 GitHub 星标

静态语料库(混合)

日期 名称 标题 论文 Github
2025-08 Graph-R1 Graph-R1:用 NP-Hard 图问题释放大模型的推理能力 论文 -
2025-06 RewardAnything RewardAnything:可泛化的遵循原则的奖励模型 论文 博客
2025-06 guru-RL-92k 从跨领域视角重新审视用于大模型推理的强化学习 论文 -
2025-05 Llama-Nemotron-PT Llama-Nemotron:高效推理模型 论文 -
2025-05 SkyWork OR1 Skywork 开放推理器 1 技术报告 论文 GitHub 星标
2025-03 OpenVLThinker OpenVLThinker:通过迭代 SFT-RL 循环实现复杂的视觉-语言推理 论文 GitHub 星标
- AM-DS-R1-0528-Distilled AM-DeepSeek-R1-0528-蒸馏版 论文 GitHub 星标
- dolphin-r1 海豚 R1 数据集 论文 -
- SYNTHETIC-1/2 SYNTHETIC-1 发布:来自 Deepseek-R1 的两百万条协作生成的推理轨迹 博客 -

动态环境(基于规则)

日期 名称 标题 论文 Github
2025-06 ProtoReasoning ProtoReasoning:以原型为基础实现大模型的可泛化推理 论文 -
2025-05 SynLogic SynLogic:大规模合成可验证推理数据,用于学习逻辑推理及其他任务 论文 GitHub 星标
2025-05 Reasoning Gym REASONING GYM:具有可验证奖励的强化学习推理环境 论文 GitHub 星标
2025-05 Enigmata Enigmata:利用合成可验证谜题扩展大语言模型的逻辑推理能力 论文 GitHub 星标
2025-02 AutoLogi AutoLogi:自动构建逻辑谜题,用于评估大语言模型的推理能力 论文 GitHub 星标
2025-02 Logic-RL Logic-RL:基于规则的强化学习释放大模型的推理潜能 论文 GitHub 星标

动态环境(代码类)

日期 名称 标题 论文 Github
2025-06 AgentCPM-GUI AgentCPM-GUI:通过强化微调构建移动端可用的智能体 论文 GitHub 星标
2025-06 MedAgentGym MedAgentGym:大规模训练基于代码的医学推理大模型智能体 论文 GitHub 星标
2025-05 MLE-Dojo MLE-Dojo:赋能机器学习工程领域大模型智能体的交互式环境 论文 GitHub 星标
2025-05 SWE-rebench SWE-rebench:软件工程智能体的任务收集与去污评估自动化流水线 论文 -
2025-05 ZeroGUI ZeroGUI:零人力成本的在线 GUI 自动化学习 论文 GitHub 星标
2025-04 R2E-Gym R2E-Gym:程序化环境生成与混合验证器,助力开放权重软件工程智能体规模化 论文 GitHub 星标
2025-03 ReSearch ReSearch:通过强化学习让大模型学会搜索式推理 论文 GitHub 星标
2025-02 MLGym MLGym:推进 AI 研究智能体的新框架与基准 论文 GitHub 星标
2024-07 AppWorld AppWorld:用于评测交互式编程智能体的可控应用与人物世界 论文 GitHub 星标

动态环境(游戏类)

日期 名称 标题 论文 Github
2025-08 PuzzleJAX PuzzleJAX:推理与学习的基准测试 论文 GitHub 星标
2025-06 Play to Generalize Play to Generalize:通过游戏玩乐学习推理 论文 GitHub 星标
2025-06 Optimus-3 Optimus-3:迈向具有可扩展任务专家的通用多模态 Minecraft 智能体 论文 GitHub 星标
2025-05 lmgame-Bench lmgame-Bench:大语言模型在玩游戏方面表现如何? 论文 GitHub 星标
2025-05 G1 G1:通过强化学习自举视觉-语言模型的感知与推理能力 论文 GitHub 星标
2025-05 Code2Logic Code2Logic:基于游戏代码的数据合成以增强 VLM 的通用推理能力 论文 GitHub 星标
2025-05 KORGym KORGym:用于 LLM 推理评估的动态游戏平台 论文 GitHub 星标
2025-04 Cross-env-coop 跨环境合作实现零样本多智能体协作 论文 GitHub 星标
2022-03 ScienceWorld ScienceWorld:你的智能体比五年级学生更聪明吗? 论文 GitHub 星标
2020-10 ALFWorld ALFWorld:对齐文本与具身环境以实现交互式学习 论文 GitHub 星标

动态环境(基于模型)

日期 名称 标题 论文 Github
2025-06 SwS SwS:强化学习中基于自我意识的弱点驱动问题合成,用于 LLM 推理 论文 GitHub 星标
2025-06 SPIRAL SPIRAL:零和博弈中的自我博弈通过多智能体多回合强化学习激励推理 论文 GitHub 星标
2025-05 Absolute Zero Absolute Zero:无数据条件下的强化自我博弈推理 论文 GitHub 星标
2025-04 TextArena TextArena 论文 GitHub 星标
2025-03 SWEET-RL SWEET-RL:训练多回合 LLM 智能体进行协作式推理任务 论文 GitHub 星标
- Genie 3 Genie 3:世界模型的新前沿 博客 -

动态环境(基于集成)

日期 名称 标题 论文 Github
2025-08 InternBootcamp InternBootcamp 技术报告:通过可验证的任务扩展提升大模型推理能力 论文 GitHub 星标
- SYNTHETIC-2 SYNTHETIC-2 发布:四百万条协作生成的推理轨迹 博客 -

强化学习基础设施(主要)

日期 名称 标题 论文 Github
2025-06 ROLL 大规模学习的强化学习优化:高效且易用的扩展库 论文 GitHub 星标
2025-05 AReaL AReaL:面向语言推理的大规模异步强化学习系统 论文 GitHub 星标
2024-09 veRL HybridFlow:灵活高效的 RLHF 框架 论文 GitHub 星标
2024-05 OpenRLHF OpenRLHF:易用、可扩展且高性能的 RLHF 框架 论文 GitHub 星标
- TRL Transformer 强化学习 - GitHub 星标
- NeMo-RL Nemo RL:可扩展且高效的后训练库 - GitHub 星标
- slime slime:基于 SGLang 的原生后训练框架,用于强化学习扩展 - GitHub 星标
- RLinf RLinf:面向智能体 AI 的强化学习基础设施 - GitHub 星标

强化学习基础设施(次要)

日期 名称 标题 论文 Github
2025-09 RL-Factory RLFactory:用于大语言模型多轮工具使用的即插即用强化学习后训练框架 论文 GitHub 星标
2025-09 verl-tool VerlTool:迈向具有工具使用的整体智能体强化学习 论文 GitHub 星标
2025-09 dLLM-RL 革新扩散型大语言模型的强化学习框架 论文 GitHub 星标
2025-08 agent-lightning Agent Lightning:使用强化学习训练任何AI智能体 论文 GitHub 星标
2025-05 verl-agent 用于大语言模型智能体训练的组内策略优化 论文 GitHub 星标
2025-04 VLM-R1 VLM-R1:稳定且可推广的R1风格大型视觉-语言模型 论文 GitHub 星标
- rllm rLLM:用于语言智能体后训练的框架 - GitHub 星标
- EasyR1 EasyR1:高效、可扩展的多模态强化学习训练框架 - GitHub 星标
- verifiers Verifiers:在可验证环境中使用大语言模型进行强化学习 - GitHub 星标
- prime-rl PRIME-RL:大规模去中心化强化学习训练 - GitHub 星标
- MARTI 基于大语言模型的多智能体强化训练与推理框架 - GitHub 星标

应用

编码智能体

日期 名称 标题 论文 Github
2025-09 - 面向机器学习工程代理的强化学习 论文 -
2025-09 - 利用强化学习提升SLM工具使用能力 论文 -
2025-09 SimpleTIR SimpleTIR:面向多轮工具集成推理的端到端强化学习 论文 GitHub Star
2025-09 - 收益递减的错觉:LLM中的长程执行测量 论文 GitHub Star
2025-08 GLM-4.5 GLM-4.5:具身、推理与编码(ARC)基础模型 论文 GitHub Star
2025-08 FormaRL FormaRL:无需标注数据的自动形式化增强 论文 GitHub Star
2025-08 RLTR 不需良好答案即可鼓励良好过程:面向LLM代理规划的强化学习 论文 -
2025-07 ARPO 具身强化策略优化 论文 GitHub Star
2025-07 Kimi K2 Kimi K2:开放具身智能 论文 -
2025-07 AutoTIR AutoTIR:通过强化学习实现自主工具集成推理 论文 GitHub Star
2025-06 CoRT CoRT:思维中的代码集成推理 论文 GitHub Star
2025-05 EvoScale Satori-SWE:面向样本高效软件工程的进化式测试时缩放 论文 GitHub Star
2025-03 ToRL ToRL:工具集成强化学习的规模化 论文 GitHub Star
2025-02 SWE-RL SWE-RL:基于开源软件进化的强化学习推进LLM推理 论文 GitHub Star
- Qwen3-Coder Qwen3-Coder:世界中的具身编程。 - GitHub Star

搜索代理

日期 名称 标题 论文 Github
2025-08 SSRL SSRL:自搜索强化学习 论文 GitHub 星标
2025-07 WebSailor WebSailor:面向网络智能体的超人类推理导航 论文 GitHub 星标
2025-07 WebShaper WebShaper:通过信息搜索形式化实现智能体式数据合成 论文 GitHub 星标
2025-05 ZeroSearch ZeroSearch:无需搜索即可激励大语言模型的搜索能力 论文 GitHub 星标
2025-05 SEM SEM:用于搜索高效大型语言模型的强化学习 论文 -
2025-05 S3 s3:通过强化学习训练搜索智能体并不需要那么多数据 论文 GitHub 星标
2025-05 StepSearch StepSearch:通过分步近端策略优化激发大语言模型的搜索能力 论文 GitHub 星标
2025-05 R1-Searcher++ R1-Searcher++:通过强化学习激励大语言模型的动态知识获取能力 论文 GitHub 星标
2025-04 ReZero ReZero:通过再试一次来提升大语言模型的搜索能力 论文 -
2025-03 DeepRetrieval DeepRetrieval:利用强化学习,通过大语言模型攻破真实的搜索引擎和检索系统 论文 GitHub 星标
2025-03 Search-R1 Search-R1:通过强化学习训练大语言模型进行推理并利用搜索引擎 论文 GitHub 星标
2025-03 R1-Searcher R1-Searcher:通过强化学习激励大语言模型的搜索能力 论文 GitHub 星标

浏览器使用型智能体

日期 名称 标题 论文 Github
2025-05 WebAgent-R1 WebAgent-R1:通过端到端多轮强化学习训练网络智能体 论文 GitHub 星标
2025-05 WebDancer WebDancer:迈向自主信息搜索智能体 论文 GitHub 星标
2025-04 DeepResearcher DeepResearcher:在真实环境中通过强化学习扩展深度研究 论文 GitHub 星标
2024-11 Web-RL WebRL:通过自我进化在线课程强化学习训练大语言模型网络智能体 论文 GitHub 星标
2021-12 WebGPT WebGPT:借助浏览器与人类反馈的问答系统 论文 -

深度研究型智能体

日期 名称 标题 论文 Github
2025-09 SFR-DeepResearch SFR-DeepResearch:面向自主推理单智能体的有效强化学习 论文 -
2025-09 DeepDive DeepDive:利用知识图谱与多轮强化学习推进深度搜索智能体 论文 GitHub 星标
2025-08 Webwatcher Webwatcher:突破视觉-语言深度研究智能体的新边界 论文 GitHub 星标
2025-08 ASearcher 超越十轮:通过大规模异步强化学习解锁长 horizon 智能体式搜索 论文 GitHub 星标
2025-08 Atom-searcher Atom-searcher:通过细粒度原子思维奖励提升智能体式深度研究能力 论文 GitHub 星标
2025-08 MedResearcher-R1 Medreseacher-r1:基于知识驱动轨迹合成框架的专家级医学深度研究者 论文 GitHub 星标
2025-06 Jan-nano Jan-nano 技术报告 论文 -
2025-04 WebThinker WebThinker:以深度研究能力赋能大型推理模型 论文 GitHub 星标
- Kimi-Researcher Kimi-Researcher——用于新兴智能体能力的端到端强化学习训练 博客 -
- Mirothinker Mirothinker:一个开源的智能体模型系列,专为深度研究及复杂长 horizon 问题解决而训练 博客 GitHub 星标

GUI&计算机代理

日期 名称 标题 论文 Github
2025-09 UI-TARS 2 UI-TARS-2 技术报告:通过多轮强化学习推进 GUI 智能体 论文 GitHub 星标
2025-08 GUI-RC 基于区域一致性的 GUI 对齐测试时强化学习 论文 GitHub 星标
2025-08 Os-r1 OS-R1:利用强化学习进行智能体式操作系统内核调优 论文 GitHub 星标
2025-08 ComputerRL ComputerRL:面向计算机使用智能体的端到端在线强化学习规模化 论文 -
2025-08 Mobile-Agent-v3 Mobile-Agent-v3:用于 GUI 自动化的基础智能体 论文 GitHub 星标
2025-08 SWIRL SWIRL:移动 GUI 控制中交错强化学习的分阶段工作流 论文 GitHub 星标
2025-08 InquireMobile InquireMobile:通过强化微调教导基于 VLM 的移动智能体请求人类协助 论文 -
2025-07 MobileGUI-RL MobileGUI-RL:在在线环境中通过强化学习推进移动 GUI 智能体 论文 -
2025-06 GUI-Critic-R1 三思而后行:用于 GUI 自动化事前错误诊断的 GUI-Critic-R1 模型 论文 GitHub 星标
2025-06 GUI-Reflection GUI-Reflection:以自我反思行为赋能多模态 GUI 模型 论文 -
2025-06 Mobile-R1 Mobile-R1:通过任务级奖励实现基于 VLM 的移动智能体的交互式强化学习 论文 -
2025-05 UIShift UIShift:通过自监督强化学习提升基于 VLM 的 GUI 智能体 论文 GitHub 星标
2025-05 GUI-G1 GUI-G1:理解 GUI 智能体中类似 R1-Zero 的视觉对齐训练 论文 GitHub 星标
2025-05 ARPO ARPO:具有经验回放功能的 GUI 智能体端到端策略优化 论文 GitHub 星标
2025-05 ZeroGUI ZeroGUI:以零人力成本实现在线 GUI 学习自动化 论文 GitHub 星标
2025-04 GUI-R1 GUI-R1:一种适用于 GUI 智能体的通用 R1 式视觉-语言行动模型 论文 GitHub 星标
2025-03 UI-R1 UI-R1:通过强化学习提升 GUI 智能体的高效动作预测 论文 GitHub 星标
2025-01 UI-TARS UI-TARS:以原生智能体开创 GUI 自动化交互 论文 GitHub 星标

推荐智能体

日期 名称 标题 论文 Github
2025-07 Shop-R1 Shop-R1:通过强化学习奖励大模型模拟在线购物中的人类行为 论文 -
2025-03 Rec-R1 Rec-R1:通过强化学习连接大模型与推荐系统 论文 GitHub 星标

智能体(其他)

日期 名称 标题 论文 Github
2025-07 OpenTable-R1 OpenTable-R1:用于开放域表格问答的强化学习增强工具智能体 论文 GitHub 星标
2025-07 LaViPlan LaViPlan:基于 RLVR 的语言引导视觉路径规划 论文 -
2025-06 Drive-R1 Drive-R1:通过强化学习在 VLM 中连接推理与规划以实现自动驾驶 论文 -
- EPO EPO:面向大模型智能体强化学习的熵正则化策略优化 论文 GitHub 星标

代码生成

日期 名称 标题 论文 Github
2025-09 Proof2Silicon Proof2Silicon:基于强化学习的提示修复用于验证代码与硬件生成 论文 -
2025-09 AR$^2$ AR$^2$:面向大型语言模型抽象推理的对抗性强化学习 论文 GitHub Star
2025-09 Dream-Coder Dream-Coder 7B:开源的代码扩散语言模型 论文 GitHub Star
2025-08 MSRL 打破SFT平台期:用于图表到代码生成的多模态结构化强化学习 论文 -
2025-07 CogniSQL-R1-Zero CogniSQL-R1-Zero:用于高效SQL生成的轻量级强化推理 论文 -
2025-07 Leanabell-Prover-V2 Leanabell-Prover-V2:通过强化学习实现的验证器集成推理,用于形式化定理证明 论文 GitHub Star
2025-07 StepFun-Prover StepFun-Prover预览版:让我们一步步思考并验证 论文 GitHub Star
2025-06 MedAgentGym MedAgentGym:大规模训练基于代码的医学推理LLM智能体 论文 GitHub Star
2025-05 Fortune Fortune:公式驱动的强化学习,用于语言模型中的符号表推理 论文 GitHub Star
2025-05 VeriReason VeriReason:利用测试平台反馈的强化学习,用于增强推理能力的Verilog生成 论文 GitHub Star
2025-05 ReEX-SQL ReEx-SQL:通过执行感知的强化学习实现文本到SQL的推理 论文 -
2025-05 AceReason-Nemotron AceReason-Nemotron:通过强化学习推进数学与代码推理 论文 -
2025-05 SkyWork OR1 Skywork开放推理器1技术报告 论文 GitHub Star
2025-05 CodeV-R1 CodeV-R1:增强推理能力的Verilog生成 论文 GitHub Star
2025-05 AReaL AREAL:面向语言推理的大规模异步强化学习系统 论文 GitHub Star
2025-04 SQL-R1 SQL-R1:通过强化学习训练自然语言到SQL的推理模型 论文 GitHub Star
2025-04 Kimina-Prover Kimina-Prover预览版:迈向使用强化学习的大型形式化推理模型 论文 -
2025-04 DeepSeek-Prover-V2 DeepSeek-Prover-V2:通过强化学习进行子目标分解,推进形式数学推理 论文 GitHub Star
2025-03 Reasoning-SQL Reasoning-SQL:采用SQL定制的部分奖励的强化学习,用于增强文本到SQL的推理能力 论文 -
- code-r1 Code-R1:以可靠奖励重现R1用于代码 - GitHub Star
- Open-R1 Open-R1:DeepSeek-R1的完全开源复现 博客 GitHub Star
- DeepCoder Deepcoder:一个完全开源的o3-mini级别的14b编码器 论文 GitHub Star

软件工程

日期 名称 标题 论文 Github
2025-08 UTRL 通过对抗性强化学习学习生成单元测试 论文 -
2025-07 RePaCA RePaCA:利用推理型大语言模型进行静态自动化补丁正确性评估 论文 -
2025-07 Repair-R1 Repair-R1:修复前先测试 论文 GitHub 星标
2025-06 CURE 通过强化学习协同进化LLM编码器和单元测试器 论文 GitHub 星标
2025-05 REAL 利用程序分析反馈训练语言模型生成高质量代码 论文 -
2025-05 Afterburner Afterburner:强化学习助力自我改进的代码效率优化 论文 GitHub 星标
2024-09 RepoGenReflex RepoGenReflex:通过言语强化与检索增强生成提升仓库级代码补全能力 论文 -
2024-07 RLCoder RLCoder:用于仓库级代码补全的强化学习 论文 GitHub 星标

多模态理解

日期 名称 标题 论文 Github
2025-09 Vision-Zero Vision-Zero:通过策略性游戏化自对弈实现可扩展的多模态大模型自我改进 论文 GitHub Star数
2025-09 ReAd-R AdsQA:迈向广告视频理解 论文 GitHub Star数
2025-09 Keye Kwai Keye-VL 1.5 技术报告 论文 GitHub Star数
2025-08 Sifthinker Sifthinker:面向视觉推理的空间感知图像焦点 论文 GitHub Star数
2025-07 Long-RL 将强化学习扩展到长视频 论文 GitHub Star数
2025-06 RefSpatial RoboRefer:面向机器人技术的视觉-语言模型中结合推理的空间指代 论文 GitHub Star数
2025-06 Ego-R1 Ego-R1:用于超长第一人称视频推理的工具链式思维 论文 GitHub Star数
2025-05 VerIPO VerIPO:具有迭代策略优化的长推理视频-R1 模型 论文 GitHub Star数
2025-05 Openthinkimg Openthinkimg:通过视觉工具强化学习学会用图像思考 论文 GitHub Star数
2025-05 Visual Planning Visual Planning:让我们只用图像思考 论文 GitHub Star数
2025-05 VideoRFT Videorft:通过强化微调激励多模态大模型的视频推理能力 论文 GitHub Star数
2025-05 Deepeyes Deepeyes:通过强化学习激励“用图像思考” 论文 GitHub Star数
2025-05 Visionary-R1 Visionary-R1:利用强化学习缓解视觉推理中的捷径问题 论文 GitHub Star数
2025-05 CoF 链式聚焦:基于强化学习的自适应多模态推理视觉搜索与缩放 论文 GitHub Star数
2025-05 GRIT GRIT:教导多模态大模型用图像思考 论文 GitHub Star数
2025-05 Pixel Reasoner 像素推理者:以好奇心驱动的强化学习激励像素空间推理 论文 GitHub Star数
2025-05 - 不要只看一次:迈向带有选择性视觉重访的多模态交互式推理 论文 GitHub Star数
2025-05 Ground-R1 Ground-R1:通过强化学习激励 grounded 视觉推理 论文 GitHub Star数
2025-05 TACO TACO:在多模态大模型中通过强化学习实现思考与回答的一致性,以优化长链条推理和高效数据学习 论文 -
2025-05 Qwen-LA Qwen 再次关注:引导视觉-语言推理模型重新关注视觉信息 论文 GitHub Star数
2025-05 TW-GRPO 通过专注式思考强化视频推理 论文 GitHub Star数
2025-05 Spatial-MLLM Spatial-MLLM:提升多模态大模型在基于视觉的空间智能方面的能力 论文 GitHub Star数
2025-04 R1-Zero-VSI 通过类似 R1-Zero 的训练改进视觉-空间推理 论文 GitHub Star数
2025-04 Spacer Spacer:强化多模态大模型的视频空间推理能力 论文 GitHub Star数
2025-04 Videochat-R1 Videochat-R1:通过强化微调提升时空感知能力 论文 GitHub Star数
2025-04 VLM-R1 VLM-R1:一种稳定且可泛化的 R1 式大型视觉-语言模型 论文 GitHub Star数
2025-03 OpenVLThinker OpenVLThinker:通过迭代 SFT-RL 循环实现复杂的视觉-语言推理 论文 GitHub Star数
2025-03 Visual-RFT Visual-RFT:视觉强化微调 论文 GitHub Star数
2025-03 Vision-R1 Vision-R1:激励多模态大语言模型的推理能力 论文 GitHub Star数
2025-03 VisRL VisRL:基于强化推理的意图驱动视觉感知 论文 GitHub Star数
2025-03 Metaspatial Metaspatial:为元宇宙中的视觉-语言模型强化 3D 空间推理能力 论文 GitHub Star数
2025-03 Video-R1 Video-R1:强化多模态大模型的视频推理能力 论文 GitHub Star数

多模态生成

日期 名称 标题 论文 Github
2025-09 IGPO 基于修复引导的扩散大语言模型策略优化 论文 -
2025-08 Qwen-Image Qwen-Image 技术报告 论文 GitHub 星标
2025-08 TempFlow-GRPO TempFlow-GRPO:流模型中时间对 GRPO 的重要性 论文 GitHub 星标
2025-07 MixGRPO MixGRPO:通过混合 ODE-SDE 解锁基于流的 GRPO 效率 论文 GitHub 星标
2025-06 FocusDiff Focusdiff:通过强化学习推进自回归视觉生成中的细粒度文本-图像对齐 论文 GitHub 星标
2025-06 SUDER 通过双重自我奖励强化多模态理解和生成 论文 -
2025-05 T2I-R1 T2I-R1:通过语义级和标记级协同思维链强化图像生成 论文 GitHub 星标
2025-05 Flow-GRPO Flow-GRPO:通过在线强化学习训练流匹配模型 论文 GitHub 星标
2025-05 DanceGRPO DanceGRPO:释放 GRPO 在视觉生成中的潜力 论文 GitHub 星标
2025-05 GoT-R1 GoT-R1:利用强化学习释放多模态大语言模型在视觉生成中的推理能力 论文 GitHub 星标
2025-05 ULM-R1 面向统一多模态理解和生成的协同强化学习 论文 GitHub 星标
2025-05 RePrompt Reprompt:通过强化学习实现推理增强型重提示技术用于文本到图像生成 论文 GitHub 星标
2025-05 InfLVG InfLVG:通过 GRPO 强化推理时一致性的长视频生成 论文 GitHub 星标
2025-05 Reasongen-R1 Reasongen-R1:通过 SFT 和 RL 为自回归图像生成模型提供思维链 论文 GitHub 星标
2025-04 PhysAR 利用扩散时间步标记通过强化学习进行物理合理视频生成 论文 -

机器人任务

日期 名称 标题 论文 Github
2025-09 SimpleVLA-RL SimpleVLA-RL:通过强化学习扩展VLA训练 论文 GitHub Star数
2025-06 TGRPO TGRPO:基于轨迹级分组相对策略优化的视觉-语言-动作模型微调 论文 -
2025-05 ReinboT ReinboT:利用强化学习增强机器人视觉-语言操控能力 论文 GitHub Star数
2025-05 RIPT-VLA 视觉-语言-动作模型的交互式后训练 论文 GitHub Star数
2025-05 VLA-RL VLA-RL:通过可扩展的强化学习实现精通且通用的机器人操控 论文 GitHub Star数
2025-05 RFTF RFTF:面向具身智能体的时序反馈强化微调 论文 -
2025-05 VLA泛化 强化学习能为VLA泛化带来什么?一项实证研究 论文 GitHub Star数
2025-02 ConRFT ConRFT:基于一致性策略的VLA模型强化微调方法 论文 GitHub Star数
2024-11 GRAPE GRAPE:通过偏好对齐泛化机器人策略 论文 GitHub Star数
- RLinf RLinf:面向代理型AI的强化学习基础设施 论文 -
- EPO EPO:面向LLM代理强化学习的熵正则化策略优化 论文 GitHub Star数

多智能体系统

日期 名称 标题 论文 Github
2025-10 AgentFlow 流式智能体系统优化:用于高效规划与工具使用的框架 论文 GitHub 星标
2025-09 SoftRankPO, 学会深思熟虑:基于多智能体强化学习的元策略协作,赋能智能体LLM 论文 -
2025-09 BFS-Prover-V2 扩展多回合离线强化学习与多智能体树搜索技术,应用于LLM步骤证明器 论文 -
2025-08 MAGRPO LLM与多智能体强化学习的协作 论文 -
2025-06 AlphaEvolve AlphaEvolve:面向科学与算法发现的编程智能体 论文 -
2025-06 JoyAgents-R1 JoyAgents-R1:结合强化学习的多功能多LLM智能体联合进化动力学 论文 -
2025-03 ReMA ReMA:利用多智能体强化学习让LLM学会元思考 论文 GitHub 星标
2025-02 CTRL 通过强化学习教导语言模型进行批判性评估 论文 GitHub 星标
2025-02 Maporl MAPoRL2:基于强化学习的大型语言模型协同后训练 论文 GitHub 星标
2023-11 LLaMAC 基于大型语言模型的智能体在大规模决策中的控制:演员-评论家方法 论文 -

科学任务

日期 名称 标题 论文 Github
2025-09 Baichuan-M2 百川-M2:基于大型验证器系统的医疗能力扩展 论文 -
2025-08 CX-Mind CX-Mind:通过课程引导的强化学习实现胸片交错推理的开创性多模态大语言模型 论文 GitHub Star
2025-08 MORE-CLEAR MORE-CLEAR:利用增强状态表示的临床笔记多模态离线强化学习 论文 -
2025-08 ARMed 突破奖励崩溃:具有增强语义区分能力的开放式医疗推理自适应强化学习 论文 -
2025-08 ProMed ProMed:基于夏普利信息增益指导的主动式医疗LLM强化学习 论文 GitHub Star
2025-08 OwkinZero OwkinZero:用AI加速生物发现 论文 -
2025-08 MolReasoner MolReasoner:迈向分子LLM的有效且可解释的推理 论文 GitHub Star
2025-08 MedGR$^2$ MedGR$^2$:通过生成式奖励学习突破医疗推理的数据壁垒 论文 -
2025-07 MedGround-R1 MedGround-R1:通过空间-语义奖励的群体相对策略优化推进医学图像定位 论文 GitHub Star
2025-07 MedGemma MedGemma技术报告 论文 -
2025-06 MMedAgent-RL MMedAgent-RL:优化多智能体协作以实现多模态医疗推理 论文 -
2025-06 Cell-o1 Cell-o1:通过强化学习训练LLM解决单细胞推理难题 论文 GitHub Star
2025-06 MedAgentGym MedAgentGym:大规模训练基于代码的LLM代理进行医疗推理 论文 GitHub Star
2025-06 Med-U1 Med-U1:通过大规模强化学习激励LLM中的统一医疗推理 论文 GitHub Star
2025-06 MedVIE 通过强化学习实现高效的医疗视觉-推理框架 论文 -
2025-06 LA-CDM 基于强化学习的语言代理用于假设驱动的临床决策制定 论文 -
2025-06 ether0 训练用于化学科学推理的模型 论文 GitHub Star
2025-06 Gazal-R1 Gazal-R1:通过参数高效的两阶段训练实现最先进的医疗推理 论文 -
2025-05 DRG-Sapphire LLM中分布外推理的强化学习:诊断相关分组编码的实证研究 论文 GitHub Star
2025-05 BioReason BioReason:在DNA-LLM模型中激励多模态生物推理 论文 GitHub Star
2025-05 EHRMIND 通过强化学习训练LLM完成基于电子健康记录的推理任务 论文 -
2025-04 Open-Medical-R1 Open-Medical-R1:如何在医学领域选择RLVR训练数据 论文 GitHub Star
2025-04 ChestX-Reasoner ChestX-Reasoner:通过逐步验证推进放射学基础模型 论文 -
2025-04 BoxMed-RL 像放射科医生一样思考:链式思维与强化学习用于可验证报告生成 论文 -
2025-03 PPME 通过临床经验学习提升大型语言模型代理的交互式诊断能力 论文 -
2025-03 DOLA 使用DOLA进行自主放疗计划:一种保护隐私的基于LLM的优化代理 论文 -
2025-02 Baichuan-M1 百川-M1:推动大语言模型的医疗能力 论文 -
2025-02 MedVLM-R1 MedVLM-R1:通过强化学习激励视觉-语言模型(VLMs)的医疗推理能力 论文 -
2025-02 Med-RLVR Med-RLVR:通过强化学习从3B基础模型中涌现医疗推理 论文 -
2025-01 MedXpertQA MedXpertQA:专家级医疗推理与理解的基准测试 论文 GitHub Star
2024-12 HuatuoGPT-o1 华佗GPT-o1:迈向基于LLM的复杂医疗推理 论文 GitHub Star
- Pro-1 Pro-1 博客 GitHub Star
- rbio rbio1:以生物世界模型作为软验证器训练科学推理LLM 论文 GitHub Star
- EPO EPO:用于LLM代理强化学习的熵正则化策略优化 论文 GitHub Star

🌟 致谢

本调查是在原始的 Awesome RL Reasoning Recipes 仓库基础上扩展和完善的。我们衷心感谢所有贡献者的辛勤付出,并对他们对 Awesome RL Reasoning Recipes 的持续关注表示诚挚的感谢。此前仓库的内容可在此处查看:这里

✨ 星标历史

星标历史图表

版本历史

TripleR2025/09/11

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

153.6k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|3天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|3天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架