Awesome-AgenticLLM-RL-Papers

GitHub
1.7k 76 非常简单 2 次阅读 昨天语言模型Agent其他
AI 解读 由 AI 自动生成,仅供参考

Awesome-AgenticLLM-RL-Papers 是一个专注于大语言模型智能体强化学习(Agentic RL)领域的开源论文合集。作为官方调研论文的配套资源库,它系统整理了该方向的核心研究文献。面对 LLM 智能体技术快速迭代、算法层出不穷的现状,研究人员往往难以全面把握技术脉络。Awesome-AgenticLLM-RL-Papers 解决了信息碎片化的问题,提供了从基础 PPO 到最新偏好优化方法的完整图谱。

适合从事大模型对齐、强化学习研究的科研人员,以及希望深入理解 Agent 训练机制的开发者。Awesome-AgenticLLM-RL-Papers 不仅收录了经典算法,还详细对比了 Clip、KL Penalty 等关键机制,涵盖奖励信号、目标类型等多个维度。内容涵盖了 PPO 家族与 DPO 家族等多种主流方法,帮助读者快速定位所需技术路线。每个条目都附带了原始论文链接及对应的代码或模型资源地址,极大方便了后续复现与验证。对于想要追踪前沿动态或寻找特定算法实现的技术人员来说,这是一个不可或缺的参考指南。

使用场景

某金融科技公司的算法团队正在构建一个自动化交易智能体,急需利用强化学习优化其多步决策能力。

没有 Awesome-AgenticLLM-RL-Papers 时

  • 研究人员需手动阅读数十篇论文才能理清 PPO 与 DPO 家族的技术演进脉络,效率低下。
  • 难以判断哪种算法更适合处理带有噪声的交易奖励信号,导致多次实验失败且成本高昂。
  • 无法快速找到支持过程监督(Process Supervision)的具体开源实现,只能从零开始复现。
  • 对最新的自适应 KL 惩罚机制缺乏了解,模型在长序列训练中容易出现收敛不稳定问题。

使用 Awesome-AgenticLLM-RL-Papers 后

  • 借助结构化表格直接对比 PSGPO 等算法的机制,快速选定适配高频交易场景的策略。
  • 明确不同方法在 Clip 和 KL Penalty 上的配置差异,有效规避训练发散风险并稳定损失函数。
  • 一键跳转至 VinePPO 或 PF-PPO 的代码仓库,节省大量环境搭建与基础逻辑编写时间。
  • 掌握 VAPO 的方差控制特性,显著提升智能体在复杂多变市场环境下的鲁棒性与收益表现。

通过系统梳理前沿算法图谱,Awesome-AgenticLLM-RL-Papers 让团队精准匹配技术选型,将模型调优效率提升数倍。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该仓库为论文调研清单(Survey Paper Collection),本身不包含可执行代码或安装脚本,具体环境需求需参考各子项目链接。
python未说明
未说明
Awesome-AgenticLLM-RL-Papers hero image

快速开始

Awesome-AgenticLLM-RL-Papers

这是调查论文《大语言模型(LLMs)代理强化学习(Agentic Reinforcement Learning)全景:综述》的官方仓库。

ArXiv – https://arxiv.org/abs/2509.02547

HuggingFace – https://huggingface.co/papers/2509.02547

Citation

@article{
      zhang2026landscapeagenticreinforcementlearning,
      title={The Landscape of Agentic Reinforcement Learning for {LLM}s: A Survey},
      author={Guibin Zhang and Hejia Geng and Xiaohang Yu and Zhenfei Yin and Zaibin Zhang and Zelin Tan and Heng Zhou and Zhong-Zhi Li and Xiangyuan Xue and Yijiang Li and Yifan Zhou and Yang Chen and Chen Zhang and Yutao Fan and Zihu Wang and Songtao Huang and Francisco Piedrahita Velez and Yue Liao and Hongru WANG and Mengyue Yang and Heng Ji and Jun Wang and Shuicheng YAN and Philip Torr and LEI BAI},
      journal={Transactions on Machine Learning Research},
      issn={2835-8856},
      year={2026},
      url={https://openreview.net/forum?id=RY19y2RI1O},
      note={Survey Certification}
}

第 2.7 节 代理强化学习(Agentic RL):算法

Clip(截断)对应于防止策略比率(policy ratio)偏离 1 过远,以确保更新稳定。
KL penalty(KL 惩罚)对应于对所学策略与参考策略之间的 KL 散度(KL divergence)进行惩罚,以确保对齐。

方法 年份 目标类型 截断 KL 惩罚 关键机制 信号 链接 资源
PPO 系列
PPO 2017 策略梯度 策略比率截断 奖励 论文 -
VAPO 2025 策略梯度 自适应 自适应 KL 惩罚 + 方差控制 奖励 + 方差信号 论文 -
PF-PPO 2024 策略梯度 策略过滤 噪声奖励 论文 代码
VinePPO 2024 策略梯度 无偏值估计 奖励 论文 代码
PSGPO 2024 策略梯度 过程监督 过程奖励 论文 -
DPO 系列
DPO 2024 偏好优化 与策略相关的隐式奖励 人类偏好 论文 -
β-DPO 2024 偏好优化 自适应 动态 KL 系数 人类偏好 论文 代码
SimPO 2024 偏好优化 缩放 使用序列平均对数概率作为隐式奖励 人类偏好 论文 代码
IPO 2024 隐式偏好 将大语言模型作为偏好分类器 偏好排名 论文 -
KTO 2024 知识转移优化 教师模型稳定化 师生 Logits 论文 代码 模型
ORPO 2024 在线正则化偏好优化 在线稳定化 在线反馈奖励 论文 代码 模型
Step-DPO 2024 偏好优化 逐步监督 逐步偏好 论文 代码 模型
LCPO 2025 偏好优化 有限数据/训练下的长度偏好 奖励 论文 -
GRPO 系列
GRPO 2025 基于组奖励的策略梯度 基于组的相对奖励以消除值估计 基于组的奖励 论文 -
DAPO 2025 GRPO 的替代方案 解耦截断 + 动态采样 动态基于组的奖励 论文 代码 模型 网站
LUFFY 2025 同 GRPO 混合策略 GRPO 配合离策略推理引导 基于组的奖励 (同策略 + 离策略) 论文 代码 模型
GSPO 2025 GRPO 的替代方案 序列级截断、奖励、优化 平滑的基于组的奖励 论文 -
GMPO 2025 GRPO 的替代方案 词元级奖励的几何平均 基于边界的奖励 论文 代码
ProRL 2025 同 GRPO 参考策略重置 基于组的奖励 论文 模型
Posterior-GRPO 2025 同 GRPO 仅奖励成功的过程 基于过程的奖励 论文 -
Dr.GRPO 2025 无偏 GRPO 目标 消除优化中的偏差 基于组的奖励 论文 代码 模型
Step-GRPO 2025 同 GRPO 基于规则的推理奖励 逐步奖励 论文 代码 模型
SRPO 2025 同 GRPO 两阶段历史重采样 奖励 论文 模型
GRESO 2025 同 GRPO 预展开过滤 奖励 论文 代码 网站
StarPO 2025 同 GRPO 多轮交互的推理引导动作 基于组的奖励 论文 代码 网站
GHPO 2025 策略梯度 自适应提示优化 奖励 论文 代码
Skywork R1V2 2025 具有混合奖励信号的 GRPO 选择性样本缓冲区 多模态奖励 论文 代码 模型
ASPO 2025 具有形状化优势函数的 GRPO 截断的优势偏差 基于组的奖励 论文 代码 模型
TreePo 2025 同 GRPO 自引导展开,减少计算负担 基于组的奖励 论文 代码 模型 网站
EDGE-GRPO 2025 同 GRPO 熵驱动优势 + 错误修正 基于组的奖励 论文 代码 模型
ARPO 2025 同 GRPO 熵感知智能体展开 + 逐步信用分配 逐步奖励/熵信号 论文 代码 模型
DARS 2025 同 GRPO 针对最难问题的多阶段展开 基于组的奖励 论文 代码 模型
CHORD 2025 加权 GRPO + SFT 辅助监督损失 基于组的奖励 论文 代码
PAPO 2025 GRPO 的替代方案 隐式感知损失 基于组的奖励 论文 代码 模型 网站
Pass@k Training 2025 同 GRPO 将 Pass@k 指标作为奖励 基于组的奖励 论文 代码
KTAE 2025 同 GRPO 词元级优势估计 基于组的奖励 论文 代码

第 4.1 节 任务:搜索与研究智能体 (Agent)

方法 类别 基础大语言模型 (LLM) 链接 资源
开源方法
DeepRetrieval 外部 Qwen2.5-3B-Instruct, Llama-3.2-3B-Instruct 论文 代码
Search-R1 外部 Qwen2.5-3B/7B-Base/Instruct 论文 代码
R1-Searcher 外部 Qwen2.5-7B, Llama3.1-8B-Instruct 论文 代码
R1-Searcher++ 外部 Qwen2.5-7B-Instruct 论文 代码
ReSearch 外部 Qwen2.5-7B/32B-Instruct 论文 代码
StepSearch 外部 Qwen2.5-3B/7B-Base/Instruct 论文 代码
Tool-Star 外部 Qwen2.5-3B-Instruct, Llama3.2-3B-Instruct 论文 代码
WebDancer 外部 Qwen2.5-7B/32B, QWQ-32B 论文 代码
WebThinker 外部 QwQ-32B, DeepSeek-R1-Distilled-Qwen-7B/14B/32B, Qwen2.5-32B-Instruct 论文 代码
WebSailor 外部 Qwen2.5-3B/7B/32B/72B 论文 代码
AutoTIR 外部 Qwen2.5-7B-Instruct 论文 代码
WebWatcher 外部 Qwen2.5-VL-7B/32B 论文 代码
ASearcher 外部 Qwen2.5-7B/14B, QwQ-32B 论文 代码
ZeroSearch 内部 Qwen2.5-3B/7B-Base/Instruct 论文 代码
SSRL 内部 Qwen2.5-1.5B/3B/7B/14B/32B/72B-Instruct, Llama-3.2-1B/8B-Instruct, Llama-3.1-8B/70B-Instruct, Qwen3-0.6B/1.7B/4B/8B/14B/32B 论文 代码
Search Self-play 外部 Qwen2.5-7B/14B/32B, LLaMA-3.1-8B, Qwen3-8B 论文 代码
闭源方法
OpenAI Deep Research 外部 OpenAI Models 博客 官网
Perplexity’s DeepResearch 外部 - 博客 官网
Google Gemini’s DeepResearch 外部 Gemini 博客 官网
Kimi-Researcher 外部 Kimi K2 博客 官网
Grok AI DeepSearch 外部 Grok3 博客 官网
Doubao with Deep Think 外部 Doubao 博客 官网

Sec4.2 任务:代码智能体 (Code Agent)

方法 RL 奖励类型 (强化学习奖励) 基础 LLM (大语言模型) 链接 资源
用于代码生成的强化学习 (RL)
AceCoder 结果型 (Outcome) Qwen2.5-Coder-7B-Base/Instruct, Qwen2.5-7B-Instruct Paper Code
DeepCoder-14B 结果型 (Outcome) Deepseek-R1-Distilled-Qwen-14B Blog Code
RLTF 结果型 (Outcome) CodeGen-NL 2.7B, CodeT5 Paper Code
CURE 结果型 (Outcome) Qwen2.5-7B/14B-Instruct, Qwen3-4B Paper Code
Absolute Zero 结果型 (Outcome) Qwen2.5-7B/14B, Qwen2.5-Coder-3B/7B/14B, Llama-3.1-8B Paper Code
MSRL 结果型 (Outcome) Qwen2.5-VL-7B-Instruct Paper Code
StepCoder 过程型 (Process) DeepSeek-Coder-Instruct-6.7B Paper Code
Process Supervision-Guided PO 过程型 (Process) - Paper -
CodeBoost 过程型 (Process) Qwen2.5-Coder-7B-Instruct, Llama-3.1-8B-Instruct, Seed-Coder-8B-Instruct, Yi-Coder-9B-Chat Paper Code
PRLCoder 过程型 (Process) CodeT5+, Unixcoder, T5-base Paper -
o1-Coder 过程型 (Process) DeepSeek-1.3B-Instruct Paper Code
CodeFavor 过程型 (Process) Mistral-NeMo-12B-Instruct, Gemma-2-9B-Instruct, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3 Paper Code
Focused-DPO 过程型 (Process) DeepSeek-Coder-6.7B-Base/Instruct, Magicoder-S-DS-6.7B, Qwen2.5-Coder-7B-Instruct Paper -
用于迭代式代码优化的强化学习 (RL)
RLEF 结果型 (Outcome) Llama-3.0-8B-Instruct, Llama-3.1-8B/70B-Instruct Paper -
μCode 结果型 (Outcome) Llama-3.2-1B/8B-Instruct Paper Code
R1-Code-Interpreter 结果型 (Outcome) Qwen2.5-7B/14B-Instruct-1M, Qwen2.5-3B-Instruct Paper Code
IterPref 过程型 (Process) Deepseek-Coder-7B-Instruct, Qwen2.5-Coder-7B, StarCoder2-15B Paper -
LeDex 过程型 (Process) StarCoder-15B, CodeLlama-7B/13B Paper -
CTRL 过程型 (Process) Qwen2.5-Coder-7B/14B/32B-Instruct Paper Code
ReVeal 过程型 (Process) DAPO-Qwen-32B, Qwen2.5-32B-Instruc(not-working) Paper -
Posterior-GRPO 过程型 (Process) Qwen2.5-Coder-3B/7B-Base, Qwen2.5-Math-7B Paper -
Policy Filtration for RLHF 过程型 (Process) DeepSeek-Coder-6.7B, Qwen1.5-7B Paper Code
用于自动化软件工程 (SWE) 的强化学习 (RL)
DeepSWE 结果型 (Outcome) Qwen3-32B Blog Code
SWE-RL 结果型 (Outcome) Llama-3.3-70B-Instruct Paper Code
Satori-SWE 结果型 (Outcome) Qwen-2.5-Math-7B Paper Code
RLCoder 结果型 (Outcome) CodeLlama7B, StartCoder-7B, StarCoder2-7B, DeepSeekCoder-1B/7B Paper Code
Qwen3-Coder 结果型 (Outcome) - Paper Code
ML-Agent 结果型 (Outcome) Qwen2.5-7B-Base/Instruct, DeepSeek-R1-Distill-Qwen-7B Paper Code
DeepAnalyze 结果型 (Outcome) DeepSeek-R1-Distill-Qwen3-8B Paper Code
Golubev et al. 过程型 (Process) Qwen2.5-72B-Instruct Paper -
SWEET-RL 过程型 (Process) Llama-3.1-8B/70B-Instruct Paper Code

第 4.3 节 任务:数学智能体

方法 奖励类型 链接 资源
用于非形式化数学推理的强化学习 (RL)
ARTIST 结果 论文 -
ToRL 结果 论文 代码 模型
ZeroTIR 结果 论文 代码 模型
TTRL 结果 论文 代码
RENT 结果 论文 代码 网站
Satori 结果 论文 代码 模型 网站
1-shot RLVR 结果 论文 代码 模型
Prover-Verifier Games (legibility) 结果 论文 -
rStar2-Agent 结果 论文 代码
Tool-Star 结果 论文 代码
Parallel-R1 结果 论文 代码
START 过程 论文 -
LADDER 过程 论文 -
SWiRL 过程 论文 -
RLoT 过程 论文 代码
AutoTIR 过程 论文 代码
SCRIBE 过程 论文 -
用于形式化数学推理的强化学习 (RL)
DeepSeek-Prover-v1.5 结果 论文 代码 模型
Leanabell-Prover 结果 论文 代码 模型
Kimina-Prover (Preview) 结果 论文 代码 模型
Seed-Prover 结果 论文 代码
DeepSeek-Prover-v2 过程 论文 代码 模型
ProofNet++ 过程 论文 -
Leanabell-Prover-v2 过程 论文 代码
混合式
InternLM2.5-StepProver 混合 论文 代码
Lean-STaR 混合 论文 代码 模型 网站
STP 混合 论文 代码 模型

第 4.4 节 任务:GUI 智能体

方法 范式 环境 链接 资源
非强化学习 (RL) GUI 智能体
MM-Navigator 基础视觉语言模型 (VLM) - 论文 代码
SeeAct 基础视觉语言模型 (VLM) - 论文 代码
TRISHUL 基础视觉语言模型 (VLM) - 论文 -
InfiGUIAgent 监督微调 (SFT) - 论文 代码 模型 网站
UI-AGILE 监督微调 (SFT) - 论文 代码 模型
TongUI 监督微调 (SFT) - 论文 代码 模型 网站
基于强化学习 (RL) 的 GUI 智能体
GUI-R1 强化学习 (RL) 静态 论文 代码 模型
UI-R1 强化学习 (RL) 静态 论文 代码 模型
InFiGUI-R1 强化学习 (RL) 静态 论文 代码 模型
AgentCPM 强化学习 (RL) 静态 论文 代码 模型
WebAgent-R1 强化学习 (RL) 交互式 论文 -
Vattikonda et al. 强化学习 (RL) 交互式 论文 -
UI-TARS 强化学习 (RL) 交互式 论文 代码 模型 网站
DiGiRL 强化学习 (RL) 交互式 论文 代码 模型 网站
ZeroGUI 强化学习 (RL) 交互式 论文 代码
MobileGUI-RL 强化学习 (RL) 交互式 论文 -

第 4.5 节 任务:视觉智能体中的强化学习

待添加


第 4.6 节 任务:具身智能体中的强化学习

待添加

第 4.7 节 任务:多智能体系统中的强化学习

“动态”表示多智能体系统是否为任务动态的,即是否使用不同的配置(智能体数量、拓扑结构、推理深度、提示词等)处理不同的任务查询。
“训练”表示该方法是否涉及对智能体的大语言模型(LLM)主干进行训练。

方法 动态 训练 强化学习算法 链接 资源
无强化学习的多智能体系统(非详尽列表)
CAMEL - Paper Code Model
MetaGPT - Paper Code
MAD - Paper Code
MoA - Paper Code
AFlow - Paper Code
基于强化学习的多智能体训练
GPTSwarm 策略梯度 Paper Code Website
MaAS 策略梯度 Paper Code
G-Designer 策略梯度 Paper Code
MALT DPO Paper -
MARFT MARFT Paper Code
MAPoRL PPO Paper Code
MLPO MLPO Paper -
ReMA MAMRP Paper Code
FlowReasoner GRPO Paper Code
LERO MLPO Paper -
CURE 基于规则的强化学习 Paper Code Model
MMedAgent-RL GRPO Paper -
OWL DPO Paper Code

第 4.8 节 任务:其他任务

待添加

第 5.1 节 环境

智能体能力由以下表示:
① 推理,② 规划,③ 工具使用,④ 记忆,⑤ 协作,⑥ 自我改进。

环境 / 基准测试 智能体能力 任务领域 模态 链接 资源
LMRL-Gym ①, ④ 交互 文本 论文 代码
ALFWorld ②, ① 具身,文本游戏 文本 论文 代码 网站
TextWorld ②, ① 文本游戏 文本 论文 代码
ScienceWorld ①, ② 具身,科学 文本 论文 代码 网站
AgentGym ①, ④ 文本游戏 文本 论文 代码 网站
Agentbench 通用 文本,视觉 论文 代码
InternBootcamp 通用,编程,逻辑 文本 论文 代码
LoCoMo 交互 文本 论文 代码 网站
MemoryAgentBench 交互 文本 论文 代码
WebShop ②, ③ 网页 文本 论文 代码 网站
Mind2Web ②, ③ 网页 文本,视觉 论文 代码 网站
WebArena ②, ③ 网页 文本 论文 代码 网站
VisualwebArena ①, ②, ③ 网页 文本,视觉 论文 代码 网站
AppWorld ②, ③ 应用 文本 论文 代码 网站
AndroidWorld ②, ③ 图形界面,应用 文本,视觉 论文 代码
OSWorld ②, ③ 图形界面,操作系统 文本,视觉 论文 代码 网站
Debug-Gym ①, ③ 软件工程 文本 论文 代码 网站
MLE-Dojo ②, ① 机器学习工程 文本 论文 代码 网站
τ-bench ①, ③ 软件工程 文本 论文 代码
TheAgentCompany ②, ③, ⑤ 软件工程 文本 论文 代码 网站
MedAgentGym 科学 文本 论文 代码
SecRepoBench ①, ③ 编程,安全 文本 论文 -
R2E-Gym ①, ② 软件工程 文本 论文 代码 网站
HumanEval 编程 文本 论文 代码
MBPP 编程 文本 论文 代码
BigCodeBench 编程 文本 论文 代码 网站
LiveCodeBench 编程 文本 论文 代码 网站
SWE-bench ①, ③ 软件工程 文本 论文 代码 网站
SWE-rebench ①, ③ 软件工程 文本 论文 网站
DevBench ②, ① 软件工程 文本 论文 代码
ProjectEval ②, ① 软件工程 文本 论文 代码 网站
DA-Code ①, ③ 数据科学,软件工程 文本 论文 代码 网站
ColBench ②, ①, ③ 软件工程,网页开发 文本 论文 代码 网站
NoCode-bench ②, ① 软件工程 文本 论文 代码 网站
MLE-Bench ②, ①, ③ 机器学习工程 文本 论文 代码 网站
PaperBench ②, ①, ③ 机器学习工程 文本 论文 代码 网站
Crafter ②, ④ 游戏 视觉 论文 代码 网站
Craftax ②, ④ 游戏 视觉 论文 代码
ELLM (Crafter variant) ②, ① 游戏 视觉 论文 代码 网站
SMAC / SMAC-Exp ⑤, ② 游戏 视觉 论文 代码
Factorio ②, ① 游戏 视觉 论文 代码 网站

第 5.2 节 框架

框架 类型 关键特性 链接 资源
智能体强化学习 (RL) 框架
Verifiers 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 可验证的环境配置 - 代码
SkyRL-v0/v0.1 智能体强化学习 (RL) 长周期现实世界训练 博客 (v0) 博客 (v0.1) 代码
AREAL 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 异步训练 论文 代码
MARTI 多智能体强化学习 / 大语言模型 (LLM) 强化学习 集成多智能体训练 - 代码
EasyR1 智能体强化学习 (RL) / 大语言模型 (LLM) 强化学习 多模态支持 - 代码
AgentFly 智能体强化学习 (RL) 可扩展异步执行 论文 代码
Agent Lightning 智能体强化学习 (RL) 解耦分层强化学习 论文 代码
人类反馈强化学习 (RLHF) 与大语言模型 (LLM) 微调框架
OpenRLHF 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 高性能可扩展人类反馈强化学习 论文 代码
TRL 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 Hugging Face 人类反馈强化学习 - 代码
trlX 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 分布式大模型人类反馈强化学习 论文 代码
HybridFlow 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 简化的实验管理 论文 代码
SLiMe 人类反馈强化学习 (RLHF) / 大语言模型 (LLM) 强化学习 高性能异步强化学习 - 代码
通用强化学习 (RL) 框架
RLlib 通用强化学习 / 多智能体强化学习 生产级可扩展库 论文 代码
Acme 通用强化学习 模块化分布式组件 论文 代码
Tianshou 通用强化学习 高性能 PyTorch 平台 论文 代码
Stable Baselines3 通用强化学习 可靠的 PyTorch 算法 论文 代码
PFRL 通用强化学习 基准测试原型算法 论文 代码

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架