[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-AgentR1--Agent-R1":3,"tool-AgentR1--Agent-R1":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":74,"owner_location":74,"owner_email":74,"owner_twitter":74,"owner_website":74,"owner_url":75,"languages":76,"stars":81,"forks":82,"last_commit_at":83,"license":84,"difficulty_score":85,"env_os":86,"env_gpu":87,"env_ram":86,"env_deps":88,"category_tags":92,"github_topics":93,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":97,"updated_at":98,"faqs":99,"releases":129},5994,"AgentR1\u002FAgent-R1","Agent-R1","Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning","Agent-R1 是一个开源框架，旨在通过端到端强化学习训练强大的大语言模型智能体。它专为需要多轮交互、工具调用及环境反馈的复杂任务设计，让模型不再局限于生成单一答案，而是能在动态环境中持续决策。\n\n传统训练方法常面临“文本转令牌再转文本”导致的信息失真，以及仅靠简单拼接令牌难以灵活管理长上下文的问题。Agent-R1 创新性地引入了“步级马尔可夫决策过程（Step-level MDP）”理念，将每一次交互视为独立的强化学习步骤。这种架构允许系统在每一步之间对上下文进行截断、总结、重写或增强，从而更自然地适配标准的强化学习循环，显著提升了训练的稳定性和灵活性。\n\n该工具特别适合人工智能研究人员和开发者使用，尤其是那些希望构建自定义智能体工作流、定义交互式环境或在统一管线中训练多步智能体的技术团队。凭借分层抽象设计和重构后的代码库，Agent-R1 为探索具身智能和复杂代理任务提供了坚实且易扩展的技术基础。","\u003Ch1 align=\"center\">Agent-R1\u003C\u002Fh1>\n\n\u003Cdiv align=\"center\">\n\n### Training Powerful LLM Agents with End-to-End Reinforcement Learning\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14460\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-b31b1b?logo=arxiv&logoColor=white\" alt=\"Paper Arxiv\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocumentation-MkDocs-526CFE?logo=materialformkdocs&logoColor=white\" alt=\"Documentation\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002FAgentR1\u002FAgent-R1\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_1a081b2fa577.png\" alt=\"Ask DeepWiki.com\" height=\"20\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FAgentR1\u002FAgent-R1\" alt=\"GitHub Repo stars\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fnetwork\u002Fmembers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FAgentR1\u002FAgent-R1\" alt=\"GitHub forks\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n## News\n\n- [2026.03.23] **Agent-R1 v0.1.0 marks the first official version of the project.** It introduces a fully refactored codebase, the **Step-level MDP** foundation, and new **Layered Abstractions**. The previous version has been archived to the `legacy` branch.\n\n- [2026.03.04] **We've launched [Claw-R1](https:\u002F\u002Fagentr1.github.io\u002FClaw-R1\u002F)**, a more advanced framework designed to empower General Agents (OpenClaw etc.) with Agentic RL through a Middleware design. Check it out at [AgentR1\u002FClaw-R1](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FClaw-R1).\n\n\n## Overview\n\n**Agent-R1** is an open-source framework for training powerful language **agents** with **end-to-end reinforcement learning**. It is designed for **multi-step agent tasks**, where the model interacts with environments and tools across multiple rounds instead of producing a single final answer.\n\nThe core idea behind Agent-R1 is **Step-level MDP**: each interaction step is treated as a proper RL transition, with an environment-defined state, an LLM action, and the next observation produced by the environment. This replaces the usual \"append everything into one ever-growing token sequence\" view with a more principled and more flexible training abstraction.\n\nWith Agent-R1, you can build custom agent workflows, define interactive environments and tools, and train multi-step agents in a unified RL pipeline.\n\n> **Also check out [Awesome-Agent-RL](https:\u002F\u002Fgithub.com\u002F0russwest0\u002FAwesome-Agent-RL)**: Our curated collection of papers and resources on unlocking the potential of Agents through Reinforcement Learning.\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_1548a7e0e72f.png\" width=\"800px\" alt=\"Agent-R1 Framework\" \u002F>\u003C\u002Fp>\n\n## Why Agent-R1 v0.1.0\n\nAgent-R1 v0.1.0 is the first official release of the new architecture. It is built to address two common failure modes in RL training for LLM agents:\n\n- **Retokenization drift in text-based pipelines**: if rollout data is collected as text and later tokenized again for training, the `Token -> Text -> Token` conversion is not reversible.\n- **Rigid token-only trajectory construction**: if the whole interaction is represented as a single growing token list, context handling becomes hard-wired to simple append-only logic.\n\nAgent-R1 addresses these issues with a **step-level trajectory representation**:\n\n- each step stores its own prompt and response\n- the environment, not raw token concatenation, controls the next observation\n- context can be **truncated**, **summarized**, **rewritten**, or **augmented** between steps\n- standard RL loops such as `obs -> action -> step -> next_obs` map naturally onto agent training\n\nThis makes Agent-R1 a better fit for real multi-step agent tasks with tool use, environment feedback, and flexible context management.\n\n## Version Guide\n\n- The default [`main`](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Ftree\u002Fmain) branch contains the new **v0.1.0** architecture based on **Step-level MDP** and **Layered Abstractions**.\n- The previous implementation is preserved in the [`legacy`](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Ftree\u002Flegacy) branch for reference.\n- The current version uses the same runtime environment as `verl` and requires **`verl==0.7.0`**.\n\n\n\n## Getting Started\n\nAgent-R1 uses the same environment setup as [verl](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Fstart\u002Finstall.html), and the current version requires `verl==0.7.0`. You only need to clone this repository; there is no separate Agent-R1 installation step.\n\nThe recommended path is:\n\n1. Read the [Getting Started](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fgetting-started\u002F) page for the minimal setup flow.\n2. Use [`examples\u002Fdata_preprocess\u002Fgsm8k.py`](examples\u002Fdata_preprocess\u002Fgsm8k.py) and [`examples\u002Frun_qwen2.5-3b.sh`](examples\u002Frun_qwen2.5-3b.sh) as a sanity check that the environment is wired correctly.\n3. Move to the [Agent Task Tutorial](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Ftutorials\u002Fagent-task\u002F) for the main Agent-R1 workflow based on multi-step interaction and tool use.\n\n### Stage 1: Sanity Check the Base Training Stack\n\nPrepare a minimal GSM8K dataset and run the single-step script:\n\n```bash\npython3 examples\u002Fdata_preprocess\u002Fgsm8k.py --local_save_dir ~\u002Fdata\u002Fgsm8k\nbash examples\u002Frun_qwen2.5-3b.sh\n```\n\nThis stage is only a **setup check**. It helps confirm that your environment, model path, dataset path, and training stack are wired correctly.\n\n### Stage 2: Run the Main Agent-R1 Workflow\n\nPrepare the tool-augmented dataset and launch the multi-step agent training script:\n\n```bash\npython3 examples\u002Fdata_preprocess\u002Fgsm8k_tool.py --local_save_dir ~\u002Fdata\u002Fgsm8k_tool\nbash examples\u002Frun_qwen3-4b_gsm8k_tool.sh\n```\n\nThis is the main Agent-R1 path, where `AgentEnvLoop` drives multi-step rollout and `ToolEnv` handles tool calls and environment feedback.\n\nCore concepts:\n\n- [Step-level MDP](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Fstep-level-mdp\u002F)\n- [Layered Abstractions](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Flayered-abstractions\u002F)\n\n## Awesome Projects Using Agent-R1\n\nHere are some representative projects built on top of Agent-R1:\n\n- **[TableMind](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06278)**: An autonomous programmatic agent for tool-augmented table reasoning. TableMind is built upon the Agent-R1 framework and leverages its end-to-end reinforcement learning pipeline to train a specialized agent for structured table understanding.\n- **[PaperScout](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10029)**: An autonomous agent for academic paper search built with Agent-R1. It introduces Proximal Sequence Policy Optimization (PSPO), a process-aware method for aligning token-level optimization with sequence-level agent interactions.\n\n## Acknowledgements\n\nThis work is conducted at the **State Key Laboratory of Cognitive Intelligence, USTC**. We gratefully acknowledge the inspiring ideas and early insights from [DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1), [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl), and [RAGEN](https:\u002F\u002Fgithub.com\u002FZihanWang314\u002Fragen), which have significantly influenced the development of Agent-R1. We also sincerely thank [**Prof. Qi Liu**](http:\u002F\u002Fstaff.ustc.edu.cn\u002F~qiliuql\u002F) and [**Prof. Mingyue Cheng**](https:\u002F\u002Fmingyue-cheng.github.io\u002F) for their guidance and support.\n\n## Citation\n\nIf you find Agent-R1 useful in your research, please cite:\n\n```bibtex\n@misc{cheng2025agentr1trainingpowerfulllm,\n  title={Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning},\n  author={Mingyue Cheng and Jie Ouyang and Shuo Yu and Ruiran Yan and Yucong Luo and Zirui Liu and Daoyu Wang and Qi Liu and Enhong Chen},\n  year={2025},\n  eprint={2511.14460},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14460}\n}\n```\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_f7cd7812d315.png)](https:\u002F\u002Fwww.star-history.com\u002F#AgentR1\u002FAgent-R1&Date)\n","\u003Ch1 align=\"center\">Agent-R1\u003C\u002Fh1>\n\n\u003Cdiv align=\"center\">\n\n### 使用端到端强化学习训练强大的LLM智能体\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14460\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-Arxiv-b31b1b?logo=arxiv&logoColor=white\" alt=\"论文 Arxiv\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F文档-MkDocs-526CFE?logo=materialformkdocs&logoColor=white\" alt=\"文档\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002FAgentR1\u002FAgent-R1\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_1a081b2fa577.png\" alt=\"Ask DeepWiki.com\" height=\"20\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FAgentR1\u002FAgent-R1\" alt=\"GitHub仓库星标数\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fnetwork\u002Fmembers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FAgentR1\u002FAgent-R1\" alt=\"GitHub仓库叉子数\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n## 最新消息\n\n- [2026年3月23日] **Agent-R1 v0.1.0 标志着该项目的第一个正式版本。** 它引入了完全重构的代码库、**步骤级MDP** 基础架构以及新的**分层抽象**。之前的版本已被归档至 `legacy` 分支。\n\n- [2026年3月4日] **我们推出了 [Claw-R1](https:\u002F\u002Fagentr1.github.io\u002FClaw-R1\u002F)**，这是一个更先进的框架，旨在通过中间件设计，利用代理式强化学习赋能通用智能体（如 OpenClaw 等）。请访问 [AgentR1\u002FClaw-R1](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FClaw-R1) 了解详情。\n\n## 概述\n\n**Agent-R1** 是一个开源框架，用于通过**端到端强化学习**训练强大的语言**智能体**。它专为**多步智能体任务**而设计，在这些任务中，模型会与环境和工具进行多轮交互，而不是仅生成单一的最终答案。\n\nAgent-R1 的核心理念是**步骤级MDP**：每一步交互都被视为一个完整的强化学习转换，包含由环境定义的状态、LLM的动作以及环境产生的下一次观测。这取代了传统上将所有内容拼接成不断增长的标记序列的做法，提供了一种更为规范且灵活的训练抽象。\n\n借助 Agent-R1，您可以构建自定义的智能体工作流，定义交互式环境和工具，并在统一的强化学习流水线中训练多步智能体。\n\n> **同时请查看 [Awesome-Agent-RL](https:\u002F\u002Fgithub.com\u002F0russwest0\u002FAwesome-Agent-RL)**：我们精心整理的关于如何通过强化学习释放智能体潜力的论文和资源合集。\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_1548a7e0e72f.png\" width=\"800px\" alt=\"Agent-R1框架\" \u002F>\u003C\u002Fp>\n\n## 为什么选择 Agent-R1 v0.1.0\n\nAgent-R1 v0.1.0 是新架构的首个正式发布版本。它旨在解决 LLM 智能体强化学习训练中的两种常见问题：\n\n- **基于文本的流水线中的重新标记漂移**：如果回放缓冲区的数据以文本形式收集，随后再被重新标记化用于训练，那么“标记 → 文本 → 标记”的转换过程是不可逆的。\n- **僵化的纯标记轨迹构建**：如果整个交互过程被表示为一个不断增长的标记列表，上下文管理就会被硬编码为简单的追加逻辑。\n\nAgent-R1 通过**步骤级轨迹表示**解决了这些问题：\n\n- 每个步骤都存储自己的提示和响应\n- 下一步的观测由环境而非原始标记拼接来控制\n- 上下文可以在步骤之间被**截断**、**摘要化**、**重写**或**增强**\n- 标准的强化学习循环，如 `obs -> action -> step -> next_obs`，可以自然地映射到智能体训练中\n\n这使得 Agent-R1 更适合处理涉及工具使用、环境反馈和灵活上下文管理的真实多步智能体任务。\n\n## 版本指南\n\n- 默认的 [`main`](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Ftree\u002Fmain) 分支包含了基于**步骤级MDP**和**分层抽象**的新**v0.1.0**架构。\n- 之前的实现保留在 [`legacy`](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Ftree\u002Flegacy) 分支中，供参考。\n- 当前版本使用与 `verl` 相同的运行时环境，需要 **`verl==0.7.0`**。\n\n\n\n## 开始使用\n\nAgent-R1 使用与 [verl](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Fstart\u002Finstall.html) 相同的环境设置，当前版本要求 `verl==0.7.0`。您只需克隆此仓库即可，无需单独安装 Agent-R1。\n\n推荐的流程如下：\n\n1. 阅读 [入门指南](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fgetting-started\u002F) 以了解最小化设置流程。\n2. 使用 [`examples\u002Fdata_preprocess\u002Fgsm8k.py`](examples\u002Fdata_preprocess\u002Fgsm8k.py) 和 [`examples\u002Frun_qwen2.5-3b.sh`](examples\u002Frun_qwen2.5-3b.sh) 作为 sanity check，确认环境配置正确。\n3. 转到 [智能体任务教程](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Ftutorials\u002Fagent-task\u002F)，了解基于多步交互和工具使用的 Agent-R1 主要工作流。\n\n### 第一阶段：检查基础训练堆栈是否正常\n\n准备一个最小化的 GSM8K 数据集并运行单步脚本：\n\n```bash\npython3 examples\u002Fdata_preprocess\u002Fgsm8k.py --local_save_dir ~\u002Fdata\u002Fgsm8k\nbash examples\u002Frun_qwen2.5-3b.sh\n```\n\n这一阶段仅用于**设置检查**，帮助确认您的环境、模型路径、数据集路径和训练堆栈配置无误。\n\n### 第二阶段：运行主要的 Agent-R1 工作流\n\n准备工具增强型数据集并启动多步智能体训练脚本：\n\n```bash\npython3 examples\u002Fdata_preprocess\u002Fgsm8k_tool.py --local_save_dir ~\u002Fdata\u002Fgsm8k_tool\nbash examples\u002Frun_qwen3-4b_gsm8k_tool.sh\n```\n\n这是 Agent-R1 的主要路径，其中 `AgentEnvLoop` 负责驱动多步回放缓冲区的生成，而 `ToolEnv` 则处理工具调用和环境反馈。\n\n核心概念：\n\n- [步骤级MDP](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Fstep-level-mdp\u002F)\n- [分层抽象](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Flayered-abstractions\u002F)\n\n## 使用 Agent-R1 的优秀项目\n\n以下是一些基于 Agent-R1 构建的代表性项目：\n\n- **[TableMind](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06278)**：一种用于工具增强型表格推理的自主程序化智能体。TableMind 基于 Agent-R1 框架，利用其端到端强化学习流水线，训练出专门用于结构化表格理解的智能体。\n- **[PaperScout](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.10029)**：一款基于 Agent-R1 构建的学术论文搜索自主智能体。它引入了近端序列策略优化（PSPO），这是一种考虑流程的方法，用于将标记级别的优化与序列级别的智能体交互对齐。\n\n## 致谢\n\n本工作在**中国科学技术大学认知智能国家重点实验室**开展。我们衷心感谢[DeepSeek-R1](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1)、[veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl)和[RAGEN](https:\u002F\u002Fgithub.com\u002FZihanWang314\u002Fragen)提供的启发性思路与早期见解，这些都对Agent-R1的开发产生了重要影响。同时，我们也真诚地感谢[**刘琪教授**](http:\u002F\u002Fstaff.ustc.edu.cn\u002F~qiliuql\u002F)和[**程明月教授**](https:\u002F\u002Fmingyue-cheng.github.io\u002F)的指导与支持。\n\n## 引用\n\n如果您在研究中使用了Agent-R1，请引用以下文献：\n\n```bibtex\n@misc{cheng2025agentr1trainingpowerfulllm,\n  title={Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning},\n  author={Mingyue Cheng and Jie Ouyang and Shuo Yu and Ruiran Yan and Yucong Luo and Zirui Liu and Daoyu Wang and Qi Liu and Enhong Chen},\n  year={2025},\n  eprint={2511.14460},\n  archivePrefix={arXiv},\n  primaryClass={cs.CL},\n  url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14460}\n}\n```\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_readme_f7cd7812d315.png)](https:\u002F\u002Fwww.star-history.com\u002F#AgentR1\u002FAgent-R1&Date)","# Agent-R1 快速上手指南\n\nAgent-R1 是一个基于端到端强化学习（End-to-End RL）训练强大 LLM Agent 的开源框架。其核心创新在于**步级 MDP（Step-level MDP）**架构，将每一步交互视为独立的 RL 转换，有效解决了传统文本流水线中的重分词漂移和上下文管理僵化问题，特别适用于多步工具调用和环境交互任务。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+)\n- **Python**: 3.8+\n- **GPU**: 支持 CUDA 的 NVIDIA GPU（建议显存 24GB+ 以运行较大模型）\n\n### 前置依赖\nAgent-R1 v0.1.0 复用 [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 的运行时环境，**无需单独安装 Agent-R1 包**，但必须严格匹配 veRL 版本。\n\n- **核心依赖**: `verl==0.7.0`\n- **其他依赖**: PyTorch, Transformers, Ray 等（由 veRL 统一管理）\n\n> **国内加速建议**：\n> 在安装 Python 依赖时，推荐使用清华或阿里镜像源以提升下载速度：\n> ```bash\n> export PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> # 或\n> export PIP_INDEX_URL=https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F\n> ```\n\n## 安装步骤\n\nAgent-R1 采用源码运行模式，只需克隆仓库并配置好 veRL 环境即可。\n\n1. **克隆仓库**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1.git\n   cd Agent-R1\n   ```\n\n2. **安装 veRL 运行时环境**\n   请确保安装指定版本 `verl==0.7.0`。如果尚未安装 veRL，请参考 [veRL 官方安装文档](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Fstart\u002Finstall.html) 进行基础环境搭建，然后执行：\n   ```bash\n   pip install verl==0.7.0\n   ```\n   *(注：若使用国内镜像，请在命令前确保已设置上述 `PIP_INDEX_URL` 环境变量)*\n\n3. **验证环境**\n   确保 `python3 -c \"import verl; print(verl.__version__)\"` 输出 `0.7.0`。\n\n## 基本使用\n\nAgent-R1 的使用分为两个阶段：首先是基础训练栈的连通性测试（单步），然后是核心的多步 Agent 工作流。\n\n### 阶段一：基础环境连通性测试 (Sanity Check)\n此步骤用于验证数据集处理、模型路径及训练栈是否配置正确。我们使用 GSM8K 数据集进行单步测试。\n\n1. **准备数据**\n   ```bash\n   python3 examples\u002Fdata_preprocess\u002Fgsm8k.py --local_save_dir ~\u002Fdata\u002Fgsm8k\n   ```\n\n2. **运行单步训练脚本**\n   ```bash\n   bash examples\u002Frun_qwen2.5-3b.sh\n   ```\n   *说明：该脚本默认加载 Qwen2.5-3B 模型。若需更换模型，请编辑脚本中的模型路径参数。*\n\n### 阶段二：运行多步 Agent 工作流\n这是 Agent-R1 的核心功能，展示如何利用 `AgentEnvLoop` 进行多步滚动（rollout）以及通过 `ToolEnv` 处理工具调用和环境反馈。\n\n1. **准备工具增强型数据**\n   ```bash\n   python3 examples\u002Fdata_preprocess\u002Fgsm8k_tool.py --local_save_dir ~\u002Fdata\u002Fgsm8k_tool\n   ```\n\n2. **启动多步 Agent 训练**\n   ```bash\n   bash examples\u002Frun_qwen3-4b_gsm8k_tool.sh\n   ```\n   *说明：此流程将启动完整的强化学习循环，模型将在多轮交互中学习使用工具解决问题。*\n\n### 进阶学习\n完成上述步骤后，建议阅读以下核心概念文档以自定义 Agent 工作流：\n- [步级 MDP 核心概念](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Fstep-level-mdp\u002F)\n- [分层抽象架构](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Fcore-concepts\u002Flayered-abstractions\u002F)\n- [Agent 任务完整教程](https:\u002F\u002Fagentr1.github.io\u002FAgent-R1\u002Ftutorials\u002Fagent-task\u002F)","某电商平台的自动化运营团队正致力于构建一个能自主处理“用户投诉 - 查询订单 - 调用退款接口 - 发送安抚邮件”全流程的智能客服 Agent。\n\n### 没有 Agent-R1 时\n- **训练信号失真**：由于采用纯文本拼接记录多轮交互，数据在\"Token 转文本再转 Token\"的过程中发生不可逆的漂移，导致模型学到的策略与真实环境反馈不一致。\n- **上下文管理僵化**：随着对话轮数增加，上下文只能简单追加，无法在中间步骤对冗余信息进行截断或摘要，极易超出模型窗口限制或引入噪声。\n- **长链条任务失败率高**：面对需要多次调用工具的多步任务，模型难以理解每一步动作对环境状态的具体改变，常在第三步后迷失方向或重复错误操作。\n- **调试与优化困难**：缺乏标准化的状态转移定义，开发人员难以定位是哪一步的策略导致了最终奖励低下，迭代周期漫长。\n\n### 使用 Agent-R1 后\n- **端到端训练精准对齐**：基于步级 MDP（Step-level MDP）架构，每一步的提示词、动作与环境观测都被独立存储，彻底消除了重分词带来的数据漂移，确保训练信号真实可靠。\n- **灵活的上下文控制**：支持在每一步交互间动态执行上下文截断、重写或增强，让 Agent 能在长流程中始终保持对关键信息的聚焦，不再受限于机械的追加逻辑。\n- **复杂多步任务成功率飙升**：通过将标准 RL 循环自然映射到代理训练中，Agent 能深刻理解“观察 - 行动 - 新状态”的因果链，显著提升了处理跨工具、多轮次复杂任务的稳定性。\n- **标准化开发流程**：统一的强化学习流水线允许团队快速定义自定义工作流和交互环境，大幅缩短了从原型设计到模型部署的验证周期。\n\nAgent-R1 通过重构多步交互的底层表示，解决了传统文本管道在长程代理任务中的结构性缺陷，让大模型真正具备了在复杂动态环境中持续学习与决策的能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAgentR1_Agent-R1_02b937d5.png","AgentR1","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FAgentR1_4796fa72.png",null,"https:\u002F\u002Fgithub.com\u002FAgentR1",[77],{"name":78,"color":79,"percentage":80},"Python","#3572A5",100,1346,90,"2026-04-09T12:07:23","MIT",4,"未说明","未说明 (基于 verl 框架，通常训练场景需要 NVIDIA GPU)",{"notes":89,"python":86,"dependencies":90},"该工具无需单独安装 Agent-R1 包，只需克隆仓库。运行环境与 verl 完全一致，必须安装 verl==0.7.0 版本。README 中未明确列出底层依赖（如 PyTorch、CUDA 版本等），建议参考 verl 官方文档获取完整的系统环境配置要求。示例脚本使用了 Qwen2.5-3B 和 Qwen3-4B 模型进行演示。",[91],"verl==0.7.0",[13,35,14],[94,95,96],"agent","agentic-rl","llm","2026-03-27T02:49:30.150509","2026-04-10T04:28:28.745312",[100,105,110,115,120,125],{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},27173,"是否支持在一个请求中使用多个不同的工具？如何配置？","支持。若要使用多个不同工具（如搜索和计算器），需在 `agent_r1\u002Ftool\u002Ftools\u002F__init__.py` 文件中配置工具环境列表，例如：`[SearchTool(), CalculatorTool()]`。\n此外，目前代码已支持在输入中添加图片进行识别，理论上也能支持返回图片的工具（仍在测试中）。","https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fissues\u002F36",{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},27174,"遇到 'math-verify' 需要 Python >= 3.10 的版本错误如何解决？","该问题是由于依赖包 `math-verify` 要求 Python 版本不低于 3.10。解决方法是将运行环境的 Python 版本升级至 3.10 或以上。参考相关讨论，切换至 Python 3.10 通常能解决此兼容性问题，但需注意升级后可能引发的其他 torch 环境依赖冲突。","https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fissues\u002F3",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},27171,"如何处理多模态（图片输入）功能报错或无法运行的问题？","之前的版本对图片输入处理存在已知问题，现已修复。请执行以下步骤：\n1. 同步仓库到最新版本。\n2. 运行 `git submodule update --init --recursive` 确保子模块版本匹配。\n3. 如果在 Shell 脚本中运行，需添加以下三个参数来解决缓存和预填充问题：\n   `actor_rollout_ref.rollout.enable_chunked_prefill=False`\n   `actor_rollout_ref.rollout.enforce_eager=False`\n   `actor_rollout_ref.rollout.free_cache_engine=False`","https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fissues\u002F20",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},27172,"RL 训练需要什么样的 GPU 配置？单卡能否运行？","根据测试，使用单张 A100 (40G) GPU 即可训练 0.5B 规模的模型。推荐的环境变量和启动命令配置如下：\n```bash\nexport VLLM_ATTENTION_BACKEND=XFORMERS\nexport BASE_MODEL='Qwen\u002FQwen2.5-0.5B-Instruct'\nexport PROJECT_NAME='hotpotqa_qwen2.5-0.5b-instruct'\nexport EXPERIMENT_NAME=ppo\nexport HYDRA_FULL_ERROR=1\nexport CUDA_LAUNCH_BLOCKING=1\n\nCUDA_VISIBLE_DEVICES=0 python3 -m verl.trainer.main_ppo \\\n    data.train_files=.\u002Fdata\u002Fhotpotqa\u002Ftrain.parquet \\\n    data.val_files=.\u002Fdata\u002Fhotpotqa\u002Fvalidation.parquet \\\n    data.train_batch_size=128 \\\n    data.max_prompt_length=4096 \\\n    data.max_response_length=4096 \\\n    data.max_start_length=4096 \\\n    data.max_tool_response_length=4096 \\\n    actor_rollout_ref.model.path=$BASE_MODEL \\\n    actor_rollout_ref.actor.optim.lr=1e-6 \\\n    actor_rollout_ref.model.use_remove_padding=True \\\n    actor_rollout_ref.actor.ppo_mini_batch_size=64 \\\n    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1\n```","https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fissues\u002F4",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},27175,"运行数据处理脚本时出现 AttributeError 或工具路径相关的错误怎么办？","如果遇到此类错误，通常需要检查并修改代码中的模型路径配置。具体而言，请检查 `agent_r1\u002Ftool\u002Ftools\u002Fsearch_tool.py` 文件，确保其中引用的模型路径是正确的且本地存在。此外，部分 Tokenizer 相关的警告可参考 FlagEmbedding 的相关 Issue 进行排查。","https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1\u002Fissues\u002F11",{"id":126,"question_zh":127,"answer_zh":128,"source_url":104},27176,"日志中的 TRAJ 数字代表什么含义？如何控制交互轮次以加速训练？","日志中 TRAJ 后的数字代表每一轮训练中尚未完成处理的样本数量（剩余 Episode 数）。\n可以通过调整 `max_turns` 参数来控制最大交互轮次，限制每个样本的步数，从而有效加速训练过程。该参数在工具配置中设定（如 `'max_turns': 10`）。",[]]