[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mll-lab-nu--RAGEN":3,"tool-mll-lab-nu--RAGEN":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":10,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":116,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":117,"updated_at":118,"faqs":119,"releases":145},899,"mll-lab-nu\u002FRAGEN","RAGEN","RAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.","RAGEN 是一个基于强化学习训练智能体推理能力的开源框架。它通过构建交互式、随机化的环境，让大型语言模型（LLM）驱动的智能体在其中学习如何通过“思考-行动”的循环来解决问题，并利用环境反馈来优化自身的推理和决策策略。\n\n该框架旨在解决一个核心难题：在复杂的多步任务中，如何稳定、高效地训练智能体的推理能力，并诊断训练失败的原因。传统方法往往难以深入理解智能体在训练中为何表现不佳，而 RAGEN 提供了专门的诊断工具，帮助开发者洞察训练过程，识别并修复如“推理崩溃”等隐藏问题。\n\nRAGEN 主要面向**AI研究人员和开发者**，特别是那些致力于强化学习、智能体研究或希望提升LLM在交互任务中表现的用户。它内置了从游戏（如推箱子）到编程解题（如DeepCoder）等多种测试环境，并提供了兼容 OpenAI Gym 的接口，方便用户集成自定义任务。\n\n其技术核心是 **StarPO** 框架，它将智能体与环境的交互统一建模，支持对整个任务轨迹进行优化。最新发布的 V2 版本引入了两项关键创新：**SNR自适应过滤**能根据奖励信号的稳定性动态筛选训练数据，以降低噪声干扰；**推理崩溃诊断","RAGEN 是一个基于强化学习训练智能体推理能力的开源框架。它通过构建交互式、随机化的环境，让大型语言模型（LLM）驱动的智能体在其中学习如何通过“思考-行动”的循环来解决问题，并利用环境反馈来优化自身的推理和决策策略。\n\n该框架旨在解决一个核心难题：在复杂的多步任务中，如何稳定、高效地训练智能体的推理能力，并诊断训练失败的原因。传统方法往往难以深入理解智能体在训练中为何表现不佳，而 RAGEN 提供了专门的诊断工具，帮助开发者洞察训练过程，识别并修复如“推理崩溃”等隐藏问题。\n\nRAGEN 主要面向**AI研究人员和开发者**，特别是那些致力于强化学习、智能体研究或希望提升LLM在交互任务中表现的用户。它内置了从游戏（如推箱子）到编程解题（如DeepCoder）等多种测试环境，并提供了兼容 OpenAI Gym 的接口，方便用户集成自定义任务。\n\n其技术核心是 **StarPO** 框架，它将智能体与环境的交互统一建模，支持对整个任务轨迹进行优化。最新发布的 V2 版本引入了两项关键创新：**SNR自适应过滤**能根据奖励信号的稳定性动态筛选训练数据，以降低噪声干扰；**推理崩溃诊断**则通过互信息等指标，实时监测训练过程中智能体是否陷入僵化的思维模板，从而保障训练的稳定性与效果。","\u003Ch1 align=\"center\">RAGEN: Training Agents by Reinforcing Reasoning\u003C\u002Fh1>\n\u003Ch3 align=\"center\">\u003Cem>Diagnose agent failure modes. Make your RL training better.\u003C\u002Fem>\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_a0160fb70da6.jpeg\" width=\"300px\" alt=\"RAGEN icon\" \u002F>\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cstrong>RAGEN\u003C\u002Fstrong> (\u003Cb>R\u003C\u002Fb>easoning \u003Cb>AGEN\u003C\u002Fb>T) is a flexible RL framework for training reasoning agents.\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  We develop \u003Cstrong>diagnostics to understand \u003Ci>how\u003C\u002Fi> agent RL training works \u003C\u002Fstrong>, and how to fix hidden issues.\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fragen-ai.github.io\u002Fv2\u002Fpdf\u002FRAGEN-v2.pdf\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_V2_Paper-DC143C?style=for-the-badge&logoColor=white\" alt=\"V2 Paper\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_v1_Paper-FF8C00?style=for-the-badge&logoColor=white\" alt=\"v1 Paper\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fragen-ai.github.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📝_HomePage-FF5722?style=for-the-badge&logoColor=white\" alt=\"Blog\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fragen-doc.readthedocs.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📚_Documentation-4285F4?style=for-the-badge&logoColor=white\" alt=\"Documentation\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1915052871474712858\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🔍_Post-34A853?style=for-the-badge&logoColor=white\" alt=\"Post\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fapi.wandb.ai\u002Flinks\u002Fzihanwang-ai-northwestern-university\u002Fa8er8l7b\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🧪_Experiment_Log-AB47BC?style=for-the-badge&logoColor=white\" alt=\"Experiment Log\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n> **Looking for the V1 README?** Please take a look [here](docs\u002Freadme_v1.md).\n\n## News\n\n- **2026.3.12.** We are excited to release \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont>! We introduce a systematic study of reasoning collapse in agent RL and lightweight interventions for stable training. See the [\u003Cfont color=\"#DC143C\">v2 paper\u003C\u002Ffont>](https:\u002F\u002Fragen-ai.github.io\u002Fv2).\n- **2025.4.20.** RAGEN V1 [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) published on arXiv.\n- **2025.1.27.** Initial RAGEN release. [Post](https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1884092805598826609).\n\n\n## About\n\nRAGEN is built around **StarPO** (**S**tate-**T**hinking-**A**ctions-**R**eward **P**olicy **O**ptimization), a unified RL framework for training multi-turn, trajectory-level agents with flexible control over reasoning processes, reward assignment mechanisms, and prompt-rollout structures.\n\n**RAGEN is flexible with:**\n\n- **StarPO framework.** Unified optimization for multi-turn agents, supporting both trajectory-level and turn-wise training.\n- **10 built-in environments.** Sokoban, FrozenLake, WebShop, DeepCoder, SearchQA, Lean, Bandit, Countdown, MetaMathQA, Sudoku.\n- **Gym-compatible interface.** Easy to add custom environments.\n\n**\u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> additionally introduces:**\n\n- **SNR-Adaptive Filtering (\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>).** Lightweight rollout filtering based on reward variance to mitigate noisy gradient updates.\n- **Reasoning collapse diagnostics (\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>).** Mutual information proxy metrics to detect and monitor template collapse during training.\n\n\n## Algorithm\n\n### StarPO: Reinforcing Reasoning via Trajectory-Level Optimization\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_7922a8bd7aa8.png\" width=\"800px\" alt=\"StarPO Framework\" \u002F>\u003C\u002Fp>\n\u003Cp align=\"center\" style=\"font-size: 16px; max-width: 800px; margin: 0 auto;\">\nThe StarPO (State-Thinking-Action-Reward Policy Optimization) framework with two interleaved stages: \u003Cb>rollout stage\u003C\u002Fb> and \u003Cb>update stage\u003C\u002Fb>. The LLM generates reasoning-guided actions to interact with the environment, collecting trajectory-level rewards to jointly optimize reasoning and action strategies.\n\u003C\u002Fp>\n\n**MDP Formulation.** Agent-environment interactions are formulated as Markov Decision Processes (MDPs) where states and actions are token sequences, allowing LLMs to reason over environment dynamics. The objective is to maximize expected cumulative rewards across multiple interaction turns.\n\n**Rollout Stage.** Given an initial state, the LLM generates multiple trajectories. At each step, the model produces a reasoning-guided action: `\u003Cthink>...\u003C\u002Fthink>\u003Cans> action \u003C\u002Fans>`. The environment returns feedback (reward and next state).\n\n**Update Stage.** StarPO optimizes entire trajectories using importance sampling. It supports:\n- **PPO.** Token-level advantage estimation via a value function over trajectories.\n- **GRPO.** Normalized reward assigned to the full trajectory.\n\n### \u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>: Diagnosing Template Collapse\n\nEntropy alone cannot detect *template collapse*, where reasoning appears diverse within a single input but becomes input-agnostic across inputs. \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> decomposes reasoning quality into two axes:\n- **Within-input diversity:** Conditional Entropy H(Z|X)\n- **Cross-input distinguishability:** Mutual Information I(X;Z)\n\nSNR-Adaptive Filtering uses reward variance as a lightweight proxy to select high-signal prompts each iteration, directly addressing the root cause of template collapse.\n\n\n## Update Log\n\n**2026.3.12.** \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> is released! Check out our [\u003Cfont color=\"#DC143C\">v2 paper\u003C\u002Ffont>](https:\u002F\u002Fragen-ai.github.io\u002Fv2).\n\n\u003Cdetails>\n\u003Csummary>Older updates\u003C\u002Fsummary>\n\n**2025.5.8.** Official [Documentation](https:\u002F\u002Fragen-doc.readthedocs.io\u002F) released.\n\n**2025.5.2.** A [tracking document](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1bg7obeiKTExuHHBl5uOiSpec5uLDZ2Tgvxy6li5pHX4\u002Fedit?usp=sharing) for logging minor codebase updates is released.\n\n**2025.4.20.** RAGEN V1 [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) published. Codebase restructured: veRL integrated as a submodule; architecture decomposed into three modules — Environment State Manager, Context Manager, and Agent Proxy.\n\n**2025.3.13.** RAGEN codebase refactoring underway. See the [developing branch](https:\u002F\u002Fgithub.com\u002FZihanWang314\u002FRAGEN\u002Ftree\u002Fmain-new).\n\n**2025.3.8.** KL term issue in veRL [fixed](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl\u002Fpull\u002F179\u002Ffiles). Default advantage estimator changed to GAE (PPO) for more stable training.\n\n**2025.1.27.** Initial RAGEN release. [Post](https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1884092805598826609).\n\n\u003C\u002Fdetails>\n\n\n## Getting Started\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN.git\ncd RAGEN\nconda create -n ragen python=3.12 -y && conda activate ragen\nbash scripts\u002Fsetup_ragen.sh\n```\n\nUse `bash scripts\u002Fsetup_ragen.sh --with-search` to include the search environment. For WebShop, see [docs\u002Fexperiment_webshop_release.md](docs\u002Fexperiment_webshop_release.md).\n\n### The Four Reasoning Regimes\n\n\u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> diagnoses agent behavior along two axes — **within-input diversity** (Conditional Entropy) and **cross-input distinguishability** (Mutual Information) — yielding four distinct reasoning regimes:\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_6bcde416ec03.png\" width=\"800px\" alt=\"Four reasoning regimes: diverse reasoning, template collapse, compressed reasoning, low-entropy collapse\" \u002F>\u003C\u002Fp>\n\u003Cp align=\"center\" style=\"font-size: 15px; max-width: 800px; margin: 0 auto;\">\n\u003Cb>Left:\u003C\u002Fb> Input-driven reasoning adapts to the current state; templated reasoning produces nearly identical responses across different inputs. \u003Cb>Right:\u003C\u002Fb> Four reasoning regimes along two axes — conditional entropy H(Z|X) (within-input diversity) and mutual information I(X;Z) (input dependence). Template collapse (high entropy, low MI) is invisible to existing entropy-based metrics.\n\u003C\u002Fp>\n\n**Train (no filter, default):**\n```bash\npython train.py --config-name _2_sokoban\n```\n\n**Train with SNR-Adaptive Filtering (\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>, Top-p):**\n```bash\npython train.py --config-name _2_sokoban \\\n  actor_rollout_ref.rollout_filter_strategy=top_p \\\n  actor_rollout_ref.rollout.rollout_filter_value=0.9\n```\n\n**Evaluate:**\n```bash\npython -m ragen.llm_agent.agent_proxy --config-name _2_sokoban\n```\n\nSNR-Adaptive Filtering consistently improves training across algorithms, model scales, and modalities (green = gain from filtering):\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_fc9608fc5d3a.png\" width=\"800px\" alt=\"Main results: filtering vs no filtering\" \u002F>\u003C\u002Fp>\n\nSee the [Rollout Filtering Guide](docs\u002Fguide_rollout_filtering.md) for more filtering strategies (Top-k, linear mode, etc.).\n\n\n## Future Plans\n\nWe are actively developing the next generation of RAGEN infrastructure and diagnostics, targeting a release in **late March 2026**.\n\n**Infrastructure**\n- [ ] **Async rollout engine** \n- [ ] **HTTP-based environment interface** \n- [ ] **Layered Env Wrapper** \n- [ ] **Optional environment dependencies** \n\n**Diagnostics & Training Quality**\n- [ ] **Expanded benchmark suite** to stress-test diagnostics across diverse, real-world agent tasks\n- [ ] **Extended MI diagnostic dashboard**, including richer WandB visualizations for entropy, MI proxy, and gradient decomposition over training\n- [ ] **RL training metrics guide**, including a practitioner's blog on how to read training signals (reward distribution, entropy, MI, gradient norms) and act on them before committing to a full run\n\n**Framework**\n- [ ] Update full documentation for \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont>\n- [ ] Multi-modal agent support (building upon [VAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FVAGEN))\n- [ ] Public leaderboard for benchmark results\n\n\n## Documentation\n\n- [Full Documentation](https:\u002F\u002Fragen-doc.readthedocs.io\u002F) *(We will release an updated version soon.)*\n- [Rollout Filtering Guide](docs\u002Fguide_rollout_filtering.md)\n- [MI Metrics Reference](docs\u002Freference_mutual_information_metrics.md)\n- Adding Custom Environments — Gym-compatible interface, see `config\u002Fenvs.yaml` and [documentation](https:\u002F\u002Fragen-doc.readthedocs.io\u002F)\n- Experiment reproduction: [Main Table](docs\u002Fexperiment_main_table.md) | [Intervention Sweep](docs\u002Fexperiment_intervention_sweep.md) | [FrozenLake](docs\u002Fexperiment_frozen_lake_slipper_sweep.md) | [Sokoban Gradient](docs\u002Fexperiment_sokoban_gradient_analysis.md) | [Search](docs\u002Fexperiment_search.md) | [DeepCoder](docs\u002Fexperiment_deepcoder.md) | [WebShop](docs\u002Fexperiment_webshop_release.md)\n\n\n## Awesome Work Powered or Inspired by RAGEN\n\n- [ROLL](https:\u002F\u002Fgithub.com\u002Falibaba\u002FROLL): Efficient Scaling Library for RL with LLMs ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Falibaba\u002FROLL?style=social)\n- [VAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FVAGEN): Training Visual Agents with multi-turn RL ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRAGEN-AI\u002FVAGEN?style=social)\n- [Search-R1](https:\u002F\u002Fgithub.com\u002FPeterGriffinJin\u002FSearch-R1): Train LLMs to reason and call a search engine with RL ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPeterGriffinJin\u002FSearch-R1?style=social)\n- [ZeroSearch](https:\u002F\u002Fgithub.com\u002FAlibaba-nlp\u002FZeroSearch): Incentivize LLM search capability without searching ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FAlibaba-nlp\u002FZeroSearch?style=social)\n- [Agent-R1](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1): Training Powerful LLM Agents with End-to-End RL\n- [OpenManus-RL](https:\u002F\u002Fgithub.com\u002FOpenManus\u002FOpenManus-RL): RL tuning for LLM agents ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FOpenManus\u002FOpenManus-RL?style=social)\n- [MetaSpatial](https:\u002F\u002Fgithub.com\u002FPzySeere\u002FMetaSpatial): Reinforcing 3D Spatial Reasoning in VLMs ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPzySeere\u002FMetaSpatial?style=social)\n- [s3](https:\u002F\u002Fgithub.com\u002Fpat-jj\u002Fs3): Efficient Yet Effective Search Agent Training via RL\n\n\n## Contributors\n\n[**Zihan Wang**\\*](https:\u002F\u002Fzihanwang314.github.io\u002F), [**Kangrui Wang**\\*](https:\u002F\u002Fjameskrw.github.io\u002F), [**Qineng Wang**\\*](https:\u002F\u002Fqinengwang-aiden.github.io\u002F), [**Pingyue Zhang**\\*](https:\u002F\u002Fwilliamzhangsjtu.github.io\u002F), [**Linjie Li**\\*](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=WR875gYAAAAJ&hl=en), [**Zhengyuan Yang**](https:\u002F\u002Fzyang-ur.github.io\u002F), [**Xing Jin**](https:\u002F\u002Fopenreview.net\u002Fprofile?id=~Xing_Jin3), [**Kefan Yu**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fkefan-yu-22723a25b\u002Fen\u002F), [**Minh Nhat Nguyen**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fmenhguin\u002F?originalSubdomain=sg), [**Licheng Liu**](https:\u002F\u002Fx.com\u002Fliulicheng10), [**Eli Gottlieb**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Feli-gottlieb1\u002F), [**Yiping Lu**](https:\u002F\u002F2prime.github.io), [**Kyunghyun Cho**](https:\u002F\u002Fkyunghyuncho.me\u002F), [**Jiajun Wu**](https:\u002F\u002Fjiajunwu.com\u002F), [**Li Fei-Fei**](https:\u002F\u002Fprofiles.stanford.edu\u002Ffei-fei-li), [**Lijuan Wang**](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Flijuanw\u002F), [**Yejin Choi**](https:\u002F\u002Fhomes.cs.washington.edu\u002F~yejin\u002F), [**Manling Li**](https:\u002F\u002Flimanling.github.io\u002F)\n\n\\*Equal Contribution.\n\n\n## Acknowledgements\n\nWe thank the [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) team for early conceptual inspirations. We are grateful to the [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) team for infrastructure support. We thank the [TinyZero](https:\u002F\u002Fgithub.com\u002FJiayi-Pan\u002FTinyZero) team for discoveries that informed our initial exploration. We appreciate insightful discussions with Han Liu, Xinyu Xing, Li Erran Li, John Schulman, Akari Asai, Eiso Kant, Lu Lu, Runxin Xu, Huajian Xin, Zijun Liu, Weiyi Liu, Weimin Wu, Yibo Wen, Jiarui Liu, Lorenzo Xiao, Ishan Mukherjee, Anabella Isaro, Haosen Sun, How-Yeh Wan, Lester Xue, Matthew Khoriaty, Haoxiang Sun, Jiajun Liu.\n\nFor \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont>, we additionally thank Yuxiang Lin and Kyunghyun Cho for their support.\n\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_319350bdea53.png)](https:\u002F\u002Fwww.star-history.com\u002F#mll-lab-nu\u002Fragen&Date)\n\n\n## Citation\n\n```bibtex\n@misc{ragen-v2,\n      title={RAGEN-V2: Understanding Reasoning Collapse in LLM Agent Reinforcement Learning},\n      author={Zihan Wang and Chi Gui and Xing Jin and Qineng Wang and Licheng Liu and Kangrui Wang and Shiqi Chen and Linjie Li and Zhengyuan Yang and Pingyue Zhang and Yiping Lu and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},\n      year={2026},\n      url={https:\u002F\u002Fragen-ai.github.io\u002Fv2},\n}\n```\n\n```bibtex\n@misc{ragen,\n      title={RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning},\n      author={Zihan Wang and Kangrui Wang and Qineng Wang and Pingyue Zhang and Linjie Li and Zhengyuan Yang and Xing Jin and Kefan Yu and Minh Nhat Nguyen and Licheng Liu and Eli Gottlieb and Yiping Lu and Kyunghyun Cho and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},\n      year={2025},\n      eprint={2504.20073},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073},\n}\n```\n","\u003Ch1 align=\"center\">RAGEN：通过强化推理训练智能体\u003C\u002Fh1>\n\u003Ch3 align=\"center\">\u003Cem>诊断智能体故障模式，让您的强化学习训练更出色。\u003C\u002Fem>\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_a0160fb70da6.jpeg\" width=\"300px\" alt=\"RAGEN 图标\" \u002F>\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cstrong>RAGEN\u003C\u002Fstrong> (\u003Cb>R\u003C\u002Fb>easoning \u003Cb>AGEN\u003C\u002Fb>T) 是一个用于训练推理智能体的灵活强化学习框架。\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  我们开发了\u003Cstrong>诊断工具来理解智能体强化学习训练\u003Cem>如何\u003C\u002Fem>运作\u003C\u002Fstrong>，以及如何修复隐藏的问题。\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fragen-ai.github.io\u002Fv2\u002Fpdf\u002FRAGEN-v2.pdf\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_V2_论文-DC143C?style=for-the-badge&logoColor=white\" alt=\"V2 论文\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_v1_论文-FF8C00?style=for-the-badge&logoColor=white\" alt=\"v1 论文\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fragen-ai.github.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📝_主页-FF5722?style=for-the-badge&logoColor=white\" alt=\"博客\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fragen-doc.readthedocs.io\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📚_文档-4285F4?style=for-the-badge&logoColor=white\" alt=\"文档\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1915052871474712858\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🔍_帖子-34A853?style=for-the-badge&logoColor=white\" alt=\"帖子\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fapi.wandb.ai\u002Flinks\u002Fzihanwang-ai-northwestern-university\u002Fa8er8l7b\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🧪_实验日志-AB47BC?style=for-the-badge&logoColor=white\" alt=\"实验日志\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n> **寻找 V1 版本的 README？** 请查看[这里](docs\u002Freadme_v1.md)。\n\n## 新闻\n\n- **2026.3.12.** 我们很高兴发布 \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont>！我们引入了一项关于智能体强化学习中推理崩溃的系统性研究，以及用于稳定训练的轻量级干预措施。参见[\u003Cfont color=\"#DC143C\">v2 论文\u003C\u002Ffont>](https:\u002F\u002Fragen-ai.github.io\u002Fv2)。\n- **2025.4.20.** RAGEN V1 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073)在 arXiv 上发表。\n- **2025.1.27.** RAGEN 初始版本发布。[帖子](https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1884092805598826609)。\n\n## 关于\n\nRAGEN 围绕 **StarPO** (**S**tate-**T**hinking-**A**ctions-**R**eward **P**olicy **O**ptimization) 构建，这是一个统一的强化学习框架，用于训练多轮次、轨迹级别的智能体，并能灵活控制推理过程、奖励分配机制和提示-推演结构。\n\n**RAGEN 具有以下灵活性：**\n\n- **StarPO 框架。** 针对多轮次智能体的统一优化，支持轨迹级别和轮次级别的训练。\n- **10 个内置环境。** Sokoban, FrozenLake, WebShop, DeepCoder, SearchQA, Lean, Bandit, Countdown, MetaMathQA, Sudoku。\n- **Gym 兼容接口。** 易于添加自定义环境。\n\n**\u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> 额外引入了：**\n\n- **SNR-自适应过滤 (\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>)。** 基于奖励方差的轻量级推演过滤，以减轻噪声梯度更新的影响。\n- **推理崩溃诊断 (\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>)。** 使用互信息代理指标来检测和监控训练过程中的模板崩溃。\n\n## 算法\n\n### StarPO：通过轨迹级别优化强化推理\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_7922a8bd7aa8.png\" width=\"800px\" alt=\"StarPO 框架\" \u002F>\u003C\u002Fp>\n\u003Cp align=\"center\" style=\"font-size: 16px; max-width: 800px; margin: 0 auto;\">\nStarPO (状态-思考-行动-奖励策略优化) 框架包含两个交错阶段：\u003Cb>推演阶段\u003C\u002Fb>和\u003Cb>更新阶段\u003C\u002Fb>。LLM 生成推理引导的行动与环境交互，收集轨迹级别的奖励，以联合优化推理和行动策略。\n\u003C\u002Fp>\n\n**MDP 公式化。** 智能体-环境交互被表述为马尔可夫决策过程 (MDPs)，其中状态和行动是令牌序列，允许 LLM 对环境动态进行推理。目标是在多个交互轮次中最大化期望累积奖励。\n\n**推演阶段。** 给定一个初始状态，LLM 生成多个轨迹。在每一步，模型产生一个推理引导的行动：`\u003Cthink>...\u003C\u002Fthink>\u003Cans> action \u003C\u002Fans>`。环境返回反馈（奖励和下一个状态）。\n\n**更新阶段。** StarPO 使用重要性采样优化整个轨迹。它支持：\n- **PPO。** 通过轨迹上的价值函数进行令牌级别的优势估计。\n- **GRPO。** 分配给完整轨迹的归一化奖励。\n\n### \u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>：诊断模板崩溃\n\n仅凭熵无法检测*模板崩溃*，即推理在单个输入内看似多样，但在不同输入之间变得与输入无关。\u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> 将推理质量分解为两个轴：\n- **输入内多样性：** 条件熵 H(Z|X)\n- **跨输入可区分性：** 互信息 I(X;Z)\n\nSNR-自适应过滤使用奖励方差作为轻量级代理指标，在每次迭代中选择高信噪比的提示，直接解决模板崩溃的根本原因。\n\n## 更新日志\n\n**2026.3.12.** \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> 发布！查看我们的[\u003Cfont color=\"#DC143C\">v2 论文\u003C\u002Ffont>](https:\u002F\u002Fragen-ai.github.io\u002Fv2)。\n\n\u003Cdetails>\n\u003Csummary>较早的更新\u003C\u002Fsummary>\n\n**2025.5.8.** 官方[文档](https:\u002F\u002Fragen-doc.readthedocs.io\u002F)发布。\n\n**2025.5.2.** 用于记录代码库小更新的[跟踪文档](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1bg7obeiKTExuHHBl5uOiSpec5uLDZ2Tgvxy6li5pHX4\u002Fedit?usp=sharing)发布。\n\n**2025.4.20.** RAGEN V1 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073)发表。代码库重构：veRL 集成为子模块；架构分解为三个模块——环境状态管理器、上下文管理器和智能体代理。\n\n**2025.3.13.** RAGEN 代码库重构进行中。参见[开发分支](https:\u002F\u002Fgithub.com\u002FZihanWang314\u002FRAGEN\u002Ftree\u002Fmain-new)。\n\n**2025.3.8.** veRL 中的 KL 项问题已[修复](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl\u002Fpull\u002F179\u002Ffiles)。默认优势估计器改为 GAE (PPO) 以获得更稳定的训练。\n\n**2025.1.27.** RAGEN 初始版本发布。[帖子](https:\u002F\u002Fx.com\u002Fwzihanw\u002Fstatus\u002F1884092805598826609)。\n\n\u003C\u002Fdetails>\n\n## 开始使用\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN.git\ncd RAGEN\nconda create -n ragen python=3.12 -y && conda activate ragen\nbash scripts\u002Fsetup_ragen.sh\n```\n\n使用 `bash scripts\u002Fsetup_ragen.sh --with-search` 来包含搜索环境。对于 WebShop，请参阅 [docs\u002Fexperiment_webshop_release.md](docs\u002Fexperiment_webshop_release.md)。\n\n### 四种推理机制\n\n\u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> 沿着两个维度诊断智能体行为——**输入内多样性**（条件熵，Conditional Entropy）和**跨输入区分度**（互信息，Mutual Information）——从而得出四种不同的推理机制：\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_6bcde416ec03.png\" width=\"800px\" alt=\"四种推理机制：多样化推理、模板化坍缩、压缩推理、低熵坍缩\" \u002F>\u003C\u002Fp>\n\u003Cp align=\"center\" style=\"font-size: 15px; max-width: 800px; margin: 0 auto;\">\n\u003Cb>左图：\u003C\u002Fb>输入驱动的推理会适应当前状态；模板化推理在不同输入下产生几乎相同的响应。\u003Cb>右图：\u003C\u002Fb>沿着两个维度的四种推理机制——条件熵 H(Z|X)（输入内多样性）和互信息 I(X;Z)（输入依赖性）。模板化坍缩（高熵，低互信息）对于现有的基于熵的度量指标是不可见的。\n\u003C\u002Fp>\n\n**训练（无过滤，默认）：**\n```bash\npython train.py --config-name _2_sokoban\n```\n\n**使用 SNR 自适应过滤进行训练（\u003Cfont color=\"#DC143C\">V2\u003C\u002Ffont>, Top-p）：**\n```bash\npython train.py --config-name _2_sokoban \\\n  actor_rollout_ref.rollout_filter_strategy=top_p \\\n  actor_rollout_ref.rollout.rollout_filter_value=0.9\n```\n\n**评估：**\n```bash\npython -m ragen.llm_agent.agent_proxy --config-name _2_sokoban\n```\n\nSNR 自适应过滤在各种算法、模型规模和模态下都能持续改善训练效果（绿色 = 过滤带来的增益）：\n\n\u003Cp align=\"center\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_fc9608fc5d3a.png\" width=\"800px\" alt=\"主要结果：过滤 vs 无过滤\" \u002F>\u003C\u002Fp>\n\n更多过滤策略（Top-k、线性模式等）请参阅[轨迹过滤指南](docs\u002Fguide_rollout_filtering.md)。\n\n\n## 未来计划\n\n我们正在积极开发下一代 RAGEN 基础设施和诊断工具，目标是在 **2026 年 3 月底**发布。\n\n**基础设施**\n- [ ] **异步轨迹引擎**\n- [ ] **基于 HTTP 的环境接口**\n- [ ] **分层环境包装器**\n- [ ] **可选的环境依赖**\n\n**诊断与训练质量**\n- [ ] **扩展的基准测试套件**，用于在各种现实世界的智能体任务中压力测试诊断工具\n- [ ] **扩展的互信息诊断仪表板**，包括更丰富的 WandB 可视化，用于展示训练过程中的熵、互信息代理指标和梯度分解\n- [ ] **强化学习训练指标指南**，包括一篇实践者博客，介绍如何解读训练信号（奖励分布、熵、互信息、梯度范数）并在投入完整训练前采取行动\n\n**框架**\n- [ ] 更新 \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont> 的完整文档\n- [ ] 多模态智能体支持（基于 [VAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FVAGEN) 构建）\n- [ ] 基准测试结果的公开排行榜\n\n\n## 文档\n\n- [完整文档](https:\u002F\u002Fragen-doc.readthedocs.io\u002F) *（我们将很快发布更新版本。）*\n- [轨迹过滤指南](docs\u002Fguide_rollout_filtering.md)\n- [互信息指标参考](docs\u002Freference_mutual_information_metrics.md)\n- 添加自定义环境——兼容 Gym 的接口，请参阅 `config\u002Fenvs.yaml` 和[文档](https:\u002F\u002Fragen-doc.readthedocs.io\u002F)\n- 实验复现：[主表](docs\u002Fexperiment_main_table.md) | [干预扫描](docs\u002Fexperiment_intervention_sweep.md) | [FrozenLake](docs\u002Fexperiment_frozen_lake_slipper_sweep.md) | [Sokoban 梯度分析](docs\u002Fexperiment_sokoban_gradient_analysis.md) | [搜索](docs\u002Fexperiment_search.md) | [DeepCoder](docs\u002Fexperiment_deepcoder.md) | [WebShop](docs\u002Fexperiment_webshop_release.md)\n\n\n## 由 RAGEN 赋能或启发的优秀工作\n\n- [ROLL](https:\u002F\u002Fgithub.com\u002Falibaba\u002FROLL)：用于大语言模型强化学习的高效扩展库 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Falibaba\u002FROLL?style=social)\n- [VAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FVAGEN)：使用多轮强化学习训练视觉智能体 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRAGEN-AI\u002FVAGEN?style=social)\n- [Search-R1](https:\u002F\u002Fgithub.com\u002FPeterGriffinJin\u002FSearch-R1)：使用强化学习训练大语言模型进行推理并调用搜索引擎 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPeterGriffinJin\u002FSearch-R1?style=social)\n- [ZeroSearch](https:\u002F\u002Fgithub.com\u002FAlibaba-nlp\u002FZeroSearch)：在不进行搜索的情况下激励大语言模型的搜索能力 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FAlibaba-nlp\u002FZeroSearch?style=social)\n- [Agent-R1](https:\u002F\u002Fgithub.com\u002FAgentR1\u002FAgent-R1)：使用端到端强化学习训练强大的大语言模型智能体\n- [OpenManus-RL](https:\u002F\u002Fgithub.com\u002FOpenManus\u002FOpenManus-RL)：用于大语言模型智能体的强化学习调优 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FOpenManus\u002FOpenManus-RL?style=social)\n- [MetaSpatial](https:\u002F\u002Fgithub.com\u002FPzySeere\u002FMetaSpatial)：强化视觉语言模型中的 3D 空间推理能力 ![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPzySeere\u002FMetaSpatial?style=social)\n- [s3](https:\u002F\u002Fgithub.com\u002Fpat-jj\u002Fs3)：通过强化学习进行高效而有效的搜索智能体训练\n\n\n## 贡献者\n\n[**Zihan Wang**\\*](https:\u002F\u002Fzihanwang314.github.io\u002F), [**Kangrui Wang**\\*](https:\u002F\u002Fjameskrw.github.io\u002F), [**Qineng Wang**\\*](https:\u002F\u002Fqinengwang-aiden.github.io\u002F), [**Pingyue Zhang**\\*](https:\u002F\u002Fwilliamzhangsjtu.github.io\u002F), [**Linjie Li**\\*](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=WR875gYAAAAJ&hl=en), [**Zhengyuan Yang**](https:\u002F\u002Fzyang-ur.github.io\u002F), [**Xing Jin**](https:\u002F\u002Fopenreview.net\u002Fprofile?id=~Xing_Jin3), [**Kefan Yu**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fkefan-yu-22723a25b\u002Fen\u002F), [**Minh Nhat Nguyen**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Fmenhguin\u002F?originalSubdomain=sg), [**Licheng Liu**](https:\u002F\u002Fx.com\u002Fliulicheng10), [**Eli Gottlieb**](https:\u002F\u002Fwww.linkedin.com\u002Fin\u002Feli-gottlieb1\u002F), [**Yiping Lu**](https:\u002F\u002F2prime.github.io), [**Kyunghyun Cho**](https:\u002F\u002Fkyunghyuncho.me\u002F), [**Jiajun Wu**](https:\u002F\u002Fjiajunwu.com\u002F), [**Li Fei-Fei**](https:\u002F\u002Fprofiles.stanford.edu\u002Ffei-fei-li), [**Lijuan Wang**](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Flijuanw\u002F), [**Yejin Choi**](https:\u002F\u002Fhomes.cs.washington.edu\u002F~yejin\u002F), [**Manling Li**](https:\u002F\u002Flimanling.github.io\u002F)\n\n\\* 同等贡献。\n\n\n## 致谢\n\n我们感谢 [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) 团队早期的概念启发。我们感谢 [veRL](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 团队提供的基础设施支持。我们感谢 [TinyZero](https:\u002F\u002Fgithub.com\u002FJiayi-Pan\u002FTinyZero) 团队的发现，这些发现为我们最初的探索提供了信息。我们感谢与 Han Liu, Xinyu Xing, Li Erran Li, John Schulman, Akari Asai, Eiso Kant, Lu Lu, Runxin Xu, Huajian Xin, Zijun Liu, Weiyi Liu, Weimin Wu, Yibo Wen, Jiarui Liu, Lorenzo Xiao, Ishan Mukherjee, Anabella Isaro, Haosen Sun, How-Yeh Wan, Lester Xue, Matthew Khoriaty, Haoxiang Sun, Jiajun Liu 进行的富有洞察力的讨论。\n\n对于 \u003Cfont color=\"#DC143C\">RAGEN V2\u003C\u002Ffont>，我们还要感谢 Yuxiang Lin 和 Kyunghyun Cho 的支持。\n\n\n## Star 历史\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_readme_319350bdea53.png)](https:\u002F\u002Fwww.star-history.com\u002F#mll-lab-nu\u002Fragen&Date)\n\n## 引用\n\n```bibtex\n@misc{ragen-v2,\n      title={RAGEN-V2: Understanding Reasoning Collapse in LLM Agent Reinforcement Learning},\n      author={Zihan Wang and Chi Gui and Xing Jin and Qineng Wang and Licheng Liu and Kangrui Wang and Shiqi Chen and Linjie Li and Zhengyuan Yang and Pingyue Zhang and Yiping Lu and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},\n      year={2026},\n      url={https:\u002F\u002Fragen-ai.github.io\u002Fv2},\n}\n```\n\n```bibtex\n@misc{ragen,\n      title={RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning},\n      author={Zihan Wang and Kangrui Wang and Qineng Wang and Pingyue Zhang and Linjie Li and Zhengyuan Yang and Xing Jin and Kefan Yu and Minh Nhat Nguyen and Licheng Liu and Eli Gottlieb and Yiping Lu and Kyunghyun Cho and Jiajun Wu and Li Fei-Fei and Lijuan Wang and Yejin Choi and Manling Li},\n      year={2025},\n      eprint={2504.20073},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073},\n}\n```","# RAGEN 快速上手指南\n\n## 环境准备\n\n- **操作系统**: Linux 或 macOS (推荐)\n- **Python**: 3.12 或更高版本\n- **包管理器**: Conda (推荐) 或 pip\n- **硬件**: 支持 CUDA 的 GPU (用于高效训练，非必需)\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN.git\n    cd RAGEN\n    ```\n\n2.  **创建并激活 Conda 环境**\n    ```bash\n    conda create -n ragen python=3.12 -y\n    conda activate ragen\n    ```\n\n3.  **运行安装脚本**\n    执行以下命令安装核心依赖：\n    ```bash\n    bash scripts\u002Fsetup_ragen.sh\n    ```\n    *   如需包含搜索环境，请使用：`bash scripts\u002Fsetup_ragen.sh --with-search`\n    *   WebShop 环境的特殊安装说明，请参阅 `docs\u002Fexperiment_webshop_release.md`。\n\n## 基本使用\n\n以下以内置的 `Sokoban` 环境为例，展示最基础的训练和评估流程。\n\n1.  **基础训练 (无过滤，默认模式)**\n    ```bash\n    python train.py --config-name _2_sokoban\n    ```\n\n2.  **使用 V2 的 SNR-自适应过滤进行训练 (Top-p 策略)**\n    ```bash\n    python train.py --config-name _2_sokoban \\\n      actor_rollout_ref.rollout_filter_strategy=top_p \\\n      actor_rollout_ref.rollout.rollout_filter_value=0.9\n    ```\n\n3.  **评估训练好的代理**\n    ```bash\n    python -m ragen.llm_agent.agent_proxy --config-name _2_sokoban\n    ```\n\n**说明**:\n- 训练脚本会自动加载 `configs\u002F_2_sokoban.yaml` 中的配置。\n- 更多过滤策略（如 Top-k、线性模式）请参考 [Rollout Filtering Guide](docs\u002Fguide_rollout_filtering.md)。\n- 如需使用其他内置环境（如 `FrozenLake`, `SearchQA`），请在配置文件中修改环境设置。","一家金融科技公司的算法团队正在开发一个智能投资助手，该助手需要根据实时市场新闻、公司财报等复杂文本信息进行推理，最终生成交易建议或风险预警。\n\n### 没有 RAGEN 时\n团队使用传统的强化学习框架训练这个基于大语言模型的智能体，遇到了以下典型问题：\n- **训练过程不稳定且难以诊断**：智能体在训练中偶尔会“崩溃”，输出无意义的重复建议，但团队缺乏有效的工具来定位这是由奖励噪声、策略退化还是环境交互问题引起的，只能靠经验和试错调整超参数。\n- **奖励信号设计粗糙低效**：团队使用简单的回合最终结果（如模拟交易盈亏）作为奖励，导致信用分配问题严重。智能体难以理解漫长推理链中哪些具体步骤对最终结果负责，学习效率低下。\n- **多轮复杂推理优化困难**：投资决策需要“阅读新闻 -> 分析影响 -> 对比历史 -> 生成建议”的多轮深度推理。传统框架难以对这类包含内部“思考”状态的轨迹进行灵活建模和优化，常将推理过程视为黑箱。\n\n### 使用 RAGEN 后\n团队采用 RAGEN 的 StarPO 框架及其诊断工具来重构训练流程，情况得到显著改善：\n- **通过诊断工具定位并修复故障模式**：利用 RAGEN V2 新增的“推理崩溃诊断”和互信息指标，团队能可视化监测训练中何时出现模板化输出，并运用“SNR自适应过滤”自动过滤高方差奖励的回合，从而稳定了训练过程，大幅减少了调试时间。\n- **实现细粒度、基于轨迹的奖励分配**：StarPO 框架支持在完整的“状态-思考-动作”轨迹级别进行优化。团队可以为“识别风险关键词”、“正确关联历史案例”等中间推理步骤设计奖励信号，让智能体更清晰地学习到有效的推理模式。\n- **灵活建模并优化多轮推理策略**：RAGEN 原生支持对包含内部推理链的交互过程进行建模。团队可以方便地配置智能体与环境的多轮交互逻辑，并利用其提供的多种环境（如 SearchQA）进行迁移学习和测试，使智能体能更稳健地进行复杂分析。\n\nRAGEN 通过其集成的诊断能力和灵活的轨迹级优化框架，将强化学习训练从一个难以调试的“黑箱”过程，转变为一个可分析、可控制且高效的系统工程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmll-lab-nu_RAGEN_a0160fb7.jpg","mll-lab-nu","MLL Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmll-lab-nu_e5280f10.png","",null,"https:\u002F\u002Fgithub.com\u002Fmll-lab-nu",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",52.4,{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",27.7,{"name":92,"color":93,"percentage":94},"Shell","#89e051",19.9,2577,214,"2026-04-05T05:15:48","MIT","Linux, macOS","需要 NVIDIA GPU，显存 8GB+，CUDA 11.7+","16GB+",{"notes":103,"python":104,"dependencies":105},"建议使用 conda 管理环境，通过脚本 `bash scripts\u002Fsetup_ragen.sh` 安装依赖。如需搜索环境，需添加 `--with-search` 参数。WebShop 环境有额外安装步骤。项目基于 veRL 子模块，需注意其依赖。未来版本计划支持 HTTP 接口和可选环境依赖。","3.12",[106,107,108,109,110,111,112,113,114,115],"torch","transformers","accelerate","gym","wandb","numpy","hydra-core","tqdm","datasets","scipy",[26,15,13],"2026-03-27T02:49:30.150509","2026-04-06T05:32:21.282245",[120,125,130,135,140],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},3902,"在训练过程中，模型在Sokoban环境中表现出什么样的推理行为？","我们在一篇论文中讨论了这个问题。我们指出了这种“肤浅思考”的现象，并推测这可能是因为缺乏与推理相关的激励——模型无法直接从推理中获益，因此它们可能减少推理。这仍然是一个非常开放的问题，目前还没有公认的普遍结论。","https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN\u002Fissues\u002F68",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},3903,"RAGEN中关于损失计算的问题：从观测（obs）令牌计算梯度会导致意外结果吗？","我们已经更新了代码版本，提高了训练稳定性。损失掩码现在可以在 `config\u002Fbase.yaml` 文件中通过 `enable_response_mask` 这个键来开启。此外，之前 `_create_loss_mask` 中的实现错误理解了 `0` 令牌和 `1` 令牌的含义，这个问题已经通过一个PR修复了。","https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN\u002Fissues\u002F54",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},3904,"如何设置Webshop的参数以达到论文中的水平？","在我们的论文中，我们报告了Webshop的成功购买率。你可以在wandb中参考的指标是 `val-env\u002FWebShop\u002Fsuccess_purchase`。使用StarPO-S + PPO的平均奖励约为0.53。我们将在后续修订中更新平均奖励。你可以参考我们运行实验的以下配置（配置内容较长，详见Issue评论）。","https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN\u002Fissues\u002F121",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},3905,"训练时遇到 `self.actor_module` 相关的错误，如何解决？","这个问题是由位置编码问题导致的。我们已经更新了代码库，请拉取最新的代码，问题应该就能解决。如果问题依然存在，可能与Flash Attention等其他依赖的变化有关，可以参考相关的HuggingFace Issue。","https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN\u002Fissues\u002F124",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},3906,"项目中使用的verl版本似乎存在KL损失被最大化的bug，如何解决？","我们从多个来源（如Open-Reasoner-Zero、TinyZero和知乎）发现证据表明，PPO可能比GRPO训练更稳定。知乎的作者也声称拥有GRPO的无偏估计器。我们已经将默认的优势估计器更改为GAE（使用PPO）。","https:\u002F\u002Fgithub.com\u002Fmll-lab-nu\u002FRAGEN\u002Fissues\u002F58",[]]