[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-TIGER-AI-Lab--verl-tool":3,"tool-TIGER-AI-Lab--verl-tool":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":80,"owner_url":82,"languages":83,"stars":104,"forks":105,"last_commit_at":106,"license":107,"difficulty_score":108,"env_os":109,"env_gpu":110,"env_ram":111,"env_deps":112,"category_tags":117,"github_topics":118,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":123,"updated_at":124,"faqs":125,"releases":155},2484,"TIGER-AI-Lab\u002Fverl-tool","verl-tool","A version of verl to support diverse tool use","VerlTool 是一个基于 verl 构建的统一且易于扩展的工具智能体（Tool-Agent）训练框架，旨在帮助开发者高效训练能够熟练使用外部工具的大语言模型。在当前的 AI 应用中，让模型准确调用搜索、数据库或代码解释器等工具仍面临诸多挑战，如训练流程复杂、环境交互状态难以管理以及推理效率低下等。VerlTool 正是为了解决这些痛点而生，它提供了一套原生的强化学习（RL）框架，支持智能体与工具环境之间进行多轮交互式训练。\n\n该框架的核心亮点在于其独特的架构设计。首先，它实现了“演员 rollout”与“环境交互”的完全解耦，并通过统一的 API 集成工具调用，这意味着用户只需添加简单的 Python 文件即可轻松接入新工具，无需修改核心代码。其次，VerlTool 采用了“工具即环境”的范式，能够存储和重载每个轨迹的环境状态，确保训练过程的稳定性与可复现性。此外，它还原生支持轨迹级异步加速技术，能将工具调用的 rollout 生成速度提升至少两倍，显著降低了训练成本。\n\nVerlTool 特别适合 AI 研究人员、大模型算法工程师以及对 Agent 开发感兴趣的开发者使用。无论是","VerlTool 是一个基于 verl 构建的统一且易于扩展的工具智能体（Tool-Agent）训练框架，旨在帮助开发者高效训练能够熟练使用外部工具的大语言模型。在当前的 AI 应用中，让模型准确调用搜索、数据库或代码解释器等工具仍面临诸多挑战，如训练流程复杂、环境交互状态难以管理以及推理效率低下等。VerlTool 正是为了解决这些痛点而生，它提供了一套原生的强化学习（RL）框架，支持智能体与工具环境之间进行多轮交互式训练。\n\n该框架的核心亮点在于其独特的架构设计。首先，它实现了“演员 rollout”与“环境交互”的完全解耦，并通过统一的 API 集成工具调用，这意味着用户只需添加简单的 Python 文件即可轻松接入新工具，无需修改核心代码。其次，VerlTool 采用了“工具即环境”的范式，能够存储和重载每个轨迹的环境状态，确保训练过程的稳定性与可复现性。此外，它还原生支持轨迹级异步加速技术，能将工具调用的 rollout 生成速度提升至少两倍，显著降低了训练成本。\n\nVerlTool 特别适合 AI 研究人员、大模型算法工程师以及对 Agent 开发感兴趣的开发者使用。无论是希望复现 Search-R1 等前沿成果，还是想要自定义训练 NL2SQL 等垂直领域的工具型模型，VerlTool 都提供了友好的评估套件和详细的训练指南。通过结合 OpenAI API 风格的接口，用户可以便捷地部署和测试训练好的模型，快速验证想法并投入实际应用。","# Verl-Tool\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_84f90aeb5905.png\">\n    \u003Cimg alt=\"VerlTool\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_84f90aeb5905.png\" width=20%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\nVerlTool: A unified and easy-to-extend tool-agent training framework based on verl.\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01055\">\u003Cb>Paper\u003C\u002Fb>\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fblob\u002Fmain\u002Fassets\u002Fdocs\u002Finstall.md\">\u003Cb>Quick Start\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\">\u003Cb>Training Recipes\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002FTIGER-AI-Lab\u002Fverl-tool\">\u003Cb>DeepWiki\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"assets\u002Fimgs\u002Fwechat_group.jpg\">\u003Cb>WeChat Group\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FkZggJmaz\">\u003Cb>Discord\u003C\u002Fb>\u003C\u002Fa>\n|\n\u003C\u002Fp>\n\n---\n\n\n\n## News\n+ [2026\u002F03\u002F01] 🏆 Our paper has been accepted by [**ICLR 2026 Lifelong Agents Workshop**](https:\u002F\u002Flifelongagent.github.io\u002F)!\n+ [2025\u002F11\u002F10] VerlTool has re-organized its codebase to improve modularity and maintainability, supporting to the latest verl (`0.6.0`) and vllm (`0.11.0`) versions. Please refer to the [verl-tool v0.6.0.dev Upgrade Notes](\u002Fassets\u002Fdocs\u002Fupdates\u002Fverltool_v0.6.0_upgrade.md) for more details.\n+ [2025\u002F09\u002F02] VerlTool's tech report is out! See on [Hugging Face Daily Paper](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2509.01055)!\n+ [2025\u002F06\u002F30] We reproduce Search-R1 with even higher performance on the same benchmarks! See [PR](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fpull\u002F71) and training [README](examples\u002Ftrain\u002Fsearch_r1\u002FREADME.md) for more details.\n+ [2025\u002F06\u002F28] We support NL2SQL tool RL training. See NL2SQL [README](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\u002Fskysql) for more details.\n+ [2025\u002F06\u002F26] We support DAPO recipe training. See [DAPO.md](.\u002Fassets\u002Fdocs\u002FDAPO.md) for more details.\n+ [2025\u002F06\u002F18] VerlTool now officially supports Trajectory-Level asynchronous, speeding up the rollout generation with tool calling by at least 2x! see [asyncRL.md](.\u002Fassets\u002Fdocs\u002FasyncRL.md) for more details.\n+ [2025\u002F06\u002F16] We have updated the verl submodule to the latest version (06\u002F16) and modified some code to adapt to the new version.\n+ [2025\u002F06\u002F13] We integrated [DeepWiki](https:\u002F\u002Fdeepwiki.com\u002FTIGER-AI-Lab\u002Fverl-tool) for Verl-Tool. Feel free to browse the AI-generated docs and chat with Verl-tool codes.\n+ [2025\u002F06\u002F06] We have updated a detailed design overview in the README, including how to add new tools, how to use the tool server, and how to train your own models with verl-tool.\n+ [2025\u002F05\u002F31] We released the Verl-tool training\u002Fevaluation code with ToRL training as an initial example (see [X post](https:\u002F\u002Fx.com\u002FDongfuJiang\u002Fstatus\u002F1929198238017720379)). We are working on the paper and will release it very soon.\n\n## Features\n\n- 🔧 **Complete decoupling of actor rollout and environment interaction** - We use verl as a submodule to benefit from ongoing verl repository updates. All tool calling is integrated via a unified API, allowing you to easily add new tools by simply adding a Python file and testing independently.\n- 🌍 **Tool-as-environment paradigm** - Each tool interaction can modify the environment state. We store and reload environment states for each trajectory.\n- ⚡ **Native RL framework for tool-calling agents** - verl-tool natively supports multi-turn interactive loops between agents and their tool environments.\n- 📊 **User-friendly evaluation suite** - Launch your trained model with OpenAI API alongside the tool server. Simply send questions and get final outputs with all interactions handled internally. See [benchmarks](benchmarks).\n\n![Verl-Tool Architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_41153bf91188.png)\n\n## 📚 Contents Link\n- 📖 [Installation Guide](.\u002Fassets\u002Fdocs\u002Finstall.md)\n- ⚡ [Synchronous Rollout Design](.\u002Fassets\u002Fdocs\u002Fsync_design.md)\n- 🔄 [Asynchronous Rollout Design](.\u002Fassets\u002Fdocs\u002FasyncRL.md)\n- 🛠️ [Tool Server Design](.\u002Fassets\u002Fdocs\u002Ftool_server.md)\n- 🎯 [Training Guide](.\u002Fassets\u002Fdocs\u002Ftraining_guide.md)\n- 📊 [Evaluation Guide](.\u002Fassets\u002Fdocs\u002Fevaluation.md)\n- 🔧 [Update Verl Submodule Version](.\u002Fassets\u002Fdocs\u002Fupdate_verl.md)\n- 📈 [Existing Training Results](.\u002Fassets\u002Fdocs\u002Ftraining_results.md)\n- 🤝 [Contributing Guide](.\u002Fassets\u002Fdocs\u002Fcontributing.md)\n\n## Core Contributors\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjdf-prog\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_51ff34d286e7.png\" width=\"75px;\" alt=\"Dongfu Jiang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Dongfu Jiang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FZhuofeng-Li\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_9d0aa70f5ca3.png\" width=\"75px;\" alt=\"Zhuofeng Li\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhuofeng Li\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FEigenTom\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_dd1bcbbcf868.png\" width=\"75px;\" alt=\"Yi Lu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yi Lu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcogito233\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_51676bd85022.png\" width=\"75px;\" alt=\"Zhiheng Lvu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhiheng Lvu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ferenup\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_2a32ad203de7.png\" width=\"75px;\" alt=\"Ping Nie\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Ping Nie\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## Advisors\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fwenhuchen\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_1c524a3cdf75.png\" width=\"75px;\" alt=\"Wenhu Chen\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Wenhu Chen\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FP2333\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_d98f16344208.png\" width=\"75px;\" alt=\"Tianyu Pang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Tianyu Pang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fduchao0726\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_9072c0871198.png\" width=\"75px;\" alt=\"Chao Du\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Chao Du\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## Acknowledgements\n\nWe thank the following open-source projects for making verl-tool possible:\n- [VLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) and [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang) for their fast LLM inference support!\n- [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) for the excellent RL framework design.\n- [SearchR1](https:\u002F\u002Fgithub.com\u002FPeterGriffinJin\u002FSearch-R1), [RAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FRAGEN), and [ToRL](https:\u002F\u002Fgithub.com\u002FGAIR-NLP\u002FToRL) for their early-stage exploration of tool-agent RL training.\n\nWe thank [Netmind.AI](https:\u002F\u002Fwww.netmind.ai\u002F), [SeaAI Lab](https:\u002F\u002Fsail.sea.com\u002F), and [Map](https:\u002F\u002Fhuggingface.co\u002Fm-a-p) for GPU support!\n\n## Community Projects Inspired by Verl-Tool\n- [AgentFlow](https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow): In-the-Flow Agentic System Optimization\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_8743d4432265.png)](https:\u002F\u002Fwww.star-history.com\u002F#TIGER-AI-Lab\u002Fverl-tool&Date)\n\n\n## Badge\n\n[![MseeP.ai Security Assessment Badge](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_a823ad9ff4f4.png)](https:\u002F\u002Fmseep.ai\u002Fapp\u002Ftiger-ai-lab-verl-tool)\n\n## Citation\n```bibtex\n@article{jiang2025verltool,\n  title={VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use},\n  author={Jiang, Dongfu and Lu, Yi and Li, Zhuofeng and Lyu, Zhiheng and Nie, Ping and Wang, Haozhe and Su, Alex and Chen, Hui and Zou, Kai and Du, Chao and others},\n  journal={arXiv preprint arXiv:2509.01055},\n  year={2025}\n}\n```\n","# Verl-Tool\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_84f90aeb5905.png\">\n    \u003Cimg alt=\"VerlTool\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_84f90aeb5905.png\" width=20%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\nVerlTool：基于verl的统一且易于扩展的工具智能体训练框架。\n\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n| \n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.01055\">\u003Cb>论文\u003C\u002Fb>\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fblob\u002Fmain\u002Fassets\u002Fdocs\u002Finstall.md\">\u003Cb>快速入门\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\">\u003Cb>训练配方\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002FTIGER-AI-Lab\u002Fverl-tool\">\u003Cb>DeepWiki\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"assets\u002Fimgs\u002Fwechat_group.jpg\">\u003Cb>微信交流群\u003C\u002Fb>\u003C\u002Fa> |\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FkZggJmaz\">\u003Cb>Discord\u003C\u002Fb>\u003C\u002Fa>\n|\n\u003C\u002Fp>\n\n---\n\n\n\n## 新闻\n+ [2026\u002F03\u002F01] 🏆 我们的论文已被【**ICLR 2026终身智能体研讨会**】接收！\n+ [2025\u002F11\u002F10] VerlTool重新组织了代码库，以提高模块化和可维护性，支持最新的verl（`0.6.0`）和vllm（`0.11.0`）版本。更多详情请参阅[verl-tool v0.6.0.dev升级说明](\u002Fassets\u002Fdocs\u002Fupdates\u002Fverltool_v0.6.0_upgrade.md)。\n+ [2025\u002F09\u002F02] VerlTool的技术报告已发布！详见[Hugging Face Daily Paper](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2509.01055)！\n+ [2025\u002F06\u002F30] 我们在相同基准上复现了Search-R1，并取得了更高的性能！更多细节请参阅[PR](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fpull\u002F71)和训练[README](examples\u002Ftrain\u002Fsearch_r1\u002FREADME.md)。\n+ [2025\u002F06\u002F28] 我们支持NL2SQL工具的强化学习训练。更多详情请参阅NL2SQL[README](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\u002Fskysql)。\n+ [2025\u002F06\u002F26] 我们支持DAPO配方的训练。更多详情请参阅[DAPO.md](.\u002Fassets\u002Fdocs\u002FDAPO.md)。\n+ [2025\u002F06\u002F18] VerlTool现在正式支持轨迹级别的异步训练，通过工具调用加速了至少2倍的轨迹生成！更多详情请参阅[asyncRL.md](.\u002Fassets\u002Fdocs\u002FasyncRL.md)。\n+ [2025\u002F06\u002F16] 我们已将verl子模块更新至最新版本（06\u002F16），并修改了一些代码以适配新版本。\n+ [2025\u002F06\u002F13] 我们为Verl-Tool集成了[DeepWiki](https:\u002F\u002Fdeepwiki.com\u002FTIGER-AI-Lab\u002Fverl-tool)。欢迎浏览由AI生成的文档，并与Verl-tool代码进行互动。\n+ [2025\u002F06\u002F06] 我们在README中更新了一篇详细的设计概述，包括如何添加新工具、如何使用工具服务器，以及如何利用verl-tool训练自己的模型。\n+ [2025\u002F05\u002F31] 我们发布了Verl-tool的训练\u002F评估代码，以ToRL训练作为初始示例（详见[X帖子](https:\u002F\u002Fx.com\u002FDongfuJiang\u002Fstatus\u002F1929198238017720379)）。我们正在撰写论文，并将于近期发布。\n\n## 特性\n\n- 🔧 **完全解耦演员轨迹生成与环境交互** - 我们将verl作为子模块，以便受益于verl仓库的持续更新。所有工具调用均通过统一的API集成，您只需添加一个Python文件并独立测试，即可轻松添加新工具。\n- 🌍 **工具即环境范式** - 每次工具交互都会改变环境状态。我们为每条轨迹存储并重新加载环境状态。\n- ⚡ **原生工具调用智能体强化学习框架** - verl-tool原生支持智能体与其工具环境之间的多轮交互循环。\n- 📊 **用户友好的评估套件** - 您可以使用OpenAI API与工具服务器一起启动训练好的模型。只需发送问题，系统便会内部处理所有交互，直接给出最终输出。更多详情请参阅[基准测试](benchmarks)。\n\n![Verl-Tool架构](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_41153bf91188.png)\n\n## 📚 内容链接\n- 📖 [安装指南](.\u002Fassets\u002Fdocs\u002Finstall.md)\n- ⚡ [同步轨迹设计](.\u002Fassets\u002Fdocs\u002Fsync_design.md)\n- 🔄 [异步轨迹设计](.\u002Fassets\u002Fdocs\u002FasyncRL.md)\n- 🛠️ [工具服务器设计](.\u002Fassets\u002Fdocs\u002Ftool_server.md)\n- 🎯 [训练指南](.\u002Fassets\u002Fdocs\u002Ftraining_guide.md)\n- 📊 [评估指南](.\u002Fassets\u002Fdocs\u002Fevaluation.md)\n- 🔧 [更新verl子模块版本](.\u002Fassets\u002Fdocs\u002Fupdate_verl.md)\n- 📈 [现有训练结果](.\u002Fassets\u002Fdocs\u002Ftraining_results.md)\n- 🤝 [贡献指南](.\u002Fassets\u002Fdocs\u002Fcontributing.md)\n\n## 核心贡献者\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fjdf-prog\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_51ff34d286e7.png\" width=\"75px;\" alt=\"Dongfu Jiang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Dongfu Jiang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FZhuofeng-Li\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_9d0aa70f5ca3.png\" width=\"75px;\" alt=\"Zhuofeng Li\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhuofeng Li\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FEigenTom\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_dd1bcbbcf868.png\" width=\"75px;\" alt=\"Yi Lu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yi Lu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcogito233\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_51676bd85022.png\" width=\"75px;\" alt=\"Zhiheng Lvu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhiheng Lvu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ferenup\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_2a32ad203de7.png\" width=\"75px;\" alt=\"Ping Nie\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Ping Nie\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 顾问\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fwenhuchen\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_1c524a3cdf75.png\" width=\"75px;\" alt=\"Wenhu Chen\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Wenhu Chen\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FP2333\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_d98f16344208.png\" width=\"75px;\" alt=\"Tianyu Pang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Tianyu Pang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fduchao0726\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_9072c0871198.png\" width=\"75px;\" alt=\"Chao Du\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Chao Du\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 致谢\n\n我们感谢以下开源项目使verl-tool成为可能：\n- [VLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)和[SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)，感谢它们提供的快速大模型推理支持！\n- [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl)，感谢其出色的强化学习框架设计。\n- [SearchR1](https:\u002F\u002Fgithub.com\u002FPeterGriffinJin\u002FSearch-R1)、[RAGEN](https:\u002F\u002Fgithub.com\u002FRAGEN-AI\u002FRAGEN)和[ToRL](https:\u002F\u002Fgithub.com\u002FGAIR-NLP\u002FToRL)，感谢它们在工具智能体强化学习训练领域的早期探索。\n\n我们还感谢[Netmind.AI](https:\u002F\u002Fwww.netmind.ai\u002F)、[SeaAI Lab](https:\u002F\u002Fsail.sea.com\u002F)和[Map](https:\u002F\u002Fhuggingface.co\u002Fm-a-p)，感谢它们提供的GPU支持！\n\n## 受 Verl-Tool 启发的社区项目\n- [AgentFlow](https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow)：在流程中的智能体系统优化\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_8743d4432265.png)](https:\u002F\u002Fwww.star-history.com\u002F#TIGER-AI-Lab\u002Fverl-tool&Date)\n\n\n## 徽章\n\n[![MseeP.ai 安全评估徽章](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_readme_a823ad9ff4f4.png)](https:\u002F\u002Fmseep.ai\u002Fapp\u002Ftiger-ai-lab-verl-tool)\n\n## 引用\n```bibtex\n@article{jiang2025verltool,\n  title={VerlTool：迈向具备工具使用的整体式智能体强化学习},\n  author={Jiang, Dongfu and Lu, Yi and Li, Zhuofeng and Lyu, Zhiheng and Nie, Ping and Wang, Haozhe and Su, Alex and Chen, Hui and Zou, Kai and Du, Chao and others},\n  journal={arXiv 预印本 arXiv:2509.01055},\n  year={2025}\n}\n```","# Verl-Tool 快速上手指南\n\nVerl-Tool 是一个基于 `verl` 的统一且易于扩展的工具智能体（Tool-Agent）训练框架。它原生支持多轮交互式强化学习，实现了 Actor  rollout 与环境交互的完全解耦。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python**: Python 3.9 - 3.11\n*   **GPU**: NVIDIA GPU (支持 CUDA)，建议显存 >= 24GB 以进行高效训练\n*   **前置依赖**:\n    *   `git`\n    *   `conda` 或 `venv` (推荐使用 conda 管理环境)\n\n> **注意**：Verl-Tool 强依赖于 `verl` (RL 框架) 和 `vllm` (推理引擎)。当前版本支持 `verl 0.6.0` 和 `vllm 0.11.0`。\n\n## 2. 安装步骤\n\n建议使用 Conda 创建独立环境以避免依赖冲突。\n\n### 第一步：克隆仓库并初始化子模块\n\nVerl-Tool 将 `verl` 作为子模块管理，因此克隆时必须包含 `--recursive` 参数。\n\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool.git\ncd verl-tool\n```\n\n如果已经克隆但未初始化子模块，请执行：\n\n```bash\ngit submodule update --init --recursive\n```\n\n### 第二步：创建并激活 Conda 环境\n\n```bash\nconda create -n verl-tool python=3.10 -y\nconda activate verl-tool\n```\n\n### 第三步：安装依赖\n\n安装核心依赖包。由于涉及 CUDA 相关库，请确保您的 CUDA 版本与 PyTorch\u002FvLLM 兼容。\n\n```bash\npip install -e .\n```\n\n> **提示**：如果遇到网络问题，可配置 pip 国内镜像源加速下载：\n> ```bash\n> pip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 第四步：验证安装\n\n检查关键组件版本是否符合要求：\n\n```bash\npython -c \"import verl; print(verl.__version__)\"\npython -c \"import vllm; print(vllm.__version__)\"\n```\n\n确保 `verl` 版本为 `0.6.0` 左右，`vllm` 版本为 `0.11.0` 左右。\n\n## 3. 基本使用\n\nVerl-Tool 的核心工作流包括：启动工具服务器、配置训练任务、执行训练。以下以最简单的 ToRL 训练示例为例。\n\n### 步骤一：了解目录结构\n\n*   `examples\u002Ftrain\u002F`: 包含各种训练食谱（Recipes），如 `search_r1`, `skysql` (NL2SQL), `dapo` 等。\n*   `assets\u002Fdocs\u002F`: 详细的设计文档和指南。\n\n### 步骤二：运行一个简单的训练示例\n\n假设我们要运行基础的 ToRL 训练示例（具体脚本路径请参考 `examples\u002Ftrain` 下的实际 README，此处以通用命令结构为例）：\n\n1.  **准备数据与配置**：\n    查看 `examples\u002Ftrain\u002Ftorl\u002F` (或类似初始示例目录) 中的配置文件 `.yaml`。\n\n2.  **启动训练**：\n    使用 `verl` 提供的启动器或直接运行 Python 脚本。通常命令如下：\n\n    ```bash\n    # 进入示例目录\n    cd examples\u002Ftrain\u002Ftorl\n\n    # 运行训练脚本 (具体脚本名请以实际文件为准，例如 train.py)\n    python train.py --config config.yaml\n    ```\n\n    如果是分布式训练，可能需要使用 `torchrun` 或 `ray` 启动：\n\n    ```bash\n    torchrun --nproc_per_node=8 train.py --config config.yaml\n    ```\n\n### 步骤三：评估模型\n\n训练完成后，您可以使用内置的评估套件。Verl-Tool 支持通过 OpenAI API 格式与工具服务器交互进行评估。\n\n```bash\n# 示例：启动评估服务\npython evaluate.py --model_path \u002Fpath\u002Fto\u002Fsaved\u002Fmodel --tool_server_url http:\u002F\u002Flocalhost:8000\n```\n\n### 进阶：添加自定义工具\n\nVerl-Tool 采用“工具即环境”范式。要添加新工具，只需：\n\n1.  在工具注册目录下新建一个 Python 文件。\n2.  实现统一的 Tool API 接口。\n3.  无需修改核心训练代码，即可自动集成到训练循环中。\n\n更多详细设计请参考 [Tool Server Design](.\u002Fassets\u002Fdocs\u002Ftool_server.md) 和 [Training Guide](.\u002Fassets\u002Fdocs\u002Ftraining_guide.md)。","某 AI 初创团队正致力于开发一款能够自主执行复杂数据查询与代码生成的智能助手，核心挑战在于让大模型学会精准调用外部工具（如 SQL 数据库、Python 解释器）并进行多轮交互推理。\n\n### 没有 verl-tool 时\n- **训练架构割裂**：开发者需手动拼接强化学习（RL）框架与环境交互逻辑，代码耦合度高，每次新增工具都要修改核心训练循环，维护成本极高。\n- **交互效率低下**：传统的同步 rollout 机制导致 GPU 在等待工具返回结果时大量闲置，多轮工具调用的训练速度极慢，实验迭代周期以周计算。\n- **状态管理混乱**：缺乏统一的环境状态快照机制，难以在多轮对话中准确回溯和重置环境，导致模型在长序列任务中容易迷失上下文，训练不稳定。\n- **评估流程繁琐**：测试阶段需单独搭建复杂的代理服务器来模拟工具行为，无法直接通过标准 API 验证模型端到端的工具调用能力，调试困难。\n\n### 使用 verl-tool 后\n- **模块化扩展便捷**：借助其“工具即环境”范式，开发者只需编写独立的 Python 文件即可接入新工具，通过统一 API 自动集成，实现了 actor  rollout 与环境交互的完全解耦。\n- **训练加速显著**：利用原生的轨迹级异步 rollout 设计，GPU 计算与工具等待时间重叠，将多轮工具调用的生成速度提升至少 2 倍，大幅缩短研发周期。\n- **状态精准可控**：框架自动存储和重载每条轨迹的环境状态，确保多轮交互中的上下文一致性，显著提升了模型在复杂任务（如 NL2SQL）中的收敛效果和稳定性。\n- **评测一键直达**：内置用户友好的评估套件，支持直接通过 OpenAI API 格式启动服务，内部自动处理所有工具交互细节，让端到端的效果验证变得简单直观。\n\nverl-tool 通过统一的异步强化学习框架，解决了智能体在复杂工具调用场景下的训练效率与工程落地难题，让开发者能专注于算法策略而非底层架构。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTIGER-AI-Lab_verl-tool_84f90aeb.png","TIGER-AI-Lab","TIGER Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTIGER-AI-Lab_41df1eb9.jpg","Our lab is currently based in UWaterloo, focusing on Text and Image Generative Research",null,"wenhuchen@uwaterloo.ca","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab",[84,88,92,96,100],{"name":85,"color":86,"percentage":87},"Python","#3572A5",87.4,{"name":89,"color":90,"percentage":91},"Shell","#89e051",11.5,{"name":93,"color":94,"percentage":95},"Jupyter Notebook","#DA5B0B",1,{"name":97,"color":98,"percentage":99},"Jinja","#a52a22",0.1,{"name":101,"color":102,"percentage":103},"Makefile","#427819",0,941,80,"2026-04-02T16:13:28","MIT",4,"Linux","需要 NVIDIA GPU（基于 vLLM 和 verl 的依赖），具体显存和 CUDA 版本未说明，但通常建议高显存以支持 LLM 推理和训练","未说明",{"notes":113,"python":111,"dependencies":114},"该工具基于 verl 框架，支持同步和异步 rollout。README 中未直接列出详细的系统环境要求（如 Python 版本、OS、RAM），具体安装细节需参考链接中的 'Quick Start' 或 'Installation Guide'。已知核心依赖为 verl (0.6.0) 和 vLLM (0.11.0)。",[115,116],"verl==0.6.0","vllm==0.11.0",[13,26,15],[119,120,121,122],"learning","llm","reinforcement","agent","2026-03-27T02:49:30.150509","2026-04-06T05:27:02.921594",[126,131,135,140,145,150],{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},11447,"训练时模型输出异常，未输出答案标签或出现多余字符，如何解决？","这通常是因为没有将 `\u003C\u002Fanswer>` 设置为动作停止令牌（action stop tokens）。如果将其像 `\u003C\u002Fsearch>` 一样包含在停止令牌中，模型一旦输出 `\u003C\u002Fanswer>` 就会立即停止。如果不希望以 `\u003C\u002Fanswer>` 结束，可以在工具服务器代码中将相关配置改为 False，但这可能导致轨迹在 `\u003C\u002Fanswer>` 后继续生成，且模型可能无法正确生成 `\u003C|eot_id|>`。建议尝试调整停止令牌配置。","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fissues\u002F90",{"id":132,"question_zh":133,"answer_zh":134,"source_url":130},11448,"以 `\u003C\u002Fanswer>` 结尾而不是 `\u003C|eot_id|>` 会影响强化学习（RL）训练吗？","不会影响。你的轨迹仅用于后续的 RL 训练，并非实际的推理过程。在 RL 训练后的评估阶段，模型仍然可以正确输出 `\u003C|eot_id|>`。因此，这种差异不会造成重大影响。",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},11449,"训练时报错 \"ValueError: This model's maximum context length is 4096 tokens\"，提示请求的 token 数超出限制，如何处理？","该错误表明输入消息和完成部分的总长度超过了模型的最大上下文长度（4096 tokens）。请检查并减少消息（messages）或完成部分（completion）的长度。在某些情况下，更新代码或重新运行数据预处理脚本可能有助于解决此问题。","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fissues\u002F85",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},11450,"VerlTool 是否支持 Qwen3-VL 模型？","支持。主分支已发布更新版本的 verl-tool。你可以检查分支 [verl-v0.6.0](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fverl-v0.6.0)，它支持最新的 verl 和 vllm，并在 pixel reasoner 示例中测试通过，确认支持 Qwen3-VL。","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fissues\u002F120",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},11451,"在哪里可以下载 VerlTool 训练好的模型 checkpoints？","开发团队计划将训练好的模型（如 `Verl-tool-Llama-7B-chat` 和 `Verl-tool-Mixtral-8x7B-Instruct-v0.1`）上传至 Hugging Face 的 TIGER-Lab 组织页面。请关注 Hugging Face 上的 TIGER-Lab 仓库以获取最新模型。","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fissues\u002F113",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},11452,"README 中的微信群二维码已过期，如何加入社区交流群？","由于微信群二维码有效期较短，经常过期。建议关注 GitHub Issue 区或项目 README 的最新更新，维护者通常会在此处发布新的入群二维码或联系方式。","https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fissues\u002F141",[156,161],{"id":157,"version":158,"summary_zh":159,"released_at":160},61946,"v0.2.0","## 变更摘要\n\n在本版本中，我们将 verl 版本更新至 `0.6.0`，vllm 更新至 `0.11.0`，以支持更多模型并集成 verl 的最新功能。现在可以使用自定义工具训练 Qwen-3-VL 和 Qwen3-Omni 模型。\n\n以下是关键变更以及将现有 VerlTool 设置升级到这些新版本的说明：\n\n- `verl-tool` 的代码库已完全重构。得益于 verl 的智能体循环抽象设计，我们能够将所有 `verl-tool` 的智能体逻辑集中在一个文件中：[`verl_tool\u002Fagent_loop\u002Fverltool_agent_loop.py`](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fblob\u002Fmain\u002Fverl_tool\u002Fagent_loop\u002Fverltool_agent_loop.py)，其中主智能体循环逻辑不足 200 行代码。这极大地提升了代码的模块化程度和可维护性。请在进行任何自定义修改时参考新的代码结构。\n- `verl-tool` 继续支持纯文本 LLM 和多模态模型的训练，分别以 [`math_tir`](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\u002Fmath_tir) 和 [`pixel_reasoner`](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fmain\u002Fexamples\u002Ftrain\u002Fpixel_reasoner) 为例。\n- 我们严格遵循“输入 token”和“输出 token”的设计规范，以避免因分词操作可能引发的离策略问题。\n- 所有 `verl-tool` 对类和函数的自定义替换均已移至 [`verl_tool\u002Ftrainer\u002Fppo\u002Fray_trainer.py`](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fblob\u002Fmain\u002Fverl_tool\u002Ftrainer\u002Fppo\u002Fray_trainer.py)，以便更好地维护。如果您想了解 `verl-tool` 如何替换 verl 的默认实现，请参阅此文件。\n- 步骤记录通过 verl 原生的 `trainer.rollout_data_dir` 参数保存。（例如：`trainer.rollout_data_dir=$(pwd)\u002Fverl_step_records\u002F$run_name`）。您需要在训练脚本中设置该参数，以保存回放缓存数据。\n- `verl-tool` 现在支持混合训练模式，即使用工具和不使用工具的训练。准备数据时，只需在数据样本中设置 `use_tool` 字段，以指示该样本是否需要调用工具。智能体循环会根据该字段自动决定是否调用工具服务器。\n- 使用 verl `0.4.1.dev` 的旧版 `verl-tool` 已归档至 [`verl-0.4.1`](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Ftree\u002Fverl-0.4.1) 分支，以确保向后兼容性。\n\n| VERLTOOL 版本 | VERL 版本 | VLLM 版本 | 模态支持               | 主要代码行数 |\n|---------------|-----------|-----------|------------------------|--------------|\n| 0.1.0         | 0.4.1     | 0.8.4     | 文本、图像、视频       | ~1300        |\n| 0.2.0         | 0.6.0     | 0.11.0    | 文本、图像、视频、音频 | ~500         |\n\n\n## 变更内容\n* 添加了由 @erenup 在 https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool\u002Fpull\u002F1 中实现的用于多次执行代码的 piston。\n* 【功能】添加单个服务器支持多工具的功能，匹配工具使… by","2025-12-24T08:40:29",{"id":162,"version":163,"summary_zh":164,"released_at":165},61947,"v0.1.0","本次发布用于归档现有的 verl-tool 代码库。全新重组的 verl-tool 轻量版将于稍后推出。","2025-11-10T21:22:01"]