[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-lupantech--AgentFlow":3,"tool-lupantech--AgentFlow":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":73,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":10,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":105,"github_topics":106,"view_count":32,"oss_zip_url":114,"oss_zip_packed_at":114,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":150},4643,"lupantech\u002FAgentFlow","AgentFlow","AgentFlow: In-the-Flow Agentic System Optimization","AgentFlow 是一个可训练、深度集成工具调用的智能体框架，旨在突破当前工具增强型推理方法在扩展性和泛化能力上的瓶颈。与传统方法仅训练单个大语言模型来交替执行推理和工具调用不同，AgentFlow 创新性地构建了一个包含四大专用模块的模块化系统：规划器（Planner）、执行器（Executor）、验证器（Verifier）和生成器（Generator）。这种分工协作的架构让智能体在处理复杂任务时更加稳健可靠。\n\n该工具核心解决了现有系统在长程推理和多步骤工具调用中容易出错、难以扩展的痛点。其独特的技术亮点在于采用了“基于流的群组精炼策略优化”（Flow-GRPO）算法，能够以在线方式直接对系统内的规划器进行动态优化。这一机制显著提升了智能体在多样化领域中的表现，使其具备更强的工具调用可靠性和长周期推理能力。\n\nAgentFlow 特别适合 AI 研究人员、大模型开发者以及需要构建复杂自动化工作流的工程师使用。无论是希望探索下一代智能体架构的学术团队，还是致力于开发高可靠性企业级应用的技術人员，都能从中获得强大的支持。作为一个已在 ICLR 2026 和 NeurIPS 2025 ","AgentFlow 是一个可训练、深度集成工具调用的智能体框架，旨在突破当前工具增强型推理方法在扩展性和泛化能力上的瓶颈。与传统方法仅训练单个大语言模型来交替执行推理和工具调用不同，AgentFlow 创新性地构建了一个包含四大专用模块的模块化系统：规划器（Planner）、执行器（Executor）、验证器（Verifier）和生成器（Generator）。这种分工协作的架构让智能体在处理复杂任务时更加稳健可靠。\n\n该工具核心解决了现有系统在长程推理和多步骤工具调用中容易出错、难以扩展的痛点。其独特的技术亮点在于采用了“基于流的群组精炼策略优化”（Flow-GRPO）算法，能够以在线方式直接对系统内的规划器进行动态优化。这一机制显著提升了智能体在多样化领域中的表现，使其具备更强的工具调用可靠性和长周期推理能力。\n\nAgentFlow 特别适合 AI 研究人员、大模型开发者以及需要构建复杂自动化工作流的工程师使用。无论是希望探索下一代智能体架构的学术团队，还是致力于开发高可靠性企业级应用的技術人员，都能从中获得强大的支持。作为一个已在 ICLR 2026 和 NeurIPS 2025 相关研讨会获得认可的开源项目，AgentFlow 为构建更聪明、更高效的自主智能系统提供了坚实的技术基础。","\u003Ca name=\"readme-top\">\u003C\u002Fa>\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_8ee7d941d871.png\">\n    \u003Cimg alt=\"AgentFlow\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_8ee7d941d871.png\" width=31%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\nAgentFlow: In-the-Flow Agentic System Optimization\n\u003C\u002Fh3>\n\n\n\u003C!--- BADGES: START --->\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2510.05592-B31B1B.svg?logo=arxiv\" alt=\"Arxiv\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAgentFlow\u002Fagentflow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGradio-Demo-F97316.svg?logo=gradio\" alt=\"Gradio Demo\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.05592\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface-Paper-FFD21E.svg?logo=huggingface\" alt=\"Huggingface Paper\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAgentFlow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface-Model-FFD21E.svg?logo=huggingface\" alt=\"Huggingface Model\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fagentflow.stanford.edu\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWebsite-AgentFlow-E5426E?logo=kashflow\" alt=\"Website\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fx.com\u002Flupantech\u002Fstatus\u002F1976016000345919803\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCoverage-AgentFlow-2176BC.svg?logo=x\" alt=\"X\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-Tutorial-FF0000?logo=youtube\" alt=\"Youtube\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Flupantech\u002FAgentFlow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDeepWiki-AgentFlow-6B4FBB?logo=readthedocs&logoColor=white\" alt=\"DeepWiki\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fagentflow-co\u002Fshared_invite\u002Fzt-3f712xngl-LfxS4gmftAeKvcxR3nSkWQ\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSlack-AgentFlow-D41544.svg?logo=slack\" alt=\"Slack\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fblob\u002Fmain\u002Fassets\u002Fimg\u002Fwechat_group.jpg\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWechat-AgentFlow-07C160.svg?logo=wechat\" alt=\"Wechat AgentFlow\">\n\u003C\u002Fa>\n  \n  \u003C\u002Fp>\n\u003C!--- BADGES: END --->\n\n\n## 📣 News\n- **[2026.01.26]** 🚀 Our paper has been accepted by [**ICLR 2026**](https:\u002F\u002Ficlr.cc\u002FConferences\u002F2026)! See you in Rio de Janeiro!\n- **[2025.10.26]** 📚 Our project introduction has been featured on **[DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Flupantech\u002FAgentFlow)**!\n- **[2025.10.16]** 🏆 Our paper has been accepted by [**NeurIPS 2025 Efficient Reasoning Workshop**](https:\u002F\u002Fefficient-reasoning.github.io\u002F)!\n- **[2025.10.13]** 📸 Excited to have a tutorial video for AgentFlow covered by Discover AI on **[YouTube](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI)**!\n- **[2025.10.10]** 🚀 Our X [post](https:\u002F\u002Fx.com\u002Flupantech\u002Fstatus\u002F1976016000345919803) received **1K+ likes**! Feel free to check out the post and join the discussion! 💬\n- **[2025.10.08]** 🔥 We are honored to be featured as 🤗 HuggingFace **[Daily Paper #2](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.05592)**.\n\n## 🌟 Why AgentFlow?\nAgentFlow is a **trainable, tool-integrated agentic framework** designed to overcome the **scalability** and **generalization limits** of today’s tool-augmented reasoning approaches. \n\nUnlike prevailing approaches such as [Search-R1](https:\u002F\u002Fgithub.com\u002FPeterGriffinJin\u002FSearch-R1) which train a **single LLM** to interleave reasoning steps with tool calls, **AgentFlow** introduces a **modular agentic system** with four specialized modules: 🧭 **Planner**, 🛠 **Executor**, ✅ **Verifier**, and ✍️ **Generator**.\n\n![framework_overall](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_68ce76b88550.png)\n\nFor effective planning and tool use, the framework directly **optimizes planner agent within the system** in an **online fashion** using **Flow-based Group Refined Policy Optimization (Flow-GRPO)**, achieving superior performance across diverse domains with improved tool-calling reliability and long-horizon reasoning capabilities.\n\n![flow_grpo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_9eb891e9ce2e.png)\n\n## 📺 YouTube Tutorial\nExcited to have a tutorial video for AgentFlow covered by [Discover AI](https:\u002F\u002Fwww.youtube.com\u002F@code4AI) on YouTube!\n\n\u003C!-- [![AgentFlow Tutorial](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_6a576e5ad244.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI) -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_c3d92a4f24e9.jpg\" alt=\"AgentFlow Tutorial\" width=\"100%\">\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n## 🚀 Key Features\n\n- 🧩 **Modular Agentic System** – Four specialized agent modules (**Planner**, **Executor**, **Verifier**, **Generator**) that coordinate via evolving memory and integrated tools across multiple turns.  \n- 🔗 **Multi-Tool Integration** – Seamlessly connect with diverse tool ecosystems, including `base_generator`, `python_coder`, `google_search`, `wikipedia_search`, `web_search`, and more.  \n- 🎯 **Flow-GRPO Algorithm** – Enables **in-the-flow agent optimization** for **long-horizon reasoning tasks** with sparse rewards.\n- 📈 **Proven Results** – **AgentFlow (7B Backbone)** beats top baselines on 10 benchmarks, with **+14.9% search**, **+14.0% agentic**, **+14.5% math**, **+4.1% science**, even outperforming ~200B-parameter **GPT-4o**.\n\n---\n\n## 📑 Table of Contents\n- [⚙️ Setup](#️-setup)\n  - [Installation](#installation)\n  - [Setup Environment Variables](#setup-environment-variables)\n- [⚡ Quick Start on AgentFlow Inference](#-quick-start-on-agentflow-inference)\n- [💥 Quick Start on AgentFlow Flow-GRPO Training](#-quick-start-on-agentflow-flow-grpo-training)\n  - [(Optional) Test Your Environment](#optional-test-your-environment)\n  - [Dataset Preparation](#dataset-preparation)\n  - [Flow-GRPO Training](#flow-grpo-training)\n- [🎯 AgentFlow Benchmark](#-agentflow-benchmark)\n- [🧩 Use Your Own Model in AgentFlow](#-use-your-own-model-in-agentflow)\n- [🤝 Core Contributors](#-core-contributors)\n- [🎓 Advisors](#-advisors)\n- [🙏 Acknowledgements](#-acknowledgements)\n- [🚀 Contributing](#-contributing)\n\n## ⚙️ Setup\n\n### Prerequisites\n- **Python 3.11** (recommended)\n\n### Installation\n```bash\nbash setup.sh\nsource .venv\u002Fbin\u002Factivate\n# (Optional) Install `parallel` for running benchmark experiments in parallel:\nsudo apt-get update\nsudo apt-get install parallel\n```\n\n### Setup Environment Variables\nCopy the `.env.template` file from `agentflow\u002F.env.template` and rename it to `.env`, then place it in the `agentflow\u002F` folder. Update the following variables with your own API keys:\n- `OPENAI_API_KEY` (for judging reasponse)\n- `GOOGLE_API_KEY` (for Google Search tool)\n- `DASHSCOPE_API_KEY` ([optional] for calling Qwen-2.5-7B-Instruct as engine for agents and tools)\n- `TOGETHER_API_KEY` ([optional] alternative for calling Qwen-2.5-7B-Instruct as engine for agents and tools - recommended for international users)\n- More ways: serve Qwen2.5-7B-instruct model with vLLM (details refer to [`serve_vllm_local.md`](assets\u002Fdoc\u002Fserve_vllm_local.md)).\n\nPlease check [API Key Setup Guide](assets\u002Fdoc\u002Fapi_key.md) for detailed instructions on how to obtain these keys.\n\n```bash\ncp agentflow\u002F.env.template agentflow\u002F.env\n# Then edit agentflow\u002F.env with your API keys\n```\n\n## 🔍 Check Before You Run (Recommended)\nBefore running inference or training, we recommend verifying that your API keys and environment are properly configured.\n\n### 🛠️ Test Tools\nRun the following command to test all integrated tools:\n```bash\ncd agentflow\u002Fagentflow\nbash .\u002Ftools\u002Ftest_all_tools.sh\n```\nExample output:\n```text\nTesting all tools...\n✅ base_generator passed\n✅ google_search passed\n✅ python_coder passed\n✅ wikipedia_search passed\n...\n✅ All tests passed\n```\n\n### 🧠 Test LLM Engines\nVerify that your LLM engines (OpenAI, DashScope, Gemini, etc.) are correctly initialized and responding:\n```bash\npython agentflow\u002Fscripts\u002Ftest_llm_engine.py\n```\nExample output:\n```text\n🚀 Starting fault-tolerant test for 11 engines...\n✅ Passed: 4\n   • gpt-4o → ChatOpenAI\n   • dashscope-qwen2.5-3b-instruct → ChatDashScope\n   • gemini-1.5-flash → ChatGemini\n   • deepseek-chat → ChatDeepseek\n...\n🎉 All engines initialized successfully!\n```\n\n## ⚡ Quick Start on AgentFlow Inference \nAgentFlow provides a modular agentic system with **four specialized modules** (planner, executor, verifier, generator) that coordinate through **evolving memory** and a **toolkit** over **multiple turns** to solve complex reasoning tasks. \n\nTo quickly experience the system in action, run the command below (don’t forget to set up your API key):\n```bash \npython quick_start.py\n```\nExample output of `python quick_start.py`:\n```text\n==> Initializing agentflow...\n==> Setting up tools...\n==> 🎯 Reasoning Steps from AgentFlow (Deep Thinking...)\n==> 🔍 Step 0: Query Analysis\n==> 🎯 Step 1: Action Prediction (Google_Search_Tool)\n==> 🛠️ Step 1: Command Execution (Google_Search_Tool)\n...\n**Answer:** The capital of France is Paris.\n==> ✅ Query Solved!\n\n**Process Summary:**\n1. **Query Analysis:** Identified as a factual question about the capital of France.\n2. **Tool Selection:** Used Google Search for accurate information.\n3. **Execution:** Confirmed Paris as the capital.\n4. **Verification:** Cross-referenced sources for reliability.\n\n**Answer:** The capital of France is Paris.\n```\n\n## 💥 Quick Start on AgentFlow Flow-GRPO Training \nFor effective planning and tool use, the framework directly **optimizes the planner agent within the system in an online fashion using Flow-GRPO**. Below is a quick start for training.\n\n### (Optional) Test Your Environment\nBefore diving in, we recommend verifying that AgentFlow's tools, LLM engines, and network configuration are properly set up. See [test_env.md](assets\u002Fdoc\u002Ftest_env.md) for detailed testing instructions.\n\n\n### Dataset Preparation\nWe mix two datasets for training: [NQ (Natural Questions)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FRUC-NLPIR\u002FFlashRAG_datasets) for agentic search and [DeepMath-103K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzwhe99\u002FDeepMath-103K) for mathematical reasoning.\n\n```bash\n# train data\npython data\u002Fget_train_data.py\n# validation data\npython data\u002Faime24_data.py\n```\n\nAfter that, data dir should be:\n```\ndata\u002F\n├── train\u002F\n│   └── combined_train.parquet (182,190 samples)\n├── val\u002F\n│   └── aime24.parquet (30 samples)\n├── aime24_data.py\n└── get_train_data.py\n```\n\n### Flow-GRPO Training \nStart agentflow training using Flow-GRPO with tmux:\n```bash\n# Create tmux session and start agentflow service (Window 0)\ntmux new-session -s agentflow\nbash train\u002Fserve_with_logs.sh\n\n# Create new window (Ctrl+B then C) and start training (Window 1)\nbash train\u002Ftrain_with_logs.sh\n```\n\n**Configuration:**\nAll training hyperparameters are in [`train\u002Fconfig.yaml`](train\u002Fconfig.yaml) (model settings, tools, RL parameters, resources, etc.)\n\n**Logging:**\nWe provide a comprehensive logging to monitor training. See [logs.md](assets\u002Fdoc\u002Flogs.md) for more details.\n\n\n\n## 🎯 AgentFlow Benchmark \nServe the trained planner model with VLLM (here we deploy our [7B Flow-GRPO planner model](https:\u002F\u002Fhuggingface.co\u002FAgentFlow\u002Fagentflow-planner-7b)):\n```bash\nbash scripts\u002Fserve_vllm.sh\n```\n\nRun inference on specific benchmark tasks:\n```bash\ncd test\n# Run Bamboogle benchmark\nbash bamboogle\u002Frun.sh\n```\n\nAfter running, each task folder (e.g., `test\u002Fbamboogle\u002F`) will contain:\n- `data\u002F`: Contains the evaluation dataset (e.g., `data.json`).\n- `logs\u002F`: Contains detailed execution logs for each problem index (organized by model label).\n- `results\u002F`: Contains the model's generated answers (`output_i.json`) and final evaluation scores (`finalscore_*.log`).\n\nYou can find more benchmarking details in [benchmark.md](assets\u002Fdoc\u002Fbenchmark.md). \n\n## 🧩 Use Your Own Model in AgentFlow\n\nAgentFlow supports different LLM engines for each agent module. See [llm_engine.md](assets\u002Fdoc\u002Fllm_engine.md) for supported models and [`factory.py`](agentflow\u002Fagentflow\u002Fengine\u002Ffactory.py) for the corresponding `model_string` configuration:\n\n**Planner Agent:**\n- Modify the `llm_engine_name` parameter in the corresponding `run.sh` script (e.g., `test\u002Fbamboogle\u002Frun.sh`)\n\n**Other Agents (Executor, Verifier, Generator):**\n- By default, these agents use a fixed LLM engine (Qwen-2.5-7B-Instruct via DashScope)\n- To use your own model, modify `self.llm_engine_fixed` in [`agentflow\u002Fagentflow\u002Fmodels\u002Fplanner.py:19`](agentflow\u002Fagentflow\u002Fmodels\u002Fplanner.py#L19):\n```python\nself.llm_engine_fixed = create_llm_engine(model_string=\"your-engine\", is_multimodal=False, temperature=temperature)\n```\nand\n\n- Modify the `llm_engine_name` parameter in the Executor instantiation from [`agentflow\u002Fagentflow\u002Fsolver.py:232`](agentflow\u002Fagentflow\u002Fsolver.py#L232):\n```python\n# Instantiate Executor\nexecutor = Executor(\n    # llm_engine_name=llm_engine_name,\n    llm_engine_name=\"dashscope\",\n    root_cache_dir=root_cache_dir,\n    verbose=verbose,\n    # base_url=base_url,\n    temperature=temperature\n)\n```\n- For detailed information on supported engines and `model_string` formats, see [`llm_engine.md`](assets\u002Fdoc\u002Fllm_engine.md)\n\n## 🏆 Experiments\n\n### 📊 Main Results\n**AgentFlow (Qwen-2.5-7B-Instruct Backbone)** outperforms top baselines on 10 benchmarks:  \n- **+14.9%** on search  \n- **+14.0%** on agentic reasoning  \n- **+14.5%** on math  \n- **+4.1%** on science  \n\n💡 Even surpasses larger proprietary models like **GPT-4o (~200B)**.\n\n![main_table1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_5bff3986ac23.png)\n![main_table2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_bd88cee599b8.png)\n\n### 🔍 In-Depth Analysis\n- Improved planning and decision-making  \n- Enhanced tool-calling reliability  \n- Positive scaling trends with model size & reasoning turns  \n\nExplore more in our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592) or [project page](https:\u002F\u002Fagentflow.stanford.edu\u002F).\n\n![tool_call](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_a7b71ff2e642.png)\n\n---\n\n## 🤝 Core Contributors\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fzhuofeng-li.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_9d0aa70f5ca3.png\" width=\"75px;\" alt=\"Zhuofeng Li\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhuofeng Li\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fisaacghx.github.io\u002Fabout\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_550e40ea0dd1.png\" width=\"75px;\" alt=\"Haoxiang Zhang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Haoxiang Zhang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Flupantech.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_935704251949.png\" width=\"75px;\" alt=\"Pan Lu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Pan Lu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🎓 Advisors\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fwww.james-zou.com\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_0d944573073d.jpg\" width=\"65px;\" alt=\"James Zou\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>James Zou\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fyejinc.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_6d75535005dc.jpeg\" width=\"75px;\" alt=\"Yejin Choi\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yejin Choi\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fyuzhimanhua.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_349331e941f2.jpg\" width=\"90px;\" alt=\"Yu Zhang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yu Zhang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🙏 Acknowledgements\n\nWe thank the following open-source projects:\n- [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) for the excellent RL framework design.\n- [vLLM ](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) for fast LLM inference support.\n- [Verl-Tool](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool) and [agent-lightning](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fagent-lightning) for their early-stage exploration in agentic RL Training. \n\nWe thank [Lambda](https:\u002F\u002Flambda.ai\u002Fcareers) for GPU support!\n\n## 🚀 Contributing\n\nWe are truly looking forward to open-source contributions to AgentFlow!  If you’re interested in contributing, collaborating, or reporting issues, please feel free to open an issue or submit a pull request (PR).  You can also reach us at [zhuofengli12345@gmail.com](mailto:zhuofengli12345@gmail.com), [isaacpfino@gmail.com](mailto:isaacpfino@gmail.com), [lupantech@gmail.com](mailto:lupantech@gmail.com) or join our Slack community: [AgentFlow](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fagentflow-co\u002Fshared_invite\u002Fzt-3f712xngl-LfxS4gmftAeKvcxR3nSkWQ).\n\n\nWe are also looking forward to your feedback and suggestions!\n\n## 📚 Citation\n```bibtex\n@inproceedings{li2026flow,\n    title = {In-the-Flow Agentic System Optimization for Effective Planning and Tool Use},\n    author = {Li, Zhuofeng and Zhang, Haoxiang and Han, Seungju and Liu, Sheng and Xie, Jianwen and Zhang, Yu and Choi, Yejin and Zou, James and Lu, Pan},\n    booktitle = {International Conference on Learning Representations (ICLR)},\n    year = {2026}\n}\n```\n\n## ⭐ Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_f8cd0613a145.png)](https:\u002F\u002Fstar-history.com\u002F#lupantech\u002FAgentFlow&Date)\n\n\u003Cp align=\"right\" style=\"font-size: 14px; margin-top: 20px;\">\n  \u003Ca href=\"#readme-top\" style=\"text-decoration: none; font-weight: bold;\">\n    ↑ Back to Top ↑\n  \u003C\u002Fa>\n\u003C\u002Fp>\n","\u003Ca name=\"readme-top\">\u003C\u002Fa>\n\n\u003Cp align=\"center\">\n  \u003Cpicture>\n    \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_8ee7d941d871.png\">\n    \u003Cimg alt=\"AgentFlow\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_8ee7d941d871.png\" width=31%>\n  \u003C\u002Fpicture>\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">\nAgentFlow：流程中的智能体系统优化\n\u003C\u002Fh3>\n\n\n\u003C!--- 徽章：开始 --->\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2510.05592-B31B1B.svg?logo=arxiv\" alt=\"Arxiv\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAgentFlow\u002Fagentflow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGradio-Demo-F97316.svg?logo=gradio\" alt=\"Gradio演示\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.05592\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface-论文-FFD21E.svg?logo=huggingface\" alt=\"Huggingface论文\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FAgentFlow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingface-模型-FFD21E.svg?logo=huggingface\" alt=\"Huggingface模型\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fagentflow.stanford.edu\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F网站-AgentFlow-E5426E?logo=kashflow\" alt=\"官网\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fx.com\u002Flupantech\u002Fstatus\u002F1976016000345919803\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F报道-AgentFlow-2176BC.svg?logo=x\" alt=\"X\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-教程-FF0000?logo=youtube\" alt=\"Youtube\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Flupantech\u002FAgentFlow\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDeepWiki-AgentFlow-6B4FBB?logo=readthedocs&logoColor=white\" alt=\"DeepWiki\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fagentflow-co\u002Fshared_invite\u002Fzt-3f712xngl-LfxS4gmftAeKvcxR3nSkWQ\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSlack-AgentFlow-D41544.svg?logo=slack\" alt=\"Slack\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fblob\u002Fmain\u002Fassets\u002Fimg\u002Fwechat_group.jpg\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F微信-AgentFlow-07C160.svg?logo=wechat\" alt=\"微信AgentFlow\">\n\u003C\u002Fa>\n  \n  \u003C\u002Fp>\n\u003C!--- 徽章：结束 --->\n\n\n## 📣 最新消息\n- **[2026.01.26]** 🚀 我们的论文已被【**ICLR 2026**】接收！里约热内卢见！\n- **[2025.10.26]** 📚 我们项目的介绍已被【**DeepWiki**】收录！\n- **[2025.10.16]** 🏆 我们的论文已被【**NeurIPS 2025高效推理研讨会**】接收！\n- **[2025.10.13]** 📸 AgentFlow的教程视频被Discover AI在【**YouTube**】上报道，非常激动！\n- **[2025.10.10]** 🚀 我们的X [帖子](https:\u002F\u002Fx.com\u002Flupantech\u002Fstatus\u002F1976016000345919803)获得了**1K+点赞**！欢迎查看并参与讨论！💬\n- **[2025.10.08]** 🔥 我们很荣幸被HuggingFace选为【**每日论文#2**】。\n\n## 🌟 为什么选择AgentFlow？\nAgentFlow是一个**可训练、集成工具的智能体框架**，旨在突破当前工具增强型推理方法在**可扩展性**和**泛化能力**方面的局限。\n\n与目前主流的方法（如Search-R1）不同——后者通过训练一个**单一的大语言模型**来交替执行推理步骤和工具调用——**AgentFlow**引入了一个由四个专业模块组成的**模块化智能体系统**：🧭 **规划器**、🛠 **执行器**、✅ **验证器**和✍️ **生成器**。\n\n![framework_overall](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_68ce76b88550.png)\n\n为了实现高效的规划和工具使用，该框架采用基于**流的群体精炼策略优化（Flow-GRPO）**，以**在线方式**直接**优化系统内的规划智能体**，从而在多个领域中展现出卓越性能，同时提升了工具调用的可靠性及长时程推理能力。\n\n![flow_grpo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_9eb891e9ce2e.png)\n\n## 📺 YouTube教程\n我们很高兴AgentFlow的教程视频被【Discover AI】（@code4AI）在YouTube上发布！\n\n\u003C!-- [![AgentFlow教程](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_6a576e5ad244.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI) -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=kIQbCQIH1SI\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_c3d92a4f24e9.jpg\" alt=\"AgentFlow教程\" width=\"100%\">\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n## 🚀 核心特性\n\n- 🧩 **模块化智能体系统** – 四个专业智能体模块（规划器、执行器、验证器、生成器），通过动态更新的记忆和集成工具，在多轮交互中协同工作。  \n- 🔗 **多工具集成** – 无缝对接多种工具生态，包括`base_generator`、`python_coder`、`google_search`、`wikipedia_search`、`web_search`等。  \n- 🎯 **Flow-GRPO算法** – 支持在稀疏奖励环境下对**长时程推理任务**进行**流程中的智能体优化**。\n- 📈 **显著效果** – 使用7B参数规模主干模型的AgentFlow在10项基准测试中均优于现有基线，搜索任务提升14.9%，智能体任务提升14.0%，数学任务提升14.5%，科学任务提升4.1%，甚至超越了约200B参数的GPT-4o。\n\n---\n\n## 📑 目录\n- [⚙️ 设置](#️-setup)\n  - [安装](#installation)\n  - [设置环境变量](#setup-environment-variables)\n- [⚡ AgentFlow推理快速入门](#-quick-start-on-agentflow-inference)\n- [💥 AgentFlow Flow-GRPO训练快速入门](#-quick-start-on-agentflow-flow-grpo-training)\n  - [(可选) 测试运行环境](#optional-test-your-environment)\n  - [数据集准备](#dataset-preparation)\n  - [Flow-GRPO训练](#flow-grpo-training)\n- [🎯 AgentFlow基准测试](#-agentflow-benchmark)\n- [🧩 在AgentFlow中使用自定义模型](#-use-your-own-model-in-agentflow)\n- [🤝 核心贡献者](#-core-contributors)\n- [🎓 顾问](#-advisors)\n- [🙏 致谢](#-acknowledgements)\n- [🚀 贡献](#-contributing)\n\n## ⚙️ 设置\n\n### 前置条件\n- **Python 3.11**（推荐）\n\n### 安装\n```bash\nbash setup.sh\nsource .venv\u002Fbin\u002Factivate\n# （可选）安装`parallel`以便并行运行基准测试实验：\nsudo apt-get update\nsudo apt-get install parallel\n```\n\n### 设置环境变量\n将`agentflow\u002F.env.template`文件复制并重命名为`.env`，然后放入`agentflow\u002F`文件夹中。请使用您自己的API密钥更新以下变量：\n- `OPENAI_API_KEY`（用于评估响应）\n- `GOOGLE_API_KEY`（用于Google Search工具）\n- `DASHSCOPE_API_KEY`（可选，用于调用Qwen-2.5-7B-Instruct作为智能体和工具的引擎）\n- `TOGETHER_API_KEY`（可选，作为Qwen-2.5-7B-Instruct的替代引擎，推荐国际用户使用）\n- 更多方式：使用vLLM部署Qwen2.5-7B-instruct模型（详情参阅[`serve_vllm_local.md`](assets\u002Fdoc\u002Fserve_vllm_local.md))。\n\n有关如何获取这些密钥的详细说明，请参阅【API密钥设置指南】（assets\u002Fdoc\u002Fapi_key.md）。\n\n```bash\ncp agentflow\u002F.env.template agentflow\u002F.env\n\n# 然后使用您的 API 密钥编辑 agentflow\u002F.env\n```\n\n## 🔍 运行前检查（推荐）\n在运行推理或训练之前，我们建议您验证 API 密钥和环境是否已正确配置。\n\n### 🛠️ 测试工具\n运行以下命令以测试所有集成工具：\n```bash\ncd agentflow\u002Fagentflow\nbash .\u002Ftools\u002Ftest_all_tools.sh\n```\n示例输出：\n```text\n正在测试所有工具...\n✅ base_generator 通过\n✅ google_search 通过\n✅ python_coder 通过\n✅ wikipedia_search 通过\n...\n✅ 所有测试均通过\n```\n\n### 🧠 测试 LLM 引擎\n验证您的 LLM 引擎（OpenAI、DashScope、Gemini 等）是否已正确初始化并响应：\n```bash\npython agentflow\u002Fscripts\u002Ftest_llm_engine.py\n```\n示例输出：\n```text\n🚀 正在启动针对 11 个引擎的容错测试...\n✅ 通过：4\n   • gpt-4o → ChatOpenAI\n   • dashscope-qwen2.5-3b-instruct → ChatDashScope\n   • gemini-1.5-flash → ChatGemini\n   • deepseek-chat → ChatDeepseek\n...\n🎉 所有引擎均已成功初始化！\n```\n\n## ⚡ AgentFlow 推理快速入门\nAgentFlow 提供了一个模块化的智能体系统，包含 **四个专用模块**（规划器、执行器、验证器、生成器），它们通过 **动态记忆** 和 **工具库** 在 **多轮交互** 中协同工作，以解决复杂的推理任务。\n\n要快速体验系统的运行，请运行以下命令（别忘了设置您的 API 密钥）：\n```bash \npython quick_start.py\n```\n`python quick_start.py` 的示例输出：\n```text\n==> 初始化 agentflow...\n==> 设置工具...\n==> 🎯 AgentFlow 的推理步骤（深度思考...）\n==> 🔍 第 0 步：查询分析\n==> 🎯 第 1 步：行动预测（Google_Search_Tool）\n==> 🛠️ 第 1 步：命令执行（Google_Search_Tool）\n...\n**答案:** 法国的首都是巴黎。\n==> ✅ 查询已解决！\n\n**流程总结：**\n1. **查询分析：** 被识别为关于法国首都的事实性问题。\n2. **工具选择：** 使用谷歌搜索获取准确信息。\n3. **执行：** 确认巴黎是首都。\n4. **验证：** 通过交叉核对来源确保可靠性。\n\n**答案：** 法国的首都是巴黎。\n```\n\n## 💥 AgentFlow Flow-GRPO 训练快速入门\n为了实现有效的规划和工具使用，该框架直接 **使用 Flow-GRPO 对系统中的规划器代理进行在线优化**。以下是训练的快速入门指南。\n\n### （可选）测试您的环境\n在开始之前，我们建议您验证 AgentFlow 的工具、LLM 引擎和网络配置是否已正确设置。有关详细测试说明，请参阅 [test_env.md](assets\u002Fdoc\u002Ftest_env.md)。\n\n### 数据集准备\n我们混合了两个数据集用于训练：[NQ（自然问题）](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FRUC-NLPIR\u002FFlashRAG_datasets) 用于智能体搜索，以及 [DeepMath-103K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fzwhe99\u002FDeepMath-103K) 用于数学推理。\n\n```bash\n# 训练数据\npython data\u002Fget_train_data.py\n# 验证数据\npython data\u002Faime24_data.py\n```\n\n完成后，data 目录应如下所示：\n```\ndata\u002F\n├── train\u002F\n│   └── combined_train.parquet (182,190 个样本)\n├── val\u002F\n│   └── aime24.parquet (30 个样本)\n├── aime24_data.py\n└── get_train_data.py\n```\n\n### Flow-GRPO 训练\n使用 tmux 启动 AgentFlow 训练并运行 Flow-GRPO：\n```bash\n# 创建 tmux 会话并启动 agentflow 服务（窗口 0）\ntmux new-session -s agentflow\nbash train\u002Fserve_with_logs.sh\n\n# 创建新窗口（Ctrl+B 然后 C）并开始训练（窗口 1）\nbash train\u002Ftrain_with_logs.sh\n```\n\n**配置：**\n所有训练超参数均位于 [`train\u002Fconfig.yaml`](train\u002Fconfig.yaml) 中（模型设置、工具、强化学习参数、资源等）。\n\n**日志记录：**\n我们提供全面的日志记录来监控训练过程。更多详情请参阅 [logs.md](assets\u002Fdoc\u002Flogs.md)。\n\n## 🎯 AgentFlow 基准测试\n使用 VLLM 服务训练好的规划器模型（此处部署我们的 [7B Flow-GRPO 规划器模型](https:\u002F\u002Fhuggingface.co\u002FAgentFlow\u002Fagentflow-planner-7b)）：\n```bash\nbash scripts\u002Fserve_vllm.sh\n```\n\n在特定基准任务上运行推理：\n```bash\ncd test\n# 运行 Bamboogle 基准测试\nbash bamboogle\u002Frun.sh\n```\n\n运行后，每个任务文件夹（例如 `test\u002Fbamboogle\u002F`）将包含：\n- `data\u002F`: 包含评估数据集（如 `data.json`）。\n- `logs\u002F`: 包含每个问题索引的详细执行日志（按模型标签组织）。\n- `results\u002F`: 包含模型生成的答案（`output_i.json`）和最终评估分数（`finalscore_*.log`）。\n\n更多基准测试详情请参阅 [benchmark.md](assets\u002Fdoc\u002Fbenchmark.md)。\n\n## 🧩 在 AgentFlow 中使用您自己的模型\n\nAgentFlow 支持为每个代理模块使用不同的 LLM 引擎。有关支持的模型及对应的 `model_string` 配置，请参阅 [llm_engine.md](assets\u002Fdoc\u002Fllm_engine.md) 和 [`factory.py`](agentflow\u002Fagentflow\u002Fengine\u002Ffactory.py)：\n\n**规划器代理：**\n- 修改相应 `run.sh` 脚本中的 `llm_engine_name` 参数（例如 `test\u002Fbamboogle\u002Frun.sh`）\n\n**其他代理（执行器、验证器、生成器）：**\n- 默认情况下，这些代理使用固定的 LLM 引擎（通过 DashScope 的 Qwen-2.5-7B-Instruct）。\n- 若要使用您自己的模型，请修改 [`agentflow\u002Fagentflow\u002Fmodels\u002Fplanner.py:19`](agentflow\u002Fagentflow\u002Fmodels\u002Fplanner.py#L19) 中的 `self.llm_engine_fixed`：\n```python\nself.llm_engine_fixed = create_llm_engine(model_string=\"your-engine\", is_multimodal=False, temperature=temperature)\n```\n以及\n\n- 修改从 [`agentflow\u002Fagentflow\u002Fsolver.py:232`](agentflow\u002Fagentflow\u002Fsolver.py#L232) 实例化执行器时的 `llm_engine_name` 参数：\n```python\n# 实例化执行器\nexecutor = Executor(\n    # llm_engine_name=llm_engine_name,\n    llm_engine_name=\"dashscope\",\n    root_cache_dir=root_cache_dir,\n    verbose=verbose,\n    # base_url=base_url,\n    temperature=temperature\n)\n```\n- 有关支持的引擎和 `model_string` 格式的详细信息，请参阅 [`llm_engine.md`](assets\u002Fdoc\u002Fllm_engine.md)。\n\n## 🏆 实验结果\n\n### 📊 主要结果\n**AgentFlow（以 Qwen-2.5-7B-Instruct 为骨干）** 在 10 项基准测试中均优于顶级基线：\n- 搜索方面提升 **+14.9%**\n- 智能体推理方面提升 **+14.0%**\n- 数学方面提升 **+14.5%**\n- 科学方面提升 **+4.1%**\n\n💡 甚至超越了更大的专有模型，如 **GPT-4o (~200B)**。\n\n![main_table1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_5bff3986ac23.png)\n![main_table2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_bd88cee599b8.png)\n\n### 🔍 深度分析\n- 更好的规划与决策能力\n- 更强的工具调用可靠性\n- 随着模型规模和推理轮次的增加，性能呈现积极的扩展趋势\n\n更多信息请参阅我们的论文 [arxiv.org\u002Fabs\u002F2510.05592](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592) 或项目页面 [agentflow.stanford.edu](https:\u002F\u002Fagentflow.stanford.edu)。\n\n![tool_call](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_a7b71ff2e642.png)\n\n---\n\n## 🤝 核心贡献者\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fzhuofeng-li.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_9d0aa70f5ca3.png\" width=\"75px;\" alt=\"Zhuofeng Li\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Zhuofeng Li\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fisaacghx.github.io\u002Fabout\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_550e40ea0dd1.png\" width=\"75px;\" alt=\"Haoxiang Zhang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Haoxiang Zhang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Flupantech.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_935704251949.png\" width=\"75px;\" alt=\"Pan Lu\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Pan Lu\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🎓 顾问\n\n\u003Ctable>\n\u003Ctr>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fwww.james-zou.com\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_0d944573073d.jpg\" width=\"65px;\" alt=\"James Zou\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>James Zou\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fyejinc.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_6d75535005dc.jpeg\" width=\"75px;\" alt=\"Yejin Choi\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yejin Choi\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n        \u003Ca href=\"https:\u002F\u002Fyuzhimanhua.github.io\u002F\">\n            \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_349331e941f2.jpg\" width=\"90px;\" alt=\"Yu Zhang\"\u002F>\n            \u003Cbr \u002F>\n            \u003Csub>\u003Cb>Yu Zhang\u003C\u002Fb>\u003C\u002Fsub>\n        \u003C\u002Fa>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🙏 致谢\n\n我们感谢以下开源项目：\n- [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 提供了出色的强化学习框架设计。\n- [vLLM ](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) 提供了高效的大型语言模型推理支持。\n- [Verl-Tool](https:\u002F\u002Fgithub.com\u002FTIGER-AI-Lab\u002Fverl-tool) 和 [agent-lightning](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fagent-lightning) 在代理式强化学习训练的早期探索中做出了重要贡献。\n\n同时，我们也感谢 [Lambda](https:\u002F\u002Flambda.ai\u002Fcareers) 提供的 GPU 支持！\n\n## 🚀 贡献\n\n我们非常期待对 AgentFlow 的开源贡献！如果您有兴趣参与贡献、合作或报告问题，请随时提交 issue 或 pull request (PR)。您也可以通过以下邮箱联系我们：[zhuofengli12345@gmail.com](mailto:zhuofengli12345@gmail.com)、[isaacpfino@gmail.com](mailto:isaacpfino@gmail.com)、[lupantech@gmail.com](mailto:lupantech@gmail.com)，或者加入我们的 Slack 社区：[AgentFlow](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fagentflow-co\u002Fshared_invite\u002Fzt-3f712xngl-LfxS4gmftAeKvcxR3nSkWQ)。\n\n我们也非常期待您的反馈和建议！\n\n## 📚 引用\n```bibtex\n@inproceedings{li2026flow,\n    title = {In-the-Flow Agentic System Optimization for Effective Planning and Tool Use},\n    author = {Li, Zhuofeng and Zhang, Haoxiang and Han, Seungju and Liu, Sheng and Xie, Jianwen and Zhang, Yu and Choi, Yejin and Zou, James and Lu, Pan},\n    booktitle = {International Conference on Learning Representations (ICLR)},\n    year = {2026}\n}\n```\n\n## ⭐ 星标历史\n\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_readme_f8cd0613a145.png)](https:\u002F\u002Fstar-history.com\u002F#lupantech\u002FAgentFlow&Date)\n\n\u003Cp align=\"right\" style=\"font-size: 14px; margin-top: 20px;\">\n  \u003Ca href=\"#readme-top\" style=\"text-decoration: none; font-weight: bold;\">\n    ↑ 返回顶部 ↑\n  \u003C\u002Fa>\n\u003C\u002Fp>","# AgentFlow 快速上手指南\n\nAgentFlow 是一个可训练的、集成工具的智能体（Agentic）框架，旨在通过模块化设计（规划器、执行器、验证器、生成器）和 Flow-GRPO 算法，解决复杂推理任务中的可扩展性和泛化限制。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：Linux (推荐 Ubuntu)\n- **Python 版本**：Python 3.11 (强烈推荐)\n- **其他依赖**：`parallel` 工具（用于并行运行基准测试实验，可选）\n\n### 前置依赖\n确保系统已安装 `git` 和基础编译工具。若需安装 `parallel`：\n```bash\nsudo apt-get update\nsudo apt-get install parallel\n```\n\n## 安装步骤\n\n### 1. 克隆与安装\n执行官方提供的安装脚本并激活虚拟环境：\n```bash\nbash setup.sh\nsource .venv\u002Fbin\u002Factivate\n```\n\n### 2. 配置环境变量\n复制模板文件并配置必要的 API Key。你需要准备以下密钥：\n- `OPENAI_API_KEY`：用于结果评判。\n- `GOOGLE_API_KEY`：用于 Google 搜索工具。\n- `DASHSCOPE_API_KEY` 或 `TOGETHER_API_KEY`：用于调用 Qwen-2.5-7B-Instruct 作为智能体和工具引擎（国内用户推荐使用 DashScope）。\n\n```bash\ncp agentflow\u002F.env.template agentflow\u002F.env\n```\n随后编辑 `agentflow\u002F.env` 文件，填入你的 API 密钥。详细获取方式可参考项目文档 `assets\u002Fdoc\u002Fapi_key.md`。\n\n### 3. 环境验证（推荐）\n在运行前，建议验证工具和 LLM 引擎是否配置正确。\n\n**测试集成工具：**\n```bash\ncd agentflow\u002Fagentflow\nbash .\u002Ftools\u002Ftest_all_tools.sh\n```\n*预期输出：所有工具测试通过 (✅ All tests passed)*\n\n**测试 LLM 引擎连接：**\n```bash\npython agentflow\u002Fscripts\u002Ftest_llm_engine.py\n```\n*预期输出：显示已初始化的引擎列表及成功状态 (🎉 All engines initialized successfully!)*\n\n## 基本使用\n\n### 快速体验推理 (Inference)\nAgentFlow 包含四个专用模块，通过多轮协作解决复杂问题。配置好 API Key 后，运行以下命令即可体验：\n\n```bash\npython quick_start.py\n```\n\n**运行示例输出：**\n```text\n==> Initializing agentflow...\n==> Setting up tools...\n==> 🎯 Reasoning Steps from AgentFlow (Deep Thinking...)\n==> 🔍 Step 0: Query Analysis\n==> 🎯 Step 1: Action Prediction (Google_Search_Tool)\n==> 🛠️ Step 1: Command Execution (Google_Search_Tool)\n...\n**Answer:** The capital of France is Paris.\n==> ✅ Query Solved!\n```\n\n### 简要说明\n- **默认行为**：脚本会自动加载规划器、执行器、验证器和生成器，并根据任务自动调用搜索或代码执行工具。\n- **自定义模型**：如需使用自己的模型作为 Planner，可修改对应 `run.sh` 脚本中的 `llm_engine_name` 参数；其他代理默认使用 Qwen-2.5-7B-Instruct。\n\n> **提示**：如需进行 Flow-GRPO 训练或运行完整基准测试，请参考项目完整的 README 文档中关于数据集准备和 tmux 会话管理的详细章节。","某金融科技公司的量化团队需要构建一个自动化系统，每日从海量新闻、财报和宏观数据中提炼关键信号，并生成可执行的投资策略报告。\n\n### 没有 AgentFlow 时\n- **单模型瓶颈明显**：依赖单一的大语言模型同时处理信息检索、逻辑推理和报告撰写，导致在长链条任务中容易“迷失”，无法兼顾深度与广度。\n- **工具调用不可靠**：模型在复杂推理过程中频繁出现调用错误的数据接口或遗漏关键验证步骤，产生“幻觉”数据，需人工二次复核。\n- **泛化能力差**：一旦市场风格切换或新增数据源，原有提示词工程（Prompt Engineering）即刻失效，重新调整参数耗时数天。\n- **长程推理断裂**：面对跨越多天的趋势分析任务，模型难以维持连贯的逻辑状态，往往在中间步骤丢失上下文，导致结论片面。\n\n### 使用 AgentFlow 后\n- **模块化分工明确**：AgentFlow 将任务拆解为规划器（Planner）、执行器（Executor）、验证器（Verifier）和生成器（Generator），各司其职，显著提升了复杂任务的完成度。\n- **在线优化提升可靠性**：通过 Flow-GRPO 算法，AgentFlow 能在实际运行中持续优化规划器，使工具调用准确率大幅提升，基本消除了虚假数据源问题。\n- **快速适应新场景**：得益于模块化架构，团队只需微调特定模块即可适配新的市场数据源，系统上线新策略的时间从数天缩短至数小时。\n- **长链条逻辑连贯**：专用的规划与验证机制确保了跨周期分析的逻辑闭环，系统能稳定输出包含多日数据关联的深度洞察报告。\n\nAgentFlow 通过模块化架构与在线强化学习，将原本脆弱单一的 AI 代理升级为具备高可靠性与长程推理能力的智能工作流，彻底释放了自动化投研的生产力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flupantech_AgentFlow_6a576e5a.jpg","lupantech","Pan Lu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Flupantech_93570425.jpg","Postdoc at Stanford; CS PhD at UCLA","Stanford University","Palo Alto","lupantech@gmail.com","https:\u002F\u002Flupantech.github.io","https:\u002F\u002Fgithub.com\u002Flupantech",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",92.7,{"name":88,"color":89,"percentage":90},"Shell","#89e051",7.3,1693,206,"2026-04-06T12:02:28","MIT","Linux","未明确说明具体型号，但提及使用 vLLM 部署模型及训练 7B 参数模型，通常建议 NVIDIA GPU (显存 16GB+ 以支持 7B 模型训练\u002F推理)","未说明",{"notes":99,"python":100,"dependencies":101},"1. 安装脚本 (setup.sh) 中包含 'sudo apt-get install parallel'，表明主要支持基于 Debian\u002FUbuntu 的 Linux 环境。\n2. 训练流程依赖 tmux 进行多窗口管理。\n3. 需要配置多个 API Key (OpenAI, Google, DashScope\u002FTogether) 或使用本地 vLLM 部署 Qwen-2.5-7B-Instruct 模型。\n4. 核心功能围绕 7B 参数模型的 Flow-GRPO 训练和推理。","3.11",[102,103,104],"vLLM","tmux","parallel",[13,35],[107,108,109,110,111,112,113],"agentic-ai","agentic-systems","llms","llms-reasoning","multi-agent-systems","reinforcement-learning","tool-augmented",null,"2026-03-27T02:49:30.150509","2026-04-07T06:13:34.710660",[118,123,128,132,137,141,146],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},21110,"如何在推理过程中用本地 vLLM 服务模型替换 OpenAI 模型作为评判器？","请参考项目最新的提交版本以及 Issue #18 中的讨论。维护者指出可以通过配置本地部署的 vLLM 服务来替代收费的 OpenAI API。具体操作通常涉及修改配置文件，将模型调用地址指向本地 vLLM 服务的端口（如 localhost:8000），并将工具引擎参数设置为对应的本地模型标识。","https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fissues\u002F7",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},21111,"如何在无法连接互联网的服务器上运行 Flow-GRPO 训练（使用本地模型）？","对于无网环境，需将所有 LLM 替换为本地 vLLM 服务的模型。具体步骤如下：\n1. 修改 `train\u002Fconfig.yaml`：将 `BASE_MODEL` 设置为本地检查点路径（建议使用相对路径，例如将模型放在项目目录下并设为 `'Qwen\u002FQwen2.5-7B-Instruct'`）。\n2. 将 `TOOL_ENGINE` 配置为指向本地部署的 vLLM 服务器。\n3. 确保所有依赖模型均已下载到本地，并在配置中禁用需要联网的工具（如 Google Search），仅保留本地可用的工具（如 `Base_Generator_Tool`, `Python_Coder_Tool`）。","https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fissues\u002F13",{"id":129,"question_zh":130,"answer_zh":131,"source_url":127},21112,"如何启动 vLLM 服务以便在测试或训练中使用本地模型？","请使用项目提供的脚本启动 vLLM 服务。运行命令：\n```bash\nbash scripts\u002Fserve_vllm.sh\n```\n该脚本会从 HuggingFace 仓库（如 `AgentFlow\u002Fagentflow-planner-7b`）加载模型并在 `localhost:8000` 端口提供服务（默认占用 GPU 0）。\n如果需要同时运行多个模型或避开远程 API，可以在不同的 GPU 和端口上再次运行该脚本，并在代码配置中硬编码相应的端口和参数。",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},21113,"在配置 `BASE_MODEL` 时遇到 404 错误或路径找不到问题如何解决？","这通常是因为模型路径配置不正确。解决方案是将模型文件下载到项目根目录下（例如目录结构为 `AgentFlow-main\u002FQwen\u002FQwen2.5-7B-Instruct`），然后在配置文件 `config.yaml` 中使用相对路径指定模型：\n```yaml\nBASE_MODEL: 'Qwen\u002FQwen2.5-7B-Instruct'\n```\n避免使用绝对路径或错误的 HuggingFace ID，确保路径相对于代码运行目录正确。","https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fissues\u002F22",{"id":138,"question_zh":139,"answer_zh":140,"source_url":136},21114,"Flow-GRPO 训练过程中，Rollout 使用的是固定参数的 vLLM 服务，如何保证是在线强化学习（Online RL）？","项目采用在线服务的 vLLM 而非离线推理来生成和解析 Rollout。虽然 vLLM 服务在启动时加载了检查点，但在训练流程中，系统会通过 API 请求与正在更新的模型进行交互。关于具体的在线更新机制，维护者说明发布的检查点（如 global step 32）是经过验证能复现论文性能的版本。如果在训练中遇到规划器模块报错找不到 API 端点，请确认是否已手动启动额外的 vLLM 服务器来提供 Rollout 服务，并确保配置中的端口和地址正确。",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},21115,"为什么使用发布的 `agentflow-planner-7b` 检查点无法复现 AIME24 的论文结果？","无法复现结果可能与检查点的选择有关。维护者澄清，仓库中上传的模型确实是来自 **global step 32** 的检查点，而整个训练过程运行了 60+ 步。团队在训练过程中测试了多个检查点，最终选择 **step 32** 作为发布版本，因为该版本的性能与论文报告中的一致。\n如果结果仍有差异，请检查：\n1. 解码设置（Decoding settings）是否与评估时一致。\n2. 工具配置（Tool configurations）是否完全启用且正确。\n3. 是否使用了正确的评估脚本和环境配置。","https:\u002F\u002Fgithub.com\u002Flupantech\u002FAgentFlow\u002Fissues\u002F18",{"id":147,"question_zh":148,"answer_zh":149,"source_url":127},21116,"如何配置测试脚本以同时调用本地 vLLM 模型和远程 API 模型？","在测试脚本（如 `test\u002Fexp\u002Frun_all_models_all_datasets.sh`）中，可以通过 `MODELS` 数组配置混合调用。示例配置如下：\n```bash\nMODELS=(\n    \"8000:vllm-AgentFlow\u002Fagentflow-planner-7b,AgentFlow-7B,\\\n    Base_Generator_Tool|Python_Coder_Tool|Google_Search_Tool|Wikipedia_Search_Tool,\\\n    dashscope-qwen2.5-7b-instruct|dashscope-qwen2.5-7b-instruct|Default|Default,\\\n    trainable|dashscope|dashscope\"\n)\n```\n其中 `8000:vllm-...` 表示调用本地 8000 端口的 vLLM 模型，而 `dashscope-...` 表示调用远程 DashScope API。如需完全本地化，请将所有 `dashscope` 替换为本地部署的模型服务标识，并在不同端口启动相应的 vLLM 服务。",[]]