[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-RUC-NLPIR--DeepAgent":3,"tool-RUC-NLPIR--DeepAgent":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":32,"env_os":88,"env_gpu":89,"env_ram":90,"env_deps":91,"category_tags":97,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":98,"updated_at":99,"faqs":100,"releases":134},5059,"RUC-NLPIR\u002FDeepAgent","DeepAgent","[WWW 2026] 🛠️ DeepAgent: A General Reasoning Agent with Scalable Toolsets","DeepAgent 是一款由中国人民大学与小红书联合研发的通用推理智能体，旨在让 AI 像人类专家一样自主思考并灵活调用工具解决复杂问题。传统 AI 往往依赖预设流程或有限的固定工具，难以应对多变场景；而 DeepAgent 突破了这一局限，它能在端到端的推理过程中，自动从超过 16,000 个 RapidAPIs 中搜索、发现并匹配最合适的工具，无论是处理通用网络任务、执行具身智能操作（如导航与交互），还是进行深度研究（如代码执行、视觉问答），都能游刃有余。\n\n该项目的核心亮点在于其“可扩展工具集”架构，支持开发者无缝接入自定义工具，并结合 QwQ、Qwen3 等先进推理模型，实现了从“被动执行指令”到“主动规划决策”的跨越。这不仅解决了现有智能体在工具泛化能力和长程推理上的短板，还大幅降低了构建高性能 AI 助手的门槛。\n\nDeepAgent 非常适合 AI 研究人员探索新一代智能体架构，也适用于开发者快速搭建具备强大实操能力的垂直应用。对于希望深入理解大模型如何与现实世界交互的技术爱好者而言，它同样是一个极具价值的开源范本。目前项目已获 WWW 2026 收录，代码与数据集均已开","DeepAgent 是一款由中国人民大学与小红书联合研发的通用推理智能体，旨在让 AI 像人类专家一样自主思考并灵活调用工具解决复杂问题。传统 AI 往往依赖预设流程或有限的固定工具，难以应对多变场景；而 DeepAgent 突破了这一局限，它能在端到端的推理过程中，自动从超过 16,000 个 RapidAPIs 中搜索、发现并匹配最合适的工具，无论是处理通用网络任务、执行具身智能操作（如导航与交互），还是进行深度研究（如代码执行、视觉问答），都能游刃有余。\n\n该项目的核心亮点在于其“可扩展工具集”架构，支持开发者无缝接入自定义工具，并结合 QwQ、Qwen3 等先进推理模型，实现了从“被动执行指令”到“主动规划决策”的跨越。这不仅解决了现有智能体在工具泛化能力和长程推理上的短板，还大幅降低了构建高性能 AI 助手的门槛。\n\nDeepAgent 非常适合 AI 研究人员探索新一代智能体架构，也适用于开发者快速搭建具备强大实操能力的垂直应用。对于希望深入理解大模型如何与现实世界交互的技术爱好者而言，它同样是一个极具价值的开源范本。目前项目已获 WWW 2026 收录，代码与数据集均已开放，欢迎社区共同体验与贡献。","\u003Ch1 align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_684c95942148.png\" width=\"270\" style=\"vertical-align:middle;\"\u002F>\u003Cbr>A General Reasoning Agent with Scalable Toolsets\u003C\u002Fa>\u003C\u002Fh1>\n\n\u003Cdiv align=\"center\"> \n\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-b31b1b.svg?logo=arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618)\n[![Dataset](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDataset-HuggingFace-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flixiaoxi45\u002FDeepAgent-Datasets)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) \n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-390\u002F) \n[![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FXiaoxiLi0111%2Fstatus%2F1982649697467859438)](https:\u002F\u002Fx.com\u002FXiaoxiLi0111\u002Fstatus\u002F1982649697467859438)\n\u003C\u002Fdiv>\n\n\u003C!-- [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-HuggingFace-orange?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618) -->\n\u003C!-- [![WeChat](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-07C160?logo=wechat&logoColor=white)](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FZXwMwuB8fBStJORj4tYI2g) -->\n\n\u003Ch5 align=\"center\"> If you like our project, please give us a star ⭐ on GitHub for the latest update.\u003C\u002Fh5>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_57dc48e6838a.png\" alt=\"Typing Animation\" \u002F>\n\u003C\u002Fdiv>\n\n\n## 📣 Latest News\n\n- **[Jan 14, 2026]**: 🎉 DeepAgent has been accepted by **[WWW 2026](https:\u002F\u002Fwww2026.thewebconf.org\u002Findex.html)**!\n- **[Oct 28, 2025]**: 🔥 We are honored to be featured as Hugging Face **[Daily Paper #1](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002Fdate\u002F2025-10-27)**.\n- **[Oct 27, 2025]**: 📄 Our paper is now available on **[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618)** and **[Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618)**.\n- **[Oct 27, 2025]**: 🚀 Our codebase released. You can now deploy DeepAgent with reasoning models like [QwQ](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwq), [Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3) and your own toolsets.\n\n\n\n## 🎬 Demo\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>1. General Agent Task with 16,000+ RapidAPIs\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n    \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7aa586e9-a47a-425d-8d41-99226d2f6835\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** is a reasoning agent with scalable toolsets, capable of tackling general tasks by searching for and using the appropriate tools from over 16,000 RapidAPIs in an end-to-end agentic reasoning process. *(Note: Due to some APIs in ToolBench being unavailable, API responses are LLM-simulated in this demo to show the system's normal functionality.)*\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>2. Embodied AI Agent Task in ALFWorld Env.\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffe309384-9102-4d1e-a929-f8b9b4041243\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** also excels at navigation-based tasks (e.g., web browsing, OS interaction, and embodied AI) by using a versatile set of pluggable actions such as moving, looking, and taking.\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>3. Deep Research Task with Specialized Tools\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa6278bfd-2ee9-44aa-9f74-82aa826d8778\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** can also serve as a powerful research assistant, equipped with specialized tools for web search, browsing, code execution, visual QA, and file processing.\n\u003C\u002Fdetails>\n\n\n\n\n## 💡 Overview\n\n\n\u003C!-- ![Model Comparison](\u003C.\u002Ffigures\u002Fcomparison.png>) -->\n\n**DeepAgent** is an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. This paradigm shifts away from traditional, predefined workflows (e.g., ReAct's \"Reason-Act-Observe\" cycle), allowing the agent to maintain a global perspective on the entire task and dynamically discover tools on an as-needed basis.\n\nTo handle long-horizon interactions and prevent getting stuck in incorrect exploration paths, we introduce an **Autonomous Memory Folding** mechanism. This allows DeepAgent to \"take a breath\" by compressing its interaction history into a structured, brain-inspired memory schema, enabling it to reconsider its strategy and proceed efficiently.\n\nFurthermore, we propose **ToolPO**, an end-to-end reinforcement learning (RL) training method tailored for general tool use, which enhances the agent's proficiency in mastering these complex mechanisms.\n\n### 📊 Overall Performance\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_3eb36b779ac8.png\" width=\"70%\" \u002F>\n\u003C\u002Fdiv>\n\nWe conduct extensive experiments on a wide range of benchmarks:\n- **(1) General Tool-Use Tasks:** We evaluate DeepAgent on ToolBench, API-Bank, TMDB, Spotify, and ToolHop, which feature toolsets scaling from tens to over ten thousand distinct tools. \n- **(2) Downstream Applications:** We test its performance on ALFWorld, WebShop, GAIA, and Humanity's Last Exam (HLE), which require the use of domain-specific toolsets. The overall results in Figure show that DeepAgent achieves superior performance across all scenarios.\n\n### ✨ The DeepAgent Framework\n\n![Framework](\u003C.\u002Ffigures\u002Fframework.png>)\n**Key Features:**\n\n- **Unified Agentic Reasoning**: DeepAgent departs from rigid, predefined workflows. It operates in a single stream of thought, autonomously reasoning about the task, dynamically discovering necessary tools, and executing actions. This allows the LRM to maintain a global perspective and unlock its full autonomous potential.\n\n- **Autonomous Memory Folding & Brain-Inspired Memory**: When facing complex problems, DeepAgent can autonomously trigger memory folding. This process consolidates the interaction history into a structured memory, allowing the agent to restart its reasoning with a condensed yet comprehensive understanding of its progress. The memory architecture is brain-inspired and consists of:\n    - **Episodic Memory**: A high-level log of key events, decisions, and sub-task completions.\n    - **Working Memory**: Contains the most recent information, including the current sub-goal and near-term plans.\n    - **Tool Memory**: Consolidates tool-related interactions, allowing the agent to learn from experience and refine its strategies.\n\n- **End-to-End RL Training with ToolPO**: To effectively train the agent, we introduce ToolPO, a policy optimization method featuring:\n    - An **LLM-based Tool Simulator** that mimics real-world APIs, ensuring stable and efficient training.\n    - **Tool-Call Advantage Attribution**, which assigns fine-grained credit to correct tool invocation tokens, providing a more precise learning signal.\n\n\n## 🔧 Installation\n\n###  Environment Setup\n```bash\n# Create conda environment\nconda create -n deepagent python=3.10\nconda activate deepagent\n\n# Install requirements\ncd DeepAgent-main\npip install -r requirements.txt\n```\n\n  \n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>📊 Benchmarks\u003C\u002Fh3>\u003C\u002Fsummary>\n\nThe benchmarks we utilize are categorized into several types:\n- **General Tool Use Benchmarks:**\n    - [ToolBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789): Features 16,000+ real-world RapidAPIs requiring multi-step, multi-tool reasoning.\n    - [API-Bank](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08244): Evaluates planning, retrieval, and calling with 73 APIs across 314 human-annotated dialogues.\n    - [RestBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624): Simulates REST API applications with TMDB (54 tools) and Spotify (40 tools) scenarios.\n    - [ToolHop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02506): Tests multi-hop reasoning across 3,912 locally executable tools requiring 3-7 sequential calls.\n- **Embodied Agent Benchmarks:**\n    - [ALFWorld](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768): Text-based embodied AI environment where agents complete household tasks using 9 basic actions.\n- **Web Navigation Benchmarks:**\n    - [WebShop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01206): Online shopping simulation requiring agents to search and navigate products to fulfill user requirements.\n- **Deep Research Benchmarks:** \n    - [GAIA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12983): Complex information-seeking tasks requiring web search, browsing, VQA, code execution, and file processing.\n    - [Humanity's Last Exam (HLE)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14249): Extremely challenging reasoning problems testing advanced capabilities with code, search, and VQA tools. For efficient testing, we sampled 500 questions from the full set with 2,500 questions.\n\nAll the pre-processed data can be found in the `.\u002Fdata\u002F` directory, except for ToolBench which needs to be downloaded from [ToolBench's official repository](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench), as it is too large to be included in our repository.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>🤖 Model Serving\u003C\u002Fh3>\u003C\u002Fsummary>\nBefore running DeepAgent, ensure your reasoning model and auxiliary model are served using vLLM. DeepAgent is designed to work with powerful reasoning models as the main agent and can use an auxiliary model for tasks like memory generation and tool selection. For more details, please refer to [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm).\n\nFor the main reasoning model, we recommend using the following models. Performance improves from top to bottom, but computational cost also increases accordingly. You can choose a cost-effective model based on your needs:\n\n| Model | Size | Type | Link |\n|-------|------|------|---------|\n| Qwen3-4B-Thinking | 4B | Thinking | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-4B-Thinking-2507) |\n| Qwen3-8B | 8B | Hybrid | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-8B) |\n| Qwen3-30B-A3B-Thinking | 30B | Thinking | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-30B-A3B-Thinking-2507) |\n| QwQ-32B | 32B | Thinking | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwQ-32B) |\n| DeepAgent-QwQ-32B | 32B | Thinking | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002Flixiaoxi45\u002FDeepAgent-QwQ-32B) |\n| Qwen3-235B-A22B-Thinking | 235B | Thinking | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-235B-A22B-Thinking-2507) |\n\nFor the auxiliary model, we recommend using the [Qwen2.5-Instruct](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25) or [Qwen3-Instruct](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3) series models with similar parameters to the main reasoning model, but without thinking capabilities for faster inference.\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>⚙️ Configuration\u003C\u002Fh3>\u003C\u002Fsummary>\n\nAll configurations are in `.\u002Fconfig\u002Fbase_config.yaml`, including API keys, service URLs and paths. You need to modify them to your actual configurations:\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>1. API Configuration\u003C\u002Fh4>\u003C\u002Fsummary>\n\nChoose your task and configure the corresponding APIs:\n\n- **ToolBench (RapidAPI):**\n    - `toolbench_api`: RapidAPI key used in ToolBench. You can get it from [ToolBench's official repository](https:\u002F\u002Fgithub.com\u002FRapidAPI\u002FToolBench).\n    - `toolbench_service_url`: ToolBench service URL. Keep it as default to use ToolBench's official service.\n- **Deep Research:**\n    - `google_serper_api`: Google Serper API key for web search. You can apply it [here](https:\u002F\u002Fserper.dev\u002F).\n    - `use_jina`: Whether to use Jina Reader for stable URL content fetching.\n    - `jina_api_key`: Jina API key. You can apply it [here](https:\u002F\u002Fjina.ai\u002Fapi-dashboard\u002Freader).\n- **RestBench (TMDB & Spotify):**\n    - `tmdb_access_token`: TMDB access token. You can get the TMDB API key [here](https:\u002F\u002Fdeveloper.themoviedb.org\u002Fdocs\u002Fgetting-started).\n    - `spotify_client_id`: Spotify client ID. You can get the Spotify API key [here](https:\u002F\u002Fdeveloper.spotify.com\u002Fdocumentation\u002Fweb-api).\n    - `spotify_client_secret`: Spotify client secret.\n    - `spotify_redirect_uri`: Spotify redirect URI.\n- **WebShop:**\n    - `webshop_service_url`: WebShop service URL. You can create a new environment and serve it locally following the instructions in [WebShop's official repository](https:\u002F\u002Fgithub.com\u002Fprinceton-nlp\u002Fwebshop).\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>2. Model Configuration\u003C\u002Fh4>\u003C\u002Fsummary>\n\nConfigure your model endpoints in the config file:\n\n- **Main Reasoning LLM:**\n    - `model_name`: The name of your served reasoning model (e.g., `QwQ-32B`).\n    - `base_url`: API endpoint for your reasoning model service (e.g., `http:\u002F\u002F0.0.0.0:8080\u002Fv1`).\n    - `api_key`: API key for accessing the reasoning model service. Set to `empty` if you are using vLLM.\n    - `tokenizer_path`: Local path to the tokenizer files for the reasoning model.\n\n- **Auxiliary LLM:**\n    - `aux_model_name`: The name of your served auxiliary model (e.g., `Qwen2.5-32B-Instruct`).\n    - `aux_base_url`: API endpoint for the auxiliary model service.\n    - `aux_api_key`: API key for the auxiliary model. Set to `empty` if you are using vLLM.\n    - `aux_tokenizer_path`: Local path to the tokenizer files for the auxiliary model.\n\n- **VQA Model (for GAIA & HLE with image input):**\n    - `vqa_model_name`: The name of your served vision-language model (e.g., `Qwen2.5-VL-32B-Instruct`). Model serving method is [here](#model-serving).\n    - `vqa_base_url`: API endpoint for the VQA model service.\n    - `vqa_api_key`: API key for the VQA model. Set to `empty` if you are using vLLM.\n\n- **Tool Retriever:**\n    - `tool_retriever_model_path`: Local path to the tool retriever model (e.g., `.\u002Fmodels\u002Fbge-large-en-v1.5`).\n    - `tool_retriever_api_base`: API endpoint for the tool retriever service. Pre-serving it can avoid reloading the retriever model every time you run the system. You can deploy it using the following command:\n    ```bash\n    python src\u002Frun_tool_search_server.py \\\n        --base_config_path .\u002Fconfig\u002Fbase_config.yaml \\\n        --datasets toolbench,toolhop,tmdb,spotify,api_bank \\\n        --host 0.0.0.0 \\\n        --port 8001\n    ```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>3. Data Path Configuration\u003C\u002Fh4>\u003C\u002Fsummary>\n\nAll benchmark datasets are stored in the `.\u002Fdata\u002F` directory. You can modify these paths if needed.\n\n\u003C\u002Fdetails>\n\n\u003C\u002Fdetails>\n\n## 🚀 Run DeepAgent\n\nTo run on a benchmark dataset with tool search enabled, use the following command:\n    \n```bash\npython src\u002Frun_deep_agent.py \\\n    --config_path .\u002Fconfig\u002Fbase_config.yaml \\\n    --dataset_name toolbench \\\n    --enable_tool_search \\\n    --eval\n```\n\nTo run on a benchmark dataset with closed-set mode, use the following command:\n\n```bash\npython src\u002Frun_deep_agent.py \\\n    --config_path .\u002Fconfig\u002Fbase_config.yaml \\\n    --dataset_name gaia \\\n    --eval\n```\n\n**Parameters Explanation:**\n- `--config_path`: Path to the main configuration file.\n- `--dataset_name`: Name of the dataset to use (e.g., `toolbench`, `api_bank`, `tmdb`, `spotify`, `toolhop`, `gaia`, `hle`, `alfworld`, `webshop`).\n- `--subset_num`: Number of samples to run from the dataset.\n- `--concurrent_limit`: Maximum number of concurrent requests. Default is 32.\n- `--enable_tool_search`: Allows the agent to search for tools. If disabled, it will only use the tools provided for the task (closed-set).\n- `--enable_thought_folding`: Allows the agent to use the thought folding mechanism.\n- `--max_action_limit`: Maximum number of actions (tool search and tool call) per question.\n- `--max_fold_limit`: Maximum number of thought folds per question.\n- `--top_k`: Maximum number of search tools to return.\n- `--eval`: Run evaluation on the results after generation.\n\n\n\n### Troubleshooting multi tool failures\n\nIf DeepAgent looks stuck, keeps choosing strange tools, or ignores tool outputs when you run ToolBench or other multi tool benchmarks, see `docs\u002Fmulti_tool_agent_failure_modes.md` for a step by step checklist.\n\n### Evaluation\n\nOur model inference script can automatically save the model's input and output for evaluation. To run the evaluation, use the `--eval` flag when running `.\u002Fsrc\u002Frun_deep_agent.py`. The evaluation scripts for each dataset are located in `.\u002Fsrc\u002Fevaluate\u002F`.\n\n\n\n## 🔥 Deep Research Agent Family\n\n\u003Cdetails open>\u003Csummary>Welcome to try our deep research agent series: \u003C\u002Fsummary>\u003Cp>\n\n\n> [**DeepAgent: A General Reasoning Agent with Scalable Toolsets (WWW 2026)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618) \u003Cbr>\n> **TLDR:** An end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution with brain-inspired memory folding mechanism. \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FDeepAgent.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2510.21618-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FXiaoxiLi0111%2Fstatus%2F1982649697467859438)](https:\u002F\u002Fx.com\u002FXiaoxiLi0111\u002Fstatus\u002F1982649697467859438)\n\n> [**Agentic Entropy-Balanced Policy Optimization (WWW 2026)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) \u003Cbr>\n> **TLDR:** An agentic RL algorithm designed to balance entropy in both the rollout and policy update phases. \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FARPO.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2510.14545-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.14545) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)]()\n\n\n> [**Agentic Reinforced Policy Optimization (ICLR 2026)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) \u003Cbr>\n> **TLDR:** An agentic RL algorithm encourage the policy model to adaptively branch sampling during high-entropy tool-call rounds, \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FARPO.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2507.19849-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2507.19849) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1950172418250547478)\n\n> [**Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02652) \u003Cbr>\n> **TLDR:** This framework hierarchically decouples deep search into strategic planning and domain-specific execution by specialized agents. \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FHiRA) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FHiRA.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FHiRA) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2507.02652-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02652) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2507.02652) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2Fdongxi_nlp%2Fstatus%2F1941223631033389301)](https:\u002F\u002Fx.com\u002Fdongxi_nlp\u002Fstatus\u002F1941223631033389301)\n\n\n> [**Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) \u003Cbr>\n> **TLDR:** An end-to-end TIR post-training framework that empowers LLMs to autonomously interact with multi-tool environments through Self-Critic RL design\u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FTool-Star) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FTool-Star.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FTool-Star) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2505.16410-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2505.16410) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1925924431676821698)\n\n > [**WebThinker: Empowering Large Reasoning Models with Deep Research Capability (NeurIPS 2025)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) \u003Cbr>\n> **TLDR:** A deep research agent that empowers large reasoning models with autonomous search, web browsing, and research report drafting capabilities. \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FWebThinker.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2504.21776-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.21776) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2Fkakakbibibi%2Fstatus%2F1917768235069628823)](https:\u002F\u002Fx.com\u002Fkakakbibibi\u002Fstatus\u002F1917768235069628823)\n\n> [**Search-o1: Agentic Search-Enhanced Large Reasoning Models (EMNLP 2025)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) \u003Cbr>\n> **TLDR:** An agentic search-enhanced framework that integrates autonomous knowledge retrieval with large reasoning models through Agentic RAG and reasoning-in-documents modules. \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FSearch-o1.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2501.16399-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2501.05366) [![X (formerly Twitter) URL](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2F_akhaliq%2Fstatus%2F1877584951840764166%3Ft%3DfnbTblnqhiPtAyYr1PHbbw%26s%3D19)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19) \n\n\u003C\u002Fdetails>\n\n\n## 📄 Citation\n\nIf you find this work helpful, please cite our paper:\n```bibtex\n@misc{deepagent,\n      title={DeepAgent: A General Reasoning Agent with Scalable Toolsets}, \n      author={Xiaoxi Li and Wenxiang Jiao and Jiarui Jin and Guanting Dong and Jiajie Jin and Yinuo Wang and Hao Wang and Yutao Zhu and Ji-Rong Wen and Yuan Lu and Zhicheng Dou},\n      year={2025},\n      eprint={2510.21618},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618}, \n}\n```\n\n## 📄 License\n\nThis project is released under the [MIT License](LICENSE).\n\n## 📞 Contact\n\nFor any questions or feedback, please reach out to us at [xiaoxi_li@ruc.edu.cn](xiaoxi_li@ruc.edu.cn).\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_1763221d213f.png)](https:\u002F\u002Fwww.star-history.com\u002F#RUC-NLPIR\u002FDeepAgent&Date)\n","\u003Ch1 align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_684c95942148.png\" width=\"270\" style=\"vertical-align:middle;\"\u002F>\u003Cbr>一种具有可扩展工具集的通用推理智能体\u003C\u002Fa>\u003C\u002Fh1>\n\n\u003Cdiv align=\"center\"> \n\n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-b31b1b.svg?logo=arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618)\n[![数据集](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDataset-HuggingFace-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flixiaoxi45\u002FDeepAgent-Datasets)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLICENSE-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) \n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9+-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-390\u002F) \n[![X（原Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FXiaoxiLi0111%2Fstatus%2F1982649697467859438)](https:\u002F\u002Fx.com\u002FXiaoxiLi0111\u002Fstatus\u002F1982649697467859438)\n\u003C\u002Fdiv>\n\n\u003C!-- [![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-HuggingFace-orange?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618) -->\n\u003C!-- [![微信](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-07C160?logo=wechat&logoColor=white)](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FZXwMwuB8fBStJORj4tYI2g) -->\n\n\u003Ch5 align=\"center\"> 如果您喜欢我们的项目，请在 GitHub 上为我们点亮一颗星 ⭐，以获取最新更新。\u003C\u002Fh5>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_cb90894a7faa.png\" alt=\"打字动画\" \u002F>\n\u003C\u002Fdiv>\n\n\n## 📣 最新消息\n\n- **[2026年1月14日]**：🎉 DeepAgent 已被 **[WWW 2026](https:\u002F\u002Fwww2026.thewebconf.org\u002Findex.html)** 接收！\n- **[2025年10月28日]**：🔥 我们很荣幸成为 Hugging Face **[每日论文 #1](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002Fdate\u002F2025-10-27)** 的亮点。\n- **[2025年10月27日]**：📄 我们的论文现已发布在 **[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618)** 和 **[Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618)** 上。\n- **[2025年10月27日]**：🚀 我们的代码库已发布。现在您可以使用像 [QwQ](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwq)、[Qwen3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3) 这样的推理模型以及您自己的工具集来部署 DeepAgent。\n\n\n\n## 🎬 演示\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>1. 带有16,000多种RapidAPIs的通用智能体任务\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n    \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7aa586e9-a47a-425d-8d41-99226d2f6835\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** 是一种具有可扩展工具集的推理智能体，能够在端到端的智能体推理过程中，从超过16,000个RapidAPI中搜索并使用合适的工具来完成通用任务。*(注：由于ToolBench中的部分API无法使用，本演示中API响应由LLM模拟，以展示系统的正常功能。)*\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>2. ALFWorld环境中的具身AI智能体任务\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffe309384-9102-4d1e-a929-f8b9b4041243\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** 还擅长导航类任务（如网页浏览、操作系统交互和具身AI），它使用一系列多功能的可插拔动作，例如移动、观察和拾取。\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>3. 带有专用工具的深度研究任务\u003C\u002Fh3>\u003C\u002Fsummary>\n\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa6278bfd-2ee9-44aa-9f74-82aa826d8778\" \u002F>\n\u003C\u002Fdiv>\n\n**DeepAgent** 也可以作为强大的科研助手，配备用于网络搜索、浏览、代码执行、视觉问答和文件处理的专用工具。\n\u003C\u002Fdetails>\n\n\n\n\n## 💡 概述\n\n\n\u003C!-- ![模型对比](\u003C.\u002Ffigures\u002Fcomparison.png>) -->\n\n**DeepAgent** 是一种端到端的深度推理智能体，它在一个连贯的推理过程中完成自主思考、工具发现和动作执行。这种范式摆脱了传统的预定义工作流程（如ReAct的“思考-行动-观察”循环），使智能体能够保持对整个任务的全局视角，并根据需要动态发现工具。\n\n为了应对长期交互并防止陷入错误的探索路径，我们引入了 **自主记忆折叠** 机制。这使得DeepAgent可以通过将交互历史压缩成一种结构化的、受大脑启发的记忆模式来“喘口气”，从而重新考虑其策略并高效推进。\n\n此外，我们提出了 **ToolPO**，这是一种专为通用工具使用设计的端到端强化学习训练方法，可以提升智能体掌握这些复杂机制的能力。\n\n### 📊 总体性能\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_3eb36b779ac8.png\" width=\"70%\" \u002F>\n\u003C\u002Fdiv>\n\n我们在广泛的基准测试上进行了大量实验：\n- **(1) 通用工具使用任务：** 我们在ToolBench、API-Bank、TMDB、Spotify和ToolHop上评估了DeepAgent，这些基准涵盖了从几十种到一万多种不同工具的工具集。\n- **(2) 下游应用：** 我们测试了它在ALFWorld、WebShop、GAIA和人类终极考试（HLE）中的表现，这些任务需要使用特定领域的工具集。图中的总体结果显示，DeepAgent在所有场景中都表现出色。\n\n### ✨ DeepAgent框架\n\n![框架](\u003C.\u002Ffigures\u002Fframework.png>)\n**关键特性：**\n\n- **统一的智能体推理：** DeepAgent摒弃了僵化的预定义工作流程。它在一个单一的思想流中运行，自主地对任务进行推理、动态地发现所需的工具并执行动作。这使得LRM能够保持全局视角，并充分发挥其自主潜力。\n\n- **自主记忆折叠与受大脑启发的记忆：** 面对复杂问题时，DeepAgent可以自主触发记忆折叠。这一过程将交互历史整合为一种结构化的记忆，使智能体能够以精简但全面的理解重新开始推理。该记忆架构受大脑启发，包括：\n    - **情景记忆：** 对关键事件、决策和子任务完成情况的高层次记录。\n    - **工作记忆：** 包含最近的信息，包括当前的子目标和近期计划。\n    - **工具记忆：** 整合与工具相关的交互，使智能体能够从经验中学习并优化其策略。\n\n- **基于ToolPO的端到端强化学习训练：** 为了有效训练智能体，我们引入了ToolPO，这是一种策略优化方法，具有以下特点：\n    - **基于LLM的工具模拟器**，可模拟真实世界的API，确保训练稳定高效。\n    - **工具调用优势归因**，可为正确的工具调用标记分配细粒度的奖励，从而提供更精确的学习信号。\n\n\n## 🔧 安装\n\n### 环境设置\n```bash\n\n# 创建 conda 环境\nconda create -n deepagent python=3.10\nconda activate deepagent\n\n# 安装依赖\ncd DeepAgent-main\npip install -r requirements.txt\n```\n\n  \n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>📊 基准测试\u003C\u002Fh3>\u003C\u002Fsummary>\n\n我们使用的基准测试可分为几类：\n- **通用工具使用基准：**\n    - [ToolBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789)：包含 16,000 多个需要多步、多工具推理的真实 RapidAPI。\n    - [API-Bank](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.08244)：通过 314 个由人类标注的对话，评估规划、检索和调用 73 个 API 的能力。\n    - [RestBench](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624)：模拟 REST API 应用程序，场景包括 TMDB（54 个工具）和 Spotify（40 个工具）。\n    - [ToolHop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.02506)：测试跨 3,912 个本地可执行工具的多跳推理，需进行 3–7 次连续调用。\n- **具身智能体基准：**\n    - [ALFWorld](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768)：基于文本的具身 AI 环境，智能体通过 9 种基本动作完成家务任务。\n- **网页导航基准：**\n    - [WebShop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01206)：在线购物模拟，要求智能体搜索和导航商品以满足用户需求。\n- **深度研究基准：**\n    - [GAIA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12983)：复杂的资讯检索任务，涉及网络搜索、浏览、VQA、代码执行和文件处理。\n    - [人类终极考试 (HLE)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.14249)：极具挑战性的推理问题，测试代码、搜索和 VQA 工具等高级能力。为高效测试，我们从包含 2,500 道题的完整数据集中抽取了 500 道题。\n\n所有预处理好的数据都位于 `.\u002Fdata\u002F` 目录中，除了 ToolBench 数据需要从 [ToolBench 官方仓库](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench) 下载，因为其体积过大，无法放入我们的仓库。\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>🤖 模型服务\u003C\u002Fh3>\u003C\u002Fsummary>\n在运行 DeepAgent 之前，请确保您的推理模型和辅助模型已使用 vLLM 提供服务。DeepAgent 旨在与强大的推理模型作为主代理协同工作，并可利用辅助模型执行记忆生成和工具选择等任务。更多详情请参阅 [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)。\n\n对于主推理模型，我们推荐以下几种模型。性能从上到下逐渐提升，但计算成本也随之增加。您可以根据自身需求选择性价比合适的模型：\n\n| 模型 | 参数量 | 类型 | 链接 |\n|-------|------|------|---------|\n| Qwen3-4B-Thinking | 40亿 | 思考型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-4B-Thinking-2507) |\n| Qwen3-8B | 80亿 | 混合型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-8B) |\n| Qwen3-30B-A3B-Thinking | 300亿 | 思考型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-30B-A3B-Thinking-2507) |\n| QwQ-32B | 320亿 | 思考型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwQ-32B) |\n| DeepAgent-QwQ-32B | 320亿 | 思考型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002Flixiaoxi45\u002FDeepAgent-QwQ-32B) |\n| Qwen3-235B-A22B-Thinking | 2350亿 | 思考型 | [🤗 HuggingFace](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-235B-A22B-Thinking-2507) |\n\n对于辅助模型，我们建议使用与主推理模型参数相近的 [Qwen2.5-Instruct](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25) 或 [Qwen3-Instruct](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3) 系列模型，但无需思考能力，以加快推理速度。\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch3>⚙️ 配置\u003C\u002Fh3>\u003C\u002Fsummary>\n\n所有配置均位于 `.\u002Fconfig\u002Fbase_config.yaml` 文件中，包括 API 密钥、服务 URL 和路径。您需要将其修改为实际配置：\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>1. API 配置\u003C\u002Fh4>\u003C\u002Fsummary>\n\n根据您的任务选择并配置相应的 API：\n\n- **ToolBench (RapidAPI)：**\n    - `toolbench_api`：用于 ToolBench 的 RapidAPI 密钥。您可以从 [ToolBench 官方仓库](https:\u002F\u002Fgithub.com\u002FRapidAPI\u002FToolBench) 获取。\n    - `toolbench_service_url`：ToolBench 服务 URL。保持默认即可使用 ToolBench 的官方服务。\n- **深度研究：**\n    - `google_serper_api`：用于网络搜索的 Google Serper API 密钥。您可在此申请：[serper.dev](https:\u002F\u002Fserper.dev\u002F)。\n    - `use_jina`：是否使用 Jina Reader 来稳定地获取 URL 内容。\n    - `jina_api_key`：Jina API 密钥。您可在此申请：[jina.ai\u002Fapi-dashboard\u002Freader](https:\u002F\u002Fjina.ai\u002Fapi-dashboard\u002Freader)。\n- **RestBench (TMDB 和 Spotify)：**\n    - `tmdb_access_token`：TMDB 访问令牌。您可在此获取 TMDB API 密钥：[developer.themoviedb.org\u002Fdocs\u002Fgetting-started](https:\u002F\u002Fdeveloper.themoviedb.org\u002Fdocs\u002Fgetting-started)。\n    - `spotify_client_id`：Spotify 客户端 ID。您可在此获取 Spotify API 密钥：[developer.spotify.com\u002Fdocumentation\u002Fweb-api](https:\u002F\u002Fdeveloper.spotify.com\u002Fdocumentation\u002Fweb-api)。\n    - `spotify_client_secret`：Spotify 客户端密钥。\n    - `spotify_redirect_uri`：Spotify 重定向 URI。\n- **WebShop：**\n    - `webshop_service_url`：WebShop 服务 URL。您可根据 [WebShop 官方仓库](https:\u002F\u002Fgithub.com\u002Fprinceton-nlp\u002Fwebshop) 中的说明创建新环境并在本地提供服务。\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>2. 模型配置\u003C\u002Fh4>\u003C\u002Fsummary>\n\n在配置文件中设置您的模型端点：\n\n- **主推理 LLM：**\n    - `model_name`：您部署的推理模型名称（如 `QwQ-32B`）。\n    - `base_url`：推理模型服务的 API 端点（如 `http:\u002F\u002F0.0.0.0:8080\u002Fv1`）。\n    - `api_key`：访问推理模型服务的 API 密钥。如果您使用 vLLM，则设为 `empty`。\n    - `tokenizer_path`：推理模型分词器文件的本地路径。\n\n- **辅助 LLM：**\n    - `aux_model_name`：您部署的辅助模型名称（如 `Qwen2.5-32B-Instruct`）。\n    - `aux_base_url`：辅助模型服务的 API 端点。\n    - `aux_api_key`：辅助模型的 API 密钥。如果您使用 vLLM，则设为 `empty`。\n    - `aux_tokenizer_path`：辅助模型分词器文件的本地路径。\n\n- **VQA 模型（用于 GAIA 和 HLE 中的图像输入）：**\n    - `vqa_model_name`：您部署的视觉语言模型名称（如 `Qwen2.5-VL-32B-Instruct`）。模型服务方法见 [模型服务]。\n    - `vqa_base_url`：VQA 模型服务的 API 端点。\n    - `vqa_api_key`：VQA 模型的 API 密钥。如果您使用 vLLM，则设为 `empty`。\n\n- **工具检索器：**\n    - `tool_retriever_model_path`：工具检索器模型的本地路径（例如 `.\u002Fmodels\u002Fbge-large-en-v1.5`）。\n    - `tool_retriever_api_base`：工具检索器服务的 API 端点。预先部署可以避免每次运行系统时都重新加载检索器模型。你可以使用以下命令进行部署：\n    ```bash\n    python src\u002Frun_tool_search_server.py \\\n        --base_config_path .\u002Fconfig\u002Fbase_config.yaml \\\n        --datasets toolbench,toolhop,tmdb,spotify,api_bank \\\n        --host 0.0.0.0 \\\n        --port 8001\n    ```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails open>\n\u003Csummary>\u003Ch4>3. 数据路径配置\u003C\u002Fh4>\u003C\u002Fsummary>\n\n所有基准数据集都存储在 `.\u002Fdata\u002F` 目录下。如有需要，你可以修改这些路径。\n\n\u003C\u002Fdetails>\n\n\u003C\u002Fdetails>\n\n\n\n## 🚀 运行 DeepAgent\n\n要在启用工具搜索的情况下对某个基准数据集进行运行，可使用以下命令：\n    \n```bash\npython src\u002Frun_deep_agent.py \\\n    --config_path .\u002Fconfig\u002Fbase_config.yaml \\\n    --dataset_name toolbench \\\n    --enable_tool_search \\\n    --eval\n```\n\n若要在闭集模式下对某个基准数据集进行运行，则使用以下命令：\n\n```bash\npython src\u002Frun_deep_agent.py \\\n    --config_path .\u002Fconfig\u002Fbase_config.yaml \\\n    --dataset_name gaia \\\n    --eval\n```\n\n**参数说明：**\n- `--config_path`：主配置文件的路径。\n- `--dataset_name`：要使用的数据集名称（例如 `toolbench`、`api_bank`、`tmdb`、`spotify`、`toolhop`、`gaia`、`hle`、`alfworld`、`webshop`）。\n- `--subset_num`：从数据集中运行的样本数量。\n- `--concurrent_limit`：最大并发请求数。默认值为 32。\n- `--enable_tool_search`：允许智能体搜索工具。如果禁用，则仅使用任务提供的工具（闭集模式）。\n- `--enable_thought_folding`：允许智能体使用思维折叠机制。\n- `--max_action_limit`：每道题目的最大动作数（包括工具搜索和工具调用）。\n- `--max_fold_limit`：每道题目的最大思维折叠次数。\n- `--top_k`：返回的搜索工具的最大数量。\n- `--eval`：生成结果后对结果进行评估。\n\n\n\n### 多工具失败问题排查\n\n如果 DeepAgent 在运行 ToolBench 或其他多工具基准测试时出现卡住、不断选择奇怪工具或忽略工具输出的情况，请参阅 `docs\u002Fmulti_tool_agent_failure_modes.md` 中的逐步检查清单。\n\n### 评估\n\n我们的模型推理脚本可以自动保存模型的输入和输出以便进行评估。要运行评估，在执行 `.\u002Fsrc\u002Frun_deep_agent.py` 时添加 `--eval` 标志即可。各数据集的评估脚本位于 `.\u002Fsrc\u002Fevaluate\u002F` 目录下。\n\n## 🔥 深度研究智能体家族\n\n\u003Cdetails open>\u003Csummary>欢迎试用我们的深度研究智能体系列：\u003C\u002Fsummary>\u003Cp>\n\n\n> [**DeepAgent：具有可扩展工具集的通用推理智能体（WWW 2026）**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618) \u003Cbr>\n> **简述：** 一个端到端的深度推理智能体，通过受大脑启发的记忆折叠机制，实现自主思考、工具发现和动作执行。 \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FDeepAgent.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2510.21618-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.21618) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FXiaoxiLi0111%2Fstatus%2F1982649697467859438)](https:\u002F\u002Fx.com\u002FXiaoxiLi0111\u002Fstatus\u002F1982649697467859438)\n\n> [**代理式熵平衡策略优化（WWW 2026）**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) \u003Cbr>\n> **简述：** 一种代理式的强化学习算法，旨在在回放和策略更新阶段平衡熵。 \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FARPO.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2510.14545-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2510.14545) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)]()\n\n\n> [**代理式强化策略优化（ICLR 2026）**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) \u003Cbr>\n> **简述：** 一种代理式的强化学习算法，鼓励策略模型在高熵的工具调用回合中自适应地进行分支采样， \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FARPO.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FARPO) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2507.19849-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2507.19849) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1950172418250547478)\n\n> [**解耦规划与执行：面向深度搜索的层次化推理框架**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02652) \u003Cbr>\n> **简述：** 该框架通过专门的智能体，将深度搜索分层解耦为战略规划和领域特定的执行。 \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FHiRA) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FHiRA.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FHiRA) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2507.02652-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02652) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2507.02652) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2Fdongxi_nlp%2Fstatus%2F1941223631033389301)](https:\u002F\u002Fx.com\u002Fdongxi_nlp\u002Fstatus\u002F1941223631033389301)\n\n\n> [**Tool-Star：通过强化学习赋能大模型脑的多工具推理器**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) \u003Cbr>\n> **简述：** 一个端到端的TIR后训练框架，通过自我批评强化学习设计，使大模型能够自主地与多工具环境交互。\u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FTool-Star) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FTool-Star.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FTool-Star) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2505.16410-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2505.16410) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2FKevin_GuoweiXu%2Fstatus%2F1858338565463421244)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1925924431676821698)\n\n > [**WebThinker：赋予大型推理模型深度研究能力（NeurIPS 2025）**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) \u003Cbr>\n> **简述：** 一个深度研究智能体，赋予大型推理模型自主搜索、网页浏览和撰写研究报告的能力。 \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FWebThinker.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FWebThinker) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2504.21776-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.21776) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2Fkakakbibibi%2Fstatus%2F1917768235069628823)](https:\u002F\u002Fx.com\u002Fkakakbibibi\u002Fstatus\u002F1917768235069628823)\n\n> [**Search-o1：代理式搜索增强型大型推理模型（EMNLP 2025）**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) \u003Cbr>\n> **简述：** 一个代理式搜索增强框架，通过代理式RAG和文档内推理模块，将自主知识检索与大型推理模型相结合。 \u003Cbr>\n[![github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Github-black?logo=github)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1) [![github](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FRUC-NLPIR\u002FSearch-o1.svg?style=social)](https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FSearch-o1) [![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-2501.05366-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) [![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-Paper-yellow?logo=huggingface)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2501.05366) [![X（前身为Twitter）链接](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl?url=https%3A%2F%2Fx.com%2F_akhaliq%2Fstatus%2F1877584951840764166%3Ft%3DfnbTblnqhiPtAyYr1PHbbw%26s%3D19)](https:\u002F\u002Fx.com\u002F_akhaliq\u002Fstatus\u002F1877584951840764166?t=fnbTblnqhiPtAyYr1PHbbw&s=19) \n\n\u003C\u002Fdetails>\n\n## 📄 引用\n\n如果您觉得这项工作对您有帮助，请引用我们的论文：\n```bibtex\n@misc{deepagent,\n      title={DeepAgent: 一个具有可扩展工具集的通用推理智能体}, \n      author={李晓溪、焦文翔、金嘉睿、董冠廷、金家杰、王一诺、王浩、朱宇涛、文继荣、陆元、窦志成},\n      year={2025},\n      eprint={2510.21618},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.21618}, \n}\n```\n\n## 📄 许可证\n\n本项目采用 [MIT 许可证](LICENSE) 开源。\n\n## 📞 联系方式\n\n如有任何问题或反馈，请通过 [xiaoxi_li@ruc.edu.cn](xiaoxi_li@ruc.edu.cn) 与我们联系。\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_readme_1763221d213f.png)](https:\u002F\u002Fwww.star-history.com\u002F#RUC-NLPIR\u002FDeepAgent&Date)","# DeepAgent 快速上手指南\n\nDeepAgent 是一个具备可扩展工具集的通用推理智能体（General Reasoning Agent）。它能够在端到端的推理过程中自主思考、动态发现工具并执行动作，适用于通用工具调用、具身智能（Embodied AI）及深度研究等多种场景。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux 或 macOS (Windows 用户建议使用 WSL2)\n*   **Python 版本**: 3.9 或更高 (推荐 3.10)\n*   **包管理器**: Conda (推荐) 或 pip\n*   **模型服务**: 需部署 vLLM 服务以运行推理模型和辅助模型\n\n### 前置依赖\n您需要预先准备好以下 API Key（根据具体任务选择配置）：\n*   **通用工具任务**: RapidAPI Key (ToolBench)\n*   **深度研究任务**: Google Serper API Key, Jina API Key\n*   **特定基准测试**: TMDB Token, Spotify Client ID\u002FSecret 等\n\n## 2. 安装步骤\n\n### 2.1 创建虚拟环境\n推荐使用 Conda 创建独立的 Python 环境：\n\n```bash\nconda create -n deepagent python=3.10\nconda activate deepagent\n```\n\n### 2.2 克隆代码与安装依赖\n下载项目代码并安装所需依赖包：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyour-repo\u002FDeepAgent.git\ncd DeepAgent-main\npip install -r requirements.txt\n```\n> **提示**: 国内用户若下载依赖较慢，可添加清华源加速：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 3. 基本使用\n\n### 3.1 启动模型服务\nDeepAgent 依赖 vLLM 部署主推理模型（Reasoning Model）和辅助模型（Auxiliary Model）。\n\n**推荐模型组合**：\n*   **主模型**: `QwQ-32B`, `Qwen3-30B-A3B-Thinking` 或微调版 `DeepAgent-QwQ-32B`\n*   **辅助模型**: `Qwen2.5-Instruct` 或 `Qwen3-Instruct` (同参数量级，无思考模式以加速推理)\n\n请使用 vLLM 启动服务（示例）：\n```bash\npython -m vllm.entrypoints.api_server --model Qwen\u002FQwQ-32B --port 8000\n```\n\n### 3.2 配置文件修改\n编辑 `.\u002Fconfig\u002Fbase_config.yaml` 文件，填入您的 API Key 和服务地址。\n\n**关键配置项示例**：\n```yaml\n# ToolBench 任务配置\ntoolbench_api: \"YOUR_RAPIDAPI_KEY\"\ntoolbench_service_url: \"http:\u002F\u002Fdefault-toolbench-service\"\n\n# 深度研究任务配置\ngoogle_serper_api: \"YOUR_SERPER_API_KEY\"\nuse_jina: true\njina_api_key: \"YOUR_JINA_API_KEY\"\n\n# 模型服务地址\nreasoning_model_url: \"http:\u002F\u002Flocalhost:8000\u002Fv1\"\nauxiliary_model_url: \"http:\u002F\u002Flocalhost:8001\u002Fv1\"\n```\n\n### 3.3 运行智能体\n配置完成后，即可运行 DeepAgent 执行任务。以下是一个通用的运行命令示例（具体脚本名称请参考项目 `scripts` 目录）：\n\n```bash\npython run_agent.py \\\n    --config .\u002Fconfig\u002Fbase_config.yaml \\\n    --task_type \"general_tool_use\" \\\n    --query \"帮我查找北京明天的天气并推荐附近的餐厅\"\n```\n\n**运行说明**：\n*   `--task_type`: 指定任务类型，如 `general_tool_use` (通用工具), `embodied_ai` (具身智能), `deep_research` (深度研究)。\n*   `--query`: 输入您的自然语言指令。\n*   系统将自动进行“自主记忆折叠”（Autonomous Memory Folding），动态调用工具并输出最终结果。\n\n---\n*更多详细基准测试数据集请查看 `.\u002Fdata\u002F` 目录，或访问 HuggingFace 数据集页面获取。*","某跨境电商数据分析师需要在 2 小时内完成一份关于“东南亚新兴美妆品牌”的深度竞品报告，涉及多源数据检索、API 调用及图表生成。\n\n### 没有 DeepAgent 时\n- **工具切换繁琐**：分析师需手动在搜索引擎、各类数据 API 平台和 Excel 之间反复跳转，无法在一个界面完成闭环操作。\n- **推理链条断裂**：面对复杂任务（如“先找品牌再查销量最后对比趋势”），传统脚本无法自主拆解步骤，必须人工编写每一步的代码逻辑。\n- **扩展性差**：若需引入新的数据源（如新增一个社交媒体 API），往往需要重构整个工作流代码，耗时且易出错。\n- **信息整合低效**：从不同渠道获取的碎片化数据难以自动关联，人工清洗和汇总占据了 80% 的时间，导致深度分析时间被压缩。\n\n### 使用 DeepAgent 后\n- **端到端自主执行**：DeepAgent 直接在单一推理过程中自主规划，自动搜索并调用 16,000+ RapidAPIs 中的合适接口，一键完成从数据获取到报告生成的全流程。\n- **动态推理决策**：遇到未知问题时，DeepAgent 能像人类专家一样进行多步思考，自动拆解“查找 - 验证 - 分析”的子任务，无需人工干预逻辑细节。\n- **工具集弹性伸缩**：得益于可扩展的工具集架构，分析师可随时插入新的专用工具（如特定的视觉问答或文件处理插件），DeepAgent 即刻识别并无缝集成。\n- **深度研究增强**：内置的专项研究工具链自动完成网页浏览、代码执行和数据可视化，将原本数小时的数据整理工作缩短至分钟级，让分析师专注于策略洞察。\n\nDeepAgent 通过将分散的工具调用与深度推理融合，把分析师从繁琐的“数据搬运工”角色解放为真正的“决策制定者”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FRUC-NLPIR_DeepAgent_684c9594.png","RUC-NLPIR","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FRUC-NLPIR_de7305eb.jpg","",null,"https:\u002F\u002Fruc-nlpir.github.io\u002F","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,1041,132,"2026-04-07T07:03:36","MIT","未说明","必需（用于运行 vLLM 服务推理模型），具体型号和显存取决于所选模型大小（如 4B 至 235B 参数），未明确指定 CUDA 版本","未说明（取决于运行的模型大小，大模型如 235B 需要大量内存）",{"notes":92,"python":93,"dependencies":94},"1. 必须使用 vLLM 部署主推理模型（推荐 Qwen3 或 QwQ 系列）和辅助模型。\n2. 需配置多个外部 API 密钥（如 RapidAPI, Google Serper, Jina, TMDB, Spotify 等）才能运行特定任务。\n3. ToolBench 数据集过大，需从官方仓库单独下载，其他预处理数据位于 .\u002Fdata\u002F 目录。\n4. 建议使用 conda 创建名为 deepagent 的虚拟环境进行安装。","3.10+",[95,96],"vllm","requirements.txt 中定义的依赖包",[13],"2026-03-27T02:49:30.150509","2026-04-07T22:49:53.571605",[101,106,111,116,120,125,129],{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},22995,"应用上下文折叠（Context Folding）后，奖励分数和损失是如何计算的？之前的轨迹会被如何处理？","每次上下文折叠后，可视为开始一个新的生成步骤。总训练损失是各步骤损失的总和。对于折叠前的历史轨迹，如果发生了折叠，最终的任务成功优势（Advantage）也会回溯归因到折叠前的 token 上，以确保信用传播的完整性。折叠后的序列被视为单独的生成步骤进行损失计算，其损失会累加到总训练损失中。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent\u002Fissues\u002F8",{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},22996,"DeepAgent-32B-Base 模型是经过 SFT 训练的模型还是仅通过提示词引导的基础模型？","DeepAgent-32B-Base 使用的是未经过训练的开源模型 QwQ-32B，并通过提示词（Prompts）进行引导。用户也可以使用其他开源大语言模型，特别是推荐使用推理类模型，以便更好地与 DeepAgent 在长程交互中对齐。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent\u002Fissues\u002F10",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},22997,"在 ToolPO 方法中，如何定义工具调用是“正确”的？","在 ToolPO 中，“正确的工具调用”定义为调用的工具名称与标注数据中的工具名称完全匹配。这种方法旨在保持实现的简洁性。未来工作可能会探索更细致的评估方法来进行更细粒度的判断。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent\u002Fissues\u002F6",{"id":117,"question_zh":118,"answer_zh":119,"source_url":115},22998,"论文中提到的“无工具模拟（w\u002Fo Tool Simulation）”消融实验具体是如何设置的？","“无工具模拟”消融实验直接使用真实的 RapidAPI 调用进行训练，而不是使用模拟响应。需要注意的是，由于部分 API 在训练过程中可能变得不可用，这种方式可能会影响整体训练的稳定性。",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},22999,"在哪里可以找到用于辅助 LLM 模拟工具调用奖励的提示词（Prompt）？","用于 RapidAPI 模拟的提示词位于代码库中的 `src\u002Fprompts\u002Fprompts_deepagent.py` 文件内，具体函数名为 `get_rapidapi_simulation_prompt`。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent\u002Fissues\u002F7",{"id":126,"question_zh":127,"answer_zh":128,"source_url":115},23000,"当发生内存折叠时，最终任务的成功优势（Task Success Advantage）是否会传播到折叠前的历史 token？","是的。如果发生了内存折叠，最终任务的成功优势不仅应用于折叠后生成的 token，也会回溯归因到折叠前被压缩的历史 token 上。这样做是为了确保信用传播的完整性和充分性。",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},23001,"多工具代理（Multi-tool Agent）常见的失败模式有哪些？","常见失败模式包括：1. 选择了错误的工具（尽管描述良好）；2. 工具选择正确但参数错误或缺失；3. 工具输出被语言模型忽略或未在最终答案中体现；4. 工具与环境之间存在隐藏的配置不匹配（如 API 密钥、端点、架构等）。建议用户在遇到问题时检查工具描述、提示词片段、配置文件及日志摘录。","https:\u002F\u002Fgithub.com\u002FRUC-NLPIR\u002FDeepAgent\u002Fissues\u002F14",[]]