ASearcher
ASearcher 是一个专为搜索智能体打造的开源大规模强化学习框架,旨在通过在线训练将搜索能力提升至专家水平。它主要解决了传统搜索代理在长程任务中难以维持高效探索、训练资源利用率低以及缺乏高质量合成数据等痛点。
该项目非常适合希望构建高性能搜索机器人的开发者与研究人员。ASearcher 提供了从数据合成、模型权重到完整训练流程的全套开源资源,让用户能低成本地定制专属智能体。其核心技术亮点包括:引入基于提示词的数据合成智能体,自动生成高难度问答对以丰富训练多样性;采用全异步强化学习架构,将轨迹收集与模型训练解耦,彻底消除 GPU 空闲时间,支持超过 100 轮工具调用和 40 万 token 生成的超长程搜索任务。
在性能表现上,ASearcher 无需依赖外部大模型,仅在 32B 参数规模下,便在 GAIA、xBench-DeepSearch 等多个权威基准测试中超越了其他开源方案,并通过强化学习带来了显著的性能跃升。无论是进行学术研究还是工程落地,ASearcher 都为打造下一代自主搜索代理提供了坚实可靠的基础设施。
使用场景
某金融科技团队需要构建一个能自动追踪全球政策变动并生成深度研报的智能助手,以辅助投资分析师快速决策。
没有 ASearcher 时
- 搜索深度不足:传统代理往往在几次搜索后就停止,无法像人类专家那样进行超过 100 轮的深层信息挖掘,导致遗漏关键隐性线索。
- 训练成本高昂且低效:强化学习训练中 GPU 常因等待数据收集而闲置,难以支撑长周期任务训练,模型迭代速度极慢。
- 数据多样性匮乏:缺乏高质量的合成数据,模型在面对复杂、不确定的真实世界问题时泛化能力差,容易陷入死循环或给出幻觉答案。
- 性能瓶颈明显:在 GAIA 等高难度基准测试中,现有开源方案得分较低,无法独立处理需要多步推理和实时网页交互的复杂查询。
使用 ASearcher 后
- 实现超长程搜索:借助强化学习优化,ASearcher 能自主执行超 100 轮工具调用,生成超过 40 万 token 的推理链,彻底厘清复杂的政策关联。
- 训练效率飞跃:其全异步智能体强化学习架构解耦了数据采集与模型训练,消除了 GPU 空闲时间,大幅降低了大规模训练的时间与经济成本。
- 数据自我进化:内置的数据合成智能体能自动生成高难度、高不确定性的问答对,显著提升了模型处理陌生领域问题的鲁棒性。
- 专家级表现:在同等规模下,ASearcher 在 GAIA 等权威榜单上的平均分提升超过 15 分,能够精准输出包含实时数据的深度分析结论。
ASearcher 通过开源的大规模强化学习框架,让开发者能以低成本打造出具备专家级长程推理与实时搜索能力的智能代理。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 训练 7B 模型推荐 16 节点(每节点 8 GPU)
- 训练 QwQ-32B 模型需多节点集群(示例配置为 6 节点,每节点 8 GPU)
- 依赖 SGLang 和 Ray 进行分布式加速,未明确具体显存大小,但运行 32B 模型及长上下文(400k tokens)通常需要高显存(建议单卡 80GB 或多卡并行)
未说明(大规模集群训练通常要求每节点 512GB+)

快速开始
ASearcher: 一个面向搜索代理的大规模开源强化学习项目
简介
ASearcher 是一个开源框架,专为大规模在线强化学习(RL)训练搜索代理而设计。我们的使命是将搜索智能提升至专家级水平。我们完全秉持开源理念,公开模型权重、详细的训练方法以及数据合成流水线。此外,我们还提供基于 AReaL 构建和训练自定义代理的全面指南。ASearcher 赋能开发者以简单且经济高效的方式构建自己的高性能搜索代理。
ASearcher 亮点
- 🔁 数据合成代理:我们引入了一种基于提示的 LLM 代理,能够自主生成有据可依、具有挑战性且高度不确定的问答对,从而提升训练多样性。
- ⚡ 全异步代理式强化学习:我们的可扩展代理式 RL 框架将轨迹收集与模型训练解耦,消除了 GPU 的空闲时间,实现了高效的长 horizon 强化学习训练。
- 🌐 RL 支持长 horizon 搜索:通过强化学习训练,ASearcher 展现出长 horizon 搜索能力,工具调用次数超过 100 轮,RL 训练过程中生成的 token 数量超过 40 万。
- 🏆 前沿性能:在简单的代理设计且不依赖外部 LLM 的情况下,ASearcher 在 GAIA、xBench-DeepSearch 和 Frames 上分别取得了 Avg@4 分数 58.7、51.1 和 74.5,超越了其他同为 32B 规模的开源搜索代理。ASearcher 在 GAIA、xBench-DeepSearch 和 Frames 上的 Pass@4 分数分别为 74.7、75.0 和 85.5。
- 📈 通过 RL 实现显著提升:强化学习训练使 ASearcher 在 GAIA、xBench-DeepSearch 和 Frames 上的 Avg@4 分数分别提升了 +15.0、+22.4 和 +14.6。
- 🛠️ 完全开源:我们致力于开源代理式强化学习训练的所有组件,包括数据集、数据合成代理、训练细节、模型权重以及自定义代理开发的详细指南。 已发布的模型和数据可在 🤗Huggingface 上找到。
📰 新闻与更新:
- 2025-09-18:ASearcher-Web-QwQ 的训练代码及最新模型已发布!请查看 ASearcher-Web-QwQ-V2 和 我们的训练代码,以实现流畅的大规模代理式强化学习训练!
- 2025-09-18:更清洁、更灵活的训练!ASearcher 现在使用 AReaL 作为软件包。
- 2025-08-30:ASearcher-Web-QwQ-V2 即将发布! 具有改进的训练数据和端到端代理式强化学习训练的最先进搜索代理。模型和数据将很快发布。
- 2025-08-09:我们的 技术报告 已发布。
- 2025-08-05:ASearcher 正式发布,尝试异步强化学习训练和自动 QA 合成,训练出先进的搜索代理吧!🎉
结果展示
我们在具有挑战性的 QA 基准测试(GAIA、xBench-DeepSearch 和 Frames)上评估了我们的方法,这些基准测试旨在检验高级问题解决能力和网络搜索策略。这些基准测试专门设计用于评估代理与真实网络交互并检索最新信息的能力,而这些信息往往超出了 LLM 的内部知识范围。
前沿性能。 我们的代理 ASearcher-Web-QwQ-v2 在开源代理中达到了最先进的水平,在 GAIA 和 xBench 上拥有最高的 Avg@4 分数。此外,我们还报告了 Pass@4,即代理在四次尝试内找到正确答案的比例。ASearcher-Web-QwQ-v2 在通过率方面也优于现有的开源代理,进一步证明了其稳健性。

图1 基于 32B 规模模型的各种方法在 GAIA、xBench-DeepSearch 和 Frames 上的表现。报告了 Avg@4 和 Pass@4。
通过 RL 实现显著提升。 将强化学习(RL)训练前后的性能进行比较时,ASearcher-Web-QwQ-v2 在 GAIA、xBench-DeepSearch 和 Frames 上分别实现了 +15.0、+22.4 和 +14.6 的提升。在通过率(Pass@4)方面,ASearcher-Web-QwQ-v2 也表现出显著增长——尤其是在 xBench-DeepSearch 上,其通过率提高了 22.4。

图2 QwQ-32B 代理在 RL 训练前后性能的对比。
数据合成
我们开发了一种基于提示的 LLM 代理,旨在自主生成有据可依、具有挑战性且高度不确定的问答对。该过程从基础问题开始,随后代理会通过两种关键策略不断优化问题:
- 模糊化:通过模糊查询中的关键细节来增加不确定性。
- 上下文注入:通过工具检索的外部事实来丰富问题内容,从而加深复杂性。
每个生成的问题都会经过严格的多阶段验证:
- 质量保证:检查语言流畅性、时效性和逻辑连贯性。
- 难度验证:将 LRM 生成的答案与标准答案进行比较,以确保问题的挑战性。
- 答案唯一性验证:确认 LRM 的错误答案确实无效,从而保持问题的完整性。

图3 数据合成代理。
全异步智能体强化学习训练
我们的分析揭示了智能体轨迹执行时间存在显著差异。通过考察强化学习训练过程中每条轨迹的回合数和生成的标记数量,我们发现较长的轨迹可能比短轨迹多出数十个回合。在标记生成方面,较长轨迹的生成量甚至可以达到较短轨迹的两 orders of magnitude,如下图所示。

图4(左)回合数与训练步数的关系。(右)生成标记数与训练步数的关系。
全异步强化学习训练支持长 horizon 工具使用。 在批量生成的强化学习系统中,整个批次必须等待最长的轨迹完成,这会导致 GPU 出现大量空闲时间。相比之下,全异步强化学习(RL)通过将训练与轨迹生成完全解耦,消除了这一瓶颈。这使得我们可以放宽回合限制(例如每条轨迹最多 128 回合),从而使智能体能够在不牺牲训练效率的情况下探索更深层次的搜索路径。值得注意的是,我们的智能体 ASearcher-Web-QwQ 实现了极长的 horizon 搜索,在强化学习训练期间工具调用次数超过 100 回合,生成标记数超过 40 万。

图5 全异步强化学习训练示意图。
快速入门
评估
要复现图2中的结果,请运行以下脚本。
cd evaluation/
MODEL_PATH=/path/to/models
DATA_DIR=/path/to/test_set # 可从 [https://huggingface.co/datasets/inclusionAI/ASearcher-test-data] 下载
DATA_NAMES=GAIA,xbench-deepsearch,Frames
AGENT_TYPE=asearcher-reasoning
PROMPT_TYPE=asearcher-reasoning
SEARCH_CLIENT_TYPE=async-web-search-access
SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" &> /dev/null && pwd)"
PROJECT_ROOT="$(dirname "$SCRIPT_DIR")"
PYTHONPATH="${PROJECT_ROOT}:$PYTHONPATH" \
SERPER_API_KEY=${your_serper_api_key} \
JINA_API_KEY=${your_jina_api_key} \
TOKENIZERS_PARALLELISM=false \
python3 search_eval_async.py \
--data_names ${DATA_NAMES} \
--model_name_or_path ${MODEL_PATH} \
--output_dir ${MODEL_PATH} \
--data_dir ${DATA_DIR} \
--prompt_type $PROMPT_TYPE \
--agent-type ${AGENT_TYPE} \
--search-client-type ${SEARCH_CLIENT_TYPE} \
--tensor_parallel_size 4 \
--temperature 0.6 \
--parallel-mode seed \
--seed 1 \
--use-jina \
--llm_as_judge \
--pass-at-k 1 \ # 如果您希望获得更稳定的结果,请提高此值
有关详细指南,请参阅评估文档。
训练
微调一个 7B 模型
1. 设置环境
请参考 https://inclusionai.github.io/AReaL/tutorial/installation.html#runtime-environment
2.1 在 16 个节点上训练 7B 模型(推荐)
cd AReaL
export SERPER_API_KEY=YOUR_SERPER_API_KEY
export JINA_API_KEY=YOUR_JINA_API_KEY
python3 -m areal.launcher.ray ASearcher/train/asearcher.py \
--config ASearcher/configs/asearcher_web_16nodes.yaml \
experiment_name=<your experiment name> \
trial_name=<your trial name> \
allocation_mode=sglang.d96p1t1+d32p1t1 \
cluster.n_nodes=16 \
cluster.n_gpus_per_node=8
2.2 在单个节点上训练 7B 模型(可能会较慢)
cd AReaL
export SERPER_API_KEY=YOUR_SERPER_API_KEY
export JINA_API_KEY=YOUR_JINA_API_KEY
python3 -m areal.launcher.local ASearcher/train/asearcher.py \
--config ASearcher/configs/asearcher_web.yaml \
experiment_name=<your experiment name> \
trial_name=<your trial name>
微调一个 QwQ-32B 智能体
步骤 1. 启动 Qwen2.5-72B-Instruct 作为 LLM-as-Judge:
python3 -m areal.launcher.ray ASearcher/train/asearcher_reasoning.py \
--config ASearcher/configs/asearcher_web_qwq.yaml \
experiment_name=asearcher-qwen72b-inst-server-only \
trial_name=run1 \
cluster.n_nodes=1 allocation_mode=sglang.d2t4p1 \
actor.path=Qwen/Qwen2.5-72B-Instruct
步骤 2. 启动 QwQ-32B 智能体训练:
python3 -m areal.launcher.ray \
ASearcher/train/asearcher_reasoning.py \
--config ASearcher/configs/asearcher_web_qwq.yaml \
experiment_name=asearcher-qwq-train \
trial_name=run1 cluster.n_nodes=6 allocation_mode=sglang.d2t8+d4t8 \
actor.path=Qwen/QwQ-32B \
train_dataset.path=path_to_ASearcher-LRM-35k \
judge_engine.experiment_name=asearcher-qwen72b-inst-server-only \
judge_engine.trial_name=run1
有关详细指南,请参阅训练文档。
启动演示
请参阅演示文档,了解如何启动 asearcher 可视化演示。
(可选)自定义
有关构建自定义智能体的更多信息,请参阅我们的指南。
(可选)数据合成
数据合成智能体位于 qa_synthesis/qa_synthesis_agent.py 中。要运行该智能体进行 QA 数据合成,您需要:
- 下载相关数据,包括维基百科 2018 年网页以及采样链接列表。
- 启动两个模型的 SGLang 服务器:
QwQ-32B和Qwen2.5-72B-instruct。 - 运行
python3 qa_synthesis/qa_synthesis_agent.py来合成高质量的 QA 对!
致谢
我们谨此感谢本工作的主要贡献者来自蚂蚁集团研究实验室的 RL 实验室以及清华大学交叉信息研究院。
此外,我们的团队还得到了以下团队的宝贵帮助:
- 蚂蚁集团的 AWorld 团队,分享了他们在智能体开发方面的经验。
- 蚂蚁集团超级计算技术(SCT)团队,特别是在大规模集群管理和运维方面的专业知识。
我们也要感谢研究社区提供的基础性工作和启发,包括但不限于 Search-o1、Search-R1 和 WebAgent。
引用
如果您认为我们的工作有用,请引用我们的研究成果!
@misc{gao2025turnsunlockinglonghorizonagentic,
title={超越十回合:利用大规模异步强化学习解锁长 horizon 智能体搜索},
author={Jiaxuan Gao 和 Wei Fu 和 Minyang Xie 和 Shusheng Xu 和 Chuyi He 和 Zhiyu Mei 和 Banghua Zhu 和 Yi Wu},
year={2025},
eprint={2508.07976},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2508.07976},
}
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备