PokeeResearchOSS
PokeeResearchOSS 是一个开源的深度学习研究智能体,基于先进的 70 亿参数模型构建。它专为解决复杂问题而设计,能够自主进行多轮网络搜索、阅读网页内容并整合最新在线信息,最终生成带有详细引用的深度研究报告。
该项目主要解决了传统大模型因训练数据截止而无法获取实时信息,以及在面对需要多步推理和广泛资料查证的任务时表现不足的问题。通过集成搜索、浏览和内容分析工具,PokeeResearchOSS 能像人类研究员一样迭代式地探索答案,显著提升了在复杂推理任务中的准确性和时效性。
这款工具非常适合 AI 开发者、科研人员以及需要处理高强度信息检索任务的技术团队使用。用户可以在本地部署该模型,灵活定制研究流程,或将其作为基准来评估其他代理系统的能力。其技术亮点在于高效的 7B 架构设计,既保证了在单张高性能显卡上的可运行性,又在多个权威问答基准测试中取得了优异表现。此外,项目提供了完整的 Docker 环境配置和评估脚本,帮助用户快速复现研究成果并开展二次开发。
使用场景
某金融科技公司的量化分析师需要在半小时内完成一份关于“全球半导体供应链最新地缘政治风险”的深度研报,以支撑次日的投资决策。
没有 PokeeResearchOSS 时
- 信息滞后严重:依赖静态训练数据或手动搜索,难以获取过去 24 小时内突发的政策变动或行业新闻,导致分析基于过时信息。
- 人工整合效率低:分析师需独自浏览数十个新闻源和财报,手动摘录、交叉验证并整理引用来源,耗时数小时且容易遗漏关键细节。
- 深度推理不足:面对复杂的产业链传导逻辑,传统搜索引擎仅能返回碎片化链接,缺乏自动化的多轮推理能力来串联因果关系。
- 成本高昂:若使用商业级深度研究 API(如 OpenAI 或 Perplexity),高频调用的费用极高,且需繁琐的密钥管理和账单监控。
使用 PokeeResearchOSS 后
- 实时情报捕获:PokeeResearchOSS 自动调用 Web 搜索工具,即时抓取并阅读最新的英文快讯与政府公报,确保所有结论均基于当下最新事实。
- 自动化报告生成:模型自主执行多轮搜索与内容分析,直接输出包含详细引注的完整研报,将原本数小时的工作压缩至分钟级。
- 复杂逻辑拆解:利用其 7B 参数模型强大的推理能力,自动梳理从“某国出口管制”到“特定芯片价格波动”的深层传导路径,提供有洞见的分析而非简单罗列。
- 极致性价比:部署开源版本后,无需支付昂贵的按次调用费,仅需承担本地 GPU 算力成本,整体研究成本降低 75% 以上且无隐藏费用。
PokeeResearchOSS 通过将实时网络感知与深度推理能力结合,让专业团队能以极低成本瞬间获得媲美顶级咨询机构的动态情报分析。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 测试环境为单卡 80GB A100(驱动版本 570.133.20,CUDA 12.8)
- 支持多卡加速(基准测试使用 8 × A100 80GB),显存较小的显卡可能可用但未测试
未说明(Docker 容器配置了 80g shm-size,建议大内存以匹配高显存需求)

快速开始
此仓库托管 Pokee 最先进的 7B DeepResearch 智能体,该智能体整合了网络搜索与内容阅读能力,能够利用互联网上最新、最权威的信息回答复杂问题。
我们还提供一个 API,用于调用我们的专有深度研究智能体,其成本比 OpenAI、Gemini 和 Perplexity 低高达 75%。它能够生成内容详实、引用丰富的研究报告,无隐藏费用,且无需管理 API 密钥。(有关该 API 的更多信息,请访问 pokee.ai/deepresearch-preview)
PokeeResearch-7B 智能体
Pokee 最先进的 7B DeepResearch 智能体,利用网络搜索和内容阅读能力,结合互联网上最新的信息,解答复杂问题。
🚀 特性
- 多轮研究:执行迭代式网络搜索和内容分析
- 工具集成:无缝整合网络搜索、内容阅读和浏览工具
- 全面评估:涵盖多个问答数据集的基准测试评估
- 高性能:在复杂推理任务中表现卓越
- 可扩展架构:基于高效的 7B 参数模型构建,实现最佳性能
📋 要求
硬件
- 计算节点:我们在单块 80GB A100 GPU 上测试了代码(显存更少的 GPU 也可能适用,但我们尚未测试)。使用多块 GPU 可进一步加速推理。供参考,驱动版本为 570.133.20,CUDA 工具包版本为 12.8。
软件
- Docker:运行代码的环境将以 Docker 镜像的形式提供。
API 密钥
您需要以下 API 密钥:
- Serper API:用于网络搜索功能
- Jina API:用于网页内容读取和提取
- Gemini API:用于内容摘要和结果评估
- HuggingFace Token:用于从 HuggingFace 下载模型
🛠️ 快速入门
1. 环境设置
我们提供一个 Docker 镜像,方便部署:
docker pull verlai/verl:app-verl0.5-transformers4.55.4-sglang0.4.10.post2-mcore0.13.0-te2.2
docker create --runtime=nvidia --gpus all --net=host --shm-size="80g" -v .:/workspace/ --name pokeeresearch verlai/verl:app-verl0.5-transformers4.55.4-sglang0.4.10.post2-mcore0.13.0-te2.2 sleep infinity
docker start pokeeresearch
docker exec -it pokeeresearch bash
ssh-keygen -t ed25519 -C <USER_NAME>
# 将 /root/.ssh/id_ed25519.pub 复制到 GitHub SSH 密钥中
git clone git@github.com:Pokee-AI/PokeeResearchOSS.git --recursive
cd PokeeResearchOSS
pip install colorlog
pip install -U google-genai
hf auth login # 输入您的 HuggingFace 令牌,确保该令牌具有使用 Pokee AI 模型的权限
cd verl
pip install -e .
cd ..
在项目根目录下创建一个 .env 文件,并添加您的 API 密钥:
SERPER_API_KEY=your_serper_api_key_here
JINA_API_KEY=your_jina_api_key_here
GEMINI_API_KEY=your_gemini_api_key_here
2. 修改 run.sh 以使用多块 GPU(可选)
使用更多 GPU 运行实验会更快。默认情况下,实验仅使用一块 GPU。
如果您想使用更多 GPU,只需将 run.sh 中的
trainer.n_gpus_per_node=1 \
修改为
trainer.n_gpus_per_node=<NUM_GPUS_TO_USE> \
3. 运行基准测试评估
步骤 1:启动工具服务器
python start_tool_server.py \
--port <PORT_NUMBER> \ # 指定监听端口(默认 8888)
--enable-cache # 启用工具结果缓存(建议开启以节省 API 费用)
步骤 2:运行评估
打开一个新的终端窗口,然后运行实验。
docker exec -it pokeeresearch bash
cd PokeeResearchOSS
bash run.sh
评估详情:
- 数据集规模:1,228 个带有标准答案的问题
- 评估次数:每道题进行 4 次采样
- 指标:所有响应的平均准确率
- 评判模型:Gemini-2.5-Flash-lite
- 运行时间:在 8 块 80GB A100 GPU 上耗时 40–50 分钟。
4. 查看结果
详细结果保存在 val_results/ 目录中:
- 原始问题及标准答案
- 智能体完整的调研轨迹
- 评判者的评估决策及理由
5. 整合研究线索
用户可以整合保存在 val_results/ 中的研究线索。为此,将 run_rts.sh 中的 xxxx.json 替换为 val_results/ 中的结果 JSON 文件。
然后运行 bash run_rts.sh。
6. 启动深度研究智能体应用
我们提供了基于 Gradio 的 CLI 应用程序和 GUI 应用程序。 两种应用程序都支持在本地或通过 vLLM 提供 LLM 服务。
vLLM 服务
为了使用 vLLM 服务,需要安装新的依赖项,这将改变现有软件包。因此,我们建议创建一个新的 Docker 容器,并按照第 1 步重新安装。启动并进入新容器后,执行以下操作:
# 我们建议使用 uv 来安装 vLLM。有关替代方案,请参阅 https://docs.vllm.ai/en/latest/getting_started/installation/index.html。
uv pip install vllm --torch-backend=auto --system
uv pip install httpx[http2] --system
然后,通过运行 bash serve_model.sh 启动 vLLM 服务器。
CLI 应用程序
❗️ 在使用 CLI 应用程序之前,您需要先启动工具服务器。为此,请运行
python start_tool_server.py --enable-cache。
我们提供了单次查询模式和交互式模式来使用 CLI 应用程序。
python cli_app.py # 交互式模式,持续监听查询直到用户终止
python cli_app.py --question <QUERY> # 单次查询模式,响应后即结束
一些附加选项包括:
--verbose打印中间步骤--serving-mode指定模型服务模式(本地或 vllm,默认为本地)--max-turns设置最大轮数(默认 10)
GUI 应用程序
首先,您需要安装 Gradio。
uv pip install --upgrade gradio --system
与 CLI 应用程序不同,您无需提前启动工具服务器。GUI 启动后,您将配置凭据并启动工具服务器。随后,应用程序会以子进程的形式启动工具服务器。通过以下命令启动 GUI 应用程序:
python gradio_app.py
一些附加选项包括:
--serving-mode指定模型服务模式(本地或 vllm,默认为本地)--port指定 Gradio 应用程序运行的端口
📊 基准数据集
我们的基准数据集包含来自 10 个常见深度研究基准的数据:
- 125 个纯文本问题,随机选自:
- TQ、NQ、HotpotQA、PopQA、Musique、2Wiki、Bamboogle、Browsecomp 和 HLE
- 103 个 GAIA 纯文本问题
这个多样化的数据集确保了对各种问题类型和领域的全面评估,从而为代理的能力提供稳健的衡量标准。
🏆 性能结果
| 方法 | HLE | GAIA | BrowseComp | BAMBOOGLE | 2WIKI | TQ | NQ | POPQA | MUSIQUE | HOTPOTQA |
|---|---|---|---|---|---|---|---|---|---|---|
| R1researcher | 5.4 | 8.3 | 1.0 | 63.2 | 61.4 | 77.2 | 59.6 | 51.8 | 35.8 | 62.4 |
| SearchR1 | 13.0 | 18.7 | 0.4 | 67.8 | 62.8 | 81.0 | 67.6 | 59.6 | 33.2 | 63.2 |
| ZeroSearch | 8.6 | 9.9 | 1.4 | 51.4 | 33.6 | 61.6 | 48.2 | 38.0 | 19.0 | 32.4 |
| ASearcher | 13.8 | 22.1 | 3.2 | 68.8 | 69.2 | 85.2 | 71.2 | 58.2 | 35.8 | 71 |
| DeepResearcher | 6.0 | 24.0 | 1.8 | 71 | 58.8 | 82.2 | 60.2 | 55.2 | 26.8 | 56.6 |
| PokeeResearch | 15.2 | 36.9 | 5.4 | 74.5 | 74.0 | 91.3 | 75.1 | 59.8 | 39.8 | 71.4 |
| PokeeResearch-RTS | 17.6 | 41.3 | 8.4 | 75.0 | 75.0 | 91.8 | 75.0 | 60.0 | 41.4 | 71.6 |
表 1:多个基准测试中的性能比较。PokeeResearch 代理在所有基准数据集上均取得了最先进的结果。对于每个问题,都会生成 4 个回答。代理预测的答案由 Gemini-2.5-Flash-lite 与真实答案进行比较,以确定正确性。表格中显示了按数据源划分的所有问题中 4 个回答的准确率。
引用
@article{pokee2025deepresearch,
title={PokeeResearch: Effective Deep Research via
Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold},
author={Yi Wan* and Jiuqi Wang* and Liam Li
and Jinsong Liu and Ruihao Zhu and Zheqing Zhu},
journal={Pokee AI Technical Report},
year={2025},
url={https://arxiv.org/pdf/2510.15862}
}
📄 许可证
本项目采用 Apache 2.0 许可证授权——详情请参阅 LICENSE 文件。
📞 支持
如有任何问题或需要支持,请在此仓库中提交一个问题。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信