dr-tulu
DR Tulu 是首个开源的“深度研究”大模型,专为处理长篇幅、高复杂度的研究任务而设计。它旨在解决传统 AI 在面对需要多步检索、信息综合及长篇报告生成时的能力瓶颈,在多项权威基准测试中,其表现已媲美闭源的顶尖模型。
该项目的核心亮点在于引入了“基于演进式评分标准的强化学习”技术。不同于常规训练,DR Tulu 能让模型在训练过程中动态优化评估准则,从而更精准地掌握深度推理与信息整合能力。项目不仅提供了训练好的 8B 参数模型,还开源了完整的智能体库、强化学习(GRPO)及监督微调代码,支持高并发异步请求与灵活的提示词接口。
DR Tulu 非常适合 AI 研究人员、开发者以及需要自动化深度调研的专业人士使用。研究人员可利用其复现先进的强化学习算法;开发者能基于提供的 MCP 工具后端和评估脚本,构建定制化的研究智能体;普通用户也可通过简易的命令行演示,体验模型实时搜索并合成答案的强大功能。只需少量显卡资源,即可部署并探索下一代深度研究 AI 的潜力。
使用场景
某生物医药初创公司的研究员正在紧急撰写一份关于"CRISPR 基因编辑在治疗罕见遗传病中最新临床进展”的深度综述报告,需要在极短时间内整合全球最新的学术论文与临床试验数据。
没有 dr-tulu 时
- 信息搜集碎片化:研究员需手动在 PubMed、Google Scholar 等多个平台反复切换搜索,难以全面覆盖非英语文献或最新预印本,极易遗漏关键数据。
- 内容整合耗时巨大:面对数百篇文档,人工阅读、提取核心结论并交叉验证真实性需要数天时间,严重拖慢报告产出进度。
- 缺乏动态评估标准:传统搜索工具无法根据研究深度自动调整筛选标准,导致检索结果要么过于宽泛无关,要么过于陈旧缺乏临床指导意义。
- 长程推理能力不足:通用大模型在处理此类需要多步检索、对比分析的长文本任务时,容易出现逻辑断层或幻觉,无法生成可信的深度分析。
使用 dr-tulu 后
- 全自动深度挖掘:dr-tulu 通过内置的 MCP 工具链并发调用 Serper、Semantic Scholar 等接口,自动遍历全球数据库,精准锁定最新临床试验数据与相关论文。
- 实时综合与去伪:模型利用进化评分机制(Evolving Rubrics)实时评估检索质量,自动合成跨文档的核心观点,并在几分钟内输出结构严谨、引用准确的初稿。
- 动态优化检索策略:在长程研究过程中,dr-tulu 能根据初步发现自动调整后续搜索方向,从“广泛撒网”智能过渡到“精准打击”,确保信息的高相关性。
- 专业级长文生成:基于强化学习训练的 dr-tulu-8B 展现出媲美顶级闭源模型的长文本处理能力,能够逻辑严密地梳理复杂病理机制与治疗前景,大幅降低人工复核成本。
dr-tulu 将原本需要数天的深度研究工作压缩至分钟级,让研究人员从繁琐的信息搬运工转变为真正的决策分析者。
运行环境要求
- Linux
- 必需
- 交互式演示需 1-2 张 GPU
- 评估需 2 张 GPU
- 示例使用 vLLM 运行 8B 模型,隐含需要支持 CUDA 的 NVIDIA GPU(显存建议 16GB+ 以容纳 8B 模型及长上下文)
未说明

快速开始
DR Tulu-8B 是首个针对长篇幅深度研究任务训练的开源深度研究(DR)模型。在长篇幅深度研究基准测试中,DR Tulu-8B 的表现可与 OpenAI 的深度研究模型相媲美。
发布说明
- 2026年2月9日:🔥 我们发布了 DR Tulu-8B 的免费交互式演示!请访问 dr-tulu.org 体验!
- 2025年11月19日:首次代码发布。
- 2025年11月25日:我们发布了交互式 CLI 演示代码,并附带了关于评估、训练以及全新强化学习检查点的额外文档。
概述
本仓库包含三个主要组件:
agent/:代理库(dr-agent-lib),配备基于 MCP 的工具后端、高并发异步请求管理功能,以及用于开发和训练深度研究代理的灵活提示接口。该目录还包含用于基准测试深度研究代理的评估脚本。rl/:基于 Open-Instruct 的强化学习训练代码,用于使用 GRPO 和动态评分标准训练深度研究代理。sft/:基于 LLaMA-Factory 的监督微调训练代码,用于对深度研究代理进行监督微调。
有关详细的设置和使用说明,请参阅各子目录中的 README 文件。
快速入门:交互式体验 DR Tulu
使用我们的 CLI 演示,即可交互式地体验 DR Tulu!这需要 1–2 张 GPU 卡,设置过程只需几个步骤:
设置环境
cd agent/ conda create -n dr_agent python=3.10 -y && conda activate dr_agent uv pip install -e .配置 API 密钥(可从相应服务获取免费密钥)
export SERPER_API_KEY="your_key" # https://serper.dev/ export S2_API_KEY="your_key" # https://api.semanticscholar.org/ export JINA_API_KEY="your_key" # https://jina.ai/reader/启动交互式演示
uv run --extra vllm python scripts/launch_chat.py --model rl-research/DR-Tulu-8B
演示将自动启动所需服务(MCP 服务器和 vLLM),并开启一个交互式聊天界面。现在您可以提出研究问题,观看 DR Tulu 实时搜索并综合答案!
更多选项和高级用法,请参阅 agent/README.md。
运行评估
要在各类任务(HealthBench、Deep Research Bench、SimpleQA 等)上对 DR Tulu 进行基准测试,您需要:
在同一节点上启动所需服务器(需 2 张 GPU 卡):
# 启动 VLLM 服务器 CUDA_VISIBLE_DEVICES=0 vllm serve rl-research/DR-Tulu-8B --dtype auto --port 30001 --max-model-len 40960 CUDA_VISIBLE_DEVICES=1 vllm serve Qwen/Qwen3-8B --dtype auto --port 30002 --max-model-len 40960 # 启动 MCP 服务器 python -m dr_agent.mcp_backend.main --port 8000运行评估脚本以测试您感兴趣的基准:
cd agent/ # 示例:在所有基准上运行 for task in healthbench deep_research_bench research_qa genetic_diseases simpleqa 2wiki webwalker; do python workflows/auto_search_sft.py \ generate-dataset $task \ --num-examples final_run \ --max-concurrent 20 \ --use-cache \ --config workflows/auto_search_sft.yaml \ --config-overrides "use_browse_agent=true,search_agent_max_tool_calls=10,browse_tool_name=jina" \ --output eval_output/auto_search_sft/$task.jsonl python scripts/evaluate.py $task eval_output/auto_search_sft/$task.jsonl done
注意:SQA-CS-V2 和 Deep Research Bench 需要额外的转换脚本来进行评估。详细说明请参阅 agent/evaluation/README.md。
完整的评估说明、基准描述及示例脚本,请参阅 agent/evaluation/README.md。
训练
监督微调(SFT)
使用高质量示范数据对深度研究代理进行监督微调:
cd sft/llama-factory/
# 详细说明请参阅 sft/llama-factory/README.md
有关完整的 SFT 训练设置和配置,请参阅 sft/llama-factory/README.md。
强化学习(RL)
使用 GRPO 和动态评分标准训练深度研究代理:
cd rl/open-instruct/
# 详细说明请参阅 rl/open-instruct/README.md
有关完整的 RL 训练设置,包括奖励模型训练和策略优化,请参阅 rl/open-instruct/README.md。
致谢
DR Tulu 由艾伦人工智能研究所(Ai2)提供。该项目的代码由华盛顿大学、卡内基梅隆大学和麻省理工学院的学生研究人员共同开发。
引用与联系
如果您觉得我们的工作有所帮助,请引用以下内容:
@article{shao2025dr,
title={DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research},
author={Shao, Rulin and Asai, Akari and Shen, Shannon Zejiang and Ivison, Hamish and Kishore, Varsha and Zhuo, Jingming and Zhao, Xinran and Park, Molly and Finlayson, Samuel G and Sontag, David and others},
journal={arXiv preprint arXiv:2511.19399},
year={2025}
}
如有任何问题,欢迎联系 Rulin Shao、Akari Asai、Shannon Shen 和 Hamish Ivison,或在 GitHub 上提交问题。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备