dr-tulu

616 59 中等 1 次阅读今天Apache-2.0Agent其他

AI 解读由 AI 自动生成，仅供参考

DR Tulu 是首个开源的“深度研究”大模型，专为处理长篇幅、高复杂度的研究任务而设计。它旨在解决传统 AI 在面对需要多步检索、信息综合及长篇报告生成时的能力瓶颈，在多项权威基准测试中，其表现已媲美闭源的顶尖模型。

该项目的核心亮点在于引入了“基于演进式评分标准的强化学习”技术。不同于常规训练，DR Tulu 能让模型在训练过程中动态优化评估准则，从而更精准地掌握深度推理与信息整合能力。项目不仅提供了训练好的 8B 参数模型，还开源了完整的智能体库、强化学习（GRPO）及监督微调代码，支持高并发异步请求与灵活的提示词接口。

DR Tulu 非常适合 AI 研究人员、开发者以及需要自动化深度调研的专业人士使用。研究人员可利用其复现先进的强化学习算法；开发者能基于提供的 MCP 工具后端和评估脚本，构建定制化的研究智能体；普通用户也可通过简易的命令行演示，体验模型实时搜索并合成答案的强大功能。只需少量显卡资源，即可部署并探索下一代深度研究 AI 的潜力。

使用场景

某生物医药初创公司的研究员正在紧急撰写一份关于"CRISPR 基因编辑在治疗罕见遗传病中最新临床进展”的深度综述报告，需要在极短时间内整合全球最新的学术论文与临床试验数据。

没有 dr-tulu 时

信息搜集碎片化：研究员需手动在 PubMed、Google Scholar 等多个平台反复切换搜索，难以全面覆盖非英语文献或最新预印本，极易遗漏关键数据。
内容整合耗时巨大：面对数百篇文档，人工阅读、提取核心结论并交叉验证真实性需要数天时间，严重拖慢报告产出进度。
缺乏动态评估标准：传统搜索工具无法根据研究深度自动调整筛选标准，导致检索结果要么过于宽泛无关，要么过于陈旧缺乏临床指导意义。
长程推理能力不足：通用大模型在处理此类需要多步检索、对比分析的长文本任务时，容易出现逻辑断层或幻觉，无法生成可信的深度分析。

使用 dr-tulu 后

全自动深度挖掘：dr-tulu 通过内置的 MCP 工具链并发调用 Serper、Semantic Scholar 等接口，自动遍历全球数据库，精准锁定最新临床试验数据与相关论文。
实时综合与去伪：模型利用进化评分机制（Evolving Rubrics）实时评估检索质量，自动合成跨文档的核心观点，并在几分钟内输出结构严谨、引用准确的初稿。
动态优化检索策略：在长程研究过程中，dr-tulu 能根据初步发现自动调整后续搜索方向，从“广泛撒网”智能过渡到“精准打击”，确保信息的高相关性。
专业级长文生成：基于强化学习训练的 dr-tulu-8B 展现出媲美顶级闭源模型的长文本处理能力，能够逻辑严密地梳理复杂病理机制与治疗前景，大幅降低人工复核成本。

dr-tulu 将原本需要数天的深度研究工作压缩至分钟级，让研究人员从繁琐的信息搬运工转变为真正的决策分析者。

运行环境要求

操作系统

Linux

GPU

必需
交互式演示需 1-2 张 GPU
评估需 2 张 GPU
示例使用 vLLM 运行 8B 模型，隐含需要支持 CUDA 的 NVIDIA GPU（显存建议 16GB+ 以容纳 8B 模型及长上下文）

内存

未说明

依赖

notes1. 必须配置外部 API 密钥：Serper (搜索), Semantic Scholar (S2), Jina (阅读)。 2. 评估流程需在单节点启动两个 vLLM 服务实例（分别加载 DR-Tulu-8B 和 Qwen3-8B）以及一个 MCP 后端服务。 3. 推荐使用 'uv' 进行包管理，并使用 conda 创建虚拟环境。 4. 项目包含代理库、RL 训练代码 (基于 Open-Instruct) 和 SFT 训练代码 (基于 LLaMA-Factory) 三个主要部分。

python3.10

vllm

dr-agent-lib

conda

快速开始

DR Tulu：基于动态评分标准的深度研究强化学习

论文 • 数据与模型 • 博客文章 • 视频• 交互式演示

DR Tulu-8B 是首个针对长篇幅深度研究任务训练的开源深度研究（DR）模型。在长篇幅深度研究基准测试中，DR Tulu-8B 的表现可与 OpenAI 的深度研究模型相媲美。

发布说明

2026年2月9日：🔥 我们发布了 DR Tulu-8B 的免费交互式演示！请访问 dr-tulu.org 体验！
2025年11月19日：首次代码发布。
2025年11月25日：我们发布了交互式 CLI 演示代码，并附带了关于评估、训练以及全新强化学习检查点的额外文档。

概述

本仓库包含三个主要组件：

agent/：代理库（dr-agent-lib），配备基于 MCP 的工具后端、高并发异步请求管理功能，以及用于开发和训练深度研究代理的灵活提示接口。该目录还包含用于基准测试深度研究代理的评估脚本。
rl/：基于 Open-Instruct 的强化学习训练代码，用于使用 GRPO 和动态评分标准训练深度研究代理。
sft/：基于 LLaMA-Factory 的监督微调训练代码，用于对深度研究代理进行监督微调。

有关详细的设置和使用说明，请参阅各子目录中的 README 文件。

快速入门：交互式体验 DR Tulu

使用我们的 CLI 演示，即可交互式地体验 DR Tulu！这需要 1–2 张 GPU 卡，设置过程只需几个步骤：

设置环境

cd agent/
conda create -n dr_agent python=3.10 -y && conda activate dr_agent
uv pip install -e .

配置 API 密钥（可从相应服务获取免费密钥）

export SERPER_API_KEY="your_key"  # https://serper.dev/
export S2_API_KEY="your_key"      # https://api.semanticscholar.org/
export JINA_API_KEY="your_key"    # https://jina.ai/reader/

启动交互式演示

uv run --extra vllm python scripts/launch_chat.py --model rl-research/DR-Tulu-8B

演示将自动启动所需服务（MCP 服务器和 vLLM），并开启一个交互式聊天界面。现在您可以提出研究问题，观看 DR Tulu 实时搜索并综合答案！

更多选项和高级用法，请参阅 agent/README.md。

运行评估

要在各类任务（HealthBench、Deep Research Bench、SimpleQA 等）上对 DR Tulu 进行基准测试，您需要：

在同一节点上启动所需服务器（需 2 张 GPU 卡）：

# 启动 VLLM 服务器
CUDA_VISIBLE_DEVICES=0 vllm serve rl-research/DR-Tulu-8B --dtype auto --port 30001 --max-model-len 40960
CUDA_VISIBLE_DEVICES=1 vllm serve Qwen/Qwen3-8B --dtype auto --port 30002 --max-model-len 40960

# 启动 MCP 服务器
python -m dr_agent.mcp_backend.main --port 8000

运行评估脚本以测试您感兴趣的基准：

cd agent/

# 示例：在所有基准上运行
for task in healthbench deep_research_bench research_qa genetic_diseases simpleqa 2wiki webwalker; do 
    python workflows/auto_search_sft.py \
        generate-dataset $task \
        --num-examples final_run \
        --max-concurrent 20 \
        --use-cache \
        --config workflows/auto_search_sft.yaml \
        --config-overrides "use_browse_agent=true,search_agent_max_tool_calls=10,browse_tool_name=jina" \
        --output eval_output/auto_search_sft/$task.jsonl
    
    python scripts/evaluate.py $task eval_output/auto_search_sft/$task.jsonl
done

注意：SQA-CS-V2 和 Deep Research Bench 需要额外的转换脚本来进行评估。详细说明请参阅 agent/evaluation/README.md。

完整的评估说明、基准描述及示例脚本，请参阅 agent/evaluation/README.md。

训练

监督微调（SFT）

使用高质量示范数据对深度研究代理进行监督微调：

cd sft/llama-factory/
# 详细说明请参阅 sft/llama-factory/README.md

有关完整的 SFT 训练设置和配置，请参阅 sft/llama-factory/README.md。

强化学习（RL）

使用 GRPO 和动态评分标准训练深度研究代理：

cd rl/open-instruct/
# 详细说明请参阅 rl/open-instruct/README.md

有关完整的 RL 训练设置，包括奖励模型训练和策略优化，请参阅 rl/open-instruct/README.md。

致谢

DR Tulu 由艾伦人工智能研究所（Ai2）提供。该项目的代码由华盛顿大学、卡内基梅隆大学和麻省理工学院的学生研究人员共同开发。

引用与联系

如果您觉得我们的工作有所帮助，请引用以下内容：

@article{shao2025dr,
  title={DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research},
  author={Shao, Rulin and Asai, Akari and Shen, Shannon Zejiang and Ivison, Hamish and Kishore, Varsha and Zhuo, Jingming and Zhao, Xinran and Park, Molly and Finlayson, Samuel G and Sontag, David and others},
  journal={arXiv preprint arXiv:2511.19399},
  year={2025}
}

如有任何问题，欢迎联系 Rulin Shao、Akari Asai、Shannon Shen 和 Hamish Ivison，或在 GitHub 上提交问题。

DR Tulu 快速上手指南

DR Tulu-8B 是首个开源的长文本深度研究（Deep Research）模型，基于强化学习与动态评估标准训练而成。本指南将帮助开发者快速在本地部署并体验其交互式研究能力。

环境准备

操作系统: Linux (推荐 Ubuntu 20.04+)
硬件要求:
- 交互式演示: 至少需要 1-2 张 NVIDIA GPU (显存建议 24GB+)
- 完整评测: 需要 2 张 NVIDIA GPU
软件依赖:
- Python 3.10
- Conda (用于环境管理)
- UV (用于快速包安装)
API 密钥: 需提前申请以下服务的免费 API Key：
- Serper (搜索服务)
- Semantic Scholar (学术搜索)
- Jina AI (网页内容读取)

安装步骤

克隆代码库并进入代理目录

git clone https://github.com/allenai/dr-tulu.git
cd dr-tulu/agent/

创建并激活 Conda 环境

conda create -n dr_agent python=3.10 -y && conda activate dr_agent

安装项目依赖
```
uv pip install -e .
```
提示: 如果国内下载速度慢，可配置 UV 使用国内镜像源： export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

配置 API 密钥 将申请的密钥导出为环境变量：

export SERPER_API_KEY="your_serper_key"
export S2_API_KEY="your_s2_key"
export JINA_API_KEY="your_jina_key"

基本使用

完成安装后，即可启动交互式命令行演示。该命令会自动拉起所需的 MCP 服务和 vLLM 推理后端。

启动交互式对话

uv run --extra vllm python scripts/launch_chat.py --model rl-research/DR-Tulu-8B

启动成功后，终端将进入聊天界面。您可以直接输入复杂的研究问题（例如：“请总结最近关于大语言模型在蛋白质折叠领域的应用进展”），DR Tulu 将实时执行搜索、阅读文献并合成最终答案。

注意: 首次运行时会自动下载 rl-research/DR-Tulu-8B 模型权重。若网络受限，建议提前通过 Hugging Face 镜像站下载模型至本地缓存目录。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent