ProactiveAgent

GitHub
559 45 较难 1 次阅读 2天前Apache-2.0语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

ProactiveAgent 是一款基于大语言模型的智能代理,旨在突破传统 AI“被动响应”的限制,实现真正的“主动服务”。它能够感知用户当前的操作环境与行为轨迹,预测用户潜在需求,并在用户未发出明确指令时,主动提供协助或建议下一步行动。

该工具主要解决了现有 AI 助手缺乏前瞻性的痛点。传统模型通常需等待用户提问才做出反应,而 ProactiveAgent 通过构建包含环境模拟、代理决策与奖励评估的完整闭环,让 AI 学会像人类助手一样“察言观色”,在编程、写作及日常生活场景中提前介入,提升交互效率。

ProactiveAgent 特别适合人工智能研究人员、开发者以及对智能体主动性感兴趣的技术探索者使用。项目不仅开源了训练好的模型,还完整提供了数据收集与生成流水线、自动评估框架以及用于微调的提示词策略。其独特的技术亮点在于引入了"Activity Watcher"来捕捉真实用户行为痕迹,并构建了一个由环境健身房(Environment Gym)、主动代理和奖励模型组成的动态训练体系,其中奖励模型在测试集上的 F1 分数高达 0.918,确保了主动建议的准确性与实用性。

使用场景

资深后端工程师李明正在赶工一个紧急的微服务重构项目,同时需要撰写技术文档并处理日常会议安排。

没有 ProactiveAgent 时

  • 被动响应导致中断:李明必须手动切换窗口查看代码报错或日历提醒,频繁的上下文切换打断了深度编程的心流状态。
  • 需求滞后发现:只有当测试失败或同事在群里催促时,他才发现缺少了某个依赖库的安装步骤或文档更新任务。
  • 琐事占用脑力:需要时刻分心监控 Activity Watcher 等工具记录的行为数据,人工判断下一步该做什么,增加了认知负荷。
  • 协作不同步:在专注于写代码时,容易忽略即时通讯软件中关于接口变更的重要通知,导致后续返工。

使用 ProactiveAgent 后

  • 主动预判与干预:ProactiveAgent 实时感知李明的编码行为和当前窗口环境,在他运行测试前就主动提示“检测到新分支,是否先执行数据库迁移脚本?”。
  • 前置任务推荐:基于历史行为模式,工具在李明打开编辑器瞬间就建议“根据昨晚的提交记录,今日需优先补充 API 文档”,无需等待他人提醒。
  • 无感流程自动化:ProactiveAgent 自动分析屏幕活动轨迹,静默整理会议纪要草稿并归类待办事项,让李明只需专注核心逻辑开发。
  • 动态情境适应:当检测到李明连续长时间查阅错误日志时,工具主动推送相关的 StackOverflow 解决方案或内部知识库链接,而非等待搜索指令。

ProactiveAgent 将传统的“指令 - 执行”模式转变为“感知 - 预判 - 行动”,让 AI 从被动助手进化为能懂你未言之意的主动合作伙伴。

运行环境要求

操作系统
  • Windows
  • macOS
GPU

未说明

内存

未说明

依赖
notes1. 项目主要支持 Windows 和 macOS,其中 Activity Watcher 的 Chrome 扩展在 Safari 下未经过测试。2. 必须安装 Activity Watcher 主程序以及对应的浏览器扩展(Chrome/Edge)或 VSCode 插件以收集用户活动轨迹。3. 运行前需配置 private.toml 文件,设置大模型的 API Key、Base URL 及模型名称。4. 建议使用 conda 创建名为 'activeagent' 的虚拟环境进行安装。
python3.10
requirements.txt 中定义的依赖包
Activity Watcher (主程序及浏览器/VSCode 插件)
ProactiveAgent hero image

快速开始

主动智能体

对话数量

概述数据发布使用方法引用论文模型

新闻

  • [2025/03/21]:主动智能体和奖励智能体的模型已发布!请在此处查看我们的模型:这里
  • [2025/01/22]:我们的论文已被ICLR 2025接收。

本项目(主动智能体)旨在构建一个完全主动的智能体,该智能体能够预测用户需求并主动提供帮助、提出行动建议,而无需用户明确请求。我们通过开发数据收集与生成流水线、构建自动评估器,并在生成的数据上训练智能体来实现这一目标。目前,我们提供了完整的数据收集与生成流水线、数据集及其对应的评估脚本,以及用于微调大型语言模型以实现主动智能体功能的提示词。

阅读中文版:README_zh.md 阅读日文版:README_ja.md

概述

✨以下是主动智能体整个流程的概览。



✨✨特点:

  • 环境感知:我们提供脚本,通过Activity Watcher收集环境场景和用户活动,并基于模型自动推荐任务。
  • 协助标注:我们提供一个平台,用于标注主动智能体生成的响应,这是一种使结果与人工标注者保持一致的好方法。
  • 动态生成:我们提供一条动态的数据生成流水线,用户的反馈会影响后续事件。
  • 构建流水线:我们提供由环境Gym主动智能体奖励模型组成的生成流水线,其中我们的奖励模型在测试集上的F1分数达到0.918

此外,还提供了一个演示,以展示我们智能体的性能。

https://github.com/user-attachments/assets/81e56660-727f-4ba8-b26c-d28b580a8b0a

未来,我们将不断改进数据质量,并扩大真实场景的覆盖范围。

数据

👐目前,主动智能体仅适用于编码、写作和日常生活场景,不应被视为反映本数据集创建者、所有者或贡献者的观点或立场。本数据集采用Apache License 2.0协议发布。以下是数据统计:

场景 编码 写作 日常生活 总计
实例数 46 46 44 136
事件数 2275 2354 2161 6790

主动智能体的所有训练实例均来自我们的GYM。我们利用Activity Watcher收集跨场景的人类行为轨迹,并标注了一个测试集以验证主动智能体的有效性。有关数据收集和标注的更多详细信息,请参阅dataset/README.md

📦 安装

克隆此仓库并进入主动需求感知智能体文件夹

git clone git@github.com:thunlp/ProactiveAgent
cd ProactiveAgent

安装软件包

conda create -n activeagent python=3.10
conda activate activeagent
pip install -r requirements.txt

安装Activity Watcher

  • 您可以前往官方网站,根据您的操作系统下载主应用程序。
  • 针对Chrome浏览器的扩展程序位于./agent/resource/aw-watcher-web.zip。要下载此扩展程序,您需要先下载文件并解压缩。
    • 对于Edge用户,请访问edge://extensions/页面,开启开发者模式,并点击“加载已解压的扩展程序”来加载扩展。
    • 对于Google Chrome用户,请访问chrome://extensions/页面,开启开发者模式,选择“加载已解压的扩展程序”来加载解压后的扩展。
    • 此扩展尚未在Safari浏览器上进行测试。
  • 对于VS Code用户,有一个官方扩展程序,您可以从市场下载,或者在VS Code的扩展中搜索“aw-watcher-vscode”并安装。

为检查安装是否完成,请打开浏览器并访问http://localhost:5600/#/timeline,查看窗口中是否显示四条轨迹(afk、vscode、window、web)。

🚀 使用方法

配置

您首先需要配置private.toml文件。示例文件位于example_config.toml

cp example_config.toml private.toml

您应将default_completions_modelapi_keybase_url更改为您的个人设置。

运行主动智能体

要体验我们的主动智能体,您需要首先进入./agent文件夹,然后按照此处的说明操作。

连接奖励模型

为了提升主动智能体的使用体验,您可以使用我们内置的奖励模型来过滤主动智能体的消息。 以下是将奖励模型与主动智能体连接的步骤。 待更新

与主动智能体互动

我们的智能体会尝试通过在屏幕上弹出通知的方式提出建议。与主动智能体互动时,您可以选择:

  • 接受建议:您可点击通知正文(Windows)或按钮(macOS),告知智能体您接受其建议,智能体会相应执行相关操作。
  • 拒绝建议:您可点击关闭按钮(通知右上角的“x”),告知智能体您拒绝该建议,智能体会尝试以其他方式提出下一次建议。
  • 忽略建议:您什么都不做,智能体会根据时间间隔移除通知。不采取任何行动会让智能体知道您正忙且忽略了该建议,智能体将在接下来的轮次中减少建议次数。

📊 模型结果

为自动评估主动智能体的性能,我们基于标注数据构建了一个奖励模型,用以判断主动智能体的表现。 我们的奖励模型在测试集上的F1分数达到0.918,这是衡量主动智能体性能的一个良好指标。

奖励模型实验结果

我们在测试集上测试了奖励模型与人类标注者之间的一致性:

  • 遗漏需求(MN):用户需要帮助但智能体未提供帮助的情况。
  • 无响应(NR):用户不需要帮助且智能体未主动提供任何帮助的情况。
  • 正确检测(CD):用户需要帮助且智能体提供了帮助的情况。
  • 误报(FA):用户不需要帮助但智能体主动提供了帮助的情况。

我们将奖励模型的判断与人类标注者的判断进行了对比。 我们还比较了不同大语言模型以及我们的模型在测试集上的表现。结果如下:

GPT-4o GPT-4o-mini LLaMa 3.1 8b LLaMa 3.1 70b ours
遗漏需求 (MN) 0.0333 0.5667 0.8000 0.3333 0.8000
无响应 (NR) 1.0000 0.5667 0.3000 0.8333 0.8667
正确检测 (CD) 1.0000 0.8667 0.9667 1.0000 1.0000
误报 (FA) 0.0000 0.3333 0.1333 0.0667 1.0000
准确率 0.5083 0.5833 0.5500 0.5583 0.9167
精确率 0.5042 0.5658 0.5429 0.5340 0.9032
召回率 1.0000 0.7167 0.6333 0.9167 0.9333
F1分数 0.6704 0.6324 0.5846 0.6748 0.9180

主动智能体实验结果

在当前实验中,我们使用我们的奖励模型评估了主动智能体的性能。 我们定义了以下指标:

  • 真正例(TP):主动智能体正确预测了一项任务,而奖励模型随后接受了该任务的实例。
  • 假正例(FP):主动智能体预测了一项任务,但奖励模型并未接受。
  • 真负例(TN):主动智能体正确地没有预测任何任务,而奖励模型也未接受任何任务的实例。
  • 假负例(FN):主动智能体未能预测一项任务,而如果提出该任务,奖励模型本会接受。

我们在ProactiveBench的测试集上报告了主动智能体的性能。

模型 召回率 精确率 准确率 误报率 F1分数
GPT-4o-mini 100.00% 35.28% 36.12% 64.73% 52.15%
GPT-4o 98.11% 48.15% 49.78% 51.85% 64.60%
Claude-3.5-Sonnet 97.89% 45.37% 49.78% 54.63% 62.00%
LLaMA-3.1-8B 98.86% 38.16% 39.06% 61.84% 55.06%
LLaMA-3.1-8B-Proactive 99.06% 49.76% 52.86% 50.24% 66.25%
Qwen2-7B 98.02% 44.00% 43.61% 56.00% 60.74%
Qwen2-7B-Proactive 100.00% 49.78% 50.66% 50.22% 66.47%

引用

如果您在研究中使用了本项目,请考虑引用:

@misc{2024,
  author = {THUNLP},
  title = {ProactiveAgent},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {\url{https://github.com/thunlp/ProactiveAgent}}
}

友情链接

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架