blurr

902 129 较难 1 次阅读今天NOASSERTION插件Agent音频

AI 解读由 AI 自动生成，仅供参考

Blurr（项目代号 Panda）是一款运行在 Android 设备上的本地 AI 智能助手，旨在像真人一样理解并操作你的手机界面。它能通过自然语言指令，自主完成跨应用的多步骤复杂任务，例如自动浏览联系人、发送消息或执行特定工作流，从而将用户从重复性的屏幕操作中解放出来。

这款工具主要解决了移动端自动化门槛高、传统脚本缺乏灵活性的痛点。不同于需要编写代码的自动化工具，Blurr 利用大语言模型的推理能力“看懂”屏幕内容并规划行动路径，真正实现了“动口不动手”的智能交互体验。

Blurr 非常适合希望提升手机使用效率的普通用户，同时也为开发者提供了研究多智能体架构与移动端 UI 自动化的开源范本。其核心技术亮点在于完全基于 Kotlin 构建的多智能体系统：利用 Android 无障碍服务作为“眼睛和手”来感知屏幕层级并执行触控操作，同时接入强大的 LLM 作为“大脑”进行决策规划。此外，它还集成了高质量的语音交互功能。目前项目处于积极开发阶段，致力于让现代科技变得更加触手可及。

使用场景

一位自由职业者需要在每天早晨快速处理来自微信、邮件和领英的多平台客户沟通，同时记录关键待办事项到本地笔记应用中。

没有 blurr 时

操作繁琐重复：用户必须手动解锁手机，依次打开微信、邮箱和领英 App，逐个查找新消息并回复，耗时且容易遗漏。
跨应用断点严重：在复制客户需求从聊天软件跳转到笔记应用时，需要频繁切换上下文，打断工作流，降低专注度。
无法语音驱动复杂流程：虽然手机有语音助手，但只能执行简单指令（如“打电话”），无法理解“把刚才微信里张总的需求记下来并回复确认”这类多步骤自然语言命令。
夜间或忙碌时响应滞后：当用户正在开会或驾驶时，无法及时通过语音让手机自动完成筛选和初步回复，导致客户等待时间过长。

使用 blurr 后

一键语音托管全流程：用户只需对手机说“帮我检查所有新消息，回复紧急客户并把需求记到笔记里”，blurr 即可自主唤醒并遍历各个应用完成操作。
智能识别与无缝衔接：blurr 利用视觉能力“看懂”屏幕上的聊天内容，自动提取关键信息，无需人工复制粘贴，直接写入笔记应用，实现跨应用无感流转。
深度理解自然语言意图：基于大模型的大脑，blurr 能精准拆解复杂指令，自主规划点击、滑动和输入路径，像真人一样操作 UI 界面。
全天候主动待命：无论用户是否在操作手机，blurr 都能作为后台代理随时响应语音指令，确保在驾驶或会议中也能即时处理业务线索。

blurr 将安卓手机从被动工具升级为能听懂人话、主动干活的私人数字员工，彻底释放用户在多任务处理中的双手与脑力。

运行环境要求

操作系统

未说明 (基于 Android 应用，需在 Android 设备或模拟器上运行)

GPU

未说明

内存

未说明

依赖

notes该项目是一个原生的 Android 应用，而非传统的 Python AI 模型库。开发环境需要最新版的 Android Studio 和 API 级别 26+ 的 Android 设备或模拟器。运行时必须授予‘无障碍服务 (Accessibility Service)'权限以控制屏幕。后端依赖大语言模型 (LLM)，需配置 Google Gemini API 密钥或兼容的代理服务器地址。项目主要使用 Kotlin 编写。

python未说明

Kotlin 1.9.22

Android Accessibility Service

Gradle

快速开始

🐼 熊猫：您的私人AI电话接线员

您在玩手机，我在帮您操作。

演示：

解释熊猫的所有触发条件

向LinkedIn上的所有新联系人发送欢迎消息

5个任务演示：

https://github.com/user-attachments/assets/cf76bb00-2bf4-4274-acad-d9f4c0d47188

熊猫是一款适用于Android的主动式设备端AI智能体，能够自主理解自然语言指令，并操作手机UI来完成这些指令。受让现代技术更易用的需求启发，熊猫充当您的私人接线员，能够在不同应用中处理复杂、多步骤的任务。

核心功能

🧠 智能UI自动化: 熊猫能够“看到”屏幕，理解UI元素的上下文，并执行点击、滑动、输入等操作，以导航应用并完成任务。
📢 高质量语音: 熊猫采用GCS的Chirp引擎，提供高质量语音。
💾 持久且个性化的本地记忆: ⚠️ 暂时禁用 - 目前熊猫的记忆功能已被关闭。该功能将在未来的更新中恢复。

架构概述

熊猫基于一套复杂的多智能体系统构建，完全使用Kotlin编写。这种架构将不同职责分离，从而实现更复杂、更可靠的推理能力。

眼睛与双手（执行器）: Android无障碍服务作为智能体与设备之间的物理连接，提供读取屏幕元素层级结构以及以编程方式执行触摸手势的底层能力。
大脑（LLM）: 所有高层级的推理、规划和分析均由LLM模型驱动。决策在此处做出。
智能体:
- 操作员: 这是一个带有记事本的执行者。

🚀 开始使用

前提条件

Android Studio（建议使用最新版本）
具备API级别26及以上版本的Android设备或模拟器
一些Gemini API密钥，示例ENV

# 这些密钥的名字并不意味着您需要谷歌云，您可以使用任何能接受请求的服务器。未来我将通过兼容OpenAPI来提升开发者体验。
GCLOUD_PROXY_URL=<任何可接受如下响应格式的后端URL>
GCLOUD_PROXY_URL_KEY=<您想设置的任意密码，或留空>

payload

{
  "modelName": "model-name",
  "messages": [
    {
      "role": "user",
      "parts": [
        {
          "text": "你好，你能做什么？"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "我可以帮助您完成各种任务。今天您需要什么帮助呢？"
        }
      ]
    }
  ]
}

或者

//您也可以添加Gemini密钥进行尝试

GEMINI_API_KEYS=

安装步骤

克隆仓库:

git clone [https://github.com/ayush0chaudhary/blurr.git](https://github.com/ayush0chaudhary/blurr.git)
cd blurr

构建并运行:
- 在Android Studio中打开项目。
- 让Gradle同步所有依赖项。
- 在您选择的设备或模拟器上运行应用。
启用无障碍服务:
- 首次运行时，应用会提示您授予无障碍权限。
- 点击“授予访问权限”，并在手机设置中启用“熊猫”服务。这是智能体查看和控制屏幕所必需的。

🗺️ 熊猫的下一步计划（路线图）

目前，熊猫还只是一个功能强大的概念验证，其路线图旨在将其打造为真正不可或缺的助手。

未更新: 列表尚未更新

🤝 贡献

我们欢迎任何形式的贡献！如果您对新功能或改进有任何想法，请随时提交问题或拉取请求。

📜 许可证

本项目采用个人使用许可——详情请参阅LICENSE文件。

个人及教育用途: 可免费用于个人、教育及非商业目的的使用、修改和分发。

商业用途: 需单独申请商业许可。如需商业授权条款，请联系Panda AI。

一段小视频，帮助您了解该项目的内容。

https://github.com/user-attachments/assets/b577072e-2f7f-42d2-9054-3a11160cf87d

请将您的API密钥写入local.properties文件中，使用的密钥越多，速度越快😉

实时查看日志

adb logcat | grep GeminiApi

星标历史

Blurr (Panda) 快速上手指南

Blurr (代号 Panda) 是一个基于 Android 的本机 AI 智能体，能够理解自然语言指令并自主操作手机 UI（点击、滑动、输入），从而完成跨应用的复杂任务。本项目完全使用 Kotlin 编写。

环境准备

在开始之前，请确保满足以下系统和依赖要求：

开发工具: Android Studio (推荐最新版本)
运行设备: Android 真机或模拟器，系统 API 级别需为 26+ (Android 8.0+)
API 密钥: 需要配置大模型 API 密钥。
- 方案 A (推荐): 使用兼容 Google Gemini 格式的任意后端服务。
- 方案 B: 直接使用 Google Gemini API Keys。
网络环境: 由于项目依赖外部 LLM 服务，国内开发者可能需要配置网络代理以确保连接稳定。

安装步骤

1. 克隆项目

打开终端，执行以下命令获取源代码：

git clone https://github.com/ayush0chaudhary/blurr.git
cd blurr

2. 配置 API 密钥

在项目根目录下找到或创建 local.properties 文件，填入你的 API 配置。你可以选择以下任一方式：

方式一：配置自定义后端 (兼容 Gemini 格式)

GCLOUD_PROXY_URL=<你的后端服务地址>
GCLOUD_PROXY_URL_KEY=<可选的密码，留空即可>

注意：后端需接收如下 JSON Payload 格式的请求：

{
  "modelName": "model-name",
  "messages": [
    { "role": "user", "parts": [{ "text": "Hello" }] },
    { "role": "model", "parts": [{ "text": "Hi" }] }
  ]
}

方式二：直接配置 Gemini Keys (可填多个以提升速度)

GEMINI_API_KEYS=你的_gemini_api_key_1,你的_gemini_api_key_2

3. 构建与运行

使用 Android Studio 打开项目文件夹。
等待 Gradle 自动同步所有依赖。
连接你的 Android 设备或启动模拟器。
点击 Run 按钮编译并安装应用。

基本使用

应用安装完成后，请按以下步骤激活智能体：

授权无障碍服务:
- 首次启动 App 时，会弹出请求“无障碍权限” (Accessibility Permission) 的提示。
- 点击 "Grant Access" (授予访问权限)。
- 在系统设置页面中，找到 "Panda" 服务并开启开关。
- 原理：这是 AI 能够“看见”屏幕内容并模拟手指操作（点击、滑动）的必要权限。
开始交互:
- 返回 App 界面，通过语音或文本输入自然语言指令。
- 示例指令: “打开微信，给最近联系人发送一条消息说你好”。
- Panda 将自动分析屏幕上下文，规划步骤并执行操作。
实时调试 (可选): 如果你需要查看底层日志以排查问题，可在终端运行：
```
adb logcat | grep GeminiApi
```

提示: 目前记忆功能 (Persistent Memory) 暂时禁用，将在未来版本恢复。项目仅供个人学习和非商业用途使用。

常见问题

应用内内容过滤代理误伤了应用自身的界面，如何解决？

购买专业版后提示“开发者尚未确认您的购买”，该怎么办？

如何实现基于邮箱和 OTP（一次性密码）的用户登录功能？

应用报错且扣除了积分，或者响应缓慢，是什么原因？

如何让 AI 代理在执行任务时知晓用户名和当前时间？

如何在任务完成时向用户展示文件列表或结果报告？

什么是“向上语义聚合（Upward Semantic Aggregation）”算法，它解决了什么问题？

AI 代理无法完成多步骤的应用管理任务（如卸载后重新安装应用），怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像