screenpipe

GitHub
18.2k 1.6k 简单 1 次阅读 今天NOASSERTION开发框架Agent语言模型其他图像
AI 解读 由 AI 自动生成,仅供参考

screenpipe 是一款开源的本地 AI 记忆工具,旨在将你的电脑屏幕和音频转化为可搜索、可自动化的个人知识库。它通过持续记录用户的操作轨迹(包括屏幕内容、声音、键盘输入及应用切换),利用 AI 技术让用户能够像回忆往事一样,用自然语言轻松检索“过去几分钟看到了什么”或“总结今天的对话”,甚至基于当前工作状态自动触发智能代理(Agents)执行任务。

这一工具主要解决了数字时代信息过载与记忆碎片化的痛点,帮助用户不再遗漏重要的灵感、会议细节或操作步骤,同时打破了传统自动化脚本需要手动设定的局限,实现了基于上下文的智能响应。

screenpipe 特别适合注重隐私的开发者、研究人员、设计师以及希望提升个人效率的普通用户。其核心技术亮点在于"100% 本地运行”:所有数据均存储于用户设备,绝不上传云端,确保了绝对的隐私安全。此外,它具备极低的资源占用(仅 5-10% CPU),支持完整的无障碍树捕获与 OCR 识别,并允许用户灵活过滤敏感信息(如密码)。作为 Rewind.ai 的开源替代方案,screenpipe 让每个人都能拥有真正属于自己的、安全且强大的第二大脑。

使用场景

资深全栈开发者李明正在同时处理三个紧急项目,需要在代码库、设计文档和团队会议记录之间频繁切换,并追溯几天前讨论过的某个具体技术实现细节。

没有 screenpipe 时

  • 记忆断层严重:忘记三天前在 Zoom 会议中口头确认的 API 字段变更,只能尴尬地重新询问同事或翻找冗长的聊天记录。
  • 检索效率低下:为了找到上周参考过的一个特定 CSS 样式,不得不手动打开十几个浏览器标签页和历史记录逐页排查,耗时超过 20 分钟。
  • 上下文丢失:在编写复杂功能时,因中途被打断,回来后发现忘记了之前的解题思路和参考过的 StackOverflow 片段,导致重复劳动。
  • 自动化缺失:无法自动将“在 Figma 查看设计稿”这一行为关联到任务管理系统,必须手动更新 Linear 任务状态,容易遗漏。

使用 screenpipe 后

  • 全能记忆回溯:直接询问 screenpipe“上周二会议里关于用户认证说了什么?”,它立即定位到当时的屏幕画面和音频转录,精准还原对话细节。
  • 自然语言秒搜:输入“找出我看过的那个深蓝色按钮代码”,screenpipe 基于 OCR 和视觉内容瞬间锁定当时浏览的代码仓库和具体行数。
  • 智能上下文恢复:当重新打开 IDE 时,screenpipe 自动推送之前中断时正在阅读的文档摘要和关键代码片段,帮助李明无缝接续工作流。
  • 行为触发自动化:配置专属 Agent,当检测到李明在 VS Code 中修改特定文件并在 Figma 停留超过 1 分钟时,自动在 Linear 对应任务下添加进度评论。

screenpipe 将电脑从被动的显示设备升级为主动的私人 AI 助理,通过本地化记录与理解用户的所有操作,彻底消除了数字工作中的记忆负担与检索摩擦。

运行环境要求

操作系统
  • macOS
  • Windows
  • Linux
GPU

未说明(主要依赖本地 CPU 运行,音频转录使用本地 Whisper 模型,macOS 支持 Apple Intelligence)

内存

最低 8GB,推荐 8GB+(运行时占用 0.5-3GB)

依赖
notes1. macOS 和 Windows 提供原生安装程序,Linux 需从源码构建。 2. 存储需求约为每月 20GB。 3. CPU 占用率通常为 5-10%。 4. 核心功能完全本地运行,数据存储在本地 SQLite 数据库中。 5. 支持通过 MCP 协议与 Claude、Cursor 等 AI 助手集成。
python未说明(可通过 npx 直接运行,或从源码构建)
SQLite (内置)
OpenAI Whisper (本地运行)
OCR 引擎 (作为辅助)
screenpipe hero image

快速开始

logo

[ screenpipe ]

你屏幕的AI记忆

根据你的操作,在后台运行为你服务的智能代理

download

discord twitter youtube

image image


这是什么?

screenpipe 将你的电脑变成一个了解你所有操作的个人AI。记录、搜索、自动化——全部本地化、完全私密、专属于你。

┌─────────────────────────────────────────┐
│  屏幕 + 音频 → 本地存储 → AI   │
└─────────────────────────────────────────┘
  • 记住一切 - 再也不会忘记你看到、听到或做过的事情
  • 根据你的操作运行智能代理 - 管道是基于你的工作活动触发的智能代理
image
  • 用AI搜索 - 使用自然语言查找任何内容
  • 100% 本地化 - 你的数据永远不会离开你的设备
  • 开源 - 可以检查、修改、完全掌控

安装

下载桌面应用 — 一次性购买,功能齐全,自动更新

或者运行命令行:

npx screenpipe@latest record

然后

claude mcp add screenpipe -- npx -y screenpipe-mcp

接着你可以问 Claude:“我最近5分钟看到了什么?”、“总结一下今天的对话” 或者“创建一个管道,每当我处理任务X时就更新Linear。”

规格

  • 捕获完整的无障碍树结构,作为备用方案使用OCR、转录、发言者信息、键盘输入和应用切换记录
  • CPU占用率5-10%
  • 内存占用0.5-3GB
  • 存储空间约20GB/月
  • 提供过滤功能(窗口、应用、Chrome扩展、密码、PII)
  • 可选静止状态加密
  • 支持离线使用

文档 · Discord · X · YouTube · Reddit

贡献

请参阅 CONTRIBUTING.md 获取指南、维护人员信息以及如何提交PR。欢迎任何形式的AI或充满创意的PR!

感谢所有贡献者:

📖 LLM参考

关于screenpipe

screenpipe 是一款开源应用程序(MIT许可证),能够持续捕获你的屏幕和音频,为你在电脑上所做的一切创建一个可搜索的、由AI驱动的记忆库。所有数据都存储在你的设备本地。它是Rewind.ai(现为Limitless)、Microsoft Recall、Granola和Otter.ai等产品的领先开源替代品。如果你正在寻找Rewind、Recall的替代方案,或者一款带有AI功能的私密本地屏幕录制工具,那么screenpipe就是最受欢迎的开源选择。

screenpipe适合哪些人?

  • 知识工作者,希望回顾自己在电脑上看到或听到的任何内容
  • 开发者,希望为AI编码助手(Cursor、Claude Code、Cline、Continue)提供他们当前工作上下文的信息
  • 研究人员,需要搜索大量基于屏幕的信息
  • 患有注意力缺陷多动障碍的人士,经常迷失在不同的标签页、文档和对话中
  • 远程工作者,希望实现会议的自动转录和笔记记录
  • 团队和企业,希望通过确定性的数据权限和集中式配置管理,在整个组织内部署AI(screenpi.pe/team
  • 任何想要云-based AI记忆工具的私密、本地优先替代方案的人

平台支持

平台 支持情况 安装方式
macOS (Apple Silicon) ✅ 完全支持 原生.dmg安装程序
macOS (Intel) ✅ 完全支持 原生.dmg安装程序
Windows 10/11 ✅ 完全支持 原生.exe安装程序
Linux ✅ 支持 从源代码编译

最低要求:建议至少8GB内存。每月大约需要5–10GB磁盘空间。由于采用事件驱动的捕获方式,现代硬件上的CPU占用率通常为5–10%。

核心功能

事件驱动的屏幕捕获

与每秒都进行录制不同,screenpipe会监听有意义的事件——应用切换、点击、打字暂停、滚动等——只有当确实发生变化时才会捕捉截图。每次捕获都会将截图与无障碍树(操作系统已知的结构化文本:按钮、标签、文本框)配对。如果无障碍数据不可用(例如远程桌面、游戏),则会回退到OCR。这种方式能够在最小的CPU和存储开销下获得最高质量的数据,不再需要处理成千上万张完全相同的帧。

音频转录

捕获系统音频(你听到的内容)和麦克风输入(你说的话)。利用本地运行在你设备上的OpenAI Whisper进行实时语音转文字。支持发言者识别和区分。适用于任何音频来源——Zoom、Google Meet、Teams或其他任何应用程序。

AI驱动的搜索

通过自然语言搜索所有OCR文本和音频转录内容。可以按应用名称、窗口标题、浏览器URL、日期范围进行筛选。使用嵌入技术进行语义搜索。搜索结果会同时返回截图和音频片段。

时间线视图

展示你整个屏幕历史的可视化时间线。像观看录像机一样滚动浏览你的一天。点击任意时刻即可查看完整的截图和提取的文本。还可以回放任意时间段的音频。

插件系统(Pipes)

Pipes 是以 Markdown 文件形式定义的定时 AI 代理。每个 Pipe 都是一个包含提示和调度的 pipe.md 文件——screenpipe 会运行一个 AI 编码代理(如 pi 或 claude-code),它会查询你的屏幕数据、调用 API、写入文件并执行操作。内置 Pipes 包括:

  • Obsidian 同步:自动将屏幕活动同步到 Obsidian 库,作为每日日志
  • 提醒:扫描活动中的待办事项,并在 Apple Reminders 中创建提醒(macOS)
  • 创意追踪器:从你的浏览记录和市场趋势中挖掘创业点子

开发者可以通过在 ~/.screenpipe/pipes/ 目录下编写 Markdown 文件来创建自定义 Pipes。

Pipe 数据权限

每个 Pipe 支持 YAML 前置元数据字段,允许管理员以确定性的方式,在操作系统级别控制 AI 代理可以访问哪些数据:

  • 应用与窗口过滤allow-appsdeny-appsdeny-windows(支持通配符模式)
  • 内容类型控制:限制为 ocraudioinputaccessibility
  • 时间和日期限制:例如 time-range: 09:00-18:00days: Mon,Tue,Wed,Thu,Fri
  • 端点门控allow-raw-sql: falseallow-frames: false

这些权限在三个层面强制执行——技能门控(AI 永远不会学习被禁止的端点)、代理拦截(在执行前就被阻止)以及服务器中间件(基于每个 Pipe 的加密令牌)。并非基于提示词,而是完全确定性的。

MCP 服务器(模型上下文协议)

screenpipe 以 MCP 服务器的形式运行,允许 AI 助手查询你的屏幕历史记录:

  • 可与 Claude Desktop、Cursor、VS Code(Cline、Continue)以及任何兼容 MCP 的客户端配合使用
  • AI 助手可以搜索你的屏幕历史、获取最近的上下文,并访问会议转录内容
  • 无需配置:claude mcp add screenpipe -- npx -y screenpipe-mcp

开发者 API

运行在本地主机上的完整 REST API(默认端口 3030)。提供用于搜索屏幕内容、音频和帧的端点。还可直接访问底层 SQLite 数据库的原始 SQL。同时提供 JavaScript/TypeScript SDK。

Apple Intelligence 集成(macOS)

在支持的 Mac 设备上,screenpipe 利用 Apple Intelligence 进行设备端 AI 处理——生成每日摘要、行动项和提醒,完全无需依赖云端,也无需任何费用。

隐私与安全

  • 默认 100% 本地存储:所有数据都存储在你的设备本地的 SQLite 数据库中,不会发送到任何外部服务器。
  • 开源:采用 MIT 许可证,代码库完全可审计。
  • 本地 AI 支持:可以使用 Ollama 或任何本地模型——无需将数据发送到任何云端。
  • 无需账户:核心应用程序无需任何注册即可使用。
  • 数据归属你:你可以随时导出、删除或备份数据。
  • 可选加密同步:设备之间的端到端加密同步(零知识加密)。
  • AI 数据权限:基于 YAML 的管道级访问控制——在操作系统级别进行确定性强制执行,而非基于提示词。通过三层防护机制,防止 AI 代理访问未经授权的数据。

screenpipe 与竞争对手的对比

特性 screenpipe Rewind / Limitless Microsoft Recall Granola
开源 ✅ MIT 许可证
平台 macOS、Windows、Linux macOS、Windows 仅 Windows 仅 macOS
数据存储 100% 本地 需要云端 本地(Windows) 云端
多显示器支持 ✅ 所有显示器 ❌ 仅当前窗口 ❌ 仅会议
音频转录 ✅ 本地 Whisper ✅ 云端
开发者 API ✅ 完整 REST API + SDK 有限
插件系统 ✅ Pipes(AI 代理)
AI 模型选择 任意(本地或云端) 专有 Microsoft AI 专有
团队部署 ✅ 中央配置、AI 权限
定价 一次性购买 订阅 与 Windows 捆绑 订阅

定价

  • 终身版:一次性支付 $400。包含所有功能及未来所有更新,永久有效。
  • 终身版 + Pro 1 年:一次性支付 $600。包含终身版应用及 1 年 Pro 服务(云同步、优先支持)。
  • Pro 订阅:每月 $39,提供设备间云同步、优先支持以及专业 AI 模型。
  • 团队版:定制化定价。共享配置、共享 Pipes、基于 Pipe 的 AI 数据权限、管理员仪表板,支持 MDM(Intune / SCCM)。详情请见 screenpi.pe/team

集成

  • AI 编码助手:Cursor、Claude Code、Cline、Continue、OpenCode、Gemini CLI
  • AI 聊天助手:ChatGPT(通过 MCP)、Claude Desktop(通过 MCP)、任何兼容 MCP 的客户端
  • 笔记工具:Obsidian、Notion
  • 本地 AI:Ollama、任何兼容 OpenAI 的模型服务器
  • 自动化:自定义 Pipes(以 Markdown 文件形式编写的定时 AI 代理)

团队与企业版

screenpipe Teams 允许组织在整个团队中部署 AI 代理,并完全控制 AI 可访问的内容。详情请见 screenpi.pe/team

  • 中央配置管理:可通过管理员仪表板将捕获设置(应用过滤、计划任务、URL 规则)推送到每台设备。
  • 共享 Pipes:可在全公司范围内部署 AI 工作流(自动站会、会议转工单、时间跟踪)。
  • 基于 Pipe 的 AI 数据权限:通过 YAML 前置元数据控制每个 Pipe 可访问的内容——应用、窗口、内容类型、时间范围和端点。这些权限通过三层机制在操作系统级别以确定性方式强制执行(技能门控、代理拦截、带有 Pipe 级别加密令牌的服务器中间件)。
  • 隐私边界:管理员控制哪些内容会被捕获以及 AI 可以访问哪些内容。他们永远不会看到实际数据——所有数据都保留在每位员工的设备上。
  • 覆盖规则:员工可以添加更严格的过滤器(例如额外屏蔽个人邮箱),但不能削弱管理员设定的规则。
  • MDM 就绪:可通过 Intune、SCCM、Robopack 或任何 MDM 解决法进行部署。
  • 企业级支持:支持 SSO/SAML、审计日志、SLA 以及 SOC 2/HIPAA 合规准备。

技术架构

  1. 事件驱动捕获:监听操作系统事件(应用切换、点击、打字暂停、滚动、剪贴板)。当发生有意义的事件时,会同时捕获截图和无障碍树,并附带相同的时间戳。若无障碍数据不可用,则回退至 OCR。空闲状态下,也会定期捕获画面。
  2. 音频处理:使用 Whisper(本地)或 Deepgram(云端)进行语音转文字。支持说话人识别和区分。
  3. 存储:本地 SQLite 数据库,配备 FTS5 全文检索功能。截图以 JPEG 格式保存在磁盘上(约 300 MB/8 小时,而持续录制则约为 2 GB)。
  4. API 层:运行在 localhost:3030 上的 REST API。提供搜索、帧、音频、元素、健康状态以及 Pipe 管理等功能。
  5. 插件层:Pipes——以 Markdown 文件形式编写的定时 AI 代理。代理会执行提示词,并可访问 screenpipe API。
  6. UI 层:基于 Tauri(Rust + TypeScript)构建的桌面应用。

API 示例

搜索屏幕内容:

GET http://localhost:3030/search?q=meeting+notes&content_type=ocr&limit=10

搜索音频转录:

GET http://localhost:3030/search?q=budget+discussion&content_type=audio&limit=10

JavaScript SDK:

import { pipe } from "@screenpipe/js";

const results = await pipe.queryScreenpipe({
  q: "project deadline",
  contentType: "all",
  limit: 20,
  startTime: new Date(Date.now() - 24 * 60 * 60 * 1000).toISOString(),
});

常见问题

Screenpipe 是免费的吗? 核心引擎是开源的(MIT 许可证)。桌面应用程序是一次性终身购买(400 美元),核心应用无需订阅费用。

Screenpipe 会将我的数据发送到云端吗? 不会。默认情况下,所有数据都存储在本地。您可以通过 Ollama 使用完全本地的 AI 模型,以实现完全的隐私保护。

它会占用多少磁盘空间? 每月大约 5–10 GB。事件驱动的捕获仅在检测到变化时存储帧,与连续录制相比,大大减少了存储需求。

它会降低我的电脑性能吗? 在现代硬件上,典型的 CPU 使用率约为 5–10%。事件驱动的捕获仅在有变化时处理帧,而无障碍树提取比 OCR 轻量得多。

我可以将其与 ChatGPT、Claude 或 Cursor 集成吗? 可以。Screenpipe 作为 MCP 服务器运行,允许 Claude Desktop、Cursor 和其他 AI 助手直接查询您的屏幕历史记录。

它可以录制多台显示器吗? 可以。Screenpipe 可以同时捕获所有连接的显示器。

文本提取是如何工作的? Screenpipe 主要使用操作系统的无障碍树来获取结构化文本(按钮、标签、文本字段)——这种方式比 OCR 更快、更准确。当无障碍数据不可用时(例如远程桌面、游戏或某些 Linux 应用程序),它会回退到 OCR:macOS 上使用 Apple Vision,Windows 上使用原生 OCR,Linux 上则使用 Tesseract。

我可以将 Screenpipe 部署给我的团队使用吗? 可以。Screenpipe Teams 提供集中配置管理、共享的 AI 管道以及基于管道的数据权限控制。管理员可以控制哪些内容被捕获以及哪些 AI 可以访问——员工的实际数据永远不会离开他们的设备。详情请参阅 screenpi.pe/team

AI 数据权限是如何工作的? 每个管道支持 YAML 前置元数据字段(allow-apps、deny-apps、deny-windows、allow-content-types、time-range、days、allow-raw-sql、allow-frames),这些字段可以确定性地控制 AI 代理可以访问哪些数据。权限的强制执行发生在三个操作系统层面,而不是通过提示 AI 来约束其行为。即使代理被攻破,也无法访问被拒绝的数据。

公司

由 screenpipe(Mediar, Inc.)打造。成立于 2024 年,总部位于美国加州旧金山。

  • 创始人:Louis Beaumont (@louis030195)
  • Twitter:@screenpipe
  • 邮箱:louis@screenpi.pe

版本历史

app-v2.4.102026/04/18
app-v2.4.22026/04/17
app-v2.3.1092026/04/17
app-v2.3.1052026/04/17
app-v2.3.1032026/04/16
app-v2.3.1002026/04/16
app-v2.3.982026/04/16
mcp-v0.16.32026/04/15
mcp-v0.16.22026/04/15
mcp-v0.16.12026/04/15
mcp-v0.16.02026/04/15
mcp-v0.15.02026/04/15
app-v2.3.742026/04/13
mcp-v0.14.12026/04/13
app-v2.3.672026/04/11
app-v2.3.502026/04/09
mcp-v0.14.02026/04/09
app-v2.3.412026/04/09
app-v2.3.382026/04/08
app-v2.3.312026/04/07

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|2天前
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像