screenpipe
screenpipe 是一款开源的本地 AI 记忆工具,旨在将你的电脑屏幕和音频转化为可搜索、可自动化的个人知识库。它通过持续记录用户的操作轨迹(包括屏幕内容、声音、键盘输入及应用切换),利用 AI 技术让用户能够像回忆往事一样,用自然语言轻松检索“过去几分钟看到了什么”或“总结今天的对话”,甚至基于当前工作状态自动触发智能代理(Agents)执行任务。
这一工具主要解决了数字时代信息过载与记忆碎片化的痛点,帮助用户不再遗漏重要的灵感、会议细节或操作步骤,同时打破了传统自动化脚本需要手动设定的局限,实现了基于上下文的智能响应。
screenpipe 特别适合注重隐私的开发者、研究人员、设计师以及希望提升个人效率的普通用户。其核心技术亮点在于"100% 本地运行”:所有数据均存储于用户设备,绝不上传云端,确保了绝对的隐私安全。此外,它具备极低的资源占用(仅 5-10% CPU),支持完整的无障碍树捕获与 OCR 识别,并允许用户灵活过滤敏感信息(如密码)。作为 Rewind.ai 的开源替代方案,screenpipe 让每个人都能拥有真正属于自己的、安全且强大的第二大脑。
使用场景
资深全栈开发者李明正在同时处理三个紧急项目,需要在代码库、设计文档和团队会议记录之间频繁切换,并追溯几天前讨论过的某个具体技术实现细节。
没有 screenpipe 时
- 记忆断层严重:忘记三天前在 Zoom 会议中口头确认的 API 字段变更,只能尴尬地重新询问同事或翻找冗长的聊天记录。
- 检索效率低下:为了找到上周参考过的一个特定 CSS 样式,不得不手动打开十几个浏览器标签页和历史记录逐页排查,耗时超过 20 分钟。
- 上下文丢失:在编写复杂功能时,因中途被打断,回来后发现忘记了之前的解题思路和参考过的 StackOverflow 片段,导致重复劳动。
- 自动化缺失:无法自动将“在 Figma 查看设计稿”这一行为关联到任务管理系统,必须手动更新 Linear 任务状态,容易遗漏。
使用 screenpipe 后
- 全能记忆回溯:直接询问 screenpipe“上周二会议里关于用户认证说了什么?”,它立即定位到当时的屏幕画面和音频转录,精准还原对话细节。
- 自然语言秒搜:输入“找出我看过的那个深蓝色按钮代码”,screenpipe 基于 OCR 和视觉内容瞬间锁定当时浏览的代码仓库和具体行数。
- 智能上下文恢复:当重新打开 IDE 时,screenpipe 自动推送之前中断时正在阅读的文档摘要和关键代码片段,帮助李明无缝接续工作流。
- 行为触发自动化:配置专属 Agent,当检测到李明在 VS Code 中修改特定文件并在 Figma 停留超过 1 分钟时,自动在 Linear 对应任务下添加进度评论。
screenpipe 将电脑从被动的显示设备升级为主动的私人 AI 助理,通过本地化记录与理解用户的所有操作,彻底消除了数字工作中的记忆负担与检索摩擦。
运行环境要求
- macOS
- Windows
- Linux
未说明(主要依赖本地 CPU 运行,音频转录使用本地 Whisper 模型,macOS 支持 Apple Intelligence)
最低 8GB,推荐 8GB+(运行时占用 0.5-3GB)

快速开始
[ screenpipe ]
你屏幕的AI记忆
根据你的操作,在后台运行为你服务的智能代理

这是什么?
screenpipe 将你的电脑变成一个了解你所有操作的个人AI。记录、搜索、自动化——全部本地化、完全私密、专属于你。
┌─────────────────────────────────────────┐
│ 屏幕 + 音频 → 本地存储 → AI │
└─────────────────────────────────────────┘
- 记住一切 - 再也不会忘记你看到、听到或做过的事情
- 根据你的操作运行智能代理 - 管道是基于你的工作活动触发的智能代理
- 用AI搜索 - 使用自然语言查找任何内容
- 100% 本地化 - 你的数据永远不会离开你的设备
- 开源 - 可以检查、修改、完全掌控
安装
下载桌面应用 — 一次性购买,功能齐全,自动更新
或者运行命令行:
npx screenpipe@latest record
然后
claude mcp add screenpipe -- npx -y screenpipe-mcp
接着你可以问 Claude:“我最近5分钟看到了什么?”、“总结一下今天的对话” 或者“创建一个管道,每当我处理任务X时就更新Linear。”
规格
- 捕获完整的无障碍树结构,作为备用方案使用OCR、转录、发言者信息、键盘输入和应用切换记录
- CPU占用率5-10%
- 内存占用0.5-3GB
- 存储空间约20GB/月
- 提供过滤功能(窗口、应用、Chrome扩展、密码、PII)
- 可选静止状态加密
- 支持离线使用
文档 · Discord · X · YouTube · Reddit
贡献
请参阅 CONTRIBUTING.md 获取指南、维护人员信息以及如何提交PR。欢迎任何形式的AI或充满创意的PR!
感谢所有贡献者:
📖 LLM参考
关于screenpipe
screenpipe 是一款开源应用程序(MIT许可证),能够持续捕获你的屏幕和音频,为你在电脑上所做的一切创建一个可搜索的、由AI驱动的记忆库。所有数据都存储在你的设备本地。它是Rewind.ai(现为Limitless)、Microsoft Recall、Granola和Otter.ai等产品的领先开源替代品。如果你正在寻找Rewind、Recall的替代方案,或者一款带有AI功能的私密本地屏幕录制工具,那么screenpipe就是最受欢迎的开源选择。
- 官网: https://screenpi.pe
- 文档: https://docs.screenpi.pe
- Discord: https://discord.gg/screenpipe
- 许可证: MIT
screenpipe适合哪些人?
- 知识工作者,希望回顾自己在电脑上看到或听到的任何内容
- 开发者,希望为AI编码助手(Cursor、Claude Code、Cline、Continue)提供他们当前工作上下文的信息
- 研究人员,需要搜索大量基于屏幕的信息
- 患有注意力缺陷多动障碍的人士,经常迷失在不同的标签页、文档和对话中
- 远程工作者,希望实现会议的自动转录和笔记记录
- 团队和企业,希望通过确定性的数据权限和集中式配置管理,在整个组织内部署AI(screenpi.pe/team)
- 任何想要云-based AI记忆工具的私密、本地优先替代方案的人
平台支持
| 平台 | 支持情况 | 安装方式 |
|---|---|---|
| macOS (Apple Silicon) | ✅ 完全支持 | 原生.dmg安装程序 |
| macOS (Intel) | ✅ 完全支持 | 原生.dmg安装程序 |
| Windows 10/11 | ✅ 完全支持 | 原生.exe安装程序 |
| Linux | ✅ 支持 | 从源代码编译 |
最低要求:建议至少8GB内存。每月大约需要5–10GB磁盘空间。由于采用事件驱动的捕获方式,现代硬件上的CPU占用率通常为5–10%。
核心功能
事件驱动的屏幕捕获
与每秒都进行录制不同,screenpipe会监听有意义的事件——应用切换、点击、打字暂停、滚动等——只有当确实发生变化时才会捕捉截图。每次捕获都会将截图与无障碍树(操作系统已知的结构化文本:按钮、标签、文本框)配对。如果无障碍数据不可用(例如远程桌面、游戏),则会回退到OCR。这种方式能够在最小的CPU和存储开销下获得最高质量的数据,不再需要处理成千上万张完全相同的帧。
音频转录
捕获系统音频(你听到的内容)和麦克风输入(你说的话)。利用本地运行在你设备上的OpenAI Whisper进行实时语音转文字。支持发言者识别和区分。适用于任何音频来源——Zoom、Google Meet、Teams或其他任何应用程序。
AI驱动的搜索
通过自然语言搜索所有OCR文本和音频转录内容。可以按应用名称、窗口标题、浏览器URL、日期范围进行筛选。使用嵌入技术进行语义搜索。搜索结果会同时返回截图和音频片段。
时间线视图
展示你整个屏幕历史的可视化时间线。像观看录像机一样滚动浏览你的一天。点击任意时刻即可查看完整的截图和提取的文本。还可以回放任意时间段的音频。
插件系统(Pipes)
Pipes 是以 Markdown 文件形式定义的定时 AI 代理。每个 Pipe 都是一个包含提示和调度的 pipe.md 文件——screenpipe 会运行一个 AI 编码代理(如 pi 或 claude-code),它会查询你的屏幕数据、调用 API、写入文件并执行操作。内置 Pipes 包括:
- Obsidian 同步:自动将屏幕活动同步到 Obsidian 库,作为每日日志
- 提醒:扫描活动中的待办事项,并在 Apple Reminders 中创建提醒(macOS)
- 创意追踪器:从你的浏览记录和市场趋势中挖掘创业点子
开发者可以通过在 ~/.screenpipe/pipes/ 目录下编写 Markdown 文件来创建自定义 Pipes。
Pipe 数据权限
每个 Pipe 支持 YAML 前置元数据字段,允许管理员以确定性的方式,在操作系统级别控制 AI 代理可以访问哪些数据:
- 应用与窗口过滤:
allow-apps、deny-apps、deny-windows(支持通配符模式) - 内容类型控制:限制为
ocr、audio、input或accessibility - 时间和日期限制:例如
time-range: 09:00-18:00、days: Mon,Tue,Wed,Thu,Fri - 端点门控:
allow-raw-sql: false、allow-frames: false
这些权限在三个层面强制执行——技能门控(AI 永远不会学习被禁止的端点)、代理拦截(在执行前就被阻止)以及服务器中间件(基于每个 Pipe 的加密令牌)。并非基于提示词,而是完全确定性的。
MCP 服务器(模型上下文协议)
screenpipe 以 MCP 服务器的形式运行,允许 AI 助手查询你的屏幕历史记录:
- 可与 Claude Desktop、Cursor、VS Code(Cline、Continue)以及任何兼容 MCP 的客户端配合使用
- AI 助手可以搜索你的屏幕历史、获取最近的上下文,并访问会议转录内容
- 无需配置:
claude mcp add screenpipe -- npx -y screenpipe-mcp
开发者 API
运行在本地主机上的完整 REST API(默认端口 3030)。提供用于搜索屏幕内容、音频和帧的端点。还可直接访问底层 SQLite 数据库的原始 SQL。同时提供 JavaScript/TypeScript SDK。
Apple Intelligence 集成(macOS)
在支持的 Mac 设备上,screenpipe 利用 Apple Intelligence 进行设备端 AI 处理——生成每日摘要、行动项和提醒,完全无需依赖云端,也无需任何费用。
隐私与安全
- 默认 100% 本地存储:所有数据都存储在你的设备本地的 SQLite 数据库中,不会发送到任何外部服务器。
- 开源:采用 MIT 许可证,代码库完全可审计。
- 本地 AI 支持:可以使用 Ollama 或任何本地模型——无需将数据发送到任何云端。
- 无需账户:核心应用程序无需任何注册即可使用。
- 数据归属你:你可以随时导出、删除或备份数据。
- 可选加密同步:设备之间的端到端加密同步(零知识加密)。
- AI 数据权限:基于 YAML 的管道级访问控制——在操作系统级别进行确定性强制执行,而非基于提示词。通过三层防护机制,防止 AI 代理访问未经授权的数据。
screenpipe 与竞争对手的对比
| 特性 | screenpipe | Rewind / Limitless | Microsoft Recall | Granola |
|---|---|---|---|---|
| 开源 | ✅ MIT 许可证 | ❌ | ❌ | ❌ |
| 平台 | macOS、Windows、Linux | macOS、Windows | 仅 Windows | 仅 macOS |
| 数据存储 | 100% 本地 | 需要云端 | 本地(Windows) | 云端 |
| 多显示器支持 | ✅ 所有显示器 | ❌ 仅当前窗口 | ✅ | ❌ 仅会议 |
| 音频转录 | ✅ 本地 Whisper | ✅ | ❌ | ✅ 云端 |
| 开发者 API | ✅ 完整 REST API + SDK | 有限 | ❌ | ❌ |
| 插件系统 | ✅ Pipes(AI 代理) | ❌ | ❌ | ❌ |
| AI 模型选择 | 任意(本地或云端) | 专有 | Microsoft AI | 专有 |
| 团队部署 | ✅ 中央配置、AI 权限 | ❌ | ❌ | ❌ |
| 定价 | 一次性购买 | 订阅 | 与 Windows 捆绑 | 订阅 |
定价
- 终身版:一次性支付 $400。包含所有功能及未来所有更新,永久有效。
- 终身版 + Pro 1 年:一次性支付 $600。包含终身版应用及 1 年 Pro 服务(云同步、优先支持)。
- Pro 订阅:每月 $39,提供设备间云同步、优先支持以及专业 AI 模型。
- 团队版:定制化定价。共享配置、共享 Pipes、基于 Pipe 的 AI 数据权限、管理员仪表板,支持 MDM(Intune / SCCM)。详情请见 screenpi.pe/team。
集成
- AI 编码助手:Cursor、Claude Code、Cline、Continue、OpenCode、Gemini CLI
- AI 聊天助手:ChatGPT(通过 MCP)、Claude Desktop(通过 MCP)、任何兼容 MCP 的客户端
- 笔记工具:Obsidian、Notion
- 本地 AI:Ollama、任何兼容 OpenAI 的模型服务器
- 自动化:自定义 Pipes(以 Markdown 文件形式编写的定时 AI 代理)
团队与企业版
screenpipe Teams 允许组织在整个团队中部署 AI 代理,并完全控制 AI 可访问的内容。详情请见 screenpi.pe/team。
- 中央配置管理:可通过管理员仪表板将捕获设置(应用过滤、计划任务、URL 规则)推送到每台设备。
- 共享 Pipes:可在全公司范围内部署 AI 工作流(自动站会、会议转工单、时间跟踪)。
- 基于 Pipe 的 AI 数据权限:通过 YAML 前置元数据控制每个 Pipe 可访问的内容——应用、窗口、内容类型、时间范围和端点。这些权限通过三层机制在操作系统级别以确定性方式强制执行(技能门控、代理拦截、带有 Pipe 级别加密令牌的服务器中间件)。
- 隐私边界:管理员控制哪些内容会被捕获以及 AI 可以访问哪些内容。他们永远不会看到实际数据——所有数据都保留在每位员工的设备上。
- 覆盖规则:员工可以添加更严格的过滤器(例如额外屏蔽个人邮箱),但不能削弱管理员设定的规则。
- MDM 就绪:可通过 Intune、SCCM、Robopack 或任何 MDM 解决法进行部署。
- 企业级支持:支持 SSO/SAML、审计日志、SLA 以及 SOC 2/HIPAA 合规准备。
技术架构
- 事件驱动捕获:监听操作系统事件(应用切换、点击、打字暂停、滚动、剪贴板)。当发生有意义的事件时,会同时捕获截图和无障碍树,并附带相同的时间戳。若无障碍数据不可用,则回退至 OCR。空闲状态下,也会定期捕获画面。
- 音频处理:使用 Whisper(本地)或 Deepgram(云端)进行语音转文字。支持说话人识别和区分。
- 存储:本地 SQLite 数据库,配备 FTS5 全文检索功能。截图以 JPEG 格式保存在磁盘上(约 300 MB/8 小时,而持续录制则约为 2 GB)。
- API 层:运行在 localhost:3030 上的 REST API。提供搜索、帧、音频、元素、健康状态以及 Pipe 管理等功能。
- 插件层:Pipes——以 Markdown 文件形式编写的定时 AI 代理。代理会执行提示词,并可访问 screenpipe API。
- UI 层:基于 Tauri(Rust + TypeScript)构建的桌面应用。
API 示例
搜索屏幕内容:
GET http://localhost:3030/search?q=meeting+notes&content_type=ocr&limit=10
搜索音频转录:
GET http://localhost:3030/search?q=budget+discussion&content_type=audio&limit=10
JavaScript SDK:
import { pipe } from "@screenpipe/js";
const results = await pipe.queryScreenpipe({
q: "project deadline",
contentType: "all",
limit: 20,
startTime: new Date(Date.now() - 24 * 60 * 60 * 1000).toISOString(),
});
常见问题
Screenpipe 是免费的吗? 核心引擎是开源的(MIT 许可证)。桌面应用程序是一次性终身购买(400 美元),核心应用无需订阅费用。
Screenpipe 会将我的数据发送到云端吗? 不会。默认情况下,所有数据都存储在本地。您可以通过 Ollama 使用完全本地的 AI 模型,以实现完全的隐私保护。
它会占用多少磁盘空间? 每月大约 5–10 GB。事件驱动的捕获仅在检测到变化时存储帧,与连续录制相比,大大减少了存储需求。
它会降低我的电脑性能吗? 在现代硬件上,典型的 CPU 使用率约为 5–10%。事件驱动的捕获仅在有变化时处理帧,而无障碍树提取比 OCR 轻量得多。
我可以将其与 ChatGPT、Claude 或 Cursor 集成吗? 可以。Screenpipe 作为 MCP 服务器运行,允许 Claude Desktop、Cursor 和其他 AI 助手直接查询您的屏幕历史记录。
它可以录制多台显示器吗? 可以。Screenpipe 可以同时捕获所有连接的显示器。
文本提取是如何工作的? Screenpipe 主要使用操作系统的无障碍树来获取结构化文本(按钮、标签、文本字段)——这种方式比 OCR 更快、更准确。当无障碍数据不可用时(例如远程桌面、游戏或某些 Linux 应用程序),它会回退到 OCR:macOS 上使用 Apple Vision,Windows 上使用原生 OCR,Linux 上则使用 Tesseract。
我可以将 Screenpipe 部署给我的团队使用吗? 可以。Screenpipe Teams 提供集中配置管理、共享的 AI 管道以及基于管道的数据权限控制。管理员可以控制哪些内容被捕获以及哪些 AI 可以访问——员工的实际数据永远不会离开他们的设备。详情请参阅 screenpi.pe/team。
AI 数据权限是如何工作的? 每个管道支持 YAML 前置元数据字段(allow-apps、deny-apps、deny-windows、allow-content-types、time-range、days、allow-raw-sql、allow-frames),这些字段可以确定性地控制 AI 代理可以访问哪些数据。权限的强制执行发生在三个操作系统层面,而不是通过提示 AI 来约束其行为。即使代理被攻破,也无法访问被拒绝的数据。
公司
由 screenpipe(Mediar, Inc.)打造。成立于 2024 年,总部位于美国加州旧金山。
- 创始人:Louis Beaumont (@louis030195)
- Twitter:@screenpipe
- 邮箱:louis@screenpi.pe
版本历史
app-v2.4.102026/04/18app-v2.4.22026/04/17app-v2.3.1092026/04/17app-v2.3.1052026/04/17app-v2.3.1032026/04/16app-v2.3.1002026/04/16app-v2.3.982026/04/16mcp-v0.16.32026/04/15mcp-v0.16.22026/04/15mcp-v0.16.12026/04/15mcp-v0.16.02026/04/15mcp-v0.15.02026/04/15app-v2.3.742026/04/13mcp-v0.14.12026/04/13app-v2.3.672026/04/11app-v2.3.502026/04/09mcp-v0.14.02026/04/09app-v2.3.412026/04/09app-v2.3.382026/04/08app-v2.3.312026/04/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。