Dayflow

GitHub
5.9k 307 简单 1 次阅读 今天MIT图像开发框架语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

Dayflow 是一款专为 macOS 设计的开源自动工作日志工具,它能私密地将你的屏幕活动转化为清晰的时间轴记录。不同于传统仅统计软件使用时长的追踪器,Dayflow 利用 AI 技术分析屏幕内容,智能区分“查阅资料”与“娱乐浏览”等具体行为,从而生成带有上下文总结的真实工作流水账,帮助用户精准掌握时间去向。

这款工具特别适合需要深度复盘的创业者、工程师、研究人员及自由职业者。无论是验证开发产出、快速生成立会汇报,还是分析实验与编码的时间分配,Dayflow 都能提供直观的数据支持,有效减少上下文切换带来的损耗。

其核心技术亮点在于“本地优先”的隐私架构与极致的性能优化。所有数据均保留在用户本地,绝不外传;用户可自由选择接入 Gemini、ChatGPT/Claude 或使用 Ollama 等本地大模型进行分析。此外,Dayflow 基于 SwiftUI 原生开发,体积极小(约 25MB),运行时内存占用低且几乎不消耗 CPU,在提供强大洞察力的同时,确保持续运行也不会影响电池续航或干扰正常工作流。

使用场景

资深后端工程师李明正面临季度绩效复盘,需要向技术总监详细汇报过去一个月在“微服务重构”项目中的具体产出与时间分配。

没有 Dayflow 时

  • 记忆模糊导致汇报失真:依靠回忆拼凑周报,往往只记得“很忙”,却说不清具体在代码审查、架构设计还是修复紧急 Bug 上花费了多少时间。
  • 上下文切换难以量化:频繁被即时通讯和临时会议打断,但无法向管理层证明这些“隐形干扰”如何拖慢了核心功能的开发进度。
  • 站会同步效率低下:每天早晨需花费大量时间翻看 Git 提交记录和聊天日志,才能勉强拼凑出昨天的工作流水,准备站会发言压力巨大。
  • 工作价值难以自证:当被质疑“为何某功能开发耗时过长”时,缺乏客观的屏幕活动证据链来解释其中的技术调研与试错成本。

使用 Dayflow 后

  • 自动生成精准时间轴:Dayflow 自动将李明的屏幕操作转化为带摘要的时间线,清晰区分了“阅读技术文档”、“编写核心算法”与“处理运维告警”的具体时段。
  • 直观呈现干扰来源:工具高亮显示了全天累计 90 分钟的碎片化干扰(如社交媒体浏览或非相关会议),用数据佐证了深度工作时间被压缩的事实。
  • 一键生成站会简报:基于当天的活动记录,Dayflow 瞬间总结出包含已完成任务、遇到阻碍及今日计划的站会发言稿,将准备时间从 15 分钟缩短至 1 分钟。
  • 构建可信的工作证据链:导出的 Markdown 格式报告详细记录了每个技术难点的攻关过程,让李明在绩效面谈中能从容展示真实的工作密度与复杂度。

Dayflow 通过将隐性的屏幕操作转化为显性的结构化成果,帮助开发者从“凭感觉汇报”转向“用数据说话”,真正掌控自己的时间主权。

运行环境要求

操作系统
  • macOS
GPU
  • 非必需
  • 若使用本地模型(Ollama/LM Studio),需用户自行配置兼容的 GPU 或 CPU 环境
  • 云端模式(Gemini/ChatGPT/Claude)无本地 GPU 要求
内存

应用运行约需 100MB RAM;若运行本地大模型,显存/内存需求取决于所选模型大小(未具体说明)。

依赖
notes1. 仅支持 macOS 13.0 及以上版本。2. 必须授予“屏幕与系统音频录制”权限。3. AI 功能支持三种模式:Google Gemini(需 API Key)、本地模型(需自行搭建 Ollama 或 LM Studio 服务)、ChatGPT/Claude(需付费订阅及对应 CLI 工具)。4. 应用本身轻量(25MB),但本地模型模式的处理效率取决于用户本地硬件配置。
python未说明(原生 macOS 应用,基于 SwiftUI/Xcode 构建)
Xcode 15+
SwiftUI
Ollama (可选,用于本地模型)
LM Studio (可选,用于本地模型)
Codex CLI (可选,用于 ChatGPT)
Claude Code CLI (可选,用于 Claude)
Dayflow hero image

快速开始

Dayflow
Dayflow 是一款私密、自动化的每日时间线工具。
停止猜测时间都去哪儿了。Dayflow 会监控你的屏幕,为你构建详细的每日时间线。完全私密且开源,所有数据均保留在你的 Mac 上。
平台:macOS 13+ SwiftUI AI:Gemini | 本地模型 | ChatGPT/Claude 许可证:MIT
Dayflow 主页动画

快速入门为什么选择 Dayflow用户如何从中获益功能特性工作原理安装指南数据与隐私自动化功能调试与开发者工具贡献代码


Dayflow 是什么?

Dayflow 是一款基于 SwiftUI 的原生 macOS 应用程序,能够实时监控你的屏幕,通过 AI 分析并生成包含摘要的 活动时间线。它体积小巧(应用大小仅 25MB),内存占用约 100MB,CPU 使用率低于 1%。

设计之初即注重隐私:你可以自由选择 AI 提供商。支持使用 Gemini(需自行提供 API 密钥)、本地模型(如 Ollama 或 LM Studio),或 ChatGPT/Claude(需订阅付费服务)。详情请参阅 数据与隐私 部分。

为什么选择 Dayflow

大多数时间追踪工具仅记录应用的使用情况。而 Dayflow 能够理解上下文——例如,“在 YouTube 上做研究”和“观看猫咪视频”的区别——因此你的时间线能真实反映实际工作内容,而不仅仅是哪个窗口处于打开状态。

此外,Dayflow 完全开源且高度可扩展:你可以检查源代码、审计数据处理方式,甚至自行编译构建,以实现最高级别的安全性。

用户如何从中获益

  • 创始人:了解时间都花在哪里,平衡执行者与管理者的工时,并发现潜在的频繁切换任务问题。
  • 工程师:确认真正完成的工作内容,几分钟内生成站会总结报告,减少中断带来的效率损失。
  • 学生:让学习过程可视化,减少分心,逐步养成更高效的学习习惯。
  • AI 研究人员:清晰地看到实验、阅读和编码之间的时间分配,优化研究流程。
  • 市场营销人员:按营销活动或渠道跟踪时间,保护创意专注时段,降低隐性运营成本。
  • 销售人员:将通话、跟进及 CRM 相关时间透明化,快速准备销售管道回顾报告。
  • 自由职业者:生成面向客户的详细总结,展示工作成果,并及早发现范围蔓延问题。

功能特性

  • 自动创建包含简洁摘要的 每日时间线
  • 上下文感知追踪——不仅记录应用使用情况,还能理解你当时的具体操作。
  • 超低功耗设计——不会干扰你的日常使用。
  • 支持查看每日活动的 时间流逝快照
  • 分心事件高亮——帮助你识别哪些事情让你偏离了当前任务。
  • 时间线导出——可将任意日期范围内的活动以 Markdown 格式导出。
  • 本地优先的隐私保护——所有数据均保存在你的 Mac 上,AI 服务也可由你自主选择。
  • 开源且可扩展——允许你审查源代码或自行构建。
  • 基于 SwiftUI 构建的 原生用户体验
  • 具备可配置存储上限的 自动清理功能

每日日记 BETA

设定目标、回顾一天的工作,并获取由 AI 生成的活动摘要。

Dayflow 日记预览
  • 早晨目标——规划当天要完成的任务。
  • 晚间反思——回顾一天的实际进展。
  • AI 摘要——根据时间线自动生成洞察。
  • 定时提醒——可为目标和反思设置通知。
  • 周视图——帮助你发现一周内的模式和趋势。

注意:日记功能目前处于测试阶段,访问权限有限。请在应用中输入访问码以解锁。

即将推出的功能

  • 仪表盘(测试版,仅限 ChatGPT/Claude)——你可以就工作日的相关问题提问,系统会将答案整理成卡片形式,供你自由布局,并长期跟踪各项指标的变化。

    Dayflow 仪表盘预览

工作原理

  1. 捕捉——以轻量级方式持续监控屏幕。
  2. 分析——定期将最近的活动发送至你选择的 AI 服务提供商。
  3. 生成——AI 根据活动内容生成带有摘要的时间线卡片。
  4. 展示——以可视化的时间线形式呈现你的全天活动。
  5. 清理——根据你设定的存储限制(1GB–20GB 或无限制)自动管理存储空间。

AI 处理流程

时间线生成的效率取决于您选择的 AI 提供商:

flowchart LR
    subgraph Gemini["Gemini 流程:2 次 LLM 调用"]
        direction LR
        GV[视频] --> GU[上传 + 转录<br/>1 次 LLM 调用] --> GC[生成卡片<br/>1 次 LLM 调用] --> GD[完成]
    end

    subgraph Local["本地流程:33+ 次 LLM 调用"]
        direction LR
        LV[视频] --> LE[提取 30 帧] --> LD[30 条描述<br/>30 次 LLM 调用] --> LM[合并<br/>1 次调用] --> LT[标题<br/>1 次调用] --> LC[合并检查<br/>1 次调用] --> LMC[合并卡片<br/>1 次调用] --> LD2[完成]
    end

    subgraph ChatCLI["ChatGPT/Claude 流程:4-6 次 LLM 调用"]
        direction LR
        CV[视频] --> CE[提取帧<br/>每 60 秒] --> CB[批量描述<br/>10 帧/次调用] --> CM[合并片段<br/>1 次调用] --> CC[生成卡片<br/>1 次调用] --> CD[完成]
    end

    %% 样式
    classDef geminiFlow fill:#e8f5e8,stroke:#4caf50,stroke-width:2px
    classDef localFlow fill:#fff8e1,stroke:#ff9800,stroke-width:2px
    classDef chatcliFlow fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef geminiStep fill:#4caf50,color:#fff
    classDef localStep fill:#ff9800,color:#fff
    classDef chatcliStep fill:#1976d2,color:#fff
    classDef processing fill:#f5f5f5,stroke:#666
    classDef result fill:#e3f2fd,stroke:#1976d2

    class Gemini geminiFlow
    class Local localFlow
    class ChatCLI chatcliFlow
    class GU,GC geminiStep
    class LD,LM,LT,LC,LMC localStep
    class CB,CM,CC chatcliStep
    class GV,LV,LE,CV,CE processing
    class GD,LD2,CD result

Gemini 利用原生视频理解能力直接进行分析。本地模型则通过单独的帧描述来重建理解。ChatGPT/Claude 使用 CLI 工具对提取的帧进行批量处理,结合前沿推理模型,在质量和效率之间取得平衡。


快速入门

下载(终端用户)

  1. GitHub Releases 获取最新的 Dayflow.dmg
  2. 打开应用;在提示时授予 屏幕与系统音频录制 权限:
    macOS → 系统设置隐私与安全性屏幕与系统音频录制 → 启用 Dayflow

从源码构建(开发者)

  1. 安装 Xcode 15+ 并打开 Dayflow.xcodeproj
  2. 在 macOS 13+ 上运行 Dayflow 方案。
  3. 在您的运行方案中,于 参数 > 环境变量 下添加您的 GEMINI_API_KEY(如果使用 Gemini)。

安装

需求

从发布版本安装

  1. 下载 Dayflow.dmg,并将 Dayflow 拖入 Applications 文件夹。
  2. 启动应用,并授予 屏幕与系统音频录制 权限。

从源码安装

git clone https://github.com/JerryZLiu/Dayflow.git
cd Dayflow
open Dayflow.xcodeproj
# 在 Xcode 中:选择 Dayflow 目标,必要时配置签名,然后运行。

Homebrew

如果您使用 Homebrew,可以通过以下命令安装 Dayflow

$ brew install --cask dayflow

数据与隐私

本节将说明 Dayflow 在本地存储的内容哪些数据会离开您的设备,以及 不同提供商的选择如何影响隐私

数据存储位置(在您的 Mac 上)

所有 Dayflow 数据均存储于: ~/Library/Application Support/Dayflow/

  • 录制内容(视频片段): Dayflow/recordings/(或从 Dayflow 任务栏图标菜单中选择“打开录制”)
  • 本地数据库: Dayflow/chunks.sqlite
  • 录制详情: 轻量级屏幕捕获,定期分析,可配置存储限制
  • 清理/重置提示: 退出 Dayflow。然后删除整个 Dayflow/ 文件夹以移除录制内容和分析结果。重新启动即可从头开始。

处理模式与提供商

  • Gemini(云端,自备密钥) - Dayflow 将批处理数据发送至 Google 的 Gemini API 进行分析。
  • 本地模型(Ollama / LM Studio) - 处理完全 在设备上进行;Dayflow 与您运行的 本地服务器 通信。
  • ChatGPT / Claude(基于 CLI,需付费订阅) - Dayflow 直接在您的 Mac 上驱动 Codex CLI(ChatGPT)或 Claude Code CLI需要有效的 ChatGPT Plus/Pro 或 Claude Pro 订阅。 使用前沿推理模型以获得一流的叙事质量。

简而言之:Gemini 的数据处理方式(我对 Google 使用条款的理解)

  • 简短回答:有一种方法可以防止 Google 对您的数据进行训练。 如果您在 至少一个 Gemini API 项目上 启用 Cloud Billing,Google 会将 您所有的 Gemini API 和 Google AI Studio 使用 视为 “付费服务” 的数据使用规则——即使您正在使用免费配额。在付费服务模式下,Google 不会利用您的提示/响应来改进 Google 产品/模型
    • 条款:“当您激活 Cloud Billing 账户时,所有对 Gemini API 和 Google AI Studio 的使用都将被视为‘付费服务’,无论是否免费提供。”(Gemini API 附加条款)
    • 滥用监控:即便在付费服务模式下,Google 仍会 在有限时间内记录提示/响应,用于 政策执行和法律合规。(同上)
    • 欧盟/英国/瑞士: 付费模式的数据处理默认适用于所有服务(包括 AI Studio 和免费配额),即使未启用计费功能。(同上)

几点有用的细节(来自文档和论坛澄清):

  • AI Studio 仍然可以免费使用;启用计费仅改变数据处理方式,而非是否收费。定价页面)
  • UI “计划:付费”检查:AI Studio → API 密钥 中,一旦任何关联项目启用计费,通常会显示“计划:付费”(UI 可能会变化)。
  • 免费变通方法: “只需将一个项目设为付费,同时在其他地方继续使用免费密钥,即可兼得两者优势。” 条款表明,一旦激活任何计费账户,覆盖范围将是 账户级别,但上述应用程序中的细微差别可能会在特定 UI 场景中限制这一点。请将其视为一种解读,而非法律建议。

本地模式:隐私与权衡

  • 隐私: 使用 Ollama/LM Studio 时,提示和模型推理都在您的设备上运行。LM Studio 文档明确指出,一旦模型下载完毕,即可实现完全的 离线 运行。
  • 质量/延迟: 本地开源模型正在不断改进,但在复杂的摘要生成任务上,可能表现不如 云端模型。
  • 功耗/电池: 在 Apple Silicon 设备上,本地推理对 GPU 资源需求较高,会更快消耗电池;长时间捕获时建议使用 插电模式
  • 未来: 我们可能会探索对本地模型进行 微调 或蒸馏,以生成更优质的日程摘要。

参考:

ChatGPT/Claude 模式:隐私与权衡

  • 隐私: 根据您配置的 CLI 工具,您的屏幕数据将由 OpenAI(ChatGPT)或 Anthropic(Claude)处理。请仔细阅读它们各自的隐私政策。
  • 质量: 前沿的推理模型能够提供最高质量的内容叙述和摘要。
  • 需订阅:必须拥有有效的付费订阅(ChatGPT Plus/Pro 每月 20 美元起,或 Claude Pro 每月 20 美元)。CLI 工具会通过您现有的订阅进行身份验证。
  • 设置: 需要安装 Codex CLIClaude Code,并保持登录状态。
  • 网络: 需要稳定的互联网连接(无离线模式)。

权限(macOS)

为录制屏幕,Dayflow 需要 屏幕与系统音频录制 权限。您可以在以下路径查看或更改权限:
系统设置 → 隐私与安全性 → 屏幕与系统音频录制
Apple 官方文档:https://support.apple.com/guide/mac-help/control-access-screen-system-audio-recording-mchld6aa7d23/mac


配置

  • AI 提供商
    • 选择 Gemini(设置 API 密钥)、本地(Ollama/LM Studio),或 ChatGPT/Claude(安装 CLI + 付费订阅)。
    • Gemini API 密钥获取地址:https://ai.google.dev/gemini-api/docs/api-key
    • ChatGPT:安装 Codex CLI,使用您的 ChatGPT Plus/Pro 账户登录。
    • Claude:安装 Claude Code,使用您的 Claude Pro 账户登录。
  • 捕获设置
    • 从主界面开始或停止捕获。使用 调试 功能验证批次内容。
  • 数据存储位置
    • 请参阅 数据与隐私 部分,了解确切的文件路径及清理提示。

自动化

Dayflow 注册了 dayflow:// URL 方案,因此您可以通过快捷指令、热键启动器或脚本触发常见操作。

支持的 URL

  • dayflow://start-recording - 启动捕获(若已在录制则无操作)
  • dayflow://stop-recording - 暂停捕获(若已暂停则无操作)

快速测试

  • 在终端中输入:open dayflow://start-recordingopen dayflow://stop-recording
  • 在快捷指令中添加一个 打开 URL 操作,并使用上述任一链接。

通过深度链接触发的状态变化会在分析日志中记录为 reason: "deeplink",以便区分自动化操作与手动切换。


调试与开发者工具

您可以点击菜单栏中的 Dayflow 图标,查看已保存的录制内容。

项目结构

Dayflow/
├─ Dayflow/                 # SwiftUI 应用源码(时间线 UI、调试 UI、捕获与分析流程)
├─ docs/                    # Appcast 和文档资源(截图、视频)
├─ scripts/                 # 发布自动化脚本(DMG 打包、公证、Appcast 更新、Sparkle 签名、一键发布)

故障排除

  • 屏幕捕获空白或失败
    请检查 系统设置 → 隐私与安全性 → 屏幕与系统音频录制,确保已启用 Dayflow 的权限。
  • API 错误
    请进入设置页面,确认您的 GEMINI_API_KEY 是否正确,并检查网络连接是否正常。

路线图

  • 仪表盘 V1 版本(跟踪自定义问题的答案)
  • 日记 V1 版本 - 现已进入 Beta 测试!
  • 对小型视觉语言模型进行微调,以提升本地模型的质量

贡献

欢迎提交 PR!如果您计划进行较大改动,请先创建议题讨论范围和方案。


许可证

本软件采用 MIT 许可证授权。完整许可文本请参阅 LICENSE 文件。本软件按“原样”提供,不提供任何形式的担保。


致谢

版本历史

v1.9.12026/04/09
v1.9.02026/04/08
v1.8.102026/04/04
v1.8.92026/03/25
v1.8.82026/03/19
v1.8.72026/03/15
v1.8.62026/03/15
v1.8.52026/03/09
v1.8.42026/03/04
v1.8.32026/03/02
v1.8.22026/02/26
v1.8.12026/02/25
v1.8.02026/02/24
v1.7.02026/02/06
v1.6.52026/02/03
v1.6.42026/01/29
v1.6.32026/01/29
v1.6.22026/01/26
v1.6.12026/01/26
v1.6.02026/01/24

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架