oracle

GitHub
1.9k 184 简单 1 次阅读 今天NOASSERTION开发框架Agent语言模型图像
AI 解读 由 AI 自动生成,仅供参考

Oracle 是一款专为开发者设计的命令行助手,旨在解决编程中遇到难题时缺乏上下文支持的痛点。当你被代码卡住时,Oracle 能自动将你的提示词与项目中的相关文件打包,构建出富含真实语境的请求,并发送给顶尖的 AI 模型(如 GPT-5 Pro、Claude 或 Gemini)以获取精准解答。

它的核心优势在于灵活性与便捷性。Oracle 不仅支持通过 API 调用多种主流大模型进行单次或对比分析,还独创了“浏览器模式”。该模式允许用户在不配置 API 密钥的情况下,直接自动化操作本地 Chrome 浏览器登录 ChatGPT 进行问答,极大降低了使用门槛。此外,它还具备会话延续、多文件通配符匹配及预演模式等功能,让工作流更加顺畅。

无论是需要快速排查架构问题的资深工程师,还是希望借助 AI 提升效率的全栈开发者,Oracle 都能成为你得力的“硅基智者”。它让 AI 不再只是泛泛而谈,而是真正理解你的代码库,提供切实可行的建议。

使用场景

资深后端工程师在紧急修复生产环境的数据层架构漂移问题时,需要快速分析分散在多个文件中的 TypeScript 代码与文档上下文。

没有 oracle 时

  • 上下文割裂:必须手动打开十几个 .ts 源文件和测试文件,反复复制粘贴代码片段到聊天窗口,极易遗漏关键依赖文件。
  • 模型切换繁琐:若想对比 GPT-5 Pro 与 Gemini 的分析结果,需分别登录不同网页端重复操作,耗时且打断思路。
  • 隐私与配置门槛:在无 API Key 的临时环境下,无法直接调用高阶模型,只能降级使用免费模型或经历复杂的浏览器插件配置。
  • 会话断层:难以将本地最新的代码变更无缝衔接至之前的云端诊断会话,导致 AI 基于过时信息给出错误建议。

使用 oracle 后

  • 一键打包上下文:通过 --file "src/**/*.ts" glob 匹配,oracle 自动将所有相关源码、测试用例打包并注入提示词,确保 AI 掌握完整项目全貌。
  • 多模型并行验证:单条命令即可同时调用 gpt-5.1-progemini-3-pro 进行交叉验证,瞬间获得多维度的架构评估报告。
  • 无密钥浏览器模式:利用 --engine browser 直接接管已登录的 Chrome 会话,无需配置 API Key 即可直通 GPT-5.4 Pro,兼顾便捷与高性能。
  • 精准会话续接:支持通过 --followup 参数直接关联现有的 OpenAI 会话 ID,让 AI 基于最新本地文件继续之前的深度诊断,保持逻辑连贯。

oracle 将碎片化的文件与复杂的模型调用简化为一条终端指令,让开发者在本地即可拥有“硅基智者”的全局视野与推理能力。

运行环境要求

操作系统
  • macOS
  • Linux
  • Windows
GPU

未说明

内存

未说明

依赖
notes该工具是一个 Node.js CLI 工具,非本地运行的 AI 模型,因此无 GPU 和本地大内存需求。核心依赖为 Node.js 22+ 版本。支持两种运行模式:1. API 模式(推荐):需配置 OPENAI_API_KEY、GEMINI_API_KEY 或 ANTHROPIC_API_KEY 环境变量;2. 浏览器模式(实验性):通过自动化 Chrome 浏览器操作,无需 API Key,但 macOS 支持最稳定,Linux/Windows 可能需要指定浏览器路径或手动登录。
python未说明
Node.js 22+
npm
Chrome Browser (用于浏览器模式)
oracle hero image

快速开始

oracle 🧿 — 向硅基智者低语你的提示与文件

Oracle CLI 头部横幅

npm 版本 CI 状态 支持平台 MIT 许可证

Oracle 会将你的提示和文件打包在一起,以便其他 AI 能够结合真实上下文作出回答。它支持 GPT-5.4 Pro(默认)、GPT-5.4、GPT-5.1 Pro、GPT-5.1 Codex(仅 API)、GPT-5.1、GPT-5.2、Gemini 3.1 Pro(仅 API)、Gemini 3 Pro、Claude Sonnet 4.5、Claude Opus 4.1 等多种模型,并且可以在一次运行中调用单个或多个模型。此外,还提供了浏览器自动化功能;使用 --browser-model-strategy current 可以保持当前 ChatGPT 的活跃模型(或使用 ignore 来跳过模型选择)。API 仍然是最可靠的途径,而 --copy 则是一个便捷的手动备用方案。

设置(macOS 浏览器模式)

在浏览器模式下,你无需任何 API 密钥即可使用 GPT-5.4 Pro——它会直接自动化你的 Chrome 浏览器。

首次登录

只需运行一次即可创建自动化配置并登录 ChatGPT。浏览器将保持打开状态,以便你完成登录过程:

oracle --engine browser --browser-manual-login \
  --browser-keep-browser --browser-input-timeout 120000 \
  -p "HI"

后续运行

登录完成后,自动化配置会被保存下来。后续的所有运行都可以使用以下命令:

oracle --engine browser --browser-manual-login \
  --browser-auto-reattach-delay 5s \
  --browser-auto-reattach-interval 3s \
  --browser-auto-reattach-timeout 60s \
  -p "你的提示"

为什么需要这些参数?

  • --browser-manual-login — 跳过 macOS Keychain 的 Cookie 访问(避免重复的权限弹窗)
  • --browser-auto-reattach-* — 在 ChatGPT 页面加载过程中发生重定向时自动重新连接(修复“被检查的目标已导航或关闭”错误)
  • --browser-keep-browser — 第一次登录时保持浏览器打开(之后不需要)
  • --browser-input-timeout 120000 — 给予你在首次运行时 2 分钟的时间完成登录

快速入门

全局安装:npm install -g @steipete/oracle Homebrew:brew install steipete/tap/oracle

需 Node 22+。或者使用 npx -y @steipete/oracle …(或 pnpx)。

# 打包内容并粘贴到 ChatGPT
npx -y @steipete/oracle --render --copy -p "审查 TS 数据层是否存在架构漂移" --file "src/**/*.ts,*/*.test.ts"

# 最小化 API 运行(需在环境变量中设置 OPENAI_API_KEY)
npx -y @steipete/oracle -p "为存储适配器撰写一份简洁的架构说明" --file src/storage/README.md

# 多模型 API 运行
npx -y @steipete/oracle -p "交叉核对数据层假设" --models gpt-5.1-pro,gemini-3-pro --file "src/**/*.ts"

# 基于现有 OpenAI/Azure 会话 ID 的后续处理
npx -y @steipete/oracle --engine api --model gpt-5.2-pro --followup release-readiness-audit --followup-model gpt-5.2-pro -p "结合新的上下文重新评估" --file "src/**/*.ts"

# 直接基于 OpenAI Responses API ID 的后续处理
npx -y @steipete/oracle --engine api --model gpt-5.2-pro --followup resp_abc1234567890 -p "从该响应继续" --file docs/notes.md

# 不消耗 Token 的预览
npx -y @steipete/oracle --dry-run summary -p "查看发布说明" --file docs/release-notes.md

# 浏览器运行(无需 API 密钥,会打开 ChatGPT)
npx -y @steipete/oracle --engine browser -p "走一遍 UI 烟囱测试" --file "src/**/*.ts"

# Gemini 浏览器模式(无需 API 密钥;使用 gemini.google.com 的 Chrome Cookie)
npx -y @steipete/oracle --engine browser --model gemini-3-pro --prompt "一只可爱的小机器人拿着香蕉" --generate-image out.jpg --aspect 1:1

# 会话管理(列出并回放)
npx -y @steipete/oracle status --hours 72
npx -y @steipete/oracle session <id> --render
npx -y @steipete/oracle restart <id>

# TUI(交互式,仅供人类使用)
npx -y @steipete/oracle tui

当设置了 OPENAI_API_KEY 时,引擎会自动选择 API 模式,否则将使用浏览器模式;浏览器模式在 macOS 上较为稳定,在 Linux 和 Windows 上也能运行。如果在 Linux 上检测失败,请使用 --browser-chrome-path/--browser-cookie-path;而在 Windows 上,则建议使用 --browser-manual-login 或内嵌 Cookie,以防解密受阻。

集成

CLI

  • API 模式要求在环境变量中设置相应的 API 密钥:OPENAI_API_KEY(GPT-5.x)、GEMINI_API_KEY(Gemini 3.1 Pro / Gemini 3 Pro)、ANTHROPIC_API_KEY(Claude Sonnet 4.5 / Opus 4.1)。
  • Gemini 浏览器模式则使用 Chrome Cookie 而非 API 密钥——只需在 Chrome 中登录 gemini.google.com 即可(无需 Python/venv)。
  • 如果你的 Gemini 账户无法访问“Pro”版本,Oracle 会自动回退到支持的模型进行网页运行,并在详细模式下记录回退信息。
  • 建议优先使用 API 模式或 --copy 加手动粘贴;浏览器自动化仍处于实验阶段。
  • 浏览器支持:在 macOS 上稳定;在 Linux 上也可运行(必要时添加 --browser-chrome-path/--browser-cookie-path),而在 Windows 上则推荐使用手动登录或内嵌 Cookie,因为应用绑定的 Cookie 可能会阻止解密。
  • 远程浏览器服务:在已登录主机上运行 oracle serve;客户端则使用 --remote-host/--remote-token
  • AGENTS.md/CLAUDE.md:
    - Oracle 会将提示与合适的文件打包在一起,供其他 AI(如 GPT 5 Pro 等)回答。适用于遇到瓶颈、调试或代码评审时。
    - 每次会话首次使用前,请运行一次 `npx -y @steipete/oracle --help`。
    
  • 小贴士:在配置中设置 browser.chatgptUrl(或 --chatgpt-url),指向一个专门用于 ChatGPT 的项目文件夹,这样浏览器运行就不会污染你的主历史记录了。

Codex 技能

  • 将此仓库中的 Oracle 技能复制到你的 Codex 技能文件夹:
    • mkdir -p ~/.codex/skills
    • cp -R skills/oracle ~/.codex/skills/oracle
  • 然后在你的 AGENTS.md/CLAUDE.md 中引用它,以便 Codex 加载该技能。

MCP

  • 通过 oracle-mcp 运行标准输入输出服务器。
  • 使用 steipete/mcporter.mcp.json 配置客户端;连接示例请参阅 docs/mcp.md
npx -y @steipete/oracle oracle-mcp
{
  "oracle": {
    "command": "oracle-mcp",
    "args": []
  }
}

亮点

  • 打包一次,随处复用(API 或实验性浏览器)。
  • 多模型 API 以聚合成本/用量运行,支持 OpenRouter ID 与第一方模型并存。
  • 渲染/复制捆绑包,以便在自动化受限时手动粘贴到 ChatGPT 中。
  • GPT‑5 Pro API 默认以分离模式运行;可通过 oracle session <id> / oracle status 重新连接,或使用 --wait 阻止连接。
  • OpenAI/Azure 后续 API 调用可从 --followup <sessionId|responseId> 继续;对于多模型父级任务,需添加 --followup-model <model>
  • Azure 端点可通过 --azure-endpoint/--azure-deployment/--azure-api-versionAZURE_OPENAI_* 环境变量支持。
  • 文件安全:支持通配符/排除规则、文件大小限制及 --files-report
  • 可回放的会话(oracle statusoracle session <id> --render)。
  • 会话日志和捆绑包存储于 ~/.oracle/sessions 目录;可通过 ORACLE_HOME_DIR 覆盖路径。

后续调用与 lineage 关系

使用 --followup 可基于现有 OpenAI/Azure Responses API 运行继续,并附加上下文或文件:

oracle \
  --engine api \
  --model gpt-5.2-pro \
  --followup <现有会话 ID 或响应 ID> \
  --followup-model gpt-5.2-pro \
  --slug "my-followup-run" \
  --wait \
  -p "后续:结合附件文件重新评估之前的建议。" \
  --file "server/src/strategy/plan.ts" \
  --file "server/src/strategy/executor.ts"

当父级会话使用了 --models 参数时,--followup-model 用于指定从哪个模型的响应 ID 继续链式调用。 自定义 --base-url 提供者以及 Gemini/Claude API 调用在此处不适用,因为它们不会在 Oracle 中保留 previous_response_id

oracle status 以树状结构展示父子 lineage 关系:

最近会话
状态    模型         模式    时间戳           字数    成本  标签
已完成  gpt-5.2-pro   api     2026年03月01日 上午09:00  1800  $2.110  architecture-review-parent
已完成  gpt-5.2-pro   api     2026年03月01日 上午09:14  2200  $2.980  ├─ architecture-review-followup
运行中   gpt-5.2-pro   api     2026年03月01日 上午09:22  1400       -  │  └─ architecture-review-implementation-pass
待处理  gpt-5.2-pro   api     2026年03月01日 上午09:25   900       -  └─ architecture-review-risk-check

浏览器自动重连(长时间 Pro 运行)

当浏览器运行超时时(常见于 GPT‑5.x Pro 的长响应),Oracle 可持续轮询当前 ChatGPT 标签页,捕获最终答案,而无需手动执行 oracle session <id> 命令。

通过设置非零间隔启用自动重连功能:

  • --browser-auto-reattach-delay — 第一次重试前的等待时间(如 30s
  • --browser-auto-reattach-interval — 重试频率(如 2m
  • --browser-auto-reattach-timeout — 每次尝试的超时时间(默认 2m
oracle --engine browser \
  --browser-timeout 6m \
  --browser-auto-reattach-delay 30s \
  --browser-auto-reattach-interval 2m \
  --browser-auto-reattach-timeout 2m \
  -p "执行长时间的 UI 审计" --file "src/**/*.ts"

你真正会用到的参数

标志 用途
-p, --prompt <text> 必需的提示文本。
-f, --file <paths...> 附加文件/目录(支持通配符及 ! 排除)。
-e, --engine <api|browser> 选择 API 或浏览器模式(浏览器模式为实验性功能)。
-m, --model <name> 内置模型(默认为 gpt-5.4-pro,还包括 gpt-5.4gpt-5.1-progpt-5-progpt-5.1gpt-5.1-codexgpt-5.2gpt-5.2-instantgpt-5.2-pro、仅限 API 的 gemini-3.1-progemini-3-proclaude-4.5-sonnetclaude-4.1-opus)以及任意 OpenRouter 模型 ID(如 minimax/minimax-m2openai/gpt-4o-mini)。
--models <list> 多模型运行时使用的以逗号分隔的 API 模型列表(可混合内置模型和 OpenRouter 模型 ID)。
--followup <sessionId|responseId> 从已保存的 Oracle 会话或 resp_... 响应 ID 继续 OpenAI/Azure Responses API 运行。
--followup-model <model> 对于多模型的 OpenAI/Azure 父级会话,选择从哪个模型的响应继续。
--base-url <url> 将 API 请求指向 LiteLLM、Azure、OpenRouter 等服务。
--chatgpt-url <url> 在浏览器模式下指定 ChatGPT 工作区或文件夹。
--browser-model-strategy <select|current|ignore> 控制浏览器模式下 ChatGPT 模型的选择策略(current 保持当前模型;ignore 跳过模型选择器)。
--browser-manual-login 跳过复制 Cookie 的步骤,直接使用持久化的自动化配置文件,并等待手动登录 ChatGPT。
--browser-thinking-time <light|standard|extended|heavy> 设置 ChatGPT 思考时间的强度(仅适用于浏览器模式下的 Thinking/Pro 模型)。
--browser-port <port> 固定 Chrome DevTools 的端口(用于 WSL 或 Windows 防火墙辅助工具)。
--browser-inline-cookies[(-file)] <payload | path> 在无需 Chrome 或 Keychain 的情况下提供 Cookie(浏览器模式)。
--browser-timeout, --browser-input-timeout 控制整体及输入操作的超时时间(支持小时、分钟、秒、毫秒单位)。
--browser-recheck-delay, --browser-recheck-timeout 针对长时间 Pro 模型运行的延迟重检机制:等待超时后再次尝试捕获结果(支持小时、分钟、秒、毫秒单位)。
--browser-reuse-wait 在启动并行浏览器任务前,等待共享的 Chrome 配置文件可用。
--browser-profile-lock-timeout 在发送请求之前,等待共享的手动登录配置文件解锁(用于序列化并行运行)。
--render, --copy 打印和/或复制生成的 Markdown 包。
--wait 阻塞等待后台 API 运行完成(例如 GPT‑5.1 Pro),而不是将其分离到后台执行。
--timeout <seconds|auto> 整体 API 的截止时间(auto 表示专业版为 60 分钟,其他情况为 120 秒)。
--background, --no-background 强制在 API 运行中启用 Responses API 的后台模式(创建 + 检索)。
--http-timeout <ms|s|m|h> HTTP 客户端超时时间(默认 20 分钟)。
--zombie-timeout <ms|s|m|h> 覆盖 oracle status 使用的过期会话判定阈值。
--zombie-last-activity 使用最后的日志活动来检测过期会话。
--write-output <path> 只保存最终答案(多模型运行时会在文件名后添加 .<model> 后缀)。
--files-report 打印每个文件的 token 使用量。
--dry-run [summary|json|full] 预览运行结果,但不实际发送请求。
--remote-host, --remote-token 使用远程 oracle serve 主机(浏览器模式)。
--remote-chrome <host:port> 在浏览器模式下连接到现有的远程 Chrome 会话。
--youtube <url> 待分析的 YouTube 视频 URL(Gemini 浏览器模式)。
--generate-image <file> 生成图像并保存到文件(Gemini 浏览器模式)。
--edit-image <file> 使用 --output 编辑现有图像(Gemini 浏览器模式)。
--azure-endpoint, --azure-deployment, --azure-api-version 指定 Azure OpenAI 的端点(自动选择 Azure 客户端)。

配置

将默认配置放在 ~/.oracle/config.json 文件中(使用 JSON5 格式)。示例如下:

{
  model: "gpt-5.4-pro",
  engine: "api",
  filesReport: true,
  browser: {
    chatgptUrl: "https://chatgpt.com/g/g-p-691edc9fec088191b553a35093da1ea8-oracle/project",
  },
}

可以使用 browser.chatgptUrl(或旧版别名 browser.url)来指定浏览器自动化操作的目标 ChatGPT 工作区/文件夹。 有关优先级和完整配置模式,请参阅 docs/configuration.md

高级标志

部分 标志
浏览器 --browser-manual-login, --browser-thinking-time, --browser-timeout, --browser-input-timeout, --browser-recheck-delay, --browser-recheck-timeout, --browser-reuse-wait, --browser-profile-lock-timeout, --browser-auto-reattach-delay, --browser-auto-reattach-interval, --browser-auto-reattach-timeout, --browser-cookie-wait, --browser-inline-cookies[(-file)], --browser-attachments, --browser-inline-files, --browser-bundle-files, --browser-keep-browser, --browser-headless, --browser-hide-window, --browser-no-cookie-sync, --browser-allow-cookie-errors, --browser-chrome-path, --browser-cookie-path, --chatgpt-url
运行控制 --background, --no-background, --http-timeout, --zombie-timeout, --zombie-last-activity
Azure/OpenAI --azure-endpoint, --azure-deployment, --azure-api-version, --base-url

远程浏览器示例

# 主机(已登录的 Chrome):启动服务
oracle serve --host 0.0.0.0:9473 --token secret123

# 客户端:连接到该主机
oracle --engine browser --remote-host 192.168.1.10:9473 --remote-token secret123 -p "运行 UI 烟囱测试" --file "src/**/*.ts"

# 如果无法同步 Cookie,可直接传递内联 Cookie(JSON 或 base64 格式)
oracle --engine browser --browser-inline-cookies-file ~/.oracle/cookies.json -p "运行 UI 烟囱测试" --file "src/**/*.ts"

会话管理

# 清理存储的会话(默认路径为 ~/.oracle/sessions;可通过 ORACLE_HOME_DIR 覆盖)
oracle status --clear --hours 168

更多文档

如果您正在寻找更强大的上下文管理工具,请访问 https://repoprompt.com
灵感来源:https://ampcode.com/news/oracle

steipete 的更多免费工具

  • ✂️ Trimmy — “粘贴一次,运行一次。” 将多行 Shell 片段简化为可直接粘贴并执行的形式。
  • 🟦🟩 CodexBar — 在 macOS 菜单栏中始终显示 Codex 的令牌窗口。
  • 🧳 MCPorter — 用于 Model Context Protocol 服务器的 TypeScript 工具包及 CLI。

版本历史

v0.9.02026/03/08
v0.8.62026/02/09
v0.8.52026/01/19
v0.8.42026/01/05
v0.8.32025/12/31
v0.8.12025/12/30
v0.8.02025/12/28
v0.7.62025/12/25
v0.7.52025/12/23
v0.7.42025/12/23
v0.7.32025/12/23
v0.7.22025/12/17
v0.7.12025/12/17
v0.7.02025/12/14
v0.6.12025/12/13
v0.6.02025/12/12
v0.5.62025/12/09
v0.5.42025/12/08
v0.5.32025/12/06
v0.5.22025/12/06

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|5天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架