oracle
Oracle 是一款专为开发者设计的命令行助手,旨在解决编程中遇到难题时缺乏上下文支持的痛点。当你被代码卡住时,Oracle 能自动将你的提示词与项目中的相关文件打包,构建出富含真实语境的请求,并发送给顶尖的 AI 模型(如 GPT-5 Pro、Claude 或 Gemini)以获取精准解答。
它的核心优势在于灵活性与便捷性。Oracle 不仅支持通过 API 调用多种主流大模型进行单次或对比分析,还独创了“浏览器模式”。该模式允许用户在不配置 API 密钥的情况下,直接自动化操作本地 Chrome 浏览器登录 ChatGPT 进行问答,极大降低了使用门槛。此外,它还具备会话延续、多文件通配符匹配及预演模式等功能,让工作流更加顺畅。
无论是需要快速排查架构问题的资深工程师,还是希望借助 AI 提升效率的全栈开发者,Oracle 都能成为你得力的“硅基智者”。它让 AI 不再只是泛泛而谈,而是真正理解你的代码库,提供切实可行的建议。
使用场景
资深后端工程师在紧急修复生产环境的数据层架构漂移问题时,需要快速分析分散在多个文件中的 TypeScript 代码与文档上下文。
没有 oracle 时
- 上下文割裂:必须手动打开十几个
.ts源文件和测试文件,反复复制粘贴代码片段到聊天窗口,极易遗漏关键依赖文件。 - 模型切换繁琐:若想对比 GPT-5 Pro 与 Gemini 的分析结果,需分别登录不同网页端重复操作,耗时且打断思路。
- 隐私与配置门槛:在无 API Key 的临时环境下,无法直接调用高阶模型,只能降级使用免费模型或经历复杂的浏览器插件配置。
- 会话断层:难以将本地最新的代码变更无缝衔接至之前的云端诊断会话,导致 AI 基于过时信息给出错误建议。
使用 oracle 后
- 一键打包上下文:通过
--file "src/**/*.ts"glob 匹配,oracle 自动将所有相关源码、测试用例打包并注入提示词,确保 AI 掌握完整项目全貌。 - 多模型并行验证:单条命令即可同时调用
gpt-5.1-pro和gemini-3-pro进行交叉验证,瞬间获得多维度的架构评估报告。 - 无密钥浏览器模式:利用
--engine browser直接接管已登录的 Chrome 会话,无需配置 API Key 即可直通 GPT-5.4 Pro,兼顾便捷与高性能。 - 精准会话续接:支持通过
--followup参数直接关联现有的 OpenAI 会话 ID,让 AI 基于最新本地文件继续之前的深度诊断,保持逻辑连贯。
oracle 将碎片化的文件与复杂的模型调用简化为一条终端指令,让开发者在本地即可拥有“硅基智者”的全局视野与推理能力。
运行环境要求
- macOS
- Linux
- Windows
未说明
未说明

快速开始
oracle 🧿 — 向硅基智者低语你的提示与文件
Oracle 会将你的提示和文件打包在一起,以便其他 AI 能够结合真实上下文作出回答。它支持 GPT-5.4 Pro(默认)、GPT-5.4、GPT-5.1 Pro、GPT-5.1 Codex(仅 API)、GPT-5.1、GPT-5.2、Gemini 3.1 Pro(仅 API)、Gemini 3 Pro、Claude Sonnet 4.5、Claude Opus 4.1 等多种模型,并且可以在一次运行中调用单个或多个模型。此外,还提供了浏览器自动化功能;使用 --browser-model-strategy current 可以保持当前 ChatGPT 的活跃模型(或使用 ignore 来跳过模型选择)。API 仍然是最可靠的途径,而 --copy 则是一个便捷的手动备用方案。
设置(macOS 浏览器模式)
在浏览器模式下,你无需任何 API 密钥即可使用 GPT-5.4 Pro——它会直接自动化你的 Chrome 浏览器。
首次登录
只需运行一次即可创建自动化配置并登录 ChatGPT。浏览器将保持打开状态,以便你完成登录过程:
oracle --engine browser --browser-manual-login \
--browser-keep-browser --browser-input-timeout 120000 \
-p "HI"
后续运行
登录完成后,自动化配置会被保存下来。后续的所有运行都可以使用以下命令:
oracle --engine browser --browser-manual-login \
--browser-auto-reattach-delay 5s \
--browser-auto-reattach-interval 3s \
--browser-auto-reattach-timeout 60s \
-p "你的提示"
为什么需要这些参数?
--browser-manual-login— 跳过 macOS Keychain 的 Cookie 访问(避免重复的权限弹窗)--browser-auto-reattach-*— 在 ChatGPT 页面加载过程中发生重定向时自动重新连接(修复“被检查的目标已导航或关闭”错误)--browser-keep-browser— 第一次登录时保持浏览器打开(之后不需要)--browser-input-timeout 120000— 给予你在首次运行时 2 分钟的时间完成登录
快速入门
全局安装:npm install -g @steipete/oracle
Homebrew:brew install steipete/tap/oracle
需 Node 22+。或者使用 npx -y @steipete/oracle …(或 pnpx)。
# 打包内容并粘贴到 ChatGPT
npx -y @steipete/oracle --render --copy -p "审查 TS 数据层是否存在架构漂移" --file "src/**/*.ts,*/*.test.ts"
# 最小化 API 运行(需在环境变量中设置 OPENAI_API_KEY)
npx -y @steipete/oracle -p "为存储适配器撰写一份简洁的架构说明" --file src/storage/README.md
# 多模型 API 运行
npx -y @steipete/oracle -p "交叉核对数据层假设" --models gpt-5.1-pro,gemini-3-pro --file "src/**/*.ts"
# 基于现有 OpenAI/Azure 会话 ID 的后续处理
npx -y @steipete/oracle --engine api --model gpt-5.2-pro --followup release-readiness-audit --followup-model gpt-5.2-pro -p "结合新的上下文重新评估" --file "src/**/*.ts"
# 直接基于 OpenAI Responses API ID 的后续处理
npx -y @steipete/oracle --engine api --model gpt-5.2-pro --followup resp_abc1234567890 -p "从该响应继续" --file docs/notes.md
# 不消耗 Token 的预览
npx -y @steipete/oracle --dry-run summary -p "查看发布说明" --file docs/release-notes.md
# 浏览器运行(无需 API 密钥,会打开 ChatGPT)
npx -y @steipete/oracle --engine browser -p "走一遍 UI 烟囱测试" --file "src/**/*.ts"
# Gemini 浏览器模式(无需 API 密钥;使用 gemini.google.com 的 Chrome Cookie)
npx -y @steipete/oracle --engine browser --model gemini-3-pro --prompt "一只可爱的小机器人拿着香蕉" --generate-image out.jpg --aspect 1:1
# 会话管理(列出并回放)
npx -y @steipete/oracle status --hours 72
npx -y @steipete/oracle session <id> --render
npx -y @steipete/oracle restart <id>
# TUI(交互式,仅供人类使用)
npx -y @steipete/oracle tui
当设置了 OPENAI_API_KEY 时,引擎会自动选择 API 模式,否则将使用浏览器模式;浏览器模式在 macOS 上较为稳定,在 Linux 和 Windows 上也能运行。如果在 Linux 上检测失败,请使用 --browser-chrome-path/--browser-cookie-path;而在 Windows 上,则建议使用 --browser-manual-login 或内嵌 Cookie,以防解密受阻。
集成
CLI
- API 模式要求在环境变量中设置相应的 API 密钥:
OPENAI_API_KEY(GPT-5.x)、GEMINI_API_KEY(Gemini 3.1 Pro / Gemini 3 Pro)、ANTHROPIC_API_KEY(Claude Sonnet 4.5 / Opus 4.1)。 - Gemini 浏览器模式则使用 Chrome Cookie 而非 API 密钥——只需在 Chrome 中登录
gemini.google.com即可(无需 Python/venv)。 - 如果你的 Gemini 账户无法访问“Pro”版本,Oracle 会自动回退到支持的模型进行网页运行,并在详细模式下记录回退信息。
- 建议优先使用 API 模式或
--copy加手动粘贴;浏览器自动化仍处于实验阶段。 - 浏览器支持:在 macOS 上稳定;在 Linux 上也可运行(必要时添加
--browser-chrome-path/--browser-cookie-path),而在 Windows 上则推荐使用手动登录或内嵌 Cookie,因为应用绑定的 Cookie 可能会阻止解密。 - 远程浏览器服务:在已登录主机上运行
oracle serve;客户端则使用--remote-host/--remote-token。 - AGENTS.md/CLAUDE.md:
- Oracle 会将提示与合适的文件打包在一起,供其他 AI(如 GPT 5 Pro 等)回答。适用于遇到瓶颈、调试或代码评审时。 - 每次会话首次使用前,请运行一次 `npx -y @steipete/oracle --help`。 - 小贴士:在配置中设置
browser.chatgptUrl(或--chatgpt-url),指向一个专门用于 ChatGPT 的项目文件夹,这样浏览器运行就不会污染你的主历史记录了。
Codex 技能
- 将此仓库中的 Oracle 技能复制到你的 Codex 技能文件夹:
mkdir -p ~/.codex/skillscp -R skills/oracle ~/.codex/skills/oracle
- 然后在你的
AGENTS.md/CLAUDE.md中引用它,以便 Codex 加载该技能。
MCP
- 通过
oracle-mcp运行标准输入输出服务器。 - 使用 steipete/mcporter 或
.mcp.json配置客户端;连接示例请参阅 docs/mcp.md。
npx -y @steipete/oracle oracle-mcp
- Cursor 设置(MCP):在
.cursor/mcp.json中添加如下配置,然后在 Cursor 的 MCP 源中选择 “oracle”。UI 步骤请参见 https://cursor.com/docs/context/mcp。
{
"oracle": {
"command": "oracle-mcp",
"args": []
}
}
亮点
- 打包一次,随处复用(API 或实验性浏览器)。
- 多模型 API 以聚合成本/用量运行,支持 OpenRouter ID 与第一方模型并存。
- 渲染/复制捆绑包,以便在自动化受限时手动粘贴到 ChatGPT 中。
- GPT‑5 Pro API 默认以分离模式运行;可通过
oracle session <id>/oracle status重新连接,或使用--wait阻止连接。 - OpenAI/Azure 后续 API 调用可从
--followup <sessionId|responseId>继续;对于多模型父级任务,需添加--followup-model <model>。 - Azure 端点可通过
--azure-endpoint/--azure-deployment/--azure-api-version或AZURE_OPENAI_*环境变量支持。 - 文件安全:支持通配符/排除规则、文件大小限制及
--files-report。 - 可回放的会话(
oracle status、oracle session <id> --render)。 - 会话日志和捆绑包存储于
~/.oracle/sessions目录;可通过ORACLE_HOME_DIR覆盖路径。
后续调用与 lineage 关系
使用 --followup 可基于现有 OpenAI/Azure Responses API 运行继续,并附加上下文或文件:
oracle \
--engine api \
--model gpt-5.2-pro \
--followup <现有会话 ID 或响应 ID> \
--followup-model gpt-5.2-pro \
--slug "my-followup-run" \
--wait \
-p "后续:结合附件文件重新评估之前的建议。" \
--file "server/src/strategy/plan.ts" \
--file "server/src/strategy/executor.ts"
当父级会话使用了 --models 参数时,--followup-model 用于指定从哪个模型的响应 ID 继续链式调用。
自定义 --base-url 提供者以及 Gemini/Claude API 调用在此处不适用,因为它们不会在 Oracle 中保留 previous_response_id。
oracle status 以树状结构展示父子 lineage 关系:
最近会话
状态 模型 模式 时间戳 字数 成本 标签
已完成 gpt-5.2-pro api 2026年03月01日 上午09:00 1800 $2.110 architecture-review-parent
已完成 gpt-5.2-pro api 2026年03月01日 上午09:14 2200 $2.980 ├─ architecture-review-followup
运行中 gpt-5.2-pro api 2026年03月01日 上午09:22 1400 - │ └─ architecture-review-implementation-pass
待处理 gpt-5.2-pro api 2026年03月01日 上午09:25 900 - └─ architecture-review-risk-check
浏览器自动重连(长时间 Pro 运行)
当浏览器运行超时时(常见于 GPT‑5.x Pro 的长响应),Oracle 可持续轮询当前 ChatGPT 标签页,捕获最终答案,而无需手动执行 oracle session <id> 命令。
通过设置非零间隔启用自动重连功能:
--browser-auto-reattach-delay— 第一次重试前的等待时间(如30s)--browser-auto-reattach-interval— 重试频率(如2m)--browser-auto-reattach-timeout— 每次尝试的超时时间(默认2m)
oracle --engine browser \
--browser-timeout 6m \
--browser-auto-reattach-delay 30s \
--browser-auto-reattach-interval 2m \
--browser-auto-reattach-timeout 2m \
-p "执行长时间的 UI 审计" --file "src/**/*.ts"
你真正会用到的参数
| 标志 | 用途 |
|---|---|
-p, --prompt <text> |
必需的提示文本。 |
-f, --file <paths...> |
附加文件/目录(支持通配符及 ! 排除)。 |
-e, --engine <api|browser> |
选择 API 或浏览器模式(浏览器模式为实验性功能)。 |
-m, --model <name> |
内置模型(默认为 gpt-5.4-pro,还包括 gpt-5.4、gpt-5.1-pro、gpt-5-pro、gpt-5.1、gpt-5.1-codex、gpt-5.2、gpt-5.2-instant、gpt-5.2-pro、仅限 API 的 gemini-3.1-pro、gemini-3-pro、claude-4.5-sonnet、claude-4.1-opus)以及任意 OpenRouter 模型 ID(如 minimax/minimax-m2、openai/gpt-4o-mini)。 |
--models <list> |
多模型运行时使用的以逗号分隔的 API 模型列表(可混合内置模型和 OpenRouter 模型 ID)。 |
--followup <sessionId|responseId> |
从已保存的 Oracle 会话或 resp_... 响应 ID 继续 OpenAI/Azure Responses API 运行。 |
--followup-model <model> |
对于多模型的 OpenAI/Azure 父级会话,选择从哪个模型的响应继续。 |
--base-url <url> |
将 API 请求指向 LiteLLM、Azure、OpenRouter 等服务。 |
--chatgpt-url <url> |
在浏览器模式下指定 ChatGPT 工作区或文件夹。 |
--browser-model-strategy <select|current|ignore> |
控制浏览器模式下 ChatGPT 模型的选择策略(current 保持当前模型;ignore 跳过模型选择器)。 |
--browser-manual-login |
跳过复制 Cookie 的步骤,直接使用持久化的自动化配置文件,并等待手动登录 ChatGPT。 |
--browser-thinking-time <light|standard|extended|heavy> |
设置 ChatGPT 思考时间的强度(仅适用于浏览器模式下的 Thinking/Pro 模型)。 |
--browser-port <port> |
固定 Chrome DevTools 的端口(用于 WSL 或 Windows 防火墙辅助工具)。 |
--browser-inline-cookies[(-file)] <payload | path> |
在无需 Chrome 或 Keychain 的情况下提供 Cookie(浏览器模式)。 |
--browser-timeout, --browser-input-timeout |
控制整体及输入操作的超时时间(支持小时、分钟、秒、毫秒单位)。 |
--browser-recheck-delay, --browser-recheck-timeout |
针对长时间 Pro 模型运行的延迟重检机制:等待超时后再次尝试捕获结果(支持小时、分钟、秒、毫秒单位)。 |
--browser-reuse-wait |
在启动并行浏览器任务前,等待共享的 Chrome 配置文件可用。 |
--browser-profile-lock-timeout |
在发送请求之前,等待共享的手动登录配置文件解锁(用于序列化并行运行)。 |
--render, --copy |
打印和/或复制生成的 Markdown 包。 |
--wait |
阻塞等待后台 API 运行完成(例如 GPT‑5.1 Pro),而不是将其分离到后台执行。 |
--timeout <seconds|auto> |
整体 API 的截止时间(auto 表示专业版为 60 分钟,其他情况为 120 秒)。 |
--background, --no-background |
强制在 API 运行中启用 Responses API 的后台模式(创建 + 检索)。 |
--http-timeout <ms|s|m|h> |
HTTP 客户端超时时间(默认 20 分钟)。 |
--zombie-timeout <ms|s|m|h> |
覆盖 oracle status 使用的过期会话判定阈值。 |
--zombie-last-activity |
使用最后的日志活动来检测过期会话。 |
--write-output <path> |
只保存最终答案(多模型运行时会在文件名后添加 .<model> 后缀)。 |
--files-report |
打印每个文件的 token 使用量。 |
--dry-run [summary|json|full] |
预览运行结果,但不实际发送请求。 |
--remote-host, --remote-token |
使用远程 oracle serve 主机(浏览器模式)。 |
--remote-chrome <host:port> |
在浏览器模式下连接到现有的远程 Chrome 会话。 |
--youtube <url> |
待分析的 YouTube 视频 URL(Gemini 浏览器模式)。 |
--generate-image <file> |
生成图像并保存到文件(Gemini 浏览器模式)。 |
--edit-image <file> |
使用 --output 编辑现有图像(Gemini 浏览器模式)。 |
--azure-endpoint, --azure-deployment, --azure-api-version |
指定 Azure OpenAI 的端点(自动选择 Azure 客户端)。 |
配置
将默认配置放在 ~/.oracle/config.json 文件中(使用 JSON5 格式)。示例如下:
{
model: "gpt-5.4-pro",
engine: "api",
filesReport: true,
browser: {
chatgptUrl: "https://chatgpt.com/g/g-p-691edc9fec088191b553a35093da1ea8-oracle/project",
},
}
可以使用 browser.chatgptUrl(或旧版别名 browser.url)来指定浏览器自动化操作的目标 ChatGPT 工作区/文件夹。
有关优先级和完整配置模式,请参阅 docs/configuration.md。
高级标志
| 部分 | 标志 |
|---|---|
| 浏览器 | --browser-manual-login, --browser-thinking-time, --browser-timeout, --browser-input-timeout, --browser-recheck-delay, --browser-recheck-timeout, --browser-reuse-wait, --browser-profile-lock-timeout, --browser-auto-reattach-delay, --browser-auto-reattach-interval, --browser-auto-reattach-timeout, --browser-cookie-wait, --browser-inline-cookies[(-file)], --browser-attachments, --browser-inline-files, --browser-bundle-files, --browser-keep-browser, --browser-headless, --browser-hide-window, --browser-no-cookie-sync, --browser-allow-cookie-errors, --browser-chrome-path, --browser-cookie-path, --chatgpt-url |
| 运行控制 | --background, --no-background, --http-timeout, --zombie-timeout, --zombie-last-activity |
| Azure/OpenAI | --azure-endpoint, --azure-deployment, --azure-api-version, --base-url |
远程浏览器示例
# 主机(已登录的 Chrome):启动服务
oracle serve --host 0.0.0.0:9473 --token secret123
# 客户端:连接到该主机
oracle --engine browser --remote-host 192.168.1.10:9473 --remote-token secret123 -p "运行 UI 烟囱测试" --file "src/**/*.ts"
# 如果无法同步 Cookie,可直接传递内联 Cookie(JSON 或 base64 格式)
oracle --engine browser --browser-inline-cookies-file ~/.oracle/cookies.json -p "运行 UI 烟囱测试" --file "src/**/*.ts"
会话管理
# 清理存储的会话(默认路径为 ~/.oracle/sessions;可通过 ORACLE_HOME_DIR 覆盖)
oracle status --clear --hours 168
更多文档
- 桥接(Windows 主机 → Linux 客户端):docs/bridge.md
- 浏览器模式与分支:docs/browser-mode.md(包含
oracle serve远程服务)、docs/chromium-forks.md、docs/linux.md - MCP:docs/mcp.md
- OpenAI/Azure/OpenRouter 端点:docs/openai-endpoints.md、docs/openrouter.md
- 手动烟囱测试:docs/manual-tests.md
- 测试:docs/testing.md
如果您正在寻找更强大的上下文管理工具,请访问 https://repoprompt.com
灵感来源:https://ampcode.com/news/oracle
steipete 的更多免费工具
版本历史
v0.9.02026/03/08v0.8.62026/02/09v0.8.52026/01/19v0.8.42026/01/05v0.8.32025/12/31v0.8.12025/12/30v0.8.02025/12/28v0.7.62025/12/25v0.7.52025/12/23v0.7.42025/12/23v0.7.32025/12/23v0.7.22025/12/17v0.7.12025/12/17v0.7.02025/12/14v0.6.12025/12/13v0.6.02025/12/12v0.5.62025/12/09v0.5.42025/12/08v0.5.32025/12/06v0.5.22025/12/06常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器