openpencil
OpenPencil 是全球首款开源的 AI 原生矢量设计工具,旨在通过“设计即代码”的理念彻底改变界面创作流程。它解决了传统设计软件中从创意到落地耗时过长、协作效率低以及设计与代码割裂的痛点,让用户能够直接将自然语言提示词转化为可编辑的实时 UI 界面。
这款工具特别适合前端开发者、追求效率的产品设计师以及希望探索 AI 工作流的技术研究人员使用。其核心亮点在于引入了“并发智能体团队”机制:系统能将复杂的页面任务拆解,由多个 AI 智能体并行处理不同区域(如头部、功能区和页脚),大幅提升生成速度。此外,OpenPencil 支持多模型自适应调度,内置 MCP 服务器以便在终端中直接操控设计文件,并将设计保存为人类可读、Git 友好的 JSON 格式(.op 文件),可一键导出为 React + Tailwind 或标准 HTML/CSS 代码。作为一款跨平台的现代化工具,OpenPencil 让界面设计变得像编写代码一样高效、透明且易于版本管理。
使用场景
某初创公司的全栈开发者需要在周五下班前快速构建一个包含复杂布局的营销落地页原型,以便周一向投资人演示。
没有 openpencil 时
- 重复劳动耗时:开发者需先在 Figma 中手动绘制线框图,再切换到代码编辑器重写 HTML/CSS,设计与编码完全割裂。
- 多模块协作困难:面对英雄区、特性展示和页脚等多个板块,只能串行逐个开发,难以在短时间内完成整体页面搭建。
- 风格统一成本高:每次调整视觉风格(如玻璃拟态或复古风)都需要手动修改大量 CSS 变量,容易出错且效率低下。
- 版本管理混乱:设计稿与代码不同步,Git 中只能看到最终代码,无法追溯设计变更的历史差异,回滚极其麻烦。
使用 openpencil 后
- 提示词即界面:开发者直接在画布输入“创建一个带有玻璃拟态效果的 SaaS 落地页”,openpencil 实时流式生成可编辑的矢量 UI,跳过绘图环节。
- 并发代理加速:openpencil 的并发 Agent 团队自动将页面拆解,同时并行生成英雄区、特性区和页脚,构建速度提升数倍。
- 智能风格应用:通过内置风格库标签模糊匹配,一键将“现代极简”风格应用到所有 AI 生成的组件上,无需手动调参。
- 设计即代码版本化:设计以
.op(JSON) 文件存储,天然支持 Git 差分对比,设计师和开发者可在同一份文件中协同并清晰追踪每次变更。
openpencil 通过将自然语言直接转化为可版本控制的代码级设计,彻底消除了从创意到原型之间的繁琐转换过程。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
OpenPencil
全球首款开源的原生AI矢量设计工具。
并发代理团队 • 设计即代码 • 内置MCP服务器 • 多模型智能
English · 简体中文 · 繁體中文 · 日本語 · 한국어 · Français · Español · Deutsch · Português · Русский · हिन्दी · Türkçe · ไทย · Tiếng Việt · Bahasa Indonesia
点击图片即可观看演示视频
注: 还有一个同名的开源项目——OpenPencil,专注于支持Figma的实时协作式可视化设计。而本项目则聚焦于原生AI驱动的设计到代码工作流。
为什么选择OpenPencil
🎨 提示词 → 画布用自然语言描述任何UI界面。它将实时出现在无限画布上,并伴随流畅的动画效果。只需选择元素并进行对话,即可轻松修改现有设计。 |
🤖 并发代理团队编排器会将复杂的页面分解为多个空间子任务。多个AI代理可同时处理不同区域——例如头部、功能区、页脚等——所有操作均以流式传输方式并行进行,每个成员的画布状态都会实时显示。 |
🧠 多模型智能自动适配各模型的能力。Claude接收完整的思考型提示;GPT-4o/Gemini则关闭思考模式;而小型模型(MiniMax、Qwen、Llama)则会收到简化版提示,以确保输出稳定可靠。 |
🔌 MCP服务器一键集成至Claude Code、Codex、Gemini、OpenCode、Kiro或Copilot CLI中。你可以在终端直接进行设计——通过任意兼容MCP的代理读取、创建和修改 |
🎨 样式库内置基于标签的模糊匹配样式库。可将玻璃质感、粗野主义、复古风等视觉风格应用到AI生成的设计中。MCP工具还支持外部代理访问。 |
📦 设计即代码
|
🖥️ 跨平台运行提供Web应用以及基于Electron的原生桌面版本,适用于macOS、Windows和Linux系统。自动从GitHub Releases获取更新。双击 |
⌨️ CLI —
|
🎯 多平台代码导出只需一个 |
🧩 可嵌入SDK
|
🛡️ 设计系统套件管理可复用的UI套件,支持样式切换和组件组合。可通过 |
安装
macOS (Homebrew):
brew tap zseven-w/openpencil
brew install --cask openpencil
Windows (Scoop):
scoop bucket add openpencil https://github.com/zseven-w/scoop-openpencil
scoop install openpencil
Linux / Windows 直接下载: GitHub Releases — .exe(Windows)、.AppImage / .deb(Linux)
CLI (op):
npm install -g @zseven-w/openpencil
快速开始(开发环境)
# 安装依赖
bun install
# 启动开发服务器,地址为 http://localhost:3000
bun --bun run dev
或者以桌面应用形式运行:
bun run electron:dev
前提条件: Bun >= 1.0 和 Node.js >= 18。可选:Zig >= 0.14,用于从源码构建
agent-native(若未安装Zig,则会自动下载预编译二进制文件)。
Docker
提供了多种镜像变体,请根据需求选择:
| 镜像 | 大小 | 包含内容 |
|---|---|---|
openpencil:latest |
~226 MB | 仅Web应用 |
openpencil-claude:latest |
— | + Claude Code CLI |
openpencil-codex:latest |
— | + Codex CLI |
openpencil-opencode:latest |
— | + OpenCode CLI |
openpencil-copilot:latest |
— | + GitHub Copilot CLI |
openpencil-gemini:latest |
— | + Gemini CLI |
openpencil-full:latest |
~1 GB | 包含所有CLI工具 |
仅运行Web应用:
docker run -d -p 3000:3000 ghcr.io/zseven-w/openpencil:latest
运行带AI CLI版本(如Claude Code):
AI聊天功能依赖于Claude CLI的OAuth登录。建议使用Docker卷来持久化登录会话:
# 步骤 1 — 登录(仅需一次)
docker volume create openpencil-claude-auth
docker run -it --rm \
-v openpencil-claude-auth:/root/.claude \
ghcr.io/zseven-w/openpencil-claude:latest claude login
# 步骤 2 — 启动
docker run -d -p 3000:3000 \
-v openpencil-claude-auth:/root/.claude \
ghcr.io/zseven-w/openpencil-claude:latest
本地构建:
# 基础版(仅限网页)
docker build --target base -t openpencil .
# 带特定 CLI 的版本
docker build --target with-claude -t openpencil-claude .
# 完整版(所有 CLI)
docker build --target full -t openpencil-full .
原生 AI 设计
提示到 UI
- 文本转设计 — 描述页面内容,通过 SSE 流式动画实时在画布上生成
- 编排器 — 将复杂页面分解为空间子任务,以实现并行生成
- 代理团队 — 多个并发成员,具备委托工具、成员专属画布指示器及回退策略
- 设计修改 — 选择元素后,用自然语言描述更改内容
- 视觉输入 — 可附加截图或线框图,用于参考式设计
- 风格指南 — 通过基于标签的模糊匹配应用视觉风格(玻璃拟物、粗野主义、复古风等)
- 防重复机制 — 跨代多样性追踪,避免 AI 输出重复内容
多代理支持
| 代理 | 设置 |
|---|---|
| 内置(9+提供商) | 从提供者预设中选择,并可切换地区 — Anthropic、OpenAI、Google、DeepSeek 等 |
| Claude Code | 无需配置 — 使用 Claude Agent SDK 和本地 OAuth |
| Codex CLI | 在代理设置中连接(Cmd+,) |
| OpenCode | 在代理设置中连接(Cmd+,) |
| GitHub Copilot | 先执行 copilot login,再在代理设置中连接(Cmd+,) |
| Gemini CLI | 在代理设置中连接(Cmd+,) |
模型能力档案 — 根据模型层级自动调整提示、思考模式和超时时间。全功能模型(Claude)使用完整提示;标准级模型(GPT-4o、Gemini、DeepSeek)禁用思考模式;基础级模型(MiniMax、Qwen、Llama、Mistral)则采用简化的嵌套 JSON 提示,以确保最大可靠性。
国际化 — 界面全面本地化为 15 种语言:英语、简体中文、繁體中文、日语、韩语、法语、西班牙语、德语、葡萄牙语、俄语、印地语、土耳其语、泰语、越南语、印尼语。
MCP 服务器
- 内置 MCP 服务器(
pen-mcp包)— 一键安装至 Claude Code / Codex / Gemini / OpenCode / Kiro / Copilot CLI - 自动检测 Node.js — 若未安装,则回退至 HTTP 传输并自动启动 MCP HTTP 服务器
- 可通过终端进行设计自动化:使用任何兼容 MCP 的代理读取、创建和修改
.op文件 - 分层设计工作流 —
design_skeleton→design_content→design_refine,适用于高保真度的多区块设计 - 分段式提示获取 — 仅加载所需的设计知识(架构、布局、角色、图标、规划等)
- 风格指南工具 — 使用
get_style_guide_tags和get_style_guide通过 MCP 应用视觉风格 - 支持多页面 — 可通过 MCP 工具创建、重命名、排序和复制页面
代码生成
- React + Tailwind CSS、HTML + CSS、CSS 变量
- Vue、Svelte、Flutter、SwiftUI、Jetpack Compose、React Native
CLI — op
全局安装后,即可通过终端控制设计工具:
npm install -g @zseven-w/openpencil
op start # 启动桌面应用
op design @landing.txt # 从文件批量设计
op insert '{"type":"RECT"}' # 插入节点
op export react --out . # 导出为 React + Tailwind
op import:figma design.fig # 导入 Figma 文件
cat design.dsl | op design - # 从标准输入管道传入
支持三种输入方式:内联字符串、@filepath(从文件读取)或 -(从标准输入读取)。可与桌面应用或 Web 开发服务器配合使用。完整命令参考请参阅 CLI README。
LLM 技能 — 安装 OpenPencil Skill 插件,即可教会 AI 代理(Claude Code、Cursor、Codex、Gemini CLI 等)如何使用 op 进行设计。
功能特性
画布与绘图
- 无限画布,支持平移、缩放、智能对齐引导线及吸附功能
- 矩形、椭圆、直线、多边形、钢笔(贝塞尔曲线)、框架、文本工具
- 布尔运算——并集、差集、交集,并配有上下文工具栏
- 图标选择器(Iconify)和图片导入(PNG/JPEG/SVG/WebP/GIF)
- 自动布局——垂直/水平方向,可设置间距、内边距、对齐方式
- 多页文档支持,可通过标签页导航
设计系统
- 设计变量——颜色、数字、字符串等 token,使用
$variable引用 - 多主题支持——支持多个维度,每个维度包含变体(浅色/深色、紧凑/舒适)
- 组件系统——可复用组件,支持实例化与覆盖
- CSS 同步——自动生成 CSS 自定义属性,在代码输出中使用
var(--name) - 可复用 UI 套件——支持从
.pen文件导入导出组件套件
AI 与代理
- 提示词转画布,支持流式生成及编排驱动的空间分解
- 并发代理团队——多名设计师可并行处理不同区域,每位成员的画布状态实时显示
- 分层工作流——
design_skeleton→design_content→design_refine,各阶段配备针对性提示词 - 风格指南——内置 50+ 种风格(玻璃拟物、粗野主义、复古等),基于标签的模糊匹配,无缝集成到规划与生成流程中
- 多模型能力配置文件——根据模型层级自动调整思维模式、工作强度及提示词结构
- 内置代理运行时(
agent-native, Zig NAPI)+ Anthropic、Claude Agent SDK、OpenCode、Codex、Copilot、Gemini 等提供商 - 支持 Anthropic 格式的中国 LLM 提供商接入——Kimi、智谱、GLM、豆包、悟道、百炼/DashScope、ModelScope、Coding Plans 等
Git 集成
- 克隆向导,支持 SSH / HTTPS 认证及 SSH 密钥管理
- 分支选择器——创建、切换、删除、合并分支,所有操作均在 Git 面板完成
- Pull / push 流程,具备认证重试与非快进处理机制
- 文件夹模式下的三路合并,支持磁盘上的
MERGE_HEAD状态跟踪 - 冲突面板,按节点/字段展示三路对比卡片,内置 JSON 编辑器、批量操作及内联差异块
- 远程仓库设置与 SSH 密钥管理界面;整个 Git 界面支持 15 种语言本地化
导出
- 画布导出——PNG、JPEG、WEBP、PDF(快捷键:Cmd+Shift+P)
- 代码导出——React + Tailwind、HTML + CSS、Vue、Svelte、Flutter、SwiftUI、Jetpack Compose、React Native
- 增量式 MCP 代码生成流水线——
codegen_plan、codegen_submit_chunk、codegen_assemble、codegen_clean
Figma 导入
- 支持导入
.fig文件,保留布局、填充、描边、效果、文本、图片及矢量图形
桌面应用
- 原生 macOS、Windows 和 Linux 版本,基于 Electron 构建
.op文件关联——双击即可打开,单实例锁定- 自动更新,通过 GitHub Releases 发布
- 原生应用菜单,包含另存为、最近打开文件等功能,并在关闭未保存时弹出对话框
- 最近打开文件持久化存储
技术栈
| 前端 | React 19 · TanStack Start · Tailwind CSS v4 · shadcn/ui · i18next |
| 画布 | CanvasKit/Skia(WASM,GPU 加速) |
| 引擎 | pen-engine(无头版) · pen-react(React UI SDK) |
| 状态管理 | Zustand v5 |
| 服务器 | Nitro |
| 桌面端 | Electron 35 |
| CLI 工具 | op — 终端控制、批处理设计 DSL、代码导出 |
| AI | agent-native(Zig NAPI) · Anthropic SDK · Claude Agent SDK · OpenCode SDK · Copilot SDK |
| 运行时 | Bun · Vite 7 |
| 代码检查 | oxlint · oxfmt |
| 文件格式 | .op — 基于 JSON,人类可读,兼容 Git |
项目结构
openpencil/
├── apps/
│ ├── web/ TanStack Start Web 应用
│ │ ├── src/
│ │ │ ├── canvas/ CanvasKit/Skia 引擎——绘图、同步、布局
│ │ │ ├── components/ React UI——编辑器、面板、共享对话框、图标
│ │ │ ├── services/ai/ AI 聊天、编排器、设计生成、流式传输
│ │ │ ├── services/codegen/ 代码生成服务封装
│ │ │ ├── stores/ Zustand——画布、文档、页面、历史记录、AI
│ │ │ ├── hooks/ 键盘快捷键、文件拖放、Figma 粘贴、MCP 同步
│ │ │ ├── i18n/ 国际化——支持 15 种语言
│ │ │ └── uikit/ 可复用组件套件系统
│ │ └── server/
│ │ ├── api/ai/ Nitro API——流式聊天、代理、生成、图像搜索
│ │ ├── api/mcp/ MCP HTTP 传输接口
│ │ └── utils/ Claude、OpenCode、Codex、Copilot、Gemini 的 CLI 封装
│ ├── desktop/ Electron 桌面应用
│ │ ├── main.ts 窗口、Nitro 分叉、原生菜单、自动更新程序
│ │ ├── ipc-handlers.ts 原生文件对话框、主题同步、偏好设置 IPC
│ │ └── preload.ts IPC 桥接
│ └── cli/ CLI 工具——`op` 命令
│ ├── src/commands/ 设计、文档、导出、导入、节点、页面、变量相关命令
│ ├── connection.ts WebSocket 连接到正在运行的应用
│ └── launcher.ts 自动检测并启动桌面应用或 Web 服务器
├── packages/
│ ├── pen-types/ PenDocument 模型的类型定义
│ ├── pen-core/ 文档树操作、布局引擎、变量管理
│ ├── pen-engine/ 无头设计引擎——文档、选区、历史记录、视口
│ ├── pen-react/ React UI SDK——提供者、画布、钩子、面板、工具栏
│ ├── pen-codegen/ 代码生成器(React、HTML、Vue、Flutter 等)
│ ├── pen-figma/ Figma .fig 文件解析器和转换工具
│ ├── pen-renderer/ 独立的 CanvasKit/Skia 渲染器
│ ├── pen-mcp/ MCP 服务器——工具、路由、文档管理
│ ├── pen-sdk/ 总 SDK(重新导出所有包)
│ ├── pen-ai-skills/ AI 提示词技能引擎(按阶段加载提示词)
│ └── agent-native/ 原生 AI 代理运行时(Zig NAPI,多提供商,支持团队协作)
└── .githooks/ 提交前从分支名同步版本号
键盘快捷键
| 键 | 操作 | 键 | 操作 | |
|---|---|---|---|---|
V |
选择 | Cmd+S |
保存 | |
R |
矩形 | Cmd+Z |
撤销 | |
O |
椭圆 | Cmd+Shift+Z |
重做 | |
L |
直线 | Cmd+C/X/V/D |
复制/剪切/粘贴/复制 | |
T |
文本 | Cmd+G |
组合 | |
F |
框架 | Cmd+Shift+G |
取消组合 | |
P |
钢笔工具 | Cmd+Shift+P |
导出 (PNG/JPG/WEBP/PDF) | |
H |
手势(平移) | Cmd+Shift+C |
代码面板 | |
Del |
删除 | Cmd+Shift+V |
变量面板 | |
[ / ] |
重新排序 | Cmd+J |
AI 聊天 | |
| 箭头 | 微调 1px | Cmd+, |
代理设置 | |
Cmd+Alt+U |
布尔并集 | Cmd+Alt+S |
布尔差集 | |
Cmd+Alt+I |
布尔交集 | Cmd+Shift+S |
另存为 |
脚本
bun --bun run dev # 开发服务器 (端口 3000)
bun --bun run build # 生产构建
bun --bun run test # 运行测试 (Vitest)
npx tsc --noEmit # 类型检查
bun run lint # 代码检查 (oxlint)
bun run format # 代码格式化 (oxfmt)
bun run bump <version> # 同步所有 package.json 中的版本
bun run electron:dev # Electron 开发
bun run electron:build # Electron 打包
bun run cli:dev # 从源码运行 CLI
bun run cli:compile # 将 CLI 编译到 dist
bun run mcp:dev # 从源码运行 MCP 服务器
贡献
欢迎贡献!请参阅 CLAUDE.md,了解架构细节和代码风格。
- 分支并克隆
- 设置版本同步:
git config core.hooksPath .githooks - 创建分支:
git checkout -b feat/my-feature - 运行检查:
npx tsc --noEmit && bun --bun run test - 使用 Conventional Commits 提交:
feat(canvas): 添加旋转吸附 - 对
main提交 PR
路线图
- 设计变量与 CSS 同步的 token
- 组件系统(实例与覆盖)
- 带有编排器的 AI 设计生成
- MCP 服务器集成分层设计工作流
- 多页面支持
- Figma
.fig导入 - 布尔运算(并集、差集、交集)
- 多模型能力配置文件
- 单仓库重构,使用可复用包
- CLI 工具 (
op) 用于终端控制 - 内置 AI 代理 SDK,支持多提供商
- i18n — 15 种语言
- 无头设计引擎 (
pen-engine) + React UI SDK (pen-react) - 样式指南,带标签匹配和 MCP 工具
- 并发代理团队,带委托工具和画布指示器
- 原生代理运行时 (
agent-native— Zig NAPI) - Git 集成 — 克隆、分支、推送/拉取、文件夹模式三路合并
- 画布栅格导出 (PNG / JPEG / WEBP / PDF)
- 协作编辑
- 插件系统
贡献者
赞助商
OpenPencil 是免费且开源的。开发资金来自那些觉得它有用的人——感谢您让画布保持开放。
感谢 MrQyun — 想让您的名字也出现在这里吗?成为赞助商 →
社区
星标历史
许可证
MIT — 版权归 2026 ZSeven-W 所有
版本历史
v0.7.12026/04/13v0.7.02026/04/11v0.1.12026/03/02v0.1.02026/03/01v0.6.02026/03/28v0.5.22026/03/24v0.5.12026/03/23v0.5.02026/03/22v0.4.42026/03/20v0.4.32026/03/18v0.4.22026/03/17v0.4.12026/03/16v0.4.02026/03/15v0.3.32026/03/11v0.3.22026/03/10v0.3.12026/03/09v0.3.02026/03/08v0.2.12026/03/06v0.2.02026/03/05v0.1.22026/03/03常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器