WritingTools

GitHub
2.2k 130 非常简单 1 次阅读 2天前GPL-3.0图像语言模型开发框架Agent
AI 解读 由 AI 自动生成,仅供参考

WritingTools 是一款受 Apple Intelligence 启发、面向 Windows、Linux 和 macOS 的全系统智能写作助手。它旨在解决用户在任意应用程序中写作时面临的语法错误、表达不够精准或需要快速总结长内容等痛点。只需按下快捷键,用户即可对选中的文本进行即时校对、润色、风格调整(如更友好或更专业),甚至执行自定义指令(如翻译或添加代码注释);同时,它还支持一键生成网页、文档及 YouTube 视频的智能摘要。

这款工具非常适合学生、职场人士、内容创作者以及任何希望提升写作效率的普通用户,同时也为开发者提供了利用本地大模型或免费云端 API 的灵活选择。其独特亮点在于真正的“全系统”覆盖能力,打破了应用间的壁垒,让用户在任何软件中都能获得一致的 AI 辅助体验。此外,作为完全免费且开源的项目,WritingTools 不仅支持多种语言,还允许用户高度自定义功能按钮,兼顾了隐私保护与个性化需求,是目前全球范围内极具影响力的智能写作解决方案之一。

使用场景

一位跨国公司的技术文档工程师正在赶制一份急需提交给欧洲客户的英文产品更新说明,同时需要快速消化一篇冗长的德语技术博客以提取关键参数。

没有 WritingTools 时

  • 切换成本高昂:需要在浏览器、Word 和专门的语法检查网站之间反复复制粘贴,打断写作心流,效率极低。
  • 语气调整困难:写完草稿后,难以凭直觉判断措辞是否足够“专业”或“简洁”,往往需要人工逐句推敲,耗时费力。
  • 信息提炼繁琐:面对长篇外语技术资料,只能依赖浏览器的基础翻译,无法快速生成结构化的关键点摘要或对比表格。
  • 多语言支持局限:现有的免费工具对非英语语法的纠错能力较弱,处理混合语言内容时经常报错或建议不准确。
  • 隐私与费用顾虑:担心将未公开的产品文档上传至付费云端服务存在泄露风险,而本地部署的高级助手又配置复杂。

使用 WritingTools 后

  • 系统级无缝集成:只需选中任意文本并按下 Ctrl+Space,即可在当前窗口直接调用 AI 进行润色,无需离开编辑环境。
  • 一键风格转换:通过预设指令(如"Professional"或"Concise")瞬间将草稿转化为符合商务规范的正式文档,甚至可自定义“添加代码注释”等特定需求。
  • 智能摘要生成:选中整个网页或视频转录稿,点击"Summary"或"Table",立刻弹出包含核心参数的结构化摘要,支持进一步对话追问。
  • 全球语言覆盖:利用强大的本地或云端 LLM 模型,流畅处理英、德、法等多种语言的语法修正与翻译,准确率远超传统工具。
  • 灵活且安全:自由选择免费的 Gemini API 或完全本地的 LLM 模型,既保证了敏感数据的安全性,又实现了零成本的高效办公。

WritingTools 通过将顶尖的 AI 写作与摘要能力嵌入系统底层,让跨语言内容创作与信息处理变得像按下快捷键一样简单自然。

运行环境要求

操作系统
  • Windows
  • Linux
  • macOS
GPU
  • 非必需
  • 可选本地运行 LLM(通过 Ollama, llama.cpp, MLX 等),具体显卡需求取决于所选模型
  • macOS Apple Silicon 可使用 MLX 进行本地推理
内存

未说明(取决于是否使用本地大语言模型及模型大小)

依赖
notes1. Windows 版为便携应用,解压即可运行,无需复杂安装。2. macOS 版本需 macOS 14 及以上,首次启动需授予“辅助功能”和“屏幕录制”权限。3. Linux 版在 Wayland 下有限制,建议使用 X11 或通过 Flatseal 为特定 Flatpak 禁用 Wayland。4. 支持连接云端 API(Gemini, ChatGPT 等)或本地模型,使用本地模型时数据完全离线。5. 默认快捷键为 Ctrl+Space(macOS 需注意与 Spotlight 冲突)。
python未说明
Ollama (可选,用于本地 LLM)
MLX (可选,macOS 本地推理)
llama.cpp (可选)
KoboldCPP (可选)
TabbyAPI (可选)
vLLM (可选)
WritingTools hero image

快速开始

写作工具

🍎 使用 Mac?跳转到 macOS(原生 Swift 移植)部分 → macOS

通过 AI 在全系统范围内即时校对和优化你的写作:

https://github.com/user-attachments/assets/d3ce4694-b593-45ff-ae9a-892ce94b1dc8

一键总结内容(网页、YouTube 视频、文档等):

https://github.com/user-attachments/assets/76d13eb9-168e-4459-ada4-62e0586ae58c

添加你自己的按钮,释放无限可能!

image

✨ 什么是写作工具?

写作工具是一款受 Apple Intelligence 启发的跨平台应用,适用于 Windows、Linux 和 macOS,它通过 AI 大语言模型(云端或本地)来大幅提升你的写作效率。

只需按下一个热键,即可在全系统范围内修复语法、根据你的指令优化文本、总结内容(如网页、YouTube 视频等),以及执行更多操作。

目前,它是全球最智能的系统级语法助手,支持几乎所有语言,并已被🔥28+ 家全球媒体 报道(例如 BeebomXDAHow-To GeekNeowinWindows Central...)。

此外,写作工具还跻身 GitHub 2024 年 10 月的 🔥全球十大热门 AI 项目


大家好!我是来自班加罗尔的高中生 Jesai。在各位杰出贡献者的帮助下,我创建并维护着写作工具。特别要感谢为项目做出巨大贡献的 momokrono,以及完成了整个 macOS 移植工作的 Arya Mirsepasi

写作工具将永远保持完全免费和开源。

如果你觉得它很有价值,希望你能继续支持我们,帮助我们不断改进。❤️

支持 Jesai(Windows/Linux): 支持 Arya(macOS):
Buy Me A Coffee Buy Me A Coffee

⚡ 我究竟能用写作工具做什么?

1️⃣ 超智能写作工具:

  • 在电脑上选择任意文本,然后按下 Ctrl+Space 调用写作工具。
  • 选择“校对”、“改写”、“友好”、“专业”、“简洁”,或者输入自定义指令(例如:“给这段代码添加注释”、“首字母大写”、“翻译成法语”)。
  • 文本会立即被 AI 优化后的版本替换。如果需要恢复原始文本,只需按下 Ctrl+Z 即可。

2️⃣ 强大的内容摘要功能,还能与之对话:

  • 使用 Ctrl+A 选中任何网页、文档、邮件等内容中的全部文本,或者选择 YouTube 视频的字幕(从视频描述中获取)。
  • 调用写作工具后,选择“摘要”、“要点”或“表格”。
  • 你会看到一个格式清晰美观的弹出式摘要(支持 Markdown 渲染),帮你节省大量时间。
  • 如果你想了解更多或有疑问,还可以直接与摘要进行对话。

3️⃣ 自定义专属按钮,随心所欲!

  • 这些按钮就是你的魔法按键。只要你想得到什么效果,AI 都能帮你实现。

3️⃣ 随时随地一键与 LLM 对话:

  • 不需选中文本,直接按下 Ctrl+Space,即可开始与你的 LLM 对话。(为了保护隐私,关闭窗口后聊天记录会被清除)

🌟 为什么选择写作工具?

除了它是唯一一款类似于 Apple Writing Tools 的 Windows/Linux 应用程序,也是在 Intel Mac 或欧盟地区使用类似功能的唯一途径之外:

  • 比 Apple Writing Tools 和 Grammarly Premium 更智能: Apple 使用的是一个参数量仅为 30 亿的小型模型,而写作工具则允许你免费使用更先进的模型(例如 Gemini 2.0 Flash [约 300 亿参数])。Grammarly 基于规则的 NLP 技术根本无法与 LLM 相提并论。
  • 完全免费且开源: 无需订阅或支付任何隐藏费用。软件轻量无冗余,即使在使用时也仅占用约 0% 的 CPU 资源。
  • 支持多种 AI 大语言模型: 你可以快速接入免费的 Gemini API 和 Gemini 2.0,也可以通过 Ollama [说明]、llama.cpp、KoboldCPP、TabbyAPI、vLLM 等丰富的本地 LLM,或者通过写作工具的 OpenAI API 兼容性连接到云端 LLM(如 ChatGPT、Mistral AI 等)。
  • 不会干扰你的剪贴板,且可在全系统范围内运行。
  • 注重隐私: 你的 API 密钥和配置文件都保存在你自己的设备上。绝不记录日志、收集诊断信息、追踪用户行为或投放广告。只有在你主动调用时才会运行。使用本地 LLM 时,数据完全保留在你的设备上,无需联网即可工作。
  • 多语言支持: 支持所有语言,并且在文本翻译方面比 Google Translate 表现更好(只需在“描述你的修改…”中输入“翻译成[语言]”即可)。
  • 代码支持: 你可以通过“描述你的修改…”来修复、优化、翻译代码,或为其添加注释。
  • 主题、深色模式与自定义: 提供两种主题——模糊渐变主题和类似 Windows + V 快捷方式弹出框的简约主题!同时全面支持深色模式。你还可以自定义快捷键,以便快速访问。

1 分钟安装指南

🪟 Windows

  1. 访问 Releases 页面,下载最新的 Writing.Tools.zip 文件。
  2. 将其解压到你想要的位置(推荐放在“文档”或“App Data/Local”目录下),然后运行 Writing Tools.exe,尽情享受吧! :D

注意:写作工具是一款便携式应用。如果你将其解压到受保护的文件夹(如“Program Files”),至少在首次启动时需要以管理员身份运行,以便它能够创建或编辑自身的配置文件(位于与可执行文件相同的文件夹内)。

PS:前往写作工具的设置界面(通过任务栏右下角的托盘图标进入),启用开机自启动功能。

🐧 Linux(开发中)

从源代码运行

Writing Tools 在 X11 上运行良好。但在 Wayland 上,有一些需要注意的地方:

🍎 macOS

macOS 版本是由 Arya Mirsepasi 开发的 原生 Swift 移植版。请查看 macOS 文件夹内的 README,以了解更多信息。

安装步骤如下:

  1. 前往 Releases 页面,下载最新的 macOS .dmg 文件。
  2. 打开 .dmg 文件,同时打开一个 Finder 窗口,将 writing-tools.app 拖入“应用程序”文件夹即可。完成!

注意:由于辅助功能 API 的要求,macOS 需要 14 或更高版本。


💎 为什么 macOS 移植版如此特别

  • 真正原生:使用 Swift(必要时结合 SwiftUI 和 AppKit)构建,带来快速且精致的 Mac 体验。
  • 私密且本地运行:在 Apple Silicon 设备上使用 MLX 运行 本地大语言模型 — 无需互联网连接。
  • 富文本感知校对功能会保留 RTF 格式(粗体、斜体、列表、链接),使文档外观保持不变,同时消除错误。
  • 按你的流程定制:可以编辑和添加自定义命令,并分配快捷键。
  • 多语言设计:应用界面支持 英语、德语、法语和西班牙语,而命令则适用于更多语言。
  • 多种智能选择:可连接顶级提供商,也可完全使用本地模型——随时切换。
  • 主题:提供多种主题(包括深色模式),以匹配你的桌面风格。

🧠 macOS 上的提供商与模型

  • 云端:OpenAI、Google (Gemini)、Anthropic、Mistral、OpenRouter
  • 本地:Ollama(通过兼容 OpenAI 的端点)以及 MLX on Apple Silicon,用于一流的低延迟本地推理。
  • 你可以自由组合:将敏感内容留在本地使用 MLX 处理,而在需要更强大算力时再使用云端模型。

🖱️ macOS 上的系统级魔法

  • 可在大多数 Mac 应用程序中使用——选中文本,调用 Writing Tools,即可立即进行 校对改写调整语气摘要
  • 无需选中文本,即可与你选择的模型进行 快速对话

提示:如果快捷键与 Spotlight 或输入法切换冲突,请在 Writing Tools 中设置自定义热键,或者在 macOS 设置中调整: 系统设置 → 键盘 → 键盘快捷键(Spotlight / 输入法)。

🔐 macOS 首次启动权限

为确保完整功能,macOS 会提示你授予以下权限:

  • 辅助功能(用于读取或替换选中文本)
  • 屏幕录制(针对某些限制文本访问的应用)

你可以在 系统设置 → 隐私与安全性 中管理这些权限。

⚙️ macOS 的强大功能

  • 命令编辑器:创建可重复使用的按钮来执行自定义提示,并分配快捷键。
  • 模型灵活性:支持自定义 API 密钥,可根据任务切换提供商。
  • 文档友好:RTF 保留型 校对 功能可保持格式不变。
  • 本地化:UI 支持 EN/DE/FR/ES;命令也适用于多种语言。
  • 主题支持:提供多种主题,包括深色模式。

🧩 macOS 故障排除

  • 快捷键不起作用? 更改 Writing Tools 中的快捷键,并确保没有其他功能使用相同的组合键(如 Spotlight 或输入法切换)。
  • 在特定应用中无法替换文本? 确保已为 Writing Tools 启用 辅助功能;对于某些应用,还需要 屏幕录制 权限。
  • 本地模型有问题? 确认 Ollama/MLX 模型正在运行,并且设置中的基础 URL 和模型名称正确。

👀 使用技巧

1️⃣ 根据 YouTube 视频的字幕总结视频内容:

https://github.com/user-attachments/assets/dd4780d4-7cdb-4bdb-9a64-e93520ab61be

2️⃣ 让 Writing Tools 在 MS Word 中更好地工作:Ctrl+Space 快捷键被映射为“清除格式”,会导致段落缩进丢失。以下是改进方法:

注:使用 Writing Tools 时,Word 的富文本格式(粗体、斜体、下划线、颜色等)将会丢失。而像 Obsidian 这样的 Markdown 编辑器则不存在这个问题。

https://github.com/user-attachments/assets/42a3d8c7-18ac-4282-9478-16aab935f35e

🔒 隐私政策

我坚信保护你的隐私至关重要。Writing Tools:

  • 不会自行收集或存储你的任何写作数据。它甚至不收集通用日志,因此非常轻量且注重隐私。
  • 允许你使用本地大语言模型,在设备上完全处理你的文本。
  • 只有当你明确选择某个选项时,才会将文本加密后发送到选定的 AI 提供商。
  • 仅会在你的设备本地存储你的 API 密钥。

注意:如果你选择使用基于云的大语言模型,请参考相应 AI 提供商的隐私政策和服务条款。

✨ 功能说明

  • 校对:最智能的语法和拼写纠正工具。对不起 Grammarly Premium,但我们更好!
  • 改写:优化你的文本措辞。
  • 调整语气:将文本调整为友好或专业风格。
  • 自定义指令:通过“描述你的修改……”来自定义请求(例如“翻译成法语”)。

以下选项会在弹出窗口中显示(支持 Markdown 渲染、文本选择以及可在应用重启时保存并应用的缩放级别):

  • 摘要:生成清晰简洁的摘要。
  • 提取要点:突出最重要的内容。
  • 创建表格:将文本转换为格式化的表格。提示:你可以将表格复制并粘贴到 MS Word 中。

🦙 (可选)Ollama 本地 LLM 使用说明 [适用于 Windows/Linux v7 及以上版本]:

以下说明适用于 Writing Tools Windows/Linux v7+,使用其原生 Ollama 提供者:

  1. 下载 并安装 Ollama。
  2. 这里 选择一个 LLM。推荐使用 Llama 3.1 8B(约需 8GB VRAM)。
  3. 在终端中运行 ollama pull llama3.1:8b 下载模型。
  4. 打开 Writing Tools 设置,直接选择 Ollama AI 提供者。默认模型名称已设置为 Llama 3.1 8B
  5. 完成!尽情享受 Writing Tools 带来的绝对隐私和无需联网的体验吧! 🎉 从今以后,你只需在后台启动 Ollama 和 Writing Tools,它们就能正常工作。

🦙 (可选)Ollama 本地 LLM 使用说明:

这些说明适用于所有版本的 Writing Tools,使用 OpenAI 兼容提供商时适用:

  1. 下载 并安装 Ollama。
  2. 这里 选择一个 LLM。推荐:Llama 3.1 8B(约需 8GB 显存/内存)。
  3. 在终端中运行 ollama pull llama3.1:8b 来下载 Llama 3.1。
  4. 在 Writing Tools 中,设置 OpenAI 兼容 提供商,配置如下:
    • API 密钥:ollama(提示:对于大多数本地 LLM 提供商,此处填写任意随机字符串即可)
    • API 基础 URL:http://localhost:11434/v1
    • API 模型:llama3.1:8b
  5. 就这样!尽情享受 Writing Tools 带来的_绝对_隐私和无网络连接体验吧! 🎉 从今以后,你只需在后台启动 Ollama 和 Writing Tools 即可正常使用。

🐞 已知问题

  1. (正在调查中)在某些设备上,Writing Tools 使用默认快捷键时无法正常工作。

    解决方法:将快捷键更改为 ctrl+`ctrl+j,然后重启 Writing Tools。提示:如果某个快捷键已被其他程序或后台进程占用,Writing Tools 可能无法拦截该快捷键。上述快捷键通常未被使用。

  2. 首次启动 Writing Tools.exe 时可能会耗时较长——这似乎是因为杀毒软件会在允许其运行前对这个新可执行文件进行深度扫描。一旦它在后台加载到内存中,就会像往常一样立即运行。

👨‍💻 直接从源代码运行 Writing Tools

说明在此!

👨‍💻 自行编译应用程序:

说明在此!

🌟 贡献者

如果没有这些出色的贡献者,Writing Tools 不可能发展到今天的水平:

🪟🐧 Windows & Linux 版本:

1. momokrono

增加了对 Linux 的支持,切换到 pynput API 以提高 Windows 系统的稳定性。添加了 Ollama API 支持、可自定义按钮的核心逻辑以及多语言支持。修复了各种 bug,并通过处理 SIGINT 信号实现了优雅退出功能。

@momokrono 非常友善且乐于助人,我非常感激有他这样的贡献者。他不仅在代码方面给予了大量帮助,还在管理 GitHub 问题上发挥了重要作用。—— Jesai

2. Cameron Redmore (CameronRedmore)

对 Writing Tools 进行了大规模重构,增加了 OpenAI 兼容 API 支持、流式响应功能以及未选中文本时的聊天模式。

3. Soszust40 (Soszust40)

协助添加了深色模式、简洁主题、托盘菜单修复及 UI 改进。

4. Alok Saboo (arsaboo)

帮助提升了文本选择的可靠性。

5. raghavdhingra24

使圆角抗锯齿效果更佳,外观更加美观。

6. ErrorCatDev

显著改进了关于窗口,使其可滚动并进行了清理。同时还优化了我们的 .gitignore 和 requirements.txt 文件。

7. Vadim Karpenko

协助添加了开机自启设置!

🍎 macOS 版本:

Arya Mirsepasi 完全独立开发的原生 Swift 移植版!这是一项巨大的工程,他做得非常出色。

在多次邮件交流中,@Aryamirsepasi 一直是我非常敬佩的人,像他这样善良的人实属罕见。我们对他在这里的所有贡献都深表感谢!—— Jesai

1. Joaov41

为 WritingTools 开发了 Gemini 中令人惊叹的图片处理功能,使应用现在不仅可以处理文本,还可以处理图像!

2. drankush

修复了一个问题,该问题会导致当 OpenAI 提供商配置了自定义基础 URL 时(例如用于 Groq 或其他兼容服务),应用无法完成请求。

3. gdmka

  • 添加了一项更改,使 ResponseView 能够记住用户在每次启动应用时偏好的文本大小。
  • 实现了为每个命令单独设置自定义提供商的功能。

🤝 贡献

我欢迎大家的贡献!:D

如果您想改进 Writing Tools,请随时提交 Pull Request 或与我联系(邮箱见下文)。

如果您有重大改动的想法,在动手之前先与我沟通可能会更好。

📬 联系方式

邮箱:jesaitarun@gmail.com

由一名高中生用心制作。请查看我的另一款应用 Bliss AI,一款免费的 AI 辅导工具!

📄 许可证

根据 GNU 通用公共许可证 v3.0 发布。

版本历史

Win_v8+mac_OS_v6.12026/03/01
Win_v8+mac_OS_v6.02025/12/31
Win_v8+mac_OS_v5.52025/12/08
Win_v7.1+macOS_v5.42025/11/06
Win_v7.1+macOS_v52025/08/27
Win_v7.1+macOS_v4.22025/05/20
Win_v7.1+macOS_v4.12025/05/12
Win_v7.1+macOS_v42025/04/26
Win_v7.1+macOS_v3.12025/03/06
Win_v7.1+macOS_v22025/02/15
Win_v7+macOS_v22025/02/15
Win_v6+macOS_v22025/01/26
Win_v6+macOS_v1.02025/01/15
Win_v6+macOS_Beta_52024/12/30
Win_v6+macOS_Beta_42024/12/23
Win_v5+macOS_Beta_42024/12/03
Win_v5+macOS_Beta_32024/12/01
v52024/11/20
v42024/10/22
v32024/10/20

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

154.3k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|3天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|4天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架