ComfyUI-Prompt-Assistant

1.7k 73 简单 2 次阅读今天GPL-3.0图像

AI 解读由 AI 自动生成，仅供参考

ComfyUI-Prompt-Assistant 是一款专为 ComfyUI 打造的全能型提示词辅助插件。它旨在解决用户在 AI 绘画工作流中编写、优化提示词耗时费力，以及难以精准描述画面内容的痛点。通过集成智谱、硅基流动、Gemini、百度及本地 Ollama 等多种大语言模型服务，该工具能一键实现提示词的翻译、润色扩写，并支持对图片和视频进行反向推导生成描述文案。

这款插件特别适合设计师、AI 艺术创作者以及希望提升工作流效率的普通用户。其独特亮点在于高度灵活的架构：不仅支持云端 API 与本地模型的自由切换，还适配了最新的 ComfyUI Node 2.0 标准，允许用户自定义界面布局与拖动排序。此外，它内置了强大的标签管理系统，支持 CSV 格式导入与分类收藏，结合历史提示词检索和预设一键插入功能，让复杂的工作流管理变得井井有条。无论是需要多语言翻译的跨国协作，还是追求隐私安全的本地部署，ComfyUI-Prompt-Assistant 都能提供稳定高效的解决方案，帮助用户更专注于创意本身。

使用场景

一位电商设计师正在 ComfyUI 中批量生成具有东方美学风格的服装海报，需要处理大量复杂的中文创意描述并转化为高质量的英文提示词。

没有 ComfyUI-Prompt-Assistant 时

语言转换低效：设计师需手动将中文创意复制到翻译软件，再粘贴回 ComfyUI，反复切换窗口导致工作流频繁中断。
提示词质量不稳定：直接翻译的英文往往缺乏 AI 绘画所需的细节修饰词（如光影、材质），导致生成图片平淡无奇，需多次人工试错调整。
参考图利用困难：面对客户提供的样衣照片，无法快速反推出对应的结构化提示词，只能凭感觉盲写，还原度极低。
常用风格难复用：每次新建工作流都要重新输入固定的风格标签（如“汉服”、“丝绸质感”），缺乏一键调用预设的功能，重复劳动繁重。

使用 ComfyUI-Prompt-Assistant 后

一站式润色扩写：直接在节点内选中中文描述，一键调用智谱或 Gemini 模型，自动将其翻译并扩写为包含丰富细节的专业英文提示词，无需离开界面。
精准图像反推：连接图像反推节点，上传样衣照即可瞬间获得包含款式、面料和颜色的详细提示词，大幅缩短从参考图到生成图的路径。
预设标签秒插入：通过内置的标签模块，将常用的“东方美学”、“电影级布光”等收藏标签一键插入当前提示词框，确保风格统一且高效。
多模型灵活切换：在配置界面自由切换 Ollama 本地模型或云端 API，针对不同任务选择最优模型，既保证了响应速度又控制了成本。

ComfyUI-Prompt-Assistant 通过将大模型能力无缝嵌入工作流，把原本繁琐的“翻译 - 构思 - 调试”过程压缩为秒级的自动化操作，让创作者能真正专注于创意本身。

运行环境要求

操作系统

Windows
Linux
macOS

GPU

非必需（取决于是否使用本地 Ollama 模型）
若使用本地大模型，需根据模型大小配置相应显存
云端 API 模式无显卡要求

内存

未说明（取决于是否运行本地大模型，云端 API 模式仅需满足 ComfyUI 基础需求）

依赖

notes本工具为 ComfyUI 插件，主要依赖外部 API（如百度翻译、智谱、xFlow 等）或本地 Ollama 服务。无需安装额外的重型深度学习框架（如 torch），除非用户自行配置本地大模型。支持通过 Manager 安装或手动克隆代码。数据配置文件位于 `ComfyUI/user/default/prompt-assistant`。若使用本地 Ollama，需自行安装并配置 Ollama 服务端。

python未说明（需与宿主 ComfyUI 环境一致，通常建议 Python 3.10+）

ComfyUI

requests

ollama (可选，用于本地模型)

快速开始

ComfyUI 提示词小助手✨提示词小助手V2.0

🎉🎉全新版本的提示词小助手上线啦！功能更强，响应速度更快！适配ComfyUI node2.0！🎉🎉

支持调用云端大模型API、本地Ollama大模型。实现提示词、Markdown节点、节点文档翻译；提示词优化、图像反推和视频反推；常用标签收藏、历史记录等功能。是一个全能all in one的提示词插件！

📣更新

[2026-2-15] 🔥V2.0.4

bug修复：修复标签和历史功能无法使用的问题；

[2026-2-13] 🔥V2.0.3

小助手UI：修复子图节小助手创建不稳定的情况，图像节点丢失图像的情况下无法创建小助手的情况；
Ollama：修复因为代理原因导致HTTP502错误

[2026-1-10] V2.0.2

标签模块：修复格式问题，现在可以在自由新建分类和管理标签了。修复预设创建和迁移出错问题；
小助手UI：优化node2.0下的挂载方法，修复子图无法创建小助手和某些情况下不稳定的问题，并提升性能；
交互优化：请求过程新增流式输入效果、优化交互细节；
翻译模块：新增混合语言翻译规则参数，可以设置默认翻译成中文\英文、完善了节点文档翻译；
内置规则：修复部分规则，出现中英混合、kontext输出没有翻译等问题；
API请求：修复gemimi-3-pro无法请求的问题；修复ollama404问题；
节点优化：完善视频反推节点、所有节点加入“[R]”触发词，用于强制节点始终可被执行；
控制台日志：优化日志输出，修复进度日志无限输出的bug；
依赖更新：避免缺少依赖无法启动问题；

[2025-12-21] V2.0.0

调用优化：全面重构小助手，提升API、Ollama调用和稳定度、响应速度；
UI优化：重构前端小助手组件，更加稳定，支持node2.0模式，可以自定义显示位置、拖动按钮排序；
标签模块优化：全新标签机制。改为加载csv模式，支持多到csv随时切换、支持标签收藏；
规则模块优化：全新配置窗口、支持分类、定义规则显示的位置；加入多个预置规则；
API服务模块优化：全新api配置界面。支持自定义服务、支持添加多个模型作为备选；扩写、翻译、反推可独立选择服务
节点重构：重构所有节点，支持多语言，添加视频反推节点（beta）；
用户配置文件迁移：迁移到 \user\default\prompt-assistant 避免重装时用户数据丢失；
新增功能：节点文档翻译、markdown节点翻译

V1.2.x

[2025-11-12] V1.2.3

修复ollama和自定义服务时，返回为空的问题；
Ollama改用原生接口，更好支持qwen3vl；
新增http api作为保底，避免出现请求异常;

[2025-10-14] V1.2.2

移除兼容代码，不再支持comfyUI0.3.27以下的版本。避免小助手UI出现问题；
修复扩写、翻译使用302.ai服务时报错问题，ollama无法自动释放问题；
所有节点添加独立的ollama释放选项；
移除llm和vlm的强制直连参数，避免偶发请求报错问题，在设置界面中添加是否直连选项；
优化控制台日志输出格式，显示更加清晰直观；

[2025-10-14]V1.2.1

优化小助手UI的反应灵敏度；
增强api请求重试机制；
设置界面新增翻译标点符号、自动移除多余空格、移除多余连续点号、保留换行符等选项；
标签窗口记忆窗口大小，记忆上次选中的分类，以及标签栏滚动；
API配置界面，新增自动获取模型列表功能；
Ollama新增自动释放显存选项；
修复预览任意节点在列表情况无法为每个文本框创建小助手的bug。

[2025-9-16]V1.2.0

新增提示词扩写节点
新增302.AI、Ollama服务
标签面板新增记忆功能
右键菜单支持快速切换服务
针对某些主流模型支持关闭思维链
优化反推和翻译节点
新增交流反馈入口徽标
修复下拉菜单bug
修复标签面板搜索标签无法插入bug
修复base_url裁剪错误，解决偶发性请求报错

V1.1.x

[2025-8-28]V1.1.3

优化小助手UI，实现自动避开滚动条，避免重叠误触
修复标签弹窗无滚动条，内容显示不全的问题

[2025-8-23]V1.1.2

重构节点，解决执行时产生多队列和重复执行的问题
API配置界面添加模型参数，某些报错可以尝试调整最大token数解决
简化图像反推流程，提升反推速度
修复了标签按需加载时，无法搜索到未加载的标签

[2025-8-10]V1.1.1

-修复图像反推节点报错

[2025-8-10]V1.1.0

修改了UI交互
支持所有兼容OpenAI SDK API
新增自定自定义规则
新增自定义标签
新增图像反推、Kontext预设、翻译节点节点

V1.0.x

[2025-6-24]V1.0.6：

修复了一些界面bug

[2025-6-24]V1.0.5：

修复新版创建使用选择工具栏创建kontext节点时，出现小助手UI异常问题
修复可能网络环境问题造成的智谱无法服务无法使用问题
修复可能出现实例清除出错导致工作流无法加载问题
修复AIGODLIKE-COMFYUI-TRANSLATION汉化插件导致标签弹窗打开卡住的问题
新增标签面板可以调整大小
优化UI资源加载机制

[2025-6-24]V1.0.3：

重构了api请求服务，避免apikey暴露在前端
修改了配置的保存和读取机制，解决配置无法保存问题
修复了少许bug

[2025-6-21]V1.0.2：

修复了少许bug

[2025-6-15]V1.0.0:

一键插入tag
支持llm扩写
支持百度翻译和llm翻译切换
图片反推提示词
历史、撤销、重做

✨ 功能介绍

💡提示词优化+翻译

支持预设多套提示词优化规则（如扩写、qwen-edit指令优化，kontext指令优化并翻译等）

无语设置目标语言，自动中英互译，自带翻译缓存功能，避免重复翻译导致原文偏差

翻译扩写

🖼图像反推

在图像节点上快速实现将图片反推成提示词，支持（中/英），支持多种反推风格（如自然语言、Tag风格...）

🔖标签、短语预设与收藏

可将常用标签、短语、Lora触发词收集，快速插入。标签可收藏、自定义、排序、并且支持多套标签切换。

标签功能

🕐历史、撤销、重做

可以按句为单位记录（输入框失焦触发记录），撤销和重做提示词，支持跨节点查看提示词历史记录。

📜Markdown和节点文档翻译

支持翻译note节点和Markdown节点，并保持格式

markdown

支持翻译英文节点文档（beta：仅在英文节点才会出现翻译按钮）

nodedoc

📒节点介绍

节点分类✨Prompt Assistant

🔹翻译节点

✨Prompt Assistant → 提示词翻译

🔹提示词优化节点

✨Prompt Assistant → 提示词优化

🔹图像反推节点

✨Prompt Assistant → 图像反推提示词

可以反推图像、结合视觉模型优化图像编辑指令

🔹视频反推节点

✨Prompt Assistant → 视频反推提示词

💡在任意节点输入框中输入[R],在节点输入和参数没有发生变化的情况下，每次都被执行（类似随机种子）

📦 安装方法

⚠️旧版本迁移注意事项

如果您安装过提示词小助手2.0之前的版本，请注意备份原插件目录下的config目录。避免api配置、自定义规则、自定义标签数据丢失！

如果您之前是通过Manager安装则直接更新即可，如果您使用的是手动安装，建议删除旧的插件目录（记得备份config目录！！）将新的插件放入到custom\custom_nodes目录，再将需要恢复的配置文件放回config目录

从ComfyUI Manager中安装

在Manager中输入Prompt Assistant或提示词小助手，点击Install，选择最新版本安装。

克隆代码仓库

导航到您的ComfyUI自定义节点文件夹:
```
cd ComfyUI/custom_nodes
```

克隆这个代码仓库:

git clone https://github.com/yawiii/ComfyUI-Prompt-Assistant.git

重启 ComfyUI：

下载插件压缩包

从克隆仓库中下载最新版本

解压缩到 ComfyUI/custom_nodes 目录下

⚠️注意：建议将插件目录名称修改为：prompt-assistant，以符合ComfyUI规范

重启 ComfyUI

数据自动迁移

新版本能自动将用户的api配置、自定义规则、自定义标签进行升级和迁移。您可以根据自己的需要，将要做迁移的文件，放置在prompt-assistant\config目录下。如果不选择迁移，重新安装后，API配置信息，需要重新手动配置！可迁移文件有新版本的小助手配置文件储存在ComfyUI\user\default\prompt-assistant目录下，

⚙️ 配置说明

配置API Key，并配置模型

服务说明

您可以需求新增服务商，或者选择内置的服务商进行使用：

⚠️免责声明：本插件仅提供API调用工具，第三方服务责任与本插件无关，插件所涉用户配置信息均存储于本地。对于因账号使用产生的任何问题，本插件不承担责任！

百度翻译（机器翻译）：百度通用文本翻译申请入口

速度快，但是翻译质量一般。使用魔法时可能会导致无法请求每个月有免费500w额度

智谱（大语言模型模型）：智谱API申请入口

速度快，无限额度；注意：模型有审查，如果请求内容违规，会返回空结果。并非插件bug。最近智谱开始限制请求频率了。

xFlow-API聚合：xFlow API申请入口

提供各类模型API聚合（如Gemini、nano Bannana、Grok、ChatGTP...），实现一个APIkey调用所有主流大模型，无需解决网络问题；

其他服务商可自行添加

🎀特别感谢以下朋友！

感谢群友为V2.0.0版本提供规则模板：阿丹、CJL、诺曼底

ComfyUI-Prompt-Assistant 快速上手指南

ComfyUI-Prompt-Assistant（提示词小助手）是一款全能型 ComfyUI 插件，支持调用云端大模型 API 或本地 Ollama，提供提示词优化、翻译、图像/视频反推、标签管理及节点文档翻译等功能。

环境准备

系统要求：Windows / Linux / macOS
前置依赖：
- 已安装 ComfyUI (建议更新至最新版本以支持 Node 2.0 特性)
- Python 3.10+ (ComfyUI 自带)
- API Key：需准备至少一个大模型服务密钥（如智谱 AI、百度翻译、xFlow-API 聚合服务等），或配置好本地 Ollama 环境。
网络环境：若使用海外模型 API（如 Gemini, ChatGPT），请确保网络通畅或使用代理；国内用户推荐使用智谱或 xFlow-API 以获得更稳定的连接。

安装步骤

方法一：通过 ComfyUI Manager 安装（推荐）

启动 ComfyUI，点击右侧菜单的 Manager 按钮。
在搜索框输入 Prompt Assistant 或 提示词小助手。
找到 ComfyUI-Prompt-Assistant，点击 Install。
安装完成后，重启 ComfyUI。

方法二：手动克隆安装

打开终端，进入 ComfyUI 的自定义节点目录：
```
cd ComfyUI/custom_nodes
```

克隆仓库代码：

git clone https://github.com/yawiii/ComfyUI-Prompt-Assistant.git

注意：建议将文件夹重命名为 prompt-assistant 以符合规范。

mv ComfyUI-Prompt-Assistant prompt-assistant

重启 ComfyUI。

⚠️ 旧版本迁移提示

如果您之前安装过 V2.0 之前的版本，请在覆盖安装前备份原插件目录下的 config 文件夹。新版本配置文件默认存储在 ComfyUI/user/default/prompt-assistant 目录下，首次启动时可将旧配置复制至此以实现自动迁移。

基本使用

1. 配置 API 服务

在使用任何功能前，必须先配置模型服务。

在 ComfyUI 界面右键空白处，选择 ✨Prompt Assistant -> 设置 (或在任意文本输入框旁点击小助手图标进入设置)。
在 API 配置 面板中：
- 选择服务商：内置支持智谱 (Zhipu)、百度翻译、xFlow-API 等，也可自定义 OpenAI 兼容接口。
- 填入 Key：输入对应的 API Key 和 Base URL（如需）。
- 选择模型：点击自动获取或手动输入模型名称（如 glm-4, qwen-plus 等）。
点击保存。

2. 提示词优化与翻译

这是最基础的使用场景，用于扩写或翻译提示词。

添加节点：✨Prompt Assistant -> 提示词优化 或 提示词翻译。
连接输入：将原始提示词文本连接到节点的 text 输入端。
设置参数：
- 规则/指令：选择预设规则（如“扩写”、“翻译成英文”、"Kontext 优化”）。
- 目标语言：设定输出语言。
执行队列，节点将输出优化后的提示词。

3. 图像反推 (Image to Prompt)

将图片转换为提示词。

添加节点：✨Prompt Assistant -> 图像反推提示词。
连接输入：将 Load Image 节点的图像输出连接到反推节点的 image 输入端。
设置参数：选择反推风格（如“自然语言描述”或"Tag 标签风格”）。
执行队列，节点将输出描述该图像的提示词文本。

4. 使用浮动小助手 (UI Assistant)

在任意文本输入框（如 CLIP Text Encode）旁，会出现一个小的辅助图标（通常在输入框右侧或悬浮显示）：

一键插入标签：点击图标打开标签面板，收藏常用 LoRA 触发词或短语，点击即可插入当前输入框。
历史记录：支持查看、撤销、重做该输入框的历史修改记录。
快捷操作：右键菜单可快速切换服务模式或直接调用翻译/扩写功能。

💡 高级技巧：强制执行

在任何节点的输入框中输入 [R]，即使输入内容和参数未发生变化，该节点在每次运行工作流时也会被强制重新执行（类似随机种子机制），适用于需要动态刷新结果的场景。

版本历史

2.0.22026/01/10

2.0.42026/02/25

2.0.32026/02/13

V2.0.02025/12/21

1.2.32025/11/12

1.2.22025/10/29

1.2.12025/10/14

1.2.02025/09/16

1.1.32025/08/28

1.1.22025/08/23

1.1.12025/08/11

1.1.02025/08/10

1.0.62025/07/03

1.0.52025/07/02

1.0.32025/06/24

1.0.22025/06/21

1.0.02025/06/15

常见问题

如何正确配置 Gemini API 的 Base URL 以避免 400 错误或认证失败？

更新 V2.0.0 后提示 CSV 文件不存在或标签工具无法读取内置 Tags 怎么办？

安装插件时提示“部分扩展因与当前环境不兼容而被禁用”或导入失败如何解决？

如何使用不需要 API Key 的服务商（如本地 Ollama 或 DeepInfra）？

使用插件时报错“百度翻译请求失败”且提示模块找不到（No module named...）怎么办？

加载工作流时出现 TypeError: Cannot read properties of undefined (reading 'id') 错误如何处理？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像