ComfyUI-Workflows-ZHO

7.3k 685 中等 1 次阅读 3天前GPL-3.0图像

AI 解读由 AI 自动生成，仅供参考

ComfyUI-Workflows-ZHO 是由创作者 ZHO 精心整理的 ComfyUI 工作流合集，旨在为用户提供一站式、开箱即用的创意生成解决方案。面对 ComfyUI 节点连接复杂、新手上手门槛高的问题，该合集将复杂的图像与视频生成逻辑封装成可视化的工作流文件，用户只需导入即可复现高质量效果，无需从零搭建。

资源库内容极其丰富，涵盖 22 个大类、50 余项前沿应用，不仅包括 Stable Diffusion 3、FLUX.1、Hunyuan Video 等最新模型的实战配置，还涉及 InstantID 人像保持、LivePortrait 动物表情驱动、3D 生成及大语言模型联动等高级玩法。其独特亮点在于紧跟技术潮流，快速适配并优化了如 FLUX.1 DEV/SCHNELL 和腾讯混元视频等刚发布的热门模型，同时提供了中文友好的辅助工具。

这套资源非常适合希望高效利用 AI 进行创作的设计师、视频博主及数字艺术家，也能帮助开发者快速验证新模型特性。无论是想轻松制作动态肖像的普通用户，还是追求极致效果的专业研究人员，都能在这里找到对应的成熟方案，极大降低了探索前沿 AI 视觉技术的时间成本。

使用场景

某独立游戏开发者急需为新品宣传制作一段“动物角色开口说话”的短视频，以展示游戏角色的生动性。

没有 ComfyUI-Workflows-ZHO 时

技术门槛极高：开发者需手动研究 LivePortrait 等复杂模型的节点连接逻辑，面对 ComfyUI 空白的画布无从下手，极易因连线错误导致运行失败。
调试耗时漫长：为了让动物面部表情自然且口型同步，需要反复调整数十个参数，单次试错成本高达数小时，严重拖慢宣传进度。
功能整合困难：难以将视频生成、面部驱动与后期高清修复（如 APISR）串联成自动化流程，只能依赖多个软件手动拼接，画质损耗严重。
缺乏中文支持：主流开源工作流多为英文界面或文档，提示词编写和参数理解存在语言障碍，增加了学习成本。

使用 ComfyUI-Workflows-ZHO 后

一键加载成熟方案：直接导入仓库中现成的"LivePortrait Animals 1.0"工作流文件，无需从零搭建，瞬间获得经过验证的动物面部驱动节点架构。
快速迭代创意：基于预设的优质参数基准，仅需替换源视频和驱动音频即可在几分钟内生成高质量演示片，将数天的工作量压缩至半小时。
全流程自动化：利用合集内集成的视频生成与高清修复链路，一次性输出清晰流畅的最终成品，避免了多软件切换带来的画质损失。
本土化友好体验：依托作者提供的简体中文版工作流（如 Portrait Master 等），开发者能无障碍理解每个节点功能，精准控制生成细节。

ComfyUI-Workflows-ZHO 通过将复杂的 AI 视频技术封装为开箱即用的中文工作流，让非算法专业的创作者也能高效落地高难度的动态视觉创意。

运行环境要求

操作系统

Windows
Linux
macOS

GPU

必需（针对本地运行）
需 NVIDIA GPU 以支持 CUDA 加速
显存需求视具体工作流而定：基础 SD/FLUX 工作流建议 8GB+
3D 生成 (TripoSR)、视频生成 (Hunyuan Video, SVD) 及大模型 (LLM) 工作流建议 12GB-24GB+
部分工作流提供 Colab 链接作为替代方案

内存

最低 16GB，推荐 32GB+（尤其是运行 LLM、3D 生成或高分辨率视频工作流时）

依赖

notes本仓库为 ComfyUI 工作流合集而非独立软件，运行前必须已安装并配置好 ComfyUI 环境。不同工作流（如 Hunyuan Video, FLUX.1, Stable Cascade, 3D 生成）依赖不同的自定义节点和模型文件，首次运行需通过 ComfyUI-Manager 安装缺失节点并下载对应的大体积模型文件（单个模型可达数 GB 至数十 GB）。部分高级功能（如 Qwen-VL, Gemini）需要配置 API Key。建议使用具备较大显存的 NVIDIA 显卡以获得最佳性能，或使用提供的 Google Colab 链接在云端运行。

python未说明（取决于宿主 ComfyUI 环境，通常建议 Python 3.10+）

ComfyUI (核心宿主)

torch (版本视显卡而定)

ComfyUI-Manager (用于安装自定义节点)

transformers

diffusers

xformers 或 pytorch-cuda (可选加速)

特定自定义节点插件 (如 ComfyUI-BRIA_AI-RMBG, ComfyUI-layerdiffuse, ComfyUI-Flowty-TripoSR-ZHO 等)

快速开始

工作流合集封面

ComfyUI Workflows ZHO

我的 ComfyUI 工作流合集 | My ComfyUI workflows collection

工作流库5K-2

关于我

🔗 社交媒体：

个人页：-Zho-
Bilibili：我的B站主页
X（Twitter）：我的Twitter
小红书：我的小红书主页

📬 联系我：

邮箱：zhozho3965@gmail.com
QQ 群：839821928

💡 支持我：

B站：B站充电
爱发电：为我充电

展开 | Expand

Dingtalk_20240329183235

2️⃣3️⃣ Hunyuan Video

HUNYUAN VIDEO 1.0

https://github.com/user-attachments/assets/8c103945-2926-4f0a-b8f4-d457dfac1a24

2️⃣2️⃣ LivePortrait Animals

LivePortrait Animals 1.0

https://github.com/user-attachments/assets/0ab74d4c-57b5-4934-852d-05c85faf2eeb

screenshot-20240806-013326

2️⃣1️⃣ 全新 FLUX.1 DEV & SCHNELL

FLUX.1 DEV 1.0

screenshot-20240802-034345

FLUX.1 SCHNELL 1.0

screenshot-20240802-035720

目录（22类 54项）

0️⃣ ComfyUI Assistant | ComfyUI 智能助手
1️⃣ Stable Cascade（6）
2️⃣ 3D（3）
3️⃣ LLM + SD（6）
4️⃣ Differential Diffusion（2）
5️⃣ YoloWorld-EfficientSAM（2）
6️⃣ Portrait Master 简体中文版（4）
7️⃣ ArtGallery | Prompt Visualization（1）
8️⃣ InstantID-ZHO（3）
9️⃣ PhotoMaker-ZHO（5）
1️⃣0️⃣ SVD-ZHO（1 WIP）
1️⃣1️⃣ I2VGenXL（2）
1️⃣2️⃣ More Models（2）
1️⃣3️⃣ TravelSuite-ZHO（1）
1️⃣4️⃣ WordCloud（1）
1️⃣5️⃣ APISR in ComfyUI（2）
1️⃣6️⃣ SDXS（1）
1️⃣7️⃣ CosXL & CosXL Edit（1）
1️⃣8️⃣ Stable Diffusion 3 API（1）
1️⃣9️⃣ Phi-3-mini in ComfyUI（2）
2️⃣0️⃣ 全新 SD3 Medium（5）
2️⃣1️⃣ 全新 FLUX.1 DEV & SCHNELL
2️⃣2️⃣ LivePortrait Animals
2️⃣3️⃣ Hunyuan Video

0️⃣ ComfyUI Assistant | ComfyUI 智能助手

ComfyUI-Assistant Logo

这是我之前创建的专门用于辅助 ComfyUI 使用的 GPTs
可以帮助创建、解释自定义节点或工作流
上榜 GPTs 全球对话数据第 165 名（12.29数据）
目前对话数已达2.5k+，ComfyUI 领域 GPTs 第一名
使用教程：【GPTs | 我专门为ComfyUI定制了一个全能助手 | 再也不用担心ComfyUI不会用了】
一键直达（需订阅 ChatGPT Plus）：https://chat.openai.com/g/g-B3qi2zKGB-comfyui-assistant

展开 | Expand

主界面：

使用示例：

ComfyUI 插件按钮：

下载插件中的 ComfyUI_Assistant.js 放到 \ComfyUI\web\extensions 中即可

1️⃣ Stable Cascade（6）

Dingtalk_20240317192159

展开 | Expand

1) Stable Cascade Standard

Dingtalk_20240317182319

2) Stable Cascade Canny ControlNet

SCCN

3) Stable Cascade Inpainting ControlNet

SCCN2

4) Stable Cascade Img2Img

Dingtalk_20240308004442

5) Stable Cascade ImagePrompt Standard

Dingtalk_20240326235311

6) Stable Cascade ImagePrompt Mix

Dingtalk_20240327004040

2️⃣ 3D（3）

S232

展开 | Expand

1) CRM Comfy 3D

Colab：Comfy 3D

C3DCOLAB

2) Sketch to 3D

Dingtalk_20240316231428

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO/assets/140084057/153b6e8e-7567-4e2b-aa90-bc8ea3544523

【Sketch to 3D】使用说明：

使用模型：
- Playground v2.5
- ControlNet
使用插件：
- 草图画板：AlekPet
- 背景去除：BRIA_AI-RMBG
- TripoSR 3D生成：TripoSR-ZHO

3) LayerDIffusion + TripoSR V1.0

Dingtalk_20240309193351

使用插件：
- LayerDIffusion
- TripoSR-ZHO

3️⃣ LLM + SD（6）

Dingtalk_20240130191521

展开 | Expand

1) Qwen-VL V1.0

Dingtalk_20240130200115

2）Gemini-pro

Dingtalk_20231220183708

3）Genimi-pro-vision

Dingtalk_20231220192932

4）Gemini-pro Chatbot

5) All-in-One LoRa Training

https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini/assets/140084057/d461f656-6888-48a8-b4f8-b70b7e46504d

6) Gemini 1.5 Pro + Stable Diffusion + ComfyUI = DALL·3

Dingtalk_20240411195451

4️⃣ Differential Diffusion（2）

DD封面图

展开 | Expand

1）简单 DD 重绘 | Simple Inpainting with Differential Diffusion

Dingtalk_20240304191711

2）文生图 + DD 重绘 | Text2Image + Inpainting with Differential Diffusion

Dingtalk_20240304195830

5️⃣ YoloWorld-EfficientSAM（2）

ywes_

展开 | Expand

1) V2.0 图片检测+分割

Dingtalk_20240224154535

2) V2.0 视频检测+分割

Dingtalk_20240317184123

6️⃣ Portrait Master 简体中文版（4）

Dingtalk_20231221171244

展开 | Expand

1) V2.2 For SD1.5 or SDXL

Dingtalk_20231221171315

2) V2.0 For SD1.5 or SDXL

Dingtalk_20231218163927

3) V2.0 适用于 SDXL Turbo（非商业用途）

Dingtalk_20231218165449

4) V2.0 用于 SAG + SVD 的视频工作流

https://github.com/ZHO-ZHO-ZHO/comfyui-portrait-master-zh-cn/assets/140084057/8e3915be-2d45-4f94-af0c-0a270378712b

Dingtalk_20231218185612

7️⃣ ArtGallery | 提示词可视化（1）

artgallery新项目图

展开 | Expand

1) V1.0 适用于 SD1.5 或 SDXL

ArtGallery

8️⃣ InstantID-ZHO（3）

ISID_

展开 | Expand

1) V2.0 InstantID_pose_ref + ArtGallery

Dingtalk_20240124232833

2) V2.0 自动下载 huggingface hub

Dingtalk_20240124230145

3) V2.0 InstantID_locally_pose_ref

Dingtalk_20240124230609

9️⃣ PhotoMaker-ZHO（5）

Dingtalk_20240117201201

展开 | Expand

1) V2.5 迪士尼角色_PhotoMaker + DragNUWA 🆕

https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker/assets/140084057/ca2bfff4-701c-4960-ac11-b893f90c044c

2) V2.5 lora + 批量处理 🆕

Dingtalk_20240119202403

3) V2.5 portraitmaster + 风格化 + lora 🆕

Dingtalk_20240119201125

4) V2.5 本地模型

5) V2.5 自动下载 huggingface hub

1️⃣0️⃣ SVD-ZHO（1 WIP）

SVD11_

展开 | Expand

1) SVD1.1(WIP)

Dingtalk_20240204195736

1️⃣1️⃣ I2VGenXL（2）

I2V_

展开 | Expand

1)V1.0 标准版

Dingtalk_20240206191614

2)V1.0 简易版

Dingtalk_20240206193817

1️⃣2️⃣ 更多模型（2）

PA封面图

展开 | Expand

1）PixArtAlpha 标准版 V1.0

Dingtalk_20240308211946

2) V1.0 SegMoE

Dingtalk_20240205034132

1️⃣3️⃣ TravelSuite-ZHO（1）

Dingtalk_20240317191556

展开 | Expand

1）Latent_travel_workflow【Zho】.json

9b2a5aa4875c678c95da6ffd80fb5512

2）Latent_travel_compare2composite_workflow【Zho】.json

1️⃣4️⃣ 词云（1）

Dingtalk_20240317192659

展开 | Expand

1)词云

Dingtalk_20240317192616

1️⃣5️⃣ APISR in ComfyUI（2）

https://github.com/ZHO-ZHO-ZHO/ComfyUI-APISR/assets/140084057/e6deb435-d276-4726-9d6d-457cc99d433e

展开 | Expand

1) V1.0 APISR 图像或视频批量处理

Dingtalk_20240319200511

2) V1.0 APISR 图像或视频迭代处理

Dingtalk_20240319203321

1️⃣6️⃣ SDXS（1）

Dingtalk_20240330013549

展开 | Expand

1) SDXS-512-0.9

Dingtalk_20240330012316

1️⃣7️⃣ CosXL & CosXL 编辑（1）

Dingtalk_20240409181552

展开 | Expand

1) CosXL 编辑 + 艺术画廊 1.0

Dingtalk_20240409185918

1️⃣8️⃣ 稳定扩散 3 API（1）

ComfyUI_temp_xcgvh_00014_

展开 | Expand

1) V1.0 SD3 API

Dingtalk_20240418031914

1️⃣9️⃣ Phi-3-mini 在 ComfyUI 中（2）

Dingtalk_20240426231537

展开 | Expand

1) Phi-3-mini-4k + CosXL【Zho】

Dingtalk_20240426223015

2) Phi-3-mini-4k 聊天【Zho】

Dingtalk_20240426211605

2️⃣0️⃣ 全新 SD3 Medium（5）

ComfyUI_temp_irkjs_00003_

展开 | Expand

1) COLAB 云部署

screenshot-20240802-034640

2) SD3 Medium 基础工作流

screenshot-20240612-214836

3) SD3 Medium 是否融合文本编码器的对比

screenshot-20240612-225247

4) SD3 Medium + Qwen2

screenshot-20240612-233349

5) SD3 Medium + 肖像大师（中文版）

screenshot-20240613-010917

更新日志

20241220

新增 HUNYUAN VIDEO 1.0 工作流
20240806

新增 LivePortrait Animals 1.0 工作流
20240802

新增 FLUX.1 DEV + SCHNELL 双工作流
20240612

新增 SD3 Medium 工作流 + Colab 云部署
20240426

新增 Phi-3-mini 在 ComfyUI 中的双工作流
20240418

新增稳定扩散 3 API 工作流
20240411

新增 Gemini 1.5 Pro + 稳定扩散 + ComfyUI = DALL·3 （平替 DALL·3）工作流
20240409

新增 CosXL 编辑 + 艺术画廊 1.0 工作流
20240331

新增关于我 + 个人项目页
20240330

新增 SDXS-512-0.9 工作流
20240327

新增 Stable Cascade ImagePrompt 双工作流
20240319

新增 APISR in ComfyUI 动漫图像 + 视频放大双工作流
20240317

新增 ComfyUI Assistant（GPTs）智能助手内容

整理我之前所有已公开的工作流，共 14 大类，36 个工作流
20240316

新增 LayerDIffusion + TripoSR V1.0 工作流

新增 Sketch to 3D 工作流 + 使用说明
20240314

新增 CRM Comfy 3D 工作流 + Comfy 3D Colab 云部署
20240307

新增 Stable Cascade Img2Img 工作流
20240307

新增 Stable Cascade Inpainting ControlNet 工作流
20240306

新增 Stable Cascade Canny ControlNet 工作流

创建项目

Stars

ComfyUI-Workflows-ZHO 快速上手指南

本指南旨在帮助开发者快速部署并使用 ZHO 整理的 ComfyUI 工作流合集，涵盖文生图、视频生成、3D 建模及大模型联动等前沿功能。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Windows 10/11, Linux (Ubuntu 20.04+), 或 macOS (M1/M2/M3 芯片推荐)。
硬件要求：
- GPU：NVIDIA 显卡推荐显存 8GB 以上（运行 FLUX.1 或视频生成模型建议 16GB+）。
- 内存：系统内存建议 16GB 以上。
前置依赖：
- Python: 版本 3.10 或 3.11（ComfyUI 官方推荐）。
- Git: 用于克隆仓库和管理版本。
- ComfyUI: 已安装并可正常运行的基础 ComfyUI 环境。
- 网络环境: 由于部分模型托管于 HuggingFace 或 GitHub，国内用户建议配置代理或使用镜像源。

安装步骤

1. 克隆工作流仓库

将 ZHO 的工作流合集下载到本地。推荐使用国内镜像加速（如 ghproxy）或直接克隆。

# 进入 ComfyUI 根目录
cd /path/to/ComfyUI

# 克隆工作流仓库到 custom_nodes 或直接放在根目录方便管理
# 这里建议克隆到 custom_nodes 以便统一管理，或者直接下载到 workflows 文件夹
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO.git

# 如果使用国内网络受阻，可使用镜像地址（示例）：
# git clone https://ghproxy.com/https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO.git

2. 安装缺失的自定义节点

ZHO 的工作流依赖多个特定的自定义节点（如 ComfyUI-BRIA_AI-RMBG, ComfyUI-Flowty-TripoSR-ZHO, ComfyUI-Gemini 等）。

方法 A：使用 ComfyUI Manager（推荐）

启动 ComfyUI。
点击右侧菜单的 Manager 按钮。
选择 Install Missing Custom Nodes。
加载任意一个 ZHO 的工作流文件（.json），系统会自动检测并列出缺失节点。
点击 Install 批量安装，完成后重启 ComfyUI。

方法 B：手动安装关键插件 若无法使用 Manager，可手动克隆核心依赖库：

cd ComfyUI/custom_nodes

# 示例：安装 TripoSR 相关插件 (3D 生成必备)
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-Flowty-TripoSR-ZHO.git

# 示例：安装背景去除插件
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-BRIA_AI-RMBG.git

# 示例：安装 Gemini/LLM 相关插件
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-Gemini.git

3. 下载模型文件

工作流中引用的模型（Checkpoints, LoRA, ControlNet 等）需手动下载并放入对应目录。

大模型 (Checkpoints): ComfyUI/models/checkpoints
ControlNet: ComfyUI/models/controlnet
LoRA: ComfyUI/models/loras
VAE: ComfyUI/models/vae

提示：具体需要的模型名称通常在工作流加载后会以红色报错形式显示在节点上，或在原仓库 README 的各个章节链接中有详细说明。建议优先从 HuggingFace 或 ModelScope（魔搭社区）下载。

基本使用

1. 加载工作流

启动 ComfyUI：
```
python main.py
```
打开浏览器访问 http://127.0.0.1:8188。
将下载的 .json 工作流文件（例如 FLUX.1 DEV 1.0【Zho】.json）直接拖拽到 ComfyUI 画布中。

2. 运行示例：FLUX.1 文生图

以仓库中热门的 FLUX.1 DEV 工作流为例：

拖入文件：将 FLUX.1 DEV 1.0【Zho】.json 拖入界面。
检查节点：确认所有节点均为绿色（无红色报错）。若有红色节点，请参照“安装步骤”补全缺失插件或模型。
输入提示词：
- 找到 CLIP Text Encode (Prompt) 节点。
- 在 text 输入框中输入英文提示词（FLUX 对英文支持最佳），例如：
```
A cyberpunk cat sitting on a neon roof, high detail, 8k
```
调整参数（可选）：
- 修改 Empty Latent Image 节点中的 width 和 height（推荐 1024x1024 或更高）。
- 调整 KSampler 中的 steps (步数) 和 cfg (引导系数)。
生成图像：
- 点击右侧菜单的 Queue Prompt 按钮。
- 等待进度条完成，生成的图片将显示在 Save Image 节点中。

3. 运行示例：LivePortrait 动物驱动

拖入 LivePortrait Animals 1.0【Zho】.json。
上传素材：
- 在 Load Image 节点上传一张动物源图片。
- 在驱动视频节点上传一段人脸或动物驱动视频。
执行：点击 Queue Prompt，系统将生成跟随驱动视频动作的动物动画。

4. 辅助工具：ComfyUI Assistant

如果遇到节点不理解或需要构建新工作流，可以使用作者开发的 GPTs 助手：

访问：ComfyUI Assistant GPTs (需 ChatGPT Plus)
功能：解释自定义节点作用、辅助编写工作流逻辑、排查错误。

注：本合集包含 22 类共 54 项工作流，涵盖 Stable Cascade, 3D 生成，LLM 联动等高级功能，请根据具体需求选择对应的 .json 文件加载。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像