BallonsTranslator

4.7k 305 中等 1 次阅读今天GPL-3.0开发框架语言模型图像

AI 解读由 AI 自动生成，仅供参考

BallonTranslator 是一款专为漫画和条漫爱好者打造的深度学习辅助翻译工具。它致力于解决外语漫画阅读中的语言障碍，通过自动化流程将繁琐的“检测、抹字、翻译、回填”步骤整合为一键操作，让用户能轻松生成排版自然的中文化漫画。

这款工具特别适合希望快速汉化日漫或美漫的普通读者、字幕组译者以及二次元内容创作者。无需深厚的编程背景，用户即可在图形界面中完成从图片导入到最终导出的全过程；同时也支持命令行模式，方便开发者进行批量处理。

其核心技术亮点在于智能的文本回填算法。BallonTranslator 不仅能精准识别气泡内的文字并自动擦除，还能根据原文的字体颜色、轮廓、角度及对齐方式，将译文完美还原到画面中，最大程度保留原作的视觉风格。此外，它还提供了强大的所见即所得编辑功能，包括修复画笔、富文本调整及 Word 文档导入导出，允许用户对机翻结果进行精细化校对与润色。无论是简单的日常阅读，还是专业的本地化制作，BallonTranslator 都能提供高效且友好的支持。

使用场景

某汉化组志愿者正紧急处理一批刚发布的日文生肉漫画，需要在极短时间内完成从图片清理到中文嵌字的全流程。

没有 BallonsTranslator 时

人工抹字耗时巨大：译者需手动在 Photoshop 中用仿制图章一点点涂抹原文气泡，遇到复杂背景极易留痕或破坏画面，单页处理往往超过 20 分钟。
排版还原困难：翻译后的中文文本长度与原文差异大，手动调整字体大小、颜色及旋转角度以匹配原气泡形状极其繁琐，常出现文字溢出或遮挡背景的情况。
协作流程割裂：翻译、修图、嵌字由不同人员分段进行，依赖微信或文档反复传递文件，版本管理混乱，一旦需要修改译文，整个链条都要返工。

使用 BallonsTranslator 后

一键智能抹字与回填：利用深度学习模型自动检测并擦除日文，同时根据原文气泡的轮廓、颜色和角度，自动将机翻后的中文完美回填，单页处理缩短至 2 分钟内。
所见即所得的精细编辑：内置富文本编辑器支持直接调整字体样式、粗细及阴影，提供批量自动排版功能，确保中文译文在视觉上与原漫风格高度统一。
全流程一体化作业：支持导入导出 Word 文档便于校对，且能在同一界面完成 OCR、翻译、修图和最终渲染，志愿者可独立闭环完成高质量汉化，大幅降低沟通成本。

BallonsTranslator 通过自动化深度学习工作流，将原本需要多人协作数小时的漫画汉化工程，转化为单人即可快速交付的高效创作过程。

运行环境要求

操作系统

Windows
macOS

GPU

非必需
支持 NVIDIA GPU (默认启用加速) 和 Apple Silicon
AMD GPU 需通过 ZLUDA 或原生 ROCm (需特定驱动和 Python 3.12) 配置
显存需求取决于模型，Sakura-13B 等大模型在单卡运行时若显存不足可开启 'low vram mode'

内存

未说明

依赖

notes1. Windows 用户可直接下载打包版运行，无需手动配置环境（不支持 Win7）。2. 首次运行会自动下载依赖库和模型文件（如检测、OCR、修复、翻译模型），若失败需手动从 MEGA 或 Google Drive 下载 data 文件夹。3. 支持多种翻译引擎（Google, DeepL, Sakura-13B, OpenAI 兼容接口等），部分需配置 API Token 或下载离线模型。4. macOS Apple Silicon 构建应用可能存在不稳定，推荐直接运行源码。5. 文本检测主要支持日文和英文。

python>=3.8, <=3.12 (推荐 3.10.11，禁止使用微软应用商店版)

torch

gitpython

manga-image-translator (核心依赖)

PaddleOCR

manga_ocr

transformers (隐含于 m2m100/Sakura)

ctranslate2

PyPatchMatch

快速开始

[!IMPORTANT]
如打算公开分享本工具的机翻结果，且没有有经验的译者进行过完整的翻译或校对，请在显眼位置注明机翻。

BallonTranslator

深度学习辅助漫画翻译工具，支持一键机翻和简单的图像/文本编辑

界面预览

Features

一键机翻
- 译文回填参考对原文排版的估计，包括颜色，轮廓，角度，朝向，对齐方式等
- 最后效果取决于文本检测，识别，抹字，机翻四个模块的整体表现
- 支持日漫和美漫
- 英译中，日译英排版已优化，文本布局以提取到的背景泡为参考，中文基于 pkuseg 进行断句，日译中竖排待改善
图像编辑
支持掩膜编辑和修复画笔
文本编辑
- 支持所见即所得地富文本编辑和一些基础排版格式调整、字体样式预设
- 支持全文/原文/译文查找替换
- 支持导入导出 word 文档
适用于条漫

使用说明

Windows

如果用 Windows 而且不想自己手动配置环境，而且能正常访问互联网:
从 MEGA 或 Google Drive 下载 BallonsTranslator_dev_src_with_gitpython.7z，解压并运行 launch_win.bat 启动程序。如果无法自动下载库和模型，手动下载 data 和 ballontrans_pylibs_win.7z 并解压到程序目录下。
运行 scripts/local_gitpull.bat 获取更新。注意这些打包版无法在 Windows 7 上运行，win 7 用户需要自行安装 Python 3.8 运行源码。

运行源码

安装 Python <= 3.12 (别用微软应用商店版) 和 Git

# 克隆仓库
$ git clone https://github.com/dmMaze/BallonsTranslator.git ; cd BallonsTranslator

# 启动程序
$ python3 launch.py

# 更新程序
python3 launch.py --update

第一次运行会自动安装 torch 等依赖项并下载所需模型和文件，如果模型下载失败，需要手动从 MEGA 或 Google Drive 下载 data 文件夹(或者报错里提到缺失的文件)，并保存到源码目录下的对应位置。

构建 macOS 应用(适用 apple silicon 芯片)

参考
可能会有各种问题，目前还是推荐跑源码

一键翻译

建议在命令行终端下运行程序，首次运行请先配置好源语言/目标语言，打开一个带图片的文件夹，点击 Run 等待翻译完成

一键机翻嵌字格式如大小、颜色等默认是由程序决定的，可以在设置面板->嵌字菜单中改用全局设置。全局字体格式就是未编辑任何文本块时右侧字体面板显示的格式:

画板

修复画笔

矩形工具

按下鼠标左键拖动矩形框抹除框内文字，按下右键拉框清除框内修复结果。
抹除结果取决于算法(gif 中的"方法1"和"方法2")对文字区域估算的准确程度，一般拉的框最好稍大于需要抹除的文本块。两种方法都比较玄学，能够应付绝大多数简单文字简单背景，部分复杂背景简单文字/简单背景复杂文字，少数复杂背景复杂文字，可以多拉几次试试。
勾选"自动"拉完框立即修复，否则需要按下"修复"或者空格键才进行修复，或 Ctrl+D 删除矩形选框。

文本编辑

批量文本格式调整及自动排版

OCR并翻译选中文本框

界面说明及快捷键

Ctrl+Z，Ctrl+Y 可以撤销重做大部分操作，注意翻页后撤消重做栈会清空
A/D 或 pageUp/Down 翻页，如果当前页面未保存会自动保存
T 切换到文本编辑模式下(底部最右"T"图标)，W激活文本块创建模式后在画布右键拉文本框
P 切换到画板模式，右下角滑条改原图透明度
标题栏->运行可以启用/禁用任意自动化模块，全部禁用后Run会根据全局字体样式和嵌字设置重新渲染文本
设置面板配置各自动化模块参数
Ctrl++/- 或滚轮缩放画布
Ctrl+A 可选中界面中所有文本块
Ctrl+F 查找当前页，Ctrl+G全局查找
0-9调整嵌字/原图透明度
文本编辑下 Ctrl+B 加粗，Ctrl+U 下划线，Ctrl+I 斜体
字体样式面板-"特效"修改透明度添加阴影
Alt+Arrow Keys 或 Alt+WASD (正在编辑文本块时 pageDown 或 pageUp) 在文本块间切换

命令行模式 (无GUI)

python launch.py --headless --exec_dirs "[DIR_1],[DIR_2]..."

所有设置 (如检测模型, 原语言目标语言等) 会从 config/config.json 导入。
如果渲染字体大小不对, 通过 --ldpi 指定 Logical DPI 大小, 通常为 96 和 72。

自动化模块

本项目重度依赖 manga-image-translator，在线服务器和模型训练需要费用，有条件请考虑支持一下

Ko-fi: https://ko-fi.com/voilelabs
Patreon: https://www.patreon.com/voilelabs
爱发电: https://afdian.net/@voilelabs

Sugoi 翻译器作者: mingshiba

文本检测

暂时仅支持日文(方块字都差不多)和英文检测，训练代码和说明见https://github.com/dmMaze/comic-text-detector
支持使用星河云(团子漫画OCR)的文本检测，需要填写用户名和密码，每次启动时会自动登录。
- 详细说明见团子OCR说明
YSGDetector 是由 lhj5426 训练的模型，能更好地过滤日漫/CG里的拟声词。需要手动从 YSGYoloDetector 下载模型放到 data/models 目录下。

OCR

所有 mit 模型来自 manga-image-translator，支持日英汉识别和颜色提取
manga_ocr 来自 kha-white，支持日语识别，注意选用该模型程序不会提取颜色
PaddleOCRVLManga 支持日语识别，选用该模型程序不会提取颜色
支持使用星河云(团子漫画OCR)的OCR，需要填写用户名和密码，每次启动时会自动登录。
- 目前的实现方案是逐个textblock进行OCR，速度较慢，准确度没有明显提升，不推荐使用。如果有需要，请使用团子Detector。
- 推荐文本检测设置为团子Detector时，将OCR设为none_ocr，直接读取文本，节省时间和请求次数。
- 详细说明见团子OCR说明
OCR设置项: 字体识别。把字体识别模型（YuzuMarker.FontDetection）下载下来放在data\models\YuzuMarker.FontDetection目录下。需要的三个文件分别是data\models\YuzuMarker.FontDetection\font_dataset ， data\models\YuzuMarker.FontDetection\name=4x-epoch=18-step=368676.ckpt， data\font_demo_cache.bin
识别到的置信率大于60%的字体名称会保存在json文件的_detected_font_name字段中。目前没做可视化外显，使用脚本导出LabelPlus txt时可选带上字体字号信息，导入到其他软件（如PS/ID）嵌字用。

图像修复

AOT 修复模型来自 manga-image-translator
patchmatch 是非深度学习算法，也是PS修复画笔背后的算法，实现来自 PyPatchMatch，本程序用的是我的修改版
lama* 是微调过的lama

翻译器

谷歌翻译器已经关闭中国服务，大陆再用需要设置全局代理，并在设置面板把 url 换成*.com
彩云，需要申请 token
papago
DeepL 和 Sugoi (及它的 CT2 Translation 转换)翻译器，感谢 Snowad14，如果要使用Sugoi翻译器(仅日译英)，下载离线模型，将 sugoi_translator 移入 BallonsTranslator/ballontranslator/data/models。
支持 Sakura-13B-Galgame。如果在本地单卡上运行且显存不足，可以在设置面板里勾选 low vram mode (默认启用)。
DeepLX 请参考Vercel 或 deeplx
支持两个版本的 OpenAI 兼容翻译器，支持兼容 OpenAI API 的官方或第三方LLM提供商，需要在设置面板里配置。
- 无后缀版本token消耗更小，但分句稳定性稍差，长文本翻译可能有问题。
- exp后缀版本token消耗更大，但稳定性更好，且在Prompt中进行了“越狱”，适合长文本翻译。
m2m100: 下载并将 m2m100-1.2B-ctranslate2 移到 data/models 目录下

其它优秀的离线英文翻译模型请参考这条讨论
如需添加新的翻译器请参考加别的翻译器，本程序添加新翻译器只需要继承基类实现两个接口即可不需要理会代码其他部分，欢迎大佬提 pr

杂

电脑带 Nvidia 显卡或 Apple silicon 默认启用 GPU 加速
感谢 bropines 提供俄语翻译
第三方输入法可能会造成右侧编辑框显示 bug，见#76，暂时不打算修
选中文本迷你菜单支持聚合词典专业划词翻译沙拉查词: 安装说明

启用 AMD ROCm 显卡加速方法

通用方案 ZLUDA (ROCm)

优点: 文本和文本框识别速度比社区预览版略快，当然比 CPU 更快

缺点: 需要额外安装并进行相关配置才可工作，首次启动以及更换识别模型、显卡驱动升级等都需要长时间预热缓存

安装步骤:

更新显卡驱动至最新版 (建议 24.12.1 及以上，根据自身系统环境下载并安装 AMD HIP SDK Page )
下载 ZLUDA 并解压到 zluda 文件夹内，复制 zluda 文件夹到系统盘下: 比如c盘 (C:\zluda)
配置系统环境变量，以 windows 10 系统为例:设置 - 系统属性 - 高级系统设置 - 环境变量 - 系统变量 - 找到 path 变量，点击编辑，在最后添加 C:\zluda 和 %HIP_PATH%bin 两项
替换 CUDA 库的动态链接文件: 将 C:\zluda 文件夹内的 cublas.dll cusparse.dll 和 nvrtc.dll 复制出一份到桌面，按如下规则重命名复制出来的文件

注意事项

注意 HIP SDK 和 ZLUDA 版本对应关系，建议使用较新的AMD显卡驱动程序。

Windows 版本	HIP SDK 版本	ZLUDA 版本
Windows 11	7.1.1	3.9.6
Windows 10 和 11	6.4.2	3.9.5
Windows 10 和 11	6.2.4	3.9.5
Windows 10 和 11	6.1.2	3.9.5

  原文件名 → 新文件名

  cublas.dll → cublas64_11.dll

  cusparse.dll → cusparse64_11.dll

  nvrtc.dll → nvrtc64_112_0.dll

将已经重命名的文件替换掉 BallonsTranslator\ballontrans_pylibs_win\Lib\site-packages\torch\lib\ 目录中的同名文件

启动程序并设置 OCR 和文本检测为 Cuda (图像修复请继续使用 CPU)
运行 OCR 并等待 ZLUDA 编译 PTX 文件 (首次编译大概需要 5-10 分钟，取决于 CPU 性能),下次运行无需编译

原生方案 (ROCm in Windows)

警告: 需要 Python 3.12 和 HIP SDK 6.4 以及 AMD 2026.1.1 驱动，需要重新安装依赖库。

2026年AMD终于在 2026.1.1 驱动下正式支持 ROCm 在 windows系统下工作了。不幸的是AMD官方发布的新的 Pytorch 三件套需要 Python 3.12 版本。所以如果想使用原生 AI 加速，需要卸载项目内建的 Python 3.10 并移除 3.10 版本的库。重新安装内嵌 Python 3.12 并重新安装相关依赖库。

优点: 无需额外安装，开箱即用。（并不是）且图像修复工具可以正常使用 CUDA 加速。

缺点: 对显卡限制大，对 Python 版本也有要求。

安装步骤:

检查显卡是否在 AMD 显卡驱动 AI 套件支持范围内。
确保 HIP SDK 为 6.4.x, Python 相关依赖库已经更新为 3.12 版本。
使用 launch_win_amd_nightly.bat 启动程序。
检查 OCR 和文本检测、图像修复设置是否为 CUDA。

注意事项 launch_win_amd_nightly.bat 为了保证最大兼容性，默认下载并使用的是 Rocm6.4 的 Pytorch 三件套，如果需要 ROCm7，需要手动更新对应版本的 Pytorch。并且需要额外安装 ROCm7 自身的三个SDK库。

BallonsTranslator 快速上手指南

BallonsTranslator 是一款基于深度学习的漫画翻译辅助工具，支持一键机翻、文本检测、图像修复及富文本编辑，适用于日漫和美漫的汉化工作。

环境准备

系统要求

操作系统: Windows 10/11 (推荐), macOS (Apple Silicon), Linux
Python 版本: Python 3.8 - 3.12 (注意: 请勿使用微软应用商店版的 Python)
硬件加速:
- NVIDIA 显卡或 Apple Silicon 芯片默认启用 GPU 加速
- AMD 显卡需额外配置 (详见官方文档)
网络: 首次运行需联网下载模型和依赖库

前置依赖

Git: 用于克隆代码仓库
基础运行库: 程序会自动安装 torch 等核心依赖

安装步骤

方法一：Windows 免配置启动（推荐新手）

如果你使用 Windows 且希望避免手动配置环境：

下载打包文件：
- MEGA 下载链接
- 或 Google Drive 下载链接
- 文件名：BallonsTranslator_dev_src_with_gitpython.7z
解压文件并双击运行 launch_win.bat 启动程序。
若自动下载失败：
- 手动下载 data 文件夹和 ballontrans_pylibs_win.7z。
- 将其解压到程序根目录下。
更新程序：运行 scripts/local_gitpull.bat 获取最新版本。

注意: 打包版不支持 Windows 7。Win7 用户请使用方法二自行安装 Python 3.8 运行源码。

方法二：源码运行（通用）

安装依赖软件：
- 安装 Python (版本 <= 3.12)
- 安装 Git

克隆仓库并启动：

# 克隆仓库
git clone https://github.com/dmMaze/BallonsTranslator.git
cd BallonsTranslator

# 启动程序（首次运行会自动安装依赖并下载模型）
python3 launch.py

模型下载失败处理：如果自动下载模型失败，请手动从上述 MEGA 或 Google Drive 链接下载 data 文件夹，并将其放置在源码根目录下。
更新程序：
```
python3 launch.py --update
```

基本使用

1. 一键机翻

这是最核心的功能，可自动完成检测、识别、抹字和翻译回填。

启动程序：建议在命令行终端运行 python3 launch.py 以便查看日志。
加载图片：打开包含漫画图片的文件夹。
配置语言：在设置面板中确认“源语言”和“目标语言”（如：日语 -> 中文）。
执行翻译：点击界面上的 Run 按钮。
- 程序将自动执行文本检测、OCR、背景修复和译文回填。
- 回填效果会参考原文的颜色、轮廓、角度和对齐方式。

2. 图像与文本编辑

机翻完成后，通常需要进行人工校对和精修。

修复画笔 (Inpainting):
- 使用矩形工具框选需要抹除的文字区域。
- 按下鼠标左键拖动框选，松开后自动修复（或按空格键/"修复"按钮）。
- 若效果不佳，可尝试调整框选范围稍大于文字块，或切换修复算法。
文本编辑:
- 按 T 键或点击底部"T"图标进入文本编辑模式。
- 支持富文本编辑（加粗 Ctrl+B、斜体 Ctrl+I、下划线 Ctrl+U）。
- 支持批量调整字体样式和自动排版。
- 可按 Ctrl+F 查找替换全文内容。
快捷键速查:
- A / D 或 PageUp / PageDown: 翻页（未保存时自动保存）。
- Ctrl + Z / Ctrl + Y: 撤销 / 重做。
- Ctrl + 滚轮: 缩放画布。
- P: 切换画板模式（调整原图透明度）。
- Alt + 方向键: 在文本块间快速切换。

3. 导出结果

编辑完成后，可直接截图或使用内置功能导出。
支持导入/导出 Word 文档进行协作校对。
支持导出带有字体信息的 LabelPlus txt 文件，便于在 PS 等专业软件中进一步嵌字。

重要提示: 若公开分享机翻结果且未经人工完整校对，请务必在显眼位置注明“机翻”。

版本历史

v1.4.02023/11/29

v1.3.352023/01/07

v1.3.202022/12/30

v1.3.152022/11/29

v1.3.142022/10/25

v1.3.122022/09/24

v1.3.82022/09/13

v1.3.42022/08/31

v1.3.02022/08/17

v1.2.02022/05/19

v1.1.02022/04/17

alpha2022/04/10

常见问题

如何安装 BallonsTranslator 的开发版（DEV）？

首次启动时遇到界面语言文件找不到（en_CN.qm）的错误怎么办？

模型文件下载经常中断或报错（如 400MB 处失败）如何解决？

新手是否可以直接下载压缩包使用，还是需要克隆仓库？

为什么设置了“替换文本”功能，但翻译结果没有变化？

检测模型经常将两个靠近的大气泡合并成一个，如何处理？

如果想自己训练检测模型以适配 BallonsTranslator，需要注意什么标签和参数？

如何在界面上显示文本框的序号？

MacOS 用户编译 OpenCV 库时报错或生成的库文件过小怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent