manga-ocr

2.6k 129 中等 1 次阅读昨天Apache-2.0开发框架图像语言模型

AI 解读由 AI 自动生成，仅供参考

manga-ocr 是一款专为日语漫画设计的开源光学字符识别（OCR）工具。它致力于解决漫画场景中复杂的文字提取难题，无论是竖排还是横排文本、带有注音（振假名）的词汇、覆盖在背景图上的对白，还是各类特殊字体及低清晰度图片，都能实现高精度的识别。

与传统 OCR 模型需要将文本框切割成单行处理不同，manga-ocr 基于 Transformers 的 Vision Encoder Decoder 框架构建了端到端模型，支持在一次推理中直接识别多行文本。这意味着它可以完整读取漫画中的整个对话气泡，无需繁琐的分行操作，极大地保留了上下文连贯性。

除了作为通用的印刷日语识别引擎，manga-ocr 特别适合日语学习者、漫画爱好者以及需要构建本地化阅读工作流的开发者。用户可以将其配置为后台服务，配合截图工具实时捕获屏幕区域并自动将识别结果写入剪贴板，进而联动词典软件实现即指即译的高效阅读体验。同时，其开放的 Python API 和合成数据生成管道，也为研究人员进行二次开发或模型训练提供了便利。

使用场景

一位日语学习者正在通过阅读生肉漫画积累词汇，希望遇到生词时能即时查询含义。

没有 manga-ocr 时

面对漫画中常见的竖排文字、注音（振假名）以及覆盖在复杂背景上的对话框，通用 OCR 工具识别率极低，经常输出乱码。
为了获取文本，不得不手动将气泡内的文字逐行拆分截图，甚至需要人工打字录入，严重打断阅读心流。
低画质的扫描版漫画导致传统模型完全无法工作，学习者被迫放弃大量珍贵的老番资源。
复制出的文本格式混乱，无法直接粘贴到 Yomitan 等词典插件中进行即时查词，学习效率低下。

使用 manga-ocr 后

借助专为漫画训练的端到端模型，无论是竖排、带振假名还是背景复杂的文字，都能一次性高精度识别，无需预处理。
支持单步处理多行文本，直接截取整个对话气泡即可获取完整句子，完美保留语境，阅读过程流畅无阻。
即使面对模糊不清的低质量图片，manga-ocr 依然能稳健提取文字，让老旧漫画资源重新变得可利用。
配合后台运行模式与剪贴板联动，截图后文本自动上屏并无缝对接词典插件，实现“截图即查词”的高效学习闭环。

manga-ocr 通过解决漫画特有的排版与画质难题，将繁琐的文字提取转化为瞬间完成的自动化流程，极大降低了日语原漫阅读的门槛。

运行环境要求

操作系统

Windows
Linux
macOS

GPU

非必需
支持 GPU 加速，需根据 PyTorch 官方指南安装对应的 CUDA 版本
未指定具体显卡型号和显存大小

内存

未说明

依赖

notesWindows 用户若使用 Microsoft Store 安装的 Python 可能会遇到 'fugashi' 导入错误，建议从 Python 官网下载安装。ARM 架构安装 'mecab-python3' 可能需要特殊变通方案。首次运行需下载约 400MB 模型文件。Linux 剪贴板模式依赖 wl-copy (Wayland) 或 xclip (X11)。

python3.6+

torch

transformers

Pillow

fugashi

mecab-python3

快速开始

漫画 OCR

用于日语文本的光学字符识别，主要针对日本漫画。它使用基于 Transformer 的视觉编码器解码器框架构建的自定义端到端模型。

Manga OCR 可以用作通用的日文印刷文本 OCR，但其主要目标是在各种漫画特有的场景下提供高质量的文本识别：

垂直和水平文本
带假名的文本
叠加在图像上的文本
多种字体和字形风格
低质量图像

与许多 OCR 模型不同，Manga OCR 支持在一次前向传播中识别多行文本，因此可以一次性处理漫画中的对话气泡，而无需将其拆分为单行。

安装

你需要 Python 3.6 或更高版本。请注意，由于 PyTorch 的依赖关系，最新的 Python 版本可能不受支持，因为 PyTorch 经常会在新版本的 Python 发布后出现问题，需要一段时间才能适配。请参考 PyTorch 官网获取受支持的 Python 版本列表。

一些用户报告称从 Microsoft Store 安装的 Python 会出现问题。如果你遇到以下错误： ImportError: DLL load failed while importing fugashi: The specified module could not be found.，请尝试从官方站点安装 Python。

如果你想使用 GPU 运行，请按照这里的说明安装 PyTorch，否则可以跳过此步骤。

故障排除

ImportError: DLL load failed while importing fugashi: The specified module could not be found. - 可能是由于从 Microsoft Store 安装的 Python 导致的，请尝试从官方站点安装 Python。
在 ARM 架构上安装 mecab-python3 时出现问题 - 请尝试此 workaround。

使用方法

Python API

from manga_ocr import MangaOcr

mocr = MangaOcr()
text = mocr('/path/to/img')

或者

import PIL.Image

from manga_ocr import MangaOcr

mocr = MangaOcr()
img = PIL.Image.open('/path/to/img')
text = mocr(img)

后台运行

Manga OCR 可以在后台运行，并在新图像出现时自动处理它们。

你可以使用像 ShareX 或 Flameshot 这样的工具手动截取屏幕区域，然后让 OCR 从系统剪贴板或指定目录中读取内容。默认情况下，Manga OCR 会将识别出的文本写入剪贴板，这样就可以被像 Yomitan 这样的词典软件读取。

在 Linux 系统上，剪贴板模式需要 Wayland 会话使用 wl-copy，或 X11 会话使用 xclip。你可以在终端中运行 echo $XDG_SESSION_TYPE 来确定你的系统需要哪一种工具。

使用词典阅读日语漫画的完整设置可能如下所示：

使用 ShareX 截取区域 -> 将图像写入剪贴板 -> Manga OCR -> 将文本写入剪贴板 -> Yomitan

https://user-images.githubusercontent.com/22717958/150238361-052b95d1-0152-485f-a441-48a957536239.mp4

若要从剪贴板读取图像并将识别出的文本写入剪贴板，请在命令行中运行：
```
manga_ocr
```
若要从 ShareX 的截图文件夹中读取图像，请在命令行中运行：
```
manga_ocr "/path/to/sharex/screenshot/folder"
```
请注意，在剪贴板扫描模式下，你复制到剪贴板的任何图像都会被 OCR 处理，并替换为识别出的文本。如果你希望像往常一样复制和粘贴图像，建议使用文件夹扫描模式，并在 ShareX 中单独设置一个仅用于 OCR 的任务，该任务会将截图保存到某个文件夹，而不将其复制到剪贴板。

首次运行时，下载模型（约 400 MB）可能需要几分钟。当日志中出现 OCR ready 消息时，OCR 即可使用。

若要查看其他选项，请在命令行中运行：
```
manga_ocr --help
```

如果 manga_ocr 无法正常工作，你也可以尝试用 python -m manga_ocr 替代。

使用提示

OCR 支持多行文本，但文本越长，出现错误的可能性越大。如果较长文本的某一部分未能成功识别，可以尝试对图像的较小部分进行识别。
该模型经过专门训练，能够很好地处理漫画文本，但对于其他类型的印刷文本，如小说或电子游戏，也能取得不错的效果。不过，它可能无法处理手写文本。
无论图像上是否有文本，模型都会尝试进行识别。由于它使用 Transformer 解码器（因此对日语语言有一定的理解），甚至可能会“凭空”生成一些看起来很真实的句子！这在大多数情况下不会造成问题，但在未来的版本中可能会得到改进。

示例

以下是一些精选示例，展示了该模型的能力。

图像	Manga OCR 结果
	素直にあやまるしか
	立川で見た〝穴〟の下の巨大な眼は：
	実戦剣術も一流です
	第３０話重苦しい闇の奥で静かに呼吸づきながら
	よかったじゃないわよ！何逃げてるのよ！！早くあいつを退治してよ！
	ぎゃっ
	ピンポーーン
	ＬＩＮＫ！私達７人の力でガノンの塔の結界をやぶります
	ファイアパンチ
	少し黙っている
	わかるかな〜？
	警察にも先生にも町中の人達に！！

联系方式

如有任何疑问，请随时通过 kha-white@mail.com 与我联系。

致谢

本项目使用了以下数据集：

Manga109-s 数据集
CC-100 数据集

Manga OCR 快速上手指南

Manga OCR 是一个专为日语漫画设计的端到端光学字符识别（OCR）工具。它基于 Transformers 的 Vision Encoder Decoder 框架，能够高质量地识别竖排/横排文字、带振假名（Furigana）的文本、叠加在图像上的文字以及各种字体风格，支持单次前向传播识别多行文本（无需按行切割）。

环境准备

操作系统：Windows / Linux / macOS
Python 版本：3.6 或更高（建议使用官方安装的 Python，避免使用 Microsoft Store 版本以防依赖错误）
GPU 支持（可选）：如需加速推理，请预先安装支持 CUDA 的 PyTorch 版本。
网络要求：首次运行时会自动下载约 400MB 的模型文件，请确保网络通畅。国内用户若下载缓慢，可尝试配置代理或使用支持断点续传的网络环境。

安装步骤

确保已安装符合要求的 Python 环境。
（可选）如需 GPU 加速，请先前往 PyTorch 官网安装对应版本的 PyTorch。
使用 pip 安装 manga-ocr：

pip install manga-ocr

注：如遇 mecab-python3 在 ARM 架构下安装失败，请参考项目 Issue #16 中的变通方案。

基本使用

方式一：Python API 调用

最简代码示例如下：

from manga_ocr import MangaOcr

mocr = MangaOcr()
text = mocr('/path/to/img')
print(text)

也可传入 PIL Image 对象：

import PIL.Image
from manga_ocr import MangaOcr

mocr = MangaOcr()
img = PIL.Image.open('/path/to/img')
text = mocr(img)
print(text)

方式二：命令行后台运行

启动后将持续监听剪贴板或指定文件夹中的新图片，并自动输出识别结果到剪贴板：

监听剪贴板模式（适合配合 ShareX、Flameshot 等截图工具）：

manga_ocr

监听指定文件夹模式（例如 ShareX 截图保存目录）：

manga_ocr "/path/to/sharex/screenshot/folder"

首次运行时需下载模型，待日志出现 OCR ready 即表示就绪。识别结果将自动写入系统剪贴板，可直接粘贴至词典工具（如 Yomitan）中使用。

提示：在剪贴板模式下，所有复制的图片都会被处理并替换为识别文本。若需保留图片复制功能，请使用文件夹扫描模式，并在截图工具中单独设置 OCR 任务。

版本历史

v0.1.142025/01/01

v0.1.132024/10/11

v0.1.122024/06/21

v0.1.12-beta.52024/06/21

常见问题

如何在没有网络连接（离线）的情况下运行 MangaOcr？

在 Apple M1 (ARM) Mac 上安装时遇到 mecab-python3 依赖错误怎么办？

如何在 NixOS 系统上安装 manga-ocr？

重新安装后模型加载和处理速度变慢（从几秒变成十几秒）如何解决？

MangaOcr 识别结果完全错误或无法识别图片中的文字怎么办？

如何配合 ShareX 或其他截图工具使用 MangaOcr？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架