yomitoku

GitHub
1.4k 52 简单 1 次阅读 昨天图像开发框架
AI 解读 由 AI 自动生成,仅供参考

YomiToku 是一款专为日语文档设计的 AI 图像解析引擎,能够精准识别图片中的文字、表格及版面结构。它有效解决了传统 OCR 工具在处理日语特有排版(如竖排文字、手写体、复杂表格)时准确率低、阅读顺序混乱以及难以保留原文档逻辑结构的痛点。

无论是需要批量处理日文资料的开发者、从事文档数字化的研究人员,还是希望将扫描件转换为可编辑格式的普通用户,都能从中受益。YomiToku 内置了四种针对日语数据独立训练的 AI 模型,支持超过 7000 个日文字符的识别,并能智能推断正确的阅读顺序。其独特亮点在于不仅能输出纯文本,还能将解析结果无损转换为 HTML、Markdown、JSON 或可搜索 PDF 等多种格式,同时完整提取图表信息。此外,它对硬件要求友好,既能在 GPU 环境下高速运行,也提供了轻量级模型供 CPU 快速推理,让高效的日文文档数字化变得简单可行。

使用场景

某日本法律事务所的助理律师需要每天将大量扫描版的竖排日文合同、手写笔录及包含复杂表格的政府公文转换为可编辑、可检索的电子文档,以便进行案例检索和归档。

没有 yomitoku 时

  • 竖排与手写识别困难:通用 OCR 工具难以准确识别日文特有的竖排版式和律师的手写批注,导致大量文字乱码或遗漏,需人工逐字校对。
  • 表格结构完全丢失:扫描件的复杂表格被还原为纯文本流,行列关系错乱,原本清晰的赔偿金额对照表变得无法阅读,必须手动重新制表。
  • 阅读顺序混乱:多栏排版的法律文书在转换后段落顺序颠倒,破坏了法律条文的逻辑连贯性,严重影响后续分析效率。
  • 格式重建耗时:为了获得可用的 Markdown 或 HTML 报告,团队需花费数小时手动调整格式和插入图片,严重拖慢案件处理进度。

使用 yomitoku 后

  • 高精度全场景识别:yomitoku 专为日语训练,能完美解析竖排印刷体、手写笔记及生僻汉字,无需人工二次校对即可直接引用。
  • 智能表格结构还原:自动识别表格的单元格结构与行列属性,将复杂的赔偿金计算表直接转换为结构完整的 Markdown 或 CSV,数据关系一目了然。
  • 逻辑阅读顺序保持:内置的阅读顺序推断功能确保多栏文档按正确逻辑输出,法律条款的上下文衔接自然流畅,维持了文书的严谨性。
  • 一键多格式交付:通过简单命令即可将整本扫描件批量转换为带原图定位的可搜索 PDF 或 HTML,原本半天的工作缩短至几分钟完成。

yomitoku 通过深度理解日语文档的布局语义,将繁琐的非结构化图像整理工作转化为高效的自动化流程,让法律从业者能专注于核心业务分析。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 非必需(支持 CPU 推理)
  • 推荐使用 NVIDIA GPU,显存需 8GB 以内即可运行,CUDA 版本需 >= 11.8(默认安装支持 CUDA 12.4+ 的 PyTorch)
  • 轻量模型可在 CPU 上高速运行
内存

未说明

依赖
notes1. 默认安装的 PyTorch 适配 CUDA 12.4+,若环境仅支持 CUDA 11.8+ 需手动安装对应版本的 PyTorch 或使用提供的 Dockerfile。 2. 输入图像建议短边分辨率至少为 720px 以保证识别精度。 3. 提供‘通常模型’(推荐 GPU)和‘轻量模型’(支持 CPU,但单行最大识别长度限制为 50 字符)两种模式。 4. 开源版本基于 CC BY-NC-SA 4.0 协议,仅限非商用;商用需购买产品版许可证。 5. 额外功能(如结构化数据提取)需安装可选依赖:pip install yomitoku[extract]。
python3.10, 3.11, 3.12, 3.13
torch>=2.5
yomitoku
yomitoku hero image

快速开始

日语版 | English

Python PyTorch CUDA OS Document PyPI Downloads

🌟 概要

YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析功能を有しており、画像内の文字情報や図表を認識、抽出、変換します。

  • 🤖 日本語データセットで学習した 4 種類(文字位置の検知、文字列認識、レイアウト解析、表の構造認識)の AI モデルを搭載しています。4 種類のモデルはすべて独自に学習されたモデルで日本語文書に対して、高精度に推論可能です。
  • 🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサポート、手書き文字、縦書きなど日本語特有のレイアウト構造の文書画像的解析も可能です。(日本語以外にも英語の文書に対しても対応しています)。
  • 📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像的レイアウト的意味的構造を壊さずに情報を抽出することが可能です。
  • 📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像的抽出的出力も可能です。文書画像をサーチャブルPDFに変換する処理もサポートしています。
  • ⚡ GPU 環境で高速に動作し、効率的に文書的文字起こし解析が可能です。また、VRAM も 8GB 以内で動作し、ハイエンドな GPU を用意する必要はありません。軽量モデルを用いれば CPU でも高速に推論が可能です。

🖼️ デモ

gallery.mdにも複数種類的画像的検証結果を掲載しています。

入力画像 OCR 的 報告
レイアウト解析的 報告 エクスポート
(HTML で出力したものをスクショ)

Markdown でエクスポートした結果に関してはリポзиトリ内的static/out/in_demo_p1.mdを参照

  • 赤枠 : 図、画像等的 位置
  • 緑枠 : 表領域全体的 位置
  • ピンク枠 : 表的 セル構造(セル上の文字は [行番号, 列番号] (rowspan x colspan)を表します)
  • 青枠 : 段落、テキストグループ領域
  • 赤矢印 : 読み順推定的 報告

画像的 出典:「令和 6 年版情報通信白書 3 章 2 節 AI 的 进化に伴い発展するテクノロジー」:(総務省) を加工して作成

📣 リリース情報

  • 2025 年 11 月 5 日 YomiToku v0.10.1 CPU推论向けに最適化したGPU Free OCRモデル的サポート
  • 2025 年 4 月 4 日 YomiToku v0.8.0 手書き文字识别的サポート
  • 2024 年 11 月 26 日 YomiToku v0.5.1 (beta) を公開

💡 インストール的 方法

pip install yomitoku
  • PyTorch はご自身的 CUDA 的 バージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上的ものがインストールされます。
  • PyTorch は 2.5 以上のバージョン的に対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内的 Dockerfile を利用してください。

🚀 実行的 方法

通常モデルでの推論

yomitoku ${path_data} -f md -o results -v --figure

軽量モデルでの推论

--liteオプションを使用してください。

yomitoku ${path_data} -f md --lite -d cpu -o results -v --figure

軽量モデルは1行あたり読み取り可能な最大文字列長が50文字的制限があります。英文や1行あたり的文字数が多い文書は通常モデルを使用することを推奨します。

コマンドライン引数一覧

引数名 説明
${path_data} 解析対象的画像が含まれたディレクトリか画像ファイル的パスを直接指定します。ディレクトリを対象とした場合はサブディレクトリ内的画像も含めて処理を実行します。
--format(-f) 出力形式的ファイルフォーマットを指定します。(json, csv, html, md, pdf(searchable-pdf) をサポート)
--outdir(-o) 出力先的ディレクトリ名を指定します。存在しない場合は新規で作成されます。
--vis(-v) 解析結果を可視化した画像を出力します。
--lite(-l) 軽量モデルで推論を実施します。通常より高速に推論できますが、若干、精度が低下する可能性があります。
--device(-d) モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実施されます。(デフォル特: cuda)
--ignore_line_break 画像的 改行位置を無視して、段落内的文章を連結して返します。(デフォル特:画像通り的改行位置で改行します。)
--figure_letter 検出した図表内的包含される文字も出力ファイル内にエクスポートします。
--figure 検出した図、画像を出力ファイル内にエクスポートします。
--encoding エクスポートする出力ファイル的文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932)
--combine PDFを入力に与えたときに、複数ページが含まれる場合に、それら的予測結果を一つ的ファイル内に統合してエクスポートします。
--ignore_meta 文章的header, footerなどの文字情報を出力ファイル内に含めません。
--ignore_ruby ふりがな(ルビ)テキストを出力から除外します。
--ruby_threshold ルビ判定的閾値を指定します(デフォル特:0.5)。--ignore_rubyと併用します。

その他のオプションに関してはヘルプを参照してください。

yomitoku --help

NOTE

  • 通常モデルでは GPU 的実行を推奨します。CPU を用いて的推论向けに最优化されておらず、処理時間が長くなります。
  • 軽量モデルでは CPU でも高速に推論できます。
  • YomiToku は文書 OCR 向けに最適化されており、情景 OCR(看板など紙以外にプリントされた文字的読み取り)向けには最適化されていません。
  • AI-OCR 的識別精度を高めるために、入力画像的解像度が重要です。低解像度画像では識別精度が低下します。最低でも画像的短辺を 720px 以上の画像で推論することをお勧めします。

📋 Extractor(構造化データ抽出)

YomiToku Extractorは、帳票画像やPDFからYAMLスキーマに基づいて構造化データを抽出する機能です。OCR・レイアウト解析的結果から、指定したフィールド的値を自動で抽出しJSONとして出力します。

抽出方式

コマンド 方式 特徴
yomitoku_extract ルールベース LLM不要。KV検索・グリッド照合・正規表現で高速に抽出
yomitoku_extract_with_llm LLMベース vLLM等的LLMサーバーを利用してより柔軟に抽出
  • ルールベース: 定型帳票(申請書、報告書、伝票など)に適しています。抽出対象的位置やテキストパターンが決まっている場合に高速かつ高精度に抽出できます。
  • LLMベース: 非定型帳票(名刺、レシート、請求書など)に適しています。レイアウトや値的パターンが不定の場合でも、文脈を理解して柔軟に抽出できます。

インストール

pip install yomitoku[extract]

スキーマ定義例

fields:
  - name: phone_number
    description: 電話番号
    type: string
    normalize: phone_jp

  - name: invoice_number
    regex: 'T\d{13}'
    type: string

  - name: order_items
    structure: table
    columns:
      - name: product
        description: 商品名
      - name: price
        description: 金額
        normalize: numeric

実行例

# ルールベース抽出
yomitoku_extract input.jpg -s schema.yaml -o results -v

# LLMベース抽出(vLLMサーバー使用)
yomitoku_extract_with_llm input.jpg -s schema.yaml -m Qwen/Qwen3-8B-Instruct

詳細はExtractor ドキュメントを参照してください。

📝 ドキュメント

パッケージ的詳細はドキュumentを確認してください。

LICENSE

本リポジトリ内的ソースコードおよび本プロジェクト的関連 HuggingFace Hub 上的模型的重量文件は、CC BY-NC-SA 4.0 ライセンス的下で提供されています。
非商用的個人利用・研究目的的利用は自由に行っていただけます。

YomiToku © 2024 by Kotaro Kinoshita is licensed under CC BY-NC-SA 4.0.
To view a copy of this license, visit: https://creativecommons.org/licenses/by-nc-sa/4.0/

商用化/非商用的判断は以下のガイドラインに従い、判断いたします。


商用利用について

YomiToku を商用環境でご利用いただく場合、以下の方法で 製品版的 商用ライセンス を提供しています。
手書き認識的精度向上、画像的 自動向き補正、レイアウト解析的強化など、製品版のみで利用可能な追加機能 を多数搭載しています。

オンプレミス環境・ローカル PC 的 商用利用

オンプレミス環境やローカル PC 的 商用利用をご希望の場合は、専用的 オンプレ向け的 商用ライセンス をご用意しています。
詳細は以下よりお問い合わせください。

クラウ드上的 商用利用(AWS Marketplace)

YomiToku 的 商用版は AWS Marketplace でも提供しています。
すべて的解析処理は お客様的 AWS 环境内で完結 し、外部ネットワークや第三者サーバーへの送信は一切発生しません。
機密文書・社内資料・個人情報を扱うワークロードでも安心してご利用いただけます。

版本历史

v0.12.02026/03/04
v0.11.02026/02/18
v0.10.32025/12/17
v0.10.22025/12/01
v0.10.12025/11/05
v0.9.52025/09/09
v0.9.42025/06/12
v0.9.32025/06/05
v0.9.12025/05/16
v0.9.02025/04/18
v0.8.12025/04/03
v0.8.02025/04/03
v0.7.42025/04/03
v0.7.32025/03/20
v0.7.22025/02/23
v0.7.12025/01/04
v0.7.02025/01/04
v0.6.02024/12/15
v0.5.32024/12/05
v0.5.22024/11/29

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架