[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-kotaro-kinoshita--yomitoku":3,"similar-kotaro-kinoshita--yomitoku":185},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":17,"owner_location":17,"owner_email":17,"owner_twitter":18,"owner_website":17,"owner_url":19,"languages":20,"stars":29,"forks":30,"last_commit_at":31,"license":17,"difficulty_score":32,"env_os":33,"env_gpu":34,"env_ram":35,"env_deps":36,"category_tags":41,"github_topics":44,"view_count":32,"oss_zip_url":17,"oss_zip_packed_at":17,"status":50,"created_at":51,"updated_at":52,"faqs":53,"releases":84},4066,"kotaro-kinoshita\u002Fyomitoku","yomitoku","YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.","YomiToku 是一款专为日语文档设计的 AI 图像解析引擎，能够精准识别图片中的文字、表格及版面结构。它有效解决了传统 OCR 工具在处理日语特有排版（如竖排文字、手写体、复杂表格）时准确率低、阅读顺序混乱以及难以保留原文档逻辑结构的痛点。\n\n无论是需要批量处理日文资料的开发者、从事文档数字化的研究人员，还是希望将扫描件转换为可编辑格式的普通用户，都能从中受益。YomiToku 内置了四种针对日语数据独立训练的 AI 模型，支持超过 7000 个日文字符的识别，并能智能推断正确的阅读顺序。其独特亮点在于不仅能输出纯文本，还能将解析结果无损转换为 HTML、Markdown、JSON 或可搜索 PDF 等多种格式，同时完整提取图表信息。此外，它对硬件要求友好，既能在 GPU 环境下高速运行，也提供了轻量级模型供 CPU 快速推理，让高效的日文文档数字化变得简单可行。","日本語版 | [English](README_EN.md)\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_ded72d59b93b.png\" width=\"800px\">\n\n![Python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.10|3.11|3.12|3.13-F9DC3E.svg?logo=python&logoColor=&style=flat)\n![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPytorch-2.6-EE4C2C.svg?logo=Pytorch&style=fla)\n![CUDA](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCUDA->=11.8-76B900.svg?logo=NVIDIA&style=fla)\n![OS](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOS-Linux|Mac|Win-1793D1.svg?&style=fla)\n[![Document](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-live-brightgreen)](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002F)\n[![PyPI Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_3a6aec5b5457.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fyomitoku)\n\n## 🌟 概要\n\nYomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。\n\n- 🤖 日本語データセットで学習した 4 種類(文字位置の検知、文字列認識、レイアウト解析、表の構造認識)の AI モデルを搭載しています。4 種類のモデルはすべて独自に学習されたモデルで日本語文書に対して、高精度に推論可能です。\n- 🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサポート、手書き文字、縦書きなど日本語特有のレイアウト構造の文書画像の解析も可能です。（日本語以外にも英語の文書に対しても対応しています）。\n- 📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像のレイアウトの意味的構造を壊さずに情報を抽出することが可能です。\n- 📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像の抽出の出力も可能です。文書画像をサーチャブルPDFに変換する処理もサポートしています。\n- ⚡ GPU 環境で高速に動作し、効率的に文書の文字起こし解析が可能です。また、VRAM も 8GB 以内で動作し、ハイエンドな GPU を用意する必要はありません。軽量モデルを用いれば CPU でも高速に推論が可能です。\n\n## 🖼️ デモ\n\n[gallery.md](gallery.md)にも複数種類の画像の検証結果を掲載しています。\n\n|                          入力画像                          |                       OCR の結果                        |\n| :--------------------------------------------------------: | :-----------------------------------------------------: |\n|        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_1bab0014ac2d.jpg\" width=\"400px\">        | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_58b95a390558.jpg\" width=\"400px\"> |\n|                    レイアウト解析の結果                    |     エクスポート\u003Cbr>(HTML で出力したものをスクショ)     |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_1fa5430d8cbc.jpg\" width=\"400px\"> |   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_38419b4d5028.png\" width=\"400px\">    |\n\nMarkdown でエクスポートした結果は関してはリポジトリ内の[static\u002Fout\u002Fin_demo_p1.md](static\u002Fout\u002Fin_demo_p1.md)を参照\n\n- `赤枠` : 図、画像等の位置\n- `緑枠` : 表領域全体の位置\n- `ピンク枠` : 表のセル構造(セル上の文字は [行番号, 列番号] (rowspan x colspan)を表します)\n- `青枠` : 段落、テキストグループ領域\n- `赤矢印` : 読み順推定の結果\n\n画像の出典:[「令和 6 年版情報通信白書 3 章 2 節 AI の進化に伴い発展するテクノロジー」](https:\u002F\u002Fwww.soumu.go.jp\u002Fjohotsusintokei\u002Fwhitepaper\u002Fja\u002Fr06\u002Fpdf\u002Fn1410000.pdf)：（総務省） を加工して作成\n\n## 📣 リリース情報\n\n- 2025 年 11 月  5 日 YomiToku v0.10.1 CPU推論向けに最適化したGPU Free OCRモデルのサポート\n- 2025 年  4 月  4 日 YomiToku v0.8.0 手書き文字認識のサポート\n- 2024 年 11 月 26 日 YomiToku v0.5.1 (beta) を公開\n\n## 💡 インストールの方法\n\n```bash\npip install yomitoku\n```\n\n- PyTorch はご自身の CUDA のバージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上に対応したものがインストールされます。\n- PyTorch は 2.5 以上のバージョンに対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内の Dockerfile を利用してください。\n\n## 🚀 実行方法\n\n### 通常モデルでの推論\n\n```bash\nyomitoku ${path_data} -f md -o results -v --figure\n```\n\n### 軽量モデルでの推論\n\n`--lite`オプションを使用してください。\n\n```bash\nyomitoku ${path_data} -f md --lite -d cpu -o results -v --figure\n```\n\n軽量モデルは１行あたり読み取り可能な最大文字列長が50文字の制限があります。英文や１行あたりの文字数が多い文書は通常モデルを使用することを推奨します。\n\n## コマンドライン引数一覧\n\n| 引数名 | 説明 |\n| :--- | :--- |\n| `${path_data}` | 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接指定します。ディレクトリを対象とした場合はサブディレクトリ内の画像も含めて処理を実行します。 |\n| `--format`(`-f`) | 出力形式のファイルフォーマットを指定します。(json, csv, html, md, pdf(searchable-pdf) をサポート) |\n| `--outdir`(`-o`) | 出力先のディレクトリ名を指定します。存在しない場合は新規で作成されます。 |\n| `--vis`(`-v`) | 解析結果を可視化した画像を出力します。 |\n| `--lite`(`-l`) | 軽量モデルで推論を実行します。通常より高速に推論できますが、若干、精度が低下する可能性があります。 |\n| `--device`(`-d`) | モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実行されます。(デフォルト: cuda) |\n| `--ignore_line_break` | 画像の改行位置を無視して、段落内の文章を連結して返します。（デフォルト：画像通りの改行位置で改行します。） |\n| `--figure_letter` | 検出した図表に含まれる文字も出力ファイルにエクスポートします。 |\n| `--figure` | 検出した図、画像を出力ファイルにエクスポートします。 |\n| `--encoding` | エクスポートする出力ファイルの文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932) |\n| `--combine` | PDFを入力に与えたときに、複数ページが含まれる場合に、それらの予測結果を一つのファイルに統合してエクスポートします。 |\n| `--ignore_meta` | 文章のheader, footerなどの文字情報を出力ファイルに含めません。 |\n| `--ignore_ruby` | ふりがな（ルビ）テキストを出力から除外します。 |\n| `--ruby_threshold` | ルビ判定の閾値を指定します（デフォルト: 0.5）。`--ignore_ruby` と併用します。 |\n\nその他のオプションに関してはヘルプを参照してください。\n\n```bash\nyomitoku --help\n```\n\n### NOTE\n\n- 通常モデルでは GPU での実行を推奨します。CPU を用いての推論向けに最適化されておらず、処理時間が長くなります。\n- 軽量モデルでは CPU でも高速に推論できます。\n- YomiToku は文書 OCR 向けに最適化されており、情景 OCR(看板など紙以外にプリントされた文字の読み取り)向けには最適化されていません。\n- AI-OCR の識別精度を高めるために、入力画像の解像度が重要です。低解像度画像では識別精度が低下します。最低でも画像の短辺を 720px 以上の画像で推論することをお勧めします。\n\n## 📋 Extractor（構造化データ抽出）\n\nYomiToku Extractorは、帳票画像やPDFからYAMLスキーマに基づいて構造化データを抽出する機能です。OCR・レイアウト解析の結果から、指定したフィールドの値を自動で抽出しJSONとして出力します。\n\n### 抽出方式\n\n| コマンド | 方式 | 特徴 |\n| :--- | :--- | :--- |\n| `yomitoku_extract` | ルールベース | LLM不要。KV検索・グリッド照合・正規表現で高速に抽出 |\n| `yomitoku_extract_with_llm` | LLMベース | vLLM等のLLMサーバーを利用してより柔軟に抽出 |\n\n- **ルールベース**: 定型帳票（申請書、報告書、伝票など）に適しています。抽出対象の位置やテキストパターンが決まっている場合に高速かつ高精度に抽出できます。\n- **LLMベース**: 非定型帳票（名刺、レシート、請求書など）に適しています。レイアウトや値のパターンが不定の場合でも、文脈を理解して柔軟に抽出できます。\n\n### インストール\n\n```bash\npip install yomitoku[extract]\n```\n\n### スキーマ定義例\n\n```yaml\nfields:\n  - name: phone_number\n    description: 電話番号\n    type: string\n    normalize: phone_jp\n\n  - name: invoice_number\n    regex: 'T\\d{13}'\n    type: string\n\n  - name: order_items\n    structure: table\n    columns:\n      - name: product\n        description: 商品名\n      - name: price\n        description: 金額\n        normalize: numeric\n```\n\n### 実行例\n\n```bash\n# ルールベース抽出\nyomitoku_extract input.jpg -s schema.yaml -o results -v\n\n# LLMベース抽出（vLLMサーバー使用）\nyomitoku_extract_with_llm input.jpg -s schema.yaml -m Qwen\u002FQwen3-8B-Instruct\n```\n\n詳細は[Extractor ドキュメント](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002Fextractor\u002F)を参照してください。\n\n## 📝 ドキュメント\n\nパッケージの詳細は[ドキュメント](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002F)を確認してください。\n\n## LICENSE\n\n本リポジトリ内のソースコードおよび本プロジェクトに関連する HuggingFace Hub 上のモデルの重みファイルは、**CC BY-NC-SA 4.0** ライセンスの下で提供されています。  \n非商用での個人利用・研究目的での利用は自由に行っていただけます。\n\nYomiToku © 2024 by Kotaro Kinoshita is licensed under CC BY-NC-SA 4.0.  \nTo view a copy of this license, visit: \u003Chttps:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F>\n\n商用化\u002F非商用の判断は以下のガイドラインに従い、判断いたします。\n\n- [ライセンスの商用\u002F非商用の判断のためのガイドライン](docs\u002Fcommercial_use_guideline.ja.md)\n\n---\n\n## 商用利用について\n\nYomiToku を商用環境でご利用いただく場合、以下の方法で **製品版の商用ライセンス** を提供しています。  \n手書き認識の精度向上、画像の自動向き補正、レイアウト解析の強化など、**製品版のみで利用可能な追加機能** を多数搭載しています。\n\n### オンプレミス環境・ローカル PC での商用利用\n\nオンプレミス環境やローカル PC での商用利用をご希望の場合は、専用の **オンプレ向け商用ライセンス** をご用意しています。  \n詳細は以下よりお問い合わせください。\n\n- \u003Chttps:\u002F\u002Fwww.mlism.com\u002F>\n\n### クラウド上での商用利用（AWS Marketplace）\n\nYomiToku の商用版は **AWS Marketplace** でも提供しています。  \nすべての解析処理は **お客様の AWS 環境内で完結** し、外部ネットワークや第三者サーバーへの送信は一切発生しません。  \n機密文書・社内資料・個人情報を扱うワークロードでも安心してご利用いただけます。\n\n- **AWS Marketplace – YomiToku-Pro Document Analyzer**  \n  \u003Chttps:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fsearch\u002Fresults?searchTerms=yomitoku>\n- **利用手順（YomiToku-Client ドキュメント）**  \n  \u003Chttps:\u002F\u002Fmlism-inc.github.io\u002Fyomitoku-client\u002F>\n","日语版 | [English](README_EN.md)\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_ded72d59b93b.png\" width=\"800px\">\n\n![Python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.10|3.11|3.12|3.13-F9DC3E.svg?logo=python&logoColor=&style=flat)\n![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPytorch-2.6-EE4C2C.svg?logo=Pytorch&style=fla)\n![CUDA](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCUDA->=11.8-76B900.svg?logo=NVIDIA&style=fla)\n![OS](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOS-Linux|Mac|Win-1793D1.svg?&style=fla)\n[![Document](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-live-brightgreen)](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002F)\n[![PyPI Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_3a6aec5b5457.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fyomitoku)\n\n## 🌟 概要\n\nYomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析功能を有しており、画像内の文字情報や図表を認識、抽出、変換します。\n\n- 🤖 日本語データセットで学習した 4 種類(文字位置の検知、文字列認識、レイアウト解析、表の構造認識)の AI モデルを搭載しています。4 種類のモデルはすべて独自に学習されたモデルで日本語文書に対して、高精度に推論可能です。\n- 🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサポート、手書き文字、縦書きなど日本語特有のレイアウト構造の文書画像的解析も可能です。（日本語以外にも英語の文書に対しても対応しています）。\n- 📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像的レイアウト的意味的構造を壊さずに情報を抽出することが可能です。\n- 📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像的抽出的出力も可能です。文書画像をサーチャブルPDFに変換する処理もサポートしています。\n- ⚡ GPU 環境で高速に動作し、効率的に文書的文字起こし解析が可能です。また、VRAM も 8GB 以内で動作し、ハイエンドな GPU を用意する必要はありません。軽量モデルを用いれば CPU でも高速に推論が可能です。\n\n## 🖼️ デモ\n\n[gallery.md](gallery.md)にも複数種類的画像的検証結果を掲載しています。\n\n|                          入力画像                          |                       OCR 的 報告                        |\n| :--------------------------------------------------------: | :-----------------------------------------------------: |\n|        \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_1bab0014ac2d.jpg\" width=\"400px\">        | \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_58b95a390558.jpg\" width=\"400px\"> |\n|                    レイアウト解析的 報告                    |     エクスポート\u003Cbr>(HTML で出力したものをスクショ)     |\n| \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_1fa5430d8cbc.jpg\" width=\"400px\"> |   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_readme_38419b4d5028.png\" width=\"400px\">    |\n\nMarkdown でエクスポートした結果に関してはリポзиトリ内的[static\u002Fout\u002Fin_demo_p1.md](static\u002Fout\u002Fin_demo_p1.md)を参照\n\n- `赤枠` : 図、画像等的 位置\n- `緑枠` : 表領域全体的 位置\n- `ピンク枠` : 表的 セル構造(セル上の文字は [行番号, 列番号] (rowspan x colspan)を表します)\n- `青枠` : 段落、テキストグループ領域\n- `赤矢印` : 読み順推定的 報告\n\n画像的 出典:[「令和 6 年版情報通信白書 3 章 2 節 AI 的 进化に伴い発展するテクノロジー」](https:\u002F\u002Fwww.soumu.go.jp\u002Fjohotsusintokei\u002Fwhitepaper\u002Fja\u002Fr06\u002Fpdf\u002Fn1410000.pdf)：（総務省） を加工して作成\n\n## 📣 リリース情報\n\n- 2025 年 11 月  5 日 YomiToku v0.10.1 CPU推论向けに最適化したGPU Free OCRモデル的サポート\n- 2025 年  4 月  4 日 YomiToku v0.8.0 手書き文字识别的サポート\n- 2024 年 11 月 26 日 YomiToku v0.5.1 (beta) を公開\n\n## 💡 インストール的 方法\n\n```bash\npip install yomitoku\n```\n\n- PyTorch はご自身的 CUDA 的 バージョンにあったものをインストールしてください。デフォルトでは CUDA12.4 以上的ものがインストールされます。\n- PyTorch は 2.5 以上のバージョン的に対応しています。その関係で CUDA11.8 以上のバージョンが必要になります。対応できない場合は、リポジトリ内的 Dockerfile を利用してください。\n\n## 🚀 実行的 方法\n\n### 通常モデルでの推論\n\n```bash\nyomitoku ${path_data} -f md -o results -v --figure\n```\n\n### 軽量モデルでの推论\n\n`--lite`オプションを使用してください。\n\n```bash\nyomitoku ${path_data} -f md --lite -d cpu -o results -v --figure\n```\n\n軽量モデルは１行あたり読み取り可能な最大文字列長が50文字的制限があります。英文や１行あたり的文字数が多い文書は通常モデルを使用することを推奨します。\n\n## コマンドライン引数一覧\n\n| 引数名 | 説明 |\n| :--- | :--- |\n| `${path_data}` | 解析対象的画像が含まれたディレクトリか画像ファイル的パスを直接指定します。ディレクトリを対象とした場合はサブディレクトリ内的画像も含めて処理を実行します。 |\n| `--format`(`-f`) | 出力形式的ファイルフォーマットを指定します。(json, csv, html, md, pdf(searchable-pdf) をサポート) |\n| `--outdir`(`-o`) | 出力先的ディレクトリ名を指定します。存在しない場合は新規で作成されます。 |\n| `--vis`(`-v`) | 解析結果を可視化した画像を出力します。 |\n| `--lite`(`-l`) | 軽量モデルで推論を実施します。通常より高速に推論できますが、若干、精度が低下する可能性があります。 |\n| `--device`(`-d`) | モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実施されます。(デフォル特: cuda) |\n| `--ignore_line_break` | 画像的 改行位置を無視して、段落内的文章を連結して返します。（デフォル特：画像通り的改行位置で改行します。） |\n| `--figure_letter` | 検出した図表内的包含される文字も出力ファイル内にエクスポートします。 |\n| `--figure` | 検出した図、画像を出力ファイル内にエクスポートします。 |\n| `--encoding` | エクスポートする出力ファイル的文字エンコーディングを指定します。サポートされていない文字コードが含まれる場合は、その文字を無視します。(utf-8, utf-8-sig, shift-jis, enc-jp, cp932) |\n| `--combine` | PDFを入力に与えたときに、複数ページが含まれる場合に、それら的予測結果を一つ的ファイル内に統合してエクスポートします。 |\n| `--ignore_meta` | 文章的header, footerなどの文字情報を出力ファイル内に含めません。 |\n| `--ignore_ruby` | ふりがな（ルビ）テキストを出力から除外します。 |\n| `--ruby_threshold` | ルビ判定的閾値を指定します（デフォル特：0.5）。`--ignore_ruby`と併用します。 |\n\nその他のオプションに関してはヘルプを参照してください。\n\n```bash\nyomitoku --help\n```\n\n### NOTE\n\n- 通常モデルでは GPU 的実行を推奨します。CPU を用いて的推论向けに最优化されておらず、処理時間が長くなります。\n- 軽量モデルでは CPU でも高速に推論できます。\n- YomiToku は文書 OCR 向けに最適化されており、情景 OCR(看板など紙以外にプリントされた文字的読み取り)向けには最適化されていません。\n- AI-OCR 的識別精度を高めるために、入力画像的解像度が重要です。低解像度画像では識別精度が低下します。最低でも画像的短辺を 720px 以上の画像で推論することをお勧めします。\n\n## 📋 Extractor（構造化データ抽出）\n\nYomiToku Extractorは、帳票画像やPDFからYAMLスキーマに基づいて構造化データを抽出する機能です。OCR・レイアウト解析的結果から、指定したフィールド的値を自動で抽出しJSONとして出力します。\n\n### 抽出方式\n\n| コマンド | 方式 | 特徴 |\n| :--- | :--- | :--- |\n| `yomitoku_extract` | ルールベース | LLM不要。KV検索・グリッド照合・正規表現で高速に抽出 |\n| `yomitoku_extract_with_llm` | LLMベース | vLLM等的LLMサーバーを利用してより柔軟に抽出 |\n\n- **ルールベース**: 定型帳票（申請書、報告書、伝票など）に適しています。抽出対象的位置やテキストパターンが決まっている場合に高速かつ高精度に抽出できます。\n- **LLMベース**: 非定型帳票（名刺、レシート、請求書など）に適しています。レイアウトや値的パターンが不定の場合でも、文脈を理解して柔軟に抽出できます。\n\n### インストール\n\n```bash\npip install yomitoku[extract]\n```\n\n### スキーマ定義例\n\n```yaml\nfields:\n  - name: phone_number\n    description: 電話番号\n    type: string\n    normalize: phone_jp\n\n  - name: invoice_number\n    regex: 'T\\d{13}'\n    type: string\n\n  - name: order_items\n    structure: table\n    columns:\n      - name: product\n        description: 商品名\n      - name: price\n        description: 金額\n        normalize: numeric\n```\n\n### 実行例\n\n```bash\n# ルールベース抽出\nyomitoku_extract input.jpg -s schema.yaml -o results -v\n\n# LLMベース抽出（vLLMサーバー使用）\nyomitoku_extract_with_llm input.jpg -s schema.yaml -m Qwen\u002FQwen3-8B-Instruct\n```\n\n詳細は[Extractor ドキュメント](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002Fextractor\u002F)を参照してください。\n\n## 📝 ドキュメント\n\nパッケージ的詳細は[ドキュument](https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002F)を確認してください。\n\n## LICENSE\n\n本リポジトリ内的ソースコードおよび本プロジェクト的関連 HuggingFace Hub 上的模型的重量文件は、**CC BY-NC-SA 4.0** ライセンス的下で提供されています。  \n非商用的個人利用・研究目的的利用は自由に行っていただけます。\n\nYomiToku © 2024 by Kotaro Kinoshita is licensed under CC BY-NC-SA 4.0.  \nTo view a copy of this license, visit: \u003Chttps:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F>\n\n商用化\u002F非商用的判断は以下のガイドラインに従い、判断いたします。\n\n- [ライセンス的 商用\u002F非商用的 判断的 ため的 ガイドライン](docs\u002Fcommercial_use_guideline.ja.md)\n\n---\n\n## 商用利用について\n\nYomiToku を商用環境でご利用いただく場合、以下の方法で **製品版的 商用ライセンス** を提供しています。  \n手書き認識的精度向上、画像的 自動向き補正、レイアウト解析的強化など、**製品版のみで利用可能な追加機能** を多数搭載しています。\n\n### オンプレミス環境・ローカル PC 的 商用利用\n\nオンプレミス環境やローカル PC 的 商用利用をご希望の場合は、専用的 **オンプレ向け的 商用ライセンス** をご用意しています。  \n詳細は以下よりお問い合わせください。\n\n- \u003Chttps:\u002F\u002Fwww.mlism.com\u002F>\n\n### クラウ드上的 商用利用（AWS Marketplace）\n\nYomiToku 的 商用版は **AWS Marketplace** でも提供しています。  \nすべて的解析処理は **お客様的 AWS 环境内で完結** し、外部ネットワークや第三者サーバーへの送信は一切発生しません。  \n機密文書・社内資料・個人情報を扱うワークロードでも安心してご利用いただけます。\n\n- **AWS Marketplace – YomiToku-Pro Document Analyzer**  \n  \u003Chttps:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fsearch\u002Fresults?searchTerms=yomitoku>\n- **利用手順（YomiToku-Client ドキュument）**  \n  \u003Chttps:\u002F\u002Fmlism-inc.github.io\u002Fyomitoku-client\u002F>","# YomiToku 快速上手指南\n\nYomiToku 是一款专为日语文档优化的 AI 文档图像解析引擎（Document AI），支持高精度 OCR、布局分析及表格结构识别。它特别擅长处理竖排文字、手写体及复杂日文排版，同时也支持英文文档。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux, macOS, 或 Windows\n*   **Python 版本**: 3.10, 3.11, 3.12, 或 3.13\n*   **PyTorch 版本**: >= 2.5 (推荐 2.6)\n*   **CUDA 版本**: >= 11.8 (若使用 GPU 加速)\n    *   *注意：默认安装会尝试匹配 CUDA 12.4+ 的 PyTorch 版本。若您的环境 CUDA 版本较低，请先手动安装对应版本的 PyTorch，或使用项目提供的 Dockerfile。*\n*   **显存要求**: 标准模型推荐 8GB 以上显存；轻量模型可在 CPU 或低显存设备上运行。\n\n> **提示**：为了获得最佳识别精度，建议输入图像的短边分辨率不低于 720px。\n\n## 安装步骤\n\n### 1. 安装基础包\n使用 pip 直接安装核心功能：\n\n```bash\npip install yomitoku\n```\n\n*(国内用户如遇下载缓慢，可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 使用清华镜像源)*\n\n### 2. 安装结构化数据提取功能（可选）\n如果您需要从表单或发票中提取特定字段（Extractor 功能），请安装扩展包：\n\n```bash\npip install \"yomitoku[extract]\"\n```\n\n## 基本使用\n\n### 场景一：标准文档解析（推荐 GPU）\n对指定图片或文件夹进行完整解析，并导出为 Markdown 格式，同时生成可视化结果和提取图片中的图表。\n\n```bash\nyomitoku ${path_data} -f md -o results -v --figure\n```\n\n*   `${path_data}`: 替换为您的图片文件路径或包含图片的文件夹路径。\n*   `-f md`: 输出格式为 Markdown (支持 json, csv, html, pdf 等)。\n*   `-o results`: 输出目录名称。\n*   `-v`: 生成带有标注框的可视化结果图。\n*   `--figure`: 单独导出检测到的图表和图片。\n\n### 场景二：轻量级快速解析（适用 CPU）\n在 CPU 环境或对速度要求较高、文档行数较短（每行\u003C50 字）的场景下使用轻量模型：\n\n```bash\nyomitoku ${path_data} -f md --lite -d cpu -o results -v --figure\n```\n\n*   `--lite`: 启用轻量模型，推理速度更快但精度略低。\n*   `-d cpu`: 强制使用 CPU 进行推理。\n\n### 场景三：结构化数据提取\n基于预定义的 YAML  schema 从表单图片中提取结构化数据（规则模式）：\n\n```bash\nyomitoku_extract input.jpg -s schema.yaml -o results -v\n```\n\n*   `input.jpg`: 输入的图片文件。\n*   `-s schema.yaml`: 定义提取字段和规则的 YAML 配置文件路径。\n\n---\n**更多参数详情**：运行 `yomitoku --help` 查看完整的命令行选项说明。","某日本法律事务所的助理律师需要每天将大量扫描版的竖排日文合同、手写笔录及包含复杂表格的政府公文转换为可编辑、可检索的电子文档，以便进行案例检索和归档。\n\n### 没有 yomitoku 时\n- **竖排与手写识别困难**：通用 OCR 工具难以准确识别日文特有的竖排版式和律师的手写批注，导致大量文字乱码或遗漏，需人工逐字校对。\n- **表格结构完全丢失**：扫描件的复杂表格被还原为纯文本流，行列关系错乱，原本清晰的赔偿金额对照表变得无法阅读，必须手动重新制表。\n- **阅读顺序混乱**：多栏排版的法律文书在转换后段落顺序颠倒，破坏了法律条文的逻辑连贯性，严重影响后续分析效率。\n- **格式重建耗时**：为了获得可用的 Markdown 或 HTML 报告，团队需花费数小时手动调整格式和插入图片，严重拖慢案件处理进度。\n\n### 使用 yomitoku 后\n- **高精度全场景识别**：yomitoku 专为日语训练，能完美解析竖排印刷体、手写笔记及生僻汉字，无需人工二次校对即可直接引用。\n- **智能表格结构还原**：自动识别表格的单元格结构与行列属性，将复杂的赔偿金计算表直接转换为结构完整的 Markdown 或 CSV，数据关系一目了然。\n- **逻辑阅读顺序保持**：内置的阅读顺序推断功能确保多栏文档按正确逻辑输出，法律条款的上下文衔接自然流畅，维持了文书的严谨性。\n- **一键多格式交付**：通过简单命令即可将整本扫描件批量转换为带原图定位的可搜索 PDF 或 HTML，原本半天的工作缩短至几分钟完成。\n\nyomitoku 通过深度理解日语文档的布局语义，将繁琐的非结构化图像整理工作转化为高效的自动化流程，让法律从业者能专注于核心业务分析。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkotaro-kinoshita_yomitoku_ded72d59.png","kotaro-kinoshita","kotaro.kinoshita","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkotaro-kinoshita_8fbc9938.png",null,"KINOCOAI","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita",[21,25],{"name":22,"color":23,"percentage":24},"Python","#3572A5",94.9,{"name":26,"color":27,"percentage":28},"HTML","#e34c26",5.1,1371,52,"2026-04-05T02:07:53",2,"Linux, macOS, Windows","非必需（支持 CPU 推理）。推荐使用 NVIDIA GPU，显存需 8GB 以内即可运行，CUDA 版本需 >= 11.8（默认安装支持 CUDA 12.4+ 的 PyTorch）。轻量模型可在 CPU 上高速运行。","未说明",{"notes":37,"python":38,"dependencies":39},"1. 默认安装的 PyTorch 适配 CUDA 12.4+，若环境仅支持 CUDA 11.8+ 需手动安装对应版本的 PyTorch 或使用提供的 Dockerfile。\n2. 输入图像建议短边分辨率至少为 720px 以保证识别精度。\n3. 提供‘通常模型’（推荐 GPU）和‘轻量模型’（支持 CPU，但单行最大识别长度限制为 50 字符）两种模式。\n4. 开源版本基于 CC BY-NC-SA 4.0 协议，仅限非商用；商用需购买产品版许可证。\n5. 额外功能（如结构化数据提取）需安装可选依赖：pip install yomitoku[extract]。","3.10, 3.11, 3.12, 3.13",[40,6],"torch>=2.5",[42,43],"图像","开发框架",[45,46,47,48,49],"deep-learning","layout-analysis","ocr","python","pytorch","ready","2026-03-27T02:49:30.150509","2026-04-06T09:26:47.857925",[54,59,64,69,74,79],{"id":55,"question_zh":56,"answer_zh":57,"source_url":58},18517,"在 Windows Excel 中打开 CSV 文件时出现乱码怎么办？","该工具默认仅支持 UTF-8 编码，而 Windows Excel 通常期望 Shift-JIS 或其他编码。目前建议将其作为有限选项处理。若需解决乱码，可尝试用文本编辑器将 CSV 文件转换为 Shift-JIS 编码后再用 Excel 打开，或等待后续版本支持编码选项配置。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F48",{"id":60,"question_zh":61,"answer_zh":62,"source_url":63},18518,"如何只读取文档中特定区域（如固定位置）的文字？","该功能已作为“表格语义解析器（Table Semantic Parser）”的一部分实现。用户可以通过指定位置来搜索和提取文字。具体用法请参考官方文档：https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002Ftable_semantic_parser\u002F#resultssearch_words_by_position。此外，社区也提出了通过 JSON 定义排除区域（exclude_labels）来过滤页码或图形等干扰内容的方案。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F154",{"id":65,"question_zh":66,"answer_zh":67,"source_url":68},18519,"如何获取 Yomitoku MCP 服务器的 URL 以集成到 Dify 或其他平台？","MCP Server URL 的生成依赖于 FastMCP 库。请在 main 分支的最新版本中查看相关文档。通常需要在启动时配置 mount_path 以生成包含 `\u002Fmcp` 且以 `\u002Fsse` 结尾的端点。如果遇到 404 错误，可能是 FastMCP 的已知问题，请参考最新文档或等待修复：https:\u002F\u002Fkotaro-kinoshita.github.io\u002Fyomitoku\u002Fmcp\u002F#sse。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F106",{"id":70,"question_zh":71,"answer_zh":72,"source_url":73},18520,"是否有适用于 Yomitoku 的 Web GUI 界面？","社区用户开发了一个名为 yomitoku-web 的 Web GUI 包装器，支持拖拽上传和本地 Ollama 翻译功能。该项目基于 CC BY-NC-SA 4.0 许可证发布。您可以访问以下仓库获取和使用：https:\u002F\u002Fgithub.com\u002Fflelard\u002Fyomitoku-web。开发者正在探讨将其正式集成的可能性。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F180",{"id":75,"question_zh":76,"answer_zh":77,"source_url":78},18521,"文档链接返回 404 错误或初始化配置报错如何解决？","部分旧文档链接可能已失效，请以官网最新文档为准。如果在代码中遇到初始化错误，可以尝试显式传递空配置并指定设备，例如：`analyzer = DocumentAnalyzer(configs={}, visualize=True, device=\"cuda\")`。这有助于绕过某些默认配置导致的问题。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F131",{"id":80,"question_zh":81,"answer_zh":82,"source_url":83},18522,"从 Hugging Face Hub 加载模型时遇到 429 (Too Many Requests) 错误怎么办？","这是由于短时间内向 Hugging Face 发送了过多请求导致的限流。解决方法包括：1. 稍后重试；2. 登录 Hugging Face 账号以提高速率限制；3. 手动下载模型文件（.safetensors 等）到本地缓存目录，避免重复下载。确保网络连接稳定，并检查是否被防火墙拦截。","https:\u002F\u002Fgithub.com\u002Fkotaro-kinoshita\u002Fyomitoku\u002Fissues\u002F99",[85,90,95,100,105,110,115,120,125,130,135,140,145,150,155,160,165,170,175,180],{"id":86,"version":87,"summary_zh":88,"released_at":89},109075,"v0.12.0","## 变更\n\n## 🚀 功能新增\n\n- 实现文本识别模型对旋转文本的回退处理 @kotaro-kinoshita (#196)\n- 实现 ignore_ruby 选项 @kotaro-kinoshita (#194)\n\n## 🐛 Bug 修复\n\n- 修正 Key-Value 解析器的算法 @kotaro-kinoshita (#198)\n","2026-03-04T03:10:58",{"id":91,"version":92,"summary_zh":93,"released_at":94},109076,"v0.11.0","## 变更\n\n## 🚀 功能新增\n\n- YmiToku 提取器（Beta 版本实现）@kotaro-kinoshita (#191)\n- 修复：为 Apple Silicon 添加 MPS 设备支持 @serinuntius (#188)\n\n## 🐛 Bug 修复\n\n- 修复：为 Apple Silicon 添加 MPS 设备支持 @serinuntius (#188)","2026-02-18T00:37:12",{"id":96,"version":97,"summary_zh":98,"released_at":99},109077,"v0.10.3","## 变更\n\n## 🐛 Bug 修复\n\n- 修复了在 CPU 推理时轻量版模型推理结果异常的问题 @m5t0 (#186)\n- 配置 Changelog CI，使带有“skip changelog”标签的 Pull Request 被跳过 @m5t0 (#185)","2025-12-17T10:22:16",{"id":101,"version":102,"summary_zh":103,"released_at":104},109078,"v0.10.2","## 变更\n\n- 文档的轻微修正 @m5t0 (#181)\n- 文档表述修正及模式页面变更 @m5t0 (#178)\n- 增加商业使用判断指南 @kotaro-kinoshita (#177)\n- 在README中补充许可证信息 @kotaro-kinoshita (#176)\n- 在README中添加注意事项 @kotaro-kinoshita (#175)\n- 修正版本信息 @kotaro-kinoshita (#173)\n\n## 🚀 功能新增\n\n- 支持 Python 3.13 @kotaro-kinoshita (#182)\n\n## 📖 文档\n\n- 因 PyTorch 版本变更而修订 README @kotaro-kinoshita (#183)","2025-12-01T07:35:19",{"id":106,"version":107,"summary_zh":108,"released_at":109},109079,"v0.10.1","## 变更\n\n- 显式设置文件编码为 UTF-8，以防止 UnicodeDecodeError。@Utakata (#148)\n\n## 🚀 功能新增\n\n- 实现 Text Recognizer Tiny 模型 @kotaro-kinoshita (#172)\n- 减少可搜索 PDF 的文件大小 @kotaro-kinoshita (#170)\n- 在 CLI 中添加指定读取页面的选项 @kotaro-kinoshita (#162)\n- 实现模型下载命令 @kotaro-kinoshita (#159)\n- 在 CLI 中引入 PDF 转图像时的 DPI 设置选项 @kotaro-kinoshita (#140)\n\n## 🐛 错误修复\n\n- 修复 PR 反馈问题 @Utakata (#150)\n- 修正 CHANGELOG 自动生成功能的 CI 流程 @kotaro-kinoshita (#166)","2025-11-05T07:36:42",{"id":111,"version":112,"summary_zh":113,"released_at":114},109080,"v0.9.5","## 变更\n\n## 🚀 功能新增\n\n- 在布局解析中可视化读取顺序编号 @kotaro-kinoshita (#134)\n- 创建 Text Recognizer 单独调用的示例代码 @kotaro-kinoshita (#114)\n- 为 DocumentAnalyzer 添加参数并修改参数设置 @kotaro-kinoshita (#115)\n\n## 🔧 重构\n\n- 针对 Schema 的重构及文档补充 @kotaro-kinoshita (#116)\n\n## 🐛 Bug 修复\n\n- [错别字] 修正文档中的错别字和错误 @kotaro-kinoshita (#133)\n- 修正文档构建工作流 @kotaro-kinoshita (#128)\n- 为 DocumentAnalyzer 添加参数并修改参数设置 @kotaro-kinoshita (#115)\n- 修复使用相对路径指定目标图像文件时，result 文件会变成隐藏文件的问题 @moznion (#132)\n\n## 📖 文档\n\n- 修正 CI 流程 @kotaro-kinoshita (#126)\n- 修正 CI 流程 @kotaro-kinoshita (#124)\n- docs: 更新 CHANGELOG @[github-actions[bot]](https:\u002F\u002Fgithub.com\u002Fapps\u002Fgithub-actions) (#123)\n- 修复 PR 流水线中的 bug @kotaro-kinoshita (#122)\n- 修改为通过 PR 推送 CHANGELOG.md @kotaro-kinoshita (#121)\n- 修正自动生成 CHANGELOG 的 CI 流程 @kotaro-kinoshita (#120)\n- 撤销“修正自动生成 CHANGELOG.md 的 CI 流程” @kotaro-kinoshita (#119)\n- 修正自动生成 CHANGELOG.md 的 CI 流程 @kotaro-kinoshita (#118)\n- 将发布说明自动反映到文档中 @kotaro-kinoshita (#117)","2025-09-09T08:21:31",{"id":116,"version":117,"summary_zh":118,"released_at":119},109081,"v0.9.4","## 变更\n\n## 🐛 Bug 修复\n\n- 修复 CSV 导出时图中文字串无法导出的 bug @kotaro-kinoshita (#113)\n- 修复可搜索 PDF 字体设置相关的 bug @kotaro-kinoshita (#112)","2025-06-12T02:51:37",{"id":121,"version":122,"summary_zh":123,"released_at":124},109082,"v0.9.3","## 变更\n\n## 🚀 功能新增\n\n- 创建可搜索的PDF @kotaro-kinoshita (#109)\n- 修正MCP服务器文档 @kotaro-kinoshita (#108)\n- 功能：添加MCP服务器URL @kotaro-kinoshita (#107)\n\n## 🔧 重构\n\n- 重构可搜索的PDF实现 @kotaro-kinoshita (#110)\n\n## ✅ 测试\n\n- 测试可搜索的PDF生成 @kotaro-kinoshita (#111)","2025-06-05T10:42:03",{"id":126,"version":127,"summary_zh":128,"released_at":129},109083,"v0.9.1","## 变更\n\n## 🚀 功能新增\n\n- 阅读顺序估计算法的扩展 @kotaro-kinoshita (#105)\n- 表格转换为字典格式的函数中的 bug 修复 @kotaro-kinoshita (#104)\n- 添加用于表格操作的实用函数 @kotaro-kinoshita (#103)\n- 文本识别器预处理的并行化 @kotaro-kinoshita (#100)","2025-05-16T12:26:50",{"id":131,"version":132,"summary_zh":133,"released_at":134},109084,"v0.9.0","## 变更\n\n## 🚀 功能新增\n\n- 支持其他输出格式 @okafukuro (#98)\n- 添加MCP服务器的实现 @okafukuro (#95)\n\n## 🐛 Bug修复\n\n- 修复处理不存在文字的图片时，HTML导出失败的错误 @kotaro-kinoshita (#97)\n- 修复Windows系统下处理日文文件时，输出文件出现乱码的问题 @kotaro-kinoshita (#96)","2025-04-18T09:04:26",{"id":136,"version":137,"summary_zh":138,"released_at":139},109085,"v0.8.1","## 変更\r\n\r\n## 🐛 バグ修正\r\n\r\n- Fix\u002Ftuning detector parameter @kotaro-kinoshita (#93)\r\n","2025-04-03T18:24:13",{"id":141,"version":142,"summary_zh":143,"released_at":144},109086,"v0.8.0","## 変更\r\n\r\n## 🚀 機能追加\r\n\r\n- モデルのアップデート @kotaro-kinoshita (#92)\r\n","2025-04-03T15:13:44",{"id":146,"version":147,"summary_zh":148,"released_at":149},109087,"v0.7.4","## 変更\r\n\r\n## 🚀 機能追加\r\n\r\n- 複数ページTIFF画像に対応 @kotaro-kinoshita (#91)\r\n\r\n## 🐛 バグ修正\r\n\r\n- エクスポート関数でデータが保存されない問題への対応 @kotaro-kinoshita (#90)\r\n","2025-04-03T08:28:05",{"id":151,"version":152,"summary_zh":153,"released_at":154},109088,"v0.7.3","## 変更\r\n\r\n## 🚀 機能追加\r\n\r\n- add spans cell @kotaro-kinoshita (#87)\r\n- Feature\u002Fupdate preprocessing @kotaro-kinoshita (#83)\r\n\r\n## 🐛 バグ修正\r\n\r\n- fix missing usage.md @kotaro-kinoshita (#86)\r\n- Text RecognizerのONNX Exportの修正 @kotaro-kinoshita (#84)\r\n","2025-03-20T09:43:54",{"id":156,"version":157,"summary_zh":158,"released_at":159},109089,"v0.7.2","## 変更\r\n\r\n- DL badge @kotaro-kinoshita (#80)\r\n\r\n## 🚀 機能追加\r\n\r\n- Feature\u002Fmerge multipage ducument @kotaro-kinoshita (#77)\r\n- Feature\u002Fignore header footer @kotaro-kinoshita (#78)\r\n\r\n## 🔧  リファクタ\r\n\r\n- refactor: fix a typo in document\\_analyzer.py @DenDen047 (#75)\r\n\r\n## 🐛 バグ修正\r\n\r\n- fix\u002Finstall-command-in-docs @kotaro-kinoshita (#79)\r\n- refactor: fix a typo in document\\_analyzer.py @DenDen047 (#75)\r\n- fix demo command @kotaro-kinoshita (#73)\r\n\r\n## 📖 ドキュメント\r\n\r\n- fix\u002Finstall-command-in-docs @kotaro-kinoshita (#79)\r\n- refactor: fix a typo in document\\_analyzer.py @DenDen047 (#75)\r\n- update documents @kotaro-kinoshita (#74)\r\n","2025-02-23T05:33:57",{"id":161,"version":162,"summary_zh":163,"released_at":164},109090,"v0.7.1","## 変更\r\n\r\n## ✅ テスト\r\n\r\n- add unittest @kotaro-kinoshita (#72)\r\n","2025-01-04T12:58:33",{"id":166,"version":167,"summary_zh":168,"released_at":169},109091,"v0.7.0","## 変更\r\n\r\n## 🚀 機能追加\r\n\r\n- feature export figure with csv and json @kotaro-kinoshita (#71)\r\n- fix textline order algorithm @kotaro-kinoshita (#70)\r\n- 表のセルに対するテキストの割り当てロジックの変更 @kotaro-kinoshita (#68)\r\n- add encoding option @kotaro-kinoshita (#67)\r\n- Manually create mini-batches. @kotaro-kinoshita (#66)\r\n\r\n## 🐛 バグ修正\r\n\r\n- Fix\u002Fsupport bom @kotaro-kinoshita (#69)\r\n- fix onnx convert @kotaro-kinoshita (#65)\r\n- fix\u002Fdeps @kotaro-kinoshita (#64)\r\n- Fix\u002Fuv depedecies @kotaro-kinoshita (#63)\r\n- モジュールのconfigsのデフォルト値の変更 @kotaro-kinoshita (#62)\r\n- Fix\u002Fmac os dependencies @kotaro-kinoshita (#61)\r\n- fix @kotaro-kinoshita (#59)\r\n","2025-01-04T12:57:52",{"id":171,"version":172,"summary_zh":173,"released_at":174},109092,"v0.6.0","## 変更\r\n\r\n## 🚀 機能追加\r\n\r\n- Feature\u002Fonnx inference @kotaro-kinoshita (#58)\r\n- implement lite mode @kotaro-kinoshita (#57)\r\n\r\n## 🐛 バグ修正\r\n\r\n- fix contact @kotaro-kinoshita (#56)\r\n","2024-12-15T15:46:09",{"id":176,"version":177,"summary_zh":178,"released_at":179},109093,"v0.5.3","## 変更\r\n\r\n## 🐛 バグ修正\r\n\r\n- ライセンス情報の記載 @kotaro-kinoshita (#53)\r\n","2024-12-05T15:34:22",{"id":181,"version":182,"summary_zh":183,"released_at":184},109094,"v0.5.2","## 変更\r\n\r\n## 🐛 バグ修正\r\n\r\n- add text normalize @kotaro-kinoshita (#50)\r\n- fix english site link @kotaro-kinoshita (#47)\r\n- fix document site link @kotaro-kinoshita (#46)\r\n\r\n## 📖 ドキュメント\r\n\r\n- fix document site link @kotaro-kinoshita (#46)\r\n","2024-11-29T02:32:39",[186,196,205,213,221,234],{"id":187,"name":188,"github_repo":189,"description_zh":190,"stars":191,"difficulty_score":192,"last_commit_at":193,"category_tags":194,"status":50},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[43,42,195],"Agent",{"id":197,"name":198,"github_repo":199,"description_zh":200,"stars":201,"difficulty_score":32,"last_commit_at":202,"category_tags":203,"status":50},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,"2026-04-05T23:32:43",[43,195,204],"语言模型",{"id":206,"name":207,"github_repo":208,"description_zh":209,"stars":210,"difficulty_score":32,"last_commit_at":211,"category_tags":212,"status":50},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[43,42,195],{"id":214,"name":215,"github_repo":216,"description_zh":217,"stars":218,"difficulty_score":32,"last_commit_at":219,"category_tags":220,"status":50},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[43,204],{"id":222,"name":223,"github_repo":224,"description_zh":225,"stars":226,"difficulty_score":32,"last_commit_at":227,"category_tags":228,"status":50},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[42,229,230,231,195,232,204,43,233],"数据工具","视频","插件","其他","音频",{"id":235,"name":236,"github_repo":237,"description_zh":238,"stars":239,"difficulty_score":192,"last_commit_at":240,"category_tags":241,"status":50},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[195,42,43,204,232]]