[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kha-white--manga-ocr":3,"tool-kha-white--manga-ocr":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":10,"env_os":89,"env_gpu":90,"env_ram":91,"env_deps":92,"category_tags":101,"github_topics":102,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":142},3632,"kha-white\u002Fmanga-ocr","manga-ocr","Optical character recognition for Japanese text, with the main focus being Japanese manga","manga-ocr 是一款专为日语漫画设计的开源光学字符识别（OCR）工具。它致力于解决漫画场景中复杂的文字提取难题，无论是竖排还是横排文本、带有注音（振假名）的词汇、覆盖在背景图上的对白，还是各类特殊字体及低清晰度图片，都能实现高精度的识别。\n\n与传统 OCR 模型需要将文本框切割成单行处理不同，manga-ocr 基于 Transformers 的 Vision Encoder Decoder 框架构建了端到端模型，支持在一次推理中直接识别多行文本。这意味着它可以完整读取漫画中的整个对话气泡，无需繁琐的分行操作，极大地保留了上下文连贯性。\n\n除了作为通用的印刷日语识别引擎，manga-ocr 特别适合日语学习者、漫画爱好者以及需要构建本地化阅读工作流的开发者。用户可以将其配置为后台服务，配合截图工具实时捕获屏幕区域并自动将识别结果写入剪贴板，进而联动词典软件实现即指即译的高效阅读体验。同时，其开放的 Python API 和合成数据生成管道，也为研究人员进行二次开发或模型训练提供了便利。","# Manga OCR\n\nOptical character recognition for Japanese text, with the main focus being Japanese manga.\nIt uses a custom end-to-end model built with Transformers' [Vision Encoder Decoder](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmodel_doc\u002Fvision-encoder-decoder) framework. \n\nManga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality\ntext recognition, robust against various scenarios specific to manga:\n- both vertical and horizontal text\n- text with furigana\n- text overlaid on images\n- wide variety of fonts and font styles\n- low quality images\n\nUnlike many OCR models, Manga OCR supports recognizing multi-line text in a single forward pass,\nso that text bubbles found in manga can be processed at once, without splitting them into lines.\n\nSee also:\n- [Poricom](https:\u002F\u002Fgithub.com\u002Fbluaxees\u002FPoricom), a GUI reader, which uses manga-ocr\n- [mokuro](https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmokuro), a tool, which uses manga-ocr to generate an HTML overlay for manga\n- [Xelieu's guide](https:\u002F\u002Frentry.co\u002FlazyXel), a comprehensive guide on setting up a reading and mining workflow with manga-ocr\u002Fmokuro (and many other useful tips)\n- Development code, including code for training and synthetic data generation: [link](manga_ocr_dev)\n- Description of synthetic data generation pipeline + examples of generated images: [link](manga_ocr_dev\u002Fsynthetic_data_generator)\n\n# Installation\n\nYou need Python 3.6 or newer. Please note, that the newest Python release might not be supported due to a PyTorch dependency, which often breaks with new Python releases and needs some time to catch up.\nRefer to [PyTorch website](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) for a list of supported Python versions.\n\nSome users have reported problems with Python installed from Microsoft Store. If you see an error:\n`ImportError: DLL load failed while importing fugashi: The specified module could not be found.`,\ntry installing Python from the [official site](https:\u002F\u002Fwww.python.org\u002Fdownloads).\n\nIf you want to run with GPU, install PyTorch as described [here](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F#start-locally),\notherwise this step can be skipped.\n\n## Troubleshooting\n\n- `ImportError: DLL load failed while importing fugashi: The specified module could not be found.` - might be because of Python installed from Microsoft Store, try installing Python from the [official site](https:\u002F\u002Fwww.python.org\u002Fdownloads)\n- problem with installing `mecab-python3` on ARM architecture - try [this workaround](https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F16)\n\n# Usage\n\n## Python API\n\n```python\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\ntext = mocr('\u002Fpath\u002Fto\u002Fimg')\n```\n\nor\n\n```python\nimport PIL.Image\n\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\nimg = PIL.Image.open('\u002Fpath\u002Fto\u002Fimg')\ntext = mocr(img)\n```\n\n## Running in the background\n\nManga OCR can run in the background and process new images as they appear.\n\nYou might use a tool like [ShareX](https:\u002F\u002Fgetsharex.com\u002F) or [Flameshot](https:\u002F\u002Fflameshot.org\u002F) to manually capture a region of the screen and let the\nOCR read it either from the system clipboard, or a specified directory. By default, Manga OCR will write recognized text to clipboard,\nfrom which it can be read by a dictionary like [Yomitan](https:\u002F\u002Fgithub.com\u002Fyomidevs\u002Fyomitan).\n\nClipboard mode on Linux requires `wl-copy` for Wayland sessions or `xclip` for X11 sessions. You can find out which one your system needs by running `echo $XDG_SESSION_TYPE` in the terminal.\n\nYour full setup for reading manga in Japanese with a dictionary might look like this:\n\ncapture region with ShareX -> write image to clipboard -> Manga OCR -> write text to clipboard -> Yomitan\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F22717958\u002F150238361-052b95d1-0152-485f-a441-48a957536239.mp4\n\n- To read images from clipboard and write recognized texts to clipboard, run in command line:\n    ```commandline\n    manga_ocr\n    ```\n- To read images from ShareX's screenshot folder, run in command line:\n    ```commandline\n    manga_ocr \"\u002Fpath\u002Fto\u002Fsharex\u002Fscreenshot\u002Ffolder\"\n    ```\nNote that when running in the clipboard scanning mode, any image that you copy to clipboard will be processed by OCR and replaced\nby recognized text. If you want to be able to copy and paste images as usual, you should use the folder scanning mode instead\nand define a separate task in ShareX just for OCR, which saves screenshots to some folder without copying them to clipboard.\n\nWhen running for the first time, downloading the model (~400 MB) might take a few minutes.\nThe OCR is ready to use after `OCR ready` message appears in the logs.\n\n- To see other options, run in command line:\n    ```commandline\n    manga_ocr --help\n    ```\n\nIf `manga_ocr` doesn't work, you might also try replacing it with `python -m manga_ocr`.\n\n## Usage tips\n\n- OCR supports multi-line text, but the longer the text, the more likely some errors are to occur.\n  If the recognition failed for some part of a longer text, you might try to run it on a smaller portion of the image.\n- The model was trained specifically to handle manga well, but should do a decent job on other types of printed text,\n  such as novels or video games. It probably won't be able to handle handwritten text though. \n- The model always attempts to recognize some text on the image, even if there is none.\n  Because it uses a transformer decoder (and therefore has some understanding of the Japanese language),\n  it might even \"dream up\" some realistically looking sentences! This shouldn't be a problem for most use cases,\n  but it might get improved in the next version.\n\n# Examples\n\nHere are some cherry-picked examples showing the capability of the model. \n\n| image                | Manga OCR result |\n|----------------------|------------------|\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_da6b235c43e4.jpg) | 素直にあやまるしか |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_050fa5532347.jpg) | 立川で見た〝穴〟の下の巨大な眼は： |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_fd55d4a3902b.jpg) | 実戦剣術も一流です |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_3a8fc7e1003e.jpg) | 第３０話重苦しい闇の奥で静かに呼吸づきながら |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_47c54ea10ced.jpg) | よかったじゃないわよ！何逃げてるのよ！！早くあいつを退治してよ！ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_767fc8225ac8.jpg) | ぎゃっ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_1e05c61f8697.jpg) | ピンポーーン |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_78c7c3dbb02b.jpg) | ＬＩＮＫ！私達７人の力でガノンの塔の結界をやぶります |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_213126e8e47d.jpg) | ファイアパンチ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_f38d0955482c.jpg) | 少し黙っている |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_5526f8c8a9e3.jpg) | わかるかな〜？ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_b4583c1f37ea.jpg) | 警察にも先生にも町中の人達に！！ |\n\n# Contact\nFor any inquiries, please feel free to contact me at kha-white@mail.com\n\n# Acknowledgments\n\nThis project was done with the usage of:\n- [Manga109-s](http:\u002F\u002Fwww.manga109.org\u002Fen\u002Fdownload_s.html) dataset\n- [CC-100](https:\u002F\u002Fdata.statmt.org\u002Fcc-100\u002F) dataset\n","# 漫画 OCR\n\n用于日语文本的光学字符识别，主要针对日本漫画。它使用基于 Transformer 的 [视觉编码器解码器](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmodel_doc\u002Fvision-encoder-decoder) 框架构建的自定义端到端模型。\n\nManga OCR 可以用作通用的日文印刷文本 OCR，但其主要目标是在各种漫画特有的场景下提供高质量的文本识别：\n- 垂直和水平文本\n- 带假名的文本\n- 叠加在图像上的文本\n- 多种字体和字形风格\n- 低质量图像\n\n与许多 OCR 模型不同，Manga OCR 支持在一次前向传播中识别多行文本，因此可以一次性处理漫画中的对话气泡，而无需将其拆分为单行。\n\n相关资源：\n- [Poricom](https:\u002F\u002Fgithub.com\u002Fbluaxees\u002FPoricom)，一个使用 manga-ocr 的 GUI 阅读器\n- [mokuro](https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmokuro)，一个利用 manga-ocr 为漫画生成 HTML 覆盖层的工具\n- [Xelieu 的指南](https:\u002F\u002Frentry.co\u002FlazyXel)，一份关于如何使用 manga-ocr\u002Fmokuro 设置阅读和数据挖掘工作流的全面指南（以及许多其他实用技巧）\n- 开发代码，包括训练和合成数据生成代码：[链接](manga_ocr_dev)\n- 合成数据生成流程说明 + 生成图像示例：[链接](manga_ocr_dev\u002Fsynthetic_data_generator)\n\n# 安装\n\n你需要 Python 3.6 或更高版本。请注意，由于 PyTorch 的依赖关系，最新的 Python 版本可能不受支持，因为 PyTorch 经常会在新版本的 Python 发布后出现问题，需要一段时间才能适配。请参考 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取受支持的 Python 版本列表。\n\n一些用户报告称从 Microsoft Store 安装的 Python 会出现问题。如果你遇到以下错误：\n`ImportError: DLL load failed while importing fugashi: The specified module could not be found.`，\n请尝试从 [官方站点](https:\u002F\u002Fwww.python.org\u002Fdownloads) 安装 Python。\n\n如果你想使用 GPU 运行，请按照 [这里](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F#start-locally) 的说明安装 PyTorch，否则可以跳过此步骤。\n\n## 故障排除\n\n- `ImportError: DLL load failed while importing fugashi: The specified module could not be found.` - 可能是由于从 Microsoft Store 安装的 Python 导致的，请尝试从 [官方站点](https:\u002F\u002Fwww.python.org\u002Fdownloads) 安装 Python。\n- 在 ARM 架构上安装 `mecab-python3` 时出现问题 - 请尝试 [此 workaround](https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F16)。\n\n# 使用方法\n\n## Python API\n\n```python\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\ntext = mocr('\u002Fpath\u002Fto\u002Fimg')\n```\n\n或者\n\n```python\nimport PIL.Image\n\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\nimg = PIL.Image.open('\u002Fpath\u002Fto\u002Fimg')\ntext = mocr(img)\n```\n\n## 后台运行\n\nManga OCR 可以在后台运行，并在新图像出现时自动处理它们。\n\n你可以使用像 [ShareX](https:\u002F\u002Fgetsharex.com\u002F) 或 [Flameshot](https:\u002F\u002Fflameshot.org\u002F) 这样的工具手动截取屏幕区域，然后让 OCR 从系统剪贴板或指定目录中读取内容。默认情况下，Manga OCR 会将识别出的文本写入剪贴板，这样就可以被像 [Yomitan](https:\u002F\u002Fgithub.com\u002Fyomidevs\u002Fyomitan) 这样的词典软件读取。\n\n在 Linux 系统上，剪贴板模式需要 Wayland 会话使用 `wl-copy`，或 X11 会话使用 `xclip`。你可以在终端中运行 `echo $XDG_SESSION_TYPE` 来确定你的系统需要哪一种工具。\n\n使用词典阅读日语漫画的完整设置可能如下所示：\n\n使用 ShareX 截取区域 -> 将图像写入剪贴板 -> Manga OCR -> 将文本写入剪贴板 -> Yomitan\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F22717958\u002F150238361-052b95d1-0152-485f-a441-48a957536239.mp4\n\n- 若要从剪贴板读取图像并将识别出的文本写入剪贴板，请在命令行中运行：\n    ```commandline\n    manga_ocr\n    ```\n- 若要从 ShareX 的截图文件夹中读取图像，请在命令行中运行：\n    ```commandline\n    manga_ocr \"\u002Fpath\u002Fto\u002Fsharex\u002Fscreenshot\u002Ffolder\"\n    ```\n请注意，在剪贴板扫描模式下，你复制到剪贴板的任何图像都会被 OCR 处理，并替换为识别出的文本。如果你希望像往常一样复制和粘贴图像，建议使用文件夹扫描模式，并在 ShareX 中单独设置一个仅用于 OCR 的任务，该任务会将截图保存到某个文件夹，而不将其复制到剪贴板。\n\n首次运行时，下载模型（约 400 MB）可能需要几分钟。当日志中出现 `OCR ready` 消息时，OCR 即可使用。\n\n- 若要查看其他选项，请在命令行中运行：\n    ```commandline\n    manga_ocr --help\n    ```\n\n如果 `manga_ocr` 无法正常工作，你也可以尝试用 `python -m manga_ocr` 替代。\n\n## 使用提示\n\n- OCR 支持多行文本，但文本越长，出现错误的可能性越大。\n  如果较长文本的某一部分未能成功识别，可以尝试对图像的较小部分进行识别。\n- 该模型经过专门训练，能够很好地处理漫画文本，但对于其他类型的印刷文本，如小说或电子游戏，也能取得不错的效果。不过，它可能无法处理手写文本。\n- 无论图像上是否有文本，模型都会尝试进行识别。由于它使用 Transformer 解码器（因此对日语语言有一定的理解），甚至可能会“凭空”生成一些看起来很真实的句子！这在大多数情况下不会造成问题，但在未来的版本中可能会得到改进。\n\n# 示例\n\n以下是一些精选示例，展示了该模型的能力。\n\n| 图像                | Manga OCR 结果 |\n|----------------------|------------------|\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_da6b235c43e4.jpg) | 素直にあやまるしか |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_050fa5532347.jpg) | 立川で見た〝穴〟の下の巨大な眼は： |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_fd55d4a3902b.jpg) | 実戦剣術も一流です |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_3a8fc7e1003e.jpg) | 第３０話重苦しい闇の奥で静かに呼吸づきながら |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_47c54ea10ced.jpg) | よかったじゃないわよ！何逃げてるのよ！！早くあいつを退治してよ！ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_767fc8225ac8.jpg) | ぎゃっ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_1e05c61f8697.jpg) | ピンポーーン |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_78c7c3dbb02b.jpg) | ＬＩＮＫ！私達７人の力でガノンの塔の結界をやぶります |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_213126e8e47d.jpg) | ファイアパンチ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_f38d0955482c.jpg) | 少し黙っている |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_5526f8c8a9e3.jpg) | わかるかな〜？ |\n| ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_readme_b4583c1f37ea.jpg) | 警察にも先生にも町中の人達に！！ |\n\n# 联系方式\n如有任何疑问，请随时通过 kha-white@mail.com 与我联系。\n\n# 致谢\n\n本项目使用了以下数据集：\n- [Manga109-s](http:\u002F\u002Fwww.manga109.org\u002Fen\u002Fdownload_s.html) 数据集\n- [CC-100](https:\u002F\u002Fdata.statmt.org\u002Fcc-100\u002F) 数据集","# Manga OCR 快速上手指南\n\nManga OCR 是一个专为日语漫画设计的端到端光学字符识别（OCR）工具。它基于 Transformers 的 Vision Encoder Decoder 框架，能够高质量地识别竖排\u002F横排文字、带振假名（Furigana）的文本、叠加在图像上的文字以及各种字体风格，支持单次前向传播识别多行文本（无需按行切割）。\n\n## 环境准备\n\n- **操作系统**：Windows \u002F Linux \u002F macOS\n- **Python 版本**：3.6 或更高（建议使用官方安装的 Python，避免使用 Microsoft Store 版本以防依赖错误）\n- **GPU 支持（可选）**：如需加速推理，请预先安装支持 CUDA 的 PyTorch 版本。\n- **网络要求**：首次运行时会自动下载约 400MB 的模型文件，请确保网络通畅。国内用户若下载缓慢，可尝试配置代理或使用支持断点续传的网络环境。\n\n## 安装步骤\n\n1. 确保已安装符合要求的 Python 环境。\n2. （可选）如需 GPU 加速，请先前往 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 安装对应版本的 PyTorch。\n3. 使用 pip 安装 manga-ocr：\n\n```bash\npip install manga-ocr\n```\n\n> 注：如遇 `mecab-python3` 在 ARM 架构下安装失败，请参考项目 Issue #16 中的变通方案。\n\n## 基本使用\n\n### 方式一：Python API 调用\n\n最简代码示例如下：\n\n```python\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\ntext = mocr('\u002Fpath\u002Fto\u002Fimg')\nprint(text)\n```\n\n也可传入 PIL Image 对象：\n\n```python\nimport PIL.Image\nfrom manga_ocr import MangaOcr\n\nmocr = MangaOcr()\nimg = PIL.Image.open('\u002Fpath\u002Fto\u002Fimg')\ntext = mocr(img)\nprint(text)\n```\n\n### 方式二：命令行后台运行\n\n启动后将持续监听剪贴板或指定文件夹中的新图片，并自动输出识别结果到剪贴板：\n\n- **监听剪贴板模式**（适合配合 ShareX、Flameshot 等截图工具）：\n\n```commandline\nmanga_ocr\n```\n\n- **监听指定文件夹模式**（例如 ShareX 截图保存目录）：\n\n```commandline\nmanga_ocr \"\u002Fpath\u002Fto\u002Fsharex\u002Fscreenshot\u002Ffolder\"\n```\n\n首次运行时需下载模型，待日志出现 `OCR ready` 即表示就绪。识别结果将自动写入系统剪贴板，可直接粘贴至词典工具（如 Yomitan）中使用。\n\n> 提示：在剪贴板模式下，所有复制的图片都会被处理并替换为识别文本。若需保留图片复制功能，请使用文件夹扫描模式，并在截图工具中单独设置 OCR 任务。","一位日语学习者正在通过阅读生肉漫画积累词汇，希望遇到生词时能即时查询含义。\n\n### 没有 manga-ocr 时\n- 面对漫画中常见的竖排文字、注音（振假名）以及覆盖在复杂背景上的对话框，通用 OCR 工具识别率极低，经常输出乱码。\n- 为了获取文本，不得不手动将气泡内的文字逐行拆分截图，甚至需要人工打字录入，严重打断阅读心流。\n- 低画质的扫描版漫画导致传统模型完全无法工作，学习者被迫放弃大量珍贵的老番资源。\n- 复制出的文本格式混乱，无法直接粘贴到 Yomitan 等词典插件中进行即时查词，学习效率低下。\n\n### 使用 manga-ocr 后\n- 借助专为漫画训练的端到端模型，无论是竖排、带振假名还是背景复杂的文字，都能一次性高精度识别，无需预处理。\n- 支持单步处理多行文本，直接截取整个对话气泡即可获取完整句子，完美保留语境，阅读过程流畅无阻。\n- 即使面对模糊不清的低质量图片，manga-ocr 依然能稳健提取文字，让老旧漫画资源重新变得可利用。\n- 配合后台运行模式与剪贴板联动，截图后文本自动上屏并无缝对接词典插件，实现“截图即查词”的高效学习闭环。\n\nmanga-ocr 通过解决漫画特有的排版与画质难题，将繁琐的文字提取转化为瞬间完成的自动化流程，极大降低了日语原漫阅读的门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkha-white_manga-ocr_050fa553.jpg","kha-white","Maciej Budyś","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkha-white_bea03550.png",null,"https:\u002F\u002Fgithub.com\u002Fkha-white",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,2603,129,"2026-04-05T03:14:50","Apache-2.0","Windows, Linux, macOS","非必需。支持 GPU 加速，需根据 PyTorch 官方指南安装对应的 CUDA 版本；未指定具体显卡型号和显存大小。","未说明",{"notes":93,"python":94,"dependencies":95},"Windows 用户若使用 Microsoft Store 安装的 Python 可能会遇到 'fugashi' 导入错误，建议从 Python 官网下载安装。ARM 架构安装 'mecab-python3' 可能需要特殊变通方案。首次运行需下载约 400MB 模型文件。Linux 剪贴板模式依赖 wl-copy (Wayland) 或 xclip (X11)。","3.6+",[96,97,98,99,100],"torch","transformers","Pillow","fugashi","mecab-python3",[13,14,26],[103,104,105,97,106,107,108],"ocr","japanese","manga","computer-vision","deep-learning","comics","2026-03-27T02:49:30.150509","2026-04-06T08:46:04.385103",[112,117,122,127,132,137],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},16658,"如何在没有网络连接（离线）的情况下运行 MangaOcr？","Transformers 库需要显式配置才能使用离线缓存。有两种解决方案：\n1. 设置环境变量 `TRANSFORMERS_OFFLINE=1`，然后正常运行程序，它将自动使用缓存中的模型。\n2. 从 Hugging Face 下载模型文件（https:\u002F\u002Fhuggingface.co\u002Fkha-white\u002Fmanga-ocr-base\u002Ftree\u002Fmain），并将包含这些文件的文件夹路径作为 `pretrained_model_name_or_path` 参数传递给 `MangaOcr` 类，例如：`MangaOcr(pretrained_model_name_or_path='path\u002Fto\u002Ffolder')`。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F9",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},16659,"在 Apple M1 (ARM) Mac 上安装时遇到 mecab-python3 依赖错误怎么办？","由于 `mecab-python3` 没有针对 ARM 架构的预编译 wheel，M1 Mac 用户需要手动构建。解决步骤如下：\n1. 使用 Homebrew 安装 mecab：`brew install mecab`\n2. 下载并解压源码包（或使用 pip download 获取）。\n3. 进入源码目录，执行构建和安装：\n   ```bash\n   python3 setup.py build\n   python3 setup.py install\n   ```\n完成上述步骤后，再运行 `pip3 install manga-ocr` 即可正常安装。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F16",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},16660,"如何在 NixOS 系统上安装 manga-ocr？","NixOS 用户可以直接使用上游 nixpkgs 中已有的包。只需在您的配置列表中添加 `python3Packages.manga-ocr`，系统会自动拉取该包并使二进制文件可用，无需手动编译或复杂配置。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F61",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},16661,"重新安装后模型加载和处理速度变慢（从几秒变成十几秒）如何解决？","这通常与 Conda 环境配置有关。如果在使用 Conda 时遇到性能下降或 `fugashi` 相关报错（即使已安装），建议尝试以下方法：\n1. 卸载当前环境中的所有包，改用 `pip` 重新安装所有依赖，这通常能解决性能问题。\n2. 如果是 `fugashi` 报错，尝试卸载并重新安装该包：`pip uninstall fugashi` 然后 `pip install fugashi`。\n维护者指出 `fugashi` 依赖问题可能在未来版本中移除，目前通过 pip 管理包是更稳定的方案。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F46",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},16662,"MangaOcr 识别结果完全错误或无法识别图片中的文字怎么办？","`manga-ocr` 主要用于识别已经裁剪好的文本气泡。如果直接对整页漫画图片进行识别导致结果错误，建议结合文本检测工具使用。推荐使用 [Mokuro](https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmokuro)，它集成了 Comic Text Detector 来检测日文文本并将其分组到气泡中，然后再对每个气泡调用 MangaOcr 进行识别，从而获得准确结果。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F26",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},16663,"如何配合 ShareX 或其他截图工具使用 MangaOcr？","ShareX 不需要显式调用 manga-ocr 脚本。其工作原理是将截图保存到指定文件夹，由监控该文件夹的脚本自动处理。\n对于普通用户，更简单的方法是直接使用系统快捷键将截图复制到剪贴板，然后运行支持剪贴板输入的 OCR 脚本：\n- Windows: 按 `Win + Shift + S` 截图（自动复制到剪贴板）。\n- Mac: 按 `Cmd + Shift + 4` 截图，同时按住 `Control` 键（将截图保存到剪贴板而非文件）。","https:\u002F\u002Fgithub.com\u002Fkha-white\u002Fmanga-ocr\u002Fissues\u002F6",[143,147,151,155],{"id":144,"version":145,"summary_zh":78,"released_at":146},98946,"v0.1.14","2025-01-01T20:10:12",{"id":148,"version":149,"summary_zh":78,"released_at":150},98947,"v0.1.13","2024-10-11T15:07:00",{"id":152,"version":153,"summary_zh":78,"released_at":154},98948,"v0.1.12","2024-06-21T23:51:54",{"id":156,"version":157,"summary_zh":78,"released_at":158},98949,"v0.1.12-beta.5","2024-06-21T23:22:09"]