[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Layout-Parser--layout-parser":3,"tool-Layout-Parser--layout-parser":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":64,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":32,"env_os":86,"env_gpu":87,"env_ram":86,"env_deps":88,"category_tags":94,"github_topics":95,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":105,"updated_at":106,"faqs":107,"releases":136},4759,"Layout-Parser\u002Flayout-parser","layout-parser","A Unified Toolkit for Deep Learning Based Document Image Analysis","layout-parser 是一个专为文档图像分析打造的统一工具箱，旨在利用深度学习技术轻松识别和理解扫描文档、PDF 或图片中的版面结构。它有效解决了传统方法在处理复杂文档布局时代码繁琐、模型难以复用以及数据格式不统一的痛点，让用户能快速获取标题、段落、表格等元素的位置信息。\n\n无论是从事文档智能研究的学者，还是需要构建自动化文档处理流程的开发者，layout-parser 都能提供极大便利。其核心亮点在于“极简调用”与“高度灵活”：用户仅需四行代码即可加载预训练模型完成版面检测；同时，它内置了专为文档分析优化的数据结构，支持通过简单的 API 进行区域筛选、局部 OCR 识别及可视化展示。此外，layout-parser 还是一个开放的社区平台，汇聚了丰富的预训练模型与分析管线，支持从 JSON、CSV 甚至 PDF 中直接加载数据，极大地降低了技术门槛，帮助用户高效搭建个性化的文档理解应用。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLayout-Parser_layout-parser_readme_0e4a08ca00a5.png\" alt=\"Layout Parser Logo\" width=\"35%\">\n  \u003Ch3 align=\"center\">\n  A unified toolkit for Deep Learning Based Document Image Analysis\n  \u003C\u002Fh3>\n\u003C\u002Fp>\n\n\u003Cp align=center>\n\u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Flayoutparser\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Flayoutparser?color=%23099cec&label=PyPI%20package&logo=pypi&logoColor=white\" title=\"The current version of Layout Parser\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002FLICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fl\u002Flayoutparser\" title=\"Layout Parser uses Apache 2 License\">\u003C\u002Fa>\n\u003Cimg alt=\"PyPI - Downloads\" src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Flayoutparser\">\n\u003C\u002Fp>\n\n\u003Cp align=center>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.15348\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-2103.15348-b31b1b.svg\" title=\"Layout Parser Paper\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Flayout-parser.github.io\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwebsite-layout--parser.github.io-informational.svg\" title=\"Layout Parser Paper\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Flayout-parser.readthedocs.io\u002Fen\u002Flatest\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdoc-layout--parser.readthedocs.io-light.svg\" title=\"Layout Parser Documentation\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\n## What is LayoutParser\n\n![Example Usage](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLayout-Parser_layout-parser_readme_75ceb72896a9.png)\n\nLayoutParser aims to provide a wide range of tools that aims to streamline Document Image Analysis (DIA) tasks. Please check the LayoutParser [demo video](https:\u002F\u002Fyoutu.be\u002F8yA5xB4Dg8c) (1 min) or [full talk](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=YG0qepPgyGY) (15 min) for details. And here are some key features:\n\n- LayoutParser provides a rich repository of deep learning models for layout detection as well as a set of unified APIs for using them. For example, \n  \n  \u003Cdetails>\n  \u003Csummary>Perform DL layout detection in 4 lines of code\u003C\u002Fsummary>\n  \n  ```python\n  import layoutparser as lp\n  model = lp.AutoLayoutModel('lp:\u002F\u002FEfficientDete\u002FPubLayNet')\n  # image = Image.open(\"path\u002Fto\u002Fimage\")\n  layout = model.detect(image) \n  ```\n  \n  \u003C\u002Fdetails>\n\n- LayoutParser comes with a set of layout data structures with carefully designed APIs that are optimized for document image analysis tasks. For example, \n\n  \u003Cdetails>\n  \u003Csummary>Selecting layout\u002Ftextual elements in the left column of a page\u003C\u002Fsummary>\n  \n  ```python\n  image_width = image.size[0]\n  left_column = lp.Interval(0, image_width\u002F2, axis='x')\n  layout.filter_by(left_column, center=True) # select objects in the left column \n  ```\n  \n  \u003C\u002Fdetails>\n\n  \u003Cdetails>\n  \u003Csummary>Performing OCR for each detected Layout Region\u003C\u002Fsummary>\n  \n  ```python\n  ocr_agent = lp.TesseractAgent()\n  for layout_region in layout: \n      image_segment = layout_region.crop(image)\n      text = ocr_agent.detect(image_segment)\n  ```\n  \n  \u003C\u002Fdetails>  \n    \n  \u003Cdetails>\n  \u003Csummary>Flexible APIs for visualizing the detected layouts\u003C\u002Fsummary>\n  \n  ```python\n  lp.draw_box(image, layout, box_width=1, show_element_id=True, box_alpha=0.25)\n  ```\n  \n  \u003C\u002Fdetails>  \n    \n  \u003C\u002Fdetails>  \n    \n  \u003Cdetails>\n  \u003Csummary>Loading layout data stored in json, csv, and even PDFs\u003C\u002Fsummary>\n  \n  ```python \n  layout = lp.load_json(\"path\u002Fto\u002Fjson\")\n  layout = lp.load_csv(\"path\u002Fto\u002Fcsv\")\n  pdf_layout = lp.load_pdf(\"path\u002Fto\u002Fpdf\")\n  ```\n  \n  \u003C\u002Fdetails>\n\n- LayoutParser is also a open platform that enables the sharing of layout detection models and DIA pipelines among the community. \n  \u003Cdetails>\n  \u003Csummary>\u003Ca href=\"https:\u002F\u002Flayout-parser.github.io\u002Fplatform\u002F\">Check\u003C\u002Fa> the LayoutParser open platform\u003C\u002Fsummary>\n  \u003C\u002Fdetails>\n\n  \u003Cdetails>\n  \u003Csummary>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Fplatform\">Submit\u003C\u002Fa> your models\u002Fpipelines to LayoutParser\u003C\u002Fsummary>\n  \u003C\u002Fdetails>\n\n## Installation \n\nAfter several major updates, layoutparser provides various functionalities and deep learning models from different backends. But it still easy to install layoutparser, and we designed the installation method in a way such that you can choose to install only the needed dependencies for your project:\n\n```bash\npip install layoutparser # Install the base layoutparser library with  \npip install \"layoutparser[layoutmodels]\" # Install DL layout model toolkit \npip install \"layoutparser[ocr]\" # Install OCR toolkit\n```\n\nExtra steps are needed if you want to use Detectron2-based models. Please check [installation.md](installation.md) for additional details on layoutparser installation. \n\n## Examples \n\nWe provide a series of examples for to help you start using the layout parser library: \n\n1. [Table OCR and Results Parsing](https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002Fexamples\u002FOCR%20Tables%20and%20Parse%20the%20Output.ipynb): `layoutparser` can be used for conveniently OCR documents and convert the output in to structured data. \n\n2. [Deep Layout Parsing Example](https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002Fexamples\u002FDeep%20Layout%20Parsing.ipynb): With the help of Deep Learning, `layoutparser` supports the analysis very complex documents and processing of the hierarchical structure in the layouts. \n\n## Contributing\n\nWe encourage you to contribute to Layout Parser! Please check out the [Contributing guidelines](.github\u002FCONTRIBUTING.md) for guidelines about how to proceed. Join us!\n\n## Citing `layoutparser`\n\nIf you find `layoutparser` helpful to your work, please consider citing our tool and [paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.15348.pdf) using the following BibTeX entry.\n\n```\n@article{shen2021layoutparser,\n  title={LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis},\n  author={Shen, Zejiang and Zhang, Ruochen and Dell, Melissa and Lee, Benjamin Charles Germain and Carlson, Jacob and Li, Weining},\n  journal={arXiv preprint arXiv:2103.15348},\n  year={2021}\n}\n```","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLayout-Parser_layout-parser_readme_0e4a08ca00a5.png\" alt=\"Layout Parser Logo\" width=\"35%\">\n  \u003Ch3 align=\"center\">\n  基于深度学习的文档图像分析统一工具包\n  \u003C\u002Fh3>\n\u003C\u002Fp>\n\n\u003Cp align=center>\n\u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Flayoutparser\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Flayoutparser?color=%23099cec&label=PyPI%20package&logo=pypi&logoColor=white\" title=\"Layout Parser 当前版本\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002FLICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fl\u002Flayoutparser\" title=\"Layout Parser 采用 Apache 2 许可证\">\u003C\u002Fa>\n\u003Cimg alt=\"PyPI - 下载量\" src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Flayoutparser\">\n\u003C\u002Fp>\n\n\u003Cp align=center>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.15348\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-2103.15348-b31b1b.svg\" title=\"Layout Parser 论文\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Flayout-parser.github.io\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwebsite-layout--parser.github.io-informational.svg\" title=\"Layout Parser 官网\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Flayout-parser.readthedocs.io\u002Fen\u002Flatest\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdoc-layout--parser.readthedocs.io-light.svg\" title=\"Layout Parser 文档\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\n## LayoutParser 是什么\n\n![示例用法](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLayout-Parser_layout-parser_readme_75ceb72896a9.png)\n\nLayoutParser 致力于提供一系列工具，以简化文档图像分析（DIA）任务。请观看 LayoutParser 的 [演示视频](https:\u002F\u002Fyoutu.be\u002F8yA5xB4Dg8c)（1 分钟）或 [完整演讲](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=YG0qepPgyGY)（15 分钟），了解更多详情。以下是其主要特点：\n\n- LayoutParser 提供丰富的深度学习模型库用于版面检测，并配备一套统一的 API 来使用这些模型。例如：\n  \n  \u003Cdetails>\n  \u003Csummary>只需 4 行代码即可完成深度学习版面检测\u003C\u002Fsummary>\n  \n  ```python\n  import layoutparser as lp\n  model = lp.AutoLayoutModel('lp:\u002F\u002FEfficientDete\u002FPubLayNet')\n  # image = Image.open(\"path\u002Fto\u002Fimage\")\n  layout = model.detect(image) \n  ```\n  \n  \u003C\u002Fdetails>\n\n- LayoutParser 搭载了一组精心设计的版面数据结构及 API，专为文档图像分析任务优化。例如：\n  \n  \u003Cdetails>\n  \u003Csummary>选择页面左列中的版面\u002F文本元素\u003C\u002Fsummary>\n  \n  ```python\n  image_width = image.size[0]\n  left_column = lp.Interval(0, image_width\u002F2, axis='x')\n  layout.filter_by(left_column, center=True) # 选择左列中的对象 \n  ```\n  \n  \u003C\u002Fdetails>\n\n  \u003Cdetails>\n  \u003Csummary>对每个检测到的版面区域进行 OCR 处理\u003C\u002Fsummary>\n  \n  ```python\n  ocr_agent = lp.TesseractAgent()\n  for layout_region in layout: \n      image_segment = layout_region.crop(image)\n      text = ocr_agent.detect(image_segment)\n  ```\n  \n  \u003C\u002Fdetails>  \n    \n  \u003Cdetails>\n  \u003Csummary>灵活的 API 用于可视化检测到的版面\u003C\u002Fsummary>\n  \n  ```python\n  lp.draw_box(image, layout, box_width=1, show_element_id=True, box_alpha=0.25)\n  ```\n  \n  \u003C\u002Fdetails>  \n    \n  \u003C\u002Fdetails>  \n    \n  \u003Cdetails>\n  \u003Csummary>加载存储在 JSON、CSV 甚至 PDF 中的版面数据\u003C\u002Fsummary>\n  \n  ```python \n  layout = lp.load_json(\"path\u002Fto\u002Fjson\")\n  layout = lp.load_csv(\"path\u002Fto\u002Fcsv\")\n  pdf_layout = lp.load_pdf(\"path\u002Fto\u002Fpdf\")\n  ```\n  \n  \u003C\u002Fdetails>\n\n- LayoutParser 也是一个开放平台，支持社区成员共享版面检测模型和 DIA 流程。 \n  \u003Cdetails>\n  \u003Csummary>\u003Ca href=\"https:\u002F\u002Flayout-parser.github.io\u002Fplatform\u002F\">查看\u003C\u002Fa> LayoutParser 开放平台\u003C\u002Fsummary>\n  \u003C\u002Fdetails>\n\n  \u003Cdetails>\n  \u003Csummary>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Fplatform\">提交\u003C\u002Fa> 您的模型\u002F流程至 LayoutParser\u003C\u002Fsummary>\n  \u003C\u002Fdetails>\n\n## 安装 \n\n经过多次重大更新，layoutparser 已经提供了来自不同后端的各种功能和深度学习模型。不过，安装仍然非常简单，我们设计了灵活的安装方式，您可以根据项目需求仅安装所需的依赖项：\n\n```bash\npip install layoutparser # 安装基础 layoutparser 库\npip install \"layoutparser[layoutmodels]\" # 安装 DL 版面模型工具包\npip install \"layoutparser[ocr]\" # 安装 OCR 工具包\n```\n\n如果您希望使用基于 Detectron2 的模型，则需要额外步骤。更多关于 layoutparser 安装的详细信息，请参阅 [installation.md](installation.md)。\n\n## 示例 \n\n我们提供了一系列示例，帮助您快速上手 layout parser 库：\n\n1. [表格 OCR 及结果解析](https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002Fexamples\u002FOCR%20Tables%20and%20Parse%20the%20Output.ipynb)：`layoutparser` 可以方便地对文档进行 OCR，并将输出转换为结构化数据。\n\n2. [深度版面解析示例](https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmain\u002Fexamples\u002FDeep%20Layout%20Parsing.ipynb)：借助深度学习技术，`layoutparser` 能够分析复杂的文档，并处理版面中的层次结构。\n\n## 贡献 \n\n我们诚挚邀请您为 Layout Parser 做出贡献！请查阅 [.github\u002FCONTRIBUTING.md](.github\u002FCONTRIBUTING.md)，了解具体的参与指南。加入我们吧！\n\n## 引用 `layoutparser`\n\n如果您发现 `layoutparser` 对您的工作有所帮助，请考虑引用我们的工具及 [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.15348.pdf)，使用以下 BibTeX 条目：\n\n```\n@article{shen2021layoutparser,\n  title={LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis},\n  author={Shen, Zejiang and Zhang, Ruochen and Dell, Melissa and Lee, Benjamin Charles Germain and Carlson, Jacob and Li, Weining},\n  journal={arXiv preprint arXiv:2103.15348},\n  year={2021}\n}\n```","# LayoutParser 快速上手指南\n\nLayoutParser 是一个基于深度学习的文档图像分析（DIA）统一工具包，提供丰富的预训练模型和简洁的 API，帮助用户快速实现文档布局检测、OCR 识别及结构化数据提取。\n\n## 1. 环境准备\n\n*   **操作系统**：支持 Linux, macOS, Windows\n*   **Python 版本**：建议 Python 3.7 及以上\n*   **前置依赖**：\n    *   基础功能仅需 `pip`。\n    *   若需使用基于 Detectron2 的高级模型，请确保已安装兼容版本的 PyTorch 和 torchvision（具体参考官方 installation.md）。\n    *   若需使用 OCR 功能，系统需预先安装 Tesseract OCR 引擎。\n\n## 2. 安装步骤\n\nLayoutParser 采用模块化安装方式，请根据实际需求选择以下命令：\n\n**安装核心库（基础功能）：**\n```bash\npip install layoutparser\n# 国内加速推荐：\n# pip install layoutparser -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**安装深度学习布局模型工具包（推荐）：**\n```bash\npip install \"layoutparser[layoutmodels]\"\n```\n\n**安装 OCR 工具包（如需文字识别）：**\n```bash\npip install \"layoutparser[ocr]\"\n```\n\n> **注意**：如果需要运行特定的 Detectron2 后端模型，可能需要额外的环境配置步骤，详见项目仓库中的 `installation.md`。\n\n## 3. 基本使用\n\n以下示例展示如何使用 LayoutParser 在 4 行代码内完成文档布局检测，并进行简单的区域筛选与可视化。\n\n### 3.1 快速布局检测\n\n加载预训练模型并检测图片中的布局元素：\n\n```python\nimport layoutparser as lp\nfrom PIL import Image\n\n# 加载预训练模型 (例如：PubLayNet 数据集训练的 EfficientDet)\nmodel = lp.AutoLayoutModel('lp:\u002F\u002FEfficientDete\u002FPubLayNet')\n\n# 读取图片\nimage = Image.open(\"path\u002Fto\u002Fyour\u002Fimage.jpg\")\n\n# 执行检测\nlayout = model.detect(image)\n\n# 打印检测结果\nprint(layout)\n```\n\n### 3.2 区域筛选与处理\n\n利用内置的数据结构 API 筛选特定区域（例如：选取页面左半部分的内容）：\n\n```python\n# 定义左侧区域的区间\nimage_width = image.size[0]\nleft_column = lp.Interval(0, image_width\u002F2, axis='x')\n\n# 筛选位于左列的布局对象\nleft_layout = layout.filter_by(left_column, center=True)\n\n# 遍历筛选出的区域并进行 OCR (需安装 ocr 扩展)\nocr_agent = lp.TesseractAgent()\nfor region in left_layout: \n    # 裁剪出该区域图像\n    image_segment = region.crop(image)\n    # 识别文字\n    text = ocr_agent.detect(image_segment)\n    print(f\"Region {region.id}: {text}\")\n```\n\n### 3.3 结果可视化\n\n将检测到的布局框绘制在原图上：\n\n```python\n# 绘制布局框\nlp.draw_box(image, layout, box_width=1, show_element_id=True, box_alpha=0.25)\n```\n\n更多高级用法（如表格解析、层级结构分析）请参考项目仓库中的 `examples` 目录。","某金融科技公司数据团队需要从每日数千份扫描版财报 PDF 中自动提取关键财务指标，以构建自动化分析仪表盘。\n\n### 没有 layout-parser 时\n- **开发周期漫长**：工程师需手动拼接 OCR 引擎与自定义的图像分割算法，仅环境配置和模型调试就耗时数周。\n- **复杂版面识别困难**：面对双栏排版、跨页表格或嵌入式图表，传统规则难以精准定位，导致大量数据错位或丢失。\n- **区域提取逻辑繁琐**：若要单独提取“左栏正文”或“特定表格区域”，需编写大量复杂的坐标计算代码，维护成本极高。\n- **可视化验证缺失**：缺乏统一的可视化工具，排查识别错误时只能靠打印坐标盲猜，效率低下。\n\n### 使用 layout-parser 后\n- **极速部署模型**：仅需 4 行代码即可调用预训练的 EfficientDete 模型，瞬间完成对各类文档版面的高精度检测。\n- **智能语义理解**：内置深度学习模型能自动区分标题、文本、表格和图像，即使面对复杂的双栏混排也能准确划分区域。\n- **灵活的区域操作**：利用 `filter_by` 等 API，可像查询数据库一样轻松筛选“左栏内容”或对每个检测区域直接执行 OCR，逻辑清晰简洁。\n- **一键可视化调试**：调用 `draw_box` 即可生成带标签的检测效果图，直观呈现识别结果，大幅缩短问题排查时间。\n\nlayout-parser 将原本需要数周定制的文档分析流程缩短为小时级任务，让非视觉算法专家也能轻松构建高精度的文档智能应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLayout-Parser_layout-parser_75ceb728.png","Layout-Parser","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLayout-Parser_94d522fb.png","",null,"https:\u002F\u002Fgithub.com\u002FLayout-Parser",[78],{"name":79,"color":80,"percentage":81},"Python","#3572A5",100,5708,532,"2026-04-06T13:52:50","Apache-2.0","未说明","使用深度学习布局模型（如 Detectron2 后端）时通常需要 GPU，具体型号、显存及 CUDA 版本未在文中明确说明，需参考 installation.md",{"notes":89,"python":86,"dependencies":90},"该工具支持模块化安装：基础库、深度学习布局模型工具包（layoutmodels）和 OCR 工具包可分别安装。若需使用基于 Detectron2 的模型，需要额外的安装步骤（详见 installation.md）。内置了丰富的预训练模型库和统一的数据结构 API，支持从 JSON、CSV 和 PDF 加载数据。",[91,92,93],"layoutparser","Detectron2 (可选，用于特定模型)","Tesseract (可选，用于 OCR)",[14,15],[96,97,98,99,64,100,101,102,103,104],"layout-analysis","deep-learning","object-detection","ocr","detectron2","document-layout-analysis","computer-vision","document-image-processing","layout-detection","2026-03-27T02:49:30.150509","2026-04-07T09:46:49.699589",[108,113,118,123,128,132],{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},21613,"如何直接对可读取的 PDF 文件使用 detect() 函数，而不需要先进行 OCR？","虽然 `detect()` 主要设计用于图像对象（如 PIL.Image），但你可以通过以下方式处理 PDF：\n1. 参考项目维护者在 VILA 项目中实现的 PDF 解析器（pdfplumber_extractor.py），功能类似且即将合并到 layout-parser。\n2. 社区用户推荐使用 PyMuPdf (fitz) 自行提取文本和坐标。示例代码如下：\n   - 安装：`pip install pymupdf`\n   - 坐标缩放函数：\n     ```python\n     def scale_xy(textblock, scale=72\u002F200):\n         x1 = textblock.block.x_1 * scale\n         y1 = textblock.block.y_1 * scale\n         x2 = textblock.block.x_2 * scale\n         y2 = textblock.block.y_2 * scale\n         return (x1,y1,x2,y2)\n     ```\n   - 使用 fitz 读取 PDF 并提取文本块。","https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fissues\u002F29",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},21614,"遇到 'GCVAgent' object has no attribute '_client' 错误怎么办？","这通常不是代码 Bug，而是 Google Cloud Vision 的凭证配置错误。请按照以下步骤解决：\n1. 前往 Google Cloud Vision 控制台创建新的凭证。\n2. 下载凭证文件为 JSON 格式（例如：`XXXXX-YYYY-99889988-zz987656abc88.json`）。\n3. 在代码中正确加载凭证路径：\n   ```python\n   ocr_agent = lp.GCVAgent.with_credential(\"\u002FUsers\u002FDownloads\u002FXXXXX-YYYY-99889988-zz987656abc88.json\", languages=['en'])\n   ```\n   确保 `\u003Cpath\u002Fto\u002Fyour\u002Fcredential>` 替换为你实际下载的 JSON 文件绝对路径。","https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fissues\u002F111",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},21615,"在 Windows 上安装 layoutparser 时遇到 pycocotools 编译错误或依赖冲突如何解决？","Windows 用户常因缺少编译环境或依赖冲突导致安装失败。解决方案包括：\n1. 确保安装了 Visual C++ Build Tools。\n2. 如果遇到 `black` 库版本冲突（如 `python-lsp-black` 要求 black>=22.3.0 但安装了旧版），建议切换包管理工具。\n3. 有用户反馈从 conda 切换到 `pipenv` 可以解决依赖相互作用导致的内存溢出或分段错误问题。\n4. 尝试预先安装兼容版本的依赖，或使用预编译的二进制包。","https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fissues\u002F13",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},21616,"调用 lp.Detectron2LayoutModel 时出现 AttributeError: module layoutparser has no attribute Detectron2LayoutModel 是什么原因？","该错误通常由环境配置不当或版本不匹配引起。虽然具体修复步骤在讨论中未详细展开（Issue 已关闭表示已解决），但建议检查以下几点：\n1. 确认 layoutparser 是否正确安装且版本最新。\n2. 检查 Detectron2 依赖是否在 Windows 环境下正确编译和链接。\n3. 如果问题依旧，尝试重新创建虚拟环境并严格按照官方文档顺序安装 detectron2 和 layoutparser。","https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fissues\u002F77",{"id":129,"question_zh":130,"answer_zh":131,"source_url":117},21617,"如何使用 layout-parser 提取 PDF 中的表格并进行 OCR 解析？","结合 Issue #111 和 #29 的信息，流程如下：\n1. 将 PDF 页面转换为图像（使用 `pdf2image` 或 `PyMuPdf`）。\n2. 使用 `Detectron2LayoutModel` 检测布局，筛选出类型为 'Table' 的区域。\n3. 对表格区域裁剪后，使用 `GCVAgent` 或 `TesseractAgent` 进行 OCR。\n   - 若用 GCV，务必正确配置 JSON 凭证：`lp.GCVAgent.with_credential(\"path\u002Fto\u002Fkey.json\")`。\n   - 若用 Tesseract：`ocr_agent = lp.ocr.TesseractAgent()`。\n4. 解析返回的文本结果。注意处理坐标缩放问题（特别是从 PDF 直接转换时）。",{"id":133,"question_zh":134,"answer_zh":135,"source_url":127},21618,"layout-parser 支持哪些预训练模型，如何加载 PubLayNet 模型？","layout-parser 支持通过 `lp:\u002F\u002F` 前缀加载预训练模型。以 PubLayNet 为例，加载代码如下：\n```python\nmodel = lp.Detectron2LayoutModel(\n    config_path='lp:\u002F\u002FPubLayNet\u002Fmask_rcnn_X_101_32x8d_FPN_3x\u002Fconfig',\n    label_map={0: \"Text\", 1: \"Title\", 2: \"List\", 3: \"Table\", 4: \"Figure\"},\n    extra_config=[\"MODEL.ROI_HEADS.SCORE_THRESH_TEST\", 0.8]\n)\n```\n其中 `label_map` 定义了检测到的类别索引对应的名称。如果加载时报错，请检查网络连接（需下载模型权重）及 Detectron2 环境配置。",[137,142,147,152,157,162,167,172,177,182],{"id":138,"version":139,"summary_zh":140,"released_at":141},127647,"v0.3.4","## 错误修复\n* 修复了 #131 中提到的一个严重可视化错误，由 @lolipopshock 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F132 中完成。\n\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fcompare\u002Fv0.3.3...v0.3.4","2022-04-06T04:37:32",{"id":143,"version":144,"summary_zh":145,"released_at":146},127648,"v0.3.3","## 功能更新\n* 由 @lolipopshock 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F115 中实现的空页 PDF 加载功能增强\n* 修复 issue #94 —— 避免 TesseractAgent.detect() 将任意数字序列推断为浮点数，由 @k-for-code 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F95 中完成\n* 由 @lolipopshock 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F128 中实现的布局比较功能改进\n* 由 @lolipopshock 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F129 中实现的可视化函数优化\n\n## 示例更新\n* 由 @Jim-Salmons 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F56 中对深度学习解析器示例笔记本进行的小幅更新\n* 由 @yusanshi 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F104 中将排序函数中的 `inplace` 参数设置为 True\n* 由 @lolipopshock 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F124 中添加的使用 Label Studio 标注自定义 LayoutParser 模型的笔记本\n\n## 新贡献者\n* @Jim-Salmons 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F56 中完成了首次贡献\n* @yusanshi 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F104 中完成了首次贡献\n* @k-for-code 在 https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fpull\u002F95 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fcompare\u002Fv0.3.2...v0.3.3","2022-04-03T04:27:33",{"id":148,"version":149,"summary_zh":150,"released_at":151},127649,"v0.3.2","多后端布局模型支持的重要修复：\n\n- 解决了 #78 中提到的问题，并结合其他修复进一步提升多后端布局模型的支持 #79\n- 针对不同后端的测试更加完善 #79，以防止未来出现相关问题","2021-09-23T17:36:51",{"id":153,"version":154,"summary_zh":155,"released_at":156},127650,"v0.3.1","- 修复 `Detectron2LayoutModel` 中自动设置 `label_map` 的问题 #75\r\n- 移除不必要的类注解（这些注解可能会导致 Python 3.6 用户出现兼容性问题）#75","2021-09-15T20:58:49",{"id":158,"version":159,"summary_zh":160,"released_at":161},127651,"v0.3.0","我们很高兴地发布 LayoutParser v0.3.0 版本，其中包含许多令人兴奋的更新和功能改进。\r\n\r\n## 新特性\r\n- 本版本最大的变化是 LayoutParser 现在支持多种深度学习后端：Detectron2、effdet 和 paddledetection。这使得 `layoutparser` 库的使用更加灵活，并为未来实现自定义版面模型提供了便利。#54 #67 \r\n- 此外，新增的 `AutoModel` 以及改进的模型配置解析功能，让加载和使用版面检测模型变得更加简单。#69 \r\n    - 例如：`model = lp.AutoLayoutModel(\"lp:\u002F\u002Fefficientdet\u002FPubLayNet\")`。\r\n- 为了支持这一多后端框架，我们实现了动态导入机制，并优化了 `layoutparser` 及其依赖项的安装方式（详见[安装说明](https:\u002F\u002Fgithub.com\u002FLayout-Parser\u002Flayout-parser\u002Fblob\u002Fmaster\u002Finstallation.md)）。#65 #68 \r\n- 现在，`layoutparser` 支持直接将 PDF 文件加载为 `layout` 对象：#71\r\n    ```python\r\n    import layoutparser as lp\r\n    pdf_layout, pdf_images = lp.load_pdf(\"path\u002Fto\u002Fpdf\", load_images=True)\r\n    lp.draw_box(pdf_images[0], pdf_layout[0])\r\n    ```\r\n- 为了支持对版面对象更灵活的处理，我们提供了一组新的工具包：#72 \r\n    ```python\r\n    import layout parser as lp\r\n    page_layout = lp.load_pdf(\"tests\u002Ffixtures\u002Fio\u002Fexample.pdf\")[0]\r\n    pdf_lines = lp.simple_line_detection(page_layout)\r\n    ```\r\n## 新模型\r\n\r\n- 新增 MFD 模型，能够检测科学文档中的公式区域 #59","2021-09-13T19:44:42",{"id":163,"version":164,"summary_zh":165,"released_at":166},127652,"v0.2.0","# Layout Parser v0.2.0 发行说明\n\n## 新特性\n\n1. 支持以 `json` 和 `csv` 格式加载和导出版面数据，详见 #6\n2. 增加对 `union` 和 `intersect` 操作的支持，详见 #20 及 [详细说明](https:\u002F\u002Flayout-parser.readthedocs.io\u002Fen\u002Flatest\u002Fnotes\u002Fshape_operations.html)\n\n## 改进\n\n1. 功能改进：\n    1. 在加载 Layout Parser 官方模型时，`Detectron2LayoutModel` 可以自动检测 `label_map`。例如：\n\n        ```python\n        model = lp.Detectron2LayoutModel(\"lp:\u002F\u002FHJDataset\u002Ffaster_rcnn_R_50_FPN_3x\u002Fconfig\")\n        model.label_map\n        # {1: '页面边框', ... }\n        ```\n\n    2. `Detectron2LayoutModel` 现在支持 `enforce_cpu` 标志，即使存在 CUDA 设备也会强制使用 CPU。\n    3. 对于 `visualization.draw_box`，现在支持 `show_element_type` 标志，可在版面对象的左上角显示边界框类别名称。\n2. 改进了安装命令和文档，尤其是针对 Windows 平台上的 Detectron2 安装问题 #25\n\n## 新模型\n\n1. 新增表格区域检测模型，可用于识别表格区域。\n\n## 修复\n\n1. 修复了 #9 中提到的 `layout` 错误问题——感谢 @remidbs。\n2. 通过使用 `iopath` 替代 `fvcore`，修复了 #11 和 #13 中提到的一些依赖性问题。详见 #18，感谢 @edisongustavo。","2021-04-12T19:59:35",{"id":168,"version":169,"summary_zh":170,"released_at":171},127653,"v0.1.3","**改进**：\n- 支持 Detectron2 模块的懒加载。现在，只有在您显式创建 `Detectron2LayoutModel` 对象时，才会请求 Detectron2 的依赖项。这有助于在不安装 Detectron2 模块的情况下使用纯 `layoutparser` 库。\n\n**新模型**：\n- 集成了基于 [NewspaperNavigator](https:\u002F\u002Fnews-navigator.labs.loc.gov) 数据集的预训练模型：`lp:\u002F\u002FNewspaperNavigator\u002Ffaster_rcnn_R_50_FPN_3x\u002Fconfig`\n\n**修复**：\n- 修复了可视化中可能覆盖原始图像的 bug。","2020-12-21T21:57:24",{"id":173,"version":174,"summary_zh":175,"released_at":176},127654,"v0.1.2","在这一版本中，我们为 publaynet 发布了一个新模型，并进行了多项改进：\n\n1. 我们发布了在 `publaynet` 数据集上训练的 `mask_rcnn_X_101_32x8d_FPN_3x` 模型。请注意：该模型是在完整的训练集上训练的（而其他模型仅在验证集上训练），基于此新模型，性能预计可提升约 15%。\n2. 我们增强了对 PIL 图像在版面建模和可视化方面的支持。\n3. 我们优化了 Tesseract OCR 模型的默认语言设置。\n\n","2020-10-30T05:45:52",{"id":178,"version":179,"summary_zh":180,"released_at":181},127655,"v0.1.1","## 修复\r\n\r\n- 修复了一个可能导致 Prima Models 加载出错的 bug。\r\n\r\n## 更新\r\n\r\n- 更新了精度更高的 Prima Mask R-CNN 模型，并提供了详细的评估报告。","2020-07-16T23:15:51",{"id":183,"version":184,"summary_zh":185,"released_at":186},127656,"v0.1.0","`layoutparser` 目前支持以下功能：\n\n- **坐标系统**：\n  - 支持三种基本坐标系及其几何关系。\n  - 提供 TextBlock 和 Layout 系统，便于进行坐标和文本处理。\n\n- **OCR 系统**：\n  - 支持基于 Google Cloud Vision 和 Tesseract API 的 OCR 功能。\n\n- **版面建模**：\n  - 支持使用 Detection2 框架中的预训练深度学习模型进行版面对象检测。\n\n- **可视化**：\n  - 支持对检测到的版面中框坐标和文本进行高度可定制的呈现。","2020-06-24T05:26:59"]