AdvancedLiterateMachinery
AdvancedLiterateMachinery 是阿里巴巴通义实验室“读光”团队开源的一系列前沿算法集合,旨在构建具备“阅读、思考与创造”能力的高级智能系统。该项目当前核心聚焦于让机器从图像和文档中高效“阅读”,解决传统 OCR 技术在复杂场景、多语言环境及文档深度理解方面的瓶颈,为未来超越人类水平的通用人工智能奠定基础。
其技术亮点显著:新发布的 CC-OCR 基准测试专为评估大模型的识字能力设计,涵盖真实应用场景;Platypus 模型采用统一架构,能高精度识别各种形态的文本;SceneVTG 则利用多模态大模型与扩散模型,实现在自然场景中生成高质量的文字图像;WebRPG 更是创新地实现了根据 HTML 代码自动生成网页视觉呈现。
这套工具非常适合 AI 研究人员、开发者以及需要处理复杂文档分析的企业用户。无论是希望探索多模态模型前沿技术的学者,还是寻求提升文档自动化处理能力的工程师,都能从中获得强大的算法支持与丰富的数据集资源,共同推动机器认知能力的边界。
使用场景
某跨境电商运营团队每天需处理数千张来自全球不同国家的商品海报与发票,从中提取多语言文本并重构为可编辑的网页展示形式。
没有 AdvancedLiterateMachinery 时
- 面对倾斜、模糊或艺术字体的多国文字,传统 OCR 识别率极低,人工校对耗时占全流程的 60%。
- 无法自动区分文档中的关键信息(如价格、日期)与普通背景文本,导致数据结构化整理困难。
- 将纸质单据转换为线上可视化页面时,需设计师手动调整排版参数,重复劳动且容易出错。
- 缺乏针对复杂场景的评估基准,难以量化现有模型的不足,技术迭代方向模糊。
使用 AdvancedLiterateMachinery 后
- 借助 Platypus 统一架构,轻松识别各类变形及多语言文本,识别准确率大幅提升,人工复核时间减少 80%。
- 利用 CC-OCR 基准训练出的模型,能精准定位并提取关键字段,直接输出结构化 JSON 数据供系统调用。
- 通过 WebRPG 自动解析 HTML 并生成视觉渲染参数,瞬间将原始单据转化为高保真网页预览,无需人工干预。
- 基于 SceneVTG 生成高质量合成数据用于模型微调,显著增强了系统在极端光照和复杂背景下的鲁棒性。
AdvancedLiterateMachinery 将原本碎片化、高人力的文档处理流程,升级为具备“阅读、思考、创造”能力的自动化智能闭环。
运行环境要求
未说明
未说明

快速开始
高级识字机器
简介
我们研究的最终目标是构建一个具备高级智能的系统,即拥有阅读、思考和创作的能力,甚至在未来某一天超越人类智能。我们称这类系统为高级识字机器(ALM)。
首先,我们目前专注于教会机器从图像和文档中阅读。在未来几年里,我们将探索赋予机器思考和创作智力能力的可能性,力争赶上并超越GPT-4和GPT-4V。
本项目由阿里巴巴集团通义实验室的读光OCR团队(读光-Du Guang意为“阅读之光”)维护。

欢迎访问我们的读光-Du Guang门户和DocMaster,体验OCR和文档理解的在线演示。
最新动态
2024年12月发布
- CC-OCR (CC-OCR:评估大型多模态模型识字能力的全面且具有挑战性的OCR基准测试。论文):CC-OCR基准测试专门用于评估大型多模态模型以OCR为核心的各项能力。该基准涵盖了多样化的场景、任务和挑战,包含四个以OCR为中心的赛道:多场景文本识别、多语言文本识别、文档解析以及关键信息提取。它包含39个子集,共7,058张完整标注的图像,其中41%来源于实际应用,此次为首次公开发布。
2024年9月发布
Platypus (鸭嘴兽:一种用于读取各种形式文本的通用型专家模型, ECCV 2024。论文):鸭嘴兽提出了一种全新的图像文本读取方法,解决了专家模型和通用模型各自的局限性。鸭嘴兽利用单一统一架构,能够有效识别各种形式的文本,同时保持高精度和高效性。我们还引入了一个新数据集Worms,该数据集整合并部分重新标注了以往的数据集,以支持模型的开发与评估。
SceneVTG (野外环境下的视觉文本生成, ECCV 2024。论文):我们提出了一种视觉文本生成器(称为SceneVTG),能够生成高质量的野外文本图像。SceneVTG采用两阶段范式,利用多模态大语言模型在多个尺度和层级上推荐合理的文本区域和内容,这些内容作为条件输入到条件扩散模型中,用于生成文本图像。为了训练SceneVTG,我们还贡献了一个带有详细OCR标注的新数据集SceneVTG-Erase。
WebRPG (WebRPG:用于视觉呈现的网页渲染参数自动生成, ECCV 2024。论文):我们介绍了一项新任务WebRPG,其核心在于根据HTML代码自动为网页生成视觉呈现方案。由于缺乏相关基准,我们通过自动化流水线创建了一个新的数据集。我们提出的模型基于VAE架构和定制的HTML嵌入,能够高效地处理众多网页元素及渲染参数。全面的实验,包括定制的定量评估,证明了WebRPG模型在生成网页呈现方案方面的有效性。
ProcTag (ProcTag:用于评估文档指令数据有效性的流程标记法, arXiv 2024。论文):对于构建高效能的文档指令数据而言,有效的评估方法至关重要,这将有助于训练用于文档理解的LLM和MLLM。我们提出了ProcTag,这是一种面向数据的方法,它标记指令的执行过程而非文本本身,从而实现对文档指令更有效的评估和选择性采样。
2024年4月发布
- OmniParser (OmniParser:用于文本定位、关键信息提取和表格识别的统一框架, CVPR 2024。论文):我们提出了一种适用于多种场景下视觉情境文本解析的通用模型,名为OmniParser,它可以同时处理三种典型的视觉情境文本解析任务:文本定位、关键信息提取和表格识别。在OmniParser中,所有任务共享统一的编码器-解码器架构、统一的目标——点条件驱动的文本生成,以及统一的输入与输出表示——提示与结构化序列。
2024年3月发布
- GEM (GEM:基于渲染树的格式塔增强标记语言模型,用于网页理解, EMNLP 2023。论文):网页是人类获取和感知信息的重要载体。受格式塔心理学理论启发,我们提出了一种创新的格式塔增强标记语言模型(简称GEM),用于承载来自网页渲染树的异构视觉信息,从而在网页问答和信息抽取等任务中表现出色。
2023年9月发布
- DocXChain (DocXChain:一款功能强大的开源文档解析工具链及其扩展, arXiv 2023。报告):为 提升文档的数字化与结构化水平,我们开发并发布了名为 DocXChain 的开源工具链,用于精确细致的文档解析。目前,该工具链已提供文本检测、文本识别、表格结构识别和版面分析等基础能力。同时,还构建了通用文本阅读、表格解析和文档结构化等典型流程,以支持更复杂的文档相关应用。其中大部分算法模型来自 ModelScope。此外,现已支持公式识别(使用 RapidLatexOCR 中的模型)和 PDF 全文转换(PDF 转 JSON 格式)。
- LISTER (LISTER:面向长度无关场景文本识别的邻域解码器, ICCV 2023。论文):我们提出了一种称为长度无关场景文本识别器(LISTER)的方法,以解决 对不同文本长度鲁棒性不足 的问题。具体而言,我们设计了一种邻域解码器,在新型邻域矩阵的帮助下,无论文本长度如何,都能获得准确的字符注意力图。此外,还引入了一个特征增强模块,以较低的计算成本建模长距离依赖关系,并可与邻域解码器迭代配合,逐步增强特征图。
- VGT (用于文档版面分析的视觉网格 Transformer, ICCV 2023。论文):为了 充分利用多模态信息并借助预训练技术学习更好的表示,用于文档版面分析(DLA),我们提出了双流视觉网格 Transformer(VGT),其中引入了网格 Transformer(GiT),并针对 2D 级别和片段级别的语义理解进行了预训练。此外,我们还整理并发布了用于评估文档版面分析算法的新基准数据集,名为 D^4LA。
- VLPT-STD (用于提升场景文本检测器性能的视觉—语言预训练, CVPR 2022。论文):我们将 视觉—语言联合学习应用于场景文本检测任务,该任务本质上涉及视觉与语言两种模态之间的跨模态交互。预训练后的模型能够生成更具语义丰富性的信息表示,从而直接提升下游文本检测任务中现有场景文本检测器(如 EAST 和 DB)的性能。
2023年6月发布
- LiteWeightOCR (基于截断奇异值分解知识蒸馏引导的神经架构搜索构建轻量级文本识别器, BMVC 2023。论文):为使 OCR 模型 在保持高精度的同时能够在移动设备上部署,我们提出了一种轻量级文本识别器,将基于截断奇异值分解的知识蒸馏(KD)融入到神经架构搜索(NAS)过程中。
2023年4月发布
- GeoLayoutLM (GeoLayoutLM:面向视觉信息提取的几何预训练, CVPR 2023。论文):我们提出了一种名为 GeoLayoutLM 的多模态框架,用于视觉信息提取(VIE)。与以往通常以隐式方式学习几何表示的文档预训练方法不同,GeoLayoutLM 显式地建模文档中各实体之间的几何关系。
2023年2月发布
- LORE-TSR (LORE:用于表格结构识别的逻辑位置回归网络, AAAI 2022。论文):我们将表格结构识别(TSR)建模为一个逻辑位置回归问题,并提出了一种名为 LORE 的新算法,即逻辑位置回归网络。这是首次 将表格单元格的逻辑位置回归与空间位置回归相结合。
2022年9月发布
- MGP-STR (面向场景文本识别的多粒度预测, ECCV 2022。论文):基于 ViT 和定制的自适应寻址与聚合模块,我们通过引入子词表示来探索一种隐式整合语言知识的方式,从而促进场景文本识别中的 多粒度 预测与融合。
- LevOCR (莱文施泰因 OCR, ECCV 2022。论文):受 莱文施泰因 Transformer 启发,我们将场景文本识别问题转化为一个迭代式的序列精炼过程,该过程具有 并行解码、动态长度调整以及良好的可解释性 等优点。
奖项
科学技术进步奖公告

版本历史
v1.7.0-gem-model-release2024/04/02v1.6.0-LaTeX-OCR-models2023/11/22v1.4.0-LISTER-release2023/09/19v1.3.0-VGT-release2023/09/19v1.2.0-docX-release2023/09/04v1.1.0-geolayoutlm-model2023/04/19v1.0.3-LevOCR-model2022/12/21V1.0.2-LevOCR-model2022/11/11V1.0.1-ECCV2022-model2022/09/30V1.0.0-ECCV20222022/09/29常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备