Versatile-OCR-Program

682 49 困难 1 次阅读 3天前NOASSERTION数据工具图像开发框架

AI 解读由 AI 自动生成，仅供参考

Versatile-OCR-Program 是一款专为机器学习训练打造的多模态光学字符识别（OCR）系统。它不仅能精准提取文本，更能深度解析复杂的数学公式、表格、图表及科学示意图，特别适用于处理试卷、学术论文等排版密集的教育资料。

传统 OCR 往往难以兼顾图文混合内容的结构化输出，而 Versatile-OCR-Program 有效解决了这一痛点。它能将视觉元素转化为带有语义标注的 JSON 或 Markdown 格式，自动为图片和公式生成自然的语言描述（例如解释几何图形的空间关系），从而直接生成高质量、机器可读的训练数据集。在真实学术场景测试中，其对多语言（英、日、韩）及复杂版面的识别准确率高达 90% 以上。

该工具非常适合需要构建垂直领域 AI 模型的研究人员、开发者以及教育科技从业者使用。其核心技术亮点在于融合了 DocLayout-YOLO、Google Vision、Gemini Pro Vision 及 MathPix 等多种先进模型，实现了对复杂布局的精准拆解与上下文理解。此外，项目规划未来将推出具备“记忆”功能的可定制 AI 流水线，让用户无需深厚的算法背景也能轻松构建专属的智能应用，目前虽因追求稳定性略有延期，但值得持续期待。

使用场景

某教育科技公司的算法工程师正在构建一个专攻理科题目的多模态大模型，急需将海量的纸质试卷和教材转化为机器可训练的高质量数据。

没有 Versatile-OCR-Program 时

复杂内容识别困难：传统 OCR 无法准确提取数学公式、几何图形和化学结构图，导致大量包含关键逻辑的视觉信息丢失或变成乱码。
缺乏语义关联：提取出的图片仅是二进制文件，缺少对图表含义的自然语言描述（如“此图展示了有丝分裂的四个阶段”），模型难以理解图文之间的逻辑关系。
数据清洗成本极高：工程师需人工编写脚本或雇佣团队手动标注多语言文本和表格结构，将非结构化 PDF 转为 JSON/Markdown 格式耗时数周。
布局解析混乱：面对排版密集的试卷，普通工具常错乱段落顺序，混淆题目与选项，导致训练数据噪声过大，严重影响模型收敛效果。

使用 Versatile-OCR-Program 后

全要素高精度提取：Versatile-OCR-Program 能精准识别并分离公式、图表及多语言文本，对东大数学卷等复杂学术资料的识别准确率高达 95% 以上。
自动生成语义注解：工具自动为每张插图生成详细的英文场景描述和教育价值分析，直接赋予视觉数据语义上下文，大幅提升模型推理能力。
一键输出训练格式：直接生成带有结构化摘要的 JSON 或 Markdown 文件，无需额外清洗即可投入微调流程，将数据准备周期从数周缩短至数小时。
完美还原复杂版面：基于 DocLayout-YOLO 等技术，精准还原创考卷的密集排版逻辑，确保题目、条件与选项的对应关系零误差。

Versatile-OCR-Program 通过将非结构化的复杂学术资料瞬间转化为富含语义的机器可读数据，彻底解决了多模态教育大模型训练中“数据荒”的核心瓶颈。

运行环境要求

操作系统

未说明

GPU

未说明 (依赖 Google Vision API, Gemini Pro Vision, MathPix OCR, OpenAI API 等云端服务，本地主要运行 DocLayout-YOLO 和 OpenCV，具体 GPU 需求取决于本地模型部署情况)

内存

未说明

依赖

notes该项目严重依赖多个外部商业 API（Google Vision, Gemini, MathPix, OpenAI），使用前需配置相应的 API 密钥并可能产生费用。项目采用两阶段处理流程：第一阶段使用 DocLayout-YOLO 进行布局检测和元素提取，第二阶段调用多模态大模型生成语义描述。许可证为 AGPL-3.0，若部署为网络服务需公开源代码。README 中未提供具体的本地安装脚本或详细的硬件最低配置，仅提及使用了上述开源库和云服务。

python未说明

DocLayout-YOLO

opencv-python

google-cloud-vision

未说明 (其他依赖涉及付费 API: Gemini Pro Vision, MathPix OCR, OpenAI API)

快速开始

面向机器学习优化的OCR系统：图表、表格、数学公式及多语言文本

🚀 即将推出：下一代AI流水线集成

这个OCR项目仅仅是个开始。
不到1个月后，一个强大的新系统将发布：

可定制的带记忆功能的AI流水线——专为您的领域量身打造。

无论您是学生、研究人员还是开发者，
您都可以构建属于自己的智能、具备记忆增强功能的AI——
而无需深厚的AI专业知识。

更新：发布略有延迟

首先，非常感谢您对该项目的关注。

我原本计划在6月前发布第一版AI流水线。
但说实话，我一直在同时兼顾一项重要的学术任务（6月15日的关键考试）和开发工作——这比我预想的要困难得多。

与其匆忙推出不完整的产品，我决定再花些时间，确保这次发布的系统真正实用、稳定，并且值得大家期待。

整个系统——包括多模态OCR——最初其实是为帮助我自己的学习而开发的工具。
没想到会受到如此多的关注，真的非常感谢。
既然我是第一个用户，我希望在正式发布之前，先确保它确实是我自己也愿意使用的工具。

考试结束后，开发工作将重新启动，待系统真正准备就当时，便会面向公众发布。
再次感谢您的耐心等待——我由衷地感激。

概述

该OCR系统专门用于从复杂的教育材料（如试卷）中提取结构化数据，并以适合机器学习（ML）训练的格式输出。
它支持多语言文本、数学公式、表格、图表和示意图，非常适合用于创建高质量的训练数据集。

主要特性

– 针对机器学习训练优化：提取的图表、表格和示意图等元素均附有语义标注及上下文说明。
其中包括自动生成视觉内容的自然语言描述（例如：“该图展示了有丝分裂的四个阶段”），以提升下游模型的训练效果。

– 多语言支持：支持日语、韩语和英语，并可轻松扩展至其他语言。

– 结构化输出：生成适用于AI的JSON或Markdown格式输出，包含数学表达式的可读性描述、表格摘要以及图表说明。

– 高精度：在EJU生物和东京大学数学等真实学术数据集上，准确率可达90%–95%以上。

– 复杂版面处理能力：能够准确处理含有密集科学内容、大量公式和丰富视觉元素的考试型PDF文件。

– 使用技术：DocLayout-YOLO、Google Vision API、Gemini Pro Vision、MathPix OCR、OpenAI API、OpenCV等。

示例输出

以下是使用真实材料（2017年EJU生物和2014年东京大学数学）生成的实际输出示例，包括英文翻译的语义上下文和提取的数据。

数学输入 数学原图输出数学转换后

英文翻译输出

第1题：考虑底面为边长1的正方形的长方体OABC–DEFG。点P、Q、R分别位于线段AE、BF和CG上，且四点O、P、Q、R共面。设四边形OPQR的面积为S。又设∠AOP为α，∠COR为β。（2）若α + β = 1且S = S，求tan α + tan β的值；若α ≤ β，则求tan α的值。

[图片开始]

图片说明：此图显示了长方体OAB–CDEFGQ。每个顶点都标有字母。角α标记在面OAB上。平面ORPQ与长方体相交并被高亮显示。线RC位于面ODCG上，线PB位于面ABFQ上。

教育价值：这张图通过可视化三维几何和截面，增强了空间推理能力。它有助于学习者理解平面几何、立体图形、空间可视化和角度等相关概念。

相关主题：立体几何、截面、长方体各面、三角形、空间推理

考试相关性：这类题目常见于入学考试中，例如：

利用角α计算ORPQ的面积
求OR、RP、PQ、QO的长度
确定ORPQ与长方体各面之间的夹角
在坐标空间中确定P、Q、R的位置
计算长方体各部分的体积或面积
根据约束条件预测形状
绘制长方体的形状

[图片结束]

生物输入 生物原图输出生物转换后

英文翻译输出

第39题：照片展示了洋葱根尖的有丝分裂过程（体细胞分裂）。细胞A–D处于不同的分裂阶段。请将各个阶段（前期、中期、后期、末期）与每种细胞对应起来，并从选项①–⑧中选出正确组合。

[图片开始]

图片说明：这张图是在显微镜下观察到的植物细胞分裂过程。不同细胞处于不同的有丝分裂阶段，包括染色体排列在中央（中期）、向两极分离（后期）或形成子核（末期）。

A – 似乎处于后期
B – 可能处于末期
C – 前期或前中期
D – 中期

教育价值：这有助于学生直观地理解有丝分裂的过程，强化对细胞分裂各阶段及其特征的认识。它与DNA复制、癌症生物学和遗传学等生物学概念密切相关。

相关主题：有丝分裂、细胞周期、前期、中期、后期、DNA复制

考试相关性：这张图常用于以下问题：

将A、B、C、D与相应的有丝分裂阶段匹配
描述各阶段的特征
解释有丝分裂的重要性
讨论有丝分裂错误如何导致遗传疾病

[图片结束]

[表格开始]

前期	中期	后期
A	C	D
A	D	B
B	C	C
B	D	C
C	A	D
C	D	A
D	A	B
D	C	A

总结：每个选项（①–⑧）都对应着A、B、C、D与前期、中期和后期的不同映射关系。

教育价值：理解有丝分裂的时间顺序变化以及表格中的数据组织方式。有助于提升数据解读、模式识别和分析能力。

相关主题：数据分析、表格解读、生物数据分类

[表格结束]

使用流程

第一步 – 初步 OCR 提取
运行 ocr_stage1.py，从输入的 PDF 文件中提取原始元素（文本、表格、图表等）。
此步骤会进行版面检测，并存储中间结果（例如坐标、裁剪后的图像、原始内容）。
第二步 – 语义解析与最终输出
运行 ocr_stage2.py，处理中间数据并将其转换为结构化、易于理解的输出。
包括生成自然语言解释、摘要，并将内容整理成适合 AI 处理的格式（JSON/Markdown）。

技术实现

– 表格处理优化：
使用 DocLayout-YOLO 检测表格区域。

– 在表格处理中采用 Google Vision OCR，而非 MathPix，以提升日文文本的识别准确率。

– 表格结构以结构化的 JSON 格式保留（保持行和列的结构）。

– 维护 Y 轴坐标信息，确保上下文连续性。

– 原始版面信息与结构化数据一同保存，用于机器学习训练。

– 图像及特殊区域处理：
图像区域使用 Google Vision API 的图像分析功能（imageProperties、labelDetection、textDetection）进行处理。

– 利用 Google Cloud Vision API 生成图像描述。

– 对图表使用 Google Cloud Vision API 的文档分析功能，提取数据点。

– 特殊区域的处理结果以结构化的 JSON 格式存储，供机器学习训练使用。

– 添加原始坐标信息和区域类型元数据，以保持上下文连续性。

项目目的与联系方式

本 OCR 系统是一个开源项目，我们非常欢迎其他人对其进行改进或在此基础上进一步开发。持续更新和社区驱动的优化是我们追求的目标。

如果您对定制化 AI 工具感兴趣，或希望在 AI 相关项目上开展合作，请随时通过电子邮件与我们联系：

邮箱: ses425500000@gmail.com

许可协议

本项目现采用 GNU Affero 通用公共许可证 v3.0（AGPL-3.0）进行授权，
该许可符合本仓库所使用的 DocLayout-YOLO 模型的原始许可要求。

请注意，任何衍生版本或部署版本（包括作为 Web 服务提供）
都必须公开其完整的源代码。

更多详情请参阅：https://www.gnu.org/licenses/agpl-3.0.html

完整条款请查看 LICENSE 文件。 ⸻ 注：示例中的英文翻译已手动重新排版，以提高清晰度和一致性。请仅将其作为参考，实际结构和布局可能与原文略有不同。 关键词：OCR，考试 OCR，表格识别，图表 OCR，AI 教育工具，OpenAI，Gemini Pro Vision，多语言 OCR，DocLayout-YOLO，机器学习，教育 ML 数据集，研究 OCR，论文 OCR，文档 AI

Versatile-OCR-Program 快速上手指南

Versatile-OCR-Program 是一款专为机器学习训练优化的 OCR 系统，擅长从复杂的学术材料（如试卷、论文）中提取结构化数据。它支持多语言（中/日/韩/英）、数学公式、表格及图表，并能自动生成带有语义解释的自然语言描述，输出格式为 JSON 或 Markdown。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本：Python 3.8 或更高版本。
GPU 支持（可选但推荐）：若需加速布局检测（DocLayout-YOLO），建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动。
API 密钥：本项目依赖多个外部 API，使用前需准备好以下密钥：
- Google Cloud Vision API Key
- OpenAI API Key (用于 GPT 系列模型)
- Google Gemini Pro Vision API Key
- MathPix API Key (可选，主要用于非日文表格)

前置依赖安装

建议创建独立的虚拟环境以避免依赖冲突：

python -m venv venv
source venv/bin/activate  # Windows 用户使用: venv\Scripts\activate

安装基础依赖（假设项目根目录下有 requirements.txt）：

pip install -r requirements.txt

国内加速提示：如果遇到下载缓慢问题，推荐使用清华或阿里镜像源：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆仓库

git clone https://github.com/[作者用户名]/Versatile-OCR-Program.git
cd Versatile-OCR-Program

配置 API 密钥 在项目根目录下创建 .env 文件（或根据项目实际配置方式修改 config.py），填入您的 API 密钥：

export GOOGLE_APPLICATION_CREDENTIALS="path/to/your/google-key.json"
export OPENAI_API_KEY="your-openai-key"
export GEMINI_API_KEY="your-gemini-key"
# 其他所需密钥...

验证安装 确保所有依赖包已正确安装，且环境变量已生效。

基本使用

该工具的工作流分为两个阶段：原始提取 和 语义解析。

第一步：初始 OCR 提取

运行 ocr_stage1.py 从输入 PDF 中提取原始元素（文本、表格、图片等）。此步骤会执行布局检测并保存中间结果（坐标、裁剪图像、原始内容）。

python ocr_stage1.py --input_path ./sample_inputs/exam_paper.pdf --output_dir ./intermediate_results

--input_path: 输入 PDF 文件的路径。
--output_dir: 存储中间处理结果的目录。

第二步：语义解释与最终输出

运行 ocr_stage2.py 处理上一步生成的中间数据，将其转换为包含自然语言解释、摘要的结构化输出（JSON/Markdown），使其适合 AI 模型训练。

python ocr_stage2.py --input_dir ./intermediate_results --output_file ./final_output/result.json

--input_dir: 指向第一步生成的中间结果目录。
--output_file: 最终生成的结构化数据文件路径。

查看结果

执行完成后，您可以在指定的输出文件中查看包含以下内容的结构化数据：

数学公式：LaTeX 格式及自然语言描述。
图表/图片：自动生成的详细场景描述（如“此图展示了有丝分裂的四个阶段”）及教育价值分析。
表格：保留行列结构的 JSON 数据及内容摘要。
多语言文本：高精度的识别结果及上下文关联。

注：本项目基于 AGPL-3.0 协议开源。如果您将修改后的版本部署为网络服务，必须公开完整的源代码。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架