LaTeX_OCR_PRO

1.3k 239 较难 1 次阅读 4天前GPL-3.0开发框架图像

AI 解读由 AI 自动生成，仅供参考

LaTeX_OCR_PRO 是一款专注于数学公式识别的开源增强工具，旨在将包含中文、手写体或印刷体的复杂数学公式图片，精准转换为可编辑的 LaTeX 代码。它有效解决了传统 OCR 工具在处理混合语言公式、手写笔迹以及复杂符号推导时识别率低、格式混乱的痛点，让纸质笔记或截图中的数学内容能轻松数字化。

这款工具特别适合需要频繁处理数学文献的研究人员、教师、学生，以及从事教育科技开发的工程师使用。无论是整理手写草稿还是批量转换教材插图，它都能显著提升工作效率。

在技术层面，LaTeX_OCR_PRO 基于深度学习架构，采用 Seq2Seq 模型结合注意力机制（Attention）和束搜索（Beam Search）算法。其核心亮点在于构建了基于 LaTeX 抽象语法树（AST）的数据结构，这不仅提升了对长公式和嵌套结构的理解能力，还支持初级符号推导，确保了输出代码的逻辑准确性与语法规范性。对于希望复现模型或自定义数据集的开发者，项目也提供了完整的训练、评估及部署指南。

使用场景

某高校科研团队在构建“中文数学题库数字化项目”时，需要将大量包含手写解题步骤和混合中文标注的旧试卷图片转化为可编辑、可检索的 LaTeX 源码。

没有 LaTeX_OCR_PRO 时

手写识别率低：传统 OCR 工具仅能识别印刷体，面对学生潦草的手写公式几乎无法工作，导致大量珍贵解题数据无法录入。
中英文混合错乱：试卷中常见的“设 $x$ 为未知数”等中英文混排场景，常被识别为乱码或丢失中文上下文，破坏公式语义。
人工校对成本极高：研究人员需手动逐字重敲公式并重新排版，一份含复杂推导的试卷耗时数小时，严重拖慢题库建设进度。
结构信息丢失：普通识别工具只能输出纯文本，丢失了分数、上下标等关键布局信息，后续无法直接用于教学演示或自动批改。

使用 LaTeX_OCR_PRO 后

手写公式精准转化：借助其增强的手写识别能力，即使是潦草的解题笔迹也能被准确还原为标准的 LaTeX 代码，激活了沉睡的纸质数据。
完美支持中英混排：基于抽象语法树（AST）的结构化解析，能智能区分中文描述与数学符号，确保“令 $f(x)$ 单调递增”等语句逻辑完整。
自动化流程提效：批量处理试卷图片即可直接生成可编译的 LaTeX 文件，将单份试卷的处理时间从小时级压缩至分钟级，释放人力专注于内容审核。
保留推导逻辑结构：输出的代码天然具备正确的数学层级结构，可直接渲染为高清公式图片或嵌入在线教学平台，实现即扫即用。

LaTeX_OCR_PRO 通过打通手写与混合排版公式的数字化最后一公里，让老旧试卷瞬间变为可计算、可交互的现代教育资源。

运行环境要求

操作系统

Linux
macOS

GPU

非必需
提供 CPU 版和 GPU 版依赖文件 (requirements-gpu.txt)，但未明确指定具体的显卡型号、显存大小或 CUDA 版本要求
基于 TensorFlow 1.12.2，通常兼容较旧的 CUDA 版本 (如 9.0/10.0)

内存

未说明

依赖

notes1. 该项目基于较旧的 TensorFlow 1.12.2 和 Python 3.5，建议创建独立的虚拟环境运行。2. LaTeX、Ghostscript 和 ImageMagick 为可选依赖，仅在需要自行从 LaTeX 源码构建数据集时才必须安装；若直接使用预下载数据集则无需安装。3. 完整数据集生成约需 2-3 小时。4. Windows 用户未在官方安装指南中详细列出步骤，但文档提及有针对 Win10 GPU 加速的解决方案文档。

python3.5

tensorflow==1.12.2

django (用于部署)

latex (texlive-latex-base, texlive-latex-extra, 可选)

ghostscript (可选)

imagemagick/magick (可选)

快速开始

LaTeX_OCR_PRO

数学公式识别，增强：中文公式、手写公式

Seq2Seq + Attention + Beam Search。结构如下：

1. 搭建环境
2. 开始训练
3. 可视化
4. 部署
5. 评价
6. 更多细节
- 模型实现细节
- 解决方案
7. 致谢
8. 相关项目
9. 引用

1. 搭建环境

python3.5 + tensorflow1.12.2
[可选] latex (latex 转 pdf)
[可选] ghostscript (图片处理)
[可选] magick (pdf 转 png)

如果你想直接训练，不想自己构建数据集：

[可选] 新开一个虚拟环境

virtualenv env35 --python=python3.5
source env35/bin/activate

安装依赖

pip install -r requirements.txt     // cpu 版
pip install -r requirements-gpu.txt // gpu 版

下载数据集
```
git submodule init
git submodule update
```
如果 git 速度太慢，您也可以手动下载数据集，放到 data 目录下。数据集仓库在 https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR 数据仓库同时托管到 huggingface (linxy/LaTeX_OCR)，欢迎使用！

如果你想自己构建数据集，然后再训练：

Linux

一键安装

make install-linux

或

安装本项目依赖

virtualenv env35 --python=python3.5
source env35/bin/activate
pip install -r requirements.txt

安装 latex (latex 转 pdf)

sudo apt-get install texlive-latex-base
sudo apt-get install texlive-latex-extra

安装 ghostscript

sudo apt-get update
sudo apt-get install ghostscript
sudo apt-get install libgs-dev

安装magick (pdf 转 png)

wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make; \
sudo make install; \
sudo ldconfig /usr/local/lib
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

Mac

一键安装

make install-mac

或

安装本项目依赖

sudo pip install -r requirements.txt

LaTeX

我们需要 pdflatex，可以傻瓜式一键安装：http://www.tug.org/mactex/mactex-download.html

安装magick (pdf 转 png)

wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make;\
sudo make install; \
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

2. 开始训练

生成小数据集、训练、评价

提供了样本量为 100 的小数据集，方便测试。只需 2 分钟就可以根据 ./data/small.formulas/ 下的公式生成用于训练的图片。

注意：样本量很小，是无法有效训练模型的。这个小数据集仅用于确认代码有没有 bug。如果用于预测，那结果极差，因为数据不够。

一步训练

make small

或

生成数据集

用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 只用运行一次
```
# 默认
python build.py
# 或者
python build.py --data=configs/data_small.json --vocab=configs/vocab_small.json
```

训练

# 默认
python train.py
# 或者
python train.py --data=configs/data_small.json --vocab=configs/vocab_small.json --training=configs/training_small.json --model=configs/model.json --output=results/small/

评价预测的公式

# 默认
python evaluate_txt.py
# 或者
python evaluate_txt.py --results=results/small/

评价数学公式图片

# 默认
python evaluate_img.py
# 或者
python evaluate_img.py --results=results/small/

生成完整数据集、训练、评价

根据公式生成 70,000+ 数学公式图片需要 2-3 个小时

一步训练

make full

或

生成数据集

用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 只用运行一次
```
python build.py --data=configs/data.json --vocab=configs/vocab.json
```

训练

python train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

评价预测的公式

python evaluate_txt.py --results=results/full/

评价数学公式图片

python evaluate_img.py --results=results/full/

3. 可视化

可视化训练过程

用 tensorboard 可视化训练过程

小数据集

cd results/small
tensorboard --logdir ./

完整数据集

cd results/full
tensorboard --logdir ./

可视化预测过程

打开 visualize_attention.ipynb,一步步观察模型是如何预测 LaTeX 公式的。

或者运行

# 默认
python visualize_attention.py
# 或者
python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/

可在 --output 下生成预测过程的注意力图。

4. 部署

部署为 Django 应用

安装部署需要的环境
```
pip install django
```

开启服务

python manage.py runserver 0.0.0.0:8010

开启图片服务

cd data/images_train
python -m SimpleHTTPServer 8020

使用方法在输入框里依次输入 0.png, 1.png 等等，即可看到结果

5. 评价

指标	训练分数	测试分数
perplexity	1.12	1.13
EditDistance	94.16	93.36
BLEU-4	91.03	90.47
ExactMatchScore	49.30	46.22

perplexity 是越接近1越好，其余3个指标是越大越好。

其中 EditDistance 和 BLEU-4 已达到业内先进水平

将 perplexity 训练到 1.03 左右，ExactMatchScore 还可以再升，应该可以到 70 以上。

机器不太好，训练太费时间了。

6. 更多细节

模型实现细节

包括数据获取、数据处理、模型架构、训练细节
解决方案

包括 “如何可视化 Attention 层”、“在 win10 用 GPU 加速训练” 等等

7. 致谢

十分感谢 Harvard 和 Guillaume Genthial 、Kelvin Xu 等人提供巨人的肩膀。

论文：

9. 引用

BibTeX

@misc{lin2024latex_ocr_pro,
  title={LaTeX_OCR_PRO},
  author={Xueyuan Lin},
  year={2024},
  publisher={GitHub},
  howpublished={\url{https://github.com/LinXueyuanStdio/LaTeX_OCR_PRO}},
}

LaTeX_OCR_PRO 快速上手指南

LaTeX_OCR_PRO 是一个基于 Seq2Seq + Attention 机制的数学公式识别工具，支持中文公式及手写公式的 LaTeX 代码生成。

1. 环境准备

系统要求

Python: 3.5+
深度学习框架: TensorFlow 1.12.2
操作系统: Linux 或 macOS (Windows 用户建议参考项目文档中的解决方案)

前置依赖 (可选但推荐)

若需自行构建数据集（将 LaTeX 转为图片），需安装以下工具：

LaTeX: 用于生成 PDF (texlive-latex-base, texlive-latex-extra)
Ghostscript: 用于图片处理
ImageMagick (magick): 用于 PDF 转 PNG

提示: 如果仅使用预训练模型或官方提供的数据集进行训练/测试，可跳过上述前置依赖的安装。

2. 安装步骤

第一步：创建虚拟环境并安装依赖

推荐使用 Python 3.5 虚拟环境。

# 创建虚拟环境
virtualenv env35 --python=python3.5
source env35/bin/activate

# 安装依赖 (根据硬件选择)
pip install -r requirements.txt     # CPU 版本
# 或
pip install -r requirements-gpu.txt # GPU 版本

第二步：获取数据集

项目使用 git submodule 管理数据。

方案 A：自动下载 (推荐)

git submodule init
git submodule update

加速提示: 若 Git 下载速度慢，可手动从 HuggingFace 或 GitHub 数据仓库下载数据，解压后放入项目根目录的 data 文件夹下。

方案 B：自行构建数据集 (仅限需要自定义数据时)

Linux 一键安装: make install-linux
Mac 一键安装: make install-mac (详细手动安装步骤请参阅原始 README 中的“搭建环境”章节)

3. 基本使用

场景一：快速测试 (小数据集)

适合验证环境配置是否正确，仅需 2 分钟即可生成少量样本并完成一次训练循环。注意：此模型无法用于实际预测，仅用于调试代码。

# 一键执行：生成小数据集 -> 训练 -> 评价
make small

或者分步执行：

# 1. 生成小数据集及字典
python build.py --data=configs/data_small.json --vocab=configs/vocab_small.json

# 2. 开始训练
python train.py --data=configs/data_small.json --vocab=configs/vocab_small.json --training=configs/training_small.json --model=configs/model.json --output=results/small/

# 3. 评估结果
python evaluate_txt.py --results=results/small/

场景二：完整训练 (生产级)

生成 70,000+ 公式图片约需 2-3 小时，训练出的模型具备实际应用能力。

# 一键执行全流程
make full

或者分步执行：

# 1. 生成完整数据集 (只需运行一次)
python build.py --data=configs/data.json --vocab=configs/vocab.json

# 2. 开始训练
python train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

# 3. 评估结果
python evaluate_txt.py --results=results/full/

场景三：可视化与部署

查看训练过程 (TensorBoard)

cd results/full  # 或 results/small
tensorboard --logdir ./

可视化注意力机制 (Attention) 观察模型如何关注图片的不同部分来生成 LaTeX 代码：

python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/

启动 Web 服务 (Django)

# 安装 Django
pip install django

# 启动主服务
python manage.py runserver 0.0.0.0:8010

# (新终端) 启动图片服务
cd data/images_train
python -m SimpleHTTPServer 8020

启动后访问本地端口，输入图片文件名（如 0.png）即可在线测试识别效果。

常见问题

为什么截图公式的预测结果与训练集效果差异巨大？

训练过程中遇到显存溢出（OOM）错误怎么办？

训练很久后 ExactMatchScore (EM) 仍然很低或没有显著提升是什么原因？

ExactMatchScore 始终为 0 或训练不收敛，如何调整学习率参数？

为什么 PyTorch 版本 (img2seq_torch) 的效果不如 TensorFlow 版本？

为什么训练日志中的 perplexity (困惑度) 是负数？

无法复现官方展示的训练结果，可能是什么原因？

data.json 中的 max_iter 参数是什么意思？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

使用场景

没有 LaTeX_OCR_PRO 时

使用 LaTeX_OCR_PRO 后

运行环境要求

快速开始

LaTeX_OCR_PRO

1. 搭建环境

如果你想直接训练，不想自己构建数据集：

如果你想自己构建数据集，然后再训练：

2. 开始训练

3. 可视化

4. 部署

5. 评价

6. 更多细节

7. 致谢

8. 相关项目

9. 引用

LaTeX_OCR_PRO 快速上手指南

1. 环境准备

系统要求

前置依赖 (可选但推荐)

2. 安装步骤

第一步：创建虚拟环境并安装依赖

第二步：获取数据集

3. 基本使用

场景一：快速测试 (小数据集)

场景二：完整训练 (生产级)

场景三：可视化与部署

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch