LaTeX-OCR

16.3k 1.3k 简单 7 次阅读 3天前MIT开发框架图像语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

LaTeX-OCR（项目代号 pix2tex）是一款基于深度学习的智能工具，旨在将数学公式的图片自动转换为可编辑的 LaTeX 代码。它主要解决了科研论文写作、笔记整理或教材编写中，面对图片或 PDF 里的复杂公式无法直接复制编辑的痛点，让用户无需手动逐字敲击繁琐的数学符号。

这款工具非常适合科研人员、学生、教师以及需要频繁处理数学文档的开发者使用。无论是从屏幕截图、剪贴板还是本地文件中提取公式，LaTeX-OCR 都能快速响应。其核心技术亮点在于采用了视觉 Transformer（ViT）架构，相比传统 OCR 技术，它能更精准地理解复杂的数学结构和布局，即使是手写体或排版紧凑的公式也能获得较高的识别准确率。

在使用体验上，LaTeX-OCR 提供了多样化的选择：既支持命令行批量处理，也配备了友好的图形界面（GUI），用户只需截图即可实时预览渲染效果并一键复制代码；此外，它还提供了 API 接口和 Docker 部署方案，方便开发者将其集成到自己的工作流或应用中。作为一个开源项目，LaTeX-OCR 让数学公式的数字化变得简单高效，是学术工作者提升效率的得力助手。

使用场景

某高校研究生在整理导师遗留的纸质数学讲义时，急需将其中数百个复杂的微积分公式数字化，以便录入 LaTeX 文档进行二次编辑和发布。

没有 LaTeX-OCR 时

人工转录效率极低：面对包含多重积分、矩阵运算的复杂公式，研究人员必须逐个字符手动敲击 LaTeX 代码，耗时数小时仅能完成几页内容。
符号识别易出错：肉眼难以区分相似符号（如希腊字母 $\nu$ 与 $v$，或偏导数 $\partial$ 与 $d$），导致后期编译报错频繁，排查困难。
结构还原难度大：多层嵌套的分式、上下标及对齐环境（align）需要极高的专注度来构建，极易出现括号不匹配或层级错乱。
工作流严重中断：频繁的“看图 - 打字 - 编译 - 纠错”循环打断了科研思路，使原本简单的资料整理变成了枯燥的机械劳动。

使用 LaTeX-OCR 后

截图即得代码：利用内置 GUI 直接截取纸质书上的公式图片，LaTeX-OCR 能在秒级时间内输出高精度的 LaTeX 源码，效率提升数十倍。
智能语义解析：基于 ViT 模型精准识别易混符号与复杂结构，自动处理矩阵、根式及多行对齐，大幅降低人工校对成本。
实时渲染验证：工具集成 MathJax 即时预览功能，生成的公式可立即可视化对比，确保转换结果与原图一致后再复制到剪贴板。
无缝衔接工作流：支持从命令行到 Python API 的多种调用方式，可批量处理历史扫描件，让研究者专注于内容而非格式录入。

LaTeX-OCR 通过将图像识别与深度学习结合，把繁琐的公式重录工作转化为瞬间的自动化流程，极大释放了科研人员的生产力。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明（基于 PyTorch，建议使用支持 CUDA 的 NVIDIA GPU 以加速推理，但 README 未明确强制要求或具体显存大小）

内存

未说明

依赖

notes1. GUI 截图功能在 Linux 下依赖特定工具（如 gnome-screenshot, grim, slurp 或 spectacle），需根据桌面环境设置 SCREENSHOT_TOOL 环境变量。2. 训练模型或生成数据集时，必须安装 XeLaTeX、ImageMagick（含 Ghostscript）和 Node.js（用于 KaTeX）。3. 模型包含预处理步骤以自动调整图像分辨率，但过大图像可能影响效果。4. 可通过 pip 安装不同模式：基础版、带 GUI 版（pix2tex[gui]）、带 API 版（pix2tex[api]）或训练版（pix2tex[train]）。5. 首次运行会自动下载模型检查点。

python3.7+

torch

Pillow

PyYAML

streamlit

requests

XeLaTeX

ImageMagick

Ghostscript

Node.js

快速开始

pix2tex - LaTeX OCR

$GitHub$ $GitHub all releases$

该项目的目标是构建一个基于学习的系统，能够接收数学公式的图像并返回对应的 LaTeX 代码。

header

使用模型

要运行该模型，您需要 Python 3.7 或更高版本。

如果您尚未安装 PyTorch，请按照他们的说明进行安装：这里。

安装 pix2tex 包：

pip install "pix2tex[gui]"

模型检查点将自动下载。

有三种方法可以从图像中获取预测结果：

您可以使用命令行工具 pix2tex。在这里，您可以解析磁盘上已有的图像以及剪贴板中的图像。
感谢 @katie-lim，您可以使用一个友好的用户界面来快速获得模型预测结果。只需调用 GUI latexocr 即可。从这里您可以截取屏幕截图，预测的 LaTeX 代码会使用 MathJax 渲染，并复制到您的剪贴板。

在 Linux 系统上，您可以使用 gnome-screenshot（支持多显示器）来运行 GUI。对于其他 Wayland 合成器，基于 wlroots 的将使用 grim 和 slurp，而 KDE Plasma 则使用 spectacle。请注意，gnome-screenshot 不兼容 wlroots 或基于 Qt 的合成器。由于在可用时会优先使用 gnome-screenshot，因此在这些情况下您可能需要将环境变量 SCREENSHOT_TOOL 设置为 grim 或 spectacle（其他可用值包括 gnome-screenshot 和 pil）。

如果模型对图像内容不确定，每次点击“重试”都可能会输出不同的预测结果。通过调整 temperature 参数，您可以控制这种行为（较低的温度会生成相同的结果）。
您还可以使用 API。这需要额外的依赖项。通过 pip install -U "pix2tex[api]" 进行安装，并运行以下命令以启动连接到端口 8502 的 Streamlit 演示：
```
python -m pix2tex.api.run
```
此外，还有一个用于 API 的 Docker 镜像：https://hub.docker.com/r/lukasblecher/pix2tex
```
docker pull lukasblecher/pix2tex:api
docker run --rm -p 8502:8502 lukasblecher/pix2tex:api
```
若要同时运行 Streamlit 演示，请执行：
```
docker run --rm -it -p 8501:8501 --entrypoint python lukasblecher/pix2tex:api pix2tex/api/run.py
```
然后访问 http://localhost:8501/。

直接在 Python 中使用

from PIL import Image
from pix2tex.cli import LatexOCR

img = Image.open('path/to/image.png')
model = LatexOCR()
print(model(img))

该模型在分辨率较低的图像上表现最佳。因此，我添加了一个预处理步骤，其中另一个神经网络会预测输入图像的最佳分辨率。此模型会自动将自定义图像调整为最接近训练数据的尺寸，从而提高在实际场景中图像的性能。尽管如此，它仍不完美，可能无法很好地处理超大图像，因此请勿在拍照前将镜头拉至最大变焦。

务必仔细核对结果。如果答案错误，您可以尝试使用其他分辨率重新进行预测。

想使用这个包吗？

我目前正在编写文档。

请访问：https://pix2tex.readthedocs.io/

训练模型

安装一些依赖项 pip install "pix2tex[train]"。

首先，我们需要将图像与其真实标签结合起来。我编写了一个数据集类（还需要进一步改进），它保存了图像的相对路径以及渲染它们所用的 LaTeX 代码。要生成数据集 pickle 文件，请运行：

python -m pix2tex.dataset.dataset --equations path_to_textfile --images path_to_images --out dataset.pkl

如果您想使用自己的分词器，可以通过 --tokenizer 传递（见下文）。

您也可以在我的 Google Drive 上找到我生成的训练数据（formulae.zip - 图像，math.txt - 标签）。对验证和测试数据重复此步骤。所有数据都使用相同的标签文本文件。

将配置文件中的 data（和 valdata）条目修改为新生成的 .pkl 文件。如果您愿意，可以更改其他超参数。模板请参阅 pix2tex/model/settings/config.yaml。
现在开始实际训练：

python -m pix2tex.train --config path_to_config_file

如果您想使用自己的数据，可能需要创建自己的分词器：

python -m pix2tex.dataset.dataset --equations path_to_textfile --vocab-size 8000 --out tokenizer.json

别忘了更新配置文件中分词器的路径，并将 num_tokens 设置为您词汇表的大小。

模型

该模型由一个带有 ResNet 主干的 ViT [1] 编码器和一个 Transformer [2] 解码器组成。

性能

BLEU 分数	归一化编辑距离	词元准确率
0.88	0.10	0.60

数据

我们需要成对的数据来训练网络。幸运的是，互联网上有大量的 LaTeX 代码，例如维基百科和 arXiv。我们还使用了 im2latex-100k [3] 数据集中的公式。

所有数据都可以在这里找到：链接

数据集要求

为了以多种不同的字体渲染数学公式，我们使用 XeLaTeX 生成 PDF 文件，然后再将其转换为 PNG 格式。在最后一步中，我们需要借助一些第三方工具：

XeLaTeX
ImageMagick 结合 Ghostscript（用于将 PDF 转换为 PNG）
Node.js 运行 KaTeX（用于标准化 LaTeX 代码）
Python 3.7 及以上版本与依赖库（在 setup.py 中已指定）

字体

Latin Modern Math、GFSNeohellenicMath.otf、Asana Math、XITS Math、Cambria Math

待办事项

增加更多评估指标
创建图形用户界面
添加束搜索
支持手写公式（已部分完成，详见训练 Colab 笔记本）
减小模型规模（知识蒸馏）
寻找最优超参数
调整模型结构
修复数据抓取并抓取更多数据
对模型进行追踪（#2）

贡献

欢迎任何形式的贡献。

致谢

代码取自并修改自 lucidrains、rwightman、im2markup、arxiv_leaks、pkra: Mathjax 以及 harupy: 截图工具。

参考文献

[1] 一张图片胜过 16×16 个词

[2] 注意力就是一切

[3] 基于粗到精注意力机制的图像转标记语言生成

LaTeX-OCR (pix2tex) 快速上手指南

LaTeX-OCR 是一个基于深度学习的工具，能够将数学公式图片转换为对应的 LaTeX 代码。

环境准备

操作系统：Linux, macOS, Windows
Python 版本：3.7 或更高
核心依赖：PyTorch
- 请根据官方指引安装适合你环境的 PyTorch：https://pytorch.org/get-started/locally/
- 国内加速建议：安装 PyTorch 时推荐使用清华或中科大镜像源，例如：
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或使用国内镜像
pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
```

安装步骤

使用 pip 安装 pix2tex 包（包含图形界面支持）：

pip install "pix2tex[gui]"

提示：首次运行时，模型检查点文件会自动下载。如果下载缓慢，可能需要配置网络代理或寻找手动下载方式放入缓存目录。

基本使用

安装完成后，主要有以下三种使用方式：

1. 命令行工具 (CLI)

直接在终端调用 pix2tex，支持从磁盘读取图片或读取剪贴板中的图片：

pix2tex

2. 图形界面 (GUI) - 推荐

调用 latexocr 启动图形界面。你可以截取屏幕上的公式，工具会自动识别并将 LaTeX 代码渲染预览并复制到剪贴板。

latexocr

Linux 用户注意：默认优先使用 gnome-screenshot。如果你使用的是 Wayland (wlroots) 或 KDE Plasma，可能需要设置环境变量指定截图工具：
```
# 对于 wlroots (如 Sway)
export SCREENSHOT_TOOL=grim

# 对于 KDE Plasma
export SCREENSHOT_TOOL=spectacle

# 然后启动
latexocr
```
功能：如果模型对识别结果不确定，可以点击 "Retry" 重新生成。可以通过调整 temperature 参数控制输出的随机性。

3. Python 代码调用

在 Python 脚本中直接集成该功能：

from PIL import Image
from pix2tex.cli import LatexOCR

# 加载图片
img = Image.open('path/to/image.png')

# 初始化模型
model = LatexOCR()

# 获取 LaTeX 代码
print(model(img))

使用技巧：该模型在较低分辨率的图片上表现最佳。工具内置了预处理步骤来自动调整图片分辨率，但在截图时请避免过度放大公式，保持原始清晰度和适当比例可获得更准确的结果。请务必仔细核对生成的 LaTeX 代码。

版本历史

0.0.312023/04/13

0.0.292022/09/25

0.0.262022/05/20

0.0.242022/05/03

0.0.202022/04/27

0.0.42022/04/13

v0.0.12021/10/28

常见问题

在 Windows 上运行 latexocr 时遇到 'PermissionError: [Errno 13] Permission denied' 错误怎么办？

如何理解项目的代码架构？模型是编码器 - 解码器结构吗？KaTeX 文件的作用是什么？

模型能否同时识别图片中的多个公式，或者直接将整个 PDF 转换为 LaTeX？

重新训练模型后效果不佳，可能的原因是什么？

项目是否提供带有 API Key 认证的远程 API 接口？

改变输入图像的宽高比（Aspect Ratio）能获得更好的识别结果吗？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架