MixTeX-Latex-OCR

1.6k 98 较难 1 次阅读今天AGPL-3.0开发框架图像

AI 解读由 AI 自动生成，仅供参考

MixTeX-Latex-OCR 是一款专为 Windows 系统打造的多模态本地识别工具，能够精准地将图片中的 LaTeX 数学公式、复杂表格以及中英文混合文本转换为可编辑的 LaTeX 代码。它主要解决了科研论文写作、技术文档整理过程中，手动重录公式与表格耗时费力且易出错的痛点，让用户只需通过截图或复制剪贴板图像，即可快速获取高质量的源码。

这款软件特别适合科研人员、高校学生、教师以及需要频繁处理学术文档的开发者使用。无论是推导复杂的数学方程，还是还原文献中的数据表格，MixTeX-Latex-OCR 都能提供高效支持。其独特的技术亮点在于完全基于 CPU 进行推理，无需依赖昂贵的 GPU 硬件，在任何普通的 Windows 电脑上均可流畅运行。同时，它采用轻量级设计，支持纯离线本地化处理，在保障数据隐私与安全的前提下，实现了快速启动与高效识别。作为一款永久免费且无广告的工具，MixTeX-Latex-OCR 致力于为用户提供简洁、安全且专业的文档数字化体验。

使用场景

某高校研究生在整理导师提供的纸质扫描版数学讲义时，急需将其中包含复杂公式、中英文混排及数据表格的内容转换为可编辑的 LaTeX 源码以便重新排版。

没有 MixTeX-Latex-OCR 时

手动录入效率极低：面对密集的数学符号和希腊字母，只能逐个字符手工敲击代码，耗时数小时且极易出错。
表格重构困难：扫描图中的表格结构难以通过肉眼还原为 LaTeX 表格代码，往往需要反复调整列对齐和边框样式。
隐私与网络限制：担心上传包含未发表科研数据的图片到在线 OCR 网站会泄露隐私，且实验室内网环境无法访问外部服务。
硬件门槛高：现有的办公电脑仅配备集成显卡，无法运行那些依赖高性能 GPU 的本地深度学习识别模型。

使用 MixTeX-Latex-OCR 后

一键剪贴板识别：只需截图或复制图片到剪贴板，MixTeX-Latex-OCR 即可在本地瞬间输出高精度的 LaTeX 公式与混合文本代码。
自动还原表格结构：工具能智能解析图像中的表格布局，直接生成格式规范的 LaTeX 表格源码，省去了繁琐的手动调试过程。
离线保障数据安全：全程在本地 CPU 上离线运行，无需联网即可处理敏感科研资料，彻底消除了数据外泄的顾虑。
普通电脑流畅运行：得益于轻量级设计，即使在无独立显卡的旧款 Windows 笔记本上也能快速启动并高效完成推理任务。

MixTeX-Latex-OCR 让科研人员能在任何普通电脑上，安全、极速地将纸质文献转化为可编辑的高质量 LaTeX 文档，极大释放了学术生产力。

运行环境要求

操作系统

Windows

GPU

不需要 GPU，仅支持 CPU 推理

内存

未说明

依赖

notes1. 需安装 LaTeX 环境（推荐 ctexart 文档类及相关宏包）用于代码转换；2. 程序启动文件约 50MB，模型文件约 300MB；3. 源码构建需使用 PyInstaller 打包；4. 目前主要优化用于 Windows 平台，其他平台需用户自行贡献打包程序。

python3.10.14

torch

Pillow

numpy

pyinstaller

$MixTeX-Latex-OCR hero image$

快速开始

MixTeX - 多模态 LaTeX OCR，支持 CPU 推理

在线演示：https://mineai.top/

MixTeX 是由我们团队自主研发的一款创新性多模态 LaTeX 识别小程序。它能够在本地离线环境中进行高效的 CPU 推理。无论是 LaTeX 公式、表格还是混合文本，MixTeX 都能轻松识别，并且同时支持中文和英文处理。得益于强大的技术支持和优化的设计，MixTeX 无需 GPU 资源即可高效运行，适用于任何 Windows 计算机，极大地方便了用户的使用体验。 $ee94ff1cdf2949b292c6c8ea945a738$

源代码设置：

请务必在开始之前阅读用户协议。

导航到 mixtexgui 目录：cd mixtexgui
创建一个新的 Conda 环境：conda create -n mixtex python=3.10.14
激活环境：conda activate mixtex
运行 pip install -r requirements.txt
使用 PyInstaller 构建应用程序：pyinstaller mixtex_ui.spec
如果可能的话，请大家将其他平台打包好的程序提交到 GitHub 上吗？感谢您的支持！

核心功能

LaTeX 公式识别：准确识别复杂的 LaTeX 数学公式，确保数学表达式的精确性。
表格识别：高效处理并识别各类表格，生成对应的 LaTeX 表格代码。
混合文本识别：同时处理包含文字、公式和表格的文本，保证识别结果的完整性和准确性。
双语支持：无论中文还是英文，MixTeX 都能实现高精度识别，满足不同语言环境下的需求。

技术特点

本地离线推理：无需互联网连接，确保数据隐私与安全，适合高保密性的使用场景。
轻量级设计：程序启动文件仅约 50 MB，便于快速部署和启动。
高效运行：尽管模型文件大小为 300 MB，导致启动稍慢，但加载完成后运行速度极快，确保流畅的用户体验。
无需 GPU：可在 CPU 上高效运行，适用于所有 Windows 计算机，无需高端硬件支持。

使用指南

剪贴板图像识别：用户可以通过按下 Win+V 启用剪贴板功能，并将待识别的图像复制到剪贴板。
截图识别：使用 Windows 自带的截图工具或键盘上的截图键，截取屏幕内容并直接进行识别。

用户

作为一款永久免费的软件，MixTeX 承诺在保持本地离线运行的同时持续优化，不包含任何广告，致力于提供最佳的用户体验。

演示

MixTeX 在复杂文本识别方面表现出色，尤其在英文识别上表现优异，中文识别效果也相当不错。下图展示了 MixTeX 对复杂文本的识别能力：（推荐图片尺寸：400 x 500）

环境要求

MixTeX 使用 LaTeX 环境进行代码转换。我们推荐以下 LaTeX 配置：

\documentclass{ctexart}
\usepackage{amssymb}
\usepackage{amsmath}
\usepackage{stmaryrd}
\usepackage{color}

变更日志

在使用过程中，您可能会遇到以下警告信息：OCR 过程中出错：无效的图像类型。期望的是 PIL.Image.Image、numpy.ndarray、torch.Tensor、tf.Tensor 或 jax.ndarray，但得到的是 <class 'list'>。

v1.0.1 [已解决] 严重问题：软件运行时无法复制文件，且复制文件会导致警告。

~~持续出现的警告信息：OCR 过程中出错：无法推断通道维度格式。~~

v1.0.2 [已解决] 极端情况：部分用户的显示器过于先进，颜色非 RGB 格式，导致软件无法正常使用。

v1.1.2 [优化] 增加了数据收集功能，微调了 300 个真实的小样本，优化了花括号和表格的识别。预训练中加入了更多的表格和公式，包括 @github.com/ZLab511 提供的公式。

v2.1.2 [升级] 合成了手写数据集，微调了 100 份真实手稿，重新训练了模型，并部分支持手写文本与公式混合的情况。

v2.2.3 [升级] 微调了 150 份真实手稿 + 300 份，支持手写文本与公式混合以及黑底背景。

v3.2.4 [升级] 微调了 500 份真实手稿，支持选择题 OCR。在软件方面，我们支持点击图标后按 F2 键暂停识别，再次按 F2 键则继续识别。改进了多行公式和文中公式的转义处理，使其包裹在 $$ 中，并进一步完善了数据收集工作。

局限性

目前，MixTeX 仅支持对清晰印刷字体的中英文混合公式以及相对简单的表格进行识别。我们计划在未来的更新中扩展其功能：

支持手写公式和文本识别
多语言支持
复杂表格识别

需要注意的是，我们的模型训练数据主要来源于合成和生成的数据，因此数据较为粗糙、单一且有限。在后续迭代中，我们将逐步引入更多真实场景的数据来丰富训练集。这一改进将有助于提升识别精度并增强系统的鲁棒性。

我们感谢您的理解，同时也期待您的反馈与耐心，因为我们将不断努力开发和完善 MixTeX，以打造更加全面和多功能的工具。

结论

MixTeX 致力于为用户提供最便捷、高效的多模态 LaTeX 识别工具。我们期待您的使用与反馈。如果您有任何建议或在使用 MixTeX 时遇到任何问题，请随时与我们联系。让我们携手共创最佳的 LaTeX 识别工具！

$donate$

MixTeX-Latex-OCR 快速上手指南

MixTeX 是一款支持多模态（公式、表格、混合文本）的 LaTeX 光学字符识别（OCR）工具。其最大特点是完全本地离线运行，仅需 CPU 即可高效推理，无需 GPU 支持，且完美支持中英文混合识别。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Windows（官方主要支持平台）。
Python 版本：3.10.14（必须严格匹配，建议使用 Conda 管理）。
依赖管理：已安装 Conda 和 pip。
构建工具：已安装 PyInstaller（用于打包图形界面应用）。
LaTeX 环境（可选但推荐）：若需将识别结果编译为 PDF，建议安装 TeX Live 或 MiKTeX，并确保包含以下宏包：
```
\documentclass{ctexart}
\usepackage{amssymb}
\usepackage{amsmath}
\usepackage{stmaryrd}
\usepackage{color}
```

安装步骤

请按照以下步骤在本地部署 MixTeX 图形界面程序：

进入项目目录 克隆仓库后，进入 GUI 源码目录：
```
cd mixtexgui
```
创建 Conda 环境 创建一个名为 mixtex 的新环境，并指定 Python 版本：
```
conda create -n mixtex python=3.10.14
```
激活环境
```
conda activate mixtex
```
安装依赖 安装项目所需的 Python 库。 注：若下载速度慢，可配置国内镜像源（如清华源）：
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```
构建应用程序 使用 PyInstaller 将脚本打包为可执行文件：
```
pyinstaller mixtex_ui.spec
```
运行程序 构建完成后，可在生成的 dist 目录下找到可执行文件并运行。

基本使用

MixTeX 设计为轻量级桌面工具，启动后即可通过以下两种方式进行识别：

1. 剪贴板识别（推荐）

这是最快捷的使用方式：

按下 Win + V 打开剪贴板历史记录（或直接复制任意图片）。
将包含公式、表格或混合文本的图片复制到剪贴板。
MixTeX 会自动检测剪贴板内容并进行识别，结果将直接显示在界面中。

2. 截图识别

使用 Windows 自带截图工具（Win + Shift + S）或键盘上的截图键截取目标区域。
截图完成后，MixTeX 会自动捕获并识别截图内容。

操作提示

暂停/开始：点击软件图标后，按 F2 键可暂停识别，再次按 F2 恢复。
输出格式：识别结果直接转换为标准的 LaTeX 代码，可直接复制到 .tex 文件中编译。
适用场景：适用于清晰的印刷体中英文混合公式及简单表格；目前对复杂手写体的支持仍在优化中。

版本历史

MixTex-B2025/02/24

MixTeX-v3.2.42024/08/30

MixTeX-v2.2.42024/08/19

MixTeX-non-gui2024/08/13

MixTeX-v1.1.22024/08/07

常见问题

如何训练模型以识别日文、中文、韩文和英文等多种字符？

运行 GUI 时出现 ONNX 模型输入不匹配错误（如 missing past_key_values），如何解决？

在 Windows 7 上运行时报错"ImportError: DLL load failed...找不到指定的程序"怎么办？

软件是否支持 Linux 系统？

默认行为会覆盖剪贴板中的图片，导致无法复制其他内容，如何修改？

为什么某些希腊字母（如\omega, \varphi）会被错误识别？

深色模式（夜间模式）下公式识别准确率较低，有解决方案吗？

能否自定义公式标识符（如将识别结果包裹在$...$还是$...$中）？

大写英文字母正体、字母 O 与数字 0 区分度不高，如何改善？

是否有 macOS 版本的安装包？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架