[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-LinXueyuanStdio--LaTeX_OCR_PRO":3,"tool-LinXueyuanStdio--LaTeX_OCR_PRO":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":102,"forks":103,"last_commit_at":104,"license":105,"difficulty_score":106,"env_os":107,"env_gpu":108,"env_ram":109,"env_deps":110,"category_tags":119,"github_topics":120,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":128,"updated_at":129,"faqs":130,"releases":170},6050,"LinXueyuanStdio\u002FLaTeX_OCR_PRO","LaTeX_OCR_PRO",":art: 数学公式识别增强版：中英文手写印刷公式、支持初级符号推导（数据结构基于 LaTeX 抽象语法树）Math Formula OCR Pro, supports handwrite, Chinese-mixed formulas and simple symbol reasoning (based on LaTeX AST). ","LaTeX_OCR_PRO 是一款专注于数学公式识别的开源增强工具，旨在将包含中文、手写体或印刷体的复杂数学公式图片，精准转换为可编辑的 LaTeX 代码。它有效解决了传统 OCR 工具在处理混合语言公式、手写笔迹以及复杂符号推导时识别率低、格式混乱的痛点，让纸质笔记或截图中的数学内容能轻松数字化。\n\n这款工具特别适合需要频繁处理数学文献的研究人员、教师、学生，以及从事教育科技开发的工程师使用。无论是整理手写草稿还是批量转换教材插图，它都能显著提升工作效率。\n\n在技术层面，LaTeX_OCR_PRO 基于深度学习架构，采用 Seq2Seq 模型结合注意力机制（Attention）和束搜索（Beam Search）算法。其核心亮点在于构建了基于 LaTeX 抽象语法树（AST）的数据结构，这不仅提升了对长公式和嵌套结构的理解能力，还支持初级符号推导，确保了输出代码的逻辑准确性与语法规范性。对于希望复现模型或自定义数据集的开发者，项目也提供了完整的训练、评估及部署指南。","# LaTeX_OCR_PRO\n\n数学公式识别，增强：中文公式、手写公式\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_86e9a16a0bf2.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_93537c218c2a.png)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_e8c00c070443.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_30285a3dc24e.png)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_a67fea756d36.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_ba3bf60e8cff.png)\n\nSeq2Seq + Attention + Beam Search。结构如下：\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_d8a37127e056.jpg)\n\n* [1. 搭建环境](#1-搭建环境)\n* [2. 开始训练](#2-开始训练)\n* [3. 可视化](#3-可视化)\n* [4. 部署](#4-部署)\n* [5. 评价](#5-评价)\n* [6. 更多细节](#6-更多细节)\n    * [模型实现细节](.\u002Fdoc\u002FHow-it-work.md)\n    * [解决方案](.\u002Fdoc\u002FSolution.md)\n* [7. 致谢](#7-致谢)\n* [8. 相关项目](#8-相关项目)\n* [9. 引用](#9-引用)\n\n## 1. 搭建环境\n\n1. python3.5 + tensorflow1.12.2\n2. `[可选]` latex (latex 转 pdf)\n3. `[可选]` ghostscript (图片处理)\n4. `[可选]` magick (pdf 转 png)\n\n### 如果你想直接训练，不想自己构建数据集：\n\n1. `[可选]` 新开一个虚拟环境\n   ```shell\n   virtualenv env35 --python=python3.5\n   source env35\u002Fbin\u002Factivate\n   ```\n2. 安装依赖\n   ```shell\n   pip install -r requirements.txt     \u002F\u002F cpu 版\n   pip install -r requirements-gpu.txt \u002F\u002F gpu 版\n   ```\n3. 下载数据集\n   ```shell\n   git submodule init\n   git submodule update\n   ```\n   > 如果 git 速度太慢，您也可以手动下载数据集，放到 data 目录下。数据集仓库在 https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FData-for-LaTeX_OCR\n   > 数据仓库同时托管到 [huggingface (linxy\u002FLaTeX_OCR)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinxy\u002FLaTeX_OCR)，欢迎使用！\n\n### 如果你想自己构建数据集，然后再训练：\n\n\u003Cdetails>\n  \u003Csummary>Linux\u003C\u002Fsummary>\n\n一键安装\n```shell\nmake install-linux\n```\n或\n1. 安装本项目依赖\n```shell\nvirtualenv env35 --python=python3.5\nsource env35\u002Fbin\u002Factivate\npip install -r requirements.txt\n```\n2. 安装 latex (latex 转 pdf)\n```shell\nsudo apt-get install texlive-latex-base\nsudo apt-get install texlive-latex-extra\n```\n3. 安装 ghostscript\n```shell\nsudo apt-get update\nsudo apt-get install ghostscript\nsudo apt-get install libgs-dev\n```\n4. 安装[magick](https:\u002F\u002Fwww.imagemagick.org\u002Fscript\u002Finstall-source.php) (pdf 转 png)\n```shell\nwget http:\u002F\u002Fwww.imagemagick.org\u002Fdownload\u002FImageMagick.tar.gz\ntar -xvf ImageMagick.tar.gz\ncd ImageMagick-7.*; \\\n.\u002Fconfigure --with-gslib=yes; \\\nmake; \\\nsudo make install; \\\nsudo ldconfig \u002Fusr\u002Flocal\u002Flib\nrm ImageMagick.tar.gz\nrm -r ImageMagick-7.*\n```\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>Mac\u003C\u002Fsummary>\n\n一键安装\n\n```shell\nmake install-mac\n```\n\n或\n1. 安装本项目依赖\n```shell\nsudo pip install -r requirements.txt\n```\n2. LaTeX\n\n我们需要 pdflatex，可以傻瓜式一键安装：[http:\u002F\u002Fwww.tug.org\u002Fmactex\u002Fmactex-download.html](http:\u002F\u002Fwww.tug.org\u002Fmactex\u002Fmactex-download.html)\n\n3. 安装[magick](https:\u002F\u002Fwww.imagemagick.org\u002Fscript\u002Finstall-source.php) (pdf 转 png)\n\n```shell\nwget http:\u002F\u002Fwww.imagemagick.org\u002Fdownload\u002FImageMagick.tar.gz\ntar -xvf ImageMagick.tar.gz\ncd ImageMagick-7.*; \\\n.\u002Fconfigure --with-gslib=yes; \\\nmake;\\\nsudo make install; \\\nrm ImageMagick.tar.gz\nrm -r ImageMagick-7.*\n```\n\n\u003C\u002Fdetails>\n\n## 2. 开始训练\n\n\n\u003Cdetails>\n  \u003Csummary>生成小数据集、训练、评价\u003C\u002Fsummary>\n\n提供了样本量为 100 的小数据集，方便测试。只需 2 分钟就可以根据 `.\u002Fdata\u002Fsmall.formulas\u002F` 下的公式生成用于训练的图片。\n\n> 注意：样本量很小，是无法有效训练模型的。这个小数据集仅用于确认代码有没有 bug。如果用于预测，那结果极差，因为数据不够。\n\n一步训练\n\n```\nmake small\n```\n或\n\n1. 生成数据集\n\n   用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 __只用运行一次__\n\n    ```shell\n    # 默认\n    python build.py\n    # 或者\n    python build.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json\n    ```\n\n2. 训练\n    ```\n    # 默认\n    python train.py\n    # 或者\n    python train.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json --training=configs\u002Ftraining_small.json --model=configs\u002Fmodel.json --output=results\u002Fsmall\u002F\n    ```\n\n3. 评价预测的公式\n    ```\n    # 默认\n    python evaluate_txt.py\n    # 或者\n    python evaluate_txt.py --results=results\u002Fsmall\u002F\n    ```\n\n4. 评价数学公式图片\n\n    ```\n    # 默认\n    python evaluate_img.py\n    # 或者\n    python evaluate_img.py --results=results\u002Fsmall\u002F\n    ```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>生成完整数据集、训练、评价\u003C\u002Fsummary>\n\n根据公式生成 70,000+ 数学公式图片需要 `2`-`3` 个小时\n\n一步训练\n\n```\nmake full\n```\n或\n\n1. 生成数据集\n\n   用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 __只用运行一次__\n    ```\n    python build.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json\n    ```\n\n2. 训练\n    ```\n    python train.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json --training=configs\u002Ftraining.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n    ```\n\n3. 评价预测的公式\n    ```\n    python evaluate_txt.py --results=results\u002Ffull\u002F\n    ```\n\n4. 评价数学公式图片\n    ```\n    python evaluate_img.py --results=results\u002Ffull\u002F\n    ```\n\n\u003C\u002Fdetails>\n\n## 3. 可视化\n\n\u003Cdetails>\n  \u003Csummary>可视化训练过程\u003C\u002Fsummary>\n\n用 tensorboard 可视化训练过程\n\n小数据集\n\n```\ncd results\u002Fsmall\ntensorboard --logdir .\u002F\n```\n\n完整数据集\n\n```\ncd results\u002Ffull\ntensorboard --logdir .\u002F\n```\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>可视化预测过程\u003C\u002Fsummary>\n\n打开 `visualize_attention.ipynb`，一步步观察模型是如何预测 LaTeX 公式的。\n\n或者运行\n\n```shell\n# 默认\npython visualize_attention.py\n# 或者\npython visualize_attention.py --image=data\u002Fimages_test\u002F6.png --vocab=configs\u002Fvocab.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n```\n\n可在 `--output` 下生成预测过程的注意力图。\n\n\u003C\u002Fdetails>\n\n## 4. 部署\n\n\u003Cdetails>\n  \u003Csummary>部署为 Django 应用\u003C\u002Fsummary>\n\n1. 安装部署需要的环境\n   ```bash\n   pip install django\n   ```\n2. 开启服务\n   ```bash\n   python manage.py runserver 0.0.0.0:8010\n   ```\n3. 开启图片服务\n   ```bash\n   cd data\u002Fimages_train\n   python -m SimpleHTTPServer 8020\n   ```\n4. 使用方法\n   在输入框里依次输入 `0.png`, `1.png` 等等，即可看到结果\n\n\u003C\u002Fdetails>\n\n## 5. 评价\n\n|      指标       | 训练分数 | 测试分数 |\n| :-------------: | :------: | :------: |\n|   perplexity    |   1.12   |   1.13   |\n|  EditDistance   |  94.16   |  93.36   |\n|     BLEU-4      |  91.03   |  90.47   |\n| ExactMatchScore |  49.30   |  46.22   |\n\nperplexity 是越接近1越好，其余3个指标是越大越好。\n\n其中 EditDistance 和 BLEU-4 已达到业内先进水平\n\n将 perplexity 训练到 1.03 左右，ExactMatchScore 还可以再升，应该可以到 70 以上。\n\n机器不太好，训练太费时间了。\n\n## 6. 更多细节\n\n1. [模型实现细节](.\u002Fdoc\u002FHow-it-work.md)\n\n   包括数据获取、数据处理、模型架构、训练细节\n\n2. [解决方案](.\u002Fdoc\u002FSolution.md)\n\n   包括 “如何可视化 Attention 层”、“在 win10 用 GPU 加速训练” 等等\n\n## 7. 致谢\n\n十分感谢 Harvard 和 Guillaume Genthial 、Kelvin Xu 等人提供巨人的肩膀。\n\n论文：\n1. [Show, Attend and Tell(Kelvin Xu...)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1502.03044)\n2. [Harvard's paper and dataset](http:\u002F\u002Flstm.seas.harvard.edu\u002Flatex\u002F)\n3. [Seq2Seq for LaTeX generation](https:\u002F\u002Fguillaumegenthial.github.io\u002Fimage-to-latex.html).\n\n## 8. 相关项目\n\n[LaTeX_OCR 的 PyTorch 版: https:\u002F\u002Fgithub.com\u002Fqs956\u002FLatex_OCR_Pytorch](https:\u002F\u002Fgithub.com\u002Fqs956\u002FLatex_OCR_Pytorch) by [@qs956](https:\u002F\u002Fgithub.com\u002Fqs956)\n\n## 9. 引用\n\nBibTeX\n\n```\n@misc{lin2024latex_ocr_pro,\n  title={LaTeX_OCR_PRO},\n  author={Xueyuan Lin},\n  year={2024},\n  publisher={GitHub},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO}},\n}\n```","# LaTeX_OCR_PRO\n\n数学公式识别，增强：中文公式、手写公式\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_86e9a16a0bf2.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_93537c218c2a.png)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_e8c00c070443.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_30285a3dc24e.png)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_a67fea756d36.gif)\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_ba3bf60e8cff.png)\n\nSeq2Seq + Attention + Beam Search。结构如下：\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_readme_d8a37127e056.jpg)\n\n* [1. 搭建环境](#1-搭建环境)\n* [2. 开始训练](#2-开始训练)\n* [3. 可视化](#3-可视化)\n* [4. 部署](#4-部署)\n* [5. 评价](#5-评价)\n* [6. 更多细节](#6-更多细节)\n    * [模型实现细节](.\u002Fdoc\u002FHow-it-work.md)\n    * [解决方案](.\u002Fdoc\u002FSolution.md)\n* [7. 致谢](#7-致谢)\n* [8. 相关项目](#8-相关项目)\n* [9. 引用](#9-引用)\n\n## 1. 搭建环境\n\n1. python3.5 + tensorflow1.12.2\n2. `[可选]` latex (latex 转 pdf)\n3. `[可选]` ghostscript (图片处理)\n4. `[可选]` magick (pdf 转 png)\n\n### 如果你想直接训练，不想自己构建数据集：\n\n1. `[可选]` 新开一个虚拟环境\n   ```shell\n   virtualenv env35 --python=python3.5\n   source env35\u002Fbin\u002Factivate\n   ```\n2. 安装依赖\n   ```shell\n   pip install -r requirements.txt     \u002F\u002F cpu 版\n   pip install -r requirements-gpu.txt \u002F\u002F gpu 版\n   ```\n3. 下载数据集\n   ```shell\n   git submodule init\n   git submodule update\n   ```\n   > 如果 git 速度太慢，您也可以手动下载数据集，放到 data 目录下。数据集仓库在 https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FData-for-LaTeX_OCR\n   > 数据仓库同时托管到 [huggingface (linxy\u002FLaTeX_OCR)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinxy\u002FLaTeX_OCR)，欢迎使用！\n\n### 如果你想自己构建数据集，然后再训练：\n\n\u003Cdetails>\n  \u003Csummary>Linux\u003C\u002Fsummary>\n\n一键安装\n```shell\nmake install-linux\n```\n或\n1. 安装本项目依赖\n```shell\nvirtualenv env35 --python=python3.5\nsource env35\u002Fbin\u002Factivate\npip install -r requirements.txt\n```\n2. 安装 latex (latex 转 pdf)\n```shell\nsudo apt-get install texlive-latex-base\nsudo apt-get install texlive-latex-extra\n```\n3. 安装 ghostscript\n```shell\nsudo apt-get update\nsudo apt-get install ghostscript\nsudo apt-get install libgs-dev\n```\n4. 安装[magick](https:\u002F\u002Fwww.imagemagick.org\u002Fscript\u002Finstall-source.php) (pdf 转 png)\n```shell\nwget http:\u002F\u002Fwww.imagemagick.org\u002Fdownload\u002FImageMagick.tar.gz\ntar -xvf ImageMagick.tar.gz\ncd ImageMagick-7.*; \\\n.\u002Fconfigure --with-gslib=yes; \\\nmake; \\\nsudo make install; \\\nsudo ldconfig \u002Fusr\u002Flocal\u002Flib\nrm ImageMagick.tar.gz\nrm -r ImageMagick-7.*\n```\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>Mac\u003C\u002Fsummary>\n\n一键安装\n\n```shell\nmake install-mac\n```\n\n或\n1. 安装本项目依赖\n```shell\nsudo pip install -r requirements.txt\n```\n2. LaTeX\n\n我们需要 pdflatex，可以傻瓜式一键安装：[http:\u002F\u002Fwww.tug.org\u002Fmactex\u002Fmactex-download.html](http:\u002F\u002Fwww.tug.org\u002Fmactex\u002Fmactex-download.html)\n\n3. 安装[magick](https:\u002F\u002Fwww.imagemagick.org\u002Fscript\u002Finstall-source.php) (pdf 转 png)\n\n```shell\nwget http:\u002F\u002Fwww.imagemagick.org\u002Fdownload\u002FImageMagick.tar.gz\ntar -xvf ImageMagick.tar.gz\ncd ImageMagick-7.*; \\\n.\u002Fconfigure --with-gslib=yes; \\\nmake;\\\nsudo make install; \\\nrm ImageMagick.tar.gz\nrm -r ImageMagick-7.*\n```\n\n\u003C\u002Fdetails>\n\n## 2. 开始训练\n\n\n\u003Cdetails>\n  \u003Csummary>生成小数据集、训练、评价\u003C\u002Fsummary>\n\n提供了样本量为 100 的小数据集，方便测试。只需 2 分钟就可以根据 `.\u002Fdata\u002Fsmall.formulas\u002F` 下的公式生成用于训练的图片。\n\n> 注意：样本量很小，是无法有效训练模型的。这个小数据集仅用于确认代码有没有 bug。如果用于预测，那结果极差，因为数据不够。\n\n一步训练\n\n```\nmake small\n```\n或\n\n1. 生成数据集\n\n   用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 __只用运行一次__\n\n    ```shell\n    # 默认\n    python build.py\n    # 或者\n    python build.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json\n    ```\n\n2. 训练\n    ```\n    # 默认\n    python train.py\n    # 或者\n    python train.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json --training=configs\u002Ftraining_small.json --model=configs\u002Fmodel.json --output=results\u002Fsmall\u002F\n    ```\n\n3. 评价预测的公式\n    ```\n    # 默认\n    python evaluate_txt.py\n    # 或者\n    python evaluate_txt.py --results=results\u002Fsmall\u002F\n    ```\n\n4. 评价数学公式图片\n\n    ```\n    # 默认\n    python evaluate_img.py\n    # 或者\n    python evaluate_img.py --results=results\u002Fsmall\u002F\n    ```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>生成完整数据集、训练、评价\u003C\u002Fsummary>\n\n根据公式生成 70,000+ 数学公式图片需要 `2`-`3` 个小时\n\n一步训练\n\n```\nmake full\n```\n或\n\n1. 生成数据集\n\n   用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 __只用运行一次__\n    ```\n    python build.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json\n    ```\n\n2. 训练\n    ```\n    python train.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json --training=configs\u002Ftraining.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n    ```\n\n3. 评价预测的公式\n    ```\n    python evaluate_txt.py --results=results\u002Ffull\u002F\n    ```\n\n4. 评价数学公式图片\n    ```\n    python evaluate_img.py --results=results\u002Ffull\u002F\n    ```\n\n\u003C\u002Fdetails>\n\n## 3. 可视化\n\n\u003Cdetails>\n  \u003Csummary>可视化训练过程\u003C\u002Fsummary>\n\n用 tensorboard 可视化训练过程\n\n小数据集\n\n```\ncd results\u002Fsmall\ntensorboard --logdir .\u002F\n```\n\n完整数据集\n\n```\ncd results\u002Ffull\ntensorboard --logdir .\u002F\n```\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>可视化预测过程\u003C\u002Fsummary>\n\n打开 `visualize_attention.ipynb`,一步步观察模型是如何预测 LaTeX 公式的。\n\n或者运行\n\n```shell\n# 默认\npython visualize_attention.py\n# 或者\npython visualize_attention.py --image=data\u002Fimages_test\u002F6.png --vocab=configs\u002Fvocab.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n```\n\n可在 `--output` 下生成预测过程的注意力图。\n\n\u003C\u002Fdetails>\n\n## 4. 部署\n\n\u003Cdetails>\n  \u003Csummary>部署为 Django 应用\u003C\u002Fsummary>\n\n1. 安装部署需要的环境\n   ```bash\n   pip install django\n   ```\n2. 开启服务\n   ```bash\n   python manage.py runserver 0.0.0.0:8010\n   ```\n3. 开启图片服务\n   ```bash\n   cd data\u002Fimages_train\n   python -m SimpleHTTPServer 8020\n   ```\n4. 使用方法\n   在输入框里依次输入 `0.png`, `1.png` 等等，即可看到结果\n\n\u003C\u002Fdetails>\n\n## 5. 评价\n\n|      指标       | 训练分数 | 测试分数 |\n| :-------------: | :------: | :------: |\n|   perplexity    |   1.12   |   1.13   |\n|  EditDistance   |  94.16   |  93.36   |\n|     BLEU-4      |  91.03   |  90.47   |\n| ExactMatchScore |  49.30   |  46.22   |\n\nperplexity 是越接近1越好，其余3个指标是越大越好。\n\n其中 EditDistance 和 BLEU-4 已达到业内先进水平\n\n将 perplexity 训练到 1.03 左右，ExactMatchScore 还可以再升，应该可以到 70 以上。\n\n机器不太好，训练太费时间了。\n\n## 6. 更多细节\n\n1. [模型实现细节](.\u002Fdoc\u002FHow-it-work.md)\n\n   包括数据获取、数据处理、模型架构、训练细节\n\n2. [解决方案](.\u002Fdoc\u002FSolution.md)\n\n   包括 “如何可视化 Attention 层”、“在 win10 用 GPU 加速训练” 等等\n\n## 7. 致谢\n\n十分感谢 Harvard 和 Guillaume Genthial 、Kelvin Xu 等人提供巨人的肩膀。\n\n论文：\n1. [Show, Attend and Tell(Kelvin Xu...)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1502.03044)\n2. [Harvard's paper and dataset](http:\u002F\u002Flstm.seas.harvard.edu\u002Flatex\u002F)\n3. [Seq2Seq for LaTeX generation](https:\u002F\u002Fguillaumegenthial.github.io\u002Fimage-to-latex.html).\n\n## 8. 相关项目\n\n[LaTeX_OCR 的 PyTorch 版: https:\u002F\u002Fgithub.com\u002Fqs956\u002FLatex_OCR_Pytorch](https:\u002F\u002Fgithub.com\u002Fqs956\u002FLatex_OCR_Pytorch) by [@qs956](https:\u002F\u002Fgithub.com\u002Fqs956)\n\n## 9. 引用\n\nBibTeX\n\n```\n@misc{lin2024latex_ocr_pro,\n  title={LaTeX_OCR_PRO},\n  author={Xueyuan Lin},\n  year={2024},\n  publisher={GitHub},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO}},\n}\n```","# LaTeX_OCR_PRO 快速上手指南\n\nLaTeX_OCR_PRO 是一个基于 Seq2Seq + Attention 机制的数学公式识别工具，支持中文公式及手写公式的 LaTeX 代码生成。\n\n## 1. 环境准备\n\n### 系统要求\n- **Python**: 3.5+\n- **深度学习框架**: TensorFlow 1.12.2\n- **操作系统**: Linux 或 macOS (Windows 用户建议参考项目文档中的解决方案)\n\n### 前置依赖 (可选但推荐)\n若需自行构建数据集（将 LaTeX 转为图片），需安装以下工具：\n- **LaTeX**: 用于生成 PDF (`texlive-latex-base`, `texlive-latex-extra`)\n- **Ghostscript**: 用于图片处理\n- **ImageMagick (magick)**: 用于 PDF 转 PNG\n\n> **提示**: 如果仅使用预训练模型或官方提供的数据集进行训练\u002F测试，可跳过上述前置依赖的安装。\n\n## 2. 安装步骤\n\n### 第一步：创建虚拟环境并安装依赖\n推荐使用 Python 3.5 虚拟环境。\n\n```shell\n# 创建虚拟环境\nvirtualenv env35 --python=python3.5\nsource env35\u002Fbin\u002Factivate\n\n# 安装依赖 (根据硬件选择)\npip install -r requirements.txt     # CPU 版本\n# 或\npip install -r requirements-gpu.txt # GPU 版本\n```\n\n### 第二步：获取数据集\n项目使用 git submodule 管理数据。\n\n**方案 A：自动下载 (推荐)**\n```shell\ngit submodule init\ngit submodule update\n```\n> **加速提示**: 若 Git 下载速度慢，可手动从 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinxy\u002FLaTeX_OCR) 或 [GitHub 数据仓库](https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FData-for-LaTeX_OCR) 下载数据，解压后放入项目根目录的 `data` 文件夹下。\n\n**方案 B：自行构建数据集 (仅限需要自定义数据时)**\n- **Linux 一键安装**: `make install-linux`\n- **Mac 一键安装**: `make install-mac`\n*(详细手动安装步骤请参阅原始 README 中的“搭建环境”章节)*\n\n## 3. 基本使用\n\n### 场景一：快速测试 (小数据集)\n适合验证环境配置是否正确，仅需 2 分钟即可生成少量样本并完成一次训练循环。**注意：此模型无法用于实际预测，仅用于调试代码。**\n\n```shell\n# 一键执行：生成小数据集 -> 训练 -> 评价\nmake small\n```\n\n或者分步执行：\n```shell\n# 1. 生成小数据集及字典\npython build.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json\n\n# 2. 开始训练\npython train.py --data=configs\u002Fdata_small.json --vocab=configs\u002Fvocab_small.json --training=configs\u002Ftraining_small.json --model=configs\u002Fmodel.json --output=results\u002Fsmall\u002F\n\n# 3. 评估结果\npython evaluate_txt.py --results=results\u002Fsmall\u002F\n```\n\n### 场景二：完整训练 (生产级)\n生成 70,000+ 公式图片约需 2-3 小时，训练出的模型具备实际应用能力。\n\n```shell\n# 一键执行全流程\nmake full\n```\n\n或者分步执行：\n```shell\n# 1. 生成完整数据集 (只需运行一次)\npython build.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json\n\n# 2. 开始训练\npython train.py --data=configs\u002Fdata.json --vocab=configs\u002Fvocab.json --training=configs\u002Ftraining.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n\n# 3. 评估结果\npython evaluate_txt.py --results=results\u002Ffull\u002F\n```\n\n### 场景三：可视化与部署\n\n**查看训练过程 (TensorBoard)**\n```shell\ncd results\u002Ffull  # 或 results\u002Fsmall\ntensorboard --logdir .\u002F\n```\n\n**可视化注意力机制 (Attention)**\n观察模型如何关注图片的不同部分来生成 LaTeX 代码：\n```shell\npython visualize_attention.py --image=data\u002Fimages_test\u002F6.png --vocab=configs\u002Fvocab.json --model=configs\u002Fmodel.json --output=results\u002Ffull\u002F\n```\n\n**启动 Web 服务 (Django)**\n```shell\n# 安装 Django\npip install django\n\n# 启动主服务\npython manage.py runserver 0.0.0.0:8010\n\n# (新终端) 启动图片服务\ncd data\u002Fimages_train\npython -m SimpleHTTPServer 8020\n```\n启动后访问本地端口，输入图片文件名（如 `0.png`）即可在线测试识别效果。","某高校科研团队在构建“中文数学题库数字化项目”时，需要将大量包含手写解题步骤和混合中文标注的旧试卷图片转化为可编辑、可检索的 LaTeX 源码。\n\n### 没有 LaTeX_OCR_PRO 时\n- **手写识别率低**：传统 OCR 工具仅能识别印刷体，面对学生潦草的手写公式几乎无法工作，导致大量珍贵解题数据无法录入。\n- **中英文混合错乱**：试卷中常见的“设 $x$ 为未知数”等中英文混排场景，常被识别为乱码或丢失中文上下文，破坏公式语义。\n- **人工校对成本极高**：研究人员需手动逐字重敲公式并重新排版，一份含复杂推导的试卷耗时数小时，严重拖慢题库建设进度。\n- **结构信息丢失**：普通识别工具只能输出纯文本，丢失了分数、上下标等关键布局信息，后续无法直接用于教学演示或自动批改。\n\n### 使用 LaTeX_OCR_PRO 后\n- **手写公式精准转化**：借助其增强的手写识别能力，即使是潦草的解题笔迹也能被准确还原为标准的 LaTeX 代码，激活了沉睡的纸质数据。\n- **完美支持中英混排**：基于抽象语法树（AST）的结构化解析，能智能区分中文描述与数学符号，确保“令 $f(x)$ 单调递增”等语句逻辑完整。\n- **自动化流程提效**：批量处理试卷图片即可直接生成可编译的 LaTeX 文件，将单份试卷的处理时间从小时级压缩至分钟级，释放人力专注于内容审核。\n- **保留推导逻辑结构**：输出的代码天然具备正确的数学层级结构，可直接渲染为高清公式图片或嵌入在线教学平台，实现即扫即用。\n\nLaTeX_OCR_PRO 通过打通手写与混合排版公式的数字化最后一公里，让老旧试卷瞬间变为可计算、可交互的现代教育资源。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLinXueyuanStdio_LaTeX_OCR_PRO_93537c21.png","LinXueyuanStdio","兮尘","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLinXueyuanStdio_4ba06a4a.jpg","Second year AI PhD in HKUST(GZ)-IDEA joint program, interested in multimodal  agents, reasoning&decision-making.\r\n\u003CGhost Creator, World Builder, Truth Founder>","HKUST(GZ) \u002F IDEA","Guangzhou \u002F Shenzhen, China",null,"linxueyuan.online","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",53.2,{"name":87,"color":88,"percentage":89},"JavaScript","#f1e05a",26.1,{"name":91,"color":92,"percentage":93},"Python","#3572A5",20.2,{"name":95,"color":96,"percentage":97},"Makefile","#427819",0.3,{"name":99,"color":100,"percentage":101},"HTML","#e34c26",0.2,1292,239,"2026-04-05T12:40:22","GPL-3.0",4,"Linux, macOS","非必需。提供 CPU 版和 GPU 版依赖文件 (requirements-gpu.txt)，但未明确指定具体的显卡型号、显存大小或 CUDA 版本要求。基于 TensorFlow 1.12.2，通常兼容较旧的 CUDA 版本 (如 9.0\u002F10.0)。","未说明",{"notes":111,"python":112,"dependencies":113},"1. 该项目基于较旧的 TensorFlow 1.12.2 和 Python 3.5，建议创建独立的虚拟环境运行。2. LaTeX、Ghostscript 和 ImageMagick 为可选依赖，仅在需要自行从 LaTeX 源码构建数据集时才必须安装；若直接使用预下载数据集则无需安装。3. 完整数据集生成约需 2-3 小时。4. Windows 用户未在官方安装指南中详细列出步骤，但文档提及有针对 Win10 GPU 加速的解决方案文档。","3.5",[114,115,116,117,118],"tensorflow==1.12.2","django (用于部署)","latex (texlive-latex-base, texlive-latex-extra, 可选)","ghostscript (可选)","imagemagick\u002Fmagick (可选)",[14,15],[121,122,123,124,125,126,127],"ocr","latex","deep-learning","seq2seq","cnn","lstm","rnn","2026-03-27T02:49:30.150509","2026-04-10T09:05:59.599264",[131,136,141,146,151,156,161,166],{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},27396,"为什么截图公式的预测结果与训练集效果差异巨大？","模型本身具有鲁棒性，理论上应能无视字体差异。出现此问题通常是因为训练数据集中字体种类不够丰富或数据量不足。解决方案包括：1. 扩大数据集，将不同字体和排版的公式图片加入训练集；2. 对输入图片进行预处理（参考 model.utils.images 下的代码），步骤包括：crop_image（裁剪空白）、pad_image（填充像素并确定大小）、downsample_image（下采样）；3. 如果单模型效果有限，可尝试针对不同字体构建多个模型进行融合，但这会增加复杂度。根本解决依赖于更强的大模型或新方法。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F15",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},27397,"训练过程中遇到显存溢出（OOM）错误怎么办？","如果遇到 OOM 错误，请尝试以下操作：1. 将 batch_size 设置为 1；2. 如果 batch_size=1 仍然 OOM，需要修改 model.json 以减少模型参数量；3. 或者修改 data.json 以减小数据集规模。注意：增大 batch_size（如设为 2）虽然能加速训练，但极易导致显存不足。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F13",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},27398,"训练很久后 ExactMatchScore (EM) 仍然很低或没有显著提升是什么原因？","这通常是因为训练时间不足。一般需要训练 6 小时左右才能看到 EM 指标显著增加。在此之前的很长一段时间内，可能只能观察到 perplexity（困惑度）在变化，而 EM 提升不明显。请确保使用正确的配置并耐心等待足够的训练时长。此外，检查词汇表（vocab）是否构建完全（如日志显示 tokens 添加数量过少可能导致效果不佳）。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F9",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},27399,"ExactMatchScore 始终为 0 或训练不收敛，如何调整学习率参数？","初始学习率太小会导致几乎不收敛。建议尝试以下学习率配置：lr_init=0.1, lr_min=1e-5, lr_warm=1e-3。即使一开始 loss 很大也是正常的。如果使用 70000 条数据训练一个 epoch，EM 应该能达到 20 左右。如果调整后发现 loss 过大，属于正常现象，需继续观察后续收敛情况。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F11",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},27400,"为什么 PyTorch 版本 (img2seq_torch) 的效果不如 TensorFlow 版本？","目前 img2seq_torch 效果不佳，因此未进行进一步测试。主要区别在于：TensorFlow 支持输入不确定长宽的图片，配合 bucket 机制非常高效；而 PyTorch 实现中必须写死图片的长宽。此外，在预测时，一个 batch 内的张量形状必须一致以便并行加速，TensorFlow 在此方面的动态图机制处理得更好。除非显式地对上下关系建模，否则网络架构（如 VGG, ResNet）本身的差异不是主要原因。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F40",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},27401,"为什么训练日志中的 perplexity (困惑度) 是负数？","这是项目代码中特定的计算方式导致的，并非错误。在该项目中，perplexity 的计算公式被定义为：perp = - np.exp(ce_words \u002F float(n_words))。由于前面加了负号，所以结果显示为负数。这不影响模型的实际训练效果和评估逻辑。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F36",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},27402,"无法复现官方展示的训练结果，可能是什么原因？","最常见的原因是数据集问题。1. 检查是否正确下载并更新了数据集（git submodule update 失败时需手动下载替代）；2. 确认使用的数据集版本是否与官方一致（如 im2latex 100k）；3. 检查数据文件是否完整（如报错 'No such file or directory' 说明图片缺失）。默认配置并不一定直接对应展示的最佳结果，可能需要根据具体数据集微调参数或确保数据预处理步骤完全一致。","https:\u002F\u002Fgithub.com\u002FLinXueyuanStdio\u002FLaTeX_OCR_PRO\u002Fissues\u002F25",{"id":167,"question_zh":168,"answer_zh":169,"source_url":160},27403,"data.json 中的 max_iter 参数是什么意思？","max_iter 限制了训练过程中使用的最大迭代次数（样本数）。例如，如果 max_iter 默认值为 5000，即使你的训练集有 10k 个样本，每个 epoch 也只会使用前 5000 个样本进行训练。如果需要利用全部数据进行训练，请将该值调大或设置为覆盖整个数据集的大小。",[]]