[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-lukas-blecher--LaTeX-OCR":3,"tool-lukas-blecher--LaTeX-OCR":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":79,"owner_url":83,"languages":84,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":23,"env_os":109,"env_gpu":110,"env_ram":111,"env_deps":112,"category_tags":125,"github_topics":126,"view_count":144,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":145,"updated_at":146,"faqs":147,"releases":178},2585,"lukas-blecher\u002FLaTeX-OCR","LaTeX-OCR","pix2tex: Using a ViT to convert images of equations into LaTeX code.","LaTeX-OCR（项目代号 pix2tex）是一款基于深度学习的智能工具，旨在将数学公式的图片自动转换为可编辑的 LaTeX 代码。它主要解决了科研论文写作、笔记整理或教材编写中，面对图片或 PDF 里的复杂公式无法直接复制编辑的痛点，让用户无需手动逐字敲击繁琐的数学符号。\n\n这款工具非常适合科研人员、学生、教师以及需要频繁处理数学文档的开发者使用。无论是从屏幕截图、剪贴板还是本地文件中提取公式，LaTeX-OCR 都能快速响应。其核心技术亮点在于采用了视觉 Transformer（ViT）架构，相比传统 OCR 技术，它能更精准地理解复杂的数学结构和布局，即使是手写体或排版紧凑的公式也能获得较高的识别准确率。\n\n在使用体验上，LaTeX-OCR 提供了多样化的选择：既支持命令行批量处理，也配备了友好的图形界面（GUI），用户只需截图即可实时预览渲染效果并一键复制代码；此外，它还提供了 API 接口和 Docker 部署方案，方便开发者将其集成到自己的工作流或应用中。作为一个开源项目，LaTeX-OCR 让数学公式的数字化变得简单高效，是学术工作者提升效率的得力助手。","# pix2tex - LaTeX OCR\n\n[![GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Flukas-blecher\u002FLaTeX-OCR)](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR) [![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_13d664e1afd7.png)](https:\u002F\u002Fpix2tex.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest) [![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fpix2tex?logo=pypi)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fpix2tex) [![PyPI - Downloads](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Fpix2tex?logo=pypi)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fpix2tex) [![GitHub all releases](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Flukas-blecher\u002FLaTeX-OCR\u002Ftotal?color=blue&logo=github)](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Freleases) [![Docker Pulls](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Flukasblecher\u002Fpix2tex?logo=docker)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Flukas-blecher\u002FLaTeX-OCR\u002Fblob\u002Fmain\u002Fnotebooks\u002FLaTeX_OCR_test.ipynb) [![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flukbl\u002FLaTeX-OCR)\n\nThe goal of this project is to create a learning based system that takes an image of a math formula and returns corresponding LaTeX code. \n\n![header](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_422997f26197.png)\n\n## Using the model\nTo run the model you need Python 3.7+\n\nIf you don't have PyTorch installed. Follow their instructions [here](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F).\n\nInstall the package `pix2tex`: \n\n```\npip install \"pix2tex[gui]\"\n```\n\nModel checkpoints will be downloaded automatically.\n\nThere are three ways to get a prediction from an image. \n1. You can use the command line tool by calling `pix2tex`. Here you can parse already existing images from the disk and images in your clipboard.\n\n2. Thanks to [@katie-lim](https:\u002F\u002Fgithub.com\u002Fkatie-lim), you can use a nice user interface as a quick way to get the model prediction. Just call the GUI with `latexocr`. From here you can take a screenshot and the predicted latex code is rendered using [MathJax](https:\u002F\u002Fwww.mathjax.org\u002F) and copied to your clipboard.\n\n    Under linux, it is possible to use the GUI with `gnome-screenshot` (which comes with multiple monitor support). For other Wayland compositers, `grim` and `slurp` will be used for wlroots-based Wayland compositers and `spectacle` for KDE Plasma. Note that `gnome-screenshot` is not compatible with wlroots or Qt based compositers. Since `gnome-screenshot` will be preferred when available, you may have to set the environment variable `SCREENSHOT_TOOL` to `grim` or `spectacle` in these cases (other available values are `gnome-screenshot` and `pil`).\n\n    ![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_8d5cbfa4106f.gif)\n\n    If the model is unsure about the what's in the image it might output a different prediction every time you click \"Retry\". With the `temperature` parameter you can control this behavior (low temperature will produce the same result).\n\n3. You can use an API. This has additional dependencies. Install via `pip install -U \"pix2tex[api]\"` and run\n    ```bash\n    python -m pix2tex.api.run\n    ```\n    to start a [Streamlit](https:\u002F\u002Fstreamlit.io\u002F) demo that connects to the API at port 8502. There is also a docker image  available for the API: https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex [![Docker Image Size (latest by date)](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fimage-size\u002Flukasblecher\u002Fpix2tex?logo=docker)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex)\n\n    ```\n    docker pull lukasblecher\u002Fpix2tex:api\n    docker run --rm -p 8502:8502 lukasblecher\u002Fpix2tex:api\n    ```\n    To also run the streamlit demo run\n    ```\n    docker run --rm -it -p 8501:8501 --entrypoint python lukasblecher\u002Fpix2tex:api pix2tex\u002Fapi\u002Frun.py\n    ```\n    and navigate to http:\u002F\u002Flocalhost:8501\u002F\n\n4. Use from within Python\n    ```python\n    from PIL import Image\n    from pix2tex.cli import LatexOCR\n    \n    img = Image.open('path\u002Fto\u002Fimage.png')\n    model = LatexOCR()\n    print(model(img))\n    ```\n\nThe model works best with images of smaller resolution. That's why I added a preprocessing step where another neural network predicts the optimal resolution of the input image. This model will automatically resize the custom image to best resemble the training data and thus increase performance of images found in the wild. Still it's not perfect and might not be able to handle huge images optimally, so don't zoom in all the way before taking a picture. \n\nAlways double check the result carefully. You can try to redo the prediction with an other resolution if the answer was wrong.\n\n**Want to use the package?**\n\nI'm trying to compile a documentation right now. \n\nVisit here: https:\u002F\u002Fpix2tex.readthedocs.io\u002F \n\n\n## Training the model [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Flukas-blecher\u002FLaTeX-OCR\u002Fblob\u002Fmain\u002Fnotebooks\u002FLaTeX_OCR_training.ipynb)\n\nInstall a couple of dependencies `pip install \"pix2tex[train]\"`.\n1. First we need to combine the images with their ground truth labels. I wrote a dataset class (which needs further improving) that saves the relative paths to the images with the LaTeX code they were rendered with. To generate the dataset pickle file run \n\n```\npython -m pix2tex.dataset.dataset --equations path_to_textfile --images path_to_images --out dataset.pkl\n```\nTo use your own tokenizer pass it via `--tokenizer` (See below).\n\nYou can find my generated training data on the [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F13CA4vAmOmD_I_dSbvLp-Lf0s6KiaNfuO) as well (formulae.zip - images, math.txt - labels). Repeat the step for the validation and test data. All use the same label text file.\n\n2. Edit the `data` (and `valdata`) entry in the config file to the newly generated `.pkl` file. Change other hyperparameters if you want to. See `pix2tex\u002Fmodel\u002Fsettings\u002Fconfig.yaml` for a template.\n3. Now for the actual training run \n```\npython -m pix2tex.train --config path_to_config_file\n```\n\nIf you want to use your own data you might be interested in creating your own tokenizer with\n```\npython -m pix2tex.dataset.dataset --equations path_to_textfile --vocab-size 8000 --out tokenizer.json\n```\nDon't forget to update the path to the tokenizer in the config file and set `num_tokens` to your vocabulary size.\n\n## Model\nThe model consist of a ViT [[1](#References)] encoder with a ResNet backbone and a Transformer [[2](#References)] decoder.\n\n### Performance\n| BLEU score | normed edit distance | token accuracy |\n| ---------- | -------------------- | -------------- |\n| 0.88       | 0.10                 | 0.60           |\n\n## Data\nWe need paired data for the network to learn. Luckily there is a lot of LaTeX code on the internet, e.g. [wikipedia](https:\u002F\u002Fwww.wikipedia.org), [arXiv](https:\u002F\u002Fwww.arxiv.org). We also use the formulae from the [im2latex-100k](https:\u002F\u002Fzenodo.org\u002Frecord\u002F56198#.V2px0jXT6eA) [[3](#References)] dataset.\nAll of it can be found [here](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F13CA4vAmOmD_I_dSbvLp-Lf0s6KiaNfuO)\n\n### Dataset Requirements\nIn order to render the math in many different fonts we use  XeLaTeX, generate a PDF and finally convert it to a PNG. For the last step we need to use some third party tools: \n* [XeLaTeX](https:\u002F\u002Fwww.ctan.org\u002Fpkg\u002Fxetex)\n* [ImageMagick](https:\u002F\u002Fimagemagick.org\u002F) with [Ghostscript](https:\u002F\u002Fwww.ghostscript.com\u002Findex.html). (for converting pdf to png)\n* [Node.js](https:\u002F\u002Fnodejs.org\u002F) to run [KaTeX](https:\u002F\u002Fgithub.com\u002FKaTeX\u002FKaTeX) (for normalizing Latex code)\n* Python 3.7+ & dependencies (specified in `setup.py`)\n\n### Fonts\nLatin Modern Math, GFSNeohellenicMath.otf, Asana Math, XITS Math, Cambria Math\n\n\n## TODO\n- [x] add more evaluation metrics\n- [x] create a GUI\n- [ ] add beam search\n- [ ] support handwritten formulae (kinda done, see training colab notebook)\n- [ ] reduce model size (distillation)\n- [ ] find optimal hyperparameters\n- [ ] tweak model structure\n- [ ] fix data scraping and scrape more data\n- [ ] trace the model ([#2](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F2))\n\n\n## Contribution\nContributions of any kind are welcome.\n\n## Acknowledgment\nCode taken and modified from [lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains), [rwightman](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models), [im2markup](https:\u002F\u002Fgithub.com\u002Fharvardnlp\u002Fim2markup), [arxiv_leaks](https:\u002F\u002Fgithub.com\u002Fsoskek\u002Farxiv_leaks), [pkra: Mathjax](https:\u002F\u002Fgithub.com\u002Fpkra\u002FMathJax-single-file), [harupy: snipping tool](https:\u002F\u002Fgithub.com\u002Fharupy\u002Fsnipping-tool)\n\n## References\n[1] [An Image is Worth 16x16 Words](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n\n[2] [Attention Is All You Need](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03762)\n\n[3] [Image-to-Markup Generation with Coarse-to-Fine Attention](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.04938v2)\n","# pix2tex - LaTeX OCR\n\n[![GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Flukas-blecher\u002FLaTeX-OCR)](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR) [![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_13d664e1afd7.png)](https:\u002F\u002Fpix2tex.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest) [![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fpix2tex?logo=pypi)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fpix2tex) [![PyPI - Downloads](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Fpix2tex?logo=pypi)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fpix2tex) [![GitHub all releases](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Flukas-blecher\u002FLaTeX-OCR\u002Ftotal?color=blue&logo=github)](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Freleases) [![Docker Pulls](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Flukasblecher\u002Fpix2tex?logo=docker)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex) [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Flukas-blecher\u002FLaTeX-OCR\u002Fblob\u002Fmain\u002Fnotebooks\u002FLaTeX_OCR_test.ipynb) [![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flukbl\u002FLaTeX-OCR)\n\n该项目的目标是构建一个基于学习的系统，能够接收数学公式的图像并返回对应的 LaTeX 代码。\n\n![header](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_422997f26197.png)\n\n## 使用模型\n要运行该模型，您需要 Python 3.7 或更高版本。\n\n如果您尚未安装 PyTorch，请按照他们的说明进行安装：[这里](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)。\n\n安装 `pix2tex` 包：\n\n```\npip install \"pix2tex[gui]\"\n```\n\n模型检查点将自动下载。\n\n有三种方法可以从图像中获取预测结果：\n1. 您可以使用命令行工具 `pix2tex`。在这里，您可以解析磁盘上已有的图像以及剪贴板中的图像。\n   \n2. 感谢 [@katie-lim](https:\u002F\u002Fgithub.com\u002Fkatie-lim)，您可以使用一个友好的用户界面来快速获得模型预测结果。只需调用 GUI `latexocr` 即可。从这里您可以截取屏幕截图，预测的 LaTeX 代码会使用 [MathJax](https:\u002F\u002Fwww.mathjax.org\u002F) 渲染，并复制到您的剪贴板。\n\n   在 Linux 系统上，您可以使用 `gnome-screenshot`（支持多显示器）来运行 GUI。对于其他 Wayland 合成器，基于 wlroots 的将使用 `grim` 和 `slurp`，而 KDE Plasma 则使用 `spectacle`。请注意，`gnome-screenshot` 不兼容 wlroots 或基于 Qt 的合成器。由于在可用时会优先使用 `gnome-screenshot`，因此在这些情况下您可能需要将环境变量 `SCREENSHOT_TOOL` 设置为 `grim` 或 `spectacle`（其他可用值包括 `gnome-screenshot` 和 `pil`）。\n\n   ![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_readme_8d5cbfa4106f.gif)\n\n   如果模型对图像内容不确定，每次点击“重试”都可能会输出不同的预测结果。通过调整 `temperature` 参数，您可以控制这种行为（较低的温度会生成相同的结果）。\n\n3. 您还可以使用 API。这需要额外的依赖项。通过 `pip install -U \"pix2tex[api]\"` 进行安装，并运行以下命令以启动连接到端口 8502 的 [Streamlit](https:\u002F\u002Fstreamlit.io\u002F) 演示：\n    ```bash\n    python -m pix2tex.api.run\n    ```\n    此外，还有一个用于 API 的 Docker 镜像：https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex [![Docker Image Size (latest by date)](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fimage-size\u002Flukasblecher\u002Fpix2tex?logo=docker)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flukasblecher\u002Fpix2tex)\n\n    ```\n    docker pull lukasblecher\u002Fpix2tex:api\n    docker run --rm -p 8502:8502 lukasblecher\u002Fpix2tex:api\n    ```\n    若要同时运行 Streamlit 演示，请执行：\n    ```\n    docker run --rm -it -p 8501:8501 --entrypoint python lukasblecher\u002Fpix2tex:api pix2tex\u002Fapi\u002Frun.py\n    ```\n    然后访问 http:\u002F\u002Flocalhost:8501\u002F。\n\n4. 直接在 Python 中使用\n    ```python\n    from PIL import Image\n    from pix2tex.cli import LatexOCR\n    \n    img = Image.open('path\u002Fto\u002Fimage.png')\n    model = LatexOCR()\n    print(model(img))\n    ```\n\n该模型在分辨率较低的图像上表现最佳。因此，我添加了一个预处理步骤，其中另一个神经网络会预测输入图像的最佳分辨率。此模型会自动将自定义图像调整为最接近训练数据的尺寸，从而提高在实际场景中图像的性能。尽管如此，它仍不完美，可能无法很好地处理超大图像，因此请勿在拍照前将镜头拉至最大变焦。\n\n务必仔细核对结果。如果答案错误，您可以尝试使用其他分辨率重新进行预测。\n\n**想使用这个包吗？**\n\n我目前正在编写文档。\n\n请访问：https:\u002F\u002Fpix2tex.readthedocs.io\u002F\n\n## 训练模型 [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Flukas-blecher\u002FLaTeX-OCR\u002Fblob\u002Fmain\u002Fnotebooks\u002FLaTeX_OCR_training.ipynb)\n\n安装一些依赖项 `pip install \"pix2tex[train]\"`。\n1. 首先，我们需要将图像与其真实标签结合起来。我编写了一个数据集类（还需要进一步改进），它保存了图像的相对路径以及渲染它们所用的 LaTeX 代码。要生成数据集 pickle 文件，请运行：\n\n```\npython -m pix2tex.dataset.dataset --equations path_to_textfile --images path_to_images --out dataset.pkl\n```\n如果您想使用自己的分词器，可以通过 `--tokenizer` 传递（见下文）。\n\n您也可以在我的 [Google Drive](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F13CA4vAmOmD_I_dSbvLp-Lf0s6KiaNfuO) 上找到我生成的训练数据（formulae.zip - 图像，math.txt - 标签）。对验证和测试数据重复此步骤。所有数据都使用相同的标签文本文件。\n\n2. 将配置文件中的 `data`（和 `valdata`）条目修改为新生成的 `.pkl` 文件。如果您愿意，可以更改其他超参数。模板请参阅 `pix2tex\u002Fmodel\u002Fsettings\u002Fconfig.yaml`。\n3. 现在开始实际训练：\n```\npython -m pix2tex.train --config path_to_config_file\n```\n\n如果您想使用自己的数据，可能需要创建自己的分词器：\n```\npython -m pix2tex.dataset.dataset --equations path_to_textfile --vocab-size 8000 --out tokenizer.json\n```\n别忘了更新配置文件中分词器的路径，并将 `num_tokens` 设置为您词汇表的大小。\n\n## 模型\n该模型由一个带有 ResNet 主干的 ViT [[1](#References)] 编码器和一个 Transformer [[2](#References)] 解码器组成。\n\n### 性能\n| BLEU 分数 | 归一化编辑距离 | 词元准确率 |\n| ---------- | -------------------- | -------------- |\n| 0.88       | 0.10                 | 0.60           |\n\n## 数据\n我们需要成对的数据来训练网络。幸运的是，互联网上有大量的 LaTeX 代码，例如 [维基百科](https:\u002F\u002Fwww.wikipedia.org) 和 [arXiv](https:\u002F\u002Fwww.arxiv.org)。我们还使用了 [im2latex-100k](https:\u002F\u002Fzenodo.org\u002Frecord\u002F56198#.V2px0jXT6eA) [[3](#References)] 数据集中的公式。\n\n所有数据都可以在这里找到：[链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F13CA4vAmOmD_I_dSbvLp-Lf0s6KiaNfuO)\n\n### 数据集要求\n为了以多种不同的字体渲染数学公式，我们使用 XeLaTeX 生成 PDF 文件，然后再将其转换为 PNG 格式。在最后一步中，我们需要借助一些第三方工具：\n* [XeLaTeX](https:\u002F\u002Fwww.ctan.org\u002Fpkg\u002Fxetex)\n* [ImageMagick](https:\u002F\u002Fimagemagick.org\u002F) 结合 [Ghostscript](https:\u002F\u002Fwww.ghostscript.com\u002Findex.html)（用于将 PDF 转换为 PNG）\n* [Node.js](https:\u002F\u002Fnodejs.org\u002F) 运行 [KaTeX](https:\u002F\u002Fgithub.com\u002FKaTeX\u002FKaTeX)（用于标准化 LaTeX 代码）\n* Python 3.7 及以上版本与依赖库（在 `setup.py` 中已指定）\n\n### 字体\nLatin Modern Math、GFSNeohellenicMath.otf、Asana Math、XITS Math、Cambria Math\n\n## 待办事项\n- [x] 增加更多评估指标\n- [x] 创建图形用户界面\n- [ ] 添加束搜索\n- [ ] 支持手写公式（已部分完成，详见训练 Colab 笔记本）\n- [ ] 减小模型规模（知识蒸馏）\n- [ ] 寻找最优超参数\n- [ ] 调整模型结构\n- [ ] 修复数据抓取并抓取更多数据\n- [ ] 对模型进行追踪（[#2](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F2)）\n\n## 贡献\n欢迎任何形式的贡献。\n\n## 致谢\n代码取自并修改自 [lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains)、[rwightman](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models)、[im2markup](https:\u002F\u002Fgithub.com\u002Fharvardnlp\u002Fim2markup)、[arxiv_leaks](https:\u002F\u002Fgithub.com\u002Fsoskek\u002Farxiv_leaks)、[pkra: Mathjax](https:\u002F\u002Fgithub.com\u002Fpkra\u002FMathJax-single-file) 以及 [harupy: 截图工具](https:\u002F\u002Fgithub.com\u002Fharupy\u002Fsnipping-tool)。\n\n## 参考文献\n[1] [一张图片胜过 16×16 个词](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929)\n\n[2] [注意力就是一切](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03762)\n\n[3] [基于粗到精注意力机制的图像转标记语言生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.04938v2)","# LaTeX-OCR (pix2tex) 快速上手指南\n\nLaTeX-OCR 是一个基于深度学习的工具，能够将数学公式图片转换为对应的 LaTeX 代码。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS, Windows\n*   **Python 版本**：3.7 或更高\n*   **核心依赖**：PyTorch\n    *   请根据官方指引安装适合你环境的 PyTorch：[https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n    *   *国内加速建议*：安装 PyTorch 时推荐使用清华或中科大镜像源，例如：\n        ```bash\n        pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n        # 或使用国内镜像\n        pip install torch torchvision torchaudio -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n        ```\n\n## 安装步骤\n\n使用 pip 安装 `pix2tex` 包（包含图形界面支持）：\n\n```bash\npip install \"pix2tex[gui]\"\n```\n\n> **提示**：首次运行时，模型检查点文件会自动下载。如果下载缓慢，可能需要配置网络代理或寻找手动下载方式放入缓存目录。\n\n## 基本使用\n\n安装完成后，主要有以下三种使用方式：\n\n### 1. 命令行工具 (CLI)\n直接在终端调用 `pix2tex`，支持从磁盘读取图片或读取剪贴板中的图片：\n\n```bash\npix2tex\n```\n\n### 2. 图形界面 (GUI) - **推荐**\n调用 `latexocr` 启动图形界面。你可以截取屏幕上的公式，工具会自动识别并将 LaTeX 代码渲染预览并复制到剪贴板。\n\n```bash\nlatexocr\n```\n\n*   **Linux 用户注意**：默认优先使用 `gnome-screenshot`。如果你使用的是 Wayland (wlroots) 或 KDE Plasma，可能需要设置环境变量指定截图工具：\n    ```bash\n    # 对于 wlroots (如 Sway)\n    export SCREENSHOT_TOOL=grim\n    \n    # 对于 KDE Plasma\n    export SCREENSHOT_TOOL=spectacle\n    \n    # 然后启动\n    latexocr\n    ```\n*   **功能**：如果模型对识别结果不确定，可以点击 \"Retry\" 重新生成。可以通过调整 `temperature` 参数控制输出的随机性。\n\n### 3. Python 代码调用\n在 Python 脚本中直接集成该功能：\n\n```python\nfrom PIL import Image\nfrom pix2tex.cli import LatexOCR\n\n# 加载图片\nimg = Image.open('path\u002Fto\u002Fimage.png')\n\n# 初始化模型\nmodel = LatexOCR()\n\n# 获取 LaTeX 代码\nprint(model(img))\n```\n\n> **使用技巧**：该模型在较低分辨率的图片上表现最佳。工具内置了预处理步骤来自动调整图片分辨率，但在截图时请避免过度放大公式，保持原始清晰度和适当比例可获得更准确的结果。请务必仔细核对生成的 LaTeX 代码。","某高校研究生在整理导师遗留的纸质数学讲义时，急需将其中数百个复杂的微积分公式数字化，以便录入 LaTeX 文档进行二次编辑和发布。\n\n### 没有 LaTeX-OCR 时\n- **人工转录效率极低**：面对包含多重积分、矩阵运算的复杂公式，研究人员必须逐个字符手动敲击 LaTeX 代码，耗时数小时仅能完成几页内容。\n- **符号识别易出错**：肉眼难以区分相似符号（如希腊字母 $\\nu$ 与 $v$，或偏导数 $\\partial$ 与 $d$），导致后期编译报错频繁，排查困难。\n- **结构还原难度大**：多层嵌套的分式、上下标及对齐环境（align）需要极高的专注度来构建，极易出现括号不匹配或层级错乱。\n- **工作流严重中断**：频繁的“看图 - 打字 - 编译 - 纠错”循环打断了科研思路，使原本简单的资料整理变成了枯燥的机械劳动。\n\n### 使用 LaTeX-OCR 后\n- **截图即得代码**：利用内置 GUI 直接截取纸质书上的公式图片，LaTeX-OCR 能在秒级时间内输出高精度的 LaTeX 源码，效率提升数十倍。\n- **智能语义解析**：基于 ViT 模型精准识别易混符号与复杂结构，自动处理矩阵、根式及多行对齐，大幅降低人工校对成本。\n- **实时渲染验证**：工具集成 MathJax 即时预览功能，生成的公式可立即可视化对比，确保转换结果与原图一致后再复制到剪贴板。\n- **无缝衔接工作流**：支持从命令行到 Python API 的多种调用方式，可批量处理历史扫描件，让研究者专注于内容而非格式录入。\n\nLaTeX-OCR 通过将图像识别与深度学习结合，把繁琐的公式重录工作转化为瞬间的自动化流程，极大释放了科研人员的生产力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flukas-blecher_LaTeX-OCR_2dc75008.png","lukas-blecher","Lukas Blecher","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Flukas-blecher_3906977f.jpg","ML Engineer excited about math OCR",null,"Germany","luk.blecher@gmail.com","lukas_blecher","https:\u002F\u002Fgithub.com\u002Flukas-blecher",[85,89,93,97,101],{"name":86,"color":87,"percentage":88},"Python","#3572A5",96.7,{"name":90,"color":91,"percentage":92},"JavaScript","#f1e05a",1.7,{"name":94,"color":95,"percentage":96},"Jupyter Notebook","#DA5B0B",1.5,{"name":98,"color":99,"percentage":100},"Dockerfile","#384d54",0.1,{"name":102,"color":103,"percentage":104},"Shell","#89e051",0,16289,1291,"2026-04-03T05:10:03","MIT","Linux, macOS, Windows","未说明（基于 PyTorch，建议使用支持 CUDA 的 NVIDIA GPU 以加速推理，但 README 未明确强制要求或具体显存大小）","未说明",{"notes":113,"python":114,"dependencies":115},"1. GUI 截图功能在 Linux 下依赖特定工具（如 gnome-screenshot, grim, slurp 或 spectacle），需根据桌面环境设置 SCREENSHOT_TOOL 环境变量。2. 训练模型或生成数据集时，必须安装 XeLaTeX、ImageMagick（含 Ghostscript）和 Node.js（用于 KaTeX）。3. 模型包含预处理步骤以自动调整图像分辨率，但过大图像可能影响效果。4. 可通过 pip 安装不同模式：基础版、带 GUI 版（pix2tex[gui]）、带 API 版（pix2tex[api]）或训练版（pix2tex[train]）。5. 首次运行会自动下载模型检查点。","3.7+",[116,117,118,119,120,121,122,123,124],"torch","Pillow","PyYAML","streamlit","requests","XeLaTeX","ImageMagick","Ghostscript","Node.js",[13,14,26,51],[127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143],"machine-learning","transformer","im2latex","deep-learning","image2text","latex","dataset","pytorch","im2markup","ocr","latex-ocr","vit","math-ocr","vision-transformer","image-processing","python","im2text",8,"2026-03-27T02:49:30.150509","2026-04-06T08:52:40.894779",[148,153,158,163,168,173],{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},11969,"在 Windows 上运行 latexocr 时遇到 'PermissionError: [Errno 13] Permission denied' 错误怎么办？","该问题通常与 Python 版本或旧版 pix2tex 有关。解决方案有两种：\n1. 升级到最新版本：运行命令 `pip install -U pix2tex`。\n2. 如果升级无效，尝试将 Conda 的 Python 版本降级到 3.7.13，然后重新安装 pix2tex。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F126",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},11970,"如何理解项目的代码架构？模型是编码器 - 解码器结构吗？KaTeX 文件的作用是什么？","是的，该模型由编码器和解码器组成：\n1. **架构**：编码器是一个去除了最后分类层的 Vision Transformer (ViT)，解码器是一个 Transformer Decoder。\n2. **KaTeX 文件作用**：仅用于预处理 LaTeX 公式。因为许多不同的表达式可以渲染成相同的图像，这一步骤有助于模型后续更好地收敛。\n3. **学习建议**：代码主要依赖第三方包（如 timm 和 x-transformers）进行计算。建议阅读 README 底部引用的论文，或参考 'Attention is All You Need' 相关的 PyTorch 教程笔记本以加深理解。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F69",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},11971,"模型能否同时识别图片中的多个公式，或者直接将整个 PDF 转换为 LaTeX？","当前模型主要针对单张包含单个公式的图片进行优化。如果图片中包含多个公式，模型可能只能识别其中一个。\n对于将整个 PDF 转换为 LaTeX 的需求，维护者推荐查看其新项目 **Nougat** (https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fnougat)，该项目专门用于处理此类文档级转换任务。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F270",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},11972,"重新训练模型后效果不佳，可能的原因是什么？","如果直接使用默认配置仅更改数据路径进行重训但效果不好，建议检查以下几点：\n1. **数据格式**：确保输入数据格式正确（例如，如果是自定义数据，确认是否为单通道灰度图）。\n2. **分词器**：如果使用自定义数据集，需要创建对应的 `tokenizer.json` 文件并在配置中正确指向。\n3. **讨论区**：由于训练效果受超参数、数据质量等多种因素影响，建议前往项目的 GitHub Discussions 部分进行更详细的探讨，那里有更多关于调优的社区经验。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F147",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},11973,"项目是否提供带有 API Key 认证的远程 API 接口？","不提供。该项目设计初衷是作为本地自托管（local, self-hosted）的交互工具，维护者没有计划部署公共 API 或实现基于 Key 的调用功能。\n如果需要 API 功能，用户需要自行基于项目代码进行封装实现。项目中已包含一些脚本（如 `arxiv.py`）可用于从源码中提取公式，可作为二次开发的参考。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F67",{"id":174,"question_zh":175,"answer_zh":176,"source_url":177},11974,"改变输入图像的宽高比（Aspect Ratio）能获得更好的识别结果吗？","不需要手动调整宽高比。模型底层的 CNN 组件能够完美地处理不同尺寸的图像。此外，该项目基于的论文（https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11929）中已经包含了处理图像尺寸变化的机制，因此直接输入原始比例的图像即可。","https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fissues\u002F93",[179,184,189,194,199,204,209],{"id":180,"version":181,"summary_zh":182,"released_at":183},62382,"0.0.31","## 变更内容\n\n最大的变更（可能在旧环境中导致兼容性问题）是将依赖从 PyQt5 迁移到 PyQt6。这将有助于解决基于 M1 和 M2 芯片的系统上的安装问题。\n\n* 将 GUI 更新至 PyQt6（修复 M1 和 M2 macOS 系统的问题），由 @JoepdeJong 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F236 中完成\n* 新特性：添加对 README 文件的 UTF-8 编码支持，由 @llxlr 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F201 中完成\n\n## 新贡献者\n* @llxlr 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F201 中完成了首次贡献\n* @JoepdeJong 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F236 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002F0.0.29...0.0.31","2023-04-13T16:57:27",{"id":185,"version":186,"summary_zh":187,"released_at":188},62383,"0.0.29","## 变更内容\nGUI 和 CLI 的改进。\n\n* 使用相同的解析器来解析 CLI 和 GUI 参数，由 @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F179 中实现。\n* 添加对 readline 的支持，由 @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F185 中实现。\n* 修复 #184，添加高亮功能，由 @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F186 中实现。\n* 自动使用 gnome-screenshot，由 @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F188 中实现。\n* 修复 `--file` 参数，并支持展开 `~` 符号，由 @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F187 中实现。\n* 解决视网膜显示屏问题，由 @FrankFrank9 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F195 中实现。\n* 更新 macOS 上的截屏按钮，由 @FrankFrank9 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F196 中实现。\n* 改善 GUI 界面，并修复 QWebEngine 在 Linux 上无法显示公式的问题，由 @muyuuuu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F190 中实现。\n\n## 新贡献者\n* @Freed-Wu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F179 中完成了首次贡献。\n* @FrankFrank9 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F195 中完成了首次贡献。\n* @muyuuuu 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F190 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002F0.0.26...0.0.29","2022-09-25T16:29:19",{"id":190,"version":191,"summary_zh":192,"released_at":193},62384,"0.0.26","## 变更内容\n主要改进了训练流程\n\n* 由 @lukas-blecher 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F148 中添加了微批次处理\n* 由 @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F150 中实现了数据并行 + 纯 ViT 模型的工作\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002F0.0.24...0.0.26\n\n## 重大变更\n`models.py` 已移至新的模块 `models`。\n[`Model`](https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fblob\u002Fa0d6b3deb56fecd5206d5d028f7dcf6348ce9253\u002Fpix2tex\u002Fmodels\u002Futils.py#L9) 类中的 `forward` 方法已移至 `generate`。","2022-05-20T11:08:09",{"id":195,"version":196,"summary_zh":197,"released_at":198},62385,"0.0.24","## 变更内容\n* @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F141 中优化了数据集渲染流水线\n* @lukas-blecher 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F142 中添加了一些文档\n* @lukas-blecher 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F143 中添加了 API 的 Docker 镜像\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002F0.0.20...0.0.24","2022-05-03T18:36:23",{"id":200,"version":201,"summary_zh":202,"released_at":203},62386,"0.0.20","## 变更内容\n* 由 @lukas-blecher 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F140 中添加 API\n  新功能基于新的依赖项构建。在安装 `pix2tex[tag]` 时，可以使用 `[api]` 或 `[all]` 标签来安装这些依赖项。\n* 由 @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F123 中将 `LaTeX-OCR\u002Fdataset` 移至 `LaTeX-OCR\u002Fpix2tex\u002Fdataset`\n* 由 @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F125 中修复导入问题\n* 由 @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F135 中修复预处理文件缺失的问题\n\n## 破坏性变更\n`cli.py` 中的 `initialize` 和 `call_model` 方法已被移至 `LatexOCR` 类中。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002F0.0.4...0.0.20","2022-04-27T12:05:47",{"id":205,"version":206,"summary_zh":207,"released_at":208},62387,"0.0.4","## 变更内容\n* @JCGoran 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F34 中添加了 GUI 的桌面快捷方式脚本\n* :hammer: @rainyl 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F105 中修复了 pix2tex.call_model 中的图像缩放问题\n* @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F112 中修复了 Alpha 版本中的若干 bug\n* [功能] @kxxt 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F111 中新增了一个命令行选项，允许使用 gnome-screenshot 代替 PyQt 来截屏\n* @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F119 中修复了图片异常裁剪的问题\n* @lukas-blecher 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F121 中实现了通过 PyPI 安装\n\n## 新贡献者\n* @JCGoran 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F34 中完成了首次贡献\n* @rainyl 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F105 中完成了首次贡献\n* @TITC 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F112 中完成了首次贡献\n* @kxxt 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F111 中完成了首次贡献\n* @frankier 在 https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fpull\u002F94 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Flukas-blecher\u002FLaTeX-OCR\u002Fcompare\u002Fv0.0.1...0.0.4\n\n没有新的模型检查点。请参阅首次发布。","2022-04-13T14:35:25",{"id":210,"version":211,"summary_zh":212,"released_at":213},62388,"v0.0.1","将权重从 Google Drive 迁移到 GitHub。\n- `weights` 包含主网络的权重\n- `image_resizer` 包含用于图像缩放网络的权重（可选）\n\n**许可证**\n由于该模型是在 arXiv 数据上训练的，因此权重以 [CC BY-NC-SA](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可证发布。","2021-10-28T20:00:16"]