[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-datalab-to--chandra":3,"tool-datalab-to--chandra":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":100,"env_deps":101,"category_tags":110,"github_topics":111,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":147},2354,"datalab-to\u002Fchandra","chandra","OCR model that handles complex tables, forms, handwriting with full layout.","Chandra 是一款先进的开源 OCR（光学字符识别）模型，专为处理复杂的文档智能任务而设计。它能将图片或 PDF 文件高效转换为结构化的 HTML、Markdown 或 JSON 格式，并完整保留原文档的版面布局信息。\n\n传统 OCR 工具在面对复杂表格、手写笔记、数学公式或多语言混合文档时，往往难以准确还原结构或识别内容。Chandra 正是为了解决这些痛点而生，它不仅能精准识别 90 多种语言的文字，还能出色地还原包含复选框的表单、错综复杂的表格以及手写数学推导过程，甚至能自动提取图表并生成描述性标题。\n\n这款工具非常适合开发者、数据科学家及研究人员使用。无论是需要构建文档自动化流程的工程师，还是希望从扫描文献中提取结构化数据的研究者，都能从中受益。Chandra 提供了灵活的部署方式，既支持通过 Hugging Face 在本地运行，也兼容轻量级的 vLLM 服务器部署，同时还配有便捷的命令行工具和交互式应用，让用户能快速上手。作为 Datalab 推出的前沿模型，Chandra 在多项基准测试中表现卓越，尤其在多语言支持和复杂版面重建方面展现了强大的技术实力，是处理高难度文","Chandra 是一款先进的开源 OCR（光学字符识别）模型，专为处理复杂的文档智能任务而设计。它能将图片或 PDF 文件高效转换为结构化的 HTML、Markdown 或 JSON 格式，并完整保留原文档的版面布局信息。\n\n传统 OCR 工具在面对复杂表格、手写笔记、数学公式或多语言混合文档时，往往难以准确还原结构或识别内容。Chandra 正是为了解决这些痛点而生，它不仅能精准识别 90 多种语言的文字，还能出色地还原包含复选框的表单、错综复杂的表格以及手写数学推导过程，甚至能自动提取图表并生成描述性标题。\n\n这款工具非常适合开发者、数据科学家及研究人员使用。无论是需要构建文档自动化流程的工程师，还是希望从扫描文献中提取结构化数据的研究者，都能从中受益。Chandra 提供了灵活的部署方式，既支持通过 Hugging Face 在本地运行，也兼容轻量级的 vLLM 服务器部署，同时还配有便捷的命令行工具和交互式应用，让用户能快速上手。作为 Datalab 推出的前沿模型，Chandra 在多项基准测试中表现卓越，尤其在多语言支持和复杂版面重建方面展现了强大的技术实力，是处理高难度文档数字化任务的理想选择。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_de3b0974e804.png\" alt=\"Datalab Logo\" width=\"150\"\u002F>\n\u003C\u002Fp>\n\u003Ch1 align=\"center\">Datalab\u003C\u002Fh1>\n\u003Cp align=\"center\">\n  \u003Cstrong>State of the Art models for Document Intelligence\u003C\u002Fstrong>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20License-Apache_2.0-green.svg\" alt=\"Code License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.datalab.to\u002Fpricing\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModel%20License-OpenRAIL--M-blue.svg\" alt=\"Model License\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FKuZwXNGnfH\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20us-5865F2?logo=discord&logoColor=white\" alt=\"Discord\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Chr\u002F>\n\n# Chandra OCR 2\n\nChandra OCR 2 is a state of the art OCR model that converts images and PDFs into structured HTML\u002FMarkdown\u002FJSON while preserving layout information.\n\n## News\n\n- 3\u002F2026 - Chandra 2 is here with significant improvements to math, tables, layout, and multilingual OCR\n- 10\u002F2025 - Chandra 1 launched\n\n## Features\n\n- Tops external olmocr benchmark and significant improvement in internal multilingual benchmarks\n- Convert documents to markdown, html, or json with detailed layout information\n- Support for 90+ languages ([benchmark below](#multilingual-benchmark-table))\n- Excellent handwriting support\n- Reconstructs forms accurately, including checkboxes\n- Strong performance with tables, math, and complex layouts\n- Extracts images and diagrams, and adds captions and structured data\n- Two inference modes: local (HuggingFace) and remote (vLLM server)\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_0ba8ce13497d.png\" width=\"600px\"\u002F>\n\n## Hosted API\n\n- We have a hosted API for Chandra [here](https:\u002F\u002Fwww.datalab.to\u002F), which is more accurate and faster.\n- There is a free playground [here](https:\u002F\u002Fwww.datalab.to\u002Fplayground) if you want to try Chandra without installing.\n\n## Quickstart\n\nThe easiest way to start is with the CLI tools:\n\n```shell\npip install chandra-ocr\n\n# With vLLM (recommended, lightweight install)\nchandra_vllm\nchandra input.pdf .\u002Foutput\n\n# With HuggingFace (requires torch)\npip install chandra-ocr[hf]\nchandra input.pdf .\u002Foutput --method hf\n\n# Interactive streamlit app\npip install chandra-ocr[app]\nchandra_app\n```\n\n## Benchmarks\n\nMultilingual performance was a focus for us with Chandra 2.  There isn't a good public multilingual OCR benchmark, so we made our own.  This tests tables, math, ordering, layout, and text accuracy.\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_e5ce59f59e3d.png\" width=\"600px\"\u002F>\n\nSee full scores [below](#multilingual-benchmark-table). We also have a [full 90-language benchmark](FULL_BENCHMARKS.md).\n\nWe also benchmarked Chandra 2 with the widely accepted olmocr benchmark:\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_c4638662aaad.png\" width=\"600px\"\u002F>\n\nSee full scores [below](#benchmark-table).\n\n## Examples\n\n| Type | Name                     | Link                                                                                                        |\n|------|--------------------------|-------------------------------------------------------------------------------------------------------------|\n| Math | CS229 Textbook           | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fmath\u002Fcs229.png)                    |\n| Math | Handwritten Math         | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_0ba8ce13497d.png)         |\n| Math | Chinese Math             | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fmath\u002Fchinese_math.png)             |\n| Tables | Statistical Distribution | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Ftables\u002Fcomplex_tables.png)         |\n| Tables | Financial Table          | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Ftables\u002Ffinancial_table.png)        |\n| Forms | Registration Form        | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fforms\u002Fhandwritten_form.png)        |\n| Forms | Lease Form               | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fforms\u002Flease_filled.png)            |\n| Handwriting | Cursive Writing          | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fhandwriting\u002Fcursive_writing.png)   |\n| Handwriting | Handwritten Notes        | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fhandwriting\u002Fhandwritten_notes.png) |\n| Languages | Arabic                   | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Farabic.png)              |\n| Languages | Japanese                 | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Fjapanese.png)            |\n| Languages | Hindi                    | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Fhindi.png)               |\n| Languages | Russian                  | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Frussian.png)             |\n| Other | Charts                   | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fother\u002Fcharts.png)                  |\n| Other | Chemistry                | [View](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fother\u002Fchemistry.png)               |\n\n## Installation\n\n### Package\n\n```bash\n# Base install (for vLLM backend)\npip install chandra-ocr\n\n# With HuggingFace backend (includes torch, transformers)\npip install chandra-ocr[hf]\n\n# With all extras\npip install chandra-ocr[all]\n```\n\nIf you're using the HuggingFace method, we also recommend installing [flash attention](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) for better performance.\n\n### From Source\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra.git\ncd chandra\nuv sync\nsource .venv\u002Fbin\u002Factivate\n```\n\n## Usage\n\n### CLI\n\nProcess single files or entire directories:\n\n```bash\n# Single file, with vllm server (see below for how to launch vllm)\nchandra input.pdf .\u002Foutput --method vllm\n\n# Process all files in a directory with local model\nchandra .\u002Fdocuments .\u002Foutput --method hf\n```\n\n**CLI Options:**\n- `--method [hf|vllm]`: Inference method (default: vllm)\n- `--page-range TEXT`: Page range for PDFs (e.g., \"1-5,7,9-12\")\n- `--max-output-tokens INTEGER`: Max tokens per page\n- `--max-workers INTEGER`: Parallel workers for vLLM\n- `--include-images\u002F--no-images`: Extract and save images (default: include)\n- `--include-headers-footers\u002F--no-headers-footers`: Include page headers\u002Ffooters (default: exclude)\n- `--batch-size INTEGER`: Pages per batch (default: 28 for vllm, 1 for hf)\n\n**Output Structure:**\n\nEach processed file creates a subdirectory with:\n- `\u003Cfilename>.md` - Markdown output\n- `\u003Cfilename>.html` - HTML output\n- `\u003Cfilename>_metadata.json` - Metadata (page info, token count, etc.)\n- Extracted images are saved directly in the output directory\n\n### Streamlit Web App\n\nLaunch the interactive demo for single-page processing:\n\n```bash\nchandra_app\n```\n\n### vLLM Server (Optional)\n\nFor production deployments or batch processing, use the vLLM server:\n\n```bash\nchandra_vllm\n```\n\nThis launches a Docker container with optimized inference settings. Configure via environment variables:\n\n- `VLLM_API_BASE`: Server URL (default: `http:\u002F\u002Flocalhost:8000\u002Fv1`)\n- `VLLM_MODEL_NAME`: Model name for the server (default: `chandra`)\n- `VLLM_GPUS`: GPU device IDs (default: `0`)\n\nYou can also start your own vllm server with the `datalab-to\u002Fchandra-ocr-2` model.\n\n### Configuration\n\nSettings can be configured via environment variables or a `local.env` file:\n\n```bash\n# Model settings\nMODEL_CHECKPOINT=datalab-to\u002Fchandra-ocr-2\nMAX_OUTPUT_TOKENS=12384\n\n# vLLM settings\nVLLM_API_BASE=http:\u002F\u002Flocalhost:8000\u002Fv1\nVLLM_MODEL_NAME=chandra\nVLLM_GPUS=0\n```\n\n# Commercial usage\n\nThis code is Apache 2.0, and our model weights use a modified OpenRAIL-M license (free for research, personal use, and startups under $2M funding\u002Frevenue, cannot be used competitively with our API). To remove the OpenRAIL license requirements, or for broader commercial licensing, visit our pricing page [here](https:\u002F\u002Fwww.datalab.to\u002Fpricing?utm_source=gh-chandra).\n\n# Benchmark table\n\n| **Model**                 |  ArXiv   | Old Scans Math |  Tables  | Old Scans | Headers and Footers | Multi column | Long tiny text | Base |    Overall     | Source |\n|:--------------------------|:--------:|:--------------:|:--------:|:---------:|:-------------------:|:------------:|:--------------:|:----:|:--------------:|:------:|\n| Datalab API               | **90.4** | **90.2** | **90.7** | **54.6** |        91.6         |     83.7     |    **92.3**    | **99.9** | **86.7 ± 0.8** | Own benchmarks |\n| Chandra 2                 |   90.2   |   89.3   |   89.9   |   49.8   |        92.5         |     83.5     |      92.1      | 99.6 |   85.9 ± 0.8   | Own benchmarks |\n| dots.ocr 1.5              |   85.9   |   85.5   | **90.7** |   48.2   |        94.0         |   **85.3**   |      81.6      | 99.7 |   83.9         | dots.ocr repo |\n| Chandra 1                 |   82.2   |   80.3   |   88.0   |   50.4   |        90.8         |     81.2     |    **92.3**    | **99.9** |   83.1 ± 0.9   | Own benchmarks |\n| olmOCR 2                  |   83.0   |   82.3   |   84.9   |   47.7   |      **96.1**       |     83.7     |      81.9      | 99.6 |   82.4         | olmocr repo |\n| dots.ocr                  |   82.1   |   64.2   |   88.3   |   40.9   |        94.1         |     82.4     |      81.2      | 99.5 |   79.1 ± 1.0   | dots.ocr repo |\n| olmOCR v0.3.0             |   78.6   |   79.9   |   72.9   |   43.9   |        95.1         |     77.3     |      81.2      | 98.9 |   78.5 ± 1.1   | olmocr repo |\n| Datalab Marker v1.10.0    |   83.8   |   69.7   |   74.8   |   32.3   |        86.6         |     79.4     |      85.7      | 99.6 |   76.5 ± 1.0   | Own benchmarks |\n| Deepseek OCR              |   75.2   |   72.3   |   79.7   |   33.3   |      **96.1**       |     66.7     |      80.1      | 99.7 |   75.4 ± 1.0   | Own benchmarks |\n| Mistral OCR API           |   77.2   |   67.5   |   60.6   |   29.3   |        93.6         |     71.3     |      77.1      | 99.4 |   72.0 ± 1.1   | olmocr repo |\n| GPT-4o (Anchored)         |   53.5   |   74.5   |   70.0   |   40.7   |        93.8         |     69.3     |      60.6      | 96.8 |   69.9 ± 1.1   | olmocr repo |\n| Qwen 3 VL 8B              |   70.2   |   75.1   |   45.6   |   37.5   |        89.1         |     62.1     |      43.0      | 94.3 |   64.6 ± 1.1   | Own benchmarks |\n| Gemini Flash 2 (Anchored) |   54.5   |   56.1   |   72.1   |   34.2   |        64.7         |     61.5     |      71.5      | 95.6 |   63.8 ± 1.2   | olmocr repo |\n\n\n# Multilingual benchmark table\n\nThe table below covers the 43 most common languages, benchmarked across multiple models. For a comprehensive evaluation across 90 languages (Chandra 2 vs Gemini 2.5 Flash only), see the [full 90-language benchmark](#full-90-language-benchmark-table).\n\n| Language | Datalab API | Chandra 2 | Chandra 1 | Gemini 2.5 Flash | GPT-5 Mini |\n|---|:---:|:---:|:---:|:---:|:---:|\n| ar | 67.6% | 68.4% | 34.0% | 84.4% | 55.6% |\n| bn | 85.1% | 72.8% | 45.6% | 55.3% | 23.3% |\n| ca | 88.7% | 85.1% | 84.2% | 88.0% | 78.5% |\n| cs | 88.2% | 85.3% | 84.7% | 79.1% | 78.8% |\n| da | 90.1% | 91.1% | 88.4% | 86.0% | 87.7% |\n| de | 93.8% | 94.8% | 83.0% | 88.3% | 93.8% |\n| el | 89.9% | 85.6% | 85.5% | 83.5% | 82.4% |\n| es | 91.8% | 89.3% | 88.7% | 86.8% | 97.1% |\n| fa | 82.2% | 75.1% | 69.6% | 61.8% | 56.4% |\n| fi | 85.7% | 83.4% | 78.4% | 86.0% | 84.7% |\n| fr | 93.3% | 93.7% | 89.6% | 86.1% | 91.1% |\n| gu | 73.8% | 70.8% | 44.6% | 47.6% | 11.5% |\n| he | 76.4% | 70.4% | 38.9% | 50.9% | 22.3% |\n| hi | 80.5% | 78.4% | 70.2% | 82.7% | 41.0% |\n| hr | 93.4% | 90.1% | 85.9% | 88.2% | 81.3% |\n| hu | 88.1% | 82.1% | 82.5% | 84.5% | 84.8% |\n| id | 91.3% | 91.6% | 86.7% | 88.3% | 89.7% |\n| it | 94.4% | 94.1% | 89.1% | 85.7% | 91.6% |\n| ja | 87.3% | 86.9% | 85.4% | 80.0% | 76.1% |\n| jv | 87.5% | 73.2% | 85.1% | 80.4% | 69.6% |\n| kn | 70.0% | 63.2% | 20.6% | 24.5% | 10.1% |\n| ko | 89.1% | 81.5% | 82.3% | 84.8% | 78.4% |\n| la | 78.0% | 73.8% | 55.9% | 70.5% | 54.6% |\n| ml | 72.4% | 64.3% | 18.1% | 23.8% | 11.9% |\n| mr | 80.8% | 75.0% | 57.0% | 69.7% | 20.9% |\n| nl | 90.0% | 88.6% | 85.3% | 87.5% | 83.8% |\n| no | 89.2% | 90.3% | 85.5% | 87.8% | 87.4% |\n| pl | 93.8% | 91.5% | 83.9% | 89.7% | 90.4% |\n| pt | 97.0% | 95.2% | 84.3% | 89.4% | 90.8% |\n| ro | 86.2% | 84.5% | 82.1% | 76.1% | 77.3% |\n| ru | 88.8% | 85.5% | 88.7% | 82.8% | 72.2% |\n| sa | 57.5% | 51.1% | 33.6% | 44.6% | 12.5% |\n| sr | 95.3% | 90.3% | 82.3% | 89.7% | 83.0% |\n| sv | 91.9% | 92.8% | 82.1% | 91.1% | 92.1% |\n| ta | 82.9% | 77.7% | 50.8% | 53.9% | 8.1% |\n| te | 69.4% | 58.6% | 19.5% | 33.3% | 9.9% |\n| th | 71.6% | 62.6% | 47.0% | 66.7% | 53.8% |\n| tr | 88.9% | 84.1% | 68.1% | 84.1% | 78.2% |\n| uk | 93.1% | 91.0% | 88.5% | 87.9% | 81.9% |\n| ur | 54.1% | 43.2% | 28.1% | 57.6% | 16.9% |\n| vi | 85.0% | 80.4% | 81.6% | 89.5% | 83.6% |\n| zh | 87.8% | 88.7% | 88.3% | 70.0% | 70.4% |\n| **Average** | **80.4%** | **77.8%** | **69.4%** | **67.6%** | **60.5%** |\n\n# Full 90-language benchmark table\n\nWe also have a more comprehensive evaluation covering 90 languages, comparing Chandra 2 against Gemini 2.5 Flash. The average scores are lower than the 43-language table above because this includes many lower-resource languages. Chandra 2 averages **72.7%** vs Gemini 2.5 Flash at **60.8%**.\n\nSee the [full 90-language results](FULL_BENCHMARKS.md).\n\n## Throughput\n\nBenchmarked with vLLM on a single NVIDIA H100 80GB GPU using a diverse mix of documents (math, tables, scans, multi-column layouts) from the olmOCR benchmark set.  This set is significantly slower than real-world usage - we estimate 2 pages\u002Fs in real-world usage.\n\n| Configuration | Pages\u002Fsec | Avg Latency | P95 Latency | Failure Rate |\n|---|:---:|:---:|:---:|:---:|\n| vLLM, 96 concurrent sequences | 1.44 | 60s | 156s | 0% |\n\n# Credits\n\nThank you to the following open source projects:\n\n- [Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [VLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n- [olmocr](https:\u002F\u002Fgithub.com\u002Fallenai\u002Folmocr)\n- [Qwen 3.5](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3)","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_de3b0974e804.png\" alt=\"Datalab Logo\" width=\"150\"\u002F>\n\u003C\u002Fp>\n\u003Ch1 align=\"center\">Datalab\u003C\u002Fh1>\n\u003Cp align=\"center\">\n  \u003Cstrong>文档智能领域的最先进模型\u003C\u002Fstrong>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20License-Apache_2.0-green.svg\" alt=\"代码许可证\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.datalab.to\u002Fpricing\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FModel%20License-OpenRAIL--M-blue.svg\" alt=\"模型许可证\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FKuZwXNGnfH\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20us-5865F2?logo=discord&logoColor=white\" alt=\"Discord\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Chr\u002F>\n\n# Chandra OCR 2\n\nChandra OCR 2 是一款最先进的 OCR 模型，能够将图像和 PDF 转换为结构化的 HTML\u002FMarkdown\u002FJSON 格式，同时保留布局信息。\n\n## 新闻\n\n- 3\u002F2026 - Chandra 2 正式发布，对数学、表格、布局以及多语言 OCR 均有显著提升\n- 10\u002F2025 - Chandra 1 上线\n\n## 特性\n\n- 在外部 olmocr 基准测试中表现领先，并在内部多语言基准测试中取得重大突破\n- 可将文档转换为 Markdown、HTML 或 JSON 格式，同时保留详细的布局信息\n- 支持 90 多种语言（[基准测试见下文](#multilingual-benchmark-table)）\n- 手写体识别效果极佳\n- 能够准确重建表单，包括复选框\n- 在表格、数学及复杂布局的处理上表现出色\n- 可提取图片和图表，并添加标题和结构化数据\n- 提供两种推理模式：本地（HuggingFace）和远程（vLLM 服务器）\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_0ba8ce13497d.png\" width=\"600px\"\u002F>\n\n## 托管 API\n\n- 我们在 [这里](https:\u002F\u002Fwww.datalab.to\u002F) 提供了 Chandra 的托管 API，其准确性和速度均更胜一筹。\n- 如果您想在不安装的情况下试用 Chandra，可以访问 [免费试用平台](https:\u002F\u002Fwww.datalab.to\u002Fplayground)。\n\n## 快速入门\n\n最简单的使用方式是通过命令行工具：\n\n```shell\npip install chandra-ocr\n\n# 使用 vLLM（推荐，安装轻量）\nchandra_vllm\nchandra input.pdf .\u002Foutput\n\n# 使用 HuggingFace（需要 torch）\npip install chandra-ocr[hf]\nchandra input.pdf .\u002Foutput --method hf\n\n# 交互式 Streamlit 应用\npip install chandra-ocr[app]\nchandra_app\n```\n\n## 基准测试\n\n多语言性能是我们开发 Chandra 2 的重点之一。由于目前缺乏公开的多语言 OCR 基准测试，我们自行设计了一套测试方案，涵盖表格、数学、顺序排列、布局和文本准确性等方面。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_e5ce59f59e3d.png\" width=\"600px\"\u002F>\n\n完整评分请参见 [下方](#multilingual-benchmark-table)。我们还提供了一份包含 90 种语言的完整基准测试报告（[FULL_BENCHMARKS.md](FULL_BENCHMARKS.md)）。\n\n此外，我们也使用广受认可的 olmocr 基准测试对 Chandra 2 进行了评估：\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_c4638662aaad.png\" width=\"600px\"\u002F>\n\n完整评分请参见 [下方](#benchmark-table)。\n\n## 示例\n\n| 类型 | 名称                     | 链接                                                                                                        |\n|------|--------------------------|-------------------------------------------------------------------------------------------------------------|\n| 数学 | CS229 教材           | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fmath\u002Fcs229.png)                    |\n| 数学 | 手写数学         | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_readme_0ba8ce13497d.png)         |\n| 数学 | 中文数学             | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fmath\u002Fchinese_math.png)             |\n| 表格 | 统计分布 | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Ftables\u002Fcomplex_tables.png)         |\n| 表格 | 财务表格          | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Ftables\u002Ffinancial_table.png)        |\n| 表单 | 注册表单        | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fforms\u002Fhandwritten_form.png)        |\n| 表单 | 租赁合同               | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fforms\u002Flease_filled.png)            |\n| 手写 | 书法字体          | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fhandwriting\u002Fcursive_writing.png)   |\n| 手写 | 手写笔记        | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fhandwriting\u002Fhandwritten_notes.png) |\n| 语言 | 阿拉伯语                   | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Farabic.png)              |\n| 语言 | 日语                 | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Fjapanese.png)            |\n| 语言 | 印地语                    | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Fhindi.png)               |\n| 语言 | 俄语                  | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Flanguages\u002Frussian.png)             |\n| 其他 | 图表                   | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fother\u002Fcharts.png)                  |\n| 其他 | 化学                   | [查看](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002Fassets\u002Fexamples\u002Fother\u002Fchemistry.png)               |\n\n## 安装\n\n### 包管理器\n\n```bash\n# 基础安装（用于 vLLM 后端）\npip install chandra-ocr\n\n# 使用 HuggingFace 后端（包含 torch 和 transformers）\npip install chandra-ocr[hf]\n\n# 安装所有依赖\npip install chandra-ocr[all]\n```\n\n如果您选择使用 HuggingFace 方法，建议同时安装 [flash attention](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)，以获得更好的性能。\n\n### 源码安装\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra.git\ncd chandra\nuv sync\nsource .venv\u002Fbin\u002Factivate\n```\n\n## 使用方法\n\n### 命令行\n\n可处理单个文件或整个目录：\n\n```bash\n# 单个文件，使用 vllm 服务器（启动方法见下文）\nchandra input.pdf .\u002Foutput --method vllm\n\n# 使用本地模型处理目录中的所有文件\nchandra .\u002Fdocuments .\u002Foutput --method hf\n```\n\n**命令行选项：**\n- `--method [hf|vllm]`: 推理方法（默认：vllm）\n- `--page-range TEXT`: PDF 的页码范围（例如，“1-5,7,9-12”）\n- `--max-output-tokens INTEGER`: 每页的最大输出标记数\n- `--max-workers INTEGER`: vLLM 的并行工作进程数\n- `--include-images\u002F--no-images`: 是否提取并保存图片（默认：包含）\n- `--include-headers-footers\u002F--no-headers-footers`: 是否包含页眉和页脚（默认：不包含）\n- `--batch-size INTEGER`: 每批处理的页数（默认：vLLM 为 28 页，HuggingFace 为 1 页）\n\n**输出结构：**\n\n每个处理过的文件都会生成一个子目录，其中包含：\n- `\u003Cfilename>.md` - Markdown 输出\n- `\u003Cfilename>.html` - HTML 输出\n- `\u003Cfilename>_metadata.json` - 元数据（页面信息、标记数等）\n- 提取的图片会直接保存在输出目录中\n\n### Streamlit Web 应用\n\n启动单页处理的交互式演示：\n\n```bash\nchandra_app\n```\n\n### vLLM 服务器（可选）\n\n对于生产部署或批量处理，可以使用 vLLM 服务器：\n\n```bash\nchandra_vllm\n```\n\n这将启动一个带有优化推理设置的 Docker 容器。可通过环境变量进行配置：\n\n- `VLLM_API_BASE`：服务器 URL（默认值：`http:\u002F\u002Flocalhost:8000\u002Fv1`）\n- `VLLM_MODEL_NAME`：服务器使用的模型名称（默认值：`chandra`）\n- `VLLM_GPUS`：GPU 设备 ID（默认值：`0`）\n\n您也可以使用 `datalab-to\u002Fchandra-ocr-2` 模型启动您自己的 vLLM 服务器。\n\n### 配置\n\n设置可以通过环境变量或 `local.env` 文件进行配置：\n\n```bash\n# 模型设置\nMODEL_CHECKPOINT=datalab-to\u002Fchandra-ocr-2\nMAX_OUTPUT_TOKENS=12384\n\n# vLLM 设置\nVLLM_API_BASE=http:\u002F\u002Flocalhost:8000\u002Fv1\nVLLM_MODEL_NAME=chandra\nVLLM_GPUS=0\n```\n\n# 商业用途\n\n此代码采用 Apache 2.0 许可证，而我们的模型权重则使用修改后的 OpenRAIL-M 许可证（允许用于研究、个人用途以及融资\u002F收入低于 200 万美元的初创企业，但不得与我们的 API 形成竞争关系）。如需移除 OpenRAIL 许可证的要求，或获取更广泛的商业许可，请访问我们的定价页面 [这里](https:\u002F\u002Fwww.datalab.to\u002Fpricing?utm_source=gh-chandra)。\n\n# 基准测试表\n\n| **模型**                 |  ArXiv   | 老扫描数学 |  表格  | 老扫描 | 页眉和页脚 | 多列文本 | 长篇小字 | 基础 |    总体     | 来源 |\n|:--------------------------|:--------:|:--------------:|:--------:|:---------:|:-------------------:|:------------:|:--------------:|:----:|:--------------:|:------:|\n| Datalab API               | **90.4** | **90.2** | **90.7** | **54.6** |        91.6         |     83.7     |    **92.3**    | **99.9** | **86.7 ± 0.8** | 自建基准 |\n| Chandra 2                 |   90.2   |   89.3   |   89.9   |   49.8   |        92.5         |     83.5     |      92.1      | 99.6 |   85.9 ± 0.8   | 自建基准 |\n| dots.ocr 1.5              |   85.9   |   85.5   | **90.7** |   48.2   |        94.0         |   **85.3**   |      81.6      | 99.7 |   83.9         | dots.ocr 仓库 |\n| Chandra 1                 |   82.2   |   80.3   |   88.0   |   50.4   |        90.8         |     81.2     |    **92.3**    | **99.9** |   83.1 ± 0.9   | 自建基准 |\n| olmOCR 2                  |   83.0   |   82.3   |   84.9   |   47.7   |      **96.1**       |     83.7     |      81.9      | 99.6 |   82.4         | olmocr 仓库 |\n| dots.ocr                  |   82.1   |   64.2   |   88.3   |   40.9   |        94.1         |     82.4     |      81.2      | 99.5 |   79.1 ± 1.0   | dots.ocr 仓库 |\n| olmOCR v0.3.0             |   78.6   |   79.9   |   72.9   |   43.9   |        95.1         |     77.3     |      81.2      | 98.9 |   78.5 ± 1.1   | olmocr 仓库 |\n| Datalab Marker v1.10.0    |   83.8   |   69.7   |   74.8   |   32.3   |        86.6         |     79.4     |      85.7      | 99.6 |   76.5 ± 1.0   | 自建基准 |\n| Deepseek OCR              |   75.2   |   72.3   |   79.7   |   33.3   |      **96.1**       |     66.7     |      80.1      | 99.7 |   75.4 ± 1.0   | 自建基准 |\n| Mistral OCR API           |   77.2   |   67.5   |   60.6   |   29.3   |        93.6         |     71.3     |      77.1      | 99.4 |   72.0 ± 1.1   | olmocr 仓库 |\n| GPT-4o（锚定版）         |   53.5   |   74.5   |   70.0   |   40.7   |        93.8         |     69.3     |      60.6      | 96.8 |   69.9 ± 1.1   | olmocr 仓库 |\n| Qwen 3 VL 8B              |   70.2   |   75.1   |   45.6   |   37.5   |        89.1         |     62.1     |      43.0      | 94.3 |   64.6 ± 1.1   | 自建基准 |\n| Gemini Flash 2（锚定版） |   54.5   |   56.1   |   72.1   |   34.2   |        64.7         |     61.5     |      71.5      | 95.6 |   63.8 ± 1.2   | olmocr 仓库 |\n\n\n# 多语言基准测试表\n\n下表涵盖了 43 种最常见的语言，并在多个模型上进行了基准测试。如需对 90 种语言进行全面评估（仅比较 Chandra 2 和 Gemini 2.5 Flash），请参阅[完整的 90 语言基准测试表](#full-90-language-benchmark-table)。\n\n| 语言 | Datalab API | Chandra 2 | Chandra 1 | Gemini 2.5 Flash | GPT-5 Mini |\n|---|:---:|:---:|:---:|:---:|:---:|\n| ar | 67.6% | 68.4% | 34.0% | 84.4% | 55.6% |\n| bn | 85.1% | 72.8% | 45.6% | 55.3% | 23.3% |\n| ca | 88.7% | 85.1% | 84.2% | 88.0% | 78.5% |\n| cs | 88.2% | 85.3% | 84.7% | 79.1% | 78.8% |\n| da | 90.1% | 91.1% | 88.4% | 86.0% | 87.7% |\n| de | 93.8% | 94.8% | 83.0% | 88.3% | 93.8% |\n| el | 89.9% | 85.6% | 85.5% | 83.5% | 82.4% |\n| es | 91.8% | 89.3% | 88.7% | 86.8% | 97.1% |\n| fa | 82.2% | 75.1% | 69.6% | 61.8% | 56.4% |\n| fi | 85.7% | 83.4% | 78.4% | 86.0% | 84.7% |\n| fr | 93.3% | 93.7% | 89.6% | 86.1% | 91.1% |\n| gu | 73.8% | 70.8% | 44.6% | 47.6% | 11.5% |\n| he | 76.4% | 70.4% | 38.9% | 50.9% | 22.3% |\n| hi | 80.5% | 78.4% | 70.2% | 82.7% | 41.0% |\n| hr | 93.4% | 90.1% | 85.9% | 88.2% | 81.3% |\n| hu | 88.1% | 82.1% | 82.5% | 84.5% | 84.8% |\n| id | 91.3% | 91.6% | 86.7% | 88.3% | 89.7% |\n| it | 94.4% | 94.1% | 89.1% | 85.7% | 91.6% |\n| ja | 87.3% | 86.9% | 85.4% | 80.0% | 76.1% |\n| jv | 87.5% | 73.2% | 85.1% | 80.4% | 69.6% |\n| kn | 70.0% | 63.2% | 20.6% | 24.5% | 10.1% |\n| ko | 89.1% | 81.5% | 82.3% | 84.8% | 78.4% |\n| la | 78.0% | 73.8% | 55.9% | 70.5% | 54.6% |\n| ml | 72.4% | 64.3% | 18.1% | 23.8% | 11.9% |\n| mr | 80.8% | 75.0% | 57.0% | 69.7% | 20.9% |\n| nl | 90.0% | 88.6% | 85.3% | 87.5% | 83.8% |\n| no | 89.2% | 90.3% | 85.5% | 87.8% | 87.4% |\n| pl | 93.8% | 91.5% | 83.9% | 89.7% | 90.4% |\n| pt | 97.0% | 95.2% | 84.3% | 89.4% | 90.8% |\n| ro | 86.2% | 84.5% | 82.1% | 76.1% | 77.3% |\n| ru | 88.8% | 85.5% | 88.7% | 82.8% | 72.2% |\n| sa | 57.5% | 51.1% | 33.6% | 44.6% | 12.5% |\n| sr | 95.3% | 90.3% | 82.3% | 89.7% | 83.0% |\n| sv | 91.9% | 92.8% | 82.1% | 91.1% | 92.1% |\n| ta | 82.9% | 77.7% | 50.8% | 53.9% | 8.1% |\n| te | 69.4% | 58.6% | 19.5% | 33.3% | 9.9% |\n| th | 71.6% | 62.6% | 47.0% | 66.7% | 53.8% |\n| tr | 88.9% | 84.1% | 68.1% | 84.1% | 78.2% |\n| uk | 93.1% | 91.0% | 88.5% | 87.9% | 81.9% |\n| ur | 54.1% | 43.2% | 28.1% | 57.6% | 16.9% |\n| vi | 85.0% | 80.4% | 81.6% | 89.5% | 83.6% |\n| zh | 87.8% | 88.7% | 88.3% | 70.0% | 70.4% |\n| **平均** | **80.4%** | **77.8%** | **69.4%** | **67.6%** | **60.5%** |\n\n# 完整的 90 语言基准测试表\n\n我们还有一份更全面的评估，涵盖 90 种语言，对比了 Chandra 2 和 Gemini 2.5 Flash。由于此次包含了大量资源较少的语言，平均得分比上述 43 语言表要低。Chandra 2 的平均得分为 **72.7%**，而 Gemini 2.5 Flash 为 **60.8%**。\n\n请参阅[完整的 90 语言结果](FULL_BENCHMARKS.md)。\n\n## 吞吐量\n\n在单个 NVIDIA H100 80GB GPU 上，使用 olmOCR 基准测试集中的多样化文档（数学公式、表格、扫描件、多栏布局等）对 vLLM 进行了基准测试。该测试集的速度明显低于实际应用场景——我们估计在实际使用中约为每秒 2 页。\n\n| 配置 | 页\u002F秒 | 平均延迟 | P95 延迟 | 失败率 |\n|---|:---:|:---:|:---:|:---:|\n| vLLM，96 个并发序列 | 1.44 | 60 秒 | 156 秒 | 0% |\n\n# 致谢\n\n感谢以下开源项目：\n\n- [Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [VLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n- [olmocr](https:\u002F\u002Fgithub.com\u002Fallenai\u002Folmocr)\n- [Qwen 3.5](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3)","# Chandra OCR 2 快速上手指南\n\nChandra OCR 2 是一款先进的文档智能模型，能够将图片和 PDF 转换为保留布局信息的结构化 HTML、Markdown 或 JSON。它支持 90+ 种语言，擅长处理数学公式、复杂表格及手写体。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS, Windows\n*   **Python 版本**：建议 Python 3.9 或更高版本\n*   **硬件要求**：\n    *   **vLLM 模式（推荐）**：需要 NVIDIA GPU（显存建议 16GB+ 以获得最佳性能），需安装 Docker（可选，用于自动部署服务）。\n    *   **HuggingFace 模式**：需要 NVIDIA GPU 或高性能 CPU，需安装 `torch`。\n*   **前置依赖**：确保已安装 `pip` 和 `git`。\n\n> **注意**：国内用户若遇到网络问题，建议在安装前配置 PyPI 镜像源（如清华源）：\n> ```bash\n> export PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n根据您的需求选择以下一种安装方式：\n\n### 方案 A：轻量级安装（推荐，使用 vLLM 后端）\n此方式不包含庞大的深度学习框架，依赖外部 vLLM 服务进行推理，适合生产环境或批量处理。\n\n```bash\npip install chandra-ocr\n```\n\n### 方案 B：本地模型安装（使用 HuggingFace 后端）\n此方式将下载模型权重并在本地运行，需要安装 `torch` 和 `transformers`。\n\n```bash\npip install chandra-ocr[hf]\n```\n*提示：若使用 HF 模式，建议额外安装 flash-attention 以提升性能。*\n\n### 方案 C：完整安装（包含交互式 Web 应用）\n如果您想体验图形化界面演示。\n\n```bash\npip install chandra-ocr[all]\n```\n\n## 基本使用\n\n### 1. 命令行工具 (CLI)\n\n这是最常用的方式，可处理单个文件或整个目录。\n\n**启动 vLLM 服务（仅方案 A 需要）：**\n在终端运行以下命令启动本地推理服务器（首次运行会自动拉取模型）：\n```bash\nchandra_vllm\n```\n*保持该终端窗口开启，新开一个终端窗口执行后续命令。*\n\n**执行 OCR 转换：**\n\n*   **使用 vLLM 模式（默认，速度快）：**\n    ```bash\n    chandra input.pdf .\u002Foutput --method vllm\n    ```\n\n*   **使用 HuggingFace 本地模式：**\n    ```bash\n    chandra input.pdf .\u002Foutput --method hf\n    ```\n\n*   **处理整个目录：**\n    ```bash\n    chandra .\u002Fdocuments .\u002Foutput --method hf\n    ```\n\n**输出结果：**\n在 `.\u002Foutput` 目录下，每个文件会生成对应的子文件夹，包含：\n*   `.md` (Markdown)\n*   `.html` (HTML)\n*   `_metadata.json` (元数据)\n*   提取出的图片资源\n\n### 2. 交互式 Web 应用\n\n如果您安装了 `[app]` 扩展，可以启动图形界面进行单页测试：\n\n```bash\nchandra_app\n```\n启动后在浏览器访问显示的地址（通常为 `http:\u002F\u002Flocalhost:8501`）即可上传文件查看效果。\n\n### 常用参数说明\n\n| 参数 | 说明 | 示例 |\n| :--- | :--- | :--- |\n| `--method` | 推理引擎 (`vllm` 或 `hf`) | `--method hf` |\n| `--page-range` | 指定 PDF 页码范围 | `--page-range \"1-5,7\"` |\n| `--no-images` | 不提取图片 | `--no-images` |\n| `--batch-size` | 批处理大小 | `--batch-size 10` |","某金融审计团队需要紧急处理数百份包含手写批注、复杂财务报表及多语言合同的扫描 PDF，以便进行自动化数据归档与分析。\n\n### 没有 chandra 时\n- **表格结构丢失**：传统 OCR 将复杂的财务跨行\u002F跨列表格识别为混乱的纯文本，导致数据错位，人工校对耗时极长。\n- **手写内容无法读取**：审计员在文档边缘的手写备注和勾选项被完全忽略或识别为乱码，关键审计线索断裂。\n- **布局逻辑错乱**：多栏排版和多语言混合文档的阅读顺序被打乱，后续程序无法正确解析段落逻辑。\n- **公式与图表失效**：文档中的数学计算公式和统计图表仅被转为无意义的字符堆砌，失去分析价值。\n- **人工成本高昂**：团队需雇佣大量临时人员手动录入和重构数据结构，项目周期被迫延长数周。\n\n### 使用 chandra 后\n- **完美还原表格**：chandra 精准识别复杂财务表格的行列关系，直接输出带完整结构的 HTML 或 JSON，数据零错位。\n- **手写字迹清晰化**：无论是潦草的审计批注还是表单勾选框，chandra 均能准确转录并保留在对应位置。\n- **智能布局重建**：自动分析文档视觉布局，按正确阅读顺序输出 Markdown，完美支持 90+ 种语言的混合排版。\n- **公式图表结构化**：自动提取并转换数学公式为可编辑格式，同时为图表生成结构化数据与描述性标题。\n- **流程自动化提速**：原本数周的人工录入工作缩短至几小时，团队可直接基于结构化数据运行分析脚本。\n\nchandra 通过将非结构化文档瞬间转化为高保真结构化数据，彻底解决了复杂文档智能化处理中的“最后一公里”难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatalab-to_chandra_de3b0974.png","datalab-to","Datalab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdatalab-to_e51b6d1e.png","Developing state of the art document intelligence models.",null,"hi@datalab.to","datalabto","https:\u002F\u002Fwww.datalab.to","https:\u002F\u002Fgithub.com\u002Fdatalab-to",[86,90],{"name":87,"color":88,"percentage":89},"Python","#3572A5",76.8,{"name":91,"color":92,"percentage":93},"HTML","#e34c26",23.2,8178,811,"2026-04-02T20:42:26","Apache-2.0","Linux, macOS, Windows","运行 HuggingFace 本地模式必需 NVIDIA GPU（推荐安装 flash-attention 以提升性能）；vLLM 模式支持通过环境变量 VLLM_GPUS 指定 GPU ID。具体显存大小和 CUDA 版本未在文档中明确说明，但鉴于模型处理复杂布局和数学公式的能力，通常建议 16GB+ 显存。","未说明",{"notes":102,"python":103,"dependencies":104},"该工具提供两种推理模式：1. vLLM 模式（推荐）：轻量级安装，可启动 Docker 容器或本地服务器进行推理；2. HuggingFace 模式：需安装 torch 和 transformers，适合本地直接运行。模型权重采用 OpenRAIL-M 许可证，免费用于研究和个人使用，但限制商业竞争用途。支持 90+ 种语言，擅长处理数学公式、表格和手写体。","未说明 (通过 uv sync 管理环境)",[105,106,107,108,109],"torch","transformers","flash-attention (可选但推荐)","vllm","streamlit",[14,15,13],[112,113],"ai","ocr","2026-03-27T02:49:30.150509","2026-04-06T06:52:56.356412",[117,122,127,132,137,142],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},10827,"使用 vLLM 方法运行时出现 \"Connection error\" 或 \"repeat token detected\" 错误怎么办？","这通常是由于模型权重尚未完全下载或服务未完全启动导致的。\n1. 请等待一段时间，确保所有权重文件下载完毕且服务正常运行后再重试。\n2. 检查机器规格（特别是 GPU）是否符合要求，并查看 vLLM 的详细日志以获取更多信息。\n3. 对于特定语言（如印度语系）出现的重复令牌错误，官方已发布新模型修复了此问题，请更新到最新版本。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F7",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},10824,"在 RTX 3060 Ti 等显卡上处理 PDF 速度极慢（如 7 页需 19 小时）是否正常？","不正常，这通常表明配置或性能存在问题。预期速度应快得多（例如在 H100 上约为 2 页\u002F秒）。可能的原因包括：\n1. PyTorch 2.9 选择了错误的 `conv3D` 内核，导致处理时间异常长。\n2. 安装中缺少 Flash Attention。\n建议尝试使用 `vllm` 方法进行推理，或者直接使用官网托管的 API (www.datalab.to) 以获得更快的速度。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F57",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},10825,"如何在 Windows 上解决 Chandra 因 CPU 卸载导致的无限加载或无法使用问题？","Windows 用户常遇到因 PyTorch 版本不匹配导致的 CPU 卸载问题，使模型无法运行。注意事项如下：\n1. Chandra 0.1.7+ 需要 PyTorch >= 2.8.0，但 Windows 上稳定的 CUDA 构建版本可能不存在，可能需要使用 nightly 版本（但这可能导致不稳定）。\n2. 该模型非常庞大（Qwen2-VL 约需 16-18GB 显存），建议部署环境拥有 35GB 显存以避免卸载到 CPU。\n3. 强烈建议使用 Docker 容器来避免复杂的依赖和环境配置问题。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F42",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},10826,"Chandra OCR 是否支持返回每个单词的边界框（Bounding Boxes）？","Chandra 目前不支持直接返回每个单词的边界框。如果您需要此功能（特别是针对表格单元格的 bbox），建议使用同系列的 [Surya](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fsurya\u002F) 项目，它专门支持此类细粒度的检测。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F13",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},10828,"如何处理包含印度语系（如印地语、泰卢固语等）文档时出现的重复令牌错误或幻觉问题？","这是一个已知问题，本地 vLLM 推理在处理某些印度语系脚本时可能会陷入重复令牌循环或产生幻觉。官方已经发布了新的模型版本来修复此问题。请确保您更新到了最新的模型版本，问题应当得到解决。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F71",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},10829,"如何在使用 Chandra (`balanced`\u002F`accurate` 模式) 时获取单元格级别的表格边界框？","目前 Chandra 暂不支持直接输出单元格级别的边界框。虽然开源的 `marker` 包可以通过 `TableConverter` 获取这些信息，但 Chandra 的设计倾向于将列表和表格作为整体结构检测，以保持缩进和结构的准确性。如果您必须需要单元格级别的几何信息，可能需要继续使用 `marker` 的相关功能或等待未来更新。","https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fissues\u002F52",[148,153,157,161,165,169,173,178],{"id":149,"version":150,"summary_zh":151,"released_at":152},53257,"v0.2.0","隆重宣布 Chandra OCR 2 —— 一款拥有 40 亿参数的光学字符识别模型，在 olmOCR 基准测试中得分高达 85.9%（目前业界领先），在我们内部的 43 种语言多语言基准测试中则为 77.8%。与 Chandra 1（90 亿参数）相比，它在各项指标上均更小、更精准。\n\n## 亮点\n\n- **40 亿参数**（较之前减少至 90 亿），吞吐量提升 2 倍\n- **olmOCR 总体得分 85.9%**（较之前的 83.1% 提升）\n- **43 种语言的多语言平均得分 77.8%**（较之前的 69.4% 提升），90 种语言的平均得分则为 72.7%\n- 在 H100 上以 96 个并发请求运行时，速度可达每秒处理 2 页\n- 支持 15 种以上的版面区块类型，并提供边界框信息\n- 可为图表（Mermaid 格式）、统计图和图片生成结构化输出\n\n## olmOCR 基准测试\n\n| 类别           | Chandra 1 | Chandra 2 | 变化   |\n| -------------- | :-------: | :-------: | :----: |\n| ArXiv          |   82.2%   |   90.2%   |  +8.0  |\n| 老扫描件数学   |   80.3%   |   89.3%   |  +9.0  |\n| 表格           |   88.0%   |   89.9%   |  +1.9  |\n| 多栏文档       |   81.2%   |   83.5%   |  +2.3  |\n| **总体**       | **83.1%** | **85.9%** | **+2.8** |\n\n## 多语言性能\n\n43 种语言的平均得分：Chandra 2 为 77.8%，Chandra 1 为 69.4%，Gemini 2.5 Flash 为 67.6%，GPT-5 Mini 则为 60.5%。\n\n90 种语言的平均得分：Chandra 2 达 72.7%，Gemini 2.5 Flash 为 60.8%。\n\n南亚语系文字的表现提升最为显著：孟加拉文提升 27.2%，卡纳达文提升 42.6%，马拉雅拉姆文提升 46.2%，泰米尔文提升 26.9%，泰卢固文提升 39.1%。完整的 90 种语言测试结果请参阅 [FULL_BENCHMARKS.md](https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\u002Fblob\u002Fmaster\u002FFULL_BENCHMARKS.md)。\n\n## 新功能特性\n\n- **版面区块**：`text`、`section-header`、`caption`、`footnote`、`table`、`form`、`list-group`、`image`、`figure`、`diagram`、`equation-block`、`code-block`、`chemical-block`、`bibliography`、`table-of-contents`、`page-header`、`page-footer`、`complex-block`\n- **Mermaid 图表**：可将流程图和工艺流程图转换为 Mermaid 格式\n- **图表提取**：从柱状图、折线图和饼图中提取结构化数据（数值、类别、坐标轴标签）\n- **图像字幕生成**：根据视觉内容及周边上下文自动生成字幕\n- **化学结构检测**：从化学结构图中提取分子结构描述\n\n## 安装方法\n\n```bash\npip install chandra-ocr\n\n# 推荐使用 vLLM\nchandra_vllm\nchandra input.pdf .\u002Foutput\n\n# 使用 HuggingFace\npip install chandra-ocr[hf]\nchandra input.pdf .\u002Foutput --method hf\n```\n\n## 相关链接\n\n- GitHub：https:\u002F\u002Fgithub.com\u002Fdatalab-to\u002Fchandra\n- HuggingFace：https:\u002F\u002Fhuggingface.co\u002Fdatalab-to\u002Fchandra-ocr-2\n- 博客文章：https:\u002F\u002Fwww.datalab.to\u002Fblog\u002Fchandra-2","2026-03-18T15:16:25",{"id":154,"version":155,"summary_zh":80,"released_at":156},53258,"v0.1.7","2025-10-22T13:22:40",{"id":158,"version":159,"summary_zh":80,"released_at":160},53259,"v0.1.6","2025-10-21T15:54:25",{"id":162,"version":163,"summary_zh":80,"released_at":164},53260,"v0.1.4","2025-10-21T15:53:22",{"id":166,"version":167,"summary_zh":80,"released_at":168},53261,"v0.1.3","2025-10-21T15:16:42",{"id":170,"version":171,"summary_zh":80,"released_at":172},53262,"v0.1.2","2025-10-21T15:02:19",{"id":174,"version":175,"summary_zh":176,"released_at":177},53263,"v0.1.1","将模型固定到稳定仓库版本。","2025-10-21T14:41:19",{"id":179,"version":180,"summary_zh":181,"released_at":182},53264,"v0.1.0","首次仓库发布！","2025-10-21T11:15:44"]