[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bytedance--Dolphin":3,"tool-bytedance--Dolphin":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":92,"env_deps":94,"category_tags":98,"github_topics":99,"view_count":109,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":110,"updated_at":111,"faqs":112,"releases":148},684,"bytedance\u002FDolphin","Dolphin","The official repo for “Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting”, ACL, 2025.","Dolphin 是一款专为复杂文档图像解析设计的开源模型，能够自动将各类文档图片转化为结构化的数据格式。面对文档中文字、表格、公式及代码块相互交织的难题，Dolphin 能有效识别页面布局与阅读顺序，无论是电子文档还是拍摄照片都能精准处理。\n\n它非常适合开发者、算法研究人员以及需要构建文档数字化系统的技术团队。Dolphin 的核心优势在于其创新的“文档类型感知”双阶段架构，结合异构锚点提示技术，实现了对不同文档类型的自适应解析。新版本不仅强化了对公式和代码块的专用解析能力，还支持多页 PDF 处理，并提供了 TensorRT 等加速方案以提升推理效率。凭借轻量级设计与优异的性能表现，Dolphin 为高质量文档理解任务提供了一个高效可靠的解决方案。","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_b94c81b7ac77.png\" width=\"300\">\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14059\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-red\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Dolphin-yellow\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode-Github-green\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-lightgray\">\n  \u003C\u002Fa>\n  \u003Cbr>\n\u003C\u002Fdiv>\n\n\u003Cbr>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_b4addc1bf8ad.gif\" width=\"800\">\n\u003C\u002Fdiv>\n\n# Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting\nDolphin-v2 is an enhanced universal document parsing model that substantially improves upon the original Dolphin. It seamlessly handles any document type—whether digital-born or photographed—through a document-type-aware two-stage architecture with scalable anchor prompting.\n\n\n## 📑 Overview\n\nDocument image parsing is challenging due to diverse document types and complexly intertwined elements such as text paragraphs, figures, formulas, tables, and code blocks. Dolphin-v2 addresses these challenges through a document-type-aware two-stage approach:\n\n1. **🔍 Stage 1**: Document type classification (digital vs. photographed) + layout analysis with reading order prediction\n2. **🧩 Stage 2**: Hybrid parsing strategy - holistic parsing for photographed documents, parallel element-wise parsing for digital documents\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_812e1edeae17.png\" width=\"680\">\n\u003C\u002Fdiv>\n\nDolphin achieves promising performance across diverse page-level and element-level parsing tasks while ensuring superior efficiency through its lightweight architecture and parallel parsing mechanism.\n\n\u003C!-- ## 🚀 Demo\nTry our demo on [Demo-Dolphin](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FDolphin). -->\n\n## 📅 Changelog\n- 🔥 **2025.12.12** Released *Dolphin-v2* model. Upgraded to 3B parameters with 21-element detection, attribute field extraction, dedicated formula\u002Fcode parsing, and robust photographed document parsing. (Dolphin-1.5 moved to [v1.5 branch](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Ftree\u002Fv1.5))\n- 🔥 **2025.10.16** Released *Dolphin-1.5* model. While maintaining the lightweight 0.3B architecture, this version achieves significant parsing improvements. (Dolphin 1.0 moved to [v1.0 branch](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Ftree\u002Fv1.0))\n- 🔥 **2025.07.10** Released the *Fox-Page Benchmark*, a manually refined subset of the original [Fox dataset](https:\u002F\u002Fgithub.com\u002Fucaslcl\u002FFox). Download via: [Baidu Yun](https:\u002F\u002Fpan.baidu.com\u002Fshare\u002Finit?surl=t746ULp6iU5bUraVrPlMSw&pwd=fox1) | [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1yZQZqI34QCqvhB4Tmdl3X_XEvYvQyP0q\u002Fview?usp=sharing).\n- 🔥 **2025.06.30** Added [TensorRT-LLM support](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fblob\u002Fmaster\u002Fdeployment\u002Ftensorrt_llm\u002FReadMe.md) for accelerated inference！\n- 🔥 **2025.06.27** Added [vLLM support](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fblob\u002Fmaster\u002Fdeployment\u002Fvllm\u002FReadMe.md) for accelerated inference！\n- 🔥 **2025.06.13** Added multi-page PDF document parsing capability.\n- 🔥 **2025.05.21** Our demo is released at [link](http:\u002F\u002F115.190.42.15:8888\u002Fdolphin\u002F). Check it out!\n- 🔥 **2025.05.20** The pretrained model and inference code of Dolphin are released.\n- 🔥 **2025.05.16** Our paper has been accepted by ACL 2025. Paper link: [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14059).\n\n## 📈 Performance\n\n\u003Ctable style=\"width:90%; border-collapse: collapse; text-align: center;\">\n    \u003Ccaption>Comprehensive evaluation of document parsing on OmniDocBench (v1.5)\u003C\u002Fcaption>\n    \u003Cthead>\n        \u003Ctr>\n            \u003Cth style=\"text-align: center !important;\">Model\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Size\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Overall&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Text\u003Csup>Edit\u003C\u002Fsup>&#x2193;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Formula\u003Csup>CDM\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Table\u003Csup>TEDS\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Table\u003Csup>TEDS-S\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">Read Order\u003Csup>Edit\u003C\u002Fsup>&#x2193;\u003C\u002Fth>\n        \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n        \u003Ctr>\n            \u003Ctd>Dolphin\u003C\u002Ftd>\n            \u003Ctd>0.3B\u003C\u002Ftd>\n            \u003Ctd>74.67\u003C\u002Ftd>\n            \u003Ctd>0.125\u003C\u002Ftd>\n            \u003Ctd>67.85\u003C\u002Ftd>\n            \u003Ctd>68.70\u003C\u002Ftd>\n            \u003Ctd>77.77\u003C\u002Ftd>\n            \u003Ctd>0.124\u003C\u002Ftd>\n        \u003C\u002Ftr>\n        \u003Ctr>\n            \u003Ctd>Dolphin-1.5\u003C\u002Ftd>\n            \u003Ctd>0.3B\u003C\u002Ftd>\n            \u003Ctd>85.06\u003C\u002Ftd>\n            \u003Ctd>0.085\u003C\u002Ftd>\n            \u003Ctd>79.44\u003C\u002Ftd>\n            \u003Ctd>84.25\u003C\u002Ftd>\n            \u003Ctd>88.06\u003C\u002Ftd>\n            \u003Ctd>0.071\u003C\u002Ftd>\n        \u003C\u002Ftr>\n        \u003Ctr>\n            \u003Ctd>Dolphin-v2\u003C\u002Ftd>\n            \u003Ctd>3B\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>89.78\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>0.054\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>87.63\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>87.02\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>90.48\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>0.054\u003C\u002Fstrong>\u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 🛠️ Installation\n\n1. Clone the repository:\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FByteDance\u002FDolphin.git\n   cd Dolphin\n   ```\n\n2. Install the dependencies:\n   ```bash\n   pip install -r requirements.txt\n   ```\n\n3. Download the pre-trained models of *Dolphin-v2*:\n\n   Visit our Huggingface [model card](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2), or download model by:\n   \n   ```bash\n   # Download the model from Hugging Face Hub\n   git lfs install\n   git clone https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2 .\u002Fhf_model\n   # Or use the Hugging Face CLI\n   pip install huggingface_hub\n   huggingface-cli download ByteDance\u002FDolphin-v2 --local-dir .\u002Fhf_model\n   ```\n\n## ⚡ Inference\n\nDolphin provides two inference frameworks with support for two parsing granularities:\n- **Page-level Parsing**: Parse the entire document page into a structured JSON and Markdown format\n- **Element-level Parsing**: Parse individual document elements (text, table, formula)\n\n\n### 📄 Page-level Parsing\n\n```bash\n# Process a single document image\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \n\n# Process a single document pdf\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_6.pdf \n\n# Process all documents in a directory\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \n\n# Process with custom batch size for parallel element decoding\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \\\n    --max_batch_size 8\n```\n\n### 🧩 Element-level Parsing\n\n````bash\n# Process element images (specify element_type: table, formula, text, or code)\npython demo_element.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path  \\\n    --element_type [table|formula|text|code]\n````\n\n### 🎨 Layout Parsing\n````bash\n# Process a single document image\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \\\n    \n# Process a single PDF document\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_6.pdf \\\n\n# Process all documents in a directory\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \n````\n\n\n## 🌟 Key Features\n\n- 🔄 Two-stage analyze-then-parse approach based on a single VLM\n- 📊 Promising performance on document parsing tasks\n- 🔍 Natural reading order element sequence generation\n- 🧩 Heterogeneous anchor prompting for different document elements\n- ⏱️ Efficient parallel parsing mechanism\n- 🤗 Support for Hugging Face Transformers for easier integration\n\n\n## 📮 Notice\n**Call for Bad Cases:** If you have encountered any cases where the model performs poorly, we would greatly appreciate it if you could share them in the issue. We are continuously working to optimize and improve the model.\n\n## 💖 Acknowledgement\n\nWe would like to acknowledge the following open-source projects that provided inspiration and reference for this work:\n- [OmniDocBench](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FOmniDocBench)\n- [Donut](https:\u002F\u002Fgithub.com\u002Fclovaai\u002Fdonut\u002F)\n- [Nougat](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fnougat)\n- [GOT](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FGOT-OCR2.0)\n- [MinerU](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FMinerU\u002Ftree\u002Fmaster)\n- [Swin](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer)\n- [Hugging Face Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n\n## 📝 Citation\n\nIf you find this code useful for your research, please use the following BibTeX entry.\n\n```bibtex\n@article{feng2025dolphin,\n  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},\n  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and others},\n  journal={arXiv preprint arXiv:2505.14059},\n  year={2025}\n}\n```\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_2272151c151a.png)](https:\u002F\u002Fwww.star-history.com\u002F#bytedance\u002FDolphin&Date)\n","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_b94c81b7ac77.png\" width=\"300\">\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14059\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-arXiv-red\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-Dolphin-yellow\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode-Github-green\">\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-lightgray\">\n  \u003C\u002Fa>\n  \u003Cbr>\n\u003C\u002Fdiv>\n\n\u003Cbr>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_b4addc1bf8ad.gif\" width=\"800\">\n\u003C\u002Fdiv>\n\n# Dolphin：通过异构锚点提示进行文档图像解析\nDolphin-v2 是一个增强的通用文档解析模型，在原始 Dolphin 的基础上有了显著提升。它通过一种**文档类型感知（document-type-aware）**的**两阶段架构（two-stage architecture）**和可扩展的**锚点提示（anchor prompting）**，无缝处理任何类型的文档——无论是数字原生还是拍摄的。\n\n\n## 📑 概述\n\n文档图像解析具有挑战性，因为文档类型多样，且文本段落、图片、公式、表格和代码块等元素复杂交织。Dolphin-v2 通过一种文档类型感知的两阶段方法来解决这些挑战：\n\n1. **🔍 阶段 1**：文档类型分类（数字版 vs. 拍摄版）+ 带有阅读顺序预测的布局分析\n2. **🧩 阶段 2**：混合解析策略 - 拍摄文档的整体解析，数字文档的并行元素级解析\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_812e1edeae17.png\" width=\"680\">\n\u003C\u002Fdiv>\n\nDolphin 在各种**页面级（page-level）**和**元素级（element-level）**解析任务中取得了令人瞩目的性能，同时通过其**轻量级架构（lightweight architecture）**和**并行解析机制（parallel parsing mechanism）**确保了卓越的效率。\n\n\u003C!-- ## 🚀 Demo\n在我们的 [Demo-Dolphin](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FByteDance\u002FDolphin) 上试用我们的演示。 -->\n\n## 📅 更新日志\n- 🔥 **2025.12.12** 发布 *Dolphin-v2* 模型。升级至 3B 参数，支持 21 种元素检测、属性字段提取、专用公式\u002F代码解析以及鲁棒的拍摄文档解析。（Dolphin-1.5 已移至 [v1.5 分支](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Ftree\u002Fv1.5)）\n- 🔥 **2025.10.16** 发布 *Dolphin-1.5* 模型。在保持轻量级 0.3B 架构的同时，此版本实现了显著的解析改进。（Dolphin 1.0 已移至 [v1.0 分支](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Ftree\u002Fv1.0)）\n- 🔥 **2025.07.10** 发布 *Fox-Page Benchmark*，这是原始 [Fox 数据集](https:\u002F\u002Fgithub.com\u002Fucaslcl\u002FFox) 的手动优化子集。下载地址：[百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fshare\u002Finit?surl=t746ULp6iU5bUraVrPlMSw&pwd=fox1) | [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1yZQZqI34QCqvhB4Tmdl3X_XEvYvQyP0q\u002Fview?usp=sharing)。\n- 🔥 **2025.06.30** 添加 [TensorRT-LLM 支持](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fblob\u002Fmaster\u002Fdeployment\u002Ftensorrt_llm\u002FReadMe.md) 以加速推理！\n- 🔥 **2025.06.27** 添加 [vLLM 支持](https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fblob\u002Fmaster\u002Fdeployment\u002Fvllm\u002FReadMe.md) 以加速推理！\n- 🔥 **2025.06.13** 添加多页 PDF 文档解析功能。\n- 🔥 **2025.05.21** 我们的演示已在 [链接](http:\u002F\u002F115.190.42.15:8888\u002Fdolphin\u002F) 发布。快去体验吧！\n- 🔥 **2025.05.20** 发布 Dolphin 的预训练模型和推理代码。\n- 🔥 **2025.05.16** 我们的论文已被 ACL 2025 接收。论文链接：[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.14059)。\n\n## 📈 性能\n\n\u003Ctable style=\"width:90%; border-collapse: collapse; text-align: center;\">\n    \u003Ccaption>OmniDocBench (v1.5) 上的文档解析综合评估\u003C\u002Fcaption>\n    \u003Cthead>\n        \u003Ctr>\n            \u003Cth style=\"text-align: center !important;\">模型\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">大小\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">总体&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">文本\u003Csup>Edit\u003C\u002Fsup>&#x2193;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">公式\u003Csup>CDM\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">表格\u003Csup>TEDS\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">表格\u003Csup>TEDS-S\u003C\u002Fsup>&#x2191;\u003C\u002Fth>\n            \u003Cth style=\"text-align: center !important;\">阅读顺序\u003Csup>Edit\u003C\u002Fsup>&#x2193;\u003C\u002Fth>\n        \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n        \u003Ctr>\n            \u003Ctd>Dolphin\u003C\u002Ftd>\n            \u003Ctd>0.3B\u003C\u002Ftd>\n            \u003Ctd>74.67\u003C\u002Ftd>\n            \u003Ctd>0.125\u003C\u002Ftd>\n            \u003Ctd>67.85\u003C\u002Ftd>\n            \u003Ctd>68.70\u003C\u002Ftd>\n            \u003Ctd>77.77\u003C\u002Ftd>\n            \u003Ctd>0.124\u003C\u002Ftd>\n        \u003C\u002Ftr>\n        \u003Ctr>\n            \u003Ctd>Dolphin-1.5\u003C\u002Ftd>\n            \u003Ctd>0.3B\u003C\u002Ftd>\n            \u003Ctd>85.06\u003C\u002Ftd>\n            \u003Ctd>0.085\u003C\u002Ftd>\n            \u003Ctd>79.44\u003C\u002Ftd>\n            \u003Ctd>84.25\u003C\u002Ftd>\n            \u003Ctd>88.06\u003C\u002Ftd>\n            \u003Ctd>0.071\u003C\u002Ftd>\n        \u003C\u002Ftr>\n        \u003Ctr>\n            \u003Ctd>Dolphin-v2\u003C\u002Ftd>\n            \u003Ctd>3B\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>89.78\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>0.054\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>87.63\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>87.02\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>90.48\u003C\u002Fstrong>\u003C\u002Ftd>\n            \u003Ctd>\u003Cstrong>0.054\u003C\u002Fstrong>\u003C\u002Ftd>\n        \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 🛠️ 安装\n\n1. 克隆仓库：\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FByteDance\u002FDolphin.git\n   cd Dolphin\n   ```\n\n2. 安装依赖：\n   ```bash\n   pip install -r requirements.txt\n   ```\n\n3. 下载 *Dolphin-v2* 的**预训练模型（pre-trained models）**：\n\n   访问我们的 Huggingface [模型卡](https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2)，或通过以下方式下载模型：\n   \n   ```bash\n   # 从 Hugging Face Hub 下载模型\n   git lfs install\n   git clone https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2 .\u002Fhf_model\n   # 或使用 Hugging Face CLI\n   pip install huggingface_hub\n   huggingface-cli download ByteDance\u002FDolphin-v2 --local-dir .\u002Fhf_model\n   ```\n\n## ⚡ 推理\n\nDolphin 提供两个**推理框架（inference frameworks）**，支持两种**解析粒度（parsing granularities）**：\n- **📄 页面级解析（Page-level Parsing）**：将整个文档页面解析为结构化的 JSON 和 Markdown 格式\n- **🧩 元素级解析（Element-level Parsing）**：解析单个文档元素（文本、表格、公式）\n\n\n### 📄 页面级解析\n\n```bash\n# 处理单张文档图像\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \n\n# 处理单个文档 pdf\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_6.pdf \n\n# 处理目录中的所有文档\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \n\n# 使用自定义批量大小进行并行元素解码\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \\\n    --max_batch_size 8\n```\n\n### 🧩 元素级解析\n\n```bash\n\n# 处理元素图像（指定 element_type: table、formula、text 或 code）\n```\n# Process element images (specify element_type: table, formula, text, or code)\npython demo_element.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path  \\\n    --element_type [table|formula|text|code]\n```\n\n### 🎨 布局解析\n```bash\n# Process a single document image\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \n    \n# Process a single PDF document\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_6.pdf \n\n# Process all documents in a directory\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \n```\n\n\n## 🌟 主要特性\n\n- 🔄 基于单个 VLM（视觉语言模型）的两阶段分析后解析方法\n- 📊 在文档解析任务上表现优异\n- 🔍 自然阅读顺序的元素序列生成\n- 🧩 针对不同文档元素的异构锚点提示\n- ⏱️ 高效的并行解析机制\n- 🤗 支持 Hugging Face Transformers 库以便更轻松地集成\n\n\n## 📮 注意事项\n**征集错误案例：** 如果您遇到任何模型表现不佳的案例，我们非常希望您能在 Issue 中分享。我们正在持续努力优化和改进模型。\n\n## 💖 致谢\n\n我们要感谢以下为我们工作提供灵感和参考的开源项目：\n- [OmniDocBench](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FOmniDocBench)\n- [Donut](https:\u002F\u002Fgithub.com\u002Fclovaai\u002Fdonut\u002F)\n- [Nougat](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fnougat)\n- [GOT](https:\u002F\u002Fgithub.com\u002FUcas-HaoranWei\u002FGOT-OCR2.0)\n- [MinerU](https:\u002F\u002Fgithub.com\u002Fopendatalab\u002FMinerU\u002Ftree\u002Fmaster)\n- [Swin](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer)\n- [Hugging Face Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n\n## 📝 引用\n\n如果您的研究使用了此代码，请使用以下 BibTeX 条目。\n\n```bibtex\n@article{feng2025dolphin,\n  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},\n  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and others},\n  journal={arXiv preprint arXiv:2505.14059},\n  year={2025}\n}\n```\n\n## Star 历史\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_readme_2272151c151a.png)](https:\u002F\u002Fwww.star-history.com\u002F#bytedance\u002FDolphin&Date)","# Dolphin 文档解析模型快速上手指南\n\n**Dolphin-v2** 是一款增强的通用文档解析模型，采用文档类型感知的两阶段架构，能够无缝处理数字版或拍摄版的各类文档。它支持页面级和元素级的结构化解析（JSON\u002FMarkdown），在保持轻量化的同时实现了高效的并行解析。\n\n## 1. 环境准备\n\n建议配置如下：\n- **操作系统**: Linux \u002F macOS \u002F Windows\n- **Python**: 3.8 及以上版本\n- **硬件**: 推荐使用 NVIDIA GPU (CUDA 环境)，以发挥最佳推理性能\n- **依赖**: 需安装 `git-lfs` 用于大文件下载\n\n## 2. 安装步骤\n\n### 克隆代码仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FByteDance\u002FDolphin.git\ncd Dolphin\n```\n\n### 安装依赖\n```bash\npip install -r requirements.txt\n```\n\n### 下载预训练模型\n访问 HuggingFace 下载 **Dolphin-v2** 模型权重（约 3B 参数）：\n\n```bash\n# 确保已安装 git-lfs\ngit lfs install\n\n# 方式一：使用 git clone 下载\ngit clone https:\u002F\u002Fhuggingface.co\u002FByteDance\u002FDolphin-v2 .\u002Fhf_model\n\n# 方式二：或使用 huggingface-cli 下载\npip install huggingface_hub\nhuggingface-cli download ByteDance\u002FDolphin-v2 --local-dir .\u002Fhf_model\n```\n\n## 3. 基本使用\n\n模型支持多种解析粒度，以下是最常用的页面级解析命令。请根据实际路径替换 `--input_path` 和 `--save_dir`。\n\n### 页面级解析 (Page-level Parsing)\n将整页文档解析为结构化的 JSON 和 Markdown 格式。\n\n**单张图片：**\n```bash\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \n```\n\n**单个 PDF 文档：**\n```bash\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_6.pdf \n```\n\n**批量处理目录：**\n```bash\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \n```\n\n**自定义批处理大小（并行解码）：**\n```bash\npython demo_page.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs \\\n    --max_batch_size 8\n```\n\n### 布局解析 (Layout Parsing)\n仅提取文档的布局信息（如文本框、表格位置等）。\n\n```bash\npython demo_layout.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path .\u002Fdemo\u002Fpage_imgs\u002Fpage_1.png \n```\n\n### 元素级解析 (Element-level Parsing)\n针对特定元素类型（表格、公式、文本、代码）进行精细解析。\n\n```bash\npython demo_element.py --model_path .\u002Fhf_model --save_dir .\u002Fresults \\\n    --input_path [element_image_path] \\\n    --element_type [table|formula|text|code]\n```\n\n---\n*更多部署优化方案（如 TensorRT-LLM, vLLM）请参考项目根目录下的 deployment 文件夹说明。*","某金融合规团队正在处理海量历史保单，需要将扫描件与电子 PDF 统一转换为可编辑的结构化数据以进行风险审查。\n\n### 没有 Dolphin 时\n- 传统 OCR 引擎难以准确识别保单中的复杂表格和数学公式，导致关键理赔数据丢失。\n- 扫描件与原生电子文档格式差异大，需要两套不同的处理流程，系统维护成本极高。\n- 页面布局混乱时，阅读顺序预测不准，提取出的文本逻辑支离破碎，无法直接入库。\n- 批量处理速度缓慢，面对万级文档量级，依赖人工介入校对几乎不可行且易出错。\n\n### 使用 Dolphin 后\n- Dolphin 通过异构锚点提示机制，精准还原表格、代码及公式的层级结构，数据完整性显著提升。\n- 内置文档类型感知架构，自动适配扫描件与数字文档，无需切换模型或调整预处理流程。\n- 两阶段解析策略确保阅读顺序正确，直接输出高保真的结构化 JSON 数据，减少清洗步骤。\n- 结合 vLLM 加速推理，单张复杂保单解析仅需毫秒级，大幅提升整体吞吐效率，支持实时处理。\n\nDolphin 让法律与金融领域的非结构化文档处理实现了高精度与高效率的双重突破。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbytedance_Dolphin_dee91afd.png","bytedance","Bytedance Inc.","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbytedance_7fee2b15.png","",null,"ByteDanceOSS","https:\u002F\u002Fopensource.bytedance.com","https:\u002F\u002Fgithub.com\u002Fbytedance",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,8888,755,"2026-04-05T04:39:36","NOASSERTION","未说明","未说明 (支持 TensorRT\u002FvLLM 暗示需 NVIDIA 环境)",{"notes":95,"python":92,"dependencies":96},"Dolphin-v2 为 3B 参数模型，Dolphin-1.5 为 0.3B；支持数字文档与拍摄文档解析；需从 HuggingFace 下载模型权重；提供页面级和元素级两种解析粒度；支持多页 PDF 处理。",[97],"未说明 (需安装 requirements.txt)",[14],[100,101,102,103,104,105,106,107,108],"document-analysis","layout-analysis","ocr","parser","pdf","pdf-converter","pdf-parser","python","vlm-ocr",4,"2026-03-27T02:49:30.150509","2026-04-06T05:27:27.692157",[113,118,123,128,133,138,143],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},2855,"运行时报错'checkpoint mismatches the current model architecture'怎么办？","这通常是由于模型文件版本或依赖库版本不匹配导致的。建议检查以下几点：1. 确保使用正确的模型文件类型（HF 模型为.safetensors，Google Drive 链接为.bin）；2. 尝试安装特定版本的 timm 库，如 pip install timm==0.5.4，因为 SwinTransformer 的定义在不同版本间有变化。如果问题依旧，请确认是否安装了带 CUDA 支持的 torch。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F32",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},2856,"部署 Dolphin 模型的最小显存要求是多少？T4 卡爆显存如何解决？","如果遇到显存不足的情况，官方推荐使用 vLLM 进行加速推理。项目已添加 vLLM 支持，具体部署路径为 deployment\u002Fvllm。此外，调整 batch size 可能不会显著提升性能，建议参考官方提供的 vLLM 部署文档进行优化。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F2",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},2857,"为什么有些简单的 PDF 在 Demo 上无法解析？","Demo 端存在网关限制，部分 PDF 文件（如页数较少但结构复杂）可能无法处理。如果 Demo 报错或无反应，建议直接使用源代码进行本地推理。官方测试确认了该文件无法通过 Demo 解析，本地源码是更可靠的方案。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F79",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},2858,"如何像 Demo 一样输入 PDF 直接输出完整的 Markdown？跨页表格能合并吗？","Demo 目前已更新支持多页 PDF 输入。关于跨页表格合并功能，目前尚未完全支持，属于后续计划中的功能。如果需要完整识别结果合并，建议关注后续更新或使用本地源码尝试。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F46",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},2859,"使用 vLLM 部署 Dolphin 时出现 TransformersModel 错误怎么办？","这可能是由于当前 vLLM 版本对 VisionEncoderDecoder 架构的支持问题。遇到 Model architectures ['TransformersModel'] failed to be inspected 错误时，请检查 vLLM 与模型架构的兼容性，可能需要更新 vLLM 版本或确认远程代码信任设置（--trust-remote-code）。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F71",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},2860,"表格单元格包含图片时，Dolphin 能正确解析吗？","目前对于表格单元格内包含图片的情况，解析效果不佳，尚未完全解决。这是一个已知的局限性，如果您遇到此类情况，欢迎反馈以便后续改进。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F89",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},2861,"如果发现模型识别效果不好，应该如何反馈？","维护者正在收集 Bad Cases 以改进模型。如果您遇到模型表现不佳的案例（如法律案件人名未解析、代码算法语义丢失等），请在 Issue 中分享相关案例和截图，这将有助于团队优化模型性能。","https:\u002F\u002Fgithub.com\u002Fbytedance\u002FDolphin\u002Fissues\u002F21",[]]