[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-adithya-s-k--omniparse":3,"tool-adithya-s-k--omniparse":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":111,"github_topics":113,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":122,"updated_at":123,"faqs":124,"releases":155},7432,"adithya-s-k\u002Fomniparse","omniparse","Ingest, parse, and optimize any data format ➡️ from documents to multimedia ➡️ for enhanced compatibility with GenAI frameworks","OmniParse 是一个专为生成式 AI 打造的本地化数据解析平台，旨在将各种非结构化数据转化为大模型易于理解的结构化内容。无论是文档、表格、图片，还是音视频文件或网页，它都能将其清洗并转换为高质量的 Markdown 格式，直接服务于 RAG（检索增强生成）、模型微调等 AI 应用场景。\n\n在数据处理中，格式杂乱和提取困难常是开发者的痛点。OmniParse 通过统一的接口解决了这一难题，让多模态数据变得“即插即用”。其独特亮点在于完全本地运行，无需依赖外部 API，既保障了数据隐私，又能在单张 T4 GPU 上流畅运行。它支持约 20 种文件格式，集成了 Surya OCR、Florence-2 视觉模型及 Whisper 语音识别技术，具备强大的表格提取、图像描述生成及音视频转录能力。此外，项目提供 Docker 部署方案和基于 Gradio 的交互式界面，对 Google Colab 用户也十分友好。\n\n这款工具非常适合需要构建 AI 应用的后端开发者、从事大模型研究的研究人员，以及希望快速验证数据流程的技术团队。如果你正在寻找一个高效、私密且功能全面的数据预处理方案，Omn","OmniParse 是一个专为生成式 AI 打造的本地化数据解析平台，旨在将各种非结构化数据转化为大模型易于理解的结构化内容。无论是文档、表格、图片，还是音视频文件或网页，它都能将其清洗并转换为高质量的 Markdown 格式，直接服务于 RAG（检索增强生成）、模型微调等 AI 应用场景。\n\n在数据处理中，格式杂乱和提取困难常是开发者的痛点。OmniParse 通过统一的接口解决了这一难题，让多模态数据变得“即插即用”。其独特亮点在于完全本地运行，无需依赖外部 API，既保障了数据隐私，又能在单张 T4 GPU 上流畅运行。它支持约 20 种文件格式，集成了 Surya OCR、Florence-2 视觉模型及 Whisper 语音识别技术，具备强大的表格提取、图像描述生成及音视频转录能力。此外，项目提供 Docker 部署方案和基于 Gradio 的交互式界面，对 Google Colab 用户也十分友好。\n\n这款工具非常适合需要构建 AI 应用的后端开发者、从事大模型研究的研究人员，以及希望快速验证数据流程的技术团队。如果你正在寻找一个高效、私密且功能全面的数据预处理方案，OmniParse 能让你的数据准备工作变得更加轻松有序。","# OmniParse\n\n![OmniParse](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fadithya-s-k_omniparse_readme_9838fce37da2.png)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fadithya-s-k\u002Fomniparse?style=social)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fstargazers)\n[![GitHub Forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fadithya-s-k\u002Fomniparse?style=social)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fnetwork\u002Fmembers)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues)\n[![GitHub Pull Requests](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fpulls)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fblob\u002Fmain\u002FLICENSE)\n\n\n> [!IMPORTANT]\n>\n>OmniParse is a platform that ingests and parses any unstructured data into structured, actionable data optimized for GenAI (LLM) applications. Whether you are working with documents, tables, images, videos, audio files, or web pages, OmniParse prepares your data to be clean, structured, and ready for AI applications such as RAG, fine-tuning, and more\n\n## Try it out\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fadithya-s-k\u002Fomniparse\u002Fblob\u002Fmain\u002Fexamples\u002FOmniParse_GoogleColab.ipynb)\n\n## Intro\nhttps:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fassets\u002F27956426\u002F457d8b5b-9573-44da-8bcf-616000651a13\n\n## Features\n✅ Completely local, no external APIs  \\\n✅ Fits in a T4 GPU \\\n✅ Supports ~20 file types  \\\n✅ Convert documents, multimedia, and web pages to high-quality structured markdown  \\\n✅ Table extraction, image extraction\u002Fcaptioning, audio\u002Fvideo transcription, web page crawling  \\\n✅ Easily deployable using Docker and Skypilot  \\\n✅ Colab friendly  \\\n✅ Interative UI powered by Gradio  \n\n### Why OmniParse ?\nIt's challenging to process data as it comes in different shapes and sizes. OmniParse aims to be an ingestion\u002Fparsing platform where you can ingest any type of data, such as documents, images, audio, video, and web content, and get the most structured and actionable output that is GenAI (LLM) friendly.\n\n## Installation\n> [!IMPORTANT] \n> The server only works on Linux-based systems. This is due to certain dependencies and system-specific configurations that are not compatible with Windows or macOS.\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\ncd omniparse\n```\n\nCreate a Virtual Environment:\n\n```bash\nconda create -n omniparse-venv python=3.10\nconda activate omniparse-venv\n```\n\nInstall Dependencies:\n\n```bash\npoetry install\n# or\npip install -e .\n# or\npip install -r pyproject.toml\n```\n\n### 🛳️ Docker\n\nTo use OmniParse with Docker, execute the following commands:\n\n1. Pull the OmniParse API Docker image from Docker Hub:\n2. Run the Docker container, exposing port 8000:\n 👉🏼[Docker Image](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fsavatar101\u002Fomniparse)\n```bash\ndocker pull savatar101\u002Fomniparse:0.1\n# if you are running on a gpu \ndocker run --gpus all -p 8000:8000 savatar101\u002Fomniparse:0.1\n# else\ndocker run -p 8000:8000 savatar101\u002Fomniparse:0.1\n```\n\nAlternatively, if you prefer to build the Docker image locally:\nThen, run the Docker container as follows:\n\n```bash\ndocker build -t omniparse .\n# if you are running on a gpu\ndocker run --gpus all -p 8000:8000 omniparse\n# else\ndocker run -p 8000:8000 omniparse\n\n```\n## Usage\n\nRun the Server:\n\n```bash\npython server.py --host 0.0.0.0 --port 8000 --documents --media --web\n```\n\n- `--documents`: Load in all the models that help you parse and ingest documents (Surya OCR series of models and Florence-2).\n- `--media`: Load in Whisper model to transcribe audio and video files.\n- `--web`: Set up selenium crawler.\n\nDownload Models:\nIf you want to download the models before starting the server\n\n```bash\npython download.py --documents --media --web\n```\n\n- `--documents`: Load in all the models that help you parse and ingest documents (Surya OCR series of models and Florence-2).\n- `--media`: Load in Whisper model to transcribe audio and video files.\n- `--web`: Set up selenium crawler.\n\n## Supported Data Types\n\n| Type      | Supported Extensions                                |\n|-----------|-----------------------------------------------------|\n| Documents | .doc, .docx, .pdf, .ppt, .pptx                      |\n| Images    | .png, .jpg, .jpeg, .tiff, .bmp, .heic               |\n| Video     | .mp4, .mkv, .avi, .mov                              |\n| Audio     | .mp3, .wav, .aac                                    |\n| Web       | dynamic webpages, http:\u002F\u002F\u003Canything>.com             |\n\n\n\u003Cdetails>\n\u003Csummary>\u003Ch2>API Endpoints\u003C\u002Fh>\u003C\u002Fsummary>\n\n> Client library compatible with Langchain, llamaindex, and haystack integrations coming soon.\n\n- [API Endpoints](#api-endpoints)\n  - [Document Parsing](#document-parsing)\n    - [Parse Any Document](#parse-any-document)\n    - [Parse PDF](#parse-pdf)\n    - [Parse PowerPoint](#parse-powerpoint)\n    - [Parse Word Document](#parse-word-document)\n  - [Media Parsing](#media-parsing)\n    - [Parse Any Media](#parse-any-media)\n    - [Parse Image](#parse-image)\n    - [Process Image](#process-image)\n    - [Parse Video](#parse-video)\n    - [Parse Audio](#parse-audio)\n  - [Website Parsing](#website-parsing)\n    - [Parse Website](#parse-website)\n\n### Document Parsing\n\n#### Parse Any Document\n\nEndpoint: `\u002Fparse_document`\nMethod: POST\n\nParses PDF, PowerPoint, or Word documents.\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\n```\n\n#### Parse PDF\n\nEndpoint: `\u002Fparse_document\u002Fpdf`\nMethod: POST\n\nParses PDF documents.\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument.pdf\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fpdf\n```\n\n#### Parse PowerPoint\n\nEndpoint: `\u002Fparse_document\u002Fppt`\nMethod: POST\n\nParses PowerPoint presentations.\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fpresentation.ppt\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fppt\n```\n\n#### Parse Word Document\n\nEndpoint: `\u002Fparse_document\u002Fdocs`\nMethod: POST\n\nParses Word documents.\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument.docx\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fdocs\n```\n\n### Media Parsing\n\n\u003C!-- #### Parse Any Media\n\nEndpoint: `\u002Fparse_media`\nMethod: POST\n\nParses images, videos, or audio files.\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fmedia_file\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\n``` -->\n\n#### Parse Image\n\nEndpoint: `\u002Fparse_image\u002Fimage`\nMethod: POST\n\nParses image files (PNG, JPEG, JPG, TIFF, WEBP).\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fimage.jpg\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fimage\n```\n\n#### Process Image\n\nEndpoint: `\u002Fparse_image\u002Fprocess_image`\nMethod: POST\n\nProcesses an image with a specific task.\n\nPossible task inputs:\n`OCR | OCR with Region | Caption | Detailed Caption | More Detailed Caption | Object Detection | Dense Region Caption | Region Proposal`\n\nCurl command:\n```\ncurl -X POST -F \"image=@\u002Fpath\u002Fto\u002Fimage.jpg\" -F \"task=Caption\" -F \"prompt=Optional prompt\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fprocess_image\n```\n\nArguments:\n- `image`: The image file\n- `task`: The processing task (e.g., Caption, Object Detection)\n- `prompt`: Optional prompt for certain tasks\n\n#### Parse Video\n\nEndpoint: `\u002Fparse_media\u002Fvideo`\nMethod: POST\n\nParses video files (MP4, AVI, MOV, MKV).\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fvideo.mp4\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fvideo\n```\n\n#### Parse Audio\n\nEndpoint: `\u002Fparse_media\u002Faudio`\nMethod: POST\n\nParses audio files (MP3, WAV, FLAC).\n\nCurl command:\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Faudio.mp3\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Faudio\n```\n\n### Website Parsing\n\n#### Parse Website\n\nEndpoint: `\u002Fparse_website\u002Fparse`\nMethod: POST\n\nParses a website given its URL.\n\nCurl command:\n```\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"url\": \"https:\u002F\u002Fexample.com\"}' http:\u002F\u002Flocalhost:8000\u002Fparse_website\n```\nArguments:\n- `url`: The URL of the website to parse\n\n\u003C\u002Fdetails>\n\n\n## Coming Soon\u002F RoadMap\n🦙 LlamaIndex | Langchain | Haystack integrations coming soon\n📚 Batch processing data\n⭐ Dynamic chunking and structured data extraction based on specified Schema  \n🛠️ One magic API: just feed in your file prompt what you want, and we will take care of the rest  \n🔧 Dynamic model selection and support for external APIs  \n📄 Batch processing for handling multiple files at once  \n📦 New open-source model to replace Surya OCR and Marker  \n\n**Final goal**: replace all the different models currently being used with a single MultiModel Model to parse any type of data and get the data you need.\n\n\n## Limitations\nThere is a need for a GPU with 8~10 GB minimum VRAM as we are using deep learning models.\n\\\n\nDocument Parsing Limitations\n\\\n- [Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker) which is the underlying PDF parser will not convert 100% of equations to LaTeX because it has to detect and then convert them.\n- It is good at parsing english but might struggle for languages such as Chinese\n- Tables are not always formatted 100% correctly; text can be in the wrong column.\n- Whitespace and indentations are not always respected.\n- Not all lines\u002Fspans will be joined properly.\n- This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.\n- To fit all the models in the GPU, we are using the smallest variants, which might not offer the best-in-class performance.\n\n## License\nOmniParse is licensed under the GPL-3.0 license. See `LICENSE` for more information.\nThe project uses Marker under the hood, which has a commercial license that needs to be followed. Here are the details:\n\n### Commercial Usage\nMarker and Surya OCR Models are designed to be as widely accessible as possible while still funding development and training costs. Research and personal usage are always allowed, but there are some restrictions on commercial usage.\nThe weights for the models are licensed under cc-by-nc-sa-4.0. However, this restriction is waived for any organization with less than $5M USD in gross revenue in the most recent 12-month period AND less than $5M in lifetime VC\u002Fangel funding raised. To remove the GPL license requirements (dual-license) and\u002For use the weights commercially over the revenue limit, check out the options provided.\nPlease refer to [Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker) for more Information about the License of the Model weights\n\n## Acknowledgements\n\nThis project builds upon the remarkable [Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker) project created by [Vik Paruchuri](https:\u002F\u002Ftwitter.com\u002FVikParuchuri). We express our gratitude for the inspiration and foundation provided by this project. Special thanks to [Surya-OCR](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fsurya) and [Texify](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Ftexify) for the OCR models extensively used in this project, and to [Crawl4AI](https:\u002F\u002Fgithub.com\u002Funclecode\u002Fcrawl4ai) for their contributions.\n\nModels being used:\n- Surya OCR, Detect, Layout, Order, and Texify\n- Florence-2 base\n- Whisper Small\n\nThank you to the authors for their contributions to these models.\n\n---\n\n## Contact\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fadithyask.com\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fadithya-s-k_omniparse_readme_e0f5d73c9bf3.png\" alt=\"Star History Chart\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\nFor any inquiries, please contact us at adithyaskolavi@gmail.com\n\n\n\u003C!-- \nInstall the client:\n\n```bash\npip install omniparse_client\n```\n\nExample usage:\n\n```python\nfrom omniparse_client import OmniParse\n\n# Initialize the parser\nparser = OmniParse(\n    base_url=\"http:\u002F\u002Flocalhost:8000\",\n    api_key=\"op-...\",  # get the API key from dev.omniparse.com\n    verbose=True,\n    language=\"en\"\n)\n\n# Parse a document\ndocument = parser.load_data('path\u002Fto\u002Fdocument.pdf')\n\n# Convert to markdown\nparser.save_to_markdown(document)\n```\n -->\n","# OmniParse\n\n![OmniParse](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fadithya-s-k_omniparse_readme_9838fce37da2.png)\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fadithya-s-k\u002Fomniparse?style=social)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fstargazers)\n[![GitHub 分叉](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fadithya-s-k\u002Fomniparse?style=social)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fnetwork\u002Fmembers)\n[![GitHub 问题](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues)\n[![GitHub 拉取请求](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fpulls)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fadithya-s-k\u002Fomniparse)](https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fblob\u002Fmain\u002FLICENSE)\n\n\n> [!重要]\n>\n> OmniParse 是一个平台，可将任何非结构化数据摄取并解析为结构化、可操作的数据，专为 GenAI（LLM）应用优化。无论您处理的是文档、表格、图像、视频、音频文件还是网页，OmniParse 都能将您的数据整理得干净、结构化，并使其准备好用于 RAG、微调等 AI 应用。\n\n## 试用\n[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fadithya-s-k\u002Fomniparse\u002Fblob\u002Fmain\u002Fexamples\u002FOmniParse_GoogleColab.ipynb)\n\n## 简介\nhttps:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fassets\u002F27956426\u002F457d8b5b-9573-44da-8bcf-616000651a13\n\n## 特性\n✅ 完全本地运行，无需外部 API \\\n✅ 可在 T4 GPU 上运行 \\\n✅ 支持约 20 种文件类型 \\\n✅ 将文档、多媒体和网页转换为高质量的结构化 Markdown \\\n✅ 表格提取、图像提取与标注、音频\u002F视频转录、网页爬取 \\\n✅ 可通过 Docker 和 Skypilot 轻松部署 \\\n✅ 适合 Colab 使用 \\\n✅ 基于 Gradio 的交互式 UI  \n\n### 为什么选择 OmniParse？\n处理数据时，数据往往形态各异、大小不一，这带来了不小的挑战。OmniParse 致力于成为一个数据摄取与解析平台，您可以将文档、图像、音频、视频以及网页内容等多种类型的数据导入其中，从而获得最结构化的、易于操作且适合 GenAI（LLM）应用的输出。\n\n## 安装\n> [!重要] \n> 该服务器仅支持基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\ncd omniparse\n```\n\n创建虚拟环境：\n\n```bash\nconda create -n omniparse-venv python=3.10\nconda activate omniparse-venv\n```\n\n安装依赖：\n\n```bash\npoetry install\n# 或\npip install -e .\n# 或\npip install -r pyproject.toml\n```\n\n### 🛳️ Docker\n\n要使用 Docker 运行 OmniParse，请执行以下命令：\n\n1. 从 Docker Hub 拉取 OmniParse API 的 Docker 镜像：\n2. 运行 Docker 容器，暴露 8000 端口：\n 👉🏼[Docker 镜像](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fsavatar101\u002Fomniparse)\n```bash\ndocker pull savatar101\u002Fomniparse:0.1\n# 如果您在 GPU 上运行\ndocker run --gpus all -p 8000:8000 savatar101\u002Fomniparse:0.1\n# 否则\ndocker run -p 8000:8000 savatar101\u002Fomniparse:0.1\n```\n\n或者，如果您更倾向于在本地构建 Docker 镜像：\n然后按如下方式运行 Docker 容器：\n\n```bash\ndocker build -t omniparse .\n# 如果您在 GPU 上运行\ndocker run --gpus all -p 8000:8000 omniparse\n# 否则\ndocker run -p 8000:8000 omniparse\n\n```\n## 使用\n\n运行服务器：\n\n```bash\npython server.py --host 0.0.0.0 --port 8000 --documents --media --web\n```\n\n- `--documents`: 加载所有用于解析和摄取文档的模型（Surya OCR 系列模型和 Florence-2）。\n- `--media`: 加载 Whisper 模型以转录音频和视频文件。\n- `--web`: 设置 Selenium 爬虫。\n\n下载模型：\n如果您希望在启动服务器之前下载模型，\n\n```bash\npython download.py --documents --media --web\n```\n\n- `--documents`: 加载所有用于解析和摄取文档的模型（Surya OCR 系列模型和 Florence-2）。\n- `--media`: 加载 Whisper 模型以转录音频和视频文件。\n- `--web`: 设置 Selenium 爬虫。\n\n## 支持的数据类型\n\n| 类型      | 支持的扩展名                                |\n|-----------|-----------------------------------------------------|\n| 文档      | .doc, .docx, .pdf, .ppt, .pptx                      |\n| 图像      | .png, .jpg, .jpeg, .tiff, .bmp, .heic               |\n| 视频      | .mp4, .mkv, .avi, .mov                              |\n| 音频      | .mp3, .wav, .aac                                    |\n| 网页      | 动态网页，http:\u002F\u002F\u003Canything>.com             |\n\n\n\u003Cdetails>\n\u003Csummary>\u003Ch2>API 端点\u003C\u002Fh2>\u003C\u002Fsummary>\n\n> 兼容 Langchain、llamaindex 和 haystack 集成的客户端库即将推出。\n\n- [API 端点](#api-endpoints)\n  - [文档解析](#document-parsing)\n    - [解析任意文档](#parse-any-document)\n    - [解析 PDF](#parse-pdf)\n    - [解析 PowerPoint](#parse-powerpoint)\n    - [解析 Word 文档](#parse-word-document)\n  - [媒体解析](#media-parsing)\n    - [解析任意媒体](#parse-any-media)\n    - [解析图像](#parse-image)\n    - [处理图像](#process-image)\n    - [解析视频](#parse-video)\n    - [解析音频](#parse-audio)\n  - [网站解析](#website-parsing)\n    - [解析网站](#parse-website)\n\n### 文档解析\n\n#### 解析任意文档\n\n端点：`\u002Fparse_document`\n方法：POST\n\n可解析 PDF、PowerPoint 或 Word 文档。\n\nCurl 命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\n```\n\n#### 解析 PDF\n\n端点：`\u002Fparse_document\u002Fpdf`\n方法：POST\n\n可解析 PDF 文档。\n\nCurl 命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument.pdf\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fpdf\n```\n\n#### 解析 PowerPoint\n\n端点：`\u002Fparse_document\u002Fppt`\n方法：POST\n\n可解析 PowerPoint 演示文稿。\n\nCurl 命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fpresentation.ppt\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fppt\n```\n\n#### 解析 Word 文档\n\n端点：`\u002Fparse_document\u002Fdocs`\n方法：POST\n\n可解析 Word 文档。\n\nCurl 命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument.docx\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\u002Fdocs\n```\n\n### 媒体解析\n\n\u003C!--\n#### 解析任意媒体\n\n端点：`\u002Fparse_media`\n方法：POST\n\n解析图片、视频或音频文件。\n\nCurl命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fmedia_file\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\n``` -->\n\n#### 解析图片\n\n端点：`\u002Fparse_image\u002Fimage`\n方法：POST\n\n解析图片文件（PNG、JPEG、JPG、TIFF、WEBP）。\n\nCurl命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fimage.jpg\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fimage\n```\n\n#### 处理图片\n\n端点：`\u002Fparse_image\u002Fprocess_image`\n方法：POST\n\n对图片执行特定任务的处理。\n\n可能的任务输入：\n`OCR | OCR带区域 | 文字说明 | 详细文字说明 | 更详细文字说明 | 物体检测 | 密集区域文字说明 | 区域建议`\n\nCurl命令：\n```\ncurl -X POST -F \"image=@\u002Fpath\u002Fto\u002Fimage.jpg\" -F \"task=Caption\" -F \"prompt=可选提示\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fprocess_image\n```\n\n参数：\n- `image`: 图片文件\n- `task`: 处理任务（例如，文字说明、物体检测）\n- `prompt`: 某些任务的可选提示\n\n#### 解析视频\n\n端点：`\u002Fparse_media\u002Fvideo`\n方法：POST\n\n解析视频文件（MP4、AVI、MOV、MKV）。\n\nCurl命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fvideo.mp4\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fvideo\n```\n\n#### 解析音频\n\n端点：`\u002Fparse_media\u002Faudio`\n方法：POST\n\n解析音频文件（MP3、WAV、FLAC）。\n\nCurl命令：\n```\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Faudio.mp3\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Faudio\n```\n\n### 网站解析\n\n#### 解析网站\n\n端点：`\u002Fparse_website\u002Fparse`\n方法：POST\n\n根据给定的URL解析网站。\n\nCurl命令：\n```\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"url\": \"https:\u002F\u002Fexample.com\"}' http:\u002F\u002Flocalhost:8000\u002Fparse_website\n```\n\n参数：\n- `url`: 要解析的网站URL\n\n\u003C\u002Fdetails>\n\n\n## 即将推出\u002F路线图\n🦙 LlamaIndex | Langchain | Haystack 集成即将推出\n📚 批量数据处理\n⭐ 基于指定Schema的动态分块和结构化数据提取  \n🛠️ 一个神奇的API：只需上传文件并告知需求，剩下的交给我们  \n🔧 动态模型选择和支持外部API  \n📄 批量处理功能，可同时处理多个文件  \n📦 新的开源模型将取代Surya OCR和Marker  \n\n**最终目标**：用单一的多模型架构替代当前使用的各种模型，以解析任何类型的数据并获取所需信息。\n\n\n## 局限性\n由于我们使用深度学习模型，因此需要至少配备8~10 GB显存的GPU。\n\n文档解析局限性\n\\\n- [Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker) 是底层的PDF解析器，它无法将所有公式100%转换为LaTeX格式，因为需要先检测再进行转换。\n- 它擅长解析英文内容，但在中文等其他语言上可能会遇到困难。\n- 表格并不总是能被完全正确地格式化；文本可能会出现在错误的列中。\n- 空白和缩进有时不会被准确保留。\n- 并非所有行或段落都能被正确连接。\n- 此工具最适合用于不需要大量OCR处理的数字PDF文件。它在速度上进行了优化，仅使用有限的OCR来修复错误。\n- 为了将所有模型适配到GPU中，我们采用了最小版本，这可能导致性能不如同类最佳方案。\n\n## 许可证\nOmniParse采用GPL-3.0许可证。更多信息请参阅`LICENSE`文件。\n该项目内部使用了Marker，其商业许可需遵守。具体如下：\n\n### 商业用途\nMarker和Surya OCR模型旨在尽可能广泛地普及，同时确保开发和训练成本得到支持。研究和个人使用始终是允许的，但商业使用存在一些限制。\n模型权重采用cc-by-nc-sa-4.0许可。然而，对于最近12个月内总收入低于500万美元且累计风险投资\u002F天使轮融资总额也低于500万美元的组织，此限制将被豁免。若希望解除GPL许可要求（双重许可）或在收入超过上述限额的情况下商业化使用这些权重，请查看相关选项。\n有关模型权重许可的更多信息，请参阅[Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker)。\n\n## 致谢\n\n本项目基于[Vik Paruchuri](https:\u002F\u002Ftwitter.com\u002FVikParuchuri)创建的杰出项目[Marker](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fmarker)。我们感谢该项目提供的灵感与基础。特别感谢[Surya-OCR](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Fsurya)和[Texify](https:\u002F\u002Fgithub.com\u002FVikParuchuri\u002Ftexify)为本项目广泛使用的OCR模型，以及[Crawl4AI](https:\u002F\u002Fgithub.com\u002Funclecode\u002Fcrawl4ai)所做的贡献。\n\n所使用的模型：\n- Surya OCR、Detect、Layout、Order和Texify\n- Florence-2 base\n- Whisper Small\n\n感谢这些模型的作者们做出的贡献。\n\n---\n\n## 联系方式\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fadithyask.com\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fadithya-s-k_omniparse_readme_e0f5d73c9bf3.png\" alt=\"星史图表\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n如有任何疑问，请发送邮件至 adithyaskolavi@gmail.com\n\n\n\u003C!--\n安装客户端：\n\n```bash\npip install omniparse_client\n```\n\n使用示例：\n\n```python\nfrom omniparse_client import OmniParse\n\n# 初始化解析器\nparser = OmniParse(\n    base_url=\"http:\u002F\u002Flocalhost:8000\",\n    api_key=\"op-...\",  # 从dev.omniparse.com获取API密钥\n    verbose=True,\n    language=\"en\"\n)\n\n# 解析文档\ndocument = parser.load_data('path\u002Fto\u002Fdocument.pdf')\n\n# 转换为Markdown\nparser.save_to_markdown(document)\n```\n -->","# OmniParse 快速上手指南\n\nOmniParse 是一个本地化的数据解析平台，能够将非结构化数据（文档、图片、音视频、网页）转换为适合大语言模型（LLM）和 RAG 应用的结构化 Markdown 数据。它完全在本地运行，无需外部 API，且支持在 T4 GPU 上部署。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：仅限 **Linux** 系统（由于依赖项限制，不支持 Windows 或 macOS）。\n- **GPU 显存**：建议至少 **8~10 GB** VRAM（用于加载深度学习模型）。\n- **Python 版本**：推荐 Python 3.10。\n\n### 前置依赖\n确保系统已安装以下工具：\n- Git\n- Conda (推荐) 或 Python venv\n- Docker (可选，用于容器化部署)\n- NVIDIA GPU 驱动及 CUDA 工具包 (如需 GPU 加速)\n\n---\n\n## 安装步骤\n\n### 方法一：源码安装（推荐）\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\n   cd omniparse\n   ```\n\n2. **创建并激活虚拟环境**\n   ```bash\n   conda create -n omniparse-venv python=3.10\n   conda activate omniparse-venv\n   ```\n\n3. **安装依赖**\n   推荐使用 `poetry`，也可使用 `pip`：\n   ```bash\n   poetry install\n   # 或者\n   pip install -e .\n   ```\n\n### 方法二：Docker 部署\n\n如果你希望快速启动服务，可以使用 Docker：\n\n1. **拉取镜像并运行**\n   ```bash\n   # 如果有 GPU\n   docker run --gpus all -p 8000:8000 savatar101\u002Fomniparse:0.1\n   \n   # 如果没有 GPU (仅 CPU 模式，速度较慢)\n   docker run -p 8000:8000 savatar101\u002Fomniparse:0.1\n   ```\n\n2. **或者本地构建镜像**\n   ```bash\n   docker build -t omniparse .\n   docker run --gpus all -p 8000:8000 omniparse\n   ```\n\n---\n\n## 基本使用\n\n### 1. 下载模型（可选）\n在启动服务器前，你可以预先下载所需的模型文件（OCR、Whisper 等）：\n```bash\npython download.py --documents --media --web\n```\n- `--documents`: 下载文档解析模型 (Surya OCR, Florence-2)。\n- `--media`: 下载音视频转录模型 (Whisper)。\n- `--web`: 配置网页爬虫依赖。\n\n### 2. 启动服务\n运行以下命令启动 API 服务器：\n```bash\npython server.py --host 0.0.0.0 --port 8000 --documents --media --web\n```\n服务启动后，默认监听 `http:\u002F\u002Flocalhost:8000`。\n\n### 3. 调用 API 示例\n\nOmniParse 提供 RESTful API，以下是几种常见的使用场景：\n\n#### 解析文档 (PDF\u002FWord\u002FPPT)\n将任意文档转换为结构化 Markdown：\n```bash\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fdocument.pdf\" http:\u002F\u002Flocalhost:8000\u002Fparse_document\n```\n\n#### 解析图片 (提取文字或描述)\n对图片进行 OCR 或生成详细描述：\n```bash\n# 基础图片解析\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fimage.jpg\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fimage\n\n# 指定任务（如生成标题）\ncurl -X POST -F \"image=@\u002Fpath\u002Fto\u002Fimage.jpg\" -F \"task=Caption\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fprocess_image\n```\n\n#### 解析音视频 (转录为文本)\n将音频或视频文件转录为文本：\n```bash\n# 音频\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Faudio.mp3\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Faudio\n\n# 视频\ncurl -X POST -F \"file=@\u002Fpath\u002Fto\u002Fvideo.mp4\" http:\u002F\u002Flocalhost:8000\u002Fparse_media\u002Fvideo\n```\n\n#### 解析网页\n抓取并结构化网页内容：\n```bash\ncurl -X POST -H \"Content-Type: application\u002Fjson\" -d '{\"url\": \"https:\u002F\u002Fexample.com\"}' http:\u002F\u002Flocalhost:8000\u002Fparse_website\u002Fparse\n```\n\n### 4. 交互式界面\n启动服务器后，通常可以通过浏览器访问 Gradio 构建的交互式 UI（具体端口视配置而定，通常为 `http:\u002F\u002Flocalhost:7860` 或在服务器日志中查看），直接上传文件进行可视化解析测试。","某金融科技公司的数据团队正致力于构建一个智能投研助手，需要处理海量的上市公司财报（PDF）、分析师电话会议录音（MP3）以及包含复杂表格的网页资讯，以便让大模型能精准回答业务问题。\n\n### 没有 omniparse 时\n- **多格式处理割裂**：团队需分别编写脚本调用不同 API 处理文档、音频和视频，维护成本高且数据格式不统一。\n- **表格与图表丢失**：传统 OCR 工具难以还原财报中的复杂财务报表，导致关键数值错乱；会议录音中的趋势图无法被大模型理解。\n- **隐私与成本风险**：依赖外部云 API 解析敏感财务数据存在泄露隐患，且高频调用导致算力成本激增。\n- **非结构化噪声大**：原始文本夹杂大量页眉页脚和无关字符，未经清洗直接输入会导致大模型产生“幻觉”。\n\n### 使用 omniparse 后\n- **一站式统一接入**：omniparse 通过单一接口本地化 ingest 所有格式（文档、音视频、网页），直接输出标准化的结构化 Markdown。\n- **高保真内容还原**：利用内置的 Surya OCR 和 Florence-2 模型，完美重构财报中的复杂表格，并自动为会议视频中的图表生成描述性标题。\n- **安全且低成本**：完全在本地 T4 GPU 上运行，无需上传敏感数据至云端，彻底消除隐私顾虑并大幅降低运营成本。\n- **GenAI 就绪数据**：自动过滤噪声并将多媒体内容转化为大模型友好的上下文，显著提升了 RAG 系统的检索准确率和回答质量。\n\nomniparse 将杂乱的多模态非结构化数据转化为高质量、可执行的标准化信息流，成为连接企业私有数据与生成式 AI 应用的关键桥梁。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fadithya-s-k_omniparse_1e8c4ba5.png","adithya-s-k","Adithya S K","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fadithya-s-k_40ebffb1.jpg","Shipping @huggingface  ","huggingface","Indian",null,"adithya_s_k","https:\u002F\u002Fadithyask.com\u002F","https:\u002F\u002Fgithub.com\u002Fadithya-s-k",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",98.4,{"name":89,"color":90,"percentage":91},"Dockerfile","#384d54",1.6,6805,541,"2026-04-13T11:50:25","GPL-3.0","Linux","需要 NVIDIA GPU，显存 8~10 GB 以上（文中提到可适配 T4 GPU），CUDA 版本未说明","未说明",{"notes":100,"python":101,"dependencies":102},"该工具仅支持 Linux 系统，不支持 Windows 或 macOS。需至少 8-10GB 显存的 GPU 以运行深度学习模型。支持通过 Docker 部署。核心功能依赖 Surya OCR、Florence-2（图像处理）和 Whisper（音视频转录）。若用于商业用途，需注意其底层组件 Marker 和 Surya 的模型权重受 cc-by-nc-sa-4.0 协议限制（年收入低于 500 万美元的组织可豁免）。","3.10",[103,104,105,106,107,108,109,110],"torch","transformers","Surya OCR","Florence-2","Whisper","selenium","gradio","poetry",[52,16,112,15,35],"音频",[114,115,116,117,118,119,120,121],"ingestion-api","ocr","omniparser","parse-server","parser-library","vision-transformer","web-crawler","whisper-api","2026-03-27T02:49:30.150509","2026-04-14T20:50:59.674509",[125,130,135,140,145,150],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},33346,"安装 flash-attn 时在 'Building wheel' 阶段卡住不动怎么办？","这通常是因为编译过程内存不足或缺少并发构建工具。解决方案如下：\n1. 安装 `ninja` 以启用并发编译：\n   ```sh\n   pip uninstall -y ninja && pip install ninja\n   ```\n2. 如果内存较低，限制并发任务数进行安装：\n   ```sh\n   MAX_JOBS=4 pip install flash-attn --no-build-isolation\n   ```\n3. 如果仍然失败，尝试增加系统交换空间（swap），因为编译过程非常消耗内存。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F36",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},33347,"在 Google Colab 或 Docker 中启动时报 'Exec format error: chromedriver' 错误如何解决？","该错误通常是由于 `webdriver-manager` 下载的 ChromeDriver 版本与平台不匹配或文件损坏导致的。\n解决方案：将 `webdriver-manager` 包更新到 v4.0.2 或更高版本。\n```sh\npip install --upgrade webdriver-manager\n```\n如果是在 Docker 环境中遇到此问题，确保基础镜像中的依赖项也是最新的。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F77",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},33348,"OCR 模型加载速度非常慢或页面一直加载中怎么办？","正常情况下加载 OCR 和检测模型不应花费太长时间。如果遇到加载极慢的情况，请尝试重新启动 Docker 容器。\n命令示例：\n```sh\ndocker run --gpus all -p 8000:8000 savatar101\u002Fomniparse:0.1\n```\n如果问题持续存在，可能是网络拉取模型权重的问题，建议检查网络连接或配置镜像加速。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F19",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},33349,"安装时出现 'ModuleNotFoundError: No module named packaging' 或 'No module named fastapi' 错误？","这是因为缺少必要的 Python 依赖包。在安装主程序之前，请确保先安装构建工具和基础依赖。\n解决方法：\n1. 升级 pip 和 setuptools：\n   ```sh\n   pip install --upgrade pip setuptools\n   ```\n2. 手动安装缺失的模块：\n   ```sh\n   pip install packaging fastapi\n   ```\n3. 然后再运行项目的安装命令或启动脚本。建议在干净的虚拟环境中进行操作。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F15",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},33350,"项目目前支持中文 OCR 识别吗？效果如何？","目前项目主要使用 SuryaOCR 和 Marker 进行文档解析，这两个模型对中文的支持有限，可能导致识别效果不佳。\n维护者表示正在努力改进中文支持。如果需要更好的中文识别效果，建议关注相关底层库（Marker 和 Surya）的更新，或者暂时使用专门针对中文优化的 OCR 工具作为预处理步骤。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F44",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},33351,"在无 GPU 的 Windows 机器上使用 Docker 运行时连接报错或容器停止怎么办？","在无 GPU 的 Windows 本地环境中运行 Docker 容器可能会遇到稳定性问题或资源限制导致容器意外停止。\n建议方案：\n1. 优先在 Linux 环境（如 Ubuntu VM 或云服务器）上部署 Docker 容器，测试表明其在 Linux 下运行更稳定。\n2. 在编写客户端代码调试前，先通过浏览器访问 `\u002Fdocs` 或使用 Web UI 确认服务是否正常运行。\n3. 如果必须在 Windows 运行，请确保 Docker Desktop 已正确配置 WSL2 后端并分配了足够的内存资源。","https:\u002F\u002Fgithub.com\u002Fadithya-s-k\u002Fomniparse\u002Fissues\u002F12",[]]