[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--OmniParser":3,"tool-microsoft--OmniParser":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":106,"forks":107,"last_commit_at":108,"license":109,"difficulty_score":10,"env_os":110,"env_gpu":111,"env_ram":110,"env_deps":112,"category_tags":117,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":151},5219,"microsoft\u002FOmniParser","OmniParser","A simple screen parsing tool towards pure vision based GUI agent","OmniParser 是一款专为纯视觉图形界面（GUI）智能体设计的屏幕解析工具。它的核心功能是将复杂的用户界面截图自动转化为结构清晰、易于理解的元素数据，帮助 AI 模型精准识别屏幕上的按钮、图标等区域，从而生成可准确执行的操作指令。\n\n传统视觉模型往往难以精确理解界面布局或判断哪些元素可交互，导致操作失误。OmniParser 通过高精度的区域检测与功能描述模型，有效解决了这一“落地”难题，显著提升了智能体在 Windows 等环境下的任务完成率。其最新版本更支持细粒度图标检测及可交互性预测，并在权威基准测试中取得了领先成绩。\n\n这款工具特别适合开发者、AI 研究人员以及希望构建自动化操作智能体的技术团队使用。借助 OmniParser，用户可以轻松将各类大语言模型升级为能直接操控电脑的“电脑使用代理”，甚至搭建本地的训练数据流水线。无论是研发跨平台自动化脚本，还是探索多智能体协作，OmniParser 都提供了坚实的技术底座，让机器像人类一样“看懂”并操作屏幕变得简单高效。","# OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_OmniParser_readme_a1e4435f3109.png\" alt=\"Logo\">\n\u003C\u002Fp>\n\u003C!-- \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F12975\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_OmniParser_readme_4a68feb902da.png\" alt=\"microsoft%2FOmniParser | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa> -->\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-green)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n\n📢 [[Project Page](https:\u002F\u002Fmicrosoft.github.io\u002FOmniParser\u002F)] [[V2 Blog Post](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Farticles\u002Fomniparser-v2-turning-any-llm-into-a-computer-use-agent\u002F)] [[Models V2](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser-v2.0)] [[Models V1.5](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser)] [[HuggingFace Space Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FOmniParser-v2)]\n\n**OmniParser** is a comprehensive method for parsing user interface screenshots into structured and easy-to-understand elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. \n\n## News\n- [2025\u002F3] We support local logging of trajecotry so that you can use OmniParser+OmniTool to build training data pipeline for your favorate agent in your domain. [Documentation WIP]\n- [2025\u002F3] We are gradually adding multi agents orchstration and improving user interface in OmniTool for better experience.\n- [2025\u002F2] We release OmniParser V2 [checkpoints](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser-v2.0). [Watch Video](https:\u002F\u002F1drv.ms\u002Fv\u002Fc\u002F650b027c18d5a573\u002FEWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC)\n- [2025\u002F2] We introduce OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. OmniTool supports out of the box the following large language models - OpenAI (4o\u002Fo1\u002Fo3-mini), DeepSeek (R1), Qwen (2.5VL) or Anthropic Computer Use. [Watch Video](https:\u002F\u002F1drv.ms\u002Fv\u002Fc\u002F650b027c18d5a573\u002FEehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX)\n- [2025\u002F1] V2 is coming. We achieve new state of the art results 39.5% on the new grounding benchmark [Screen Spot Pro](https:\u002F\u002Fgithub.com\u002Flikaixin2000\u002FScreenSpot-Pro-GUI-Grounding\u002Ftree\u002Fmain) with OmniParser v2 (will be released soon)! Read more details [here](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Ftree\u002Fmaster\u002Fdocs\u002FEvaluation.md).\n- [2024\u002F11] We release an updated version, OmniParser V1.5 which features 1) more fine grained\u002Fsmall icon detection, 2) prediction of whether each screen element is interactable or not. Examples in the demo.ipynb. \n- [2024\u002F10] OmniParser was the #1 trending model on huggingface model hub (starting 10\u002F29\u002F2024). \n- [2024\u002F10] Feel free to checkout our demo on [huggingface space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FOmniParser)! (stay tuned for OmniParser + Claude Computer Use)\n- [2024\u002F10] Both Interactive Region Detection Model and Icon functional description model are released! [Hugginface models](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser)\n- [2024\u002F09] OmniParser achieves the best performance on [Windows Agent Arena](https:\u002F\u002Fmicrosoft.github.io\u002FWindowsAgentArena\u002F)! \n\n## Install \nFirst clone the repo, and then install environment:\n```python\ncd OmniParser\nconda create -n \"omni\" python==3.12\nconda activate omni\npip install -r requirements.txt\n```\n\nEnsure you have the V2 weights downloaded in weights folder (ensure caption weights folder is called icon_caption_florence). If not download them with:\n```\n   # download the model checkpoints to local directory OmniParser\u002Fweights\u002F\n   for f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} icon_caption\u002F{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\n   mv weights\u002Ficon_caption weights\u002Ficon_caption_florence\n```\n\n\u003C!-- ## [deprecated]\nThen download the model ckpts files in: https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser, and put them under weights\u002F, default folder structure is: weights\u002Ficon_detect, weights\u002Ficon_caption_florence, weights\u002Ficon_caption_blip2. \n\nFor v1: \nconvert the safetensor to .pt file. \n```python\npython weights\u002Fconvert_safetensor_to_pt.py\n\nFor v1.5: \ndownload 'model_v1_5.pt' from https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser\u002Ftree\u002Fmain\u002Ficon_detect_v1_5, make a new dir: weights\u002Ficon_detect_v1_5, and put it inside the folder. No weight conversion is needed. \n``` -->\n\n## Examples:\nWe put together a few simple examples in the demo.ipynb. \n\n## Gradio Demo\nTo run gradio demo, simply run:\n```python\npython gradio_demo.py\n```\n\n## Model Weights License\nFor the model checkpoints on huggingface model hub, please note that icon_detect model is under AGPL license since it is a license inherited from the original yolo model. And icon_caption_blip2 & icon_caption_florence is under MIT license. Please refer to the LICENSE file in the folder of each model: https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser.\n\n## 📚 Citation\nOur technical report can be found [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203).\nIf you find our work useful, please consider citing our work:\n```\n@misc{lu2024omniparserpurevisionbased,\n      title={OmniParser for Pure Vision Based GUI Agent}, \n      author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},\n      year={2024},\n      eprint={2408.00203},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203}, \n}\n```\n","# OmniParser：面向纯视觉 GUI 代理的屏幕解析工具\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_OmniParser_readme_a1e4435f3109.png\" alt=\"Logo\">\n\u003C\u002Fp>\n\u003C!-- \u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F12975\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_OmniParser_readme_4a68feb902da.png\" alt=\"microsoft%2FOmniParser | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa> -->\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPaper-green)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n\n📢 [[项目页面](https:\u002F\u002Fmicrosoft.github.io\u002FOmniParser\u002F)] [[V2 博文](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Farticles\u002Fomniparser-v2-turning-any-llm-into-a-computer-use-agent\u002F)] [[V2 模型](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser-v2.0)] [[V1.5 模型](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser)] [[HuggingFace Space 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FOmniParser-v2)]\n\n**OmniParser** 是一种全面的方法，用于将用户界面截图解析为结构化且易于理解的元素，从而显著提升 GPT-4V 生成能够精确映射到界面相应区域的操作的能力。\n\n## 最新动态\n- [2025年3月] 我们支持本地轨迹日志记录，以便您能够使用 OmniParser + OmniTool 构建适用于您所在领域的智能体训练数据流水线。[文档正在编写中]\n- [2025年3月] 我们正逐步增加多智能体编排功能，并优化 OmniTool 的用户界面，以提供更好的用户体验。\n- [2025年2月] 我们发布了 OmniParser V2 [检查点](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser-v2.0)。[观看视频](https:\u002F\u002F1drv.ms\u002Fv\u002Fc\u002F650b027c18d5a573\u002FEWXbVESKWo9Buu6OYCwg06wBeoM97C6EOTG6RjvWLEN1Qg?e=alnHGC)\n- [2025年2月] 我们推出了 OmniTool：通过 OmniParser 和您选择的视觉模型控制 Windows 11 虚拟机。OmniTool 开箱即用，支持以下大型语言模型——OpenAI (4o\u002Fo1\u002Fo3-mini)、DeepSeek (R1)、通义千问 (2.5VL) 或 Anthropic Computer Use。[观看视频](https:\u002F\u002F1drv.ms\u002Fv\u002Fc\u002F650b027c18d5a573\u002FEehZ7RzY69ZHn-MeQHrnnR4BCj3by-cLLpUVlxMjF4O65Q?e=8LxMgX)\n- [2025年1月] V2 即将发布。借助 OmniParser v2（即将发布），我们在新的接地基准测试 [Screen Spot Pro](https:\u002F\u002Fgithub.com\u002Flikaixin2000\u002FScreenSpot-Pro-GUI-Grounding\u002Ftree\u002Fmain) 上取得了 39.5% 的最新 SOTA 结果！更多详情请参阅 [这里](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Ftree\u002Fmaster\u002Fdocs\u002FEvaluation.md)。\n- [2024年11月] 我们发布了更新版本 OmniParser V1.5，其特点包括：1) 更精细\u002F更小图标的检测；2) 预测每个屏幕元素是否可交互。示例见 demo.ipynb。\n- [2024年10月] OmniParser 在 Hugging Face 模型库中成为最受欢迎的模型（自 2024年10月29日起）。\n- [2024年10月] 欢迎访问我们的 [Hugging Face Space 演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002FOmniParser)！（敬请期待 OmniParser + Claude Computer Use）\n- [2024年10月] 交互区域检测模型和图标功能描述模型均已发布！[Hugging Face 模型](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser)\n- [2024年9月] OmniParser 在 [Windows Agent Arena](https:\u002F\u002Fmicrosoft.github.io\u002FWindowsAgentArena\u002F) 上取得了最佳性能！\n\n## 安装\n首先克隆仓库，然后安装环境：\n```python\ncd OmniParser\nconda create -n \"omni\" python==3.12\nconda activate omni\npip install -r requirements.txt\n```\n\n确保已在 weights 文件夹中下载了 V2 权重（请确保图标说明权重文件夹名为 icon_caption_florence）。如果没有，请使用以下命令下载：\n```\n   # 将模型检查点下载到本地目录 OmniParser\u002Fweights\u002F\n   for f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} icon_caption\u002F{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\n   mv weights\u002Ficon_caption weights\u002Ficon_caption_florence\n```\n\n\u003C!-- ## [已废弃]\n然后从 https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser 下载模型检查点文件，并将其放入 weights\u002F 目录下。默认文件结构为：weights\u002Ficon_detect、weights\u002Ficon_caption_florence、weights\u002Ficon_caption_blip2。\n\n对于 v1 版本：\n将 safetensor 文件转换为 .pt 格式。\n```python\npython weights\u002Fconvert_safetensor_to_pt.py\n\n对于 v1.5 版本：\n从 https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser\u002Ftree\u002Fmain\u002Ficon_detect_v1_5 下载 'model_v1_5.pt'，新建一个目录：weights\u002Ficon_detect_v1_5，并将其放入该目录中。无需进行权重转换。\n``` -->\n\n## 示例\n我们在 demo.ipynb 中整理了一些简单的示例。\n\n## Gradio 演示\n要运行 Gradio 演示，只需执行：\n```python\npython gradio_demo.py\n```\n\n## 模型权重许可\n关于 Hugging Face 模型库中的模型检查点，请注意：icon_detect 模型采用 AGPL 许可，因为它继承自原始的 YOLO 模型。而 icon_caption_blip2 和 icon_caption_florence 则采用 MIT 许可。请参阅各模型文件夹中的 LICENSE 文件：https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser。\n\n## 📚 引用\n我们的技术报告可在 [这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203) 查阅。\n如果您认为我们的工作有用，请考虑引用：\n```\n@misc{lu2024omniparserpurevisionbased,\n      title={OmniParser for Pure Vision Based GUI Agent}, \n      author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},\n      year={2024},\n      eprint={2408.00203},\n      archivePrefix={arXiv},\n      primaryClass={cs.CV},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00203}, \n}\n```","# OmniParser 快速上手指南\n\nOmniParser 是一款基于纯视觉的屏幕解析工具，能够将用户界面截图转换为结构化、易理解的元素，显著提升多模态大模型（如 GPT-4V）在 GUI 操作中的定位与执行能力。\n\n## 环境准备\n\n*   **操作系统**: Linux \u002F macOS \u002F Windows (推荐 Linux 环境以获得最佳兼容性)\n*   **Python 版本**: 3.12\n*   **依赖管理**: Conda (推荐) 或 pip\n*   **硬件要求**: 建议配备 NVIDIA GPU 以加速推理（需安装对应的 CUDA 版本）\n\n## 安装步骤\n\n### 1. 克隆代码库并创建环境\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser.git\ncd OmniParser\nconda create -n \"omni\" python==3.12\nconda activate omni\npip install -r requirements.txt\n```\n\n> **提示**：国内用户若下载 `requirements.txt` 依赖较慢，可临时指定清华或阿里镜像源：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 2. 下载模型权重 (V2 版本)\n\n确保在 `weights` 文件夹中下载 V2 版本的权重文件。注意：图标描述模型的文件夹需重命名为 `icon_caption_florence`。\n\n运行以下命令自动下载并整理文件：\n\n```bash\n# 下载模型检查点到本地目录 OmniParser\u002Fweights\u002F\nfor f in icon_detect\u002F{train_args.yaml,model.pt,model.yaml} icon_caption\u002F{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft\u002FOmniParser-v2.0 \"$f\" --local-dir weights; done\nmv weights\u002Ficon_caption weights\u002Ficon_caption_florence\n```\n\n> **网络加速提示**：如果无法直接连接 Hugging Face，请设置国内镜像环境变量后再运行上述命令：\n> `export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com`\n\n## 基本使用\n\n### 启动 Gradio 可视化演示\n\n这是最简单的体验方式，启动后将在浏览器中打开交互界面，上传截图即可看到解析结果。\n\n```bash\npython gradio_demo.py\n```\n\n启动成功后，终端会显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），在浏览器中打开该地址即可使用。\n\n### 代码调用示例\n\n如需在 Python 脚本中集成，可参考项目根目录下的 `demo.ipynb` Notebook 文件，其中包含了加载模型、处理截图及获取结构化元素的具体代码示例。","某电商运营团队需要每天通过自动化脚本在 Windows 11 后台管理系统中处理数百个订单，包括点击特定状态的按钮、提取动态表格数据及上传物流单号。\n\n### 没有 OmniParser 时\n- **元素定位极易失效**：传统基于 HTML 源码或固定坐标的脚本，一旦后台系统更新 UI 布局或图标微调，自动化流程立即崩溃，维护成本极高。\n- **无法理解非文本控件**：对于仅由图标（如“编辑”铅笔、“删除”垃圾桶）组成的操作按钮，常规视觉模型无法识别其功能，导致流程在这些节点中断。\n- **操作缺乏精准锚点**：大模型虽然能“看懂”屏幕，但生成的点击坐标往往偏差较大，容易误触相邻按钮，造成错误的订单状态变更。\n- **动态内容提取困难**：面对分页加载或动态渲染的订单表格，难以准确框选并结构化提取特定行的数据，需人工介入核对。\n\n### 使用 OmniParser 后\n- **自适应界面变化**：OmniParser 直接将屏幕截图解析为结构化元素，即使后台 UI 发生改版，也能自动识别新布局下的按钮位置，无需重写代码。\n- **精准识别图标语义**：借助其图标功能描述模型，OmniParser 能准确判断小图标的含义（如识别出“下载”图标），并标记其是否可交互，确保流程顺畅。\n- **动作落地零偏差**：OmniParser 为大模型提供精确的可交互区域坐标，使生成的点击动作能严格对应到具体像素区域，彻底消除误触风险。\n- **数据结构化输出**：自动将复杂的屏幕表格转化为清晰的文本或 JSON 格式，让后续的数据分析步骤能直接调用，实现全流程无人值守。\n\nOmniParser 通过将非结构化的屏幕画面转化为机器可精准理解的语义地图，真正实现了让大模型像人类一样“看”懂并可靠地操作复杂图形界面。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_OmniParser_a1e4435f.png","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft",null,"opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[82,86,90,94,98,102],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",50.1,{"name":87,"color":88,"percentage":89},"Python","#3572A5",36.9,{"name":91,"color":92,"percentage":93},"Shell","#89e051",8.2,{"name":95,"color":96,"percentage":97},"PowerShell","#012456",4.5,{"name":99,"color":100,"percentage":101},"Dockerfile","#384d54",0.2,{"name":103,"color":104,"percentage":105},"Batchfile","#C1F12E",0.1,24618,2158,"2026-04-07T14:34:42","CC-BY-4.0","未说明","未说明 (模型基于 YOLO 和 Florence\u002FBLIP2 架构，通常推理需要 NVIDIA GPU，但 README 未明确指定型号或显存)",{"notes":113,"python":114,"dependencies":115},"1. 必须使用 Conda 创建名为 'omni' 的虚拟环境。\n2. 首次运行前需手动下载 V2 模型权重文件至 weights 目录，并按要求重命名文件夹（如将 icon_caption 重命名为 icon_caption_florence）。\n3. 注意许可证差异：icon_detect 模型继承 YOLO 协议为 AGPL，而 icon_caption 相关模型为 MIT 协议。\n4. 项目包含 OmniTool 组件，支持控制 Windows 11 虚拟机，但本地运行环境主要依赖 Python 脚本。","3.12",[116],"requirements.txt 中定义的库 (具体列表未在 README 中展示)",[15,13,118],"其他","2026-03-27T02:49:30.150509","2026-04-08T03:53:55.616245",[122,127,132,137,142,147],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},23662,"BLIP 的 safetensors 模型文件无法正常工作怎么办？","目前 Hugging Face 上自动生成的 safetensors 文件会导致输出乱码。解决方案是不要使用 safetensors 格式，而是从 OmniParser 的 HF 仓库下载原始的 .bin (pytorch) 权重文件和对应的 index 文件。维护者已暂时移除了有问题的 safetensor 文件，默认推荐使用 .bin 文件。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fissues\u002F30",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},23663,"运行时报错 'ImportError: DLL load failed while importing libpaddle' 如何解决？","这是 PaddleOCR 依赖缺失导致的常见错误。解决方法是安装 Microsoft Visual C++ Redistributable (C++ 运行库)。安装完成后重启终端或 IDE 再次尝试运行即可。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fissues\u002F140",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},23664,"在 Windows 上运行遇到 'AttributeError: ... object has no attribute '_supports_sdpa'' 错误？","该错误通常与 transformers 库的版本兼容性或注意力机制配置有关。这是一个已知问题（参考 transformers#39974）。建议检查并更新 transformers 库到最新版本，或者尝试在代码中强制指定不使用 sdpa 注意力机制（如果环境不支持）。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fissues\u002F323",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},23665,"可以在 CPU 上运行 gradio_demo.py 吗？效果如何？","可以在 CPU 上运行，但速度非常慢，生成结果可能需要几分钟时间。如果必须使用 CPU，请确保代码中的 device 参数已设置为 'cpu'，但强烈建议使用 GPU 以获得可用的推理速度。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fissues\u002F62",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},23666,"Florence-2 模型输出的描述有时是乱码或不准确，这是 Bug 吗？","这通常不是实现上的 Bug，而是模型本身的局限性。当检测到的图标既不是文本也不是标准应用图标时，Florence-2 可能会产生胡言乱语的输出。这是由模型容量限制导致的正常现象，而非代码错误。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fissues\u002F61",{"id":148,"question_zh":149,"answer_zh":150,"source_url":146},23667,"OmniParser 发布的 Florence-2 和 BLIP-2 模型有什么区别？","两者的主要区别在于推理成本和能力侧重。Florence-2 在某些非文本或非标准图标的识别上可能存在局限性（偶尔输出乱码），而 BLIP-2 在不同场景下表现不同。官方论文中未详细对比两者，用户需根据实际推理成本和具体任务需求进行选择。",[152,157,162],{"id":153,"version":154,"summary_zh":155,"released_at":156},145164,"v.2.0.1","# V2.0.1 有哪些新内容？\n\n- **安全更新**\n- **依赖项版本修复**\n- **文档改进**","2025-09-12T20:34:05",{"id":158,"version":159,"summary_zh":160,"released_at":161},145165,"v.2.0.0","# V2.0.0 有哪些新特性？\n- 更大、更干净的图标标注数据集及定位基准数据集\n- 相比 V1，延迟降低了 60% [模型检查点](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FOmniParser-v2.0)\n- 表现强劲：在 [ScreenSpot Pro](https:\u002F\u002Fgithub.com\u002Flikaixin2000\u002FScreenSpot-Pro-GUI-Grounding) 上的平均准确率为 39.6%\n- 您的智能体只需一个工具：OmniTool。结合 OmniParser 与您选择的视觉模型，即可控制 Windows 11 虚拟机。OmniTool 开箱即用，支持以下大型语言模型：OpenAI（4o\u002Fo1\u002Fo3-mini）、DeepSeek（R1）、通义千问（2.5VL）或 Anthropic 的 Computer Use 模型。","2025-02-13T01:06:37",{"id":163,"version":164,"summary_zh":165,"released_at":166},145166,"v1.5.0","从本版本开始，我们采用语义化版本控制，以提供更快速、更友好的开发体验。\n\n## 变更内容\n* 添加 Microsoft SECURITY.MD，由 @microsoft-github-policy-service 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F2 中完成\n* 修正：修复 requirements.txt 中的拼写错误，由 @nmstoker 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F17 中完成\n* 更新 requirements.txt，由 @krishna2 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F16 中完成\n* 修正 requirements.txt 中 einops 的拼写错误，由 @redron 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F28 中完成\n* 添加 torch.inference 模式，由 @aliencaocao 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F29 中完成\n* 添加 PaddleOCR 选项，由 @aliencaocao 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F53 中完成\n* 添加图标检测图像尺寸选项，由 @aliencaocao 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F72 中完成\n* 版本 1.5，由 @yadong-lu 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F94 中完成\n\n## 新贡献者\n* @microsoft-github-policy-service 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F2 中完成了首次贡献\n* @nmstoker 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F17 中完成了首次贡献\n* @krishna2 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F16 中完成了首次贡献\n* @redron 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F28 中完成了首次贡献\n* @aliencaocao 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F29 中完成了首次贡献\n* @yadong-lu 在 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fpull\u002F94 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FOmniParser\u002Fcommits\u002Fv1.5.0","2025-02-13T00:33:20"]