[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MulongXie--UIED":3,"tool-MulongXie--UIED":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":76,"owner_location":79,"owner_email":76,"owner_twitter":76,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":23,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":105,"github_topics":106,"view_count":23,"oss_zip_url":76,"oss_zip_packed_at":76,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":150},2887,"MulongXie\u002FUIED","UIED","An accurate GUI element detection approach based on old-fashioned CV algorithms [Upgraded on 5\u002FJuly\u002F2021]","UIED 是一款专注于图形用户界面（GUI）元素检测的开源工具，能够自动从手机应用截图、网页快照甚至手绘设计稿中识别并分类文本与图形组件（如按钮、输入框等），最终输出结构化的 JSON 数据。它主要解决了自动化测试、界面分析及设计还原过程中，人工标注 UI 元素效率低下且容易出错的痛点。\n\n该工具特别适合开发者、软件测试工程师及人机交互研究人员使用，尤其是那些需要灵活调整检测逻辑或处理多样化界面场景的专业人士。UIED 的独特之处在于其“混合式”技术架构：它摒弃了传统的端到端黑盒深度学习模式，转而结合谷歌 OCR 进行高精度文字识别，并利用经典计算机视觉算法定位图形元素，辅以轻量级 CNN 进行分类。这种设计不仅降低了对预训练模型的依赖，更赋予了用户极高的自定义自由度——你可以轻松替换其中的文字检测模块，或直接修改非文本部分的检测与合并算法，以完美适配特定的业务需求。","# UIED - UI element detection, detecting UI elements from UI screenshots or drawnings\r\n\r\nThis project is still ongoing and this repo may be updated irregularly, I developed a web app for the UIED in http:\u002F\u002Fuied.online\r\n\r\n## Related Publications: \r\n[1. UIED: a hybrid tool for GUI element detection](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3368089.3417940)\r\n\r\n[2. Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.05132)\r\n\r\n>The repo has been **upgraded with Google OCR** for GUI text detection, to use the original version in our paper (using [EAST](https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST) as text detector), check the relase [v2.3](https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Freleases\u002Ftag\u002Fv2.3) and download the pre-trained model in [this link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1MK0Om7Lx0wRXGDfNcyj21B0FL1T461v5?usp=sharing).\r\n\r\n## What is it?\r\n\r\nUI Element Detection (UIED) is an old-fashioned computer vision (CV) based element detection approach for graphic user interface. \r\n\r\nThe input of UIED could be various UI image, such as mobile app or web page screenshot, UI design drawn by Photoshop or Sketch, and even some hand-drawn UI design. Then the approach detects and classifies text and graphic UI elements, and exports the detection result as JSON file for future application. \r\n\r\nUIED comprises two parts to detect UI text and graphic elements, such as button, image and input bar. \r\n* For text, it leverages [Google OCR](https:\u002F\u002Fcloud.google.com\u002Fvision\u002Fdocs\u002Focr) to perfrom detection. \r\n\r\n* For graphical elements, it uses old-fashioned CV approaches to locate the elements and a CNN classifier to achieve classification. \r\n\r\n> UIED is highly customizable, you can replace both parts by your choice (e.g. other text detection approaches). Unlike black-box end-to-end deep learning approach, you can revise the algorithms in the non-text detection and merging (partially or entirely) easily to fit your task.\r\n\r\n![UIED Approach](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMulongXie_UIED_readme_43505422fc99.png)\r\n\r\n## How to use?\r\n\r\n### Dependency\r\n* **Python 3.5**\r\n* **Opencv 3.4.2**\r\n* **Pandas**\r\n\u003C!-- * **Tensorflow 1.10.0**\r\n* **Keras 2.2.4**\r\n* **Sklearn 0.22.2** -->\r\n\r\n### Installation\r\n\u003C!-- Install the mentioned dependencies, and download two pre-trained models from [this link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1MK0Om7Lx0wRXGDfNcyj21B0FL1T461v5?usp=sharing) for EAST text detection and GUI element classification. -->\r\n\r\n\u003C!-- Change ``CNN_PATH`` and ``EAST_PATH`` in *config\u002FCONFIG.py* to your locations. -->\r\n\r\nThe new version of UIED equipped with Google OCR is easy to deploy and no pre-trained model is needed. Simply donwload the repo along with the dependencies.\r\n\r\n> Please replace the Google OCR key at `detect_text\u002Focr.py line 28` with your own (apply in [Google website](https:\u002F\u002Fcloud.google.com\u002Fvision)).\r\n\r\n### Usage\r\nTo test your own image(s):\r\n* To test single image, change *input_path_img* in ``run_single.py`` to your input image and the results will be output to *output_root*.\r\n* To test mutiple images, change *input_img_root* in ``run_batch.py`` to your input directory and the results will be output to *output_root*.\r\n* To adjust the parameters lively, using ``run_testing.py`` \r\n\r\n> Note: The best set of parameters vary for different types of GUI image (Mobile App, Web, PC). I highly recommend to first play with the ``run_testing.py`` to pick a good set of parameters for your data.\r\n   \r\n## Folder structure\r\n``cnn\u002F``\r\n* Used to train classifier for graphic UI elements\r\n* Set path of the CNN classification model\r\n\r\n``config\u002F``\r\n* Set data paths \r\n* Set parameters for graphic elements detection\r\n\r\n``data\u002F``\r\n* Input UI images and output detection results\r\n\r\n``detect_compo\u002F``\r\n* Non-text GUI component detection\r\n\r\n``detect_text\u002F``\r\n* GUI text detection using Google OCR\r\n\r\n``detect_merge\u002F``\r\n* Merge the detection results of non-text and text GUI elements\r\n\r\nThe major detection algorithms are in ``detect_compo\u002F``, ``detect_text\u002F`` and ``detect_merge\u002F``\r\n\r\n## Demo\r\nGUI element detection result for web screenshot\r\n \r\n![UI Components detection result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMulongXie_UIED_readme_c56729e76581.png)\r\n","# UIED - UI元素检测，从UI截图或设计图中检测UI元素\n\n该项目仍在进行中，此仓库可能会不定期更新。我在 http:\u002F\u002Fuied.online 上开发了一个用于UIED的Web应用。\n\n## 相关论文：\n[1. UIED：一种用于GUI元素检测的混合工具](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F3368089.3417940)\n\n[2. 图形用户界面的对象检测：传统方法、深度学习，还是两者的结合？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2008.05132)\n\n> 该仓库已**升级为使用Google OCR**进行GUI文本检测。若需使用我们论文中的原始版本（即使用[EAST](https:\u002F\u002Fgithub.com\u002Fargman\u002FEAST)作为文本检测器），请查看发布版本[v2.3](https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Freleases\u002Ftag\u002Fv2.3)，并从[此链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1MK0Om7Lx0wRXGDfNcyj21B0FL1T461v5?usp=sharing)下载预训练模型。\n\n## 是什么？\n\nUI元素检测（UIED）是一种基于传统计算机视觉（CV）的图形用户界面元素检测方法。\n\nUIED的输入可以是各种UI图像，例如移动应用或网页截图、用Photoshop或Sketch绘制的UI设计，甚至是一些手绘的UI设计。然后，该方法会检测并分类文本和图形化的UI元素，并将检测结果导出为JSON文件，以供后续应用使用。\n\nUIED由两部分组成，分别用于检测UI文本和图形元素，如按钮、图片和输入框。\n* 对于文本，它利用[Google OCR](https:\u002F\u002Fcloud.google.com\u002Fvision\u002Fdocs\u002Focr)进行检测。\n* 对于图形元素，它使用传统的CV方法定位这些元素，并通过CNN分类器实现分类。\n\n> UIED具有高度的可定制性，您可以根据需要替换这两部分（例如使用其他文本检测方法）。与黑盒式的端到端深度学习方法不同，您可以轻松地修改非文本检测和合并部分的算法（部分或全部），以适应您的任务需求。\n\n![UIED方法](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMulongXie_UIED_readme_43505422fc99.png)\n\n## 如何使用？\n\n### 依赖项\n* **Python 3.5**\n* **OpenCV 3.4.2**\n* **Pandas**\n\u003C!-- * **TensorFlow 1.10.0**\n* **Keras 2.2.4**\n* **Scikit-learn 0.22.2** -->\n\n### 安装\n\u003C!-- 安装上述依赖项，并从[此链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1MK0Om7Lx0wRXGDfNcyj21B0FL1T461v5?usp=sharing)下载两个预训练模型，分别用于EAST文本检测和GUI元素分类。 -->\n\n\u003C!-- 将``config\u002FCONFIG.py``中的``CNN_PATH``和``EAST_PATH``修改为您本地的路径。 -->\n\n新版本的UIED配备了Google OCR，部署起来非常方便，无需任何预训练模型。只需下载仓库及其依赖项即可。\n\n> 请在`detect_text\u002Focr.py第28行`处将Google OCR密钥替换为您自己的密钥（可在[Google Cloud Vision API网站](https:\u002F\u002Fcloud.google.com\u002Fvision)申请）。\n\n### 使用\n要测试您自己的图像：\n* 若测试单张图像，请将``run_single.py``中的``input_path_img``修改为您要检测的图像路径，结果将输出到``output_root``。\n* 若测试多张图像，请将``run_batch.py``中的``input_img_root``修改为您存放图像的目录，结果将输出到``output_root``。\n* 若要实时调整参数，可以使用``run_testing.py``。\n\n> 注意：不同的GUI图像类型（移动应用、网页、桌面应用）的最佳参数设置可能有所不同。强烈建议您先使用``run_testing.py``尝试，以便为您的数据选择一组合适的参数。\n\n## 文件夹结构\n``cnn\u002F``\n* 用于训练图形化UI元素的分类器\n* 设置CNN分类模型的路径\n\n``config\u002F``\n* 设置数据路径\n* 设置图形元素检测的参数\n\n``data\u002F``\n* 存放输入的UI图像和输出的检测结果\n\n``detect_compo\u002F``\n* 非文本GUI组件的检测\n\n``detect_text\u002F``\n* 使用Google OCR进行GUI文本检测\n\n``detect_merge\u002F``\n* 合并非文本和文本GUI元素的检测结果\n\n主要的检测算法位于``detect_compo\u002F``、``detect_text\u002F``和``detect_merge\u002F``中。\n\n## 示例\n网页截图的UI元素检测结果\n\n![UI组件检测结果](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMulongXie_UIED_readme_c56729e76581.png)","# UIED 快速上手指南\n\nUIED 是一个基于计算机视觉的图形用户界面（GUI）元素检测工具，支持从移动端、Web 端截图或设计稿中识别文本和图形组件（如按钮、输入框等），并输出 JSON 格式结果。新版已集成 Google OCR 进行文本检测，无需预训练模型即可部署。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python 版本**：Python 3.5+\n\n### 前置依赖\n请确保安装以下核心依赖库：\n- `opencv-python` (版本推荐 3.4.2)\n- `pandas`\n\n> **注意**：新版 UIED 移除了对 TensorFlow\u002FKeras 的强依赖（仅用于旧版 EAST 文本检测），默认使用 Google Cloud Vision API 进行文字识别，因此无需配置深度学习框架。\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED.git\n   cd UIED\n   ```\n\n2. **安装 Python 依赖**\n   建议使用国内镜像源加速安装（如清华源）：\n   ```bash\n   pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   ```\n   *若项目中无 `requirements.txt`，请手动安装核心库：*\n   ```bash\n   pip install opencv-python pandas -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   ```\n\n3. **配置 Google OCR Key**\n   UIED 依赖 Google Cloud Vision API 进行文本检测，需替换默认密钥：\n   - 访问 [Google Cloud Console](https:\u002F\u002Fcloud.google.com\u002Fvision) 申请 API Key。\n   - 打开文件 `detect_text\u002Focr.py`，找到第 **28** 行。\n   - 将原有的 key 替换为你申请的 API Key。\n\n## 基本使用\n\n### 1. 单张图片检测\n编辑 `run_single.py` 文件，修改 `input_path_img` 变量为你的图片路径，运行脚本：\n```bash\npython run_single.py\n```\n检测结果将自动保存至 `output_root` 目录。\n\n### 2. 批量图片检测\n编辑 `run_batch.py` 文件，修改 `input_img_root` 变量为你的图片文件夹路径，运行脚本：\n```bash\npython run_batch.py\n```\n\n### 3. 参数调试（推荐）\n由于不同来源的 GUI 图片（手机 App、Web 页面、PC 软件）最佳检测参数不同，建议先使用交互模式调整参数：\n```bash\npython run_testing.py\n```\n在该模式下可实时调整非文本元素的检测阈值，找到适合你数据集的最佳参数组合后，再应用于批量处理。\n\n### 输出说明\n检测完成后，结果将以 JSON 文件形式导出，包含每个元素的类别（文本、按钮、图片等）及其坐标位置，便于后续自动化测试或数据分析使用。","某大型金融科技公司的前端自动化测试团队，正面临对数百个历史遗留的移动端 App 界面进行无障碍化（Accessibility）改造的紧迫任务。\n\n### 没有 UIED 时\n- **人工标注效率极低**：测试人员需手动打开每张截图，用绘图工具逐个框选按钮、输入框和文本区域，处理一个复杂页面平均耗时 40 分钟。\n- **非标准控件识别困难**：对于设计师自定义绘制的图形按钮或非原生组件，传统脚本无法定位，只能依靠肉眼辨别，漏检率高达 30%。\n- **数据格式不统一**：不同成员标注的坐标数据和元素类型定义混乱，导致后续生成的自动化测试脚本频繁报错，维护成本高昂。\n- **手绘稿无法利用**：产品早期在白板或纸上绘制的手绘 UI 草图完全无法被数字化解析，必须等高保真设计图出炉才能开始工作。\n\n### 使用 UIED 后\n- **批量检测秒级完成**：利用 UIED 的传统 CV 算法结合 Google OCR，团队将数百张截图批量输入，几分钟内即可自动输出包含所有元素坐标与类别的 JSON 文件。\n- **混合元素精准捕获**：UIED 不仅能识别标准控件，还能通过图像处理技术精准定位手绘草图和自定义图形元素，将元素检出率提升至 95% 以上。\n- **结构化数据直接复用**：输出的标准化 JSON 数据可直接对接内部测试框架，自动生成可执行的无障碍测试脚本，无需人工二次清洗数据。\n- **全阶段覆盖能力**：从早期的手绘草图到最终的 App 截图，UIED 均能统一处理，使得无障碍评估工作左移至设计阶段，提前发现交互缺陷。\n\nUIED 通过将传统的计算机视觉技术与现代 OCR 完美结合，以极低的部署成本实现了多源 UI 图像的结构化解析，让自动化测试不再受限于界面来源与复杂度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMulongXie_UIED_4894c479.png","MulongXie",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMulongXie_04a4ac22.jpg","Researcher & Builder & Founder","mulong@mulongxie.me","https:\u002F\u002Fmulongxie.me\u002F","https:\u002F\u002Fgithub.com\u002FMulongXie",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",70.3,{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",29.7,538,121,"2026-04-02T14:49:38","Apache-2.0","","不需要 GPU（新版使用 Google OCR API，旧版 EAST 检测器虽涉及深度学习但未明确指定显卡型号及 CUDA 版本）","未说明",{"notes":99,"python":100,"dependencies":101},"新版已升级为使用 Google OCR 进行文本检测，无需下载预训练模型，但必须在代码中配置个人的 Google Cloud API Key。若需使用论文原版（基于 EAST 的文本检测），则需切换至 v2.3 版本并手动下载预训练模型。该工具主要基于传统计算机视觉方法检测图形元素，具有高度可定制性。","3.5",[102,103,104],"Opencv==3.4.2","Pandas","Google Cloud Vision API (需自行配置 Key)",[14],[107,108,109,110,111],"text-detection","gui","graphical-elements","object-detection","gui-testing","2026-03-27T02:49:30.150509","2026-04-06T08:18:30.150479",[115,120,125,130,135,140,145],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},13356,"如何运行或设置该项目？","请查阅项目根目录下的 README 文件，其中已更新包含完整的运行和设置说明。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F1",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},13357,"`compo.json` 结果文件中的数值单位和含义是什么？","为了处理速度，非文本检测会将 GUI 图像调整为高度 800 像素并保持宽高比（例如宽度变为 450 像素，3 通道 RGB）。因此，`img.shape` 中的 [800, 450, 3] 分别代表高度、宽度和通道数。对于每个组件，`(column_min, row_min)` 代表左上角坐标，`(column_max, row_max)` 代表右下角坐标，单位均为像素。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F11",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},13358,"在 `run_batch.py` 中提到的 `instances_test.json` 文件是什么，应该如何替换？","该文件仅用于记录测试 GUI 图像的路径列表。你可以直接忽略它，改为在代码变量 `input_imgs` 中直接设置你的测试图像路径即可。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F10",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},13359,"调用 `ocr_detection_google` 函数时出现错误（如 Response [400]）怎么办？","此类错误通常由 Google API 连接失败引起。建议打印出 `response.json()` 的内容以查看具体的错误原因和详细信息。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F20",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},13360,"合并结果时组件被不必要地合并在一起（如多个按钮合并为一个），如何解决？","维护者已更新了包含块识别算法的版本。在该算法中，位于块（block）内的元素将不会被移除。你可以查看 `detect_compo\u002Flib_ip\u002Fip_detection.py` 文件中第 355 行的 `is_block()` 函数了解具体实现。如果需要使用该功能，请确保使用更新后的版本。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F12",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},13361,"如何使用该项目进行组件标注（Labeling）？","如果遇到关于 CNN 模型不存在的错误，请检查并更新 README 文件，其中已包含了最新的标注使用说明和环境配置要求。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F3",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},13362,"在哪里可以下载用于训练 ResNet 50 的数据集（90,000 个 GUI 元素）？","目前 Issue 中尚未提供该数据集的具体下载链接或公开来源，建议关注项目 README 或后续更新以获取数据集信息。","https:\u002F\u002Fgithub.com\u002FMulongXie\u002FUIED\u002Fissues\u002F17",[151,156,161,166,171,176,181,186],{"id":152,"version":153,"summary_zh":154,"released_at":155},72053,"v3.3","1. 在文本检测中新增 Paddle 选项。Paddle OCR 是一款本地检测工具，无需网络连接（与通过 API 调用的 Google OCR 不同）。\n2. 其他部分完全不变。","2022-03-23T08:45:50",{"id":157,"version":158,"summary_zh":159,"released_at":160},72054,"v3.2","1. 合并非区块组件中的文本 2. 向段落添加合并行","2021-09-14T08:20:58",{"id":162,"version":163,"summary_zh":164,"released_at":165},72055,"v3.1","**块** 是一个矩形边框，用于包裹一组组件（可以将其视为线框图）。\n\n在非文本元素检测中：\n1. 从所有非文本元素中识别出块。\n2. 不要合并包含在同一个块中的元素。","2021-08-05T02:35:24",{"id":167,"version":168,"summary_zh":169,"released_at":170},72056,"v3.0","1. 整理并简化代码  \n2. 使用 Google OCR 替代 EAST 模型来检测 GUI 界面中的文本  \n3. 采用更高效的合并方法，将检测到的非文本元素和文本元素进行合并","2021-07-06T12:09:05",{"id":172,"version":173,"summary_zh":174,"released_at":175},72057,"v2.3","为存档起见，在升级和重构之前归档旧版本。","2021-06-29T23:26:15",{"id":177,"version":178,"summary_zh":179,"released_at":180},72058,"v2.2","1. UIED 性能大幅提升（提升500%）\r\n\r\n2. 增加可调节的进度条用于测试","2020-11-11T11:12:52",{"id":182,"version":183,"summary_zh":184,"released_at":185},72059,"v2.1","将所有关键参数提取为可配置项，包括：\r\n\r\n        ele:min-grad：用于生成二值化图像的梯度阈值         \r\n        ele:ffl-block：填充连通域阈值\r\n        ele:min-ele-area：选中元素的最小面积 \r\n        ele:merge-contained-ele：若为真，则合并被其他元素包含的元素\r\n        text:max-word-inline-gap：单词间距小于该值时被视为同一行\r\n        text:max-line-gap：行间距小于该值时被视为同一段落\r\n","2020-10-06T04:15:59",{"id":187,"version":188,"summary_zh":76,"released_at":189},72060,"v2.0","2020-08-09T07:17:48"]