[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SysCV--sam-hq":3,"tool-SysCV--sam-hq":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":103,"forks":104,"last_commit_at":105,"license":106,"difficulty_score":10,"env_os":107,"env_gpu":108,"env_ram":109,"env_deps":110,"category_tags":122,"github_topics":123,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":130,"updated_at":131,"faqs":132,"releases":173},1969,"SysCV\u002Fsam-hq","sam-hq","Segment Anything in High Quality [NeurIPS 2023]","sam-hq 是一款旨在提升图像分割质量的高级开源模型，由苏黎世联邦理工学院与香港科技大学联合研发。它基于著名的 Segment Anything Model (SAM) 进行升级，专门解决了原始模型在零样本场景下生成的掩码边缘粗糙、细节丢失等问题，能够输出像素级的高精度分割结果。\n\n无论是需要精细抠图的设计师，还是从事计算机视觉研究的开发者，sam-hq 都能提供极大帮助。其核心亮点在于引入了高质量解码器，在不依赖额外训练数据的情况下，显著改善了复杂边界和微小物体的分割效果。项目不仅提供了标准版，还推出了基于 TinyViT 架构的 Light HQ-SAM，在保持高精度的同时实现了每秒 41.2 帧的快速推理，兼顾了速度与性能。此外，最新版本 HQ-SAM 2 已发布，并正式集成至 Hugging Face Transformers 库，方便用户直接调用。该工具生态丰富，已广泛应用于视频分割、3D 高斯泼溅及地理空间数据分析等领域，是追求极致分割细节用户的理想选择。","# Segment Anything in High Quality\n\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\">\u003C\u002Fa>\n[![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fsam-hq-team\u002Fsam-hq)\n[![Open in OpenXLab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002Fkeleiwhu\u002Fsam-hq)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_4ac46334cce2.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fsegment-anything-hq)\n\n\n> [**Segment Anything in High Quality**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01567)           \n> NeurIPS 2023  \n> ETH Zurich & HKUST \n\nWe propose HQ-SAM to upgrade SAM for high-quality zero-shot segmentation. Refer to our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01567) for more details.\n\n## Latest updates\n\n**2025\u002F06** -- :fire::fire: HQ-SAM is supported in the [Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers) library. Please see the detailed usage instruction [here](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fmodel_doc\u002Fsam_hq). The pretrained model checkpoints can also be downloaded at [here](https:\u002F\u002Fhuggingface.co\u002Fsyscv-community).\n\n**2024\u002F11\u002F17 -- HQ-SAM 2 is released**\n\n- A new suite of improved model checkpoints (denoted as **HQ-SAM 2**, beta-version) are released. See [Model Description](sam-hq2\u002FREADME.md) for details. Change working directory by `cd sam-hq2`\n\n![HQ-SAM2 results comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_74b8d1735bee.png)\n\nUpdates\n-----------------\n:fire::fire: **SAM for Video Segmentation**: Interested in intersecting SAM and video? HQ-SAM is supported by [DEVA](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA) in its text-prompted mode! Also, check the work [MASA](https:\u002F\u002Fgithub.com\u002Fsiyuanliii\u002Fmasa) and [SAM-PT](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-pt) with SAM.\n\n:fire::fire: **SAM in 3D**: Interested in intersecting SAM and 3D Gaussian Splatting? See our new work [Gaussian Grouping](https:\u002F\u002Fgithub.com\u002Flkeab\u002Fgaussian-grouping)! Also, if you are interested in intersecting SAM and NeRF, please see work [SANeRF-HQ](https:\u002F\u002Fgithub.com\u002Flyclyc52\u002FSANeRF-HQ)!\n\nMore: HQ-SAM is adopted in [Osprey](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10032), [CaR](https:\u002F\u002Ftorrvision.com\u002Fclip_as_rnn\u002F), [SpatialRGPT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01584), [GLaMM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03356), [ENIGMA-51](https:\u002F\u002Fiplab.dmi.unict.it\u002FENIGMA-51\u002F) to provide fine-grained mask annotations.\n\n\nPlatform integration: HQ-SAM is supported in the [OpenMMLab PlayGround](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fplayground\u002Fblob\u002Fmain\u002Flabel_anything\u002Freadme.md) for annotation with Label-Studio, in [segment-geospatial](https:\u002F\u002Fgithub.com\u002Fopengeos\u002Fsegment-geospatial) for segmenting geospatial data, and mask annotation tool [ISAT](https:\u002F\u002Fgithub.com\u002FyatengLG\u002FISAT_with_segment_anything), and [Supervisely](https:\u002F\u002Fsupervisely.com\u002Fblog\u002Fsegment-anything-in-high-quality-HQ-SAM\u002F)!\n\n2023\u002F08\u002F11: Support [python package](#quick-installation-via-pip) for easier **pip installation**. Light HQ-SAM is in [EfficientSAM series](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\u002Ftree\u002Fmain\u002FEfficientSAM) combining with [Grounded SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\u002F)!\n\n\u003C!-- 2023\u002F07\u002F21: HQ-SAM is also in OpenXLab apps, thanks their support! -->\n\n:rocket::rocket: 2023\u002F07\u002F17: We released **Light HQ-SAM** using TinyViT as backbone, for both fast and high-quality zero-shot segmentation, which reaches **41.2 FPS**. Refer to [Light HQ-SAM vs. MobileSAM](#light-hq-sam-vs-mobilesam-on-coco) for more details.\n\n:trophy::1st_place_medal: 2023\u002F07\u002F14: Grounded **HQ-SAM** obtains the **first place**:1st_place_medal: in the [Segmentation in the Wild](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F1931\u002Fleaderboard\u002F4567) competition on zero-shot track (hosted in [CVPR 2023 workshop](https:\u002F\u002Fcomputer-vision-in-the-wild.github.io\u002Fcvpr-2023\u002F)), outperforming Grounded SAM. Refer to our [SGinW evaluation](#grounded-hq-sam-vs-grounded-sam-on-seginw) for more details.\n\n2023\u002F07\u002F05: We released [SAM tuning instuctions](#hq-sam-tuning-and-hq-seg44k-data) and [HQSeg-44K data](#hq-sam-tuning-and-hq-seg44k-data).\n\n2023\u002F07\u002F04: HQ-SAM is adopted in [SAM-PT](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-pt) to improve the SAM-based zero-shot video segmentation performance. Also, HQ-SAM is used in [Grounded-SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything), [Inpaint Anything](https:\u002F\u002Fgithub.com\u002FUminosachi\u002Fsd-webui-inpaint-anything) and [HQTrack](https:\u002F\u002Fgithub.com\u002Fjiawen-zhu\u002FHQTrack) (2nd in VOTS 2023).\n\n2023\u002F06\u002F28: We released the [ONNX export script](#onnx-export) and [colab notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F11U2La49c2IxahzJkAV-EzPqEH3cz_5hq?usp=sharing) for exporting and using ONNX model.\n\n2023\u002F06\u002F23: Play with HQ-SAM demo at [![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fsam-hq-team\u002Fsam-hq), which supports point, box and text prompts.\n\n2023\u002F06\u002F14: We released the [colab demo](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing) \u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\">\u003C\u002Fa> and [automatic mask generator notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dhRq4eR6Fbl-yl1vbQvU9hqyyeOidQaU?usp=sharing).\n\n2023\u002F06\u002F13: We released the [model checkpoints](#model-checkpoints) and [demo visualization codes](#getting-started).\n\nVisual comparison between SAM and HQ-SAM\n-----------------\n**SAM vs. HQ-SAM**\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_cdd5d47dc1e2.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_3c7de5b21c46.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_14435f670937.gif\" width=\"250\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_63934483884a.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_87f17d5e1c09.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_20370934233c.gif\" width=\"250\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cimg width=\"900\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_275c064ff23a.png'>\n\nIntroduction\n-----------------\nThe recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. \n\n\u003Cimg width=\"1096\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_be7d57d480f3.png'>\n\nQuantitative comparison between SAM and HQ-SAM\n-----------------\nNote: For box-prompting-based evaluation, we feed SAM, MobileSAM and our HQ-SAM with the same image\u002Fvideo bounding boxes and adopt the single mask output mode of SAM. \n\nWe provide comprehensive performance, model size and speed comparison on SAM variants:\n\u003Cimg width=\"1096\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_262a668ec299.png'>\n\n### Various ViT backbones on COCO:\n![backbones](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_5e965cb0109d.png)\nNote: For the COCO dataset, we use a SOTA detector FocalNet-DINO trained on the COCO dataset as our box prompt generator.\n\n### YTVIS and HQ-YTVIS\nNote:Using ViT-L backbone. We adopt the SOTA detector Mask2Former trained on the YouTubeVIS 2019 dataset as our video boxes prompt generator while reusing its object association prediction.\n![ytvis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_a177a1da91d0.png)\n\n### DAVIS\nNote: Using ViT-L backbone. We adopt the SOTA model XMem as our video boxes prompt generator while reusing its object association prediction.\n![davis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_e12d34172d0a.png)\n\n### **Quick Installation via pip**\n```\npip install segment-anything-hq\npython\nfrom segment_anything_hq import sam_model_registry\nmodel_type = \"\u003Cmodel_type>\" #\"vit_l\u002Fvit_b\u002Fvit_h\u002Fvit_tiny\"\nsam_checkpoint = \"\u003Cpath\u002Fto\u002Fcheckpoint>\"\nsam = sam_model_registry[model_type](checkpoint=sam_checkpoint)\n```\n\nsee specific usage example (such as vit-l) by running belowing command:\n```\nexport PYTHONPATH=$(pwd)\npython demo\u002Fdemo_hqsam_pip_example.py\n```\n\n\n### **Standard Installation**\nThe code requires `python>=3.8`, as well as `pytorch>=1.7` and `torchvision>=0.8`. Please follow the instructions [here](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) to install both PyTorch and TorchVision dependencies. Installing both PyTorch and TorchVision with CUDA support is strongly recommended.\n\nClone the repository locally and install with\n\n```\ngit clone https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git\ncd sam-hq; pip install -e .\n```\n\nThe following optional dependencies are necessary for mask post-processing, saving masks in COCO format, the example notebooks, and exporting the model in ONNX format. `jupyter` is also required to run the example notebooks.\n\n```\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n```\n\n### Example conda environment setup\n```bash\nconda create --name sam_hq python=3.8 -y\nconda activate sam_hq\nconda install pytorch==1.10.0 torchvision==0.11.0 cudatoolkit=11.1 -c pytorch -c nvidia\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n\n# under your working directory\ngit clone https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git\ncd sam-hq\npip install -e .\nexport PYTHONPATH=$(pwd)\n```\n\n### **Model Checkpoints**\n\nThree HQ-SAM model versions of the model are available with different backbone sizes. These models can be instantiated by running\n\n```\nfrom segment_anything import sam_model_registry\nsam = sam_model_registry[\"\u003Cmodel_type>\"](checkpoint=\"\u003Cpath\u002Fto\u002Fcheckpoint>\")\n```\n\nDownload the provided trained model below and put them into the pretrained_checkpoint folder:\n```\nmkdir pretrained_checkpoint\n``` \n\nClick the links below to download the checkpoint for the corresponding model type. We also provide **alternative model downloading links** [here](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F5) or at [hugging face](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Ftree\u002Fmain).\n- `vit_b`: [ViT-B HQ-SAM model.](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11yExZLOve38kRZPfRx_MRxfIAKmfMY47\u002Fview?usp=sharing)\n- `vit_l`: [ViT-L HQ-SAM model.](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Uk17tDKX1YAKas5knI4y9ZJCo0lRVL0G\u002Fview?usp=sharing)\n- `vit_h`: [ViT-H HQ-SAM model.](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1qobFYrI4eyIANfBSmYcGuWRaSIXfMOQ8\u002Fview?usp=sharing)\n- `vit_tiny` (**Light HQ-SAM** for real-time need): [ViT-Tiny HQ-SAM model.](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Fresolve\u002Fmain\u002Fsam_hq_vit_tiny.pth)\n\n### **Getting Started**\n\nFirst download a [model checkpoint](#model-checkpoints). Then the model can be used in just a few lines to get masks from a given prompt:\n\n```\nfrom segment_anything import SamPredictor, sam_model_registry\nsam = sam_model_registry[\"\u003Cmodel_type>\"](checkpoint=\"\u003Cpath\u002Fto\u002Fcheckpoint>\")\npredictor = SamPredictor(sam)\npredictor.set_image(\u003Cyour_image>)\nmasks, _, _ = predictor.predict(\u003Cinput_prompts>)\n```\n\nAdditionally, see the usage examples in our [demo](\u002Fdemo\u002Fdemo_hqsam.py) , [colab notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing) and [automatic mask generator notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dhRq4eR6Fbl-yl1vbQvU9hqyyeOidQaU?usp=sharing).\n\nTo obtain HQ-SAM's visual result:\n```\npython demo\u002Fdemo_hqsam.py\n```\n\nTo obtain baseline SAM's visual result. Note that you need to download original SAM checkpoint from [baseline-SAM-L model](https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fsegment_anything\u002Fsam_vit_l_0b3195.pth) and put it into the pretrained_checkpoint folder.\n```\npython demo\u002Fdemo_sam.py\n```\n\nTo obtain Light HQ-SAM's visual result:\n```\npython demo\u002Fdemo_hqsam_light.py\n```\n\n### **HQ-SAM Tuning and HQ-Seg44k Data**\nWe provide detailed training, evaluation, visualization and data downloading instructions in [HQ-SAM training](train\u002FREADME.md). You can also replace our training data to obtain your own SAM in specific application domain (like medical, OCR and remote sensing).\n\nPlease change the current folder path to:\n```\ncd train\n```\nand then refer to detailed [readme instruction](train\u002FREADME.md).\n\n### **Grounded HQ-SAM vs Grounded SAM on [SegInW](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F1931\u002Foverview?ref=blog.roboflow.com)**\n\nGrounded HQ-SAM wins the **first place**:1st_place_medal: on SegInW benchmark (consist of 25 public zero-shot in the wild segmentation datasets), and outpuerforming Grounded SAM using the same grounding-dino detector.\n\n\u003Ctable>\u003Ctbody>\n\u003C!-- START TABLE -->\n\u003C!-- TABLE HEADER -->\n\u003Cth valign=\"bottom\">Model Name\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Encoder\u003C\u002Fth>\n\u003Cth valign=\"bottom\">GroundingDINO\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Mean AP\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Evaluation Script\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Log\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Output Json\u003C\u002Fth>\n\u003C!-- TABLE BODY -->\n\u003C!-- ROW: maskformer2_R50_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">Grounded SAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">vit-h\u003C\u002Ftd>\n\u003Ctd align=\"center\">swin-b\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.7\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Ftest_seginw.sh\">script\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Flogs\u002Fgrounded_sam.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fsam-hq-team\u002FSegInW\u002Fresolve\u002Fmain\u002Fresult\u002Fgrounded_sam.zip\">result\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C!-- ROW: maskformer2_R101_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">Grounded HQ-SAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">vit-h\u003C\u002Ftd>\n\u003Ctd align=\"center\">swin-b\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Cb>49.6\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Ftest_seginw_hq.sh\">script\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Flogs\u002Fgrounded_hqsam.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fsam-hq-team\u002FSegInW\u002Fresolve\u002Fmain\u002Fresult\u002Fgrounded_hqsam.zip\">result\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\nPlease change the current folder path to:\n```\ncd seginw\n```\nWe provide detailed evaluation instructions and metrics on SegInW in [Grounded-HQ-SAM evaluation](seginw\u002FREADME.md).\n\n### **Light HQ-SAM vs MobileSAM on COCO**\nWe propose [Light HQ-SAM](#model-checkpoints) based on the tiny vit image encoder provided by MobileSAM. We provide quantitative comparison on zero-shot COCO performance, speed and memory below. Try Light HQ-SAM at [here](#getting-started).\n\n\u003Ctable>\u003Ctbody>\n\u003C!-- START TABLE -->\n\u003C!-- TABLE HEADER -->\n\u003Cth valign=\"bottom\">Model\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Encoder\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@L\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@M\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@S\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Model Params (MB)\u003C\u002Fth>\n\u003Cth valign=\"bottom\">FPS\u003C\u002Fth>\n\u003Cth valign=\"bottom\">Memory (GB)\u003C\u002Fth>\n\u003C!-- TABLE BODY -->\n\u003C!-- ROW: maskformer2_R50_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">MobileSAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">TinyViT\u003C\u002Ftd>\n\u003Ctd align=\"center\">44.3\u003C\u002Ftd>\n\u003Ctd align=\"center\">61.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.1\u003C\u002Ftd>\n\u003Ctd align=\"center\">28.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">38.6\u003C\u002Ftd>\n\u003Ctd align=\"center\">44.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">3.7\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C!-- ROW: maskformer2_R101_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">\u003Cb>Light HQ-SAM\u003C\u002Fb>\u003C\u002Ftd>\n \u003Ctd align=\"center\">TinyViT\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Cb>45.0\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd align=\"center\">62.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">29.2\u003C\u002Ftd>\n\u003Ctd align=\"center\">40.3\u003C\u002Ftd>\n\u003Ctd align=\"center\">41.2\u003C\u002Ftd>\n\u003Ctd align=\"center\">3.7\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\nNote: For the COCO dataset, we use the same SOTA detector FocalNet-DINO trained on the COCO dataset as our and Mobile sam's box prompt generator.\n\n\n### **ONNX export**\nHQ-SAM's lightweight mask decoder can be exported to ONNX format so that it can be run in any environment that supports ONNX runtime. Export the model with\n```\npython scripts\u002Fexport_onnx_model.py --checkpoint \u003Cpath\u002Fto\u002Fcheckpoint> --model-type \u003Cmodel_type> --output \u003Cpath\u002Fto\u002Foutput>\n```\nSee the [example notebook](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F11U2La49c2IxahzJkAV-EzPqEH3cz_5hq?usp=sharing) for details on how to combine image preprocessing via HQ-SAM's backbone with mask prediction using the ONNX model. It is recommended to use the latest stable version of PyTorch for ONNX export.\n\n\nCitation\n---------------\nIf you find HQ-SAM useful in your research or refer to the provided baseline results, please star :star: this repository and consider citing :pencil::\n```\n@inproceedings{sam_hq,\n    title={Segment Anything in High Quality},\n    author={Ke, Lei and Ye, Mingqiao and Danelljan, Martin and Liu, Yifan and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle={NeurIPS},\n    year={2023}\n}  \n```\nRelated high-quality instance segmentation work:\n```\n@inproceedings{transfiner,\n    title={Mask Transfiner for High-Quality Instance Segmentation},\n    author={Ke, Lei and Danelljan, Martin and Li, Xia and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle={CVPR},\n    year={2022}\n}\n```\n\n## Acknowledgments\n- Thanks [SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything), [Grounded SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything) and [MobileSAM](https:\u002F\u002Fgithub.com\u002FChaoningZhang\u002FMobileSAM) for their public code and released models.\n","# 高质量的任何物体分割\n\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\">\u003C\u002Fa>\n[![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fsam-hq-team\u002Fsam-hq)\n[![在OpenXLab中打开](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fapp-center\u002Fopenxlab_app.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fapps\u002Fdetail\u002Fkeleiwhu\u002Fsam-hq)\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_4ac46334cce2.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fsegment-anything-hq)\n\n\n> [**高质量的任何物体分割**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01567)           \n> 神经信息处理系统大会 2023  \n> 苏黎世联邦理工学院 & 香港科技大学 \n\n我们提出了HQ-SAM，用于升级SAM以实现高质量的零样本分割。更多细节请参阅我们的[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.01567)。\n\n## 最新进展\n\n**2025\u002F06** -- :fire::fire: HQ-SAM已支持[Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)库。请查看详细的使用说明[这里](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fmodel_doc\u002Fsam_hq)。预训练模型检查点也可从[这里](https:\u002F\u002Fhuggingface.co\u002Fsyscv-community)下载。\n\n**2024\u002F11\u002F17 -- HQ-SAM 2发布**\n\n- 一组新的改进模型检查点（标记为**HQ-SAM 2**, 测试版）已发布。详情请参阅[模型描述](sam-hq2\u002FREADME.md)。通过`cd sam-hq2`更改工作目录。\n\n![HQ-SAM2结果对比](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_74b8d1735bee.png)\n\n更新内容\n-----------------\n:fire::fire: **用于视频分割的SAM**: 想要将SAM与视频结合？HQ-SAM已在[DEVA](https:\u002F\u002Fgithub.com\u002Fhkchengrex\u002FTracking-Anything-with-DEVA)的文本提示模式下支持！此外，还可查看基于SAM的工作[MASA](https:\u002F\u002Fgithub.com\u002Fsiyuanliii\u002Fmasa)和[SAM-PT](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-pt)。\n\n:fire::fire: **3D中的SAM**: 想要将SAM与3D高斯散射结合？请查看我们的新工作[Gaussian Grouping](https:\u002F\u002Fgithub.com\u002Flkeab\u002Fgaussian-grouping)！另外，如果你对SAM与NeRF的结合感兴趣，请查看工作[SANeRF-HQ](https:\u002F\u002Fgithub.com\u002Flyclyc52\u002FSANeRF-HQ)！\n\n更多：HQ-SAM已被应用于[Osprey](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10032)、[CaR](https:\u002F\u002Ftorrvision.com\u002Fclip_as_rnn\u002F)、[SpatialRGPT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01584)、[GLaMM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.03356)、[ENIGMA-51](https:\u002F\u002Fiplab.dmi.unict.it\u002FENIGMA-51\u002F)，以提供细粒度的掩码标注。\n\n平台集成：HQ-SAM已在[OpenMMLab PlayGround](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fplayground\u002Fblob\u002Fmain\u002Flabel_anything\u002Freadme.md)中支持，可用于Label-Studio标注；在[segment-geospatial](https:\u002F\u002Fgithub.com\u002Fopengeos\u002Fsegment-geospatial)中用于地理空间数据分割；以及掩码标注工具[ISAT](https:\u002F\u002Fgithub.com\u002FyatengLG\u002FISAT_with_segment_anything)，还有[Supervisely](https:\u002F\u002Fsupervisely.com\u002Fblog\u002Fsegment-anything-in-high-quality-HQ-SAM\u002F)！\n\n2023\u002F08\u002F11：支持[Python包](#通过pip快速安装)以便更轻松地进行**pip安装**。轻量级HQ-SAM属于[EfficientSAM系列](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\u002Ftree\u002Fmain\u002FEfficientSAM)，并与[Grounded SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything\u002F)结合！\n\n\u003C!-- 2023\u002F07\u002F21：HQ-SAM也已进入OpenXLab应用，感谢他们的支持！ -->\n\n:rocket::rocket: 2023\u002F07\u002F17：我们发布了使用TinyViT作为骨干的**轻量级HQ-SAM**，可实现快速且高质量的零样本分割，达到**41.2 FPS**。更多细节请参阅[轻量级HQ-SAM与MobileSAM对比](#轻量级HQ-SAM与MobileSAM在COCO上的对比)。\n\n:trophy::1st_place_medal: 2023\u002F07\u002F14：基于Grounded的**HQ-SAM**在[Segmentation in the Wild](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F1931\u002Fleaderboard\u002F4567)竞赛的零样本赛道上获得**第一名**：1st_place_medal:（该竞赛由[CVPR 2023研讨会](https:\u002F\u002Fcomputer-vision-in-the-wild.github.io\u002Fcvpr-2023\u002F)主办），性能超越Grounded SAM。更多细节请参阅我们的[SGinW评估](#基于Grounded的HQ-SAM与Grounded SAM在SeginW上的对比)。\n\n2023\u002F07\u002F05：我们发布了[SAM调优说明](#hq-sam调优与hq-seg44k数据)和[HQSeg-44K数据](#hq-sam调优与hq-seg44k数据)。\n\n2023\u002F07\u002F04：HQ-SAM被采用于[SAM-PT](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-pt)以提升基于SAM的零样本视频分割性能。此外，HQ-SAM还用于[Grounded-SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything)、[Inpaint Anything](https:\u002F\u002Fgithub.com\u002FUminosachi\u002Fsd-webui-inpaint-anything)和[HQTrack](https:\u002F\u002Fgithub.com\u002Fjiawen-zhu\u002FHQTrack)（在2023年VOTS中排名第二）。\n\n2023\u002F06\u002F28：我们发布了[ONNX导出脚本](#onnx导出)和[Colab笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F11U2La49c2IxahzJkAV-EzPqEH3cz_5hq?usp=sharing)用于导出和使用ONNX模型。\n\n2023\u002F06\u002F23：在[![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fsam-hq-team\u002Fsam-hq)体验HQ-SAM演示，支持点、框和文本提示。\n\n2023\u002F06\u002F14：我们发布了[Colab演示](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing)\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\">\u003C\u002Fa>和[自动掩码生成器笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dhRq4eR6Fbl-yl1vbQvU9hqyyeOidQaU?usp=sharing)。\n\n2023\u002F06\u002F13：我们发布了[模型检查点](#模型检查点)和[演示可视化代码](#开始使用)。\n\nSAM与HQ-SAM的视觉对比\n-----------------\n**SAM与HQ-SAM**\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_cdd5d47dc1e2.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_3c7de5b21c46.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_14435f670937.gif\" width=\"250\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_63934483884a.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_87f17d5e1c09.gif\" width=\"250\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_20370934233c.gif\" width=\"250\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Cimg width=\"900\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_275c064ff23a.png'>\n\n简介\n-----------------\n近期推出的分割一切模型（SAM）在扩展分割模型规模方面实现了重大突破，赋予了强大的零样本能力和灵活的提示功能。尽管SAM使用11亿个掩码进行训练，但在许多情况下，其掩码预测质量仍显不足，尤其是在处理结构复杂的物体时。我们提出了HQ-SAM，为SAM增添了精准分割任意物体的能力，同时保留了SAM原有的可提示设计、高效性和零样本泛化能力。我们的精心设计复用了并保留了SAM预训练模型的权重，仅引入了极少的额外参数和计算量。我们设计了一种可学习的高质量输出标记，将其注入SAM的掩码解码器中，负责生成高质量的掩码。与仅应用于掩码解码器特征不同，我们首先将这些标记与早期和最终的ViT特征进行融合，以提升掩码细节。为了训练我们引入的可学习参数，我们从多个来源构建了一个包含4.4万个精细掩码的数据集。HQ-SAM仅基于这4.4万掩码数据集进行训练，仅需8块GPU运行4小时。我们在一系列涵盖不同下游任务的9个多样化分割数据集中验证了HQ-SAM的有效性，其中7个数据集采用了零样本迁移评估协议。\n\n\u003Cimg width=\"1096\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_be7d57d480f3.png'>\n\nSAM与HQ-SAM的定量对比\n-----------------\n注：对于基于框提示的评估，我们为SAM、MobileSAM和我们的HQ-SAM提供了相同的图像\u002F视频边界框，并采用SAM的单掩码输出模式。\n\n我们提供了SAM变体的全面性能、模型大小和速度对比：\n\u003Cimg width=\"1096\" alt=\"image\" src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_262a668ec299.png'>\n\n\n\n### COCO数据集上的多种ViT主干网络：\n![backbones](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_5e965cb0109d.png)\n注：对于COCO数据集，我们使用在COCO数据集上训练的SOTA检测器FocalNet-DINO作为我们的框提示生成器。\n\n### YTVIS与HQ-YTVIS\n注：使用ViT-L主干网络。我们采用在YouTubeVIS 2019数据集上训练的SOTA检测器Mask2Former作为视频框提示生成器，同时复用其目标关联预测。\n![ytvis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_a177a1da91d0.png)\n\n### DAVIS\n注：使用ViT-L主干网络。我们采用SOTA模型XMem作为视频框提示生成器，同时复用其目标关联预测。\n![davis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_readme_e12d34172d0a.png)\n\n### 通过pip快速安装\n```\npip install segment-anything-hq\npython\nfrom segment_anything_hq import sam_model_registry\nmodel_type = \"\u003Cmodel_type>\" # \"vit_l\u002Fvit_b\u002Fvit_h\u002Fvit_tiny\"\nsam_checkpoint = \"\u003Cpath\u002Fto\u002Fcheckpoint>\"\nsam = sam_model_registry[model_type](checkpoint=sam_checkpoint)\n```\n\n通过运行以下命令查看具体使用示例（如vit-l）：\n```\nexport PYTHONPATH=$(pwd)\npython demo\u002Fdemo_hqsam_pip_example.py\n```\n\n\n### 标准安装\n该代码需要`python>=3.8`，以及`pytorch>=1.7`和`torchvision>=0.8`。请按照[这里](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)的说明安装PyTorch和TorchVision依赖。强烈建议安装支持CUDA的PyTorch和TorchVision。\n\n克隆仓库到本地并安装：\n\n```\ngit clone https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git\ncd sam-hq; pip install -e .\n```\n\n以下可选依赖项用于掩码后处理、以COCO格式保存掩码、示例笔记本以及导出ONNX格式的模型。运行示例笔记本还需要`jupyter`。\n\n```\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n```\n\n### 示例conda环境设置\n```bash\nconda create --name sam_hq python=3.8 -y\nconda activate sam_hq\nconda install pytorch==1.10.0 torchvision==0.11.0 cudatoolkit=11.1 -c pytorch -c nvidia\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n\n# 在工作目录下\ngit clone https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git\ncd sam-hq\npip install -e .\nexport PYTHONPATH=$(pwd)\n```\n\n### 模型检查点\n\n提供三种不同主干尺寸的HQ-SAM模型版本。可通过以下方式实例化这些模型：\n\n```\nfrom segment_anything import sam_model_registry\nsam = sam_model_registry[\"\u003Cmodel_type>\"](checkpoint=\"\u003Cpath\u002Fto\u002Fcheckpoint>\")\n```\n\n下载提供的训练好的模型并放入pretrained_checkpoint文件夹：\n```\nmkdir pretrained_checkpoint\n``` \n\n点击以下链接下载对应型号的检查点。我们还提供了[这里](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F5)或[Hugging Face](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Ftree\u002Fmain)上的**备用模型下载链接**。\n- `vit_b`: [ViT-B HQ-SAM模型。](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11yExZLOve38kRZPfRx_MRxfIAKmfMY47\u002Fview?usp=sharing)\n- `vit_l`: [ViT-L HQ-SAM模型。](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Uk17tDKX1YAKas5knI4y9ZJCo0lRVL0G\u002Fview?usp=sharing)\n- `vit_h`: [ViT-H HQ-SAM模型。](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1qobFYrI4eyIANfBSmYcGuWRaSIXfMOQ8\u002Fview?usp=sharing)\n- `vit_tiny`（适用于实时需求的轻量级HQ-SAM）: [ViT-Tiny HQ-SAM模型。](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Fresolve\u002Fmain\u002Fsam_hq_vit_tiny.pth)\n\n### 开始使用\n\n首先下载一个[模型检查点](#model-checkpoints)。然后只需几行代码即可使用该模型从给定提示中获取掩码：\n\n```\nfrom segment_anything import SamPredictor, sam_model_registry\nsam = sam_model_registry[\"\u003Cmodel_type>\"](checkpoint=\"\u003Cpath\u002Fto\u002Fcheckpoint>\")\npredictor = SamPredictor(sam)\npredictor.set_image(\u003Cyour_image>)\nmasks, _, _ = predictor.predict(\u003Cinput_prompts>)\n```\n\n此外，还可参阅我们的[示例](\u002Fdemo\u002Fdemo_hqsam.py)、[Colab笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing)和[自动掩码生成笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1dhRq4eR6Fbl-yl1vbQvU9hqyyeOidQaU?usp=sharing)中的使用示例。\n\n要获取HQ-SAM的可视化结果：\n```\npython demo\u002Fdemo_hqsam.py\n```\n\n要获取基准SAM的可视化结果。请注意，您需要从[基准SAM-L模型](https:\u002F\u002Fdl.fbaipublicfiles.com\u002Fsegment_anything\u002Fsam_vit_l_0b3195.pth)下载原始SAM检查点，并将其放入pretrained_checkpoint文件夹。\n```\npython demo\u002Fdemo_sam.py\n```\n\n要获取轻量级HQ-SAM的可视化结果：\n```\npython demo\u002Fdemo_hqsam_light.py\n```\n\n### HQ-SAM调优与HQ-Seg44k数据\n我们在[HQ-SAM训练](train\u002FREADME.md)中提供了详细的训练、评估、可视化和数据下载说明。您还可以替换我们的训练数据，以针对特定应用领域（如医疗、OCR和遥感）获得您自己的SAM。\n\n请将当前文件夹路径更改为：\n```\ncd train\n```\n然后参考详细的[readme说明](train\u002FREADME.md)。\n\n### **Grounded HQ-SAM 与 Grounded SAM 在 [SegInW](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F1931\u002Foverview?ref=blog.roboflow.com) 上的对比**\n\nGrounded HQ-SAM 在 SegInW 基准测试中荣获**第一名**：1st_place_medal:，该基准测试由 25 个公开的零样本野外分割数据集组成，且其性能优于使用相同 GroundingDINO 检测器的 Grounded SAM。\n\n\u003Ctable>\u003Ctbody>\n\u003C!-- START TABLE -->\n\u003C!-- TABLE HEADER -->\n\u003Cth valign=\"bottom\">模型名称\u003C\u002Fth>\n\u003Cth valign=\"bottom\">编码器\u003C\u002Fth>\n\u003Cth valign=\"bottom\">GroundingDINO\u003C\u002Fth>\n\u003Cth valign=\"bottom\">平均 AP\u003C\u002Fth>\n\u003Cth valign=\"bottom\">评估脚本\u003C\u002Fth>\n\u003Cth valign=\"bottom\">日志\u003C\u002Fth>\n\u003Cth valign=\"bottom\">输出 JSON\u003C\u002Fth>\n\u003C!-- TABLE BODY -->\n\u003C!-- ROW: maskformer2_R50_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">Grounded SAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">vit-h\u003C\u002Ftd>\n\u003Ctd align=\"center\">swin-b\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.7\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Ftest_seginw.sh\">脚本\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Flogs\u002Fgrounded_sam.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fsam-hq-team\u002FSegInW\u002Fresolve\u002Fmain\u002Fresult\u002Fgrounded_sam.zip\">结果\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C!-- ROW: maskformer2_R101_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">Grounded HQ-SAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">vit-h\u003C\u002Ftd>\n\u003Ctd align=\"center\">swin-b\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Cb>49.6\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Ftest_seginw_hq.sh\">脚本\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"seginw\u002Flogs\u002Fgrounded_hqsam.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fsam-hq-team\u002FSegInW\u002Fresolve\u002Fmain\u002Fresult\u002Fgrounded_hqsam.zip\">结果\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n请将当前文件夹路径更改为：\n```\ncd seginw\n```\n我们在 [Grounded-HQ-SAM 评估](seginw\u002FREADME.md) 中提供了 SegInW 的详细评估说明和指标。\n\n### **Light HQ-SAM 与 MobileSAM 在 COCO 上的对比**\n我们基于 MobileSAM 提供的 tiny vit 图像编码器，提出了 [Light HQ-SAM](#model-checkpoints)。以下是 Light HQ-SAM 在零样本 COCO 性能、速度和内存方面的量化对比。您可在此处尝试 Light HQ-SAM：[here](#getting-started)。\n\n\u003Ctable>\u003Ctbody>\n\u003C!-- START TABLE -->\n\u003C!-- TABLE HEADER -->\n\u003Cth valign=\"bottom\">模型\u003C\u002Fth>\n\u003Cth valign=\"bottom\">编码器\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@L\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@M\u003C\u002Fth>\n\u003Cth valign=\"bottom\">AP@S\u003C\u002Fth>\n\u003Cth valign=\"bottom\">模型参数（MB）\u003C\u002Fth>\n\u003Cth valign=\"bottom\">FPS\u003C\u002Fth>\n\u003Cth valign=\"bottom\">内存（GB）\u003C\u002Fth>\n\u003C!-- TABLE BODY -->\n\u003C!-- ROW: maskformer2_R50_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">MobileSAM\u003C\u002Ftd>\n\u003Ctd align=\"center\">TinyViT\u003C\u002Ftd>\n\u003Ctd align=\"center\">44.3\u003C\u002Ftd>\n\u003Ctd align=\"center\">61.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.1\u003C\u002Ftd>\n\u003Ctd align=\"center\">28.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">38.6\u003C\u002Ftd>\n\u003Ctd align=\"center\">44.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">3.7\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C!-- ROW: maskformer2_R101_bs16_50ep -->\n \u003Ctr>\u003Ctd align=\"left\">\u003Cb>Light HQ-SAM\u003C\u002Fb>\u003C\u002Ftd>\n \u003Ctd align=\"center\">TinyViT\u003C\u002Ftd>\n\u003Ctd align=\"center\">\u003Cb>45.0\u003C\u002Fb>\u003C\u002Ftd>\n\u003Ctd align=\"center\">62.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">48.8\u003C\u002Ftd>\n\u003Ctd align=\"center\">29.2\u003C\u002Ftd>\n\u003Ctd align=\"center\">40.3\u003C\u002Ftd>\n\u003Ctd align=\"center\">41.2\u003C\u002Ftd>\n\u003Ctd align=\"center\">3.7\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\n注：对于 COCO 数据集，我们使用了与 Mobile SAM 相同的 SOTA 检测器 FocalNet-DINO，并在 COCO 数据集上进行了训练，作为我们的边界框提示生成器。\n\n\n### **ONNX 导出**\nHQ-SAM 的轻量级掩码解码器可以导出为 ONNX 格式，以便在任何支持 ONNX 运行时的环境中运行。使用以下命令导出模型：\n```\npython scripts\u002Fexport_onnx_model.py --checkpoint \u003Cpath\u002Fto\u002Fcheckpoint> --model-type \u003Cmodel_type> --output \u003Cpath\u002Fto\u002Foutput>\n```\n有关如何通过 HQ-SAM 的主干进行图像预处理，并使用 ONNX 模型进行掩码预测的详细信息，请参阅 [示例笔记本](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F11U2La49c2IxahzJkAV-EzPqEH3cz_5hq?usp=sharing)。建议使用最新稳定版的 PyTorch 进行 ONNX 导出。\n\n\n引用\n---------------\n如果您在研究中发现 HQ-SAM 有用，或参考了提供的基线结果，请为本仓库点赞 :star:，并考虑引用 :pencil::  \n```\n@inproceedings{sam_hq,\n    title={Segment Anything in High Quality},\n    author={Ke, Lei and Ye, Mingqiao and Danelljan, Martin and Liu, Yifan and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle={NeurIPS},\n    year={2023}\n}  \n```\n\n相关高质量实例分割工作：\n```\n@inproceedings{transfiner,\n    title={Mask Transfiner for High-Quality Instance Segmentation},\n    author={Ke, Lei and Danelljan, Martin and Li, Xia and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle={CVPR},\n    year={2022}\n}\n```\n\n## 致谢\n- 感谢 [SAM](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fsegment-anything)、[Grounded SAM](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FGrounded-Segment-Anything) 和 [MobileSAM](https:\u002F\u002Fgithub.com\u002FChaoningZhang\u002FMobileSAM) 提供的公开代码和发布的模型。","# SAM-HQ 快速上手指南\n\nSAM-HQ (Segment Anything in High Quality) 是对原始 SAM 模型的升级版本，旨在提供高质量的零样本分割能力，特别擅长处理结构复杂的物体。它在保持 SAM 原有提示交互设计和效率的同时，显著提升了掩码（Mask）的预测精度。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS, Windows\n*   **Python 版本**: >= 3.8\n*   **PyTorch**: >= 1.7 (强烈建议安装支持 CUDA 的版本以加速推理)\n*   **TorchVision**: >= 0.8\n\n**前置依赖安装：**\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取适合您环境的 PyTorch 和 TorchVision 安装命令。例如，使用 pip 安装 CUDA 版本的示例：\n\n```bash\npip install torch torchvision --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n## 2. 安装步骤\n\n您可以选择通过 `pip` 快速安装，或通过源码安装以获取更多自定义功能。\n\n### 方式一：通过 Pip 快速安装（推荐）\n\n这是最简单的方式，适合直接调用模型进行推理。\n\n```bash\npip install segment-anything-hq\n```\n\n安装完成后，还需安装一些可选依赖以支持图像处理和可视化：\n\n```bash\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n```\n\n### 方式二：源码安装\n\n如果您需要运行官方 Demo 或修改底层代码，建议使用此方式。\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git\ncd sam-hq\n\n# 以可编辑模式安装\npip install -e .\n\n# 设置环境变量\nexport PYTHONPATH=$(pwd)\n\n# 安装可选依赖\npip install opencv-python pycocotools matplotlib onnxruntime onnx timm\n```\n\n> **国内加速提示**：如果 `git clone` 或 `pip install` 速度较慢，建议配置国内镜像源。\n> *   Git: 使用 Gitee 镜像（如有）或配置 `git config --global url.\"https:\u002F\u002Fghproxy.com\u002F\".insteadOf \"https:\u002F\u002Fgithub.com\u002F\"`\n> *   Pip: 使用清华或阿里源，例如 `pip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 3. 基本使用\n\n### 第一步：下载模型权重\n\nSAM-HQ 提供了不同大小的骨干网络版本。请下载对应的 `.pth` 文件并保存到本地目录（例如 `pretrained_checkpoint`）。\n\n*   **ViT-B (平衡型)**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11yExZLOve38kRZPfRx_MRxfIAKmfMY47\u002Fview?usp=sharing)\n*   **ViT-L (高精度)**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Uk17tDKX1YAKas5knI4y9ZJCo0lRVL0G\u002Fview?usp=sharing)\n*   **ViT-H (超高质量)**: [下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1qobFYrI4eyIANfBSmYcGuWRaSIXfMOQ8\u002Fview?usp=sharing)\n*   **ViT-Tiny (Light HQ-SAM, 实时需求)**: [下载链接](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Fresolve\u002Fmain\u002Fsam_hq_vit_tiny.pth)\n\n> **注意**：如果无法访问 Google Drive，可尝试从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Flkeab\u002Fhq-sam\u002Ftree\u002Fmain) 下载。\n\n### 第二步：代码示例\n\n以下是最基础的 Python 使用示例，展示如何加载模型并进行图像分割预测。\n\n```python\nfrom segment_anything import SamPredictor, sam_model_registry\nimport cv2\n\n# 1. 初始化模型\n# model_type 可选：\"vit_b\", \"vit_l\", \"vit_h\", \"vit_tiny\"\n# checkpoint 替换为你下载的模型文件实际路径\nmodel_type = \"vit_l\" \nsam_checkpoint = \"pretrained_checkpoint\u002Fsam_hq_vit_l.pth\"\n\nsam = sam_model_registry[model_type](checkpoint=sam_checkpoint)\npredictor = SamPredictor(sam)\n\n# 2. 加载图像\nimage = cv2.imread(\"your_image.jpg\")\nimage = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)\npredictor.set_image(image)\n\n# 3. 定义提示 (Prompts)\n# 示例：使用点提示 (point_coords) 和 点标签 (point_labels)\n# point_labels: 1 表示前景点，0 表示背景点\ninput_point = [[500, 375]]\ninput_label = [1]\n\n# 4. 预测掩码\nmasks, scores, logits = predictor.predict(\n    point_coords=input_point,\n    point_labels=input_label,\n    multimask_output=True, # 是否输出多个可能的掩码\n)\n\n# masks 形状为 (N, H, W)，包含 N 个预测的掩码\nprint(f\"预测完成，生成 {len(masks)} 个掩码候选。\")\n```\n\n### 验证安装 (仅源码安装用户)\n\n如果您是通过源码安装的，可以运行官方提供的示例脚本来验证环境是否正确：\n\n```bash\npython demo\u002Fdemo_hqsam_pip_example.py\n```","某医疗影像初创团队正在开发一款辅助诊断系统，需要快速从大量皮肤镜照片中提取高精度的病灶轮廓以训练专用模型。\n\n### 没有 sam-hq 时\n- **边缘模糊失真**：普通分割模型在处理病灶与正常皮肤交界处时，生成的掩码边缘锯齿严重，丢失了关键的细微纹理特征。\n- **人工修正耗时**：算法输出的低质量掩码无法直接使用，标注专家必须逐帧手动微调轮廓，导致数据清洗周期长达数周。\n- **小目标漏检**：面对早期微小的色素沉淀或毛细血管扩张，现有零样本模型往往直接忽略或分割不完整，影响数据集的多样性。\n- **泛化能力不足**：一旦遇到不同光照条件或罕见皮肤病变类型，模型效果急剧下降，需重新收集数据进行微调。\n\n### 使用 sam-hq 后\n- **像素级精准贴合**：sam-hq 升级的高清解码器能捕捉亚像素级的边界细节，生成的病灶轮廓平滑且紧密贴合真实边缘，保留了诊断所需的细微结构。\n- **自动化流程打通**：高质量的零样本分割结果可直接用于模型训练，人工复核时间减少 90%，数据准备效率提升十倍不止。\n- **微小病变无遗漏**：凭借对细粒度特征的敏锐感知，sam-hq 能准确分割毫米级的早期病变区域，显著提升了数据集的覆盖度。\n- **跨场景鲁棒性强**：无需额外微调，sam-hq 即可适应各种复杂光照和罕见病例，实现了真正的“开箱即用”高质量分割。\n\nsam-hq 通过突破性的边缘细化技术，将通用分割模型的生产力提升至医疗级精度，彻底解决了高精细度标注依赖人工的瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_sam-hq_74b8d173.png","SysCV","ETH VIS Group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSysCV_394b2596.png","Visual Intelligence and Systems Group at ETH Zürich",null,"DrFisherYu","http:\u002F\u002Fvis.xyz","https:\u002F\u002Fgithub.com\u002FSysCV",[84,88,92,96,100],{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",93.7,{"name":89,"color":90,"percentage":91},"Python","#3572A5",5.8,{"name":93,"color":94,"percentage":95},"Cuda","#3A4E3A",0.4,{"name":97,"color":98,"percentage":99},"C++","#f34b7d",0,{"name":101,"color":102,"percentage":99},"Shell","#89e051",4203,264,"2026-04-04T05:58:27","Apache-2.0","Linux, macOS, Windows","强烈推荐使用支持 CUDA 的 NVIDIA GPU（具体型号未说明，但需匹配 PyTorch CUDA 版本，示例环境使用 CUDA 11.1）；CPU 亦可运行但速度较慢。","未说明（建议 16GB+ 以处理高分辨率图像及大模型权重）",{"notes":111,"python":112,"dependencies":113},"1. 官方示例环境基于 conda 构建，推荐优先使用 conda 管理依赖。2. 需手动下载预训练模型权重文件（ViT-B\u002FL\u002FH\u002FTiny 版本），存放于 pretrained_checkpoint 目录。3. 若需运行示例 Notebook 或导出 ONNX 模型，需额外安装 jupyter。4. 2025 年更新显示该模型已集成至 Huggingface Transformers 库，也可通过该库调用。5. 提供轻量版 Light HQ-SAM (ViT-Tiny) 适用于实时场景。","3.8+",[114,115,116,117,118,119,120,121],"pytorch>=1.7","torchvision>=0.8","opencv-python","pycocotools","matplotlib","onnxruntime","onnx","timm",[14],[124,125,126,127,128,129],"sam","segmentation","segment-anything","zero-shot-segmentation","high-quality","segment-anything-model","2026-03-27T02:49:30.150509","2026-04-06T05:17:20.638637",[133,138,143,148,153,158,163,168],{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},8774,"如何安装 SAM-HQ？是否有 PyPI 包支持？","可以通过以下两种方式安装：\n1. 直接使用 pip 从 GitHub 安装：`pip install git+https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git`\n2. 如果使用 Poetry：`poetry add git+https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq.git`\n维护者已在 README 中提供了详细的快速安装指南。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F22",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},8775,"为什么 ONNX 和 PyTorch 的推理结果不一致？","这是因为导出 ONNX 模型时使用了 `hq_token_only=True` 参数。如果在导出时设置 `hq_token_only=False`，ONNX 模型的推理结果将与 PyTorch 完全一致。\n示例代码：`onnx_model = SamOnnxModel(sam, hq_token_only=False)`","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F50",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},8776,"在 Colab 或分布式训练时报错 \"unrecognized arguments: --local-rank=0\" 如何解决？","该错误通常由环境配置或启动命令引起，可尝试以下解决方案：\n1. 使用 `torchrun` 命令代替原有的分布式启动脚本。\n2. 检查 PyTorch 和 CUDA 版本兼容性：使用 `nvcc --version` 查看 CUDA 版本，然后前往 PyTorch 官网安装与之匹配的 PyTorch 版本。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F41",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},8777,"SAM-HQ 中的 `multimask_output` 参数行为与原 SAM 有何不同？","在 SAM-HQ 的实现中，即使设置 `multimask_output=True`，输出也仅包含 1 个掩码（对应最高 IoU 预测值），而原 SAM 会输出 3 个掩码。\n建议遵循原 SAM 的使用策略：当输入提示模糊不清（ambiguous input）时使用 `multimask_output=True`，否则使用 `False`。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F19",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},8778,"数据集的灰度 Ground Truth 掩码值范围是多少？代码中的阈值判断是否有效？","数据集中的 GT 掩码虽然是灰度模式，但其值范围是 0-255，其中白色区域（前景）的值为 255。\n因此，代码中 `masks[b_i]>128` 的判断是有效的。如果自定义数据集值范围不同，可调整为 `>0`。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F42",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},8779,"计算 IoU 时是否需要处理填充（padding）和后处理？","是的，需要注意对齐问题：\n1. 如果图像加载时进行了填充，在计算前必须移除填充区域。\n2. 推理时建议使用 `postprocess` 函数进行处理。\n3. 在训练阶段的 `compute_iou` 中通常不使用填充，具体可参考训练代码中的 resize 函数实现。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F80",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},8780,"论文中提到的消融实验里，两个 token 之间的“缩放点积”具体是如何计算的？","论文原文中的描述存在笔误。实际操作并非“点积”（dot product，结果为标量），而是“逐元素乘积”（element-wise product 或 Hadamard product）。\n即两个向量对应位置相乘，生成一个新的同维度输出 token，而非标量。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F120",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},8781,"如何获取论文中数据集（如 COIFT, HRSOD 等）的提示（prompts）？","对于论文中展示的数据集，使用的提示是基于 Ground Truth (GT) 掩码生成的边界框（GT box）。\n此外，维护者表示支持语言提示（language prompts）的代码即将发布。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Fsam-hq\u002Fissues\u002F39",[]]