[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SysCV--transfiner":3,"tool-SysCV--transfiner":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",153609,2,"2026-04-13T11:34:59",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":109,"env_os":110,"env_gpu":111,"env_ram":112,"env_deps":113,"category_tags":127,"github_topics":128,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":135,"updated_at":136,"faqs":137,"releases":167},7248,"SysCV\u002Ftransfiner","transfiner","Mask Transfiner for High-Quality Instance Segmentation, CVPR 2022","Transfiner 是一款专为高质量实例分割设计的开源 AI 工具，源自 CVPR 2022 的研究成果。它致力于解决传统分割模型在物体边缘细节处理上不够精细、掩码分辨率不足的痛点，能够生成极具清晰度且边界平滑的分割结果。\n\n该工具的核心亮点在于创新性地引入了基于四叉树（Quadtree）结构的 Transformer 模块。这种设计让模型能高效地聚焦于高分辨率区域进行预测，在显著提升掩码精度和边界准确率的同时，仅增加了极小的计算负担。在 COCO、Cityscapes 等主流基准测试中，Transfiner 均取得了领先的性能表现，甚至超越了许多复杂的现有方案。\n\nTransfiner 非常适合计算机视觉领域的研究人员、算法工程师以及需要高精度图像分析功能的开发者使用。无论是用于学术探索、自动驾驶场景理解，还是构建对细节要求严苛的图像编辑应用，它都能提供强大的技术支持。项目基于流行的 Detectron2 框架开发，并提供了预训练模型和便捷的演示接口，方便用户快速上手验证效果。","# Mask Transfiner\nMask Transfiner for High-Quality Instance Segmentation [Mask Transfiner, CVPR 2022].\n\nThis is the official pytorch implementation of [Transfiner](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.13673) built on the open-source detectron2. Our project website contains more information, including the visual slider comparison: [vis.xyz\u002Fpub\u002Ftransfiner](https:\u002F\u002Fwww.vis.xyz\u002Fpub\u002Ftransfiner\u002F).\n\n> [**Mask Transfiner for High-Quality Instance Segmentation**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.13673)           \n> Lei Ke, Martin Danelljan, Xia Li, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu  \n> CVPR, 2022\n\nUpdates\n-----------------\n:fire::fire: We released the [Video Mask Transfiner and HQ-YTVIS benchmark](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fvmt) in ECCV'2022.\n\nHighlights\n-----------------\n- **Transfiner:** High-quality instance segmentation with state-of-the-art performance and extreme details.\n- **Novelty:** An efficient transformer targeting for high-resolution instance masks predictions based on the quadtree structure.\n- **Efficacy:** Large mask and boundary AP improvements on three instance segmentation benchmarks, including COCO, Cityscapes and BDD100k. \n- **Simple:** Small additional computation burden compared to standard transformer and easy to use.\n\n\u003C!-- \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_965f51334948.gif\" width=\"800\"> -->\n- :fire::fire: **Play with our Mask Transfiner demo** at [![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flkeab\u002Ftransfiner), supported by [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces).\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_0e349b22fac7.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_f8e220941eb9.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_cb5aa1175612.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_f16af5a3190f.gif\" width=\"830\">\n\u003C!-- \u003Ctable>\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Ffig_vis1_new.png\" height=\"260\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_965f51334948.gif\" height=\"430\">\n              \nQualitative instance segmentation results of our transfiner, using ResNet-101-FPN and FCOS detector.\n          \u003C\u002Fcenter>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable> -->\n\n## Mask Transfiner with Quadtree Transformer\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_258e953f9352.png\" width=\"800\">\n\n\nResults on COCO test-dev\n------------\n(Check Table 9 of the paper for full results, all methods are trained on COCO train2017. This is a reimplementation. Thus, the numbers might be slightly different from the ones reported in our original paper.)\n\n| Backbone(configs)  | Method | mAP(mask) | \n|----------|--------|-----------|\nR50-FPN | Mask R-CNN (ICCV'17) | 34.2 |\nR50-FPN | PANet (CVPR'18) | 36.6 |\nR50-FPN | MS R-CNN (CVPR'19) | 35.6 |\nR50-FPN | PointRend (1x, CVPR'20) | 36.3 |\n[R50-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_1x.yaml) | Transfiner (1x, CVPR'22)  | 37.0,  [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1IHNEs7PLGaw2gftHzMIOAxFzlYVPMc26\u002Fview?usp=sharing)|\nRes-R50-FPN | [BCNet (CVPR'21)](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet) | 38.4 | \n[R50-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_3x.yaml) | Transfiner (3x, CVPR'22)  | 39.2,  [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EA9pMdUK6Ad9QsjaZz0g5jqbo_JkqtME\u002Fview?usp=sharing)|\n[**R50-FPN-DCN**](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_3x_deform.yaml) | **Transfiner (3x, CVPR'22)**  | 40.5, [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1N0C_ZhES7iu8qEPG2mrdxf8rWteemxQD\u002Fview?usp=sharing) |\n\n| Backbone(configs)  | Method | mAP(mask) |\n|----------|--------|-----------|\nR101-FPN | Mask R-CNN (ICCV'17) | 36.1 | \nR101-FPN | MS R-CNN (CVPR'19) | 38.3 |\nR101-FPN | BMask R-CNN (ECCV'20) | 37.7 | \nR101-FPN | SOLOv2 (NeurIPS'20) | 39.7 | \nR101-FPN |[BCNet (CVPR'21)](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet) | 39.8|\n[R101-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_101_FPN_3x.yaml) | Transfiner (3x, CVPR'22) | 40.5, [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Jn27jTpFFWjuX22xvR1upP99nOXfZ1nk\u002Fview?usp=sharing) | \n[**R101-FPN-DCN**](configs\u002Ftransfiner\u002Fmask_rcnn_R_101_FPN_3x_deform.yaml) | **Transfiner (3x, CVPR'22)** | **42.2**, [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1TpVQksuaXlhioD3WqWppX84MB-l_Eb7-\u002Fview?usp=sharing) | \n\n| Backbone(configs)  | Pretrain | Lr Schd| Size | Method | mAP(box) on Val2017| mAP(mask) on Val2017|\n|----------|-----------|--------|-----------|-----------|-----------|-----------|\n[Swin-T](configs\u002Ftransfiner\u002Fmask_rcnn_swint_FPN_3x.yaml),[init_weight of imagenet (d2 format)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1qvNwe4Ax79OqHQnJp5elFuVYsxUiYviJ\u002Fview?usp=sharing) | ImageNet-1k | 3X | [480-800] | Transfiner | 46.9| 43.5, [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1ezIxmwdMl_cC7gCPEqtLL6zlSYd3R9wA\u002Fview?usp=sharing) |\n[Swin-B](configs\u002Ftransfiner\u002Fmask_rcnn_swinb_FPN_3x.yaml),[init_weight of imagenet (d2 format)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F12IGYQOa-nlpFhTbgdifbMnSkcke3lmCO\u002Fview?usp=sharing) | ImageNet-22k | 3X | [480-800] | Transfiner | 49.8| **45.5**,[Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XkEwTMiyADYfvniIrBIDX7RPTSLI4fys\u002Fview?usp=sharing) |\n\n\nResults on LVIS Dataset, v0.5\n------------\n| Backbone(configs)  | Lr Schd | Method | mAP(mask) | \n|----------|-----------|--------|-----------|\nX101-FPN | 1x | Mask R-CNN | 27.1 |\n[X101-FPN](configs\u002FLVISv0.5-InstanceSegmentation\u002Fmask_rcnn_X_101_32x8d_FPN_1x.yaml) | 1x | Transfiner | 29.2, [Pretrained Model](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1L_bEZf-jJcQqmeCHOf4-c0eOq71cCdis\u002Fview?usp=sharing) |\n\n\nIntroduction\n-----------------\nTwo-stage and query-based instance segmentation methods have achieved remarkable results. However, their segmented masks are still very coarse. In this paper, we present Mask Transfiner for high-quality and efficient instance segmentation. Instead of operating on regular dense tensors, our Mask Transfiner decomposes and represents the image regions as a quadtree. Our transformer-based approach only processes detected error-prone tree nodes and self-corrects their errors in parallel. While these sparse pixels only constitute a small proportion of the total number, they are critical to the final mask quality. This allows Mask Transfiner to predict highly accurate instance masks, at a low computational cost. Extensive experiments demonstrate that Mask Transfiner outperforms current instance segmentation methods on three popular benchmarks, significantly improving both two-stage and query-based frameworks by a large margin of +3.0 mask AP on COCO and BDD100K, and +6.6 boundary AP on Cityscapes. \n\n\u003C!-- \u003Ccenter>\n\u003Ctable>\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Fframework_new.png\" height=\"430\">\u003C\u002Fcenter>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\u003C\u002Ftable>\nA brief comparison of mask head architectures, see our paper for full details.\n\u003Ctable>\t\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Fnetcompare.png\" height=\"270\">\u003C\u002Fcenter>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fcenter> -->\n\n## Step-by-step Installation\n```\nconda create -n transfiner python=3.7 -y\nconda activate transfiner\n \nconda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch\n \n# Coco api and visualization dependencies\npip install ninja yacs cython matplotlib tqdm\npip install opencv-python==4.4.0.40\n# Boundary dependency\npip install scikit-image\npip install kornia==0.5.11\n \nexport INSTALL_DIR=$PWD\n \n# install pycocotools. Please make sure you have installed cython.\ncd $INSTALL_DIR\ngit clone https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi.git\ncd cocoapi\u002FPythonAPI\npython setup.py build_ext install\n \n# install transfiner\ncd $INSTALL_DIR\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner.git\ncd transfiner\u002F\npython3 setup.py build develop\n \nunset INSTALL_DIR\n```\n\n\n## Dataset Preparation\nPrepare for [coco2017](http:\u002F\u002Fcocodataset.org\u002F#home) dataset and [Cityscapes](https:\u002F\u002Fwww.cityscapes-dataset.com) following [this instruction](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2\u002Ftree\u002Fmaster\u002Fdatasets).\n\n```\n  mkdir -p datasets\u002Fcoco\n  ln -s \u002Fpath_to_coco_dataset\u002Fannotations datasets\u002Fcoco\u002Fannotations\n  ln -s \u002Fpath_to_coco_dataset\u002Ftrain2017 datasets\u002Fcoco\u002Ftrain2017\n  ln -s \u002Fpath_to_coco_dataset\u002Ftest2017 datasets\u002Fcoco\u002Ftest2017\n  ln -s \u002Fpath_to_coco_dataset\u002Fval2017 datasets\u002Fcoco\u002Fval2017\n```\n\nMulti-GPU Training and Evaluation on Validation set\n---------------\nRefer to our [scripts folder](https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Ftree\u002Fmain\u002Fscripts) for more traning, testing and visualization commands:\n \n```\nbash scripts\u002Ftrain_transfiner_3x_101.sh\n```\nOr\n```\nbash scripts\u002Ftrain_transfiner_1x_50.sh\n```\n\nPretrained Models\n---------------\nDownload the pretrained models from the above [result table](https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner#results-on-coco-test-dev): \n```\n  mkdir pretrained_model\n  #And put the downloaded pretrained models in this directory.\n```\n\nTesting on Test-dev\n---------------\n```\nbash scripts\u002Ftest_3x_transfiner_101.sh\n```\n\nVisualization\n---------------\n```\nbash scripts\u002Fvisual.sh\n```\nfor swin-based model:\n```\nbash scripts\u002Fvisual_swinb.sh\n```\n\nCitation\n---------------\nIf you find Mask Transfiner useful in your research or refer to the provided baseline results, please star :star: this repository and consider citing :pencil::\n```\n@inproceedings{transfiner,\n    author={Ke, Lei and Danelljan, Martin and Li, Xia and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    title={Mask Transfiner for High-Quality Instance Segmentation},\n    booktitle = {CVPR},\n    year = {2022}\n}  \n\n```\nIf you are interested in [Video Mask Transfiner and High-Quality Video Instance Segmentation data](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fvmt):\n```\n@inproceedings{vmt,\n    title = {Video Mask Transfiner for High-Quality Video Instance Segmentation},\n    author = {Ke, Lei and Ding, Henghui and Danelljan, Martin and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle = {European Conference on Computer Vision (ECCV)},\n    year = {2022}\n}\n```\n\nRelated Links\n---------------\nRelated NeurIPS 2021 Work on multiple object tracking & segmentation: [PCAN](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fpcan)\n\nRelated CVPR 2021 Work on occlusion-aware instance segmentation: [BCNet](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet)\n\nRelated ECCV 2020 Work on partially supervised instance segmentation: [CPMask](https:\u002F\u002Fwww.ecva.net\u002Fpapers\u002Feccv_2020\u002Fpapers_ECCV\u002Fpapers\u002F123530375.pdf)\n\n\n","# Mask Transfiner\n用于高质量实例分割的Mask Transfiner [Mask Transfiner, CVPR 2022]。\n\n这是基于开源 detectron2 构建的 [Transfiner](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.13673) 的官方 PyTorch 实现。我们的项目网站包含更多信息，包括可视化滑块对比：[vis.xyz\u002Fpub\u002Ftransfiner](https:\u002F\u002Fwww.vis.xyz\u002Fpub\u002Ftransfiner\u002F)。\n\n> [**用于高质量实例分割的 Mask Transfiner**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.13673)           \n> 雷科、马丁·丹内尔扬、李霞、余永泰、唐志坚、费舍尔·余  \n> CVPR, 2022\n\n更新\n-----------------\n:fire::fire: 我们在 ECCV'2022 上发布了 [Video Mask Transfiner 和 HQ-YTVIS 基准测试](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fvmt)。\n\n亮点\n-----------------\n- **Transfiner:** 具有最先进性能和极致细节的高质量实例分割。\n- **新颖性:** 基于四叉树结构，针对高分辨率实例掩码预测的高效Transformer。\n- **有效性:** 在 COCO、Cityscapes 和 BDD100k 等三个实例分割基准上，大幅提升了掩码和边界 AP。\n- **简单性:** 相较于标准 Transformer，额外计算开销较小且易于使用。\n\n\u003C!-- \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_965f51334948.gif\" width=\"800\"> -->\n- :fire::fire: **体验我们的 Mask Transfiner 演示** 请访问 [![Huggingfaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Flkeab\u002Ftransfiner)，由 [Huggingface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces) 提供支持。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_0e349b22fac7.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_f8e220941eb9.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_cb5aa1175612.gif\" width=\"830\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_f16af5a3190f.gif\" width=\"830\">\n\u003C!-- \u003Ctable>\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Ffig_vis1_new.png\" height=\"260\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_965f51334948.gif\" height=\"430\">\n              \n我们 Transfiner 的定性实例分割结果，使用 ResNet-101-FPN 和 FCOS 检测器。\n          \u003C\u002Fcenter>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable> -->\n\n## 带有四叉树 Transformer 的 Mask Transfiner\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_readme_258e953f9352.png\" width=\"800\">\n\n\nCOCO test-dev 上的结果\n------------\n（完整结果请参阅论文表 9，所有方法均在 COCO train2017 上训练。这是重新实现的结果，因此数值可能与我们原始论文中报告的略有不同。）\n\n| 主干网络(配置)  | 方法 | mAP(掩码) | \n|----------|--------|-----------|\nR50-FPN | Mask R-CNN (ICCV'17) | 34.2 |\nR50-FPN | PANet (CVPR'18) | 36.6 |\nR50-FPN | MS R-CNN (CVPR'19) | 35.6 |\nR50-FPN | PointRend (1x, CVPR'20) | 36.3 |\n[R50-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_1x.yaml) | Transfiner (1x, CVPR'22)  | 37.0,  [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1IHNEs7PLGaw2gftHzMIOAxFzlYVPMc26\u002Fview?usp=sharing)|\nRes-R50-FPN | [BCNet (CVPR'21)](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet) | 38.4 | \n[R50-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_3x.yaml) | Transfiner (3x, CVPR'22)  | 39.2,  [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1EA9pMdUK6Ad9QsjaZz0g5jqbo_JkqtME\u002Fview?usp=sharing)|\n[**R50-FPN-DCN**](configs\u002Ftransfiner\u002Fmask_rcnn_R_50_FPN_3x_deform.yaml) | **Transfiner (3x, CVPR'22)**  | 40.5, [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1N0C_ZhES7iu8qEPG2mrdxf8rWteemxQD\u002Fview?usp=sharing) |\n\n| 主干网络(配置)  | 方法 | mAP(掩码) |\n|----------|--------|-----------|\nR101-FPN | Mask R-CNN (ICCV'17) | 36.1 | \nR101-FPN | MS R-CNN (CVPR'19) | 38.3 |\nR101-FPN | BMask R-CNN (ECCV'20) | 37.7 | \nR101-FPN | SOLOv2 (NeurIPS'20) | 39.7 | \nR101-FPN |[BCNet (CVPR'21)](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet) | 39.8|\n[R101-FPN](configs\u002Ftransfiner\u002Fmask_rcnn_R_101_FPN_3x.yaml) | Transfiner (3x, CVPR'22) | 40.5, [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Jn27jTpFFWjuX22xvR1upP99nOXfZ1nk\u002Fview?usp=sharing) | \n[**R101-FPN-DCN**](configs\u002Ftransfiner\u002Fmask_rcnn_R_101_FPN_3x_deform.yaml) | **Transfiner (3x, CVPR'22)** | **42.2**, [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1TpVQksuaXlhioD3WqWppX84MB-l_Eb7-\u002Fview?usp=sharing) | \n\n| 主干网络(配置)  | 预训练 | 学习率调度 | 输入尺寸 | 方法 | Val2017 上的 mAP(框) | Val2017 上的 mAP(掩码)|\n|----------|-----------|--------|-----------|-----------|-----------|-----------|\n[Swin-T](configs\u002Ftransfiner\u002Fmask_rcnn_swint_FPN_3x.yaml),[ImageNet 初始化权重 (d2 格式)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1qvNwe4Ax79OqHQnJp5elFuVYsxUiYviJ\u002Fview?usp=sharing) | ImageNet-1k | 3X | [480-800] | Transfiner | 46.9| 43.5, [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1ezIxmwdMl_cC7gCPEqtLL6zlSYd3R9wA\u002Fview?usp=sharing) |\n[Swin-B](configs\u002Ftransfiner\u002Fmask_rcnn_swinb_FPN_3x.yaml),[ImageNet 初始化权重 (d2 格式)](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F12IGYQOa-nlpFhTbgdifbMnSkcke3lmCO\u002Fview?usp=sharing) | ImageNet-22k | 3X | [480-800] | Transfiner | 49.8| **45.5**,[预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1XkEwTMiyADYfvniIrBIDX7RPTSLI4fys\u002Fview?usp=sharing) |\n\n\nLVIS 数据集 v0.5 上的结果\n------------\n| 主干网络(配置)  | 学习率调度 | 方法 | mAP(掩码) | \n|----------|-----------|--------|-----------|\nX101-FPN | 1x | Mask R-CNN | 27.1 |\n[X101-FPN](configs\u002FLVISv0.5-InstanceSegmentation\u002Fmask_rcnn_X_101_32x8d_FPN_1x.yaml) | 1x | Transfiner | 29.2, [预训练模型](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1L_bEZf-jJcQqmeCHOf4-c0eOq71cCdis\u002Fview?usp=sharing) |\n\n\n简介\n-----------------\n两阶段和基于查询的实例分割方法已经取得了显著成果。然而，它们生成的分割掩码仍然非常粗糙。在本文中，我们提出了用于高质量和高效实例分割的 Mask Transfiner。与在常规密集张量上操作不同，我们的 Mask Transfiner 将图像区域分解并表示为四叉树。我们的基于 Transformer 的方法仅处理检测到的易错节点，并并行地自我纠正其错误。尽管这些稀疏像素只占总像素数的一小部分，但它们对最终掩码质量至关重要。这使得 Mask Transfiner 能够以较低的计算成本预测出高度精确的实例掩码。大量实验表明，Mask Transfiner 在三个流行基准上优于当前的实例分割方法，在 COCO 和 BDD100K 上将两阶段和基于查询的框架的掩码 AP 分别大幅提高了 +3.0，在 Cityscapes 上则将边界 AP 提高了 +6.6。\n\n\u003C!-- \u003Ccenter>\n\u003Ctable>\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Fframework_new.png\" height=\"430\">\u003C\u002Fcenter>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\u003C\u002Ftable>\n掩码头部架构的简要比较，请参阅我们的论文以获取详细信息。\n\u003Ctable>\t\n    \u003Ctr>\n          \u003Ctd>\u003Ccenter>\u003Cimg src=\"figures\u002Fnetcompare.png\" height=\"270\">\u003C\u002Fcenter>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n\u003C\u002Ftable>\n\u003C\u002Fcenter> -->\n\n## 逐步安装\n```\nconda create -n transfiner python=3.7 -y\nconda activate transfiner\n \nconda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch\n\n# Coco API 和可视化依赖\npip install ninja yacs cython matplotlib tqdm\npip install opencv-python==4.4.0.40\n# 边界依赖\npip install scikit-image\npip install kornia==0.5.11\n \nexport INSTALL_DIR=$PWD\n \n# 安装 pycocotools。请确保已安装 cython。\ncd $INSTALL_DIR\ngit clone https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi.git\ncd cocoapi\u002FPythonAPI\npython setup.py build_ext install\n \n# 安装 transfiner\ncd $INSTALL_DIR\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner.git\ncd transfiner\u002F\npython3 setup.py build develop\n \nunset INSTALL_DIR\n```\n\n\n## 数据集准备\n按照 [此说明](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdetectron2\u002Ftree\u002Fmaster\u002Fdatasets) 准备 [coco2017](http:\u002F\u002Fcocodataset.org\u002F#home) 数据集和 [Cityscapes](https:\u002F\u002Fwww.cityscapes-dataset.com) 数据集。\n\n```\n  mkdir -p datasets\u002Fcoco\n  ln -s \u002Fpath_to_coco_dataset\u002Fannotations datasets\u002Fcoco\u002Fannotations\n  ln -s \u002Fpath_to_coco_dataset\u002Ftrain2017 datasets\u002Fcoco\u002Ftrain2017\n  ln -s \u002Fpath_to_coco_dataset\u002Ftest2017 datasets\u002Fcoco\u002Ftest2017\n  ln -s \u002Fpath_to_coco_dataset\u002Fval2017 datasets\u002Fcoco\u002Fval2017\n```\n\n多 GPU 训练与验证集评估\n---------------\n更多训练、测试和可视化命令，请参考我们的 [scripts 文件夹](https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Ftree\u002Fmain\u002Fscripts)：\n\n```\nbash scripts\u002Ftrain_transfiner_3x_101.sh\n```\n或者\n```\nbash scripts\u002Ftrain_transfiner_1x_50.sh\n```\n\n预训练模型\n---------------\n从上述 [结果表格](https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner#results-on-coco-test-dev) 下载预训练模型：\n```\n  mkdir pretrained_model\n  # 并将下载的预训练模型放入该目录。\n```\n\n在 Test-dev 上测试\n---------------\n```\nbash scripts\u002Ftest_3x_transfiner_101.sh\n```\n\n可视化\n---------------\n对于基于 Swin 的模型，运行以下命令进行可视化：\n```\nbash scripts\u002Fvisual_swinb.sh\n```\n\n引用\n---------------\n如果您在研究中使用了 Mask Transfiner，或参考了我们提供的基准结果，请为本仓库点赞 :star:，并考虑引用 :pencil:: \n```\n@inproceedings{transfiner,\n    author={Ke, Lei and Danelljan, Martin and Li, Xia and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    title={Mask Transfiner for High-Quality Instance Segmentation},\n    booktitle = {CVPR},\n    year = {2022}\n}  \n\n```\n如果您对 [Video Mask Transfiner 和高质量视频实例分割数据](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fvmt) 感兴趣：\n```\n@inproceedings{vmt,\n    title = {Video Mask Transfiner for High-Quality Video Instance Segmentation},\n    author = {Ke, Lei and Ding, Henghui and Danelljan, Martin and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher},\n    booktitle = {欧洲计算机视觉大会（ECCV）},\n    year = {2022}\n}\n```\n\n相关链接\n---------------\n与 NeurIPS 2021 多目标跟踪与分割相关的工作：[PCAN](https:\u002F\u002Fgithub.com\u002FSysCV\u002Fpcan)\n\n与 CVPR 2021 遮挡感知实例分割相关的工作：[BCNet](https:\u002F\u002Fgithub.com\u002Flkeab\u002FBCNet)\n\n与 ECCV 2020 部分监督实例分割相关的工作：[CPMask](https:\u002F\u002Fwww.ecva.net\u002Fpapers\u002Feccv_2020\u002Fpapers_ECCV\u002Fpapers\u002F123530375.pdf)","# Mask Transfiner 快速上手指南\n\nMask Transfiner 是一个基于 Detectron2 的高精度实例分割工具，利用四叉树（Quadtree）结构的 Transformer 高效修复掩码边界细节，在 COCO、Cityscapes 等基准测试中取得了 SOTA 性能。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n- **操作系统**: Linux (推荐 Ubuntu)\n- **Python**: 3.7\n- **CUDA**: 11.0 (对应 PyTorch 1.7.1)\n- **编译器**: GCC, G++\n- **依赖库**: Cython, Ninja\n\n> **注意**：本项目官方基于较旧版本的 PyTorch (1.7.1) 和 Detectron2 构建。若需在新版环境中运行，可能需要修改部分兼容性代码。以下步骤严格遵循官方文档以保证复现性。\n\n## 安装步骤\n\n请按顺序执行以下命令来配置环境并安装项目。\n\n### 1. 创建并激活 Conda 环境\n```bash\nconda create -n transfiner python=3.7 -y\nconda activate transfiner\n```\n\n### 2. 安装 PyTorch 及相关工具链\n```bash\nconda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch\n```\n\n### 3. 安装基础依赖\n```bash\npip install ninja yacs cython matplotlib tqdm\npip install opencv-python==4.4.0.40\npip install scikit-image\npip install kornia==0.5.11\n```\n> **国内加速建议**：如果下载速度慢，可使用清华源或阿里源，例如：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003C包名>`。\n\n### 4. 安装 pycocotools\n```bash\nexport INSTALL_DIR=$PWD\ngit clone https:\u002F\u002Fgithub.com\u002Fcocodataset\u002Fcocoapi.git\ncd cocoapi\u002FPythonAPI\npython setup.py build_ext install\ncd ..\u002F..\n```\n\n### 5. 安装 Mask Transfiner\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner.git\ncd transfiner\u002F\npython3 setup.py build develop\nunset INSTALL_DIR\n```\n\n## 数据集准备\n\n本项目依赖 **COCO 2017** 或 **Cityscapes** 数据集。以 COCO 为例，请下载数据集并按以下结构建立软链接（假设数据集位于 `\u002Fpath_to_coco_dataset`）：\n\n```bash\nmkdir -p datasets\u002Fcoco\nln -s \u002Fpath_to_coco_dataset\u002Fannotations datasets\u002Fcoco\u002Fannotations\nln -s \u002Fpath_to_coco_dataset\u002Ftrain2017 datasets\u002Fcoco\u002Ftrain2017\nln -s \u002Fpath_to_coco_dataset\u002Ftest2017 datasets\u002Fcoco\u002Ftest2017\nln -s \u002Fpath_to_coco_dataset\u002Fval2017 datasets\u002Fcoco\u002Fval2017\n```\n\n## 基本使用\n\n### 1. 下载预训练模型\n从官方结果表中下载所需的预训练权重（例如 R50-FPN 3x 版本），并将其放入项目根目录下的 `pretrained_model` 文件夹中：\n```bash\nmkdir pretrained_model\n# 将下载的 .pth 文件移动到此目录\n```\n\n### 2. 模型推理与可视化\n项目提供了封装好的脚本进行快速测试和可视化。\n\n**运行可视化示例（默认配置）：**\n```bash\nbash scripts\u002Fvisual.sh\n```\n\n**如果您使用的是 Swin Transformer 骨干网络模型：**\n```bash\nbash scripts\u002Fvisual_swinb.sh\n```\n\n### 3. 模型训练（可选）\n如需从头训练或微调，可使用提供的脚本。以下分别为 ResNet-50 (1x schedule) 和 ResNet-101 (3x schedule) 的训练命令：\n\n```bash\n# 训练 ResNet-50 版本\nbash scripts\u002Ftrain_transfiner_1x_50.sh\n\n# 训练 ResNet-101 版本\nbash scripts\u002Ftrain_transfiner_3x_101.sh\n```\n\n训练完成后，可使用测试脚本在 Test-dev 集上评估效果：\n```bash\nbash scripts\u002Ftest_3x_transfiner_101.sh\n```","某自动驾驶感知团队正在处理城市道路监控视频，需要从复杂背景中精准提取行人和车辆的轮廓，以训练高精度的路径规划模型。\n\n### 没有 transfiner 时\n- **边缘模糊失真**：传统实例分割模型（如 Mask R-CNN）生成的掩码边缘呈锯齿状或过于平滑，无法还原行人发丝、自行车辐条等细微结构。\n- **小目标丢失严重**：在远距离拍摄或密集车流场景中，小型交通标志或远处行人的分割掩码经常断裂甚至完全漏检。\n- **后处理成本高**：为了弥补掩码质量不足，工程师不得不编写复杂的形态学算法进行人工修补，增加了推理延迟和系统维护难度。\n- **边界定位不准**：物体与背景的交界处判断模糊，导致后续的距离估算和碰撞预警模块产生较大误差。\n\n### 使用 transfiner 后\n- **极致细节还原**：transfiner 利用基于四叉树结构的 Transformer 机制，能生成像素级精度的高质量掩码，清晰保留物体边缘的极端细节。\n- **小目标精准捕捉**：显著提升了对高分辨率下小目标的分割能力，在 COCO 和 Cityscapes 等基准测试中大幅提高了边界 AP 值，减少漏检。\n- **端到端高效部署**：无需额外的后处理步骤即可直接输出完美掩码，在仅增加极小计算负担的前提下，简化了整体感知流水线。\n- **边界锐利清晰**：物体轮廓界定分明，即使在与背景颜色相近或光照复杂的条件下，也能提供准确的几何边界供下游任务使用。\n\ntransfiner 通过引入高效的四叉树 Transformer 架构，将实例分割的精度推向新高度，让机器视觉真正具备了“见微知著”的感知能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSysCV_transfiner_965f5133.gif","SysCV","ETH VIS Group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSysCV_394b2596.png","Visual Intelligence and Systems Group at ETH Zürich",null,"DrFisherYu","http:\u002F\u002Fvis.xyz","https:\u002F\u002Fgithub.com\u002FSysCV",[81,85,89,93,97,101],{"name":82,"color":83,"percentage":84},"Python","#3572A5",93.4,{"name":86,"color":87,"percentage":88},"Cuda","#3A4E3A",3.3,{"name":90,"color":91,"percentage":92},"C++","#f34b7d",2.6,{"name":94,"color":95,"percentage":96},"Shell","#89e051",0.5,{"name":98,"color":99,"percentage":100},"Dockerfile","#384d54",0.1,{"name":102,"color":103,"percentage":104},"CMake","#DA3434",0,546,62,"2026-02-20T16:13:36","Apache-2.0",4,"Linux","需要 NVIDIA GPU，安装指令中指定 CUDA 11.0 (cudatoolkit=11.0)，具体显存需求未说明（建议 8GB+ 以运行大模型如 Swin-B）","未说明",{"notes":114,"python":115,"dependencies":116},"该项目基于 detectron2 构建。安装步骤中包含编译操作（需安装 ninja 和 cython），因此主要支持 Linux 环境。数据准备需手动下载 COCO 或 Cityscapes 数据集并按特定目录结构链接。预训练模型托管在 Google Drive，国内用户下载可能受限。","3.7",[117,118,119,120,121,122,123,124,125,126],"pytorch==1.7.1","torchvision==0.8.2","torchaudio==0.7.2","detectron2","opencv-python==4.4.0.40","kornia==0.5.11","scikit-image","ninja","yacs","cython",[35,15],[129,130,131,132,133,134],"cvpr","cvpr2022","efficient-transformers","high-quality","instance-segmentation","transformer","2026-03-27T02:49:30.150509","2026-04-14T05:01:57.713487",[138,143,148,153,158,163],{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},32588,"为什么输出的掩码边缘呈现锯齿状，不够平滑？","这通常是因为使用了旧版本的代码。维护者已更新代码以改善掩码边缘质量。请尝试拉取最新的代码版本并重新运行预测。此外，直接在图像上绘制掩码时可能不明显，建议在 COCO 验证集上报告推理结果以检查 AP 指标。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Fissues\u002F25",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},32589,"如何在自定义的 COCO 格式数据集上进行训练？","你可以将整个图像视为最大的边界框（bounding box）来处理。虽然这是一个可行的思路，但作者指出他们尚未在纯语义分割任务上进行实验，因此无法保证一定有效。对于具体的语义分割任务配置，建议参考 Detectron2 的相关讨论（如 facebookresearch\u002Fdetectron2#1055）。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Fissues\u002F13",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},32590,"遇到 ImportError: cannot import name '_C' from 'detectron2' 错误如何解决？","请首先查阅项目 README 中的可视化说明部分。该错误通常与 Windows 环境下 detectron2 的安装版本有关，因为代码默认使用 GPU。请确保你安装了与当前系统环境兼容的正确版本的 detectron2。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Fissues\u002F15",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},32591,"为什么在 Colab 上运行的结果与 Hugging Face Demo 上的结果存在差异？","日志中出现的警告信息（如 'The checkpoint state_dict contains keys that are not used by the model'）表明加载的预训练权重与当前模型配置不完全匹配，导致部分层未被正确加载。请仔细检查配置文件（config_file）是否与下载的预训练模型（cfg.MODEL.WEIGHTS）相对应，确保使用的是正确的模型变体（如 R50-3x-deform 对应正确的 yaml 配置）。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Fissues\u002F22",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},32592,"复现 RefineMask 或其他对比模型时性能低于论文数据，原因是什么？","性能下降通常由两个配置错误导致：1. 总训练批次大小（batch size）应为 16（例如 8 卡×2 或 16 卡×1），如果使用 MMDetection 且批次大小为 8，性能会显著下降。2. 如果开启多尺度抖动训练 36 个 epoch，学习率衰减应在第 28 和 34 个 epoch 进行，而不是配置文件中的第 24 和 33 个 epoch。请修正这些参数以复现论文结果。","https:\u002F\u002Fgithub.com\u002FSysCV\u002Ftransfiner\u002Fissues\u002F11",{"id":164,"question_zh":165,"answer_zh":166,"source_url":147},32593,"TransFiner 是否支持语义分割任务？","TransFiner 主要设计用于实例分割（包含边界框回归和每个框的掩码输出）。虽然理论上可以将整张图视为一个大框来尝试语义分割，但作者明确表示未对此进行实验，不承诺其有效性。如需进行语义分割，建议参考其他专门针对该任务的架构或查阅 Detectron2 的相关实现。",[]]