[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--Focal-Transformer":3,"tool-microsoft--Focal-Transformer":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":106,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":145},9334,"microsoft\u002FFocal-Transformer","Focal-Transformer","[NeurIPS 2021 Spotlight] Official code for \"Focal Self-attention for Local-Global Interactions in Vision Transformers\"","Focal-Transformer 是一款专为计算机视觉任务设计的先进深度学习模型，曾荣获 NeurIPS 2021  spotlight 推荐。它旨在解决传统 Vision Transformer 在平衡计算效率与捕捉图像长距离依赖关系时的难题。\n\n该模型的核心创新在于提出了“焦点自注意力机制”（Focal Self-attention）。与传统方法不同，Focal-Transformer 让每个图像块在处理时，对近距离的邻居采用细粒度关注，而对远距离的区域则采用粗粒度聚合。这种设计使其能够高效地同时捕捉局部细节特征和全局上下文信息，从而在图像分类、目标检测及语义分割等任务中取得了超越当时最先进方法的性能表现。\n\nFocal-Transformer 特别适合人工智能研究人员、算法工程师以及需要构建高性能视觉系统的开发者使用。对于希望深入探索 Transformer 架构优化，或在资源受限环境下追求更高精度与效率平衡的专业人士而言，这是一个极具价值的开源基线模型。此外，团队后续还推出了基于相同机制但速度更快的 FocalNet 架构，为用户提供了更多样化的选择。","# Focal Transformer \\[NeurIPS 2021 Spotlight\\]\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fobject-detection-on-coco-minival)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fobject-detection-on-coco-minival?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fobject-detection-on-coco)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fobject-detection-on-coco?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Finstance-segmentation-on-coco-minival)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Finstance-segmentation-on-coco-minival?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Finstance-segmentation-on-coco)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Finstance-segmentation-on-coco?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fsemantic-segmentation-on-ade20k-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k-val?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fsemantic-segmentation-on-ade20k)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k?p=focal-self-attention-for-local-global)\n\nThis is the official implementation of our [Focal Transformer -- \"Focal Self-attention for Local-Global Interactions in Vision Transformers\"](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.00641.pdf), \nby Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan and Jianfeng Gao.\n\n## Introduction\n\n![focal-transformer-teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_Focal-Transformer_readme_fbd7d73cf966.png)\n\nOur Focal Transfomer introduced a new self-attention mechanism called **focal self-attention** for vision transformers. \nIn this new mechanism, **each token attends the closest surrounding tokens at fine granularity but the tokens far away at coarse granularity**, \nand thus can capture both short- and long-range visual dependencies efficiently and effectively. \n\nWith our Focal Transformers, we achieved superior performance over the state-of-the-art vision Transformers on a range of public benchmarks. \nIn particular, our Focal Transformer models with a moderate size of 51.1M and a larger size of 89.8M achieve `83.6 and 84.0` Top-1 accuracy, respectively, \non ImageNet classification at 224x224 resolution. \nUsing Focal Transformers as the backbones, we obtain consistent and substantial improvements over the current state-of-the-art methods \nfor 6 different object detection methods trained with standard 1x and 3x schedules. \nOur largest Focal Transformer yields `58.7\u002F58.9 box mAPs` and `50.9\u002F51.3 mask mAPs` on COCO mini-val\u002Ftest-dev, \nand `55.4 mIoU` on ADE20K for semantic segmentation.\n\n:film_strip: [Video by The AI Epiphany](https:\u002F\u002Fwww.google.com\u002Furl?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwjzk6Wm8NHyAhVCqlsKHYepD9wQtwJ6BAgDEAM&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DYH319yyeoVw&usg=AOvVaw27s7EE-txctmc6_BwKnnfE)\n\n## Next Generation Architecture\n\nWe had developed [FocalNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11926), a next generation of architecture built based on the focal mechanism. It is much faster and more effective. Check it out at: [https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocalNet](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocalNet)!\n\n## Faster Focal Transformer\n\nAs you may notice, though the theoritical GFLOPs of our Focal Transformer is comparable to prior works, its wall-clock efficiency lags behind. Therefore, we are releasing a faster version of Focal Transformer, which discard all the rolling and unfolding operations used in our first version.\n\n| Model | Pretrain | Use Conv | Resolution | acc@1 | acc@5 | #params | FLOPs | Throughput (imgs\u002Fs) | Checkpoint | Config |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |:---: | :---: | :---: |\n| Focal-T | IN-1K | No | 224 | 82.2 | 95.9 | 28.9M   | 4.9G   | 319 | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_patch4_window7_224.yaml) |\n| Focal-fast-T | IN-1K | Yes  | 224 | 82.4 | 96.0 | 30.2M   | 5.0G   | 483 | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-tiny-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocalv2_tiny_useconv_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | No | 224 | 83.6 | 96.2 | 51.1M   | 9.4G   | 192 | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_patch4_window7_224.yaml) |\n| Focal-fast-S | IN-1K | Yes | 224 | 83.6 | 96.4 | 51.5M   | 9.4G  | 293  | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-small-useconv-is224-ws7.pth) |[yaml](configs\u002Ffocalv2_small_useconv_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | No | 224 | 84.0 | 96.5 | 89.8M   | 16.4G  | 138 | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_patch4_window7_224.yaml) |\n| Focal-fast-B | IN-1K | Yes | 224 | 84.0 | 96.6 | 91.2M   | 16.4G  | 203 | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-base-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocalv2_base_useconv_patch4_window7_224.yaml) |\n\n## Benchmarking \n\n### Image Classification Throughput with Image Resolution\n\n| Model | Top-1 Acc. | GLOPs (224x224) | 224x224 | 448x448 | 896 x 896  |\n| :---: | :---: | :---: | :---: | :---: | :---: |\nDeiT-Small\u002F16 | 79.8 | 4.6 | 939 | 101 | 20\nPVT-Small\t| 79.8\t| 3.8\t| 794\t| 172\t| 31 |\nCvT-13\t   | 81.6\t| 4.5\t| 746\t| 125\t| 14 |\nViL-Small  | 82.0\t| 5.1\t| 397\t| 87\t| 17 |\nSwin-Tiny\t| 81.2\t| 4.5\t| 760\t| 189\t| 48 |\nFocal-Tiny\t| 82.2\t| 4.9\t| 319\t| 105\t| 27 |\nPVT-Medium\t| 81.2\t| 6.7\t| 517\t| 111\t| 20 |\nCvT-21\t| 82.5\t| 7.1\t| 480\t| 85\t|  10 |\nViL-Medium\t| 83.3\t| 9.1\t| 251\t| 53\t| 8 |\nSwin-Small\t| 83.1\t| 8.7\t| 435\t| 111\t| 28 |\nFocal-Small\t| 83.6\t| 9.4\t| 192\t| 63\t| 17 |\nViT-Base\u002F16\t| 77.9\t| 17.6\t| 291\t| 57\t| 8 |\nDeit-Base\u002F16 | 81.8\t| 17.6\t| 291\t| 57\t| 8 |\nPVT-Large\t| 81.7\t| 9.8\t| 352\t| 77\t| 14 |\nViL-Base\t| 83.2\t| 13.4\t| 145\t| 35\t| 5 |\nSwin-Base\t| 83.4\t| 15.4\t| 291\t| 70\t| 17|\nFocal-Base\t| 84.0\t| 16.4\t| 138\t| 44\t| 11|\n\n\n### Image Classification on [ImageNet-1K](https:\u002F\u002Fwww.image-net.org\u002F)\n\n| Model | Pretrain | Use Conv | Resolution | acc@1 | acc@5 | #params | FLOPs | Checkpoint | Config |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |:---: | :---: |\n| Focal-T | IN-1K | No | 224 | 82.2 | 95.9 | 28.9M   | 4.9G   | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_patch4_window7_224.yaml) |\n| Focal-T | IN-1K | Yes  | 224 | 82.7 | 96.1 | 30.8M   | 5.2G   | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_useconv_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | No | 224 | 83.6 | 96.2 | 51.1M   | 9.4G   | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | Yes | 224 | 83.8 | 96.5 | 53.1M   | 9.7G   | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-useconv-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_useconv_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | No | 224 | 84.0 | 96.5 | 89.8M   | 16.4G  | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | Yes | 224 | 84.2 | 97.1 | 93.3M   | 16.8G  | [download](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_useconv_patch4_window7_224.yaml) |\n\n### Object Detection and Instance Segmentation on [COCO](https:\u002F\u002Fcocodataset.org\u002F#home)\n\n#### [Mask R-CNN](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2017\u002Fpapers\u002FHe_Mask_R-CNN_ICCV_2017_paper.pdf)\n\n| Backbone | Pretrain | Lr Schd | #params | FLOPs | box mAP | mask mAP | \n| :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | 1x | 49M | 291G | 44.8 | 41.0 | \n| Focal-T | ImageNet-1K | 3x | 49M | 291G | 47.2 | 42.7 | \n| Focal-S | ImageNet-1K | 1x | 71M | 401G | 47.4 | 42.8 | \n| Focal-S | ImageNet-1K | 3x | 71M | 401G | 48.8 | 43.8 | \n| Focal-B | ImageNet-1K | 1x | 110M | 533G | 47.8 | 43.2 | \n| Focal-B | ImageNet-1K | 3x | 110M | 533G | 49.0 | 43.7 | \n\n#### [RetinaNet](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2017\u002Fpapers\u002FLin_Focal_Loss_for_ICCV_2017_paper.pdf)\n\n| Backbone | Pretrain | Lr Schd | #params | FLOPs | box mAP | \n| :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | 1x | 39M | 265G | 43.7 |\n| Focal-T | ImageNet-1K | 3x | 39M | 265G | 45.5 | \n| Focal-S | ImageNet-1K | 1x | 62M | 367G | 45.6 | \n| Focal-S | ImageNet-1K | 3x | 62M | 367G | 47.3 | \n| Focal-B | ImageNet-1K | 1x | 101M | 514G | 46.3 | \n| Focal-B | ImageNet-1K | 3x | 101M | 514G | 46.9 | \n\n#### Other detection methods\n\n| Backbone | Pretrain | Method | Lr Schd | #params | FLOPs | box mAP | \n| :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | [Cascade Mask R-CNN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00726) | 3x | 87M  | 770G | 51.5 | \n| Focal-T | ImageNet-1K | [ATSS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.02424.pdf)           | 3x | 37M  | 239G | 49.5 |\n| Focal-T | ImageNet-1K | [RepPointsV2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.08508.pdf)    | 3x | 45M  | 491G | 51.2 | \n| Focal-T | ImageNet-1K | [Sparse R-CNN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.12450.pdf)   | 3x | 111M | 196G | 49.0 | \n\n### Semantic Segmentation on [ADE20K](https:\u002F\u002Fgroups.csail.mit.edu\u002Fvision\u002Fdatasets\u002FADE20K\u002F)\n\n| Backbone | Pretrain  | Method | Resolution | Iters | #params | FLOPs | mIoU | mIoU (MS) | \n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 160k | 62M  | 998G | 45.8 | 47.0 | \n| Focal-S | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 160k | 85M | 1130G | 48.0 | 50.0 | \n| Focal-B | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 160k | 126M | 1354G | 49.0 | 50.5 | \n| Focal-L | ImageNet-22K | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 640x640 | 160k | 240M | 3376G | 54.0 | 55.4 | \n\n## Getting Started\n\n* Please follow [get_started_for_image_classification.md](.\u002Fclassification\u002Fget_started.md) to get started for image classification.\n* Please follow [get_started_for_object_detection.md](.\u002Fdetection\u002Fget_started.md) to get started for object detection.\n* Please follow [get_started_for_semantic_segmentation.md](.\u002Fsegmentation\u002Fget_started.md) to get started for semantic segmentation.\n\n## Citation\n\nIf you find this repo useful to your project, please consider to cite it with following bib:\n\n    @misc{yang2021focal,\n        title={Focal Self-attention for Local-Global Interactions in Vision Transformers}, \n        author={Jianwei Yang and Chunyuan Li and Pengchuan Zhang and Xiyang Dai and Bin Xiao and Lu Yuan and Jianfeng Gao},\n        year={2021},\n        eprint={2107.00641},\n        archivePrefix={arXiv},\n        primaryClass={cs.CV}\n    }\n\n## Acknowledgement\n\nOur codebase is built based on [Swin-Transformer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer). We thank the authors for the nicely organized code!\n\n## Contributing\n\nThis project welcomes contributions and suggestions.  Most contributions require you to agree to a\nContributor License Agreement (CLA) declaring that you have the right to, and actually do, grant us\nthe rights to use your contribution. For details, visit https:\u002F\u002Fcla.opensource.microsoft.com.\n\nWhen you submit a pull request, a CLA bot will automatically determine whether you need to provide\na CLA and decorate the PR appropriately (e.g., status check, comment). Simply follow the instructions\nprovided by the bot. You will only need to do this once across all repos using our CLA.\n\nThis project has adopted the [Microsoft Open Source Code of Conduct](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002F).\nFor more information see the [Code of Conduct FAQ](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002Ffaq\u002F) or\ncontact [opencode@microsoft.com](mailto:opencode@microsoft.com) with any additional questions or comments.\n\n## Trademarks\n\nThis project may contain trademarks or logos for projects, products, or services. Authorized use of Microsoft \ntrademarks or logos is subject to and must follow \n[Microsoft's Trademark & Brand Guidelines](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Flegal\u002Fintellectualproperty\u002Ftrademarks\u002Fusage\u002Fgeneral).\nUse of Microsoft trademarks or logos in modified versions of this project must not cause confusion or imply Microsoft sponsorship.\nAny use of third-party trademarks or logos are subject to those third-party's policies.\n","# 焦点Transformer \\[NeurIPS 2021 Spotlight\\]\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fobject-detection-on-coco-minival)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fobject-detection-on-coco-minival?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fobject-detection-on-coco)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fobject-detection-on-coco?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Finstance-segmentation-on-coco-minival)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Finstance-segmentation-on-coco-minival?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Finstance-segmentation-on-coco)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Finstance-segmentation-on-coco?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fsemantic-segmentation-on-ade20k-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k-val?p=focal-self-attention-for-local-global)\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Ffocal-self-attention-for-local-global\u002Fsemantic-segmentation-on-ade20k)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k?p=focal-self-attention-for-local-global)\n\n这是我们论文 [Focal Transformer -- “用于视觉Transformer中局部-全局交互的焦点自注意力”](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.00641.pdf) 的官方实现，作者包括杨建伟、李春元、张鹏川、戴西阳、肖斌、袁璐和高剑锋。\n\n## 引言\n\n![focal-transformer-teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_Focal-Transformer_readme_fbd7d73cf966.png)\n\n我们的 Focal Transformer 引入了一种新的自注意力机制，称为 **焦点自注意力**，专为视觉Transformer设计。在这一新机制中，**每个token会在细粒度上关注其最近的邻近token，而在粗粒度上关注远处的token**，从而能够高效且有效地捕捉短程和长程的视觉依赖关系。\n\n借助我们的 Focal Transformer，在一系列公开基准测试中，我们取得了优于当前最先进视觉Transformer的性能。特别是，我们的 Focal Transformer 模型分别以中等规模51.1M参数和较大规模89.8M参数，在224x224分辨率的ImageNet分类任务上获得了 `83.6` 和 `84.0` 的Top-1准确率。使用Focal Transformer作为骨干网络，我们在采用标准1x和3x训练计划的6种不同目标检测方法中，均实现了对现有最先进方法的一致且显著提升。我们最大的Focal Transformer在COCO mini-val\u002Ftest-dev数据集上的边界框mAP分别为 `58.7\u002F58.9`，掩码mAP分别为 `50.9\u002F51.3`；在ADE20K语义分割任务上则达到了 `55.4 mIoU`。\n\n:film_strip: [The AI Epiphany 制作的视频](https:\u002F\u002Fwww.google.com\u002Furl?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwjzk6Wm8NHyAhVCqlsKHYepD9wQtwJ6BAgDEAM&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DYH319yyeoVw&usg=AOvVaw27s7EE-txctmc6_BwKnnfE)\n\n## 下一代架构\n\n我们已经开发了基于焦点机制的下一代架构 [FocalNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.11926)，它速度更快、效果更好。请访问：[https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocalNet](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocalNet)！\n\n## 更快的Focal Transformer\n\n正如你可能注意到的那样，尽管我们Focal Transformer的理论GFLOPs与先前的工作相当，但其实际运行效率却稍逊一筹。因此，我们发布了一个更快版本的Focal Transformer，该版本去除了我们第一版中使用的滚动和展开操作。\n\n| 模型 | 预训练 | 使用卷积 | 分辨率 | acc@1 | acc@5 | 参数量 | FLOPs | 吞吐量 (imgs\u002Fs) | 检查点 | 配置 |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |:---: | :---: | :---: |\n| Focal-T | IN-1K | 否 | 224 | 82.2 | 95.9 | 28.9M   | 4.9G   | 319 | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_patch4_window7_224.yaml) |\n| Focal-fast-T | IN-1K | 是  | 224 | 82.4 | 96.0 | 30.2M   | 5.0G   | 483 | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-tiny-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocalv2_tiny_useconv_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | 否 | 224 | 83.6 | 96.2 | 51.1M   | 9.4G   | 192 | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_patch4_window7_224.yaml) |\n| Focal-fast-S | IN-1K | 是 | 224 | 83.6 | 96.4 | 51.5M   | 9.4G  | 293  | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-small-useconv-is224-ws7.pth) |[yaml](configs\u002Ffocalv2_small_useconv_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | 否 | 224 | 84.0 | 96.5 | 89.8M   | 16.4G  | 138 | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_patch4_window7_224.yaml) |\n| Focal-fast-B | IN-1K | 是 | 224 | 84.0 | 96.6 | 91.2M   | 16.4G  | 203 | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocalv2-base-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocalv2_base_useconv_patch4_window7_224.yaml) |\n\n## 基准测试\n\n### 图像分类吞吐量与图像分辨率\n\n| 模型 | Top-1 Acc. | GLOPs (224x224) | 224x224 | 448x448 | 896 x 896  |\n| :---: | :---: | :---: | :---: | :---: | :---: |\nDeiT-Small\u002F16 | 79.8 | 4.6 | 939 | 101 | 20\nPVT-Small\t| 79.8\t| 3.8\t| 794\t| 172\t| 31 |\nCvT-13\t   | 81.6\t| 4.5\t| 746\t| 125\t| 14 |\nViL-Small  | 82.0\t| 5.1\t| 397\t| 87\t| 17 |\nSwin-Tiny\t| 81.2\t| 4.5\t| 760\t| 189\t| 48 |\nFocal-Tiny\t| 82.2\t| 4.9\t| 319\t| 105\t| 27 |\nPVT-Medium\t| 81.2\t| 6.7\t| 517\t| 111\t| 20 |\nCvT-21\t| 82.5\t| 7.1\t| 480\t| 85\t|  10 |\nViL-Medium\t| 83.3\t| 9.1\t| 251\t| 53\t| 8 |\nSwin-Small\t| 83.1\t| 8.7\t| 435\t| 111\t| 28 |\nFocal-Small\t| 83.6\t| 9.4\t| 192\t| 63\t| 17 |\nViT-Base\u002F16\t| 77.9\t| 17.6\t| 291\t| 57\t| 8 |\nDeit-Base\u002F16 | 81.8\t| 17.6\t| 291\t| 57\t| 8 |\nPVT-Large\t| 81.7\t| 9.8\t| 352\t| 77\t| 14 |\nViL-Base\t| 83.2\t| 13.4\t| 145\t| 35\t| 5 |\nSwin-Base\t| 83.4\t| 15.4\t| 291\t| 70\t| 17|\nFocal-Base\t| 84.0\t| 16.4\t| 138\t| 44\t| 11|\n\n### ImageNet-1K 上的图像分类\n\n| 模型 | 预训练 | 是否使用卷积 | 分辨率 | top-1 精度 | top-5 精度 | 参数量 | FLOPs | 检查点 | 配置文件 |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | IN-1K | 否 | 224 | 82.2 | 95.9 | 28.9M   | 4.9G   | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_patch4_window7_224.yaml) |\n| Focal-T | IN-1K | 是  | 224 | 82.7 | 96.1 | 30.8M   | 5.2G   | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocal_tiny_useconv_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | 否 | 224 | 83.6 | 96.2 | 51.1M   | 9.4G   | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_patch4_window7_224.yaml) |\n| Focal-S | IN-1K | 是 | 224 | 83.8 | 96.5 | 53.1M   | 9.7G   | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-small-useconv-is224-ws7.pth) |[yaml](configs\u002Ffocal_small_useconv_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | 否 | 224 | 84.0 | 96.5 | 89.8M   | 16.4G  | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_patch4_window7_224.yaml) |\n| Focal-B | IN-1K | 是 | 224 | 84.2 | 97.1 | 93.3M   | 16.8G  | [下载](https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-base-useconv-is224-ws7.pth) | [yaml](configs\u002Ffocal_base_useconv_patch4_window7_224.yaml) |\n\n### COCO 数据集上的目标检测与实例分割\n\n#### [Mask R-CNN](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2017\u002Fpapers\u002FHe_Mask_R-CNN_ICCV_2017_paper.pdf)\n\n| 主干网络 | 预训练 | 学习率调度 | 参数量 | FLOPs | box mAP | mask mAP |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | 1x | 49M | 291G | 44.8 | 41.0 |\n| Focal-T | ImageNet-1K | 3x | 49M | 291G | 47.2 | 42.7 |\n| Focal-S | ImageNet-1K | 1x | 71M | 401G | 47.4 | 42.8 |\n| Focal-S | ImageNet-1K | 3x | 71M | 401G | 48.8 | 43.8 |\n| Focal-B | ImageNet-1K | 1x | 110M | 533G | 47.8 | 43.2 |\n| Focal-B | ImageNet-1K | 3x | 110M | 533G | 49.0 | 43.7 |\n\n#### [RetinaNet](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2017\u002Fpapers\u002FLin_Focal_Loss_for_ICCV_2017_paper.pdf)\n\n| 主干网络 | 预训练 | 学习率调度 | 参数量 | FLOPs | box mAP |\n| :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | 1x | 39M | 265G | 43.7 |\n| Focal-T | ImageNet-1K | 3x | 39M | 265G | 45.5 |\n| Focal-S | ImageNet-1K | 1x | 62M | 367G | 45.6 |\n| Focal-S | ImageNet-1K | 3x | 62M | 367G | 47.3 |\n| Focal-B | ImageNet-1K | 1x | 101M | 514G | 46.3 |\n| Focal-B | ImageNet-1K | 3x | 101M | 514G | 46.9 |\n\n#### 其他检测方法\n\n| 主干网络 | 预训练 | 方法 | 学习率调度 | 参数量 | FLOPs | box mAP |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K | [Cascade Mask R-CNN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00726) | 3x | 87M  | 770G | 51.5 |\n| Focal-T | ImageNet-1K | [ATSS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1912.02424.pdf)           | 3x | 37M  | 239G | 49.5 |\n| Focal-T | ImageNet-1K | [RepPointsV2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.08508.pdf)    | 3x | 45M  | 491G | 51.2 |\n| Focal-T | ImageNet-1K | [Sparse R-CNN](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2011.12450.pdf)   | 3x | 111M | 196G | 49.0 |\n\n### ADE20K 数据集上的语义分割\n\n| 主干网络 | 预训练  | 方法 | 分辨率 | 迭代次数 | 参数量 | FLOPs | mIoU | mIoU (多尺度) |\n| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n| Focal-T | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 16万 | 62M  | 998G | 45.8 | 47.0 |\n| Focal-S | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 16万 | 85M | 1130G | 48.0 | 50.0 |\n| Focal-B | ImageNet-1K  | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 512x512 | 16万 | 126M | 1354G | 49.0 | 50.5 |\n| Focal-L | ImageNet-22K | [UPerNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.10221.pdf) | 640x640 | 16万 | 240M | 3376G | 54.0 | 55.4 |\n\n## 使用指南\n\n* 请按照 [get_started_for_image_classification.md](.\u002Fclassification\u002Fget_started.md) 的说明开始进行图像分类。\n* 请按照 [get_started_for_object_detection.md](.\u002Fdetection\u002Fget_started.md) 的说明开始进行目标检测。\n* 请按照 [get_started_for_semantic_segmentation.md](.\u002Fsegmentation\u002Fget_started.md) 的说明开始进行语义分割。\n\n## 引用\n\n如果您觉得本仓库对您的项目有帮助，请考虑使用以下 BibTeX 格式引用：\n\n    @misc{yang2021focal,\n        title={Focal Self-attention for Local-Global Interactions in Vision Transformers}, \n        author={Jianwei Yang and Chunyuan Li and Pengchuan Zhang and Xiyang Dai and Bin Xiao and Lu Yuan and Jianfeng Gao},\n        year={2021},\n        eprint={2107.00641},\n        archivePrefix={arXiv},\n        primaryClass={cs.CV}\n    }\n\n## 致谢\n\n我们的代码库基于 [Swin-Transformer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer) 构建。感谢原作者精心组织的代码！\n\n## 贡献\n\n本项目欢迎贡献和建议。大多数贡献都需要您同意贡献者许可协议（CLA），声明您有权并确实授予我们使用您贡献的权利。有关详细信息，请访问 https:\u002F\u002Fcla.opensource.microsoft.com。\n\n当您提交拉取请求时，CLA 机器人会自动判断您是否需要提供 CLA，并相应地标记 PR（例如状态检查、评论）。只需按照机器人提供的指示操作即可。对于使用我们 CLA 的所有仓库，您只需完成一次此流程。\n\n本项目已采用 [Microsoft 开源行为准则](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002F)。更多信息请参阅 [行为准则常见问题解答](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct\u002Ffaq\u002F) 或发送电子邮件至 [opencode@microsoft.com](mailto:opencode@microsoft.com) 提出任何其他问题或意见。\n\n## 商标\n\n本项目可能包含项目、产品或服务的商标或徽标。未经授权使用 Microsoft 商标或徽标必须遵守并遵循 [Microsoft 商标与品牌指南](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Flegal\u002Fintellectualproperty\u002Ftrademarks\u002Fusage\u002Fgeneral)。在本项目的修改版本中使用 Microsoft 商标或徽标不得造成混淆或暗示 Microsoft 的赞助。任何第三方商标或徽标的使用均受其各自政策的约束。","# Focal-Transformer 快速上手指南\n\nFocal-Transformer 是微软研究院提出的一种视觉 Transformer 架构，引入了**焦点自注意力机制（Focal Self-attention）**。该机制使每个 token 能以细粒度关注邻近区域，以粗粒度关注远距离区域，从而高效捕捉局部与全局的视觉依赖关系。它在图像分类、目标检测和语义分割任务上均取得了优于 Swin Transformer 等主流模型的性能。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 Windows (WSL2)\n*   **Python**: 3.7 或更高版本\n*   **PyTorch**: 1.7 或更高版本 (推荐 1.8+)\n*   **CUDA**: 建议 CUDA 10.2 或 11.x (用于 GPU 加速)\n*   **其他依赖**: `timm`, `yacs`, `opencv-python`\n\n> **提示**：本项目代码基于 [Swin-Transformer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer) 构建，环境配置与其高度兼容。\n\n## 安装步骤\n\n### 1. 克隆仓库\n首先从 GitHub 克隆官方代码库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer.git\ncd Focal-Transformer\n```\n\n### 2. 创建虚拟环境 (推荐)\n使用 conda 创建隔离环境并安装基础依赖：\n\n```bash\nconda create -n focal python=3.8 -y\nconda activate focal\n```\n\n### 3. 安装 PyTorch 和 torchvision\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取适合您 CUDA 版本的安装命令。以下为通用示例：\n\n```bash\n# 示例：安装 PyTorch 1.10 + CUDA 11.3\npip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 torchaudio==0.10.0 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu113\u002Ftorch_stable.html\n```\n\n> **国内加速**：如果使用清华源加速安装：\n> ```bash\n> pip install torch==1.10.0+cu113 torchvision==0.11.0+cu113 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu113\u002Ftorch_stable.html -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 4. 安装项目依赖\n进入对应的任务目录（以图像分类为例）并安装 requirements：\n\n```bash\n# 进入分类任务目录\ncd classification\n\n# 安装依赖\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*注：若进行目标检测或语义分割，请分别进入 `detection` 或 `segmentation` 目录执行上述操作，并确保安装了 `mmcv` 和 `mmdetection`\u002F`mmsegmentation` 相关依赖。*\n\n## 基本使用\n\n以下以 **ImageNet 图像分类** 为例，展示如何加载预训练模型并进行推理。\n\n### 1. 下载预训练模型\n从 README 提供的链接下载模型权重（例如 Focal-Tiny）：\n\n```bash\n# 创建存放权重的文件夹\nmkdir pretrained_models\n\n# 下载 Focal-Tiny 模型 (示例链接，实际请使用最新链接)\nwget https:\u002F\u002Fprojects4jw.blob.core.windows.net\u002Fmodel\u002Ffocal-transformer\u002Fimagenet1k\u002Ffocal-tiny-is224-ws7.pth -P pretrained_models\u002F\n```\n\n### 2. 准备测试图片\n将待测试图片放入 `data\u002Fimagenet\u002Fval` 目录，或修改代码中的图片路径。\n\n### 3. 运行推理脚本\n使用提供的 `main.py` 进行单张图片推理或批量验证。以下是一个简单的推理命令示例（需根据实际脚本结构调整）：\n\n```bash\n# 运行分类验证 (示例命令，具体参数请参考 classification\u002Fget_started.md)\npython main.py --config configs\u002Ffocal_tiny_patch4_window7_224.yaml \\\n               --resume pretrained_models\u002Ffocal-tiny-is224-ws7.pth \\\n               --eval\n```\n\n若只需对单张图片进行预测，可编写如下简易 Python 脚本：\n\n```python\nimport torch\nfrom torchvision import transforms\nfrom PIL import Image\nfrom models import build_model # 需根据实际导入路径调整\nfrom config import get_config\n\n# 加载配置\nconfig = get_config('configs\u002Ffocal_tiny_patch4_window7_224.yaml')\n\n# 构建模型\nmodel = build_model(config)\ncheckpoint = torch.load('pretrained_models\u002Ffocal-tiny-is224-ws7.pth', map_location='cpu')\nmodel.load_state_dict(checkpoint['model'])\nmodel.eval()\n\n# 图像预处理\ntransform = transforms.Compose([\n    transforms.Resize((224, 224)),\n    transforms.ToTensor(),\n    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),\n])\n\n# 加载图片\nimg = Image.open('your_image.jpg').convert('RGB')\ninput_tensor = transform(img).unsqueeze(0)\n\n# 推理\nwith torch.no_grad():\n    output = model(input_tensor)\n    prediction = torch.argmax(output, dim=1)\n\nprint(f\"Predicted class index: {prediction.item()}\")\n```\n\n### 4. 进阶任务\n*   **目标检测**: 请参考 `detection\u002Fget_started.md`，通常涉及配置 MMDetection 并修改 backbone 为 Focal-Transformer。\n*   **语义分割**: 请参考 `segmentation\u002Fget_started.md`，通常涉及配置 MMSegmentation。\n\n> **注意**：Focal-Transformer 提供了“快速版”（Focal-fast），通过移除 rolling\u002Funfolding 操作并使用卷积提升了推理速度。若对延迟敏感，建议在配置文件中选择 `focalv2_*` 系列的配置文件及对应的预训练权重。","某自动驾驶团队正在开发夜间复杂路况下的实时障碍物检测系统，需要模型同时精准识别近处的行人细节和远处的车辆轮廓。\n\n### 没有 Focal-Transformer 时\n- **远近细节难兼顾**：传统 Vision Transformer 要么过度关注局部丢失全局语境，要么因感受野固定而模糊了远处小目标的特征。\n- **计算资源浪费**：为了捕捉长距离依赖，往往被迫增加网络深度或使用昂贵的全局注意力机制，导致推理延迟高，难以满足车载芯片的实时性要求。\n- **小目标漏检率高**：在密集车流或远距离场景中，模型对细微特征的提取能力不足，频繁出现将远处路障误判为背景的情况。\n- **训练收敛缓慢**：由于缺乏高效的局部 - 全局交互机制，模型需要更长的训练周期和更多的数据增强技巧才能达到可用精度。\n\n### 使用 Focal-Transformer 后\n- **动态粒度感知**：利用焦点自注意力机制，模型自动对近处令牌进行细粒度关注以捕捉行人纹理，同时对远处令牌采用粗粒度聚合以锁定车辆位置。\n- **效率显著提升**：在保持理论计算量（GFLOPs）相当的前提下，有效缩短了短程和长程视觉依赖的捕获路径，大幅降低了实际推理耗时。\n- **极端场景鲁棒性强**：在 COCO 基准测试中验证的优异性能迁移至实际路况，显著提升了远距离小目标和密集遮挡场景下的检测 mAP。\n- **架构升级平滑**：作为骨干网络可直接替换现有方案，无需大幅调整数据预处理流程，即可在标准训练调度下获得一致且显著的性能增益。\n\nFocal-Transformer 通过创新的焦点自注意力机制，完美解决了视觉任务中局部细节与全局语境难以高效协同的核心痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_Focal-Transformer_fbd7d73c.png","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft",null,"opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,556,65,"2026-04-18T15:15:10","MIT","未说明","需要 NVIDIA GPU（基于 CUDA 加速），具体显存需求取决于模型大小和分辨率：Focal-Tiny 约需 8GB+，Focal-Base 及以上或高分辨率任务（如 896x896 分类、COCO\u002FADE20K 训练）建议 16GB-32GB+。CUDA 版本未明确说明，通常需与 PyTorch 版本匹配（建议 11.0+）。","未说明（建议 32GB+ 以支持大型模型训练及高分辨率数据处理）",{"notes":95,"python":91,"dependencies":96},"该项目代码基于 Swin-Transformer 构建，因此环境配置和依赖可能与 Swin-Transformer 类似。提供多种模型变体（Tiny\u002FSmall\u002FBase\u002FLarge）及快速版（Focal-fast），快速版通过引入卷积操作提升了推理速度。不同任务（分类、检测、分割）有独立的启动指南。训练大规模模型（如 Focal-L on ADE20K）需要极高的显存和计算资源（FLOPs 高达 3376G）。",[97,98,99,100,101,102,103,104,105],"PyTorch","timm","opencv-python","scipy","submitit","yacs","mmcv","mmdetection","mmsegmentation",[15],"2026-03-27T02:49:30.150509","2026-04-19T06:02:49.869559",[110,115,120,125,130,135,140],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},41878,"如何从模型中提取特征？","当前官方仓库尚未在 Issue 中提供具体的特征提取代码示例。建议参考主干网络的前向传播逻辑，移除最后的分类头（classification head），直接输出倒数第二层的特征图。如有进一步需求，可关注后续更新或在社区中寻求具体实现代码。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F15",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},41875,"模型下载链接失效或文件名不匹配怎么办？","如果链接失效，通常是因为模型文件名与链接不一致。维护者已修复该问题，请刷新页面或重新尝试下载。如果仍然无法下载，请在 Issue 中反馈具体链接，维护者会检查并重新上传。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F8",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},41876,"Focal Window Size（焦点窗口大小）和 Focal Region Size（焦点区域大小）之间是什么关系？","Focal Window Size (sw) 指执行窗口池化的特征图尺寸比例；Focal Region Size (sr) 指局部窗口中的查询点所关注的区域大小。例如在第 0 层，使用最细粒度的 token 不进行窗口池化，故 sw=1；但焦点区域大小为 7 + 2*3 = 13，其中 7 是窗口大小，3 是向四周扩展的像素，使窗口内的 token 能关注到局部窗口外的周围环境。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F5",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},41877,"代码中 Key\u002FValue 的数量为什么是 230 而不是论文图示的 218？","理论上按照论文图示应为 7x7 + 13x13 = 218 个 token。但在实际实现中，为了在大特征图上提高速度，采用了近似方法：使用移位大小为 3 的四次滚动（roll）操作，然后掩蔽掉与中心 7x7 窗口重叠的部分。由于相邻滚动窗口边缘仍有轻微重叠（4x3=12），因此最终数量为 218 + 12 = 230。可以参考项目中的 profiling 代码 tools\u002Fprofile_roll_unfold.py 来理解这一过程。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F6",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},41879,"四个阶段中的 num_heads（注意力头数）是如何设置的？","注意力头数的设置与 Swin Transformer 保持一致。以 Focal-Tiny 模型为例，四个阶段的头数分别为 3、6、12、24。具体配置可参考配置文件：configs\u002Ffocal_tiny_patch4_window7_224.yaml。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F14",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},41880,"子窗口池化（sub-windows pooling）应该选择哪种池化方法？","如果要遵循论文中介绍的子窗口池化方法，应选择默认的 \"fc\" (全连接层) 池化方式。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F12",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},41881,"Focal Transformer 可以应用于一维数据吗？","可以。对于一维数据，只需将其分割成多个窗口块，然后对每个窗口直接应用全连接层（fc layer）进行池化，无需像二维数据那样进行额外的展平（flatten）操作。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFocal-Transformer\u002Fissues\u002F4",[]]