[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-whai362--PVT":3,"tool-whai362--PVT":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,2,"2026-04-18T11:30:52",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":96,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":32,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":109,"updated_at":110,"faqs":111,"releases":147},9205,"whai362\u002FPVT","PVT","Official implementation of PVT series","PVT（Pyramid Vision Transformer）是一套专为计算机视觉任务设计的开源深度学习模型库，提供了从图像分类、目标检测到语义分割的全方位解决方案。它主要解决了传统卷积神经网络在处理全局上下文信息时的局限性，同时克服了早期 Transformer 模型在密集预测任务中计算量大、难以适配多尺度特征的难题。\n\nPVT 的核心亮点在于其独特的“金字塔”架构设计，能够像传统 CNN 一样生成多尺度特征图，从而无缝兼容现有的检测与分割框架。其升级版 PVTv2 更是通过线性注意力机制等改进，大幅提升了运行效率与精度。数据显示，在 ImageNet-1K 预训练下，PVTv2 的表现已超越著名的 Swin Transformer，且在参数量更少的情况下实现了更高的准确率。\n\n这套工具非常适合人工智能研究人员、算法工程师以及计算机视觉开发者使用。无论是希望探索 Transformer 在视觉领域新应用的研究者，还是需要高性能骨干网络来优化实际业务场景（如医疗息肉分割、通用物体识别）的开发者，PVT 都提供了详尽的代码实现与预训练模型支持。凭借简洁的架构设计与卓越的性能表现，PVT ","PVT（Pyramid Vision Transformer）是一套专为计算机视觉任务设计的开源深度学习模型库，提供了从图像分类、目标检测到语义分割的全方位解决方案。它主要解决了传统卷积神经网络在处理全局上下文信息时的局限性，同时克服了早期 Transformer 模型在密集预测任务中计算量大、难以适配多尺度特征的难题。\n\nPVT 的核心亮点在于其独特的“金字塔”架构设计，能够像传统 CNN 一样生成多尺度特征图，从而无缝兼容现有的检测与分割框架。其升级版 PVTv2 更是通过线性注意力机制等改进，大幅提升了运行效率与精度。数据显示，在 ImageNet-1K 预训练下，PVTv2 的表现已超越著名的 Swin Transformer，且在参数量更少的情况下实现了更高的准确率。\n\n这套工具非常适合人工智能研究人员、算法工程师以及计算机视觉开发者使用。无论是希望探索 Transformer 在视觉领域新应用的研究者，还是需要高性能骨干网络来优化实际业务场景（如医疗息肉分割、通用物体识别）的开发者，PVT 都提供了详尽的代码实现与预训练模型支持。凭借简洁的架构设计与卓越的性能表现，PVT 已成为连接学术创新与工业落地的重要桥梁。","# Updates\n- (2022\u002F08\u002F09) Application examples for polyp segmentation (polyp-pvt) and vision-language modeling.\n- (2020\u002F06\u002F21) Code of PVTv2 is released! PVTv2 largely improves PVTv1 and works better than Swin Transformer with ImageNet-1K pre-training.\n\n# Pyramid Vision Transformer\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"400\", src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwhai362_PVT_readme_0677c665d242.png\">\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n  The image is from Transformers: Revenge of the Fallen.\n\u003C\u002Fp>\n\nThis repository contains the official implementation of [PVTv1](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.12122) & [PVTv2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.13797.pdf) in image classification, object detection, and semantic segmentation tasks.\n\n\n## Model Zoo\n\n### Image Classification\n\nClassification configs & weights see >>>[here](classification\u002F)\u003C\u003C\u003C.\n\n- PVTv2 on ImageNet-1K\n\n| Method           | Size | Acc@1 | #Params (M) |\n|------------------|:----:|:-----:|:-----------:|\n| PVTv2-B0        |  224 |  70.5 |     3.7     |\n| PVTv2-B1        |  224 |  78.7 |     14.0    |\n| PVTv2-B2-Linear |  224 |  82.1 |     22.6    |\n| PVTv2-B2        |  224 |  82.0 |     25.4    |\n| PVTv2-B3        |  224 |  83.1 |     45.2    |\n| PVTv2-B4        |  224 |  83.6 |     62.6    |\n| PVTv2-B5        |  224 |  83.8 |     82.0    |\n\n- PVTv1 on ImageNet-1K\n\n| Method     | Size | Acc@1 | #Params (M) |\n|------------|:----:|:-----:|:-----------:|\n| PVT-Tiny   |  224 |  75.1 |     13.2    |\n| PVT-Small  |  224 |  79.8 |     24.5    |\n| PVT-Medium |  224 |  81.2 |     44.2    |\n| PVT-Large  |  224 |  81.7 |     61.4    |\n\n\n### Object Detection \n\nDetection configs & weights see >>>[here](detection\u002F)\u003C\u003C\u003C.\n\n\n- PVTv2 on COCO\n\n#### Baseline Detectors\n\n\n|   Method   | Backbone | Pretrain    | Lr schd | Aug | box AP | mask AP |\n|------------|----------|-------------|:-------:|:---:|:------:|:-------:|\n|  RetinaNet | PVTv2-b0 | ImageNet-1K |    1x   |  No |  37.2  |    -    |\n|  RetinaNet | PVTv2-b1 | ImageNet-1K |    1x   |  No |  41.2  |    -    |\n|  RetinaNet | PVTv2-b2 | ImageNet-1K |    1x   |  No |  44.6  |    -    |\n|  RetinaNet | PVTv2-b3 | ImageNet-1K |    1x   |  No |  45.9  |    -    |\n|  RetinaNet | PVTv2-b4 | ImageNet-1K |    1x   |  No |  46.1  |    -    |\n|  RetinaNet | PVTv2-b5 | ImageNet-1K |    1x   |  No |  46.2  |    -    |\n| Mask R-CNN | PVTv2-b0 | ImageNet-1K |    1x   |  No |  38.2  |   36.2  |\n| Mask R-CNN | PVTv2-b1 | ImageNet-1K |    1x   |  No |  41.8  |   38.8  |\n| Mask R-CNN | PVTv2-b2 | ImageNet-1K |    1x   |  No |  45.3  |   41.2  |\n| Mask R-CNN | PVTv2-b3 | ImageNet-1K |    1x   |  No |  47.0  |   42.5  |\n| Mask R-CNN | PVTv2-b4 | ImageNet-1K |    1x   |  No |  47.5  |   42.7  |\n| Mask R-CNN | PVTv2-b5 | ImageNet-1K |    1x   |  No |  47.4  |   42.5  |\n\n\n#### Advanced Detectors\n\n\n| Method             | Backbone        | Pretrain    | Lr schd | Aug | box AP | mask AP |\n|--------------------|-----------------|-------------|:-------:|:---:|:------:|:-------:|\n| Cascade Mask R-CNN | PVTv2-b2-Linear | ImageNet-1K |    3x   | Yes |  50.9  |   44.0  |\n| Cascade Mask R-CNN | PVTv2-b2        | ImageNet-1K |    3x   | Yes |  51.1  |   44.4  |\n| ATSS          | PVTv2-b2-Linear | ImageNet-1K |    3x   | Yes |  48.9  |   -   |\n| ATSS          | PVTv2-b2        | ImageNet-1K |    3x   | Yes |  49.9  |   -   |\n| GFL           | PVTv2-b2-Linear | ImageNet-1K |    3x   | Yes |  49.2  |   -   |\n| GFL           | PVTv2-b2        | ImageNet-1K |    3x   | Yes |  50.2  |   -   |\n| Sparse R-CNN  | PVTv2-b2-Linear | ImageNet-1K |    3x   | Yes |  48.9  |   -   |\n| Sparse R-CNN  | PVTv2-b2        | ImageNet-1K |    3x   | Yes |  50.1  |   -   |\n\n- PVTv1 on COCO\n\n| Detector  | Backbone  | Pretrain    | Lr schd | box AP | mask AP |\n|-----------|-----------|-------------|:-------:|:------:|:-------:|\n| RetinaNet | PVT-Tiny  | ImageNet-1K |    1x   |  36.7  |    -    |\n| RetinaNet | PVT-Small | ImageNet-1K |    1x   |  40.4  |    -    |\n| Mask RCNN | PVT-Tiny  | ImageNet-1K |    1x   |  36.7  |   35.1  |\n| Mask RCNN | PVT-Small | ImageNet-1K |    1x   |  40.4  |   37.8  |\n| DETR      | PVT-Small | ImageNet-1K |   50ep  |  34.7  |    -    |\n\n\n### Semantic Segmentation\n\nSegmentation configs & weights see >>>[here](segmentation\u002F)\u003C\u003C\u003C.\n\nPVT-v2 + Segmentation see >>>[here](https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVTv2-Seg)\u003C\u003C\u003C.\n\n- PVTv1 on ADE20K\n\n| Method       | Backbone   | Pretrain    | Iters | mIoU |\n|--------------|------------|-------------|-------|------|\n| Semantic FPN | PVT-Tiny   | ImageNet-1K | 40K   | 35.7 |\n| Semantic FPN | PVT-Small  | ImageNet-1K | 40K   | 39.8 |\n| Semantic FPN | PVT-Medium | ImageNet-1K | 40K   | 41.6 |\n| Semantic FPN | PVT-Large  | ImageNet-1K | 40K   | 42.1 |\n\n### Polyp Segmentation\nPolyp-PVT: Polyp Segmentation with Pyramid Vision Transformers. [pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.06932) | [code](https:\u002F\u002Fgithub.com\u002FDengPingFan\u002FPolyp-PVT)\n\n### Vision-Language Modeling\nMasked Vision-Language Transformer in Fashion. [pdf](https:\u002F\u002Fdengpingfan.github.io\u002Fpapers\u002F[2022][MIR]MVLT.pdf) | [code](https:\u002F\u002Fgithub.com\u002FGewelsJI\u002FMVLT)\n\n## License\nThis repository is released under the Apache 2.0 license as found in the [LICENSE](LICENSE) file.\n\n\n## Citation\nIf you use this code for a paper, please cite:\n\nPVTv1\n```\n@inproceedings{wang2021pyramid,\n  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},\n  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},\n  booktitle={Proceedings of the IEEE\u002FCVF International Conference on Computer Vision},\n  pages={568--578},\n  year={2021}\n}\n```\n\nPVTv2\n```\n@article{wang2021pvtv2,\n  title={Pvtv2: Improved baselines with pyramid vision transformer},\n  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},\n  journal={Computational Visual Media},\n  volume={8},\n  number={3},\n  pages={1--10},\n  year={2022},\n  publisher={Springer}\n}\n```\n\n\n\n## Contact\n\nThis repo is currently maintained by Wenhai Wang ([@whai362](https:\u002F\u002Fgithub.com\u002Fwhai362)), Enze Xie ([@xieenze](https:\u002F\u002Fgithub.com\u002Fxieenze)), and Zhe Chen ([@czczup](https:\u002F\u002Fgithub.com\u002Fczczup)).\n","# 更新\n- (2022\u002F08\u002F09) 聚生子分割（polyp-pvt）和视觉语言建模的应用示例。\n- (2020\u002F06\u002F21) PVTv2 的代码已发布！PVTv2 在 PVTv1 的基础上进行了大幅改进，并且在 ImageNet-1K 预训练的情况下，性能优于 Swin Transformer。\n\n# 梯度金字塔视觉Transformer\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"400\", src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwhai362_PVT_readme_0677c665d242.png\">\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n  图片来自《变形金刚：复仇之战》。\n\u003C\u002Fp>\n\n本仓库包含 [PVTv1](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.12122) 和 [PVTv2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.13797.pdf) 在图像分类、目标检测和语义分割任务中的官方实现。\n\n\n## 模型库\n\n### 图像分类\n\n分类配置及权重请见 >>>[这里](classification\u002F)\u003C\u003C\u003C。\n\n- PVTv2 在 ImageNet-1K 上的表现\n\n| 方法           | 尺寸 | Acc@1 | 参数量 (M) |\n|------------------|:----:|:-----:|:-----------:|\n| PVTv2-B0        |  224 |  70.5 |     3.7     |\n| PVTv2-B1        |  224 |  78.7 |     14.0    |\n| PVTv2-B2-Linear |  224 |  82.1 |     22.6    |\n| PVTv2-B2        |  224 |  82.0 |     25.4    |\n| PVTv2-B3        |  224 |  83.1 |     45.2    |\n| PVTv2-B4        |  224 |  83.6 |     62.6    |\n| PVTv2-B5        |  224 |  83.8 |     82.0    |\n\n- PVTv1 在 ImageNet-1K 上的表现\n\n| 方法     | 尺寸 | Acc@1 | 参数量 (M) |\n|------------|:----:|:-----:|:-----------:|\n| PVT-Tiny   |  224 |  75.1 |     13.2    |\n| PVT-Small  |  224 |  79.8 |     24.5    |\n| PVT-Medium |  224 |  81.2 |     44.2    |\n| PVT-Large  |  224 |  81.7 |     61.4    |\n\n\n### 目标检测 \n\n检测配置及权重请见 >>>[这里](detection\u002F)\u003C\u003C\u003C。\n\n\n- PVTv2 在 COCO 上的表现\n\n#### 基线检测器\n\n\n|   方法   | 主干网络 | 预训练    | 学习率调度 | 数据增强 | box AP | mask AP |\n|------------|----------|-------------|:-------:|:---:|:------:|:-------:|\n|  RetinaNet | PVTv2-b0 | ImageNet-1K |    1x   |  无 |  37.2  |    -    |\n|  RetinaNet | PVTv2-b1 | ImageNet-1K |    1x   |  无 |  41.2  |    -    |\n|  RetinaNet | PVTv2-b2 | ImageNet-1K |    1x   |  无 |  44.6  |    -    |\n|  RetinaNet | PVTv2-b3 | ImageNet-1K |    1x   |  无 |  45.9  |    -    |\n|  RetinaNet | PVTv2-b4 | ImageNet-1K |    1x   |  无 |  46.1  |    -    |\n|  RetinaNet | PVTv2-b5 | ImageNet-1K |    1x   |  无 |  46.2  |    -    |\n| Mask R-CNN | PVTv2-b0 | ImageNet-1K |    1x   |  无 |  38.2  |   36.2  |\n| Mask R-CNN | PVTv2-b1 | ImageNet-1K |    1x   |  无 |  41.8  |   38.8  |\n| Mask R-CNN | PVTv2-b2 | ImageNet-1K |    1x   |  无 |  45.3  |   41.2  |\n| Mask R-CNN | PVTv2-b3 | ImageNet-1K |    1x   |  无 |  47.0  |   42.5  |\n| Mask R-CNN | PVTv2-b4 | ImageNet-1K |    1x   |  无 |  47.5  |   42.7  |\n| Mask R-CNN | PVTv2-b5 | ImageNet-1K |    1x   |  无 |  47.4  |   42.5  |\n\n\n#### 进阶检测器\n\n\n| 方法             | 主干网络        | 预训练    | 学习率调度 | 数据增强 | box AP | mask AP |\n|--------------------|-----------------|-------------|:-------:|:---:|:------:|:-------:|\n| Cascade Mask R-CNN | PVTv2-b2-Linear | ImageNet-1K |    3x   | 是 |  50.9  |   44.0  |\n| Cascade Mask R-CNN | PVTv2-b2        | ImageNet-1K |    3x   | 是 |  51.1  |   44.4  |\n| ATSS          | PVTv2-b2-Linear | ImageNet-1K |    3x   | 是 |  48.9  |   -   |\n| ATSS          | PVTv2-b2        | ImageNet-1K |    3x   | 是 |  49.9  |   -   |\n| GFL           | PVTv2-b2-Linear | ImageNet-1K |    3x   | 是 |  49.2  |   -   |\n| GFL           | PVTv2-b2        | ImageNet-1K |    3x   | 是 |  50.2  |   -   |\n| Sparse R-CNN  | PVTv2-b2-Linear | ImageNet-1K |    3x   | 是 |  48.9  |   -   |\n| Sparse R-CNN  | PVTv2-b2        | ImageNet-1K |    3x   | 是 |  50.1  |   -   |\n\n- PVTv1 在 COCO 上的表现\n\n| 检测器  | 主干网络  | 预训练    | 学习率调度 | box AP | mask AP |\n|-----------|-----------|-------------|:-------:|:------:|:-------:|\n| RetinaNet | PVT-Tiny  | ImageNet-1K |    1x   |  36.7  |    -    |\n| RetinaNet | PVT-Small | ImageNet-1K |    1x   |  40.4  |    -    |\n| Mask RCNN | PVT-Tiny  | ImageNet-1K |    1x   |  36.7  |   35.1  |\n| Mask RCNN | PVT-Small | ImageNet-1K |    1x   |  40.4  |   37.8  |\n| DETR      | PVT-Small | ImageNet-1K |   50ep  |  34.7  |    -    |\n\n\n### 语义分割\n\n分割配置及权重请见 >>>[这里](segmentation\u002F)\u003C\u003C\u003C。\n\nPVT-v2 + 语义分割请见 >>>[这里](https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVTv2-Seg)\u003C\u003C\u003C。\n\n- PVTv1 在 ADE20K 上的表现\n\n| 方法       | 主干网络   | 预训练    | 迭代次数 | mIoU |\n|--------------|------------|-------------|-------|------|\n| Semantic FPN | PVT-Tiny   | ImageNet-1K | 40K   | 35.7 |\n| Semantic FPN | PVT-Small  | ImageNet-1K | 40K   | 39.8 |\n| Semantic FPN | PVT-Medium | ImageNet-1K | 40K   | 41.6 |\n| Semantic FPN | PVT-Large  | ImageNet-1K | 40K   | 42.1 |\n\n### 聚生子分割\nPolyp-PVT：基于梯度金字塔视觉Transformer的聚生子分割。[pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.06932) | [代码](https:\u002F\u002Fgithub.com\u002FDengPingFan\u002FPolyp-PVT)\n\n### 视觉语言建模\n时尚中的掩码视觉语言Transformer。[pdf](https:\u002F\u002Fdengpingfan.github.io\u002Fpapers\u002F[2022][MIR]MVLT.pdf) | [代码](https:\u002F\u002Fgithub.com\u002FGewelsJI\u002FMVLT)\n\n## 许可证\n本仓库根据 [LICENSE](LICENSE) 文件中的 Apache 2.0 许可证发布。\n\n\n## 引用\n如果您在论文中使用此代码，请引用：\n\nPVTv1\n```\n@inproceedings{wang2021pyramid,\n  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},\n  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},\n  booktitle={Proceedings of the IEEE\u002FCVF International Conference on Computer Vision},\n  pages={568--578},\n  year={2021}\n}\n```\n\nPVTv2\n```\n@article{wang2021pvtv2,\n  title={Pvtv2: Improved baselines with pyramid vision transformer},\n  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},\n  journal={Computational Visual Media},\n  volume={8},\n  number={3},\n  pages={1--10},\n  year={2022},\n  publisher={Springer}\n}\n```\n\n\n\n## 联系方式\n\n本仓库目前由 Wenhai Wang ([@whai362](https:\u002F\u002Fgithub.com\u002Fwhai362))、Enze Xie ([@xieenze](https:\u002F\u002Fgithub.com\u002Fxieenze)) 和 Zhe Chen ([@czczup](https:\u002F\u002Fgithub.com\u002Fczczup)) 维护。","# PVT (Pyramid Vision Transformer) 快速上手指南\n\nPVT 是一种专为密集预测任务（如目标检测、语义分割）设计的金字塔视觉 Transformer 骨干网络。本指南基于官方仓库，帮助您快速搭建环境并运行 PVTv2 模型。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **Python**: 3.7 或更高版本\n*   **GPU**: NVIDIA GPU (支持 CUDA)，显存建议 8GB 以上（根据模型大小调整）\n*   **核心依赖**:\n    *   PyTorch >= 1.8\n    *   torchvision\n    *   mmcv-full (用于检测和分割任务)\n    *   timm\n\n**前置检查**：\n请确保已安装与您的 CUDA 版本匹配的 PyTorch。\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT.git\ncd PVT\n```\n\n### 2. 安装 Python 依赖\n建议使用国内镜像源加速安装过程：\n\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*注意：如果 `requirements.txt` 未包含所有必要组件，请手动安装关键依赖：*\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install timm mmcv-full -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n*(注：`mmcv-full` 的版本需与您安装的 PyTorch\u002FCUDA 版本严格对应，具体安装命令请参考 MMCV 官方文档)*\n\n### 3. 编译扩展模块 (如需)\n如果涉及自定义算子编译，请运行：\n```bash\npython setup.py develop\n```\n\n## 基本使用\n\n以下示例展示如何加载预训练的 **PVTv2-B2** 模型进行图像分类推理。\n\n### 1. 下载预训练权重\n从官方提供的链接下载权重文件（以 `pvt_v2_b2.pth` 为例），或访问 [Model Zoo](classification\u002F) 获取其他型号权重。\n\n### 2. 编写推理脚本\n创建文件 `demo_inference.py`，输入以下代码：\n\n```python\nimport torch\nfrom PIL import Image\nfrom torchvision import transforms\nfrom models.pvt_v2 import pvt_v2_b2\n\n# 1. 配置设备\ndevice = torch.device('cuda' if torch.cuda.is_available() else 'cpu')\n\n# 2. 初始化模型\nmodel = pvt_v2_b2()\ncheckpoint = torch.load('pvt_v2_b2.pth', map_location=device)\nmodel.load_state_dict(checkpoint)\nmodel.to(device)\nmodel.eval()\n\n# 3. 数据预处理\ntransform = transforms.Compose([\n    transforms.Resize((224, 224)),\n    transforms.ToTensor(),\n    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),\n])\n\n# 4. 加载图像并推理\nimage_path = 'your_image.jpg'  # 替换为您的图片路径\nimage = Image.open(image_path).convert('RGB')\ninput_tensor = transform(image).unsqueeze(0).to(device)\n\nwith torch.no_grad():\n    output = model(input_tensor)\n    prediction = torch.argmax(output, dim=1)\n\nprint(f\"Predicted class index: {prediction.item()}\")\n```\n\n### 3. 运行脚本\n```bash\npython demo_inference.py\n```\n\n---\n**提示**：\n*   **目标检测与分割**：请分别参考 `detection\u002F` 和 `segmentation\u002F` 目录下的配置文件，配合 MMDetection 或 MMSegmentation 框架使用。\n*   **PVTv2-Seg**：专门的分割任务实现请访问 [PVTv2-Seg 仓库](https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVTv2-Seg)。","某医疗 AI 团队正在开发一套自动肠镜息肉分割系统，旨在辅助医生实时识别病灶并提升诊断效率。\n\n### 没有 PVT 时\n- **细节丢失严重**：传统 CNN 骨干网络感受野固定，难以同时捕捉息肉的全局形态与微小边缘特征，导致小目标漏检率高。\n- **计算资源受限**：为了部署到边缘设备，团队被迫使用轻量级模型，但精度大幅下降，无法满足临床辅助诊断的严苛标准。\n- **多尺度适配困难**：息肉大小差异极大，原有架构缺乏有效的金字塔特征融合机制，需花费大量时间手工设计复杂的特征金字塔结构。\n- **训练收敛缓慢**：在有限的数据集上，模型容易过拟合，且迁移学习效果不佳，需要极长的调参周期才能达到可用状态。\n\n### 使用 PVT 后\n- **全局感知增强**：利用 PVTv2 的线性注意力机制，模型能高效建立长距离依赖，精准分割边界模糊或形状不规则的微小息肉。\n- **精度与速度平衡**：PVTv2-B0 等轻量变体在参数量极低（仅 3.7M）的情况下，依然保持了极高的分割精度，完美适配移动端推理。\n- **原生多尺度优势**：PVT 自带的金字塔结构天然适配密集预测任务，无需额外复杂设计即可完美处理不同尺寸的病灶目标。\n- **迁移效果显著**：基于 ImageNet-1K 预训练的权重让模型在少量医疗数据上快速收敛，大幅缩短了从研发到临床测试的周期。\n\nPVT 通过独特的金字塔视觉 Transformer 架构，成功解决了医疗影像中“小目标难检测”与“边缘设备算力受限”的双重矛盾。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fwhai362_PVT_8ebebd49.png","whai362","Wenhai Wang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fwhai362_b564bdd5.png","🌸🌸🌸","CUHK","Shanghai","wangwenhai362@163.com",null,"http:\u002F\u002Fwhai362.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fwhai362",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.6,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.4,1891,254,"2026-04-16T09:07:42","Apache-2.0","未说明","未说明（基于任务涉及 ImageNet-1K 预训练及 COCO\u002FADE20K 上的检测与分割，通常必需 NVIDIA GPU，具体显存取决于模型大小，如 PVTv2-B5 参数量达 82M）",{"notes":99,"python":96,"dependencies":100},"README 未提供具体的环境安装指南、依赖列表或硬件最低要求。该仓库包含 PVTv1 和 PVTv2 在图像分类、目标检测和语义分割任务的官方实现。部分高级任务（如息肉分割 Polyp-PVT 和视觉语言建模 MVLT）的代码位于独立的外部仓库中。用户需参考各子目录（classification\u002F, detection\u002F, segmentation\u002F）或相关论文获取具体的运行配置。",[96],[15,35],[103,104,105,106,107,108],"transformer","backbone","pvt","detection","segmentation","pvtv2","2026-03-27T02:49:30.150509","2026-04-19T03:05:56.126490",[112,117,122,127,132,137,142],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},41337,"如何计算模型的 FLOPs？为什么我的计算结果与论文不一致？","FLOPs 的计算方式可能因工具而异。通常 FLOPs 约等于 MACs（乘加运算数）的 2 倍，但在某些检测框架（如 mmdet）中，报告的数值直接对应 MACs。如果你使用 ptflops 或 thop 库，得到的结果通常是 MACs。例如，DeiT-Small 的 MACs 约为 4.6G，对应论文中的 FLOPs 数值。若需复现论文数据，建议参考 mmdet 中的 `get_vit_flops` 函数或直接对比 MACs 数值，无需额外乘以 2。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F1",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},41338,"如何获取语义分割（Semantic Segmentation）的代码和模型？","项目维护者已发布用于语义分割的代码、日志和模型。这些资源通常在 NeurIPS 截止日期后公开。用户可以直接在仓库中查找相关更新，发布的代码运行结果甚至可能优于论文中报告的数据。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F35",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},41339,"运行 demo.py 时遇到 'tkinter.TclError: couldn't connect to display' 错误怎么办？","该错误通常发生在无图形界面（headless）的服务器环境中，因为 matplotlib 尝试调用 TkAgg 后端显示窗口失败。解决方法有两种：1. 注释掉代码中调用 `model.show_result` 的部分，直接保存或处理结果而不显示图像；2. 设置 matplotlib 后端为非交互式后端（如在代码开头添加 `import matplotlib; matplotlib.use('Agg')`），或者检查 matplotlib 安装是否正确。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F62",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},41340,"是否有用于单张图片推理或可视化检测结果的 Demo？","有的。项目提供了 `demo.py` 脚本用于演示推理过程。对于检测任务，可以参考 v2 分支下的 `detection\u002Fdemo.py`（路径：https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fblob\u002Fv2\u002Fdetection\u002Fdemo.py）。该脚本支持加载训练好的模型并对图片进行推理和可视化。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F47",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},41341,"如何在单张 GPU 上进行训练？","虽然官方脚本 `dist_train.sh` 主要设计用于分布式多 GPU 训练，但你可以通过修改脚本来适应单卡环境。查看 `.\u002Fdist_train.sh` 文件内容，其中包含关于多 GPU 的设置。如果直接在单卡上运行分布式命令报错，建议检查命令行参数格式，或者直接使用非分布式的训练入口（如果可用）。注意：维护者提到未充分测试单卡模式，可能需要自行调整配置。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F9",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},41342,"Mask R-CNN 的配置是否使用了 FPN（特征金字塔网络）？","仓库中 detection 文件夹提供的 Mask R-CNN 1x 配置文件确实使用了 FPN。尽管论文中可能描述了不使用 FPN 的设置以验证 Backbone 能力，但实际提供的标准检测配置通常包含 FPN 以获得更好的性能。用户在复现时应以仓库中的具体配置文件为准。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F18",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},41343,"加载 pickle 文件时出现 '_pickle.UnpicklingError' 错误如何解决？","这通常是由于 Python 版本不兼容导致的。Python 2 生成的 pickle 文件无法直接用 Python 3 加载，反之亦然。请确认生成该 `.pkl` 文件的 Python 环境版本。如果是跨版本迁移，可能需要重新生成数据文件，或使用特定的编码参数尝试加载，但最稳妥的方法是确保训练和推理环境的 Python 主版本一致。","https:\u002F\u002Fgithub.com\u002Fwhai362\u002FPVT\u002Fissues\u002F22",[148,152],{"id":149,"version":150,"summary_zh":80,"released_at":151},333302,"v3","2021-08-03T05:48:01",{"id":153,"version":154,"summary_zh":155,"released_at":156},333303,"v2","ImageNet 权重","2021-06-30T07:55:48"]