[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-HRNet--HRNet-Semantic-Segmentation":3,"tool-HRNet--HRNet-Semantic-Segmentation":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":75,"owner_website":77,"owner_url":78,"languages":79,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":100,"env_deps":102,"category_tags":107,"github_topics":108,"view_count":24,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":150},7980,"HRNet\u002FHRNet-Semantic-Segmentation","HRNet-Semantic-Segmentation","The OCR approach is rephrased as Segmentation Transformer: https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11065. This is an official implementation of semantic segmentation for HRNet. https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.07919","HRNet-Semantic-Segmentation 是一个专注于语义分割任务的开源深度学习项目，旨在让计算机能够精准地识别图像中每个像素所属的类别（如道路、行人、车辆等）。它主要解决了传统方法在下采样过程中丢失空间细节、导致小物体或边界识别不准的难题。\n\n该项目的核心亮点在于采用了高分辨率网络（HRNet），通过并行保持多分辨率特征流，避免了信息丢失；同时结合了对象上下文表示（OCR）技术，现已被重新阐释为“分割 Transformer\"架构，能有效捕捉物体间的全局依赖关系。凭借这些创新，它在 Cityscapes、ADE20K 等多个权威数据集上曾屡获榜首，确立了当时的最先进性能（SOTA）。\n\nHRNet-Semantic-Segmentation 非常适合计算机视觉领域的研究人员、算法工程师以及需要高精度分割方案的开发者使用。无论是进行学术探索、模型复现，还是将其应用于自动驾驶、医疗影像分析等实际场景，它都提供了基于 PyTorch 的官方实现和预训练权重，帮助用户快速构建高性能的视觉识别系统。","# High-resolution networks and Segmentation Transformer for Semantic Segmentation\n## Branches\n- This is the implementation for HRNet + OCR.\n- The PyTroch 1.1 version ia available [here](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fpytorch-v1.1).\n- The PyTroch 0.4.1 version is available [here](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fmaster).\n\n## News\n- [2021\u002F05\u002F04] We rephrase the OCR approach as **Segmentation Transformer** [pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf). We will provide the updated implementation soon.\n- [2021\u002F02\u002F16] Based on the [PaddleClas](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleClas) ImageNet pretrained weights, we achieve **83.22%** on Cityscapes val, **59.62%** on PASCAL-Context val (**new SOTA**), **45.20%** on COCO-Stuff val (**new SOTA**), **58.21%** on LIP val and  **47.98%** on ADE20K val. Please checkout [openseg.pytorch](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Ftree\u002Fpytorch-1.7) for more details.\n- [2020\u002F08\u002F16] [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation) has supported our HRNet + OCR.\n- [2020\u002F07\u002F20] The researchers from AInnovation have achieved **Rank#1** on [ADE20K Leaderboard](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F) via training our HRNet + OCR with a semi-supervised learning scheme. More details are in their [Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.10591.pdf).\n- [2020\u002F07\u002F09] Our paper is accepted by ECCV 2020: [Object-Contextual Representations for Semantic Segmentation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf). Notably, the reseachers from Nvidia set a new state-of-the-art performance on Cityscapes leaderboard: [85.4%](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fmethod-details\u002F?submissionID=7836) via combining our HRNet + OCR with a new [hierarchical mult-scale attention scheme](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10821). \n- [2020\u002F03\u002F13] Our paper is accepted by TPAMI: [Deep High-Resolution Representation Learning for Visual Recognition](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07919.pdf).\n- HRNet + OCR + SegFix: Rank \\#1 (84.5) in [Cityscapes leaderboard](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fbenchmarks\u002F). OCR: object contextual represenations [pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf). ***HRNet + OCR is reproduced [here](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002FHRNet-OCR)***.\n- Thanks Google and UIUC researchers. A modified HRNet combined with semantic and instance multi-scale context achieves SOTA panoptic segmentation result on the Mapillary Vista challenge. See [the paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.04751.pdf).\n- Small HRNet models for Cityscapes segmentation. Superior to MobileNetV2Plus ....\n- Rank \\#1 (83.7) in [Cityscapes leaderboard](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fbenchmarks\u002F). HRNet combined with an extension of [object context](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.00916.pdf)\n\n- Pytorch-v1.1 and the official Sync-BN supported. We have reproduced the cityscapes results on the new codebase. Please check the [pytorch-v1.1 branch](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fpytorch-v1.1).\n\n## Introduction\nThis is the official code of [high-resolution representations for Semantic Segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.04514). \nWe augment the HRNet with a very simple segmentation head shown in the figure below. We aggregate the output representations at four different resolutions, and then use a 1x1 convolutions to fuse these representations. The output representations is fed into the classifier. We evaluate our methods on three datasets, Cityscapes, PASCAL-Context and LIP.\n\n\u003C!-- ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_da762e151718.png) -->\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\".\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_da762e151718.png\" alt=\"hrnet\" title=\"\" width=\"900\" height=\"150\" \u002F>\n\u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\nBesides, we further combine HRNet with [Object Contextual Representation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf) and achieve higher performance on the three datasets. The code of HRNet+OCR is contained in this branch. We illustrate the overall framework of OCR in the Figure and the equivalent Transformer pipelines:\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_3f36fd504d6e.png\" alt=\"OCR\" title=\"\" width=\"900\" height=\"200\" \u002F>\n\u003C\u002Ffigure>\n  \n \u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_4b57721440da.png\" alt=\"Segmentation Transformer\" title=\"\" width=\"600\" \u002F>\n\u003C\u002Ffigure>\n\n## Segmentation models\nThe models are initialized by the weights pretrained on the ImageNet. ''Paddle'' means the results are based on PaddleCls pretrained HRNet models.\nYou can download the pretrained models from  https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Image-Classification. *Slightly different, we use align_corners = True for upsampling in HRNet*.\n\n1. Performance on the Cityscapes dataset. The models are trained and tested with the input size of 512x1024 and 1024x2048 respectively.\nIf multi-scale testing is used, we adopt scales: 0.5,0.75,1.0,1.25,1.5,1.75.\n\n| model | Train Set | Test Set | OHEM | Multi-scale| Flip | mIoU | Link |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | Train | Val | No | No | No | 80.9 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cs_8090_torch11.pth)\u002F[BaiduYun(Access Code:pmix)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KyiOUOR0SYxKtJfIlD5o-w)|\n| HRNetV2-W48 + OCR | Train | Val | No | No | No | 81.6 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cs_8162_torch11.pth)\u002F[BaiduYun(Access Code:fa6i)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1BGNt4Xmx3yfXUS8yjde0hQ)|\n| HRNetV2-W48 + OCR | Train + Val | Test | No | Yes | Yes | 82.3 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cs_trainval_8227_torch11.pth)\u002F[BaiduYun(Access Code:ycrk)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F16mD81UnGzjUBD-haDQfzIQ)|\n| HRNetV2-W48 (Paddle) | Train | Val | No | No | No | 81.6 | ---|\n| HRNetV2-W48 + OCR (Paddle) | Train | Val | No | No | No | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | Train + Val | Test | No | Yes | Yes | --- | ---|\n\n2. Performance on the LIP dataset. The models are trained and tested with the input size of 473x473.\n\n| model | OHEM | Multi-scale| Flip | mIoU | Link |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | No | No | Yes | 55.83 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_lip_5583_torch04.pth)\u002F[BaiduYun(Access Code:fahi)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F15DamFiGEoxwDDF1TwuZdnA)|\n| HRNetV2-W48 + OCR | No | No | Yes | 56.48 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_lip_5648_torch04.pth)\u002F[BaiduYun(Access Code:xex2)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dFYSR2bahRnvpIOdh88kOQ)|\n| HRNetV2-W48 (Paddle) | No | No | Yes | --- | --- |\n| HRNetV2-W48 + OCR (Paddle) | No | No | Yes | --- | ---|\n\n\n**Note** Currently we could only reproduce HRNet+OCR results on LIP dataset with PyTorch 0.4.1.\n\n3. Performance on the PASCAL-Context dataset. The models are trained and tested with the input size of 520x520.\nIf multi-scale testing is used, we adopt scales: 0.5,0.75,1.0,1.25,1.5,1.75,2.0 (the same as EncNet, DANet etc.).\n\n| model |num classes | OHEM | Multi-scale| Flip | mIoU | Link |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 59 classes | No | Yes | Yes | 54.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_pascal_ctx_5410_torch11.pth)\u002F[BaiduYun(Access Code:wz6v)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1m0MqpHSk0SX380EYEMawSA)|\n| HRNetV2-W48 + OCR | 59 classes | No | Yes | Yes | 56.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_pascal_ctx_5618_torch11.pth)\u002F[BaiduYun(Access Code:yyxh)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1XYP54gr3XB76tHmCcKdU9g)|\n| HRNetV2-W48 | 60 classes | No | Yes | Yes | 48.3 | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!Aus8VCZ_C_33gQEHDQrZCiv4R5mf)\u002F[BaiduYun(Access Code:9uf8)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1pgYt8P8ht2HOOzcA0F7Kag)|\n| HRNetV2-W48 + OCR | 60 classes | No | Yes | Yes | 50.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_pascal_ctx_5410_torch11.pth)\u002F[BaiduYun(Access Code:gtkb)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F13AYjwzh1LJSlipJwNpJ3Uw)|\n| HRNetV2-W48 (Paddle) | 59 classes | No | Yes | Yes | --- | ---|\n| HRNetV2-W48 (Paddle) | 60 classes | No | Yes | Yes | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 59 classes | No | Yes | Yes | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 60 classes | No | Yes | Yes | --- | ---|\n\n4. Performance on the COCO-Stuff dataset. The models are trained and tested with the input size of 520x520.\nIf multi-scale testing is used, we adopt scales: 0.5,0.75,1.0,1.25,1.5,1.75,2.0 (the same as EncNet, DANet etc.).\n\n| model | OHEM | Multi-scale| Flip | mIoU | Link |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | Yes | No | No | 36.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cocostuff_3617_torch04.pth)\u002F[BaiduYun(Access Code:92gw)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1VAV6KThH1Irzv9HZgLWE2Q)|\n| HRNetV2-W48 + OCR | Yes | No | No | 39.7 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cocostuff_3965_torch04.pth)\u002F[BaiduYun(Access Code:sjc4)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HFSYyVwKBG3E6y76gcPjDA)|\n| HRNetV2-W48 | Yes | Yes | Yes | 37.9 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cocostuff_3617_torch04.pth)\u002F[BaiduYun(Access Code:92gw)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1VAV6KThH1Irzv9HZgLWE2Q) |\n| HRNetV2-W48 + OCR | Yes | Yes | Yes | 40.6 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cocostuff_3965_torch04.pth)\u002F[BaiduYun(Access Code:sjc4)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HFSYyVwKBG3E6y76gcPjDA) |\n| HRNetV2-W48 (Paddle) | Yes | No | No | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | Yes | No | No | --- | ---|\n| HRNetV2-W48 (Paddle) | Yes | Yes | Yes | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | Yes | Yes | Yes | --- | ---|\n\n\u003C!-- **Note** We reproduce HRNet+OCR results on COCO-Stuff dataset with PyTorch 0.4.1. -->\n\n5. Performance on the ADE20K dataset. The models are trained and tested with the input size of 520x520.\nIf multi-scale testing is used, we adopt scales: 0.5,0.75,1.0,1.25,1.5,1.75,2.0 (the same as EncNet, DANet etc.).\n\n| model | OHEM | Multi-scale| Flip | mIoU | Link |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | Yes | No | No | 43.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ade20k_4312_torch04.pth)\u002F[BaiduYun(Access Code:f6xf)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11neVkzxx27qS2-mPFW9dfg)|\n| HRNetV2-W48 + OCR | Yes | No | No | 44.5 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_ade20k_4451_torch04.pth)\u002F[BaiduYun(Access Code:peg4)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HLhjiLIdgaOHs0SzEtkgkQ)|\n| HRNetV2-W48 | Yes | Yes | Yes | 44.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ade20k_4312_torch04.pth)\u002F[BaiduYun(Access Code:f6xf)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11neVkzxx27qS2-mPFW9dfg) |\n| HRNetV2-W48 + OCR | Yes | Yes | Yes | 45.5 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_ade20k_4451_torch04.pth)\u002F[BaiduYun(Access Code:peg4)](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HLhjiLIdgaOHs0SzEtkgkQ) |\n| HRNetV2-W48 (Paddle) | Yes | No | No | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | Yes | No | No | --- | ---|\n| HRNetV2-W48 (Paddle) | Yes | Yes | Yes | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | Yes | Yes | Yes | --- | ---|\n\n\u003C!-- **Note** We reproduce HRNet+OCR results on ADE20K dataset with PyTorch 0.4.1. -->\n\n## Quick start\n### Install\n1. For LIP dataset, install PyTorch=0.4.1 following the [official instructions](https:\u002F\u002Fpytorch.org\u002F). For Cityscapes and PASCAL-Context, we use PyTorch=1.1.0.\n2. `git clone https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation $SEG_ROOT`\n3. Install dependencies: pip install -r requirements.txt\n\nIf you want to train and evaluate our models on PASCAL-Context, you need to install [details](https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api).\n````bash\npip install git+https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api.git#subdirectory=PythonAPI\n````\n\n### Data preparation\nYou need to download the [Cityscapes](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F), [LIP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002F) and [PASCAL-Context](https:\u002F\u002Fcs.stanford.edu\u002F~roozbeh\u002Fpascal-context\u002F) datasets.\n\nYour directory tree should be look like this:\n````bash\n$SEG_ROOT\u002Fdata\n├── cityscapes\n│   ├── gtFine\n│   │   ├── test\n│   │   ├── train\n│   │   └── val\n│   └── leftImg8bit\n│       ├── test\n│       ├── train\n│       └── val\n├── lip\n│   ├── TrainVal_images\n│   │   ├── train_images\n│   │   └── val_images\n│   └── TrainVal_parsing_annotations\n│       ├── train_segmentations\n│       ├── train_segmentations_reversed\n│       └── val_segmentations\n├── pascal_ctx\n│   ├── common\n│   ├── PythonAPI\n│   ├── res\n│   └── VOCdevkit\n│       └── VOC2010\n├── cocostuff\n│   ├── train\n│   │   ├── image\n│   │   └── label\n│   └── val\n│       ├── image\n│       └── label\n├── ade20k\n│   ├── train\n│   │   ├── image\n│   │   └── label\n│   └── val\n│       ├── image\n│       └── label\n├── list\n│   ├── cityscapes\n│   │   ├── test.lst\n│   │   ├── trainval.lst\n│   │   └── val.lst\n│   ├── lip\n│   │   ├── testvalList.txt\n│   │   ├── trainList.txt\n│   │   └── valList.txt\n````\n\n### Train and Test\n\n#### PyTorch Version Differences\n\nNote that the codebase supports both PyTorch 0.4.1 and 1.1.0, and they use different command for training. In the following context, we use `$PY_CMD` to denote different startup command.\n\n```bash\n# For PyTorch 0.4.1\nPY_CMD=\"python\"\n# For PyTorch 1.1.0\nPY_CMD=\"python -m torch.distributed.launch --nproc_per_node=4\"\n```\n\ne.g., when training on Cityscapes, we use PyTorch 1.1.0. So the command\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\nindicates\n````bash\npython -m torch.distributed.launch --nproc_per_node=4 tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n#### Training\n\nJust specify the configuration file for `tools\u002Ftrain.py`.\n\nFor example, train the HRNet-W48 on Cityscapes with a batch size of 12 on 4 GPUs:\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\nFor example, train the HRNet-W48 + OCR on Cityscapes with a batch size of 12 on 4 GPUs:\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n\nNote that we only reproduce HRNet+OCR on LIP dataset using PyTorch 0.4.1. So we recommend to use PyTorch 0.4.1 if you want to train on LIP dataset.\n\n#### Testing\n\nFor example, evaluating HRNet+OCR on the Cityscapes validation set with multi-scale and flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml \\\n                     TEST.MODEL_FILE hrnet_ocr_cs_8162_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75 \\\n                     TEST.FLIP_TEST True\n````\nEvaluating HRNet+OCR on the Cityscapes test set with multi-scale and flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml \\\n                     DATASET.TEST_SET list\u002Fcityscapes\u002Ftest.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_trainval_cs_8227_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75 \\\n                     TEST.FLIP_TEST True\n````\nEvaluating HRNet+OCR on the PASCAL-Context validation set with multi-scale and flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fpascal_ctx\u002Fseg_hrnet_ocr_w48_cls59_520x520_sgd_lr1e-3_wd1e-4_bs_16_epoch200.yaml \\\n                     DATASET.TEST_SET testval \\\n                     TEST.MODEL_FILE hrnet_ocr_pascal_ctx_5618_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.FLIP_TEST True\n````\nEvaluating HRNet+OCR on the LIP validation set with flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Flip\u002Fseg_hrnet_w48_473x473_sgd_lr7e-3_wd5e-4_bs_40_epoch150.yaml \\\n                     DATASET.TEST_SET list\u002Flip\u002FtestvalList.txt \\\n                     TEST.MODEL_FILE hrnet_ocr_lip_5648_torch04.pth \\\n                     TEST.FLIP_TEST True \\\n                     TEST.NUM_SAMPLES 0\n````\nEvaluating HRNet+OCR on the COCO-Stuff validation set with multi-scale and flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcocostuff\u002Fseg_hrnet_ocr_w48_520x520_ohem_sgd_lr1e-3_wd1e-4_bs_16_epoch110.yaml \\\n                     DATASET.TEST_SET list\u002Fcocostuff\u002Ftestval.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_cocostuff_3965_torch04.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.MULTI_SCALE True TEST.FLIP_TEST True\n````\nEvaluating HRNet+OCR on the ADE20K validation set with multi-scale and flip testing:\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fade20k\u002Fseg_hrnet_ocr_w48_520x520_ohem_sgd_lr2e-2_wd1e-4_bs_16_epoch120.yaml \\\n                     DATASET.TEST_SET list\u002Fade20k\u002Ftestval.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_ade20k_4451_torch04.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.MULTI_SCALE True TEST.FLIP_TEST True\n````\n\n## Other applications of HRNet\n* [Human pose estimation](https:\u002F\u002Fgithub.com\u002Fleoxiaobin\u002Fdeep-high-resolution-net.pytorch)\n* [Image Classification](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Image-Classification)\n* [Object detection](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Object-Detection)\n* [Facial landmark detection](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Facial-Landmark-Detection)\n\n## Citation\nIf you find this work or code is helpful in your research, please cite:\n````\n@inproceedings{SunXLW19,\n  title={Deep High-Resolution Representation Learning for Human Pose Estimation},\n  author={Ke Sun and Bin Xiao and Dong Liu and Jingdong Wang},\n  booktitle={CVPR},\n  year={2019}\n}\n\n@article{WangSCJDZLMTWLX19,\n  title={Deep High-Resolution Representation Learning for Visual Recognition},\n  author={Jingdong Wang and Ke Sun and Tianheng Cheng and \n          Borui Jiang and Chaorui Deng and Yang Zhao and Dong Liu and Yadong Mu and \n          Mingkui Tan and Xinggang Wang and Wenyu Liu and Bin Xiao},\n  journal={TPAMI},\n  year={2019}\n}\n\n@article{YuanCW19,\n  title={Object-Contextual Representations for Semantic Segmentation},\n  author={Yuhui Yuan and Xilin Chen and Jingdong Wang},\n  booktitle={ECCV},\n  year={2020}\n}\n````\n\n## Reference\n[1] Deep High-Resolution Representation Learning for Visual Recognition. Jingdong Wang, Ke Sun, Tianheng Cheng, \n    Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, Wenyu Liu, Bin Xiao. Accepted by TPAMI.  [download](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07919.pdf)\n    \n[2] Object-Contextual Representations for Semantic Segmentation. Yuhui Yuan, Xilin Chen, Jingdong Wang. [download](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)\n\n## Acknowledgement\nWe adopt sync-bn implemented by [InplaceABN](https:\u002F\u002Fgithub.com\u002Fmapillary\u002Finplace_abn) for PyTorch 0.4.1 experiments and the official \nsync-bn provided by PyTorch for PyTorch 1.10 experiments.\n\nWe adopt data precosessing on the PASCAL-Context dataset, implemented by [PASCAL API](https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api).\n","# 高分辨率网络与分割Transformer用于语义分割\n## 分支\n- 这是HRNet + OCR的实现。\n- PyTorch 1.1版本可在此处获取[这里](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fpytorch-v1.1)。\n- PyTorch 0.4.1版本可在此处获取[这里](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fmaster)。\n\n## 新闻\n- [2021\u002F05\u002F04] 我们将OCR方法重新表述为**分割Transformer**[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)。我们很快会提供更新后的实现。\n- [2021\u002F02\u002F16] 基于[PaddleClas](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleClas)的ImageNet预训练权重，我们在Cityscapes验证集上达到**83.22%**，在PASCAL-Context验证集上达到**59.62%**（**新的SOTA**），在COCO-Stuff验证集上达到**45.20%**（**新的SOTA**），在LIP验证集上达到**58.21%**，在ADE20K验证集上达到**47.98%**。更多详情请查看[openseg.pytorch](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Ftree\u002Fpytorch-1.7)。\n- [2020\u002F08\u002F16] [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation)已支持我们的HRNet + OCR。\n- [2020\u002F07\u002F20] AInnovation的研究人员通过使用半监督学习方案训练我们的HRNet + OCR，在[ADE20K排行榜](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F)上取得了**第一名**。更多细节请参阅他们的[技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.10591.pdf)。\n- [2020\u002F07\u002F09] 我们的论文已被ECCV 2020接受：[用于语义分割的对象上下文表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)。值得注意的是，Nvidia的研究人员通过将我们的HRNet + OCR与一种新的[层次化多尺度注意力机制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10821)结合，在Cityscapes排行榜上创造了新的最先进性能：[85.4%](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fmethod-details\u002F?submissionID=7836)。\n- [2020\u002F03\u002F13] 我们的论文已被TPAMI接受：[用于视觉识别的深度高分辨率表征学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07919.pdf)。\n- HRNet + OCR + SegFix：在[Cityscapes排行榜](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fbenchmarks\u002F)中排名第一（84.5）。OCR：对象上下文表示[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)。***HRNet + OCR在此处被复现[这里](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002FHRNet-OCR)***。\n- 感谢Google和UIUC的研究人员。一种改进的HRNet结合语义和实例多尺度上下文，在Mapillary Vista挑战赛上取得了最先进的一致性分割结果。详见[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.04751.pdf)。\n- 用于Cityscapes分割的小型HRNet模型。优于MobileNetV2Plus……\n- 在[Cityscapes排行榜](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fbenchmarks\u002F)中排名第一（83.7）。HRNet结合了[对象上下文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.00916.pdf)的扩展。\n\n- 支持PyTorch v1.1和官方Sync-BN。我们已在新代码库上复现了Cityscapes的结果。请查看[pytorch-v1.1分支](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002Fpytorch-v1.1)。\n\n## 简介\n这是[用于语义分割的高分辨率表征](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.04514)的官方代码。\n我们通过下图所示的一个非常简单的分割头来增强HRNet。我们将四个不同分辨率的输出特征进行聚合，然后使用1x1卷积将其融合。最终的输出特征会被送入分类器。我们在三个数据集——Cityscapes、PASCAL-Context和LIP——上评估了我们的方法。\n\n\u003C!-- ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_da762e151718.png) -->\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\".\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_da762e151718.png\" alt=\"hrnet\" title=\"\" width=\"900\" height=\"150\" \u002F>\n\u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\n此外，我们将HRNet与[对象上下文表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)进一步结合，在这三个数据集上取得了更高的性能。HRNet+OCR的代码包含在这个分支中。我们在图中展示了OCR的整体框架以及等效的Transformer流程：\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_3f36fd504d6e.png\" alt=\"OCR\" title=\"\" width=\"900\" height=\"200\" \u002F>\n\u003C\u002Ffigure>\n  \n \u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_readme_4b57721440da.png\" alt=\"分割Transformer\" title=\"\" width=\"600\" \u002F>\n\u003C\u002Ffigure>\n\n## 分割模型\n这些模型使用在ImageNet上预训练的权重进行初始化。“Paddle”表示结果基于PaddleCls预训练的HRNet模型。\n您可以从https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Image-Classification下载预训练模型。*略有不同的是，我们在HRNet中使用align_corners = True进行上采样*。\n\n1. 在Cityscapes数据集上的表现。模型分别以512x1024和1024x2048的输入尺寸进行训练和测试。\n如果采用多尺度测试，我们会使用以下比例：0.5、0.75、1.0、1.25、1.5、1.75。\n\n| 模型 | 训练集 | 测试集 | OHEM | 多尺度 | 翻转 | mIoU | 链接 |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 训练 | 验证 | 否 | 否 | 否 | 80.9 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cs_8090_torch11.pth)\u002F[百度网盘（提取码：pmix）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KyiOUOR0SYxKtJfIlD5o-w)|\n| HRNetV2-W48 + OCR | 训练 | 验证 | 否 | 否 | 否 | 81.6 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cs_8162_torch11.pth)\u002F[百度网盘（提取码：fa6i）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1BGNt4Xmx3yfXUS8yjde0hQ)|\n| HRNetV2-W48 + OCR | 训练+验证 | 测试 | 否 | 是 | 是 | 82.3 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cs_trainval_8227_torch11.pth)\u002F[百度网盘（提取码：ycrk）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F16mD81UnGzjUBD-haDQfzIQ)|\n| HRNetV2-W48 (Paddle) | 训练 | 验证 | 否 | 否 | 否 | 81.6 | ---|\n| HRNetV2-W48 + OCR (Paddle) | 训练 | 验证 | 否 | 否 | 否 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 训练+验证 | 测试 | 否 | 是 | 是 | --- | ---|\n\n2. 在LIP数据集上的表现。模型以473x473的输入尺寸进行训练和测试。\n\n| 模型 | OHEM | 多尺度 | 翻转 | mIoU | 链接 |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 否 | 否 | 是 | 55.83 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_lip_5583_torch04.pth)\u002F[百度网盘（提取码：fahi）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F15DamFiGEoxwDDF1TwuZdnA)|\n| HRNetV2-W48 + OCR | 否 | 否 | 是 | 56.48 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_lip_5648_torch04.pth)\u002F[百度网盘（提取码：xex2）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dFYSR2bahRnvpIOdh88kOQ)|\n| HRNetV2-W48 (Paddle) | 否 | 否 | 是 | --- | --- |\n| HRNetV2-W48 + OCR (Paddle) | 否 | 否 | 是 | --- | ---|\n\n**注** 目前我们只能在PyTorch 0.4.1版本上复现LIP数据集上的HRNet+OCR结果。\n\n3. 在 PASCAL-Context 数据集上的性能。模型以 520x520 的输入尺寸进行训练和测试。\n\n如果使用多尺度测试，我们采用的尺度为：0.5、0.75、1.0、1.25、1.5、1.75、2.0（与 EncNet、DANet 等相同）。\n\n| 模型 | 类别数 | OHEM | 多尺度 | 镜像翻转 | mIoU | 链接 |\n| :--: | :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 59 类 | 否 | 是 | 是 | 54.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_pascal_ctx_5410_torch11.pth)\u002F[百度网盘（提取码：wz6v）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1m0MqpHSk0SX380EYEMawSA)|\n| HRNetV2-W48 + OCR | 59 类 | 否 | 是 | 是 | 56.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_pascal_ctx_5618_torch11.pth)\u002F[百度网盘（提取码：yyxh）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1XYP54gr3XB76tHmCcKdU9g)|\n| HRNetV2-W48 | 60 类 | 否 | 是 | 是 | 48.3 | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!Aus8VCZ_C_33gQEHDQrZCiv4R5mf)\u002F[百度网盘（提取码：9uf8）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1pgYt8P8ht2HOOzcA0F7Kag)|\n| HRNetV2-W48 + OCR | 60 类 | 否 | 是 | 是 | 50.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_pascal_ctx_5410_torch11.pth)\u002F[百度网盘（提取码：gtkb）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F13AYjwzh1LJSlipJwNpJ3Uw)|\n| HRNetV2-W48 (Paddle) | 59 类 | 否 | 是 | 是 | --- | ---|\n| HRNetV2-W48 (Paddle) | 60 类 | 否 | 是 | 是 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 59 类 | 否 | 是 | 是 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 60 类 | 否 | 是 | 是 | --- | ---|\n\n4. 在 COCO-Stuff 数据集上的性能。模型以 520x520 的输入尺寸进行训练和测试。\n\n如果使用多尺度测试，我们采用的尺度为：0.5、0.75、1.0、1.25、1.5、1.75、2.0（与 EncNet、DANet 等相同）。\n\n| 模型 | OHEM | 多尺度 | 镜像翻转 | mIoU | 链接 |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 是 | 否 | 否 | 36.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cocostuff_3617_torch04.pth)\u002F[百度网盘（提取码：92gw）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1VAV6KThH1Irzv9HZgLWE2Q)|\n| HRNetV2-W48 + OCR | 是 | 否 | 否 | 39.7 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cocostuff_3965_torch04.pth)\u002F[百度网盘（提取码：sjc4）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HFSYyVwKBG3E6y76gcPjDA)|\n| HRNetV2-W48 | 是 | 是 | 是 | 37.9 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cocostuff_3617_torch04.pth)\u002F[百度网盘（提取码：92gw）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1VAV6KThH1Irzv9HZgLWE2Q) |\n| HRNetV2-W48 + OCR | 是 | 是 | 是 | 40.6 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_cocostuff_3965_torch04.pth)\u002F[百度网盘（提取码：sjc4）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HFSYyVwKBG3E6y76gcPjDA) |\n| HRNetV2-W48 (Paddle) | 是 | 否 | 否 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 是 | 否 | 否 | --- | ---|\n| HRNetV2-W48 (Paddle) | 是 | 是 | 是 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 是 | 是 | 是 | --- | ---|\n\n\u003C!-- **注** 我们在 PyTorch 0.4.1 上复现了 HRNet+OCR 在 COCO-Stuff 数据集上的结果。 -->\n\n5. 在 ADE20K 数据集上的性能。模型以 520x520 的输入尺寸进行训练和测试。\n\n如果使用多尺度测试，我们采用的尺度为：0.5、0.75、1.0、1.25、1.5、1.75、2.0（与 EncNet、DANet 等相同）。\n\n| 模型 | OHEM | 多尺度 | 镜像翻转 | mIoU | 链接 |\n| :--: | :--: | :--: | :--: | :--: | :--: |\n| HRNetV2-W48 | 是 | 否 | 否 | 43.1 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ade20k_4312_torch04.pth)\u002F[百度网盘（提取码：f6xf）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11neVkzxx27qS2-mPFW9dfg)|\n| HRNetV2-W48 + OCR | 是 | 否 | 否 | 44.5 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_ade20k_4451_torch04.pth)\u002F[百度网盘（提取码：peg4）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HLhjiLIdgaOHs0SzEtkgkQ)|\n| HRNetV2-W48 | 是 | 是 | 是 | 44.2 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ade20k_4312_torch04.pth)\u002F[百度网盘（提取码：f6xf）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11neVkzxx27qS2-mPFW9dfg) |\n| HRNetV2-W48 + OCR | 是 | 是 | 是 | 45.5 | [Github](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_ocr_ade20k_4451_torch04.pth)\u002F[百度网盘（提取码：peg4）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HLhjiLIdgaOHs0SzEtkgkQ) |\n| HRNetV2-W48 (Paddle) | 是 | 否 | 否 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 是 | 否 | 否 | --- | ---|\n| HRNetV2-W48 (Paddle) | 是 | 是 | 是 | --- | ---|\n| HRNetV2-W48 + OCR (Paddle) | 是 | 是 | 是 | --- | ---|\n\n\u003C!-- **注** 我们在 PyTorch 0.4.1 上复现了 HRNet+OCR 在 ADE20K 数据集上的结果。 -->\n\n\n\n## 快速入门\n### 安装\n1. 对于 LIP 数据集，按照 [官方说明](https:\u002F\u002Fpytorch.org\u002F) 安装 PyTorch=0.4.1。对于 Cityscapes 和 PASCAL-Context，我们使用 PyTorch=1.1.0。\n2. `git clone https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation $SEG_ROOT`\n3. 安装依赖：pip install -r requirements.txt\n\n如果你想在 PASCAL-Context 数据集上训练和评估我们的模型，你需要安装 [details](https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api)：\n````bash\npip install git+https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api.git#subdirectory=PythonAPI\n````\n\n### 数据准备\n你需要下载 [Cityscapes](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F)、[LIP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002F) 和 [PASCAL-Context](https:\u002F\u002Fcs.stanford.edu\u002F~roozbeh\u002Fpascal-context\u002F) 数据集。\n\n你的目录结构应如下所示：\n````bash\n$SEG_ROOT\u002Fdata\n├── cityscapes\n│   ├── gtFine\n│   │   ├── test\n│   │   ├── train\n│   │   └atóval\n│   └── leftImg8bit\n│       ├── test\n│       ├── train\n│       └arával\n├── lip\n│   ├── TrainVal_images\n│   │   ├── train_images\n│   │   └átval_images\n│   └atóTrainVal_parsing_annotations\n│       ├── train_segmentations\n│       ├── train_segmentations_reversed\n│       └átval_segmentations\n├ách pascal_ctx\n│   ├── common\n│   ├── PythonAPI\n│   ├── res\n│   └atóVOCdevkit\n│       └atóVOC2010\n├ách cocostuff\n│   ├── train\n│   │   ├── image\n│   │   └átlabel\n│   └atóval\n│       ├── image\n│       └átlabel\n├ách ade20k\n│   ├── train\n│   │   ├── image\n│   │   └átlabel\n│   └atóval\n│       ├── image\n│       └átlabel\n├ách list\n│   ├── cityscapes\n│   │   ├── test.lst\n│   │   ├── trainval.lst\n│   │   └átval.lst\n│   ├── lip\n│   │   ├── testvalList.txt\n│   │   ├── trainList.txt\n│   │   └átvalList.txt\n````\n\n### 训练与测试\n\n#### PyTorch 版本差异\n\n请注意，该代码库同时支持 PyTorch 0.4.1 和 1.1.0，它们的训练命令有所不同。在下文中，我们用 `$PY_CMD` 来表示不同的启动命令。\n\n```bash\n# 对于 PyTorch 0.4.1\nPY_CMD=\"python\"\n\n# 适用于 PyTorch 1.1.0\nPY_CMD=\"python -m torch.distributed.launch --nproc_per_node=4\"\n```\n\n例如，在 Cityscapes 数据集上进行训练时，我们使用 PyTorch 1.1.0。因此，命令\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n表示\n````bash\npython -m torch.distributed.launch --nproc_per_node=4 tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n#### 训练\n\n只需为 `tools\u002Ftrain.py` 指定配置文件即可。\n\n例如，在 4 张 GPU 上以 12 的批量大小在 Cityscapes 数据集上训练 HRNet-W48：\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n再比如，在 4 张 GPU 上以 12 的批量大小在 Cityscapes 数据集上训练 HRNet-W48 + OCR：\n````bash\n$PY_CMD tools\u002Ftrain.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml\n````\n\n需要注意的是，我们仅在 LIP 数据集上使用 PyTorch 0.4.1 复现了 HRNet+OCR。因此，如果您希望在 LIP 数据集上进行训练，建议使用 PyTorch 0.4.1。\n\n#### 测试\n\n例如，对 HRNet+OCR 在 Cityscapes 验证集上进行多尺度和翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml \\\n                     TEST.MODEL_FILE hrnet_ocr_cs_8162_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75 \\\n                     TEST.FLIP_TEST True\n````\n对 HRNet+OCR 在 Cityscapes 测试集上进行多尺度和翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcityscapes\u002Fseg_hrnet_ocr_w48_train_512x1024_sgd_lr1e-2_wd5e-4_bs_12_epoch484.yaml \\\n                     DATASET.TEST_SET list\u002Fcityscapes\u002Ftest.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_trainval_cs_8227_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75 \\\n                     TEST.FLIP_TEST True\n````\n对 HRNet+OCR 在 PASCAL-Context 验证集上进行多尺度和翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fpascal_ctx\u002Fseg_hrnet_ocr_w48_cls59_520x520_sgd_lr1e-3_wd1e-4_bs_16_epoch200.yaml \\\n                     DATASET.TEST_SET testval \\\n                     TEST.MODEL_FILE hrnet_ocr_pascal_ctx_5618_torch11.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.FLIP_TEST True\n````\n对 HRNet+OCR 在 LIP 验证集上进行翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Flip\u002Fseg_hrnet_w48_473x473_sgd_lr7e-3_wd5e-4_bs_40_epoch150.yaml \\\n                     DATASET.TEST_SET list\u002Flip\u002FtestvalList.txt \\\n                     TEST.MODEL_FILE hrnet_ocr_lip_5648_torch04.pth \\\n                     TEST.FLIP_TEST True \\\n                     TEST.NUM_SAMPLES 0\n````\n对 HRNet+OCR 在 COCO-Stuff 验证集上进行多尺度和翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fcocostuff\u002Fseg_hrnet_ocr_w48_520x520_ohem_sgd_lr1e-3_wd1e-4_bs_16_epoch110.yaml \\\n                     DATASET.TEST_SET list\u002Fcocostuff\u002Ftestval.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_cocostuff_3965_torch04.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.MULTI_SCALE True TEST.FLIP_TEST True\n````\n对 HRNet+OCR 在 ADE20K 验证集上进行多尺度和翻转测试：\n````bash\npython tools\u002Ftest.py --cfg experiments\u002Fade20k\u002Fseg_hrnet_ocr_w48_520x520_ohem_sgd_lr2e-2_wd1e-4_bs_16_epoch120.yaml \\\n                     DATASET.TEST_SET list\u002Fade20k\u002Ftestval.lst \\\n                     TEST.MODEL_FILE hrnet_ocr_ade20k_4451_torch04.pth \\\n                     TEST.SCALE_LIST 0.5,0.75,1.0,1.25,1.5,1.75,2.0 \\\n                     TEST.MULTI_SCALE True TEST.FLIP_TEST True\n````\n\n## HRNet 的其他应用\n* [人体姿态估计](https:\u002F\u002Fgithub.com\u002Fleoxiaobin\u002Fdeep-high-resolution-net.pytorch)\n* [图像分类](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Image-Classification)\n* [目标检测](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Object-Detection)\n* [人脸关键点检测](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Facial-Landmark-Detection)\n\n## 引用\n如果您在研究中发现本工作或代码有所帮助，请引用以下文献：\n````\n@inproceedings{SunXLW19,\n  title={Deep High-Resolution Representation Learning for Human Pose Estimation},\n  author={Ke Sun and Bin Xiao and Dong Liu and Jingdong Wang},\n  booktitle={CVPR},\n  year={2019}\n}\n\n@article{WangSCJDZLMTWLX19,\n  title={Deep High-Resolution Representation Learning for Visual Recognition},\n  author={Jingdong Wang and Ke Sun and Tianheng Cheng and \n          Borui Jiang and Chaorui Deng and Yang Zhao and Dong Liu and Yadong Mu and \n          Mingkui Tan and Xinggang Wang and Wenyu Liu and Bin Xiao},\n  journal={TPAMI},\n  year={2019}\n}\n\n@article{YuanCW19,\n  title={Object-Contextual Representations for Semantic Segmentation},\n  author={Yuhui Yuan and Xilin Chen and Jingdong Wang},\n  booktitle={ECCV},\n  year={2020}\n}\n````\n\n## 参考文献\n[1] Deep High-Resolution Representation Learning for Visual Recognition. Jingdong Wang, Ke Sun, Tianheng Cheng, \n    Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, Wenyu Liu, Bin Xiao. 已被 TPAMI 接受。 [下载](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07919.pdf)\n    \n[2] Object-Contextual Representations for Semantic Segmentation. Yuhui Yuan, Xilin Chen, Jingdong Wang。 [下载](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf)\n\n## 致谢\n我们在 PyTorch 0.4.1 的实验中采用了由 [InplaceABN](https:\u002F\u002Fgithub.com\u002Fmapillary\u002Finplace_abn) 实现的同步 BN，并在 PyTorch 1.10 的实验中使用了 PyTorch 官方提供的同步 BN。\n\n此外，我们还采用了由 [PASCAL API](https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api) 实现的 PASCAL-Context 数据集预处理方法。","# HRNet-Semantic-Segmentation 快速上手指南\n\nHRNet-Semantic-Segmentation 是基于高分辨率网络（HRNet）结合对象上下文表示（OCR）的语义分割官方实现。该模型在 Cityscapes、PASCAL-Context、LIP 等多个数据集上取得了领先的性能。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu)\n- **Python**: 3.6+\n- **PyTorch 版本**:\n  - **Cityscapes \u002F PASCAL-Context \u002F ADE20K**: 推荐使用 `PyTorch 1.1.0` (对应 `pytorch-v1.1` 分支)。\n  - **LIP \u002F COCO-Stuff**: 如需复现特定旧结果，可能需要 `PyTorch 0.4.1` (对应 `master` 分支)，但建议优先尝试在新版本环境下运行。\n- **GPU**: 支持 CUDA 的 NVIDIA 显卡。\n\n### 前置依赖\n- Git\n- pip\n- 若需处理 PASCAL-Context 数据集，需额外安装 [detail-api](https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api)。\n\n## 安装步骤\n\n### 1. 克隆代码库\n建议使用国内镜像加速克隆过程：\n```bash\ngit clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002FHRNet-Semantic-Segmentation.git $SEG_ROOT\n# 或者使用官方源\ngit clone https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation $SEG_ROOT\ncd $SEG_ROOT\n```\n\n> **注意**：如果你主要使用 PyTorch 1.1+，请切换到对应分支：\n> ```bash\n> git checkout pytorch-v1.1\n> ```\n\n### 2. 安装 Python 依赖\n推荐使用国内 pip 镜像源（如清华源）加速安装：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 安装额外组件（可选）\n如果需要在 PASCAL-Context 数据集上进行训练或评估，请安装 detail-api：\n```bash\n# 请参考 detail-api 仓库的具体安装说明\ngit clone https:\u002F\u002Fgithub.com\u002Fzhanghang1989\u002Fdetail-api.git\ncd detail-api\u002FPythonAPI && make\n```\n\n### 4. 下载预训练模型\n模型权重基于 ImageNet 预训练。你可以从以下地址下载：\n- **GitHub Releases**: [hrnet_cs_8090_torch11.pth](https:\u002F\u002Fgithub.com\u002Fhsfzxjy\u002Fmodels.storage\u002Freleases\u002Fdownload\u002FHRNet-OCR\u002Fhrnet_cs_8090_torch11.pth) (Cityscapes 示例)\n- **百度网盘**: 见 README 表格中的链接（提取码通常在链接后标注）。\n\n将下载的 `.pth` 文件放置在项目目录下的 `pretrained_models\u002F` 文件夹中（若不存在请新建）。\n\n## 基本使用\n\n以下以 **Cityscapes** 数据集为例，展示最简单的评估流程。假设你已经准备好了数据集并配置好了路径。\n\n### 1. 配置数据集路径\n修改 `config.py` 或在命令行中指定数据集根目录。通常需要在环境变量或配置文件中设置 `DATASET_ROOT`。\n\n### 2. 单张图像推理示例\n使用预训练模型对单张图片进行分割预测：\n\n```bash\npython tools\u002Ftest.py \\\n    --cfg config\u002Focrnet\u002Fhrnet_w48_cityscapes_512x1024_40k.yaml \\\n    TEST.MODEL_FILE pretrained_models\u002Fhrnet_cs_8090_torch11.pth \\\n    TEST.SCALE_LIST 1.0 \\\n    TEST.FLIP_TEST False \\\n    DATA.DATA_ROOT \u002Fpath\u002Fto\u002Fcityscapes \\\n    DATA.IMG_DIR images\u002Fval \\\n    DATA.LABEL_DIR labels\u002Fval \\\n    OUTPUT_DIR output_results\n```\n\n**参数说明：**\n- `--cfg`: 模型配置文件路径，定义了网络结构（如 HRNetV2-W48 + OCR）。\n- `TEST.MODEL_FILE`: 下载的预训练权重路径。\n- `TEST.SCALE_LIST`: 测试尺度，`1.0` 表示单尺度测试。\n- `DATA.DATA_ROOT`: 数据集根目录绝对路径。\n- `OUTPUT_DIR`: 分割结果输出目录。\n\n### 3. 训练模型（简要）\n若要重新训练模型，请使用以下命令格式：\n\n```bash\npython tools\u002Ftrain.py \\\n    --cfg config\u002Focrnet\u002Fhrnet_w48_cityscapes_512x1024_40k.yaml \\\n    DATA.DATA_ROOT \u002Fpath\u002Fto\u002Fcityscapes \\\n    OUTPUT_DIR training_output\n```\n\n> **提示**：具体配置文件 (`yaml`) 位于 `config\u002F` 目录下，涵盖了不同数据集（Cityscapes, LIP, PASCAL-Context 等）和不同骨干网络（W18, W32, W48）的组合。请根据实际需求选择对应的配置文件。","某自动驾驶团队正在开发城市道路感知系统，急需从车载摄像头画面中精准识别车道线、行人及交通标志等细节。\n\n### 没有 HRNet-Semantic-Segmentation 时\n- **小目标识别率低**：传统下采样网络丢失了高分辨率特征，导致远处的行人或细窄车道线经常漏检。\n- **边缘分割模糊**：物体边界定位不准，车辆与路面的交界处呈现锯齿状，影响路径规划精度。\n- **复杂场景误判**：在光照变化大或遮挡严重的路口，模型难以区分相似纹理的背景与前景物体。\n- **调优成本高昂**：为了提升精度不得不堆叠更深的网络，导致推理延迟增加，难以在嵌入式设备上实时运行。\n\n### 使用 HRNet-Semantic-Segmentation 后\n- **保持高分辨率特征**：借助 HRNet 并行多分辨率结构，完整保留了空间细节，显著提升了细小物体（如路灯、标线）的检出率。\n- **边界刻画锐利**：结合 OCR（对象上下文表示）模块，模型能更好地理解物体整体语境，使分割边缘平滑且贴合真实轮廓。\n- **语境理解增强**：利用全局上下文信息，有效解决了复杂路况下的语义混淆问题，大幅降低误报率。\n- **精度效率平衡**：在 Cityscapes 等数据集上达到 SOTA 精度的同时，提供了轻量级模型选项，满足了车端实时推理需求。\n\nHRNet-Semantic-Segmentation 通过坚持高分辨率表征学习与上下文聚合，彻底解决了精细场景理解中“看不清”与“认不准”的核心难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHRNet_HRNet-Semantic-Segmentation_7ed81445.png","HRNet","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FHRNet_a2efc848.png","Code for pose estimation is available at https:\u002F\u002Fgithub.com\u002Fleoxiaobin\u002Fdeep-high-resolution-net.pytorch",null,"welleast@outlook.com","https:\u002F\u002Fjingdongwang2017.github.io\u002F","https:\u002F\u002Fgithub.com\u002FHRNet",[80,84,88,91],{"name":81,"color":82,"percentage":83},"Python","#3572A5",89.3,{"name":85,"color":86,"percentage":87},"Cuda","#3A4E3A",5.2,{"name":89,"color":90,"percentage":87},"C++","#f34b7d",{"name":92,"color":93,"percentage":94},"Shell","#89e051",0.3,3323,699,"2026-04-09T16:37:02","NOASSERTION",4,"未说明","需要 NVIDIA GPU（支持 Sync-BN），具体显存大小和 CUDA 版本未说明",{"notes":103,"python":100,"dependencies":104},"该项目针对不同数据集和复现结果有严格的 PyTorch 版本要求：LIP、COCO-Stuff 和 ADE20K 数据集的 HRNet+OCR 结果需使用 PyTorch 0.4.1；Cityscapes 和 PASCAL-Context 数据集需使用 PyTorch 1.1.0。代码库分为不同分支以适配不同版本（pytorch-v1.1 分支和 master 分支）。若在 PASCAL-Context 上训练或评估，需额外安装 detail-api。模型权重需在 ImageNet 上预训练。",[105,106],"torch==0.4.1 或 torch==1.1.0","detail-api (仅用于 PASCAL-Context 数据集)",[36,15],[109,110,111,112,113,114,115,116,117,118],"segmentation","semantic-segmentation","cityscapes","pascal-context","lip","high-resolution","high-resolution-net","hrnets","transformer","segmentation-transformer","2026-03-27T02:49:30.150509","2026-04-20T16:32:12.212016",[122,127,132,137,142,146],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},35732,"遇到 'RuntimeError: Ninja is required to load C++ extensions' 或编译器 ABI 不兼容警告怎么办？","这通常是由于 PyTorch 版本与 ninja 或编译器版本不匹配导致的。解决方案包括：\n1. 安装与当前 PyTorch 版本匹配的 ninja 版本（例如 PyTorch 0.4.1 对应 ninja 1.8.2）。\n2. 升级 PyTorch 到 1.1 版本，并切换到项目的 `pytorch-v1.1` 分支使用该代码库。\n3. 确保使用的 C++ 编译器（如 gcc\u002Fg++）与构建 PyTorch 时的编译器 ABI 兼容（建议 GCC 4.9 及以上）。","https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Fissues\u002F20",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},35733,"运行训练时出现 'ImportError: No module named inplace_abn' 错误如何解决？","如果您使用的是 PyTorch 1.1 及以上版本，该项目在 `pytorch-v1.1` 分支中已经不再使用 `inplace_abn` 模块，而是使用了 `nn.SyncBatchNorm`。\n解决方法：\n1. 切换到 `pytorch-v1.1` 分支。\n2. 直接删除代码库中的 `lib\u002Fmodels\u002Fsync_bn\u002Finplace_abn` 文件夹，无需其他修改即可正常运行。","https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Fissues\u002F141",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},35734,"遇到 'subprocess.CalledProcessError: Command '['ninja', '-v']' returned non-zero exit status 1' 错误怎么办？","这是一个已知的兼容性或命令执行问题。有效的解决方法是修改 PyTorch 源码或相关构建脚本中的调用命令：\n将执行命令从 `['ninja', '-v']` 替换为 `['ninja', '--version']`。\n此外，请确保您的编译器（g++）与 PyTorch 构建时使用的编译器兼容，否则可能需要从源码重新编译 PyTorch。","https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Fissues\u002F25",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},35735,"训练过程中出现 'CUDA error: device-side assert triggered' 且提示标签超出范围（t >= 0 && t \u003C n_classes failed）是什么原因？","该错误通常表示输入数据中的标签值超出了模型定义的类别数量范围（0 到 n_classes-1）。\n排查步骤：\n1. 检查数据集的标签文件，确认所有标签值都在合法范围内（例如，如果有 19 类，标签应为 0-18）。\n2. 特别注意背景类或忽略类（ignore_index）的设置是否正确。\n3. 即使您认为标签正确，也建议编写脚本遍历所有标签文件，打印出最大值和最小值进行二次确认，排除个别异常文件或像素值。","https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Fissues\u002F50",{"id":143,"question_zh":144,"answer_zh":145,"source_url":131},35736,"PyTorch 1.1 分支中是否还使用同步批归一化（SyncBatchNorm）？与 inplace_abn 有何区别？","是的，在 `pytorch-v1.1` 分支中，项目使用了 PyTorch 原生的 `nn.SyncBatchNorm` 来替代之前的 `inplace_abn` 实现。\n这意味着在该分支下，您不需要安装额外的 `inplace_abn` 库，代码通过 `torch.nn.SyncBatchNorm` 实现多卡训练时的同步归一化。如果您从旧版本迁移，请确保删除旧的 `inplace_abn` 相关导入和文件夹。",{"id":147,"question_zh":148,"answer_zh":149,"source_url":126},35737,"如何确定适合我环境的 PyTorch、Ninja 和 GCC 版本组合？","版本匹配至关重要，以下是社区验证过的可行环境配置参考：\n方案 A (旧版): Ubuntu 16.04 + GCC 6.5.0 + Python 3.5.2 + PyTorch 0.4.1 + Ninja 1.8.2。\n方案 B (新版): 使用 PyTorch 1.1 + 对应的 Ninja 版本（通常 1.9.0+），并切换到代码库的 `pytorch-v1.1` 分支。\n如果遇到编译错误，请优先尝试方案 B，因为新版 PyTorch 对 C++ 扩展的支持更完善，且该代码库的新分支已移除了复杂的第三方依赖（inplace_abn）。",[]]