[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-sithu31296--semantic-segmentation":3,"tool-sithu31296--semantic-segmentation":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":32,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":102,"github_topics":103,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":114,"updated_at":115,"faqs":116,"releases":152},4582,"sithu31296\u002Fsemantic-segmentation","semantic-segmentation","SOTA Semantic Segmentation Models in PyTorch","semantic-segmentation 是一个基于 PyTorch 构建的开源项目，旨在提供易于使用且可高度定制的先进语义分割模型。它主要解决了开发者在复现前沿算法、适配自定义数据集以及部署多格式模型时面临的复杂流程问题，让高精度的图像像素级分类任务变得更加简单高效。\n\n该项目非常适合计算机视觉领域的研究人员、算法工程师及深度学习开发者使用。无论是进行场景解析、人体与面部分析，还是未来拓展至医疗影像处理，用户都能在此找到合适的解决方案。其核心技术亮点在于集成了 20 多种主流数据集和 15 余种先进的骨干网络（如 ConvNeXt、PVTv2、VAN 等），并支持 FPN、SegFormer 等 10 多种顶尖分割架构。此外，semantic-segmentation 不仅提供丰富的预训练模型参考，还具备强大的工程化能力，支持将模型一键导出为 ONNX、TFLite 及 OpenVINO 格式，便于在不同硬件平台上进行推理部署。项目计划于 2024 年 5 月迎来重大更新，将进一步优化训练管线并简化自定义数据的接入流程，是探索传统高精度分割任务的理想工具库。","# \u003Cdiv align=\"center\">Semantic Segmentation\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\u003Cp>Easy to use and customizable SOTA Semantic Segmentation models with abundant datasets in PyTorch\u003C\u002Fp>\n\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fsithu31296\u002Fsemantic-segmentation\u002Fblob\u002Fmain\u002Fnotebooks\u002Ftutorial.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n![banner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsithu31296_semantic-segmentation_readme_3177a833e57e.jpg)\n\n## \u003Cdiv align=\"center\">Major Rework! Stay tuned...\u003C\u002Fdiv>\n\n\u003Cp>A lot has been changed since 2022, nowadays there are even open-world segmentation models (Segment Anything). However, traditional segmentation models are still in demand for high accuracy and custom use cases. This repo will be updated according to new PyTorch version, updated models, and documentations for how to use with a custom dataset, etc.\u003C\u002Fp>\n\u003Cp>Expected release date -> May 2024\u003C\u002Fp>\n\nPlanned features:\n* Rework on whole training pipeline\n* Baseline pre-trained model\n* New updated ideas\n* Easy integration with SOTA backbone models (with tutorials)\n* Tutorial for custom dataset\n* Distributed training\n\nCurrent features to be discarded:\n* Amount of datasets provided will be reduced. But instead, representative ones will be remained with a tutorial for custom dataset.\n* Amount of models provided will be reducted. Instead, valuable tricks and modules will be remained, and can be easily integrated with any models.\n* Augmentations will be replaced with official torchvisionv2 transforms.\n* Conversion and inference with other frameworks\n\n\u003C\u002Fdiv>\n\n## \u003Cdiv align=\"center\">Features\u003C\u002Fdiv>\n\n* Applicable to following tasks:\n  * Scene Parsing\n  * Human Parsing\n  * Face Parsing\n  * Medical Image Segmentation (Coming Soon)\n* 20+ Datasets\n* 15+ SOTA Backbones\n* 10+ SOTA Semantic Segmentation Models\n* PyTorch, ONNX, TFLite, OpenVINO Export & Inference \n\n\u003C\u002Fdiv>\n\n\n## \u003Cdiv align=\"center\">Model Zoo\u003C\u002Fdiv>\n\nSupported Backbones:\n* [ResNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (CVPR 2016)\n* [ResNetD](https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.01187) (ArXiv 2018)\n* [MobileNetV2](https:\u002F\u002Farxiv.org\u002Fabs\u002F1801.04381) (CVPR 2018)\n* [MobileNetV3](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.02244) (ICCV 2019)\n* [MiT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203v2) (NeurIPS 2021)\n* [ResT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13677v3) (NeurIPS 2021)\n* [MicroNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.05894) (ICCV 2021)\n* [ResNet+](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.00476) (ArXiv 2021)\n* [PVTv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.13797) (CVMJ 2022)\n* [PoolFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.11418) (CVPR 2022)\n* [ConvNeXt](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.03545) (CVPR 2022)\n* [UniFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.09450) (ArXiv 2022)\n* [VAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.09741) (ArXiv 2022)\n* [DaViT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03645) (ArXiv 2022)\n\nSupported Heads\u002FMethods:\n* [FCN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1411.4038) (CVPR 2015)\n* [UPerNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1807.10221) (ECCV 2018)\n* [BiSeNetv1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1808.00897) (ECCV 2018)\n* [FPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02446) (CVPR 2019)\n* [SFNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10120) (ECCV 2020)\n* [SegFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203v2) (NeurIPS 2021)\n* [FaPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07058) (ICCV 2021)\n* [CondNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10322) (IEEE SPL 2021)\n* [Light-Ham](https:\u002F\u002Fopenreview.net\u002Fforum?id=1FvkSpWosOl) (ICLR 2021)\n* [Lawin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.01615) (ArXiv 2022)\n* [TopFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05525) (CVPR 2022)\n\nSupported Standalone Models:\n* [BiSeNetv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.02147v1) (IJCV 2021)\n* [DDRNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06085) (ArXiv 2021)\n\nSupported Modules:\n* [PPM](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105) (CVPR 2017)\n* [PSA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00782) (ArXiv 2021)\n\nRefer to [MODELS](.\u002Fdocs\u002FMODELS.md) for benchmarks and available pre-trained models.\n\nAnd check [BACKBONES](.\u002Fdocs\u002FBACKBONES.md) for supported backbones.\n\n> Notes: Most of the methods do not have pre-trained models. It's very difficult to combine different models with pre-trained weights in one repository and limited resource to re-train myself.\n\n## \u003Cdiv align=\"center\">Supported Datasets\u003C\u002Fdiv>\n\nScene Parsing:\n* [ADE20K](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F)\n* [CityScapes](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F)\n* [COCO-Stuff](https:\u002F\u002Fgithub.com\u002Fnightrome\u002Fcocostuff)\n* [CamVid](http:\u002F\u002Fmi.eng.cam.ac.uk\u002Fresearch\u002Fprojects\u002FVideoRec\u002FCamVid\u002F)\n* [PASCAL-Context](https:\u002F\u002Fcs.stanford.edu\u002F~roozbeh\u002Fpascal-context\u002F)\n* [Mapillary Vistas](https:\u002F\u002Fwww.mapillary.com\u002Fdataset\u002Fvistas)\n* [Sun RGB-D](https:\u002F\u002Frgbd.cs.princeton.edu\u002F)\n\nHuman Parsing:\n* [MHPv2](https:\u002F\u002Flv-mhp.github.io\u002F)\n* [MHPv1](https:\u002F\u002Flv-mhp.github.io\u002F)\n* [LIP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002Findex.php)\n* [CCIHP](https:\u002F\u002Fkalisteo.cea.fr\u002Fwp-content\u002Fuploads\u002F2021\u002F09\u002FREADME.html)\n* [CIHP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002Findex.php)\n* [ATR](https:\u002F\u002Fgithub.com\u002Flemondan\u002FHumanParsing-Dataset)\n\nFace Parsing:\n* [HELEN](https:\u002F\u002Fwww.sifeiliu.net\u002Fface-parsing)\n* [LaPa](https:\u002F\u002Fgithub.com\u002FJDAI-CV\u002Flapa-dataset)\n* [iBugMask](https:\u002F\u002Fgithub.com\u002Fhhj1897\u002Fface_parsing)\n* [CelebAMaskHQ](https:\u002F\u002Fgithub.com\u002Fswitchablenorms\u002FCelebAMask-HQ)\n* [FaceSynthetics](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFaceSynthetics)\n\nOthers:\n* [SUIM](http:\u002F\u002Firvlab.cs.umn.edu\u002Fresources\u002Fsuim-dataset)\n\nRefer to [DATASETS](.\u002Fdocs\u002FDATASETS.md) for more details and dataset preparation.\n\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Available Augmentations\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\nCheck the notebook [here](.\u002Fnotebooks\u002Faug_test.ipynb) to test the augmentation effects.\n\nPixel-level Transforms:\n* ColorJitter (Brightness, Contrast, Saturation, Hue)\n* Gamma, Sharpness, AutoContrast, Equalize, Posterize\n* GaussianBlur, Grayscale\n\nSpatial-level Transforms:\n* Affine, RandomRotation\n* HorizontalFlip, VerticalFlip\n* CenterCrop, RandomCrop\n* Pad, ResizePad, Resize\n* RandomResizedCrop\n\n\u003C\u002Fdetails>\n\n## \u003Cdiv align=\"center\">Usage\u003C\u002Fdiv>\n\n\u003Cdetails open>\n  \u003Csummary>\u003Cstrong>Installation\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n* python >= 3.6\n* torch >= 1.8.1\n* torchvision >= 0.9.1\n\nThen, clone the repo and install the project with:\n\n```bash\n$ git clone https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\n$ cd semantic-segmentation\n$ pip install -e .\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Configuration\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\nCreate a configuration file in `configs`. Sample configuration for ADE20K dataset can be found [here](configs\u002Fade20k.yaml). Then edit the fields you think if it is needed. This configuration file is needed for all of training, evaluation and prediction scripts.\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Training\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\nTo train with a single GPU:\n\n```bash\n$ python tools\u002Ftrain.py --cfg configs\u002FCONFIG_FILE.yaml\n```\n\nTo train with multiple gpus, set `DDP` field in config file to `true` and run as follows:\n\n```bash\n$ python -m torch.distributed.launch --nproc_per_node=2 --use_env tools\u002Ftrain.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Evaluation\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\nMake sure to set `MODEL_PATH` of the configuration file to your trained model directory.\n\n```bash\n$ python tools\u002Fval.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\nTo evaluate with multi-scale and flip, change `ENABLE` field in `MSF` to `true` and run the same command as above.\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails open>\n  \u003Csummary>\u003Cstrong>Inference\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nTo make an inference, edit the parameters of the config file from below.\n* Change `MODEL` >> `NAME` and `BACKBONE` to your desired pretrained model.\n* Change `DATASET` >> `NAME` to the dataset name depending on the pretrained model.\n* Set `TEST` >> `MODEL_PATH` to pretrained weights of the testing model.\n* Change `TEST` >> `FILE` to the file or image folder path you want to test.\n* Testing results will be saved in `SAVE_DIR`.\n\n```bash\n## example using ade20k pretrained models\n$ python tools\u002Finfer.py --cfg configs\u002Fade20k.yaml\n```\n\nExample test results (SegFormer-B2):\n\n![test_result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsithu31296_semantic-segmentation_readme_102ca4144123.png)\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Convert to other Frameworks\u003C\u002Fstrong> (ONNX, CoreML, OpenVINO, TFLite)\u003C\u002Fsummary>\n\nTo convert to ONNX and CoreML, run:\n\n```bash\n$ python tools\u002Fexport.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\nTo convert to OpenVINO and TFLite, see [torch_optimize](https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Ftorch_optimize).\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Inference\u003C\u002Fstrong> (ONNX, OpenVINO, TFLite)\u003C\u002Fsummary>\n\n```bash\n## ONNX Inference\n$ python scripts\u002Fonnx_infer.py --model \u003CONNX_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n\n## OpenVINO Inference\n$ python scripts\u002Fopenvino_infer.py --model \u003COpenVINO_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n\n## TFLite Inference\n$ python scripts\u002Ftflite_infer.py --model \u003CTFLite_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>References\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\n* https:\u002F\u002Fgithub.com\u002FCoinCheung\u002FBiSeNet\n* https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\n* https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>Citations\u003C\u002Fstrong> (click to expand)\u003C\u002Fsummary>\n\n```\n@article{xie2021segformer,\n  title={SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers},\n  author={Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M and Luo, Ping},\n  journal={arXiv preprint arXiv:2105.15203},\n  year={2021}\n}\n\n@misc{xiao2018unified,\n  title={Unified Perceptual Parsing for Scene Understanding}, \n  author={Tete Xiao and Yingcheng Liu and Bolei Zhou and Yuning Jiang and Jian Sun},\n  year={2018},\n  eprint={1807.10221},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@article{hong2021deep,\n  title={Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes},\n  author={Hong, Yuanduo and Pan, Huihui and Sun, Weichao and Jia, Yisong},\n  journal={arXiv preprint arXiv:2101.06085},\n  year={2021}\n}\n\n@misc{zhang2021rest,\n  title={ResT: An Efficient Transformer for Visual Recognition}, \n  author={Qinglong Zhang and Yubin Yang},\n  year={2021},\n  eprint={2105.13677},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{huang2021fapn,\n  title={FaPN: Feature-aligned Pyramid Network for Dense Image Prediction}, \n  author={Shihua Huang and Zhichao Lu and Ran Cheng and Cheng He},\n  year={2021},\n  eprint={2108.07058},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{wang2021pvtv2,\n  title={PVTv2: Improved Baselines with Pyramid Vision Transformer}, \n  author={Wenhai Wang and Enze Xie and Xiang Li and Deng-Ping Fan and Kaitao Song and Ding Liang and Tong Lu and Ping Luo and Ling Shao},\n  year={2021},\n  eprint={2106.13797},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@article{Liu2021PSA,\n  title={Polarized Self-Attention: Towards High-quality Pixel-wise Regression},\n  author={Huajun Liu and Fuqiang Liu and Xinyi Fan and Dong Huang},\n  journal={Arxiv Pre-Print arXiv:2107.00782 },\n  year={2021}\n}\n\n@misc{chao2019hardnet,\n  title={HarDNet: A Low Memory Traffic Network}, \n  author={Ping Chao and Chao-Yang Kao and Yu-Shan Ruan and Chien-Hsiang Huang and Youn-Long Lin},\n  year={2019},\n  eprint={1909.00948},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@inproceedings{sfnet,\n  title={Semantic Flow for Fast and Accurate Scene Parsing},\n  author={Li, Xiangtai and You, Ansheng and Zhu, Zhen and Zhao, Houlong and Yang, Maoke and Yang, Kuiyuan and Tong, Yunhai},\n  booktitle={ECCV},\n  year={2020}\n}\n\n@article{Li2020SRNet,\n  title={Towards Efficient Scene Understanding via Squeeze Reasoning},\n  author={Xiangtai Li and Xia Li and Ansheng You and Li Zhang and Guang-Liang Cheng and Kuiyuan Yang and Y. Tong and Zhouchen Lin},\n  journal={ArXiv},\n  year={2020},\n  volume={abs\u002F2011.03308}\n}\n\n@ARTICLE{Yucondnet21,\n  author={Yu, Changqian and Shao, Yuanjie and Gao, Changxin and Sang, Nong},\n  journal={IEEE Signal Processing Letters}, \n  title={CondNet: Conditional Classifier for Scene Segmentation}, \n  year={2021},\n  volume={28},\n  number={},\n  pages={758-762},\n  doi={10.1109\u002FLSP.2021.3070472}\n}\n\n@misc{yan2022lawin,\n  title={Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention}, \n  author={Haotian Yan and Chuang Zhang and Ming Wu},\n  year={2022},\n  eprint={2201.01615},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{yu2021metaformer,\n  title={MetaFormer is Actually What You Need for Vision}, \n  author={Weihao Yu and Mi Luo and Pan Zhou and Chenyang Si and Yichen Zhou and Xinchao Wang and Jiashi Feng and Shuicheng Yan},\n  year={2021},\n  eprint={2111.11418},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{wightman2021resnet,\n  title={ResNet strikes back: An improved training procedure in timm}, \n  author={Ross Wightman and Hugo Touvron and Hervé Jégou},\n  year={2021},\n  eprint={2110.00476},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{liu2022convnet,\n  title={A ConvNet for the 2020s}, \n  author={Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},\n  year={2022},\n  eprint={2201.03545},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{li2022uniformer,\n  title={UniFormer: Unifying Convolution and Self-attention for Visual Recognition}, \n  author={Kunchang Li and Yali Wang and Junhao Zhang and Peng Gao and Guanglu Song and Yu Liu and Hongsheng Li and Yu Qiao},\n  year={2022},\n  eprint={2201.09450},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n```\n\n\u003C\u002Fdetails>","# \u003Cdiv align=\"center\">语义分割\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\u003Cp>易于使用且可定制的 SOTA 语义分割模型，配备丰富的数据集，基于 PyTorch 实现。\u003C\u002Fp>\n\n\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fsithu31296\u002Fsemantic-segmentation\u002Fblob\u002Fmain\u002Fnotebooks\u002Ftutorial.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在 Colab 中打开\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n![banner](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsithu31296_semantic-segmentation_readme_3177a833e57e.jpg)\n\n## \u003Cdiv align=\"center\">重大重构！敬请期待...\u003C\u002Fdiv>\n\n\u003Cp>自 2022 年以来，许多内容都发生了变化，如今甚至出现了开放世界分割模型（Segment Anything）。然而，传统分割模型在高精度和定制化应用场景中仍然需求旺盛。本仓库将根据新的 PyTorch 版本、更新的模型以及如何使用自定义数据集等文档进行持续更新。\u003C\u002Fp>\n\u003Cp>预计发布时间 -> 2024 年 5 月\u003C\u002Fp>\n\n计划新增功能：\n* 重新设计整个训练流程\n* 基线预训练模型\n* 新的更新思路\n* 易于与 SOTA 主干网络集成（附教程）\n* 自定义数据集教程\n* 分布式训练\n\n当前将被移除的功能：\n* 提供的数据集数量将减少。取而代之的是保留具有代表性的数据集，并提供自定义数据集的使用教程。\n* 提供的模型数量也将减少。取而代之的是保留有价值的技巧和模块，这些技巧和模块可以轻松地集成到任何模型中。\n* 数据增强将替换为官方的 torchvisionv2 转换工具。\n* 其他框架之间的转换与推理。\n\n\u003C\u002Fdiv>\n\n## \u003Cdiv align=\"center\">功能特性\u003C\u002Fdiv>\n\n* 适用于以下任务：\n  * 场景解析\n  * 人体解析\n  * 人脸解析\n  * 医学图像分割（即将推出）\n* 20+ 数据集\n* 15+ SOTA 主干网络\n* 10+ SOTA 语义分割模型\n* 支持 PyTorch、ONNX、TFLite、OpenVINO 导出与推理\n\n\u003C\u002Fdiv>\n\n\n## \u003Cdiv align=\"center\">模型库\u003C\u002Fdiv>\n\n支持的主干网络：\n* [ResNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (CVPR 2016)\n* [ResNetD](https:\u002F\u002Farxiv.org\u002Fabs\u002F1812.01187) (ArXiv 2018)\n* [MobileNetV2](https:\u002F\u002Farxiv.org\u002Fabs\u002F1801.04381) (CVPR 2018)\n* [MobileNetV3](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.02244) (ICCV 2019)\n* [MiT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203v2) (NeurIPS 2021)\n* [ResT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.13677v3) (NeurIPS 2021)\n* [MicroNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.05894) (ICCV 2021)\n* [ResNet+](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.00476) (ArXiv 2021)\n* [PVTv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.13797) (CVMJ 2022)\n* [PoolFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2111.11418) (CVPR 2022)\n* [ConvNeXt](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.03545) (CVPR 2022)\n* [UniFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.09450) (ArXiv 2022)\n* [VAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.09741) (ArXiv 2022)\n* [DaViT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.03645) (ArXiv 2022)\n\n支持的头部\u002F方法：\n* [FCN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1411.4038) (CVPR 2015)\n* [UPerNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1807.10221) (ECCV 2018)\n* [BiSeNetv1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1808.00897) (ECCV 2018)\n* [FPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1901.02446) (CVPR 2019)\n* [SFNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10120) (ECCV 2020)\n* [SegFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.15203v2) (NeurIPS 2021)\n* [FaPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.07058) (ICCV 2021)\n* [CondNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10322) (IEEE SPL 2021)\n* [Light-Ham](https:\u002F\u002Fopenreview.net\u002Fforum?id=1FvkSpWosOl) (ICLR 2021)\n* [Lawin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.01615) (ArXiv 2022)\n* [TopFormer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.05525) (CVPR 2022)\n\n支持的独立模型：\n* [BiSeNetv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.02147v1) (IJCV 2021)\n* [DDRNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.06085) (ArXiv 2021)\n\n支持的模块：\n* [PPM](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105) (CVPR 2017)\n* [PSA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00782) (ArXiv 2021)\n\n有关基准测试和可用的预训练模型，请参阅 [MODELS](.\u002Fdocs\u002FMODELS.md)。\n\n有关支持的主干网络，请查看 [BACKBONES](.\u002Fdocs\u002FBACKBONES.md)。\n\n> 注意：大多数方法都没有预训练模型。在一个资源有限的仓库中，将不同模型与预训练权重结合在一起并自行重新训练是非常困难的。\n\n## \u003Cdiv align=\"center\">支持的数据集\u003C\u002Fdiv>\n\n场景解析：\n* [ADE20K](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F)\n* [CityScapes](https:\u002F\u002Fwww.cityscapes-dataset.com\u002F)\n* [COCO-Stuff](https:\u002F\u002Fgithub.com\u002Fnightrome\u002Fcocostuff)\n* [CamVid](http:\u002F\u002Fmi.eng.cam.ac.uk\u002Fresearch\u002Fprojects\u002FVideoRec\u002FCamVid\u002F)\n* [PASCAL-Context](https:\u002F\u002Fcs.stanford.edu\u002F~roozbeh\u002Fpascal-context\u002F)\n* [Mapillary Vistas](https:\u002F\u002Fwww.mapillary.com\u002Fdataset\u002Fvistas)\n* [Sun RGB-D](https:\u002F\u002Frgbd.cs.princeton.edu\u002F)\n\n人体解析：\n* [MHPv2](https:\u002F\u002Flv-mhp.github.io\u002F)\n* [MHPv1](https:\u002F\u002Flv-mhp.github.io\u002F)\n* [LIP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002Findex.php)\n* [CCIHP](https:\u002F\u002Fkalisteo.cea.fr\u002Fwp-content\u002Fuploads\u002F2021\u002F09\u002FREADME.html)\n* [CIHP](http:\u002F\u002Fsysu-hcp.net\u002Flip\u002Findex.php)\n* [ATR](https:\u002F\u002Fgithub.com\u002Flemondan\u002FHumanParsing-Dataset)\n\n人脸解析：\n* [HELEN](https:\u002F\u002Fwww.sifeiliu.net\u002Fface-parsing)\n* [LaPa](https:\u002F\u002Fgithub.com\u002FJDAI-CV\u002Flapa-dataset)\n* [iBugMask](https:\u002F\u002Fgithub.com\u002Fhhj1897\u002Fface_parsing)\n* [CelebAMaskHQ](https:\u002F\u002Fgithub.com\u002Fswitchablenorms\u002FCelebAMask-HQ)\n* [FaceSynthetics](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FFaceSynthetics)\n\n其他：\n* [SUIM](http:\u002F\u002Firvlab.cs.umn.edu\u002Fresources\u002Fsuim-dataset)\n\n有关更多详细信息和数据集准备，请参阅 [DATASETS](.\u002Fdocs\u002FDATASETS.md)。\n\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>可用的数据增强\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n请在此处查看笔记本 [aug_test.ipynb](.\u002Fnotebooks\u002Faug_test.ipynb)，以测试数据增强的效果。\n\n像素级变换：\n* ColorJitter（亮度、对比度、饱和度、色相）\n* Gamma、Sharpness、AutoContrast、Equalize、Posterize\n* GaussianBlur、Grayscale\n\n空间级变换：\n* Affine、RandomRotation\n* HorizontalFlip、VerticalFlip\n* CenterCrop、RandomCrop\n* Pad、ResizePad、Resize\n* RandomResizedCrop\n\n\u003C\u002Fdetails>\n\n## \u003Cdiv align=\"center\">使用方法\u003C\u002Fdiv>\n\n\u003Cdetails open>\n  \u003Csummary>\u003Cstrong>安装\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n* python >= 3.6\n* torch >= 1.8.1\n* torchvision >= 0.9.1\n\n然后，克隆仓库并安装项目：\n\n```bash\n$ git clone https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\n$ cd semantic-segmentation\n$ pip install -e .\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>配置\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n在 `configs` 目录下创建配置文件。ADE20K 数据集的示例配置文件可在 [这里](configs\u002Fade20k.yaml) 找到。然后根据需要编辑相关字段。该配置文件适用于所有训练、评估和预测脚本。\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>训练\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n使用单个 GPU 训练：\n\n```bash\n$ python tools\u002Ftrain.py --cfg configs\u002FCONFIG_FILE.yaml\n```\n\n使用多个 GPU 训练时，将配置文件中的 `DDP` 字段设置为 `true`，然后运行以下命令：\n\n```bash\n$ python -m torch.distributed.launch --nproc_per_node=2 --use_env tools\u002Ftrain.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>评估\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n请确保将配置文件中的 `MODEL_PATH` 设置为你训练好的模型目录。\n\n```bash\n$ python tools\u002Fval.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\n若需进行多尺度和翻转变换评估，将 `MSF` 中的 `ENABLE` 字段设置为 `true`，然后执行上述相同命令。\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails open>\n  \u003Csummary>\u003Cstrong>推理\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n进行推理时，请修改配置文件中的以下参数：\n* 将 `MODEL` >> `NAME` 和 `BACKBONE` 修改为你所需的预训练模型。\n* 将 `DATASET` >> `NAME` 修改为与预训练模型对应的数据集名称。\n* 将 `TEST` >> `MODEL_PATH` 设置为测试模型的预训练权重路径。\n* 将 `TEST` >> `FILE` 修改为你想要测试的文件或图像文件夹路径。\n* 测试结果将保存在 `SAVE_DIR` 目录中。\n\n```bash\n## 使用 ADE20K 预训练模型的示例\n$ python tools\u002Finfer.py --cfg configs\u002Fade20k.yaml\n```\n\n测试结果示例（SegFormer-B2）：\n\n![test_result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsithu31296_semantic-segmentation_readme_102ca4144123.png)\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>转换为其他框架\u003C\u002Fstrong>（ONNX、CoreML、OpenVINO、TFLite）\u003C\u002Fsummary>\n\n要转换为 ONNX 和 CoreML，运行以下命令：\n\n```bash\n$ python tools\u002Fexport.py --cfg configs\u002F\u003CCONFIG_FILE_NAME>.yaml\n```\n\n要转换为 OpenVINO 和 TFLite，请参阅 [torch_optimize](https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Ftorch_optimize)。\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>推理\u003C\u002Fstrong>（ONNX、OpenVINO、TFLite）\u003C\u002Fsummary>\n\n```bash\n## ONNX 推理\n$ python scripts\u002Fonnx_infer.py --model \u003CONNX_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n\n## OpenVINO 推理\n$ python scripts\u002Fopenvino_infer.py --model \u003COpenVINO_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n\n## TFLite 推理\n$ python scripts\u002Ftflite_infer.py --model \u003CTFLite_MODEL_PATH> --img-path \u003CTEST_IMAGE_PATH>\n```\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>参考文献\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n* https:\u002F\u002Fgithub.com\u002FCoinCheung\u002FBiSeNet\n* https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\n* https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models\n\n\u003C\u002Fdetails>\n\n\u003Cbr>\n\u003Cdetails>\n  \u003Csummary>\u003Cstrong>引用\u003C\u002Fstrong>（点击展开）\u003C\u002Fsummary>\n\n```\n@article{xie2021segformer,\n  title={SegFormer: 基于 Transformer 的语义分割的简单高效设计},\n  author={Xie, Enze 和 Wang, Wenhai 和 Yu, Zhiding 和 Anandkumar, Anima 和 Alvarez, Jose M 和 Luo, Ping},\n  journal={arXiv 预印本 arXiv:2105.15203},\n  year={2021}\n}\n\n@misc{xiao2018unified,\n  title={面向场景理解的统一感知解析}, \n  author={Tete Xiao 和 Yingcheng Liu 和 Bolei Zhou 和 Yuning Jiang 和 Jian Sun},\n  year={2018},\n  eprint={1807.10221},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@article{hong2021deep,\n  title={用于实时且精确的道路场景语义分割的深度双分辨率网络},\n  author={Hong, Yuanduo 和 Pan, Huihui 和 Sun, Weichao 和 Jia, Yisong},\n  journal={arXiv 预印本 arXiv:2101.06085},\n  year={2021}\n}\n\n@misc{zhang2021rest,\n  title={ResT：一种高效的视觉识别 Transformer}, \n  author={Qinglong Zhang 和 Yubin Yang},\n  year={2021},\n  eprint={2105.13677},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{huang2021fapn,\n  title={FaPN：用于密集图像预测的特征对齐金字塔网络}, \n  author={Shihua Huang 和 Zhichao Lu 和 Ran Cheng 和 Cheng He},\n  year={2021},\n  eprint={2108.07058},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{wang2021pvtv2,\n  title={PVTv2：基于金字塔视觉 Transformer 的改进基线}, \n  author={Wenhai Wang 和 Enze Xie 和 Xiang Li 和 Deng-Ping Fan 和 Kaitao Song 和 Ding Liang 和 Tong Lu 和 Ping Luo 和 Ling Shao},\n  year={2021},\n  eprint={2106.13797},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@article{Liu2021PSA,\n  title={偏振自注意力：迈向高质量的逐像素回归},\n  author={Huajun Liu 和 Fuqiang Liu 和 Xinyi Fan 和 Dong Huang},\n  journal={Arxiv 预印本 arXiv:2107.00782 },\n  year={2021}\n}\n\n@misc{chao2019hardnet,\n  title={HarDNet：一种低内存占用的轻量级网络}, \n  author={Ping Chao 和 Chao-Yang Kao 和 Yu-Shan Ruan 和 Chien-Hsiang Huang 和 Youn-Long Lin},\n  year={2019},\n  eprint={1909.00948},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@inproceedings{sfnet,\n  title={用于快速准确场景解析的语义流},\n  author={Li, Xiangtai 和 You, Ansheng 和 Zhu, Zhen 和 Zhao, Houlong 和 Yang, Maoke 和 Yang, Kuiyuan 和 Tong, Yunhai},\n  booktitle={ECCV},\n  year={2020}\n}\n\n@article{Li2020SRNet,\n  title={通过挤压推理实现高效场景理解},\n  author={Xiangtai Li 和 Xia Li 和 Ansheng You 和 Li Zhang 和 Guang-Liang Cheng 和 Kuiyuan Yang 和 Y. Tong 和 Zhouchen Lin},\n  journal={ArXiv},\n  year={2020},\n  volume={abs\u002F2011.03308}\n}\n\n@ARTICLE{Yucondnet21,\n  author={Yu, Changqian 和 Shao, Yuanjie 和 Gao, Changxin 和 Sang, Nong},\n  journal={IEEE 信号处理快报}, \n  title={CondNet：用于场景分割的条件分类器}, \n  year={2021},\n  volume={28},\n  number={},\n  pages={758-762},\n  doi={10.1109\u002FLSP.2021.3070472}\n}\n\n@misc{yan2022lawin,\n  title={Lawin Transformer：通过大窗口注意力机制结合多尺度表征提升语义分割 Transformer 性能}, \n  author={Haotian Yan 和 Chuang Zhang 和 Ming Wu},\n  year={2022},\n  eprint={2201.01615},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{yu2021metaformer,\n  title={MetaFormer 才是你真正需要的视觉模型}, \n  author={Weihao Yu 和 Mi Luo 和 Pan Zhou 和 Chenyang Si 和 Yichen Zhou 和 Xinchao Wang 和 Jiashi Feng 和 Shuicheng Yan},\n  year={2021},\n  eprint={2111.11418},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{wightman2021resnet,\n  title={ResNet 卷土重来：timm 中改进的训练方法}, \n  author={Ross Wightman 和 Hugo Touvron 和 Hervé Jégou},\n  year={2021},\n  eprint={2110.00476},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{liu2022convnet,\n  title={面向 2020 年代的卷积神经网络}, \n  author={Zhuang Liu 和 Hanzi Mao 和 Chao-Yuan Wu 和 Christoph Feichtenhofer 和 Trevor Darrell 和 Saining Xie},\n  year={2022},\n  eprint={2201.03545},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n@misc{li2022uniformer,\n  title={UniFormer：统一卷积与自注意力的视觉识别模型}, \n  author={Kunchang Li 和 Yali Wang 和 Junhao Zhang 和 Peng Gao 和 Guanglu Song 和 Yu Liu 和 Hongsheng Li 和 Yu Qiao},\n  year={2022},\n  eprint={2201.09450},\n  archivePrefix={arXiv},\n  primaryClass={cs.CV}\n}\n\n```\n\n\u003C\u002Fdetails>","# Semantic Segmentation 快速上手指南\n\n本指南基于 `semantic-segmentation` 开源项目，帮助开发者快速在 PyTorch 环境中部署和使用先进的语义分割模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下最低要求：\n\n*   **操作系统**: Linux \u002F Windows \u002F macOS\n*   **Python**: >= 3.6\n*   **PyTorch**: >= 1.8.1\n*   **Torchvision**: >= 0.9.1\n*   **GPU**: 推荐使用支持 CUDA 的 NVIDIA 显卡以加速训练和推理（可选，CPU 亦可运行）\n\n> **国内加速建议**：\n> 安装 PyTorch 时，建议使用清华或中科大镜像源以提升下载速度。\n> ```bash\n> pip install torch torchvision -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 2. 安装步骤\n\n克隆项目仓库并以可编辑模式安装依赖：\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\ncd semantic-segmentation\n\n# 安装项目依赖（建议使用国内镜像源）\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 3. 基本使用\n\n本项目通过 YAML 配置文件统一管理数据集、模型架构和训练\u002F推理参数。\n\n### 第一步：准备配置文件\n在 `configs` 目录下创建或修改配置文件。项目已提供示例配置（如 `configs\u002Fade20k.yaml`）。\n您需要根据实际需求编辑以下关键字段：\n*   `MODEL`: 选择骨干网络（Backbone）和分割头（Head）。\n*   `DATASET`: 指定数据集名称及路径。\n*   `TEST.MODEL_PATH`: 指向预训练权重文件或您训练好的模型路径。\n\n### 第二步：执行推理 (Inference)\n这是最简单的使用方式，直接对图片或文件夹进行分割预测。\n\n假设使用 ADE20K 预训练模型，运行以下命令：\n\n```bash\npython tools\u002Finfer.py --cfg configs\u002Fade20k.yaml\n```\n\n**配置说明**：\n在执行上述命令前，请确保 `configs\u002Fade20k.yaml` 中已正确设置：\n1.  `MODEL.NAME` 和 `MODEL.BACKBONE` 为您想要的预训练模型组合。\n2.  `DATASET.NAME` 与预训练模型对应的数据集一致。\n3.  `TEST.MODEL_PATH` 设置为具体的 `.pth` 权重文件路径。\n4.  `TEST.FILE` 设置为待测试的图片路径或包含图片的文件夹路径。\n\n推理结果将自动保存在配置文件中指定的 `SAVE_DIR` 目录下。\n\n### 进阶：训练与评估\n如需使用自定义数据训练或评估模型，可使用以下命令：\n\n*   **单卡训练**:\n    ```bash\n    python tools\u002Ftrain.py --cfg configs\u002FCONFIG_FILE.yaml\n    ```\n*   **多卡分布式训练 (DDP)**:\n    需先在配置文件中将 `DDP` 设为 `true`，然后运行：\n    ```bash\n    python -m torch.distributed.launch --nproc_per_node=2 --use_env tools\u002Ftrain.py --cfg configs\u002FCONFIG_FILE.yaml\n    ```\n*   **模型评估**:\n    ```bash\n    python tools\u002Fval.py --cfg configs\u002FCONFIG_FILE.yaml\n    ```","某自动驾驶初创公司的算法团队正致力于提升车辆对复杂城市道路环境的感知能力，需要快速验证多种前沿分割模型以识别车道线、行人及障碍物。\n\n### 没有 semantic-segmentation 时\n- **模型复现成本高昂**：团队成员需手动从不同论文仓库拼凑代码，花费数周时间调试 ResNet、MobileNet 等骨干网络与 FPN、UPerNet 等分割头的兼容性，极易出错。\n- **数据适配困难**：面对自采的私有路测数据，缺乏统一的预处理和增强流程，每次更换数据集都要重写大量数据加载代码，难以利用官方提供的 20+ 数据集经验。\n- **部署验证周期长**：训练好的 PyTorch 模型无法直接导出为 ONNX 或 TFLite 格式，需额外开发转换脚本才能在嵌入式车机上进行推理测试，严重拖慢迭代节奏。\n- **性能基线缺失**：缺乏预训练的 SOTA 模型作为基准，难以量化新改进策略的实际增益，导致研发方向盲目。\n\n### 使用 semantic-segmentation 后\n- **即插即用架构**：直接调用库中集成的 15+ 种 SOTA 骨干网络和 10+ 种分割头，通过简单配置即可组合出 SegFormer 或 BiSeNetv2 等先进模型，将实验搭建时间从数周缩短至数小时。\n- **自定义数据无缝接入**：利用其提供的自定义数据集教程和标准化 torchvisionv2 增强接口，快速完成私有路测数据的清洗与加载，显著降低数据工程门槛。\n- **多端一键导出**：借助内置的导出功能，将训练好的模型一键转换为 ONNX、TFLite 或 OpenVINO 格式，直接在边缘设备上完成推理验证，实现端到端高效闭环。\n- **权威基线参考**：直接使用库中提供的高质量预训练模型作为起点，快速建立性能基准，让团队能专注于针对特定场景的微调与优化。\n\nsemantic-segmentation 通过提供模块化、标准化的全链路解决方案，让研发团队从繁琐的代码工程中解放出来，专注于核心算法的创新与落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsithu31296_semantic-segmentation_3177a833.jpg","sithu31296","sithu3","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsithu31296_3449ab21.jpg","Computer Vision Researcher",null,"Seoul, Korea","sithu31296@gmail.com","https:\u002F\u002Fsithu31296.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fsithu31296",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",92.1,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",7.9,941,163,"2026-03-27T13:54:42","MIT","未说明","训练多 GPU 支持 (DDP)，具体型号和显存未说明；推理支持 CPU 或 GPU",{"notes":97,"python":98,"dependencies":99},"该项目支持分布式训练 (DDP)；提供将模型导出为 ONNX、CoreML、OpenVINO 和 TFLite 的功能（其中 OpenVINO 和 TFLite 需借助外部库 torch_optimize）；README 提到项目正在进行重大重构，预计 2024 年 5 月发布新版本，当前部分功能（如部分数据集和模型）可能会被精简或替换为 torchvision v2 的变换。",">=3.6",[100,101],"torch>=1.8.1","torchvision>=0.9.1",[15,35,16,14],[64,104,105,106,107,108,109,110,111,112,113],"pytorch","transformer","vision-transformer","cityscapes","ade20k","camvid","coco-stuff","pascal-context","deep-learning","dataset","2026-03-27T02:49:30.150509","2026-04-07T03:52:56.871862",[117,122,127,132,137,142,147],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},20839,"训练时遇到 'RuntimeError: CUDA error: an illegal memory access was encountered' 错误怎么办？","该错误通常由标签（label）数据问题引起，特别是在计算交叉熵损失（CE loss）时。请检查数据集配置中的 `ignore_label` 设置。对于 Cityscapes 等数据集，如果在 `ID2TRAINID` 映射中包含 `-1: -1`，可能会导致标签 ID 无效。尝试在数据集定义文件（如 `semseg\u002Fdatasets\u002Fcityscapes.py`）中移除 `-1: -1` 的映射关系即可解决。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F26",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},20840,"如何为特定数据集（如人脸分割）禁用水平翻转增强？","目前的增强管道（augmentation pipeline）是硬编码在 `semseg\u002Faugmentations.py` 中的，默认启用水平翻转。对于依赖“左\u002F右”概念的数据集（如人脸），翻转会导致标签错位。由于暂无配置文件开关，用户需要直接修改代码：在 `semseg\u002Faugmentations.py` 中注释掉或删除水平翻转相关的代码逻辑，以适配此类数据集。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F38",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},20841,"使用 DDRNet 模型训练时，mIoU 在几个 epoch 后开始下降，是代码问题吗？","这通常不是代码错误，而是与数据集大小和训练策略有关。如果数据集较大（如 16k 图像），模型可能需要更多的训练 epoch 才能收敛。建议增加训练的总 epoch 数，并尝试调整学习率调度或其他训练技巧（tricks），观察其他模型在相同数据集上的表现以作对比。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F32",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},20842,"加载预训练模型时出现 'size mismatch' 错误如何解决？","该错误通常是因为配置文件中的模型变体（VARIANT）与实际加载的预训练权重不匹配。例如，配置文件中指定的通道数与预训练模型不符。解决方法是检查并修改配置文件（.yaml\u002F.yml），确保 `VARIANT` 参数与预训练模型文件（如 `segformer.b3.ade.pth`）所对应的模型架构完全一致。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F17",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},20843,"训练自定义数据集时，Mask 标签图和 PALETTE 的维度格式要求是什么？","训练时，Mask 标签图的形状应为 `[B, H, W]`（批量，高，宽），每个像素值是范围在 `0` 到 `num_classes-1` 之间的类别索引整数（单通道灰度图），这样才能使用基于交叉熵的损失函数。配置文件中的 `PALETTE` 维度为 3 仅用于可视化映射（RGB 颜色），不影响训练数据的输入格式。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F3",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},20844,"如何在 MobileNet 等模型中集成 PSA (Positional Self-Attention) 模块？","虽然官方未直接提供配置，但可以尝试手动修改代码。建议将 PSA 模块添加在 MobileNet 的 `InvertedResidual` 块中的深度卷积（depth-wise conv layer）之后。用户可以参考现有实现自行实验该结构。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F5",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},20845,"项目是否提供针对 Lapa 或 HELEN 等人脸解析数据集的预训练模型？","维护者目前仅在 `docs\u002FMODELS.md` 文档中提供了在 HELEN 数据集上训练的人脸解析模型。没有专门针对 Lapa 数据集的预训练模型。用户可以使用现有的 HELEN 模型作为基础，如果有更好的硬件资源和调优策略，有望在 Lapa 数据集上获得更好的结果。","https:\u002F\u002Fgithub.com\u002Fsithu31296\u002Fsemantic-segmentation\u002Fissues\u002F18",[153,158,163,168],{"id":154,"version":155,"summary_zh":156,"released_at":157},126849,"v0.2.6","添加 CondNet 并修复错误。","2021-09-24T18:33:58",{"id":159,"version":160,"summary_zh":161,"released_at":162},126850,"v0.2.5","- 添加 FPN 和 FaPN 头部\n- 一些修复和改进","2021-09-12T16:03:44",{"id":164,"version":165,"summary_zh":166,"released_at":167},126851,"v0.2.0","新数据集：\n* Sun RGBD\n* Mapillary Vistas\n* SUIM\n\n新主干网络：\n* PVTv2、ResT、CycleMLP\n\n新模块：\n* PSA\n\n新模型：\n* DDRNet\n\n新增教程 Colab 笔记本和数据增强测试笔记本。","2021-08-25T13:09:42",{"id":169,"version":170,"summary_zh":171,"released_at":172},126852,"v0.1.0","数据集：\n\n- ADE20K\n- CityScapes\n- CamVid\n- PASCAL-Context\n- COCO-Stuff\n- MHPv1\u002Fv2\n- LIP\n- CIHP\n- ATR\n\n模型：\n\n- SegFormer","2021-08-06T16:51:33"]