[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-openseg-group--openseg.pytorch":3,"tool-openseg-group--openseg.pytorch":61},[4,18,28,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":24,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":24,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[27,13,15,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[60,15,13,14],"语言模型",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":75,"owner_website":75,"owner_url":77,"languages":78,"stars":103,"forks":104,"last_commit_at":105,"license":106,"difficulty_score":107,"env_os":108,"env_gpu":109,"env_ram":108,"env_deps":110,"category_tags":116,"github_topics":75,"view_count":24,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":117,"updated_at":118,"faqs":119,"releases":148},9887,"openseg-group\u002Fopenseg.pytorch","openseg.pytorch","The official Pytorch implementation of OCNet, OCRNet, and SegFix.","openseg.pytorch 是 OCNet、OCRNet 和 SegFix 等先进语义分割模型的官方 PyTorch 实现库，旨在为计算机视觉领域的场景解析提供高性能解决方案。它核心解决了传统分割方法难以精准捕捉物体间上下文关系以及分割边缘粗糙的问题，通过引入“物体上下文表示”（OCR）机制，让模型能更好地理解像素与所属物体整体的关联，从而显著提升分割精度；同时结合 SegFix 技术，有效优化了物体边界的细节质量。\n\n该工具在 Cityscapes、ADE20K、COCO-Stuff 等多个权威数据集上曾取得领先的性能表现，并持续集成如 HRFormer 等最新架构以保持竞争力。其独特亮点在于不仅提供了经过验证的 SOTA 模型代码，还全面支持混合精度训练、分布式训练等现代化工程特性，方便用户高效复现论文结果或进行二次开发。\n\nopenseg.pytorch 非常适合从事计算机视觉研究的科研人员、需要部署高精度分割算法的开发者，以及对场景理解有深度需求的技术团队使用。对于希望探索语义分割前沿技术或构建相关应用的用户而言，这是一个兼具学术价值与工程实用性的优质开源项目。","# openseg.pytorch\n\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-coco-stuff-test)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-coco-stuff-test?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-pascal-context)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-pascal-context?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-ade20k-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k-val?p=object-contextual-representations-for)\n\n\t\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-lip-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-lip-val?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-cityscapes)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-cityscapes?p=object-contextual-representations-for)\n\n## News\n\n- 2022\u002F08\u002F07 [HDETR](https:\u002F\u002Fgithub.com\u002FHDETR) is a general and effective scheme to improve DETRs for various fundamental vision tasks. [H-Deformable-DETR](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-Deformable-DETR) (**strong results on COCO object detection**)  [H-PETR-3D](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-PETR-3D) (**strong results on nuScenes**)  [H-PETR-Pose](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-PETR-Pose) (**strong results on COCO pose estimation**)\n\n- 2022\u002F03\u002F09 [RankSeg](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002FRankSeg) is a more effective formulation of general segmentation problem and improves various SOTA segmentation methods across multiple benchmarks.\n\n- 2021\u002F09\u002F14 [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation) has supported our ISANet and refer to [ISANet](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fmaster\u002Fconfigs\u002Fisanet) for more details.\n\n\n- 2021\u002F08\u002F13 We have released the implementation for [HRFormer](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRFormer) and the combination of HRFormer and OCR achieves better semantic segmentation performance.\n\n\n- 2021\u002F03\u002F12 The late ACCPET is finally here, our \"OCNet: Object context network for scene parsing\" has been accepted by IJCV-2021, which consists of two of our previous technical reports: [OCNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.00916.pdf) and [ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273.pdf). Congratulations to all the co-authors!\n\n\n- 2021\u002F02\u002F16 Support **pytorch-1.7, mixed-precision, and distributed training**. Based on the [PaddleClas](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleClas) ImageNet pretrained weights, we achieve **83.22%** on Cityscapes val, **59.62%** on PASCAL-Context val (**new SOTA**), **45.20%** on COCO-Stuff val (**new SOTA**), **58.21%** on LIP val and  **47.98%** on ADE20K val. Please checkout [branch pytorch-1.7](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Ftree\u002Fpytorch-1.7) for more details.\n\n\n- 2020\u002F12\u002F07 [PaddleSeg](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSeg) has supported our ISA and HRNet + OCR. [Jittor](https:\u002F\u002Fgithub.com\u002FJittor\u002Fsegmentation-jittor) also has supported our ResNet-101 + OCR.\n\n- 2020\u002F08\u002F16 [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation) has supported our HRNet + OCR.\n\n- 2020\u002F07\u002F20 The researchers from AInnovation have achieved **Rank#1** on [ADE20K Leaderboard](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F) via training our HRNet + OCR with a semi-supervised learning scheme. More details are in their [Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.10591.pdf).\n\n- 2020\u002F07\u002F09\n[OCR (Spotlight)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf) and [SegFix](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.04269.pdf) have been accepted by the ECCV-2020. Notably, the reseachers from Nvidia set a new state-of-the-art performance on Cityscapes leaderboard: [85.4%](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fmethod-details\u002F?submissionID=7836) via combining our HRNet + OCR with a new [hierarchical mult-scale attention scheme](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10821). \n\n- 2020\u002F05\u002F11\nWe have released the checkpoints\u002Flogs of \"HRNet + OCR\" on all the 5 benchmarks including Cityscapes, ADE20K, LIP, PASCAL-Context and COCO-Stuff in the [Model Zoo](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fblob\u002Fmaster\u002FMODEL_ZOO.md). Please feel free to try our method on your own dataset.\n\n\n- 2020\u002F04\u002F18\nWe have released some of our checkpoints\u002Flogs of OCNet, ISA, OCR and SegFix. **We highly recommend you to use our SegFix to improve your segmentation results as it is super easy & fast to use.**\n\n- 2020\u002F03\u002F12\nOur SegFix could be used to improve the performance of various SOTA methods on both semantic segmentation and instance segmentation, e.g., \"PolyTransform + SegFix\" achieves **Rank#2** on Cityscapes leaderboard (instance segmentation track) with performance as 41.2%.\n\n- 2020\u002F01\u002F13\nThe source code for reproduced [HRNet+OCR](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002FHRNet-OCR) has been made public.\n\n- 2020\u002F01\u002F09\n\"HRNet + OCR + SegFix\" achieves **Rank#1** on Cityscapes leaderboard with mIoU as **84.5%**. \n\n- 2019\u002F09\u002F25\nWe have released the paper [OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11065), which is method of our **Rank#2** entry to the leaderboard of Cityscapes.\n\n- 2019\u002F07\u002F31\nWe have released the paper [ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273), which is very easy to use and implement while being much more efficient than OCNet or DANet based on conventional self-attention.\n\n- 2019\u002F07\u002F23\nWe (HRNet + OCR w\u002F ASP) achieve **Rank#1** on the leaderboard of Cityscapes (with a single model) on 3 of 4 metrics.\n\n- 2019\u002F05\u002F27\nWe achieve SOTA on **6** different semantic segmentation benchmarks including: **Cityscapes, ADE20K,  LIP, Pascal-Context, Pascal-VOC, COCO-Stuff**. We provide the source code for our approach on all the six benchmarks.\n\n\n## Model Zoo and Baselines\n\nWe provide a set of baseline results and trained models available for download in the [Model Zoo](MODEL_ZOO.md).\n\n## Introduction\n\nThis is the official code of [OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.04514.pdf), [OCNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1809.00916.pdf), [ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273.pdf) and [SegFix](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.04269.pdf). OCR, OCNet, and ISA focus on better context aggregation mechanisms (in the semantic segmentation task) and ISA focuses on addressing the boundary errors (in both semantic segmentation and instance segmentation tasks). We highlight the overall framework of OCR and SegFix in the figures as shown below:\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenseg-group_openseg.pytorch_readme_3f36fd504d6e.png\" alt=\"OCR\" title=\"Framework of Object Contextual Representation\" width=\"900\" height=\"200\" \u002F>\n  \u003Cfigcaption>Fig.1 - Illustrating the pipeline of OCR. (i) form the soft object regions in the\n  pink dashed box. (ii) estimate the object region representations in the purple dashed box.\n  (iii) compute the object contextual representations and the augmented representations\n  in the orange dashed box.\n\u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenseg-group_openseg.pytorch_readme_761543e2900e.png\" alt=\"SegFix\" title=\"Framework of SegFix\" width=\"900\" height=\"260\" \u002F>\n  \u003Cfigcaption>Fig.2 - Illustrating the SegFix framework: In the training stage, we first send\n  the input image into a backbone to predict a feature map. Then we apply a boundary\n  branch to predict a binary boundary map and a direction branch to predict a direction\n  map and mask it with the binary boundary map. We apply boundary loss and direction\n  loss on the predicted boundary map and direction map separately. In the testing stage,\n  we first convert the direction map to offset map and then refine the segmentation\n  results of any existing methods according to the offset map.\n  \u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\n\n\n## Citation\nPlease consider citing our work if you find it helps you,\n```\n@article{YuanW18,\n  title={Ocnet: Object context network for scene parsing},\n  author={Yuhui Yuan and Jingdong Wang},\n  journal={arXiv preprint arXiv:1809.00916},\n  year={2018}\n}\n\n@article{HuangYGZCW19,\n  title={Interlaced Sparse Self-Attention for Semantic Segmentation},\n  author={Lang Huang and Yuhui Yuan and Jianyuan Guo and Chao Zhang and Xilin Chen and Jingdong Wang},\n  journal={arXiv preprint arXiv:1907.12273},\n  year={2019}\n}\n\n@article{YuanCW20,\n  title={Object-Contextual Representations for Semantic Segmentation},\n  author={Yuhui Yuan and Xilin Chen and Jingdong Wang},\n  journal={arXiv preprint arXiv:1909.11065},\n  year={2020}\n}\n\n@article{YuanXCW20,\n  title={SegFix: Model-Agnostic Boundary Refinement for Segmentation},\n  author={Yuhui Yuan and Jingyi Xie and Xilin Chen and Jingdong Wang},\n  journal={arXiv preprint arXiv:2007.04269},\n  year={2020}\n}\n\n@article{YuanFHZCW21,\n  title={HRT: High-Resolution Transformer for Dense Prediction},\n  author={Yuhui Yuan and Rao Fu and Lang Huang and Weihong Lin and Chao Zhang and Xilin Chen and Jingdong Wang},\n  booktitle={arXiv preprint arXiv:2110.09408},\n  year={2021}\n}\n```\n\n## Acknowledgment\nThis project is developed based on the [segbox.pytorch](https:\u002F\u002Fgithub.com\u002Fdonnyyou\u002Fsegbox.pytorch) and the author of segbox.pytorch donnyyou retains all the copyright of the reproduced Deeplabv3, PSPNet related code. \n","# openseg.pytorch\n\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-coco-stuff-test)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-coco-stuff-test?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-pascal-context)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-pascal-context?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-ade20k-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k-val?p=object-contextual-representations-for)\n\n\t\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-lip-val)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-lip-val?p=object-contextual-representations-for)\n\n[![PWC](https:\u002F\u002Fimg.shields.io\u002Fendpoint.svg?url=https:\u002F\u002Fpaperswithcode.com\u002Fbadge\u002Fobject-contextual-representations-for\u002Fsemantic-segmentation-on-cityscapes)](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-cityscapes?p=object-contextual-representations-for)\n\n## 新闻\n\n- 2022年8月7日 [HDETR](https:\u002F\u002Fgithub.com\u002FHDETR) 是一种通用且高效的方案，可提升 DETR 在多种基础视觉任务中的性能。[H-Deformable-DETR](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-Deformable-DETR)（在 COCO 目标检测上取得强劲效果）[H-PETR-3D](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-PETR-3D)（在 nuScenes 数据集上取得强劲效果）[H-PETR-Pose](https:\u002F\u002Fgithub.com\u002FHDETR\u002FH-PETR-Pose)（在 COCO 姿态估计上取得强劲效果）\n\n- 2022年3月9日 [RankSeg](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002FRankSeg) 是对通用分割问题的一种更有效表述，并在多个基准上提升了多种 SOTA 分割方法的性能。\n\n- 2021年9月14日 [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation) 已支持我们的 ISANet，更多详情请参阅 [ISANet](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation\u002Ftree\u002Fmaster\u002Fconfigs\u002Fisanet)。\n\n- 2021年8月13日 我们发布了 [HRFormer](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRFormer) 的实现，HRFormer 与 OCR 结合使用时，能够获得更好的语义分割性能。\n\n- 2021年3月12日 晚来的 ACCEPT 终于到了，我们的“OCNet：用于场景解析的对象上下文网络”已被 IJCV-2021 接受，该论文由我们此前的两份技术报告组成：[OCNet](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.00916.pdf) 和 [ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273.pdf)。祝贺所有合作作者！\n\n- 2021年2月16日 支持 **PyTorch 1.7、混合精度训练和分布式训练**。基于 [PaddleClas](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleClas) 的 ImageNet 预训练权重，我们在 Cityscapes 验证集上取得了 **83.22%** 的 mIoU，在 PASCAL-Context 验证集上取得了 **59.62%**（新的 SOTA），在 COCO-Stuff 验证集上取得了 **45.20%**（新的 SOTA），在 LIP 验证集上取得了 **58.21%**，在 ADE20K 验证集上取得了 **47.98%**。更多详情请查看 [pytorch-1.7 分支](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Ftree\u002Fpytorch-1.7)。\n\n- 2020年12月7日 [PaddleSeg](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleSeg) 已支持我们的 ISA 和 HRNet + OCR。[Jittor](https:\u002F\u002Fgithub.com\u002FJittor\u002Fsegmentation-jittor) 也已支持我们的 ResNet-101 + OCR。\n\n- 2020年8月16日 [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation) 已支持我们的 HRNet + OCR。\n\n- 2020年7月20日 AInnovation 的研究人员通过采用半监督学习方案训练我们的 HRNet + OCR，在 [ADE20K Leaderboard](http:\u002F\u002Fsceneparsing.csail.mit.edu\u002F) 上取得了 **第一名**。更多细节请参阅他们的 [技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.10591.pdf)。\n\n- 2020年7月9日\n[OCR（Spotlight）](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11065.pdf) 和 [SegFix](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.04269.pdf) 已被 ECCV-2020 接受。值得注意的是，Nvidia 的研究人员通过将我们的 HRNet + OCR 与一种新的 [层次化多尺度注意力机制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.10821) 结合，在 Cityscapes Leaderboard 上创造了新的 SOTA 记录：[85.4%](https:\u002F\u002Fwww.cityscapes-dataset.com\u002Fmethod-details\u002F?submissionID=7836)。\n\n- 2020年5月11日\n我们在 [Model Zoo](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fblob\u002Fmaster\u002FMODEL_ZOO.md) 中发布了“HRNet + OCR”在 Cityscapes、ADE20K、LIP、PASCAL-Context 和 COCO-Stuff 等 5 个基准上的检查点和日志。欢迎在您自己的数据集上尝试我们的方法。\n\n- 2020年4月18日\n我们发布了一些 OCNet、ISA、OCR 和 SegFix 的检查点和日志。**我们强烈建议您使用 SegFix 来改进您的分割结果，因为它非常简单且快速易用。**\n\n- 2020年3月12日\n我们的 SegFix 可用于提升各种 SOTA 方法在语义分割和实例分割方面的性能，例如，“PolyTransform + SegFix”在 Cityscapes Leaderboard（实例分割赛道）上以 41.2% 的成绩获得了 **第二名**。\n\n- 2020年1月13日\n我们公开了复现 [HRNet+OCR](https:\u002F\u002Fgithub.com\u002FHRNet\u002FHRNet-Semantic-Segmentation\u002Ftree\u002FHRNet-OCR) 的源代码。\n\n- 2020年1月9日\n“HRNet + OCR + SegFix”在 Cityscapes Leaderboard 上以 **84.5%** 的 mIoU 获得了 **第一名**。\n\n- 2019年9月25日\n我们发表了论文 [OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.11065)，这是我们参加 Cityscapes Leaderboard 并获得 **第二名** 的方法。\n\n- 2019年7月31日\n我们发表了论文 [ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273)，该方法非常易于使用和实现，同时在效率上远超基于传统自注意力机制的 OCNet 或 DANet。\n\n- 2019年7月23日\n我们（HRNet + OCR w\u002F ASP）在 Cityscapes Leaderboard 上以单模型在 4 项指标中的 3 项上获得了 **第一名**。\n\n- 2019年5月27日\n我们在 **6 个不同的语义分割基准** 上取得了 SOTA 成绩，包括：**Cityscapes、ADE20K、LIP、Pascal-Context、Pascal-VOC、COCO-Stuff**。我们为这 6 个基准提供了相应方法的源代码。\n\n## 模型库与基线\n\n我们在 [Model Zoo](MODEL_ZOO.md) 中提供了一系列基线结果和可供下载的训练模型。\n\n## 简介\n\n这是 [OCR](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.04514.pdf)、[OCNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1809.00916.pdf)、[ISA](https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.12273.pdf) 和 [SegFix](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.04269.pdf) 的官方代码。OCR、OCNet 和 ISA 专注于改进上下文聚合机制（在语义分割任务中），而 ISA 则特别关注解决边界误差问题（在语义分割和实例分割任务中）。我们在下图中展示了 OCR 和 SegFix 的整体框架：\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenseg-group_openseg.pytorch_readme_3f36fd504d6e.png\" alt=\"OCR\" title=\"Object Contextual Representation 框架\" width=\"900\" height=\"200\" \u002F>\n  \u003Cfigcaption>图1 - 展示 OCR 的处理流程。(i) 在粉色虚线框内形成软目标区域。(ii) 在紫色虚线框内估计目标区域的表示。(iii) 在橙色虚线框内计算目标上下文表示及增强表示。\u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\n\u003Cfigure>\n  \u003Ctext-align: center;>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenseg-group_openseg.pytorch_readme_761543e2900e.png\" alt=\"SegFix\" title=\"SegFix 框架\" width=\"900\" height=\"260\" \u002F>\n  \u003Cfigcaption>图2 - 展示 SegFix 框架：在训练阶段，我们首先将输入图像送入主干网络以预测特征图。随后，通过边界分支预测二值边界图，并通过方向分支预测方向图，再用二值边界图对其进行掩码处理。我们分别对预测的边界图和方向图施加边界损失和方向损失。在测试阶段，我们先将方向图转换为偏移图，然后根据该偏移图对现有方法的分割结果进行细化。\u003C\u002Ffigcaption>\n\u003C\u002Ffigure>\n\n\n\n## 引用\n如果您觉得我们的工作对您有所帮助，请考虑引用我们的论文：\n```\n@article{YuanW18,\n  title={Ocnet: 场景解析中的目标上下文网络},\n  author={袁宇辉 and 王井东},\n  journal={arXiv 预印本 arXiv:1809.00916},\n  year={2018}\n}\n\n@article{HuangYGZCW19,\n  title={用于语义分割的交错稀疏自注意力},\n  author={黄朗 and 袁宇辉 and 郭建元 and 张超 and 陈锡林 and 王井东},\n  journal={arXiv 预印本 arXiv:1907.12273},\n  year={2019}\n}\n\n@article{YuanCW20,\n  title={语义分割中的目标上下文表示},\n  author={袁宇辉 and 陈锡林 and 王井东},\n  journal={arXiv 预印本 arXiv:1909.11065},\n  year={2020}\n}\n\n@article{YuanXCW20,\n  title={SegFix：适用于分割任务的模型无关边界精修},\n  author={袁宇辉 and 谢静怡 and 陈锡林 and 王井东},\n  journal={arXiv 预印本 arXiv:2007.04269},\n  year={2020}\n}\n\n@article{YuanFHZCW21,\n  title={HRT：用于密集预测的高分辨率 Transformer},\n  author={袁宇辉 and 傅饶 and 黄朗 and 林伟宏 and 张超 and 陈锡林 and 王井东},\n  booktitle={arXiv 预印本 arXiv:2110.09408},\n  year={2021}\n}\n```\n\n## 致谢\n本项目基于 [segbox.pytorch](https:\u002F\u002Fgithub.com\u002Fdonnyyou\u002Fsegbox.pytorch) 开发，其中复现的 Deeplabv3、PSPNet 相关代码的版权仍归 segbox.pytorch 的作者 donnyyou 所有。","# openseg.pytorch 快速上手指南\n\nopenseg.pytorch 是微软亚洲研究院（MSRA）开源的语义分割工具库，包含了 OCR（Object-Contextual Representations）、OCNet、ISA 以及 SegFix 等经典算法的实现。该库在 Cityscapes、ADE20K 等多个基准测试中曾取得 SOTA 成绩。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+)\n*   **Python**: 3.6+ (推荐 3.7 或 3.8)\n*   **PyTorch**: 1.7+ (官方分支 `pytorch-1.7` 已支持混合精度训练和分布式训练)\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡\n\n### 前置依赖安装\n\n建议使用国内镜像源加速依赖安装。首先创建并激活虚拟环境（可选但推荐）：\n\n```bash\npython -m venv openseg_env\nsource openseg_env\u002Fbin\u002Factivate\n```\n\n安装 PyTorch（请以 [pytorch.org](https:\u002F\u002Fpytorch.org) 最新命令为准，此处以 CUDA 11.0 为例）：\n\n```bash\npip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n```\n\n安装其他核心依赖：\n\n```bash\npip install opencv-python-headless scipy pillow tqdm pyyaml tensorboardX -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 安装步骤\n\n克隆项目代码并安装必要的额外组件。\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch.git\ncd openseg.pytorch\n\n# 切换到支持 PyTorch 1.7+ 的稳定分支（推荐）\ngit checkout pytorch-1.7\n\n# 安装项目依赖 (如有 requirements.txt)\nif [ -f requirements.txt ]; then\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\nfi\n\n# 编译自定义算子 (如果项目包含 cuda 扩展，通常需要执行此步，具体视 setup.py 而定)\n# 注意：openseg.pytorch 主要基于纯 Python 和标准 Torch 操作，若无需特殊编译可跳过\n# python setup.py build_ext --inplace \n```\n\n> **提示**：该项目基于 `segbox.pytorch` 开发，请确保目录结构完整。如需使用预训练模型，请访问 [Model Zoo](https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fblob\u002Fmaster\u002FMODEL_ZOO.md) 下载对应的 checkpoint 文件并放入 `pretrained_models\u002F` 目录。\n\n## 基本使用\n\n以下以在 **Cityscapes** 数据集上评估预训练的 **HRNet + OCR** 模型为例，展示最简单的推理流程。\n\n### 1. 准备数据\n确保数据集已按照 Cityscapes 格式整理，并修改配置文件中的路径。通常需编辑 `config\u002Fcityscapes\u002Fhrnet_w48_ocr_bs48.yaml` (具体文件名视版本而定)，将 `DATA_DIR` 指向你的数据集根目录。\n\n### 2. 单卡推理示例\n\n使用提供的脚本进行单张图片或多张图片的推理。假设你已下载好权重文件 `cityscapes_hrnet_w48_ocr.pth`。\n\n```bash\n# 运行评估脚本\n# --cfg: 配置文件路径\n# --model-file: 预训练权重路径\n# --data-dir: 数据集路径 (可选，若在配置文件中已写死)\n\npython tools\u002Ftest.py \\\n    --cfg config\u002Fcityscapes\u002Fhrnet_w48_ocr_bs48.yaml \\\n    --model-file pretrained_models\u002Fcityscapes_hrnet_w48_ocr.pth \\\n    --data-dir \u002Fpath\u002Fto\u002Fcityscapes\n```\n\n### 3. 使用 SegFix 优化结果\n\nSegFix 是一个与模型无关的边界细化模块，可以显著提升现有分割结果的边缘质量。\n\n```bash\n# 运行 SegFix 细化脚本\n# 需要指定原始预测结果目录和输出目录\n\npython tools\u002Fsegfix.py \\\n    --input-dir \u002Fpath\u002Fto\u002Fraw_predictions \\\n    --output-dir \u002Fpath\u002Fto\u002Frefined_predictions \\\n    --model-file pretrained_models\u002Fsegfix_cityscapes.pth\n```\n\n### 4. 分布式训练示例\n\n若需从头训练或使用多卡微调，可使用 PyTorch 原生分布式启动方式：\n\n```bash\n# 使用 4 张 GPU 进行分布式训练\npython -m torch.distributed.launch --nproc_per_node=4 tools\u002Ftrain.py \\\n    --cfg config\u002Fcityscapes\u002Fhrnet_w48_ocr_bs48.yaml \\\n    --data-dir \u002Fpath\u002Fto\u002Fcityscapes\n```\n\n---\n**注意**：具体配置文件名称和参数可能随版本更新略有变化，请以仓库内 `config\u002F` 目录下的实际文件为准。更多详细用法和超参数调整请参考官方文档及对应论文。","某自动驾驶团队正在构建城市道路感知系统，需要让车辆精准识别车道线、行人及各类交通设施以保障行驶安全。\n\n### 没有 openseg.pytorch 时\n- **边缘识别模糊**：传统分割模型难以区分紧密相邻的物体（如行人与自行车），导致边界预测粗糙，易引发误判。\n- **小目标丢失严重**：远处的交通标志或路面碎片因缺乏有效的上下文关联，常被模型忽略或错误分类。\n- **调优成本高昂**：为了提升精度，工程师需手动设计复杂的后处理算法来修补断裂的分割掩码，开发周期漫长。\n- **场景泛化力弱**：模型在训练集表现尚可，但一旦遇到光照变化或复杂街景（如 Cityscapes 数据集场景），性能急剧下降。\n\n### 使用 openseg.pytorch 后\n- **边界精细度跃升**：借助 OCRNet 的对象上下文表示机制，模型能精准捕捉物体边缘，清晰分离紧邻的行人与车辆。\n- **上下文理解增强**：利用全局语境信息，即使是被部分遮挡的小尺寸路标也能被准确识别，大幅降低漏检率。\n- **自动修复瑕疵**：集成 SegFix 模块可自动优化分割结果的像素级细节，无需额外编写繁琐的后处理代码即可输出平滑掩码。\n- **标杆级性能落地**：直接复用已在 Cityscapes 和 ADE20K 等权威榜单验证过的 SOTA 预训练权重，快速实现高精度的场景解析。\n\nopenseg.pytorch 通过引入先进的对象上下文建模与自动修复技术，将复杂的场景解析任务从“勉强可用”提升至“工业级可靠”，显著缩短了高精度视觉系统的落地周期。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenseg-group_openseg.pytorch_b03bd040.png","openseg-group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopenseg-group_4d96be4d.png","",null,"researcher.yuanyuhui@gmail.com","https:\u002F\u002Fgithub.com\u002Fopenseg-group",[79,83,87,91,95,99],{"name":80,"color":81,"percentage":82},"Python","#3572A5",65.1,{"name":84,"color":85,"percentage":86},"Shell","#89e051",22.2,{"name":88,"color":89,"percentage":90},"Cuda","#3A4E3A",6.8,{"name":92,"color":93,"percentage":94},"C","#555555",3.7,{"name":96,"color":97,"percentage":98},"C++","#f34b7d",2.1,{"name":100,"color":101,"percentage":102},"Cython","#fedf5b",0.1,1229,141,"2026-04-19T14:54:42","MIT",4,"未说明","需要 NVIDIA GPU（基于 PyTorch 和混合精度训练特性推断），具体型号和显存大小未说明，CUDA 版本未说明",{"notes":111,"python":112,"dependencies":113},"该项目基于 segbox.pytorch 开发。2021\u002F02\u002F16 的更新明确支持 PyTorch 1.7、混合精度训练（mixed-precision）和分布式训练。提供了在 Cityscapes、ADE20K 等多个基准测试上的预训练模型。建议使用分支 'pytorch-1.7' 获取最新功能支持。","未说明（提及支持 PyTorch 1.7）",[114,115],"pytorch>=1.7","segbox.pytorch (基础框架)",[15],"2026-03-27T02:49:30.150509","2026-04-20T10:25:16.012392",[120,125,130,135,140,144],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},44410,"SegFix 是否只能用于 Cityscapes 数据集？如何在自定义数据集上使用？","SegFix 不仅限于 Cityscapes。虽然默认提供的偏移文件（*.mat offset files）是针对 Cityscapes 的，但项目已发布了数据加载器，支持在多个数据集上同时训练统一的 SegFix 模型。如果您想在其他数据集上调优 SegFix 模型，学习率（LR）和裁剪尺寸（crop size）是关键因素。建议学习率尝试 0.01 到 0.04 之间的值。对于裁剪尺寸，观察到使用比分割模型更小的裁剪尺寸是有益的。","https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fissues\u002F21",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},44411,"在评估 SegFix 模型时，应该参考 IoU 还是像素准确率（Pixel Accuracy）？","IoU 用于衡量区域预测的质量，而方向预测（directions）没有“区域”的概念，特别是在复杂边缘处方向类别可能非常碎片化，导致 IoU 值退化严重，不能作为评估方向预测质量的有效参考。相比之下，像素准确率对方向质量的微小提升更敏感。但需注意，这些指标仅作为选择更好 SegFix 模型的参考，最终应通过 SegFix 模型能给分割基线带来多少提升来评估其质量。","https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fissues\u002F30",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},44412,"运行验证脚本时出现 'Found no prediction for ground truth' 错误，如何解决？","该错误通常是因为评估命令（如 `bash .\u002Fscripts\u002Fcityscapes\u002Fhrnet\u002Frun_h_48_d_4_ocr.sh val 1`）需要预先存在 HRNet+OCR 模型的预测结果文件。您需要先下载 MODEL_ZOO.md 中提供的预训练检查点，并自行生成预测文件，或者确保代码逻辑正确指向了预测输出目录。维护者曾针对此类路径或初始化问题修复过相关代码，建议检出最新 commit 以获取更新。","https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fissues\u002F10",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},44413,"如何在自定义数据集（如 256x256 图像）上修改配置文件中的 input_size 和 crop_size？","您需要在配置 JSON 文件的 `train`、`val` 和 `test` 部分修改 `data_transformer` 下的 `input_size` 以匹配您的图像尺寸（例如 [256, 256]）。同时，在 `train_trans` 部分的 `random_crop` 配置中，将 `crop_size` 设置为相同尺寸。如果图像尺寸不固定，也可以调整 `size_mode` 或使用 `random_resize` 进行增强。运行命令时，记得添加 `--data_dir ${DATA_DIR}` 参数指定数据路径。","https:\u002F\u002Fgithub.com\u002Fopenseg-group\u002Fopenseg.pytorch\u002Fissues\u002F43",{"id":141,"question_zh":142,"answer_zh":143,"source_url":124},44414,"为了降低计算成本，是否有轻量级的 backbone 推荐？","如果需要降低计算成本，可以尝试使用 `HRNet-W18-small` 版本。此外，虽然理论上可以扩展 HRNet-W18 以支持更高分辨率输出（类似 HigherHRNet），但在未验证之前，建议先验证原始 HRNet-W18 的性能。对于移动端应用且受限于内存和计算复杂度的场景，优先验证小模型效果是更稳妥的方案。",{"id":145,"question_zh":146,"answer_zh":147,"source_url":129},44415,"为什么在训练 SegFix 时采用比分割模型更小的裁剪尺寸（crop size）是有益的？","虽然具体原理涉及模型对局部细节的学习能力，但经验表明，较小的裁剪尺寸有助于模型更专注于边缘和细节的修正，这对于 SegFix 这种旨在优化分割边界的任务尤为重要。维护者建议在调参时重点关注学习率（0.01-0.04）和裁剪尺寸的调整，这往往比单纯追求大尺寸输入更能提升模型在自定义数据集上的表现。",[149,154],{"id":150,"version":151,"summary_zh":152,"released_at":153},351949,"v1.01","我们公开发布我们的“PolyTransform+SegFix”模型，以服务广大社区。","2022-07-26T02:33:08",{"id":155,"version":156,"summary_zh":157,"released_at":158},351950,"v1.0","\r\n","2021-08-12T12:22:44"]