openseg.pytorch

1.2k 141 较难 1 次阅读今天MIT图像

AI 解读由 AI 自动生成，仅供参考

openseg.pytorch 是 OCNet、OCRNet 和 SegFix 等先进语义分割模型的官方 PyTorch 实现库，旨在为计算机视觉领域的场景解析提供高性能解决方案。它核心解决了传统分割方法难以精准捕捉物体间上下文关系以及分割边缘粗糙的问题，通过引入“物体上下文表示”（OCR）机制，让模型能更好地理解像素与所属物体整体的关联，从而显著提升分割精度；同时结合 SegFix 技术，有效优化了物体边界的细节质量。

该工具在 Cityscapes、ADE20K、COCO-Stuff 等多个权威数据集上曾取得领先的性能表现，并持续集成如 HRFormer 等最新架构以保持竞争力。其独特亮点在于不仅提供了经过验证的 SOTA 模型代码，还全面支持混合精度训练、分布式训练等现代化工程特性，方便用户高效复现论文结果或进行二次开发。

openseg.pytorch 非常适合从事计算机视觉研究的科研人员、需要部署高精度分割算法的开发者，以及对场景理解有深度需求的技术团队使用。对于希望探索语义分割前沿技术或构建相关应用的用户而言，这是一个兼具学术价值与工程实用性的优质开源项目。

使用场景

某自动驾驶团队正在构建城市道路感知系统，需要让车辆精准识别车道线、行人及各类交通设施以保障行驶安全。

没有 openseg.pytorch 时

边缘识别模糊：传统分割模型难以区分紧密相邻的物体（如行人与自行车），导致边界预测粗糙，易引发误判。
小目标丢失严重：远处的交通标志或路面碎片因缺乏有效的上下文关联，常被模型忽略或错误分类。
调优成本高昂：为了提升精度，工程师需手动设计复杂的后处理算法来修补断裂的分割掩码，开发周期漫长。
场景泛化力弱：模型在训练集表现尚可，但一旦遇到光照变化或复杂街景（如 Cityscapes 数据集场景），性能急剧下降。

使用 openseg.pytorch 后

边界精细度跃升：借助 OCRNet 的对象上下文表示机制，模型能精准捕捉物体边缘，清晰分离紧邻的行人与车辆。
上下文理解增强：利用全局语境信息，即使是被部分遮挡的小尺寸路标也能被准确识别，大幅降低漏检率。
自动修复瑕疵：集成 SegFix 模块可自动优化分割结果的像素级细节，无需额外编写繁琐的后处理代码即可输出平滑掩码。
标杆级性能落地：直接复用已在 Cityscapes 和 ADE20K 等权威榜单验证过的 SOTA 预训练权重，快速实现高精度的场景解析。

openseg.pytorch 通过引入先进的对象上下文建模与自动修复技术，将复杂的场景解析任务从“勉强可用”提升至“工业级可靠”，显著缩短了高精度视觉系统的落地周期。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU（基于 PyTorch 和混合精度训练特性推断），具体型号和显存大小未说明，CUDA 版本未说明

内存

未说明

依赖

notes该项目基于 segbox.pytorch 开发。2021/02/16 的更新明确支持 PyTorch 1.7、混合精度训练（mixed-precision）和分布式训练。提供了在 Cityscapes、ADE20K 等多个基准测试上的预训练模型。建议使用分支 'pytorch-1.7' 获取最新功能支持。

python未说明（提及支持 PyTorch 1.7）

pytorch>=1.7

segbox.pytorch (基础框架)

快速开始

openseg.pytorch

新闻

2022年8月7日 HDETR 是一种通用且高效的方案，可提升 DETR 在多种基础视觉任务中的性能。H-Deformable-DETR（在 COCO 目标检测上取得强劲效果）H-PETR-3D（在 nuScenes 数据集上取得强劲效果）H-PETR-Pose（在 COCO 姿态估计上取得强劲效果）
2022年3月9日 RankSeg 是对通用分割问题的一种更有效表述，并在多个基准上提升了多种 SOTA 分割方法的性能。
2021年9月14日 MMSegmentation 已支持我们的 ISANet，更多详情请参阅 ISANet。
2021年8月13日我们发布了 HRFormer 的实现，HRFormer 与 OCR 结合使用时，能够获得更好的语义分割性能。
2021年3月12日晚来的 ACCEPT 终于到了，我们的“OCNet：用于场景解析的对象上下文网络”已被 IJCV-2021 接受，该论文由我们此前的两份技术报告组成：OCNet 和 ISA。祝贺所有合作作者！
2021年2月16日支持 PyTorch 1.7、混合精度训练和分布式训练。基于 PaddleClas 的 ImageNet 预训练权重，我们在 Cityscapes 验证集上取得了 83.22% 的 mIoU，在 PASCAL-Context 验证集上取得了 59.62%（新的 SOTA），在 COCO-Stuff 验证集上取得了 45.20%（新的 SOTA），在 LIP 验证集上取得了 58.21%，在 ADE20K 验证集上取得了 47.98%。更多详情请查看 pytorch-1.7 分支。
2020年12月7日 PaddleSeg 已支持我们的 ISA 和 HRNet + OCR。Jittor 也已支持我们的 ResNet-101 + OCR。
2020年8月16日 MMSegmentation 已支持我们的 HRNet + OCR。
2020年7月20日 AInnovation 的研究人员通过采用半监督学习方案训练我们的 HRNet + OCR，在 ADE20K Leaderboard 上取得了 第一名。更多细节请参阅他们的技术报告。
2020年7月9日 OCR（Spotlight）和 SegFix 已被 ECCV-2020 接受。值得注意的是，Nvidia 的研究人员通过将我们的 HRNet + OCR 与一种新的层次化多尺度注意力机制结合，在 Cityscapes Leaderboard 上创造了新的 SOTA 记录：85.4%。
2020年5月11日我们在 Model Zoo 中发布了“HRNet + OCR”在 Cityscapes、ADE20K、LIP、PASCAL-Context 和 COCO-Stuff 等 5 个基准上的检查点和日志。欢迎在您自己的数据集上尝试我们的方法。
2020年4月18日我们发布了一些 OCNet、ISA、OCR 和 SegFix 的检查点和日志。我们强烈建议您使用 SegFix 来改进您的分割结果，因为它非常简单且快速易用。
2020年3月12日我们的 SegFix 可用于提升各种 SOTA 方法在语义分割和实例分割方面的性能，例如，“PolyTransform + SegFix”在 Cityscapes Leaderboard（实例分割赛道）上以 41.2% 的成绩获得了 第二名。
2020年1月13日我们公开了复现 HRNet+OCR 的源代码。
2020年1月9日 “HRNet + OCR + SegFix”在 Cityscapes Leaderboard 上以 84.5% 的 mIoU 获得了 第一名。
2019年9月25日我们发表了论文 OCR，这是我们参加 Cityscapes Leaderboard 并获得 第二名 的方法。
2019年7月31日我们发表了论文 ISA，该方法非常易于使用和实现，同时在效率上远超基于传统自注意力机制的 OCNet 或 DANet。
2019年7月23日我们（HRNet + OCR w/ ASP）在 Cityscapes Leaderboard 上以单模型在 4 项指标中的 3 项上获得了 第一名。
2019年5月27日我们在 6 个不同的语义分割基准 上取得了 SOTA 成绩，包括：Cityscapes、ADE20K、LIP、Pascal-Context、Pascal-VOC、COCO-Stuff。我们为这 6 个基准提供了相应方法的源代码。

模型库与基线

我们在 Model Zoo 中提供了一系列基线结果和可供下载的训练模型。

简介

这是 OCR、OCNet、ISA 和 SegFix 的官方代码。OCR、OCNet 和 ISA 专注于改进上下文聚合机制（在语义分割任务中），而 ISA 则特别关注解决边界误差问题（在语义分割和实例分割任务中）。我们在下图中展示了 OCR 和 SegFix 的整体框架：

图1 - 展示 OCR 的处理流程。(i) 在粉色虚线框内形成软目标区域。(ii) 在紫色虚线框内估计目标区域的表示。(iii) 在橙色虚线框内计算目标上下文表示及增强表示。

引用

如果您觉得我们的工作对您有所帮助，请考虑引用我们的论文：

@article{YuanW18,
  title={Ocnet: 场景解析中的目标上下文网络},
  author={袁宇辉 and 王井东},
  journal={arXiv 预印本 arXiv:1809.00916},
  year={2018}
}

@article{HuangYGZCW19,
  title={用于语义分割的交错稀疏自注意力},
  author={黄朗 and 袁宇辉 and 郭建元 and 张超 and 陈锡林 and 王井东},
  journal={arXiv 预印本 arXiv:1907.12273},
  year={2019}
}

@article{YuanCW20,
  title={语义分割中的目标上下文表示},
  author={袁宇辉 and 陈锡林 and 王井东},
  journal={arXiv 预印本 arXiv:1909.11065},
  year={2020}
}

@article{YuanXCW20,
  title={SegFix：适用于分割任务的模型无关边界精修},
  author={袁宇辉 and 谢静怡 and 陈锡林 and 王井东},
  journal={arXiv 预印本 arXiv:2007.04269},
  year={2020}
}

@article{YuanFHZCW21,
  title={HRT：用于密集预测的高分辨率 Transformer},
  author={袁宇辉 and 傅饶 and 黄朗 and 林伟宏 and 张超 and 陈锡林 and 王井东},
  booktitle={arXiv 预印本 arXiv:2110.09408},
  year={2021}
}

致谢

本项目基于 segbox.pytorch 开发，其中复现的 Deeplabv3、PSPNet 相关代码的版权仍归 segbox.pytorch 的作者 donnyyou 所有。

openseg.pytorch 快速上手指南

openseg.pytorch 是微软亚洲研究院（MSRA）开源的语义分割工具库，包含了 OCR（Object-Contextual Representations）、OCNet、ISA 以及 SegFix 等经典算法的实现。该库在 Cityscapes、ADE20K 等多个基准测试中曾取得 SOTA 成绩。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 18.04+)
Python: 3.6+ (推荐 3.7 或 3.8)
PyTorch: 1.7+ (官方分支 pytorch-1.7 已支持混合精度训练和分布式训练)
GPU: 支持 CUDA 的 NVIDIA 显卡

前置依赖安装

建议使用国内镜像源加速依赖安装。首先创建并激活虚拟环境（可选但推荐）：

python -m venv openseg_env
source openseg_env/bin/activate

安装 PyTorch（请以 pytorch.org 最新命令为准，此处以 CUDA 11.0 为例）：

pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 -f https://download.pytorch.org/whl/torch_stable.html

安装其他核心依赖：

pip install opencv-python-headless scipy pillow tqdm pyyaml tensorboardX -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆项目代码并安装必要的额外组件。

# 克隆仓库
git clone https://github.com/openseg-group/openseg.pytorch.git
cd openseg.pytorch

# 切换到支持 PyTorch 1.7+ 的稳定分支（推荐）
git checkout pytorch-1.7

# 安装项目依赖 (如有 requirements.txt)
if [ -f requirements.txt ]; then
    pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
fi

# 编译自定义算子 (如果项目包含 cuda 扩展，通常需要执行此步，具体视 setup.py 而定)
# 注意：openseg.pytorch 主要基于纯 Python 和标准 Torch 操作，若无需特殊编译可跳过
# python setup.py build_ext --inplace

提示：该项目基于 segbox.pytorch 开发，请确保目录结构完整。如需使用预训练模型，请访问 Model Zoo 下载对应的 checkpoint 文件并放入 pretrained_models/ 目录。

基本使用

以下以在 Cityscapes 数据集上评估预训练的 HRNet + OCR 模型为例，展示最简单的推理流程。

1. 准备数据

确保数据集已按照 Cityscapes 格式整理，并修改配置文件中的路径。通常需编辑 config/cityscapes/hrnet_w48_ocr_bs48.yaml (具体文件名视版本而定)，将 DATA_DIR 指向你的数据集根目录。

2. 单卡推理示例

使用提供的脚本进行单张图片或多张图片的推理。假设你已下载好权重文件 cityscapes_hrnet_w48_ocr.pth。

# 运行评估脚本
# --cfg: 配置文件路径
# --model-file: 预训练权重路径
# --data-dir: 数据集路径 (可选，若在配置文件中已写死)

python tools/test.py \
    --cfg config/cityscapes/hrnet_w48_ocr_bs48.yaml \
    --model-file pretrained_models/cityscapes_hrnet_w48_ocr.pth \
    --data-dir /path/to/cityscapes

3. 使用 SegFix 优化结果

SegFix 是一个与模型无关的边界细化模块，可以显著提升现有分割结果的边缘质量。

# 运行 SegFix 细化脚本
# 需要指定原始预测结果目录和输出目录

python tools/segfix.py \
    --input-dir /path/to/raw_predictions \
    --output-dir /path/to/refined_predictions \
    --model-file pretrained_models/segfix_cityscapes.pth

4. 分布式训练示例

若需从头训练或使用多卡微调，可使用 PyTorch 原生分布式启动方式：

# 使用 4 张 GPU 进行分布式训练
python -m torch.distributed.launch --nproc_per_node=4 tools/train.py \
    --cfg config/cityscapes/hrnet_w48_ocr_bs48.yaml \
    --data-dir /path/to/cityscapes

注意：具体配置文件名称和参数可能随版本更新略有变化，请以仓库内 config/ 目录下的实际文件为准。更多详细用法和超参数调整请参考官方文档及对应论文。

版本历史

v1.012022/07/26

v1.02021/08/12

常见问题

SegFix 是否只能用于 Cityscapes 数据集？如何在自定义数据集上使用？

在评估 SegFix 模型时，应该参考 IoU 还是像素准确率（Pixel Accuracy）？

运行验证脚本时出现 'Found no prediction for ground truth' 错误，如何解决？

如何在自定义数据集（如 256x256 图像）上修改配置文件中的 input_size 和 crop_size？

为了降低计算成本，是否有轻量级的 backbone 推荐？

为什么在训练 SegFix 时采用比分割模型更小的裁剪尺寸（crop size）是有益的？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent