SemanticSegmentation_DL

1.1k 314 困难 1 次阅读 3周前图像其他

AI 解读由 AI 自动生成，仅供参考

SemanticSegmentation_DL 是一个专注于深度学习语义分割技术的开源资源库，旨在为相关领域的探索者提供一站式的论文、代码实现与数据集索引。它主要解决了研究人员和开发者在入门或深入语义分割任务时，面临资料分散、主流数据集难以查找以及前沿算法复现困难等痛点。

该资源库特别适合计算机视觉领域的研究人员、算法工程师以及高校学生使用。无论是需要寻找训练数据，还是希望追踪最新的学术进展，都能在此获得高效支持。其核心亮点在于构建了极其全面的数据集清单，涵盖了从通用的 PASCAL VOC、Cityscapes、ADE20K，到医疗影像（如肝脏肿瘤分割）、自动驾驶场景乃至游戏合成数据等多种垂直领域，极大地丰富了实验素材的选择。此外，它还系统整理了包括 CVPR 等顶会在内的最新学术论文链接及对应代码，并收录了权威的综述文章与在线演示项目，帮助用户快速理解从传统方法到基于深度学习的最新技术演进路径，是开展语义分割研究与工程落地的实用指南。

使用场景

某自动驾驶初创公司的算法团队正在开发城市道路感知系统，急需让车辆精准识别车道线、行人及各类障碍物以保障行驶安全。

没有 SemanticSegmentation_DL 时

数据选型盲目低效：面对海量的公开数据集（如 Cityscapes、KITTI、Mapillary），团队缺乏权威指引，耗费数周手动筛选，仍难以确定最适合城市场景的训练数据。
复现前沿模型困难：缺乏统一的代码资源库，工程师需从零复现 CLAN、BRS 等最新论文算法，常因细节缺失导致模型无法收敛或精度不达标。
技术路线调研滞后：缺少系统的综述论文和在线演示（如 SegNet Demo）参考，团队难以快速评估不同深度学习方案的优劣，导致技术决策依赖过时经验。

使用 SemanticSegmentation_DL 后

精准匹配数据资源：直接利用整理好的数据集清单，迅速锁定 Cityscapes 和 Mapillary Vistas 等高质量城市驾驶数据，将数据准备周期从数周缩短至两天。
快速落地先进算法：通过集成的 GitHub 代码链接，直接调用经社区验证的 2019 CVPR 前沿模型（如交互式分割 BRS），大幅降低研发门槛并提升模型精度。
科学制定技术方案：借助收录的深度综述和在线 Demo，团队快速掌握了从医学图像到自动驾驶的全领域技术现状，确立了基于深度学习的最佳技术路线。

SemanticSegmentation_DL 通过一站式聚合数据、代码与理论资源，将自动驾驶感知模块的研发效率提升了数倍，让团队能专注于核心业务创新而非基础资料搜集。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该 README 文件主要是一个语义分割领域的论文、数据集和资源列表汇总，并非某个具体可执行工具的说明书。文中列出了多个不同项目（如 DFANet, LEDNet, DeepLab 等）的链接，每个项目可能有独立的环境要求，但本文档本身未提供统一的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户需根据列表中具体想运行的模型代码仓库去查阅其独立的文档。

python未说明

快速开始

语义分割

语义分割领域的所有论文和资源列表。

数据集的重要性

数据集的重要性图

SemanticSegmentation_DL

一些深度学习模型的语义分割实现

数据集

资源

综述论文

Qure AI 发布的 2017 年深度学习语义分割指南 [关于不同语义分割方法的博客]
关于应用于语义分割的深度学习技术的综述 [专注于数据集和最高效方法的综述论文]
自动驾驶车辆的计算机视觉：问题、数据集及最新进展 [涵盖自动驾驶各个方面，包括语义分割的综述论文] [包含所有相关出版物摘要的网页]
医学图像分析中的深度学习综述 [论文]

在线演示

二维语义分割

论文：

[2019-CVPR 口头报告] CLAN：用于语义一致性的类别级对抗网络 [论文] [代码]
[2019-CVPR] BRS：通过反向传播精炼方案进行交互式图像分割(***) [论文] [代码]
[2019-CVPR] DFANet：用于实时语义分割的深度特征聚合（用于相机） [论文] [代码]
[2019-CVPR] DeepCO3：通过共同峰值搜索和共同显著性进行深度实例协同分割 [论文] [代码]
[2019-CVPR] 领域适应（减少领域偏移） [论文]
[2019-CVPR] ELKPPNet：一种边缘感知神经网络，采用大核金字塔池化来学习语义分割中的判别特征 [论文] [代码]
[2019-CVPR 口头报告] GLNet：用于超高清图像内存高效分割的协作式全局-局部网络[论文] [代码]
[2019-CVPR] 实例分割：通过联合优化空间嵌入和聚类带宽实现（***SOTA） [论文] [代码]
[2019-ECCV] ICNet：在高分辨率图像上进行实时语义分割 [论文] [代码]
[2019-CVPR] LEDNet：一种轻量级编码器-解码器网络，用于实时语义分割（***SOTA） [论文] [代码]
[2019-arXiv] LightNet++：用于实时语义分割的增强型轻量级网络 [论文] [代码]
[2019-CVPR] PTSNet：用于视频对象分割的级联网络 [论文] [代码]
[2019-CVPR] PPGNet：学习点对图以检测线段 [论文] [代码]
[2019-CVPR] 展示、匹配与分割：语义匹配与对象协同分割的联合学习 [论文] [代码]
[2019-CVPR] 视频实例分割 [paper] [code]

Arxiv-2018 ExFuse：增强语义分割中的特征融合，mIoU提升至87.9%（voc2012）[Paper]
CVPR-2018 spotlight 学习适应结构化输出空间以进行语义分割 [Paper] [Code]
Arfix-2018 半监督语义分割的对抗学习 [Paper] [Code]
Arxiv-2018 语义分割中的上下文编码 [Paper] [Code]
CVPR-2018 学习适应结构化输出空间以进行语义分割 [Paper] [Code]
CVPR-2018 动态结构化语义传播网络 [Paper]
Deeplab v4：带空洞可分离卷积的编码器-解码器用于图像语义分割 [Paper] [Code]
深度值网络学习评估并迭代优化结构化输出 [Paper] [Code]
ICCV-2017 语义线条检测及其应用 [Paper]
ICCV-2017 基于字幕的注意力语义视频生成 [Paper]
ICCV-2017 BlitzNet：用于场景理解的实时深度网络 [Paper] [Code]
ICCV-2017 SCNet：学习语义对应关系 [Code]
CVPR-2017 端到端实例分割与循环注意力 [Code]
CVPR-2017 深度分水岭变换用于实例分割 [Code]
用于图像分割的分段平坦嵌入 [Paper]
ICCV-2017 针对城市场景语义分割的课程式领域自适应 [Paper] [Code]
CVPR-2017 并非所有像素都同等重要：基于深度层级级联的难度感知语义分割-2017 [Paper]
CVPR-2017 使用多边形RNN标注目标实例-2017 [Project] [Paper]
CVPR-2017 用于语义图像分割的损失最大池化 [Paper]
ICCV-2017 用于场景解析的尺度自适应卷积 [Paper]
向端到端车道检测迈进：一种实例分割方法 [Paper] arxiv-1802
AAAI-2018 自监督语义分割中的混合匹配调优 [Paper] arxiv-1712
NIPS-2017 通过空间传播网络学习亲和力 [Paper]
AAAI-2018 深度空间：用于交通场景理解的空间CNN [Paper]
用于语义分割的堆叠反卷积网络-2017 [Paper]
Deeplab v3：重新思考用于语义图像分割的空洞卷积-2017（DeeplabV3）[Paper]
CVPR-2017 学习对象交互与描述以进行语义图像分割-2017 [Paper]
像素反卷积网络-2017 [Code-Tensorflow] [Paper]
扩张残差网络-2017 [Paper]
关于应用于语义分割的深度学习技术综述-2017 [Paper]
BiSeg：使用全卷积网络同时进行实例分割和语义分割 [Paper]
ICNet：用于高分辨率图像实时语义分割 [Project] [Code] [Paper] [Video]

特征前馈：利用编码器表示实现高效语义分割-2017 [Project] [Code-Torch7]
将水平集重新表述为深度循环神经网络的语义分割方法-2017 [Paper]
语义图像分割中的对抗样本-2017 [Paper]
大核很重要——通过全局卷积网络提升语义分割效果-2017 [Paper]
HyperNet：迈向精确的区域建议生成与联合目标检测 [Paper]
超列用于目标分割和细粒度定位 [Paper]
Matching-CNN遇见KNN：准参数化人体解析[Paper]
带有主动模板回归的深度人体解析 [Paper]
TPAMI-2012 学习场景标签的层次特征 这是首次将深度学习应用于语义分割的论文！！！[Paper]
标签细化网络用于粗细结合的语义分割-2017 [Paper]
拉普拉斯金字塔重建与细化用于语义分割 [Paper]
ParseNet：看得更广才能看得更好 [Paper]
CVPR-2016 重组网络：学习粗细结合的特征聚合 [Paper]
PixelNet：由像素、为像素而生的像素表示-2017 [Project] [Code-Caffe] [Paper]
LabelBank：重温语义分割中的全局视角-2017 [Paper]
逐步扩散网络用于语义图像分割-2017 [Paper]
了解卷积在语义分割中的作用-2017 [Model-Mxnet] [Paper] [Code]
ICCV-2017 预测语义分割的未来-2017 [Paper]
CVPR-2017 金字塔场景解析网络-2017 [Project] [Code-Caffe] [Paper] [Slides]
FCNs在野外：像素级别的对抗性和约束性适应-2016 [Paper]
FusionNet：用于连接组学中图像分割的深度全残差卷积神经网络-2016 [Code-PyTorch] [Paper]
RefineNet：用于高分辨率语义分割的多路径细化网络-2016 [Code-MatConvNet] [Paper]
CVPRW-2017 百层提拉米苏：用于语义分割的全卷积密集网络 [Code-Theano] [Code-Keras1] [Code-Keras2] [Paper]
CVPR-2017 全分辨率残差网络用于街道场景的语义分割 [Code-Theano] [Paper]
PixelNet：迈向通用的像素级架构-2016 [Paper]
回忆整体信息以进行语义分割-2016 [Paper]
使用对抗网络进行语义分割-2016 [Paper] [Code-Chainer]
基于区域的语义分割，采用端到端训练-2016 [Paper]
利用深度结构化模型探索上下文以进行语义分割-2016 [Paper]
通过扩张卷积进行多尺度上下文聚合 [Paper]
通过利用密集语义预测改善图像分割-2016 [Paper]
边界感知的实例分割-2016 [Paper]
改善用于语义分割的全卷积网络-2016 [Paper]
用于语义分割的深度结构化特征-2016 [Paper]
DeepLab v2：使用深度卷积网络、空洞卷积和全连接CRF进行图像语义分割-2016** [Project] [Code-Caffe] [Code-Tensorflow] [Code-PyTorch] [Paper]
DeepLab v1：使用深度卷积网络和全连接CRF进行图像语义分割-2014** [Code-Caffe1] [Code-Caffe2] [Paper]
用于语义分割的深度学习马尔可夫随机场-2016 [Project] [Paper]
ECCV2016 显著的反卷积网络 [Code]
用于语义图像分割的卷积随机游走网络-2016 [Paper]
ENet：一种用于实时语义分割的深度神经网络架构-2016 [Code-Caffe1] [Code-Caffe2] [Paper] [Blog]
使用非常深的全卷积网络实现高性能语义分割-2016 [Paper]
CVPR-2016 口头报告 ScribbleSup：涂鸦监督下的卷积网络用于语义分割-2016 [Paper]
以物体边界为导向的语义分割-2016 [Code-Caffe] [Paper]
从自然语言表达中进行分割-2016 [Project] [Code-Tensorflow] [Code-Caffe] [Paper]
种子、扩展与约束：弱监督图像分割的三原则-2016 [Code-Caffe] [Paper]
全局反卷积网络用于语义分割-2016 [Paper]
通过深度卷积神经网络学习可迁移的知识以进行语义分割-2015 [Project] [Code-Caffe] [Paper]
学习密集卷积嵌入以进行语义分割-2015 [Paper]
ParseNet：看得更广才能看得更好-2015 [Code-Caffe] [Model-Caffe] [Paper]
分离式深度神经网络用于半监督语义分割-2015 [Project] [Code-Caffe] [Paper]
贝叶斯分段网：场景理解中深度卷积编码器-解码器架构中的模型不确定性 [Paper]
SegNet：一种用于图像分割的深度卷积编码器-解码器架构-2015 [Project] [Code-Caffe] [Paper] [Tutorial1] [Tutorial2]
使用CNN和判别式训练的域转换进行特定任务的边缘检测以实现语义图像分割-2015 [Paper]
语义分割与边界神经场-2015 [Code] [Paper]
通过深度解析网络进行语义图像分割-2015 [Project] [Paper1] [Paper2] [Slides]
什么是重点：基于点监督的语义分割-2015 [Project] [Code-Caffe] [Model-Caffe] [Paper]
U-Net：用于生物医学图像分割的卷积网络-2015 [Project] [Code+Data] [Code-Keras] [Code-Tensorflow] [Paper] [Notes]
学习用于语义分割的反卷积网络（DeconvNet）-2015 [Project] [Code-Caffe] [Paper] [Slides]
多尺度上下文聚合通过扩张卷积-2015 [Project] [Code-Caffe] [Code-Keras] [Paper] [Notes]
ReSeg：基于循环神经网络的语义分割模型-2015 [Code-Theano] [Paper]
ICCV-2015 BoxSup：利用边界框监督卷积网络进行语义分割-2015 [Paper]
前馈语义分割，利用外推特征-2015 [Code] [Paper] [Video]
条件随机场作为循环神经网络-2015 [Project] [Code-Caffe1] [Code-Caffe2] [Demo] [Paper1] [Paper2]
高效的分段训练深度结构化模型以进行语义分割-2015 [Paper]
全卷积网络用于语义分割-2015 [Code-Caffe] [Model-Caffe] [Code-Tensorflow1] [Code-Tensorflow2] [Code-Chainer] [Code-PyTorch] [Paper1] [Paper2] [Slides1] [Slides2]
深度联合任务学习用于通用目标提取-2014 [Project] [Code-Caffe] [Dataset] [Paper]
高效的卷积神经网络前向和反向传播用于像素级分类-2014 [Code-Caffe] [Paper]
更宽还是更深：重新审视用于视觉识别的ResNet模型 [Paper]
描述整个场景：联合目标检测、场景分类和语义分割[Paper]
使用混合人机CRF分析语义分割[Paper]
带有空间先验的卷积补丁网络用于道路检测和城市场景理解[Paper]
深度反卷积网络用于场景解析[Paper]
FusionSeg：学习结合运动和外观以实现视频中通用目标的全自动分割[Paper] [Project]
ICCV-2017 深度双重学习用于语义图像分割 [Paper]
从图像级别到像素级别的标记，借助卷积网络 [Paper]
场景分割与DAG循环神经网络 [Paper]
学习分割一切 [Paper]
全景分割 [Paper]
魔鬼藏在解码器里 [Paper]
关注尺度：尺度感知的语义图像分割 [Paper] [Project]
卷积导向的边界：从图像分割到高层任务 [Paper] [Project]
尺度感知的层级式图像分割对齐 [Paper] [Project]
ICCV-2017 半监督语义分割，使用生成对抗网络[Paper]
对象区域挖掘与对抗擦除：一种从简单分类到语义分割的方法 [Paper]

CVPR-2016 卷积特征掩码用于联合目标和背景分割 [Paper]
ECCV-2016 拉普拉斯金字塔重建与细化用于语义分割 [Paper]

FastMask：一次性分割多尺度目标候选者-2016 [Code-Caffe] [Paper]
像素对象性-2017 [Project] [Code-Caffe] [Paper]

3D语义分割

论文

PointNet：基于点云的深度学习用于3D分类与分割 [论文]
PointNet++：度量空间中点云的深度层次特征学习（2017） [论文]
学习3D网格分割与标注（2010）[论文]
基于描述子空间谱聚类的无监督形状集合协同分割（2011）[论文]
单视图重建：图像与形状集合联合分析（2015）[论文]
基于投影卷积网络的3D形状分割（2017）[论文]
从在线资源库中学习层次化形状分割与标注（2017）[论文]
用于RGBD语义分割的3D图神经网络（2017）[论文]
3DCNN-DQN-RNN：用于大规模3D点云语义解析的深度强化学习框架（2017）[论文]
多视角深度学习用于RGB-D相机的一致性语义建图[论文]

ICCV-2017 基于ShapeNet Core55的大规模3D形状重建与分割[论文][项目]

实例分割

Mask Scoring R-CNN (MS R-CNN) [代码][论文]
通过预测卷积特征来预知未来的实例分割[论文]
CVPR-2018 用于实例分割的道路聚合网络[论文]，比Mask-rcnn更好！COCO-2017 第一名！
基于动态实例化网络的像素级实例分割-2017[论文]
基于深度度量学习的语义实例分割-2017[论文]
CVPR-2017 FastMask：一次性分割多尺度目标候选物[代码-Tensorflow] [论文]
Pose2Instance：利用关键点进行人体实例分割-2017[论文]
基于动态实例化网络的像素级实例分割-2017[论文]
CVPR-2017-spotlight 全卷积实例感知语义分割-2016[代码] [论文]
CVPR-2016-oral 实例感知语义分割：多任务网络级联-2015[代码] [论文]
循环实例分割-2015[项目] [代码-Torch7] [论文] [海报] [视频]
使用Polygon-RNN标注物体实例[论文]
MaskLab：通过语义和方向特征精炼目标检测实现实例分割[论文]
FCIS：全卷积实例感知语义分割[论文]代码
MNC：基于多任务网络级联的实例感知语义分割[论文]代码
DeepMask：学习分割目标候选物[论文] 代码
SharpMask：学习精炼目标分割[论文]代码
RIS：循环实例分割[论文]代码
FastMask：一次性分割多尺度目标候选物[论文]代码
无需提案的网络用于实例级别的物体分割[论文]
ECCV-2016 实例敏感的全卷积网络[论文]
像素级编码与深度分层用于实例级别的语义标注[论文]

机器人学

虚拟到现实：在视觉语义分割中学习控制[论文]
使用循环神经网络进行端到端跟踪与语义分割[论文]
使用对抗网络进行语义分割[论文]

对抗训练

CVPR-2017 条件对抗网络下的图像到图像转换[论文]
ICCV-2017 语义分割与目标检测中的对抗样本[论文]

场景理解

论文

空间如深度：用于交通场景理解的空间CNN[论文]

数据集与资源

SUNRGB-D 3D目标检测挑战 [链接] 19个物体类别，用于预测真实世界尺寸的3D边界框。训练集：10,355张RGB-D场景图像；测试集：2860张RGB-D图像。
SceneNN（2016） [链接] 100多个室内场景网格，带有顶点级和像素级标注。
ScanNet（2017） [链接] 一个RGB-D视频数据集，包含超过1500次扫描中的250万帧视图，并标注了3D相机位姿、表面重建以及实例级语义分割。
Matterport3D：基于室内环境RGB-D数据的学习（2017） [链接]

来自90个建筑规模场景中194,400张RGB-D图像的10,800张全景视图（包括RGB和深度信息）。提供了区域（客厅、厨房）和物体（沙发、电视）类别的实例级语义分割。

SUNCG：大型室内场景3D模型库（2017） [链接]

该数据集包含超过4.5万个不同的场景，拥有手工创建的逼真房间和家具布局。所有场景都在物体级别进行了语义标注。

MINOS：多模态室内模拟器（2017） [链接] MINOS是一个模拟器，旨在支持在复杂室内环境中开发面向目标的多感官导航模型。MINOS利用大量复杂的3D环境数据集，并支持灵活配置多模态传感器套件。MINOS支持SUNCG和Matterport3D场景。
Facebook House3D：丰富且真实的3D环境（2017） [链接]

House3D是一个虚拟3D环境，由4.5万个室内场景组成，这些场景配备了多样化的场景类型、布局和对象，均来自SUNCG数据集。所有3D对象都已完全标注类别标签。环境中的智能体可以获取多种模态的观测信息，包括RGB图像、深度、分割掩码以及自顶向下的2D地图视图。

HoME：家庭多模态环境（2017） [链接]

HoME整合了基于SUNCG数据集的超过4.5万个多样化的3D房屋布局，这一规模有助于学习、泛化和迁移。HoME是一个开源、兼容OpenAI Gym的平台，可扩展到强化学习、语言接地、基于声音的导航、机器人技术、多智能体学习等任务。

AI2-THOR：面向AI智能体的逼真交互式环境 [链接]

AI2-THOR是一个逼真的可交互框架，供AI智能体使用。THOR环境1.0版本共有120个场景，涵盖四种不同类型的房间：厨房、客厅、卧室和浴室。每个房间都有若干可操作的对象。

弱监督分割 && 交互式分割 && 可迁移语义分割

arxiv-2018 WebSeg：从网络搜索中学习语义分割 [论文]
使用事物与背景转移的弱监督目标定位 [论文]
基于生成对抗网络的半监督与弱监督语义分割 [论文]
用于语义图像分割的深度卷积网络的弱监督与半监督学习 [论文]

面向语义分割的弱监督结构化输出学习 [论文]
ICCV-2011 多图像模型下的弱监督语义分割 [论文]
ScribbleSup：基于涂鸦标注的卷积网络语义分割。IEEE计算机视觉与模式识别会议（CVPR），2016年[论文]
用于弱监督分割的约束卷积神经网络。IEEE国际计算机视觉会议论文集，2015年。[论文]
用于语义图像分割的DCNN的弱监督与半监督学习。arXiv预印本arXiv:1502.02734（2015年）。[论文]
在各种形式的弱监督下进行分割学习。IEEE计算机视觉与模式识别会议论文集，2015年。[论文]
STC：一个从简单到复杂的弱监督语义分割框架。2017年TPAMI [论文] [项目]
[论文]
CVPR-2017-简单有效：弱监督实例与语义分割 [论文] [tensorflow]
CVPR-2017-使用网络爬取视频的弱监督语义分割 [论文]
AAAI-2017-使用超像素池化网络的弱监督语义分割 [论文]
ICCV-2015-基于图的弱监督语义分割，通过学习图像局部社区实现 [论文]
通过多实例与多任务学习迈向弱监督语义分割 [论文]
基于运动线索的弱监督语义分割 [论文] [项目]
基于网络图像协同分割的弱监督语义分割 [论文]
学习重新划分物体分割 [论文]

用于图像语义分割的弱监督双重聚类 [论文]

野外环境中的交互式视频对象分割 [论文]

视频语义分割

CVPR-2017 无时间信息的视频目标分割单次拍摄视频目标分割 [项目]
用于语义视频分割的特征空间优化[论文][幻灯片]
视频目标分割的基础知识 [博客]
ICCV2017----SegFlow_视频目标分割与光流的联合学习
OSVOS:单次拍摄视频目标分割
单帧监督下的监控视频解析
2017年DAVIS视频目标分割挑战赛
视频传播网络
OnAVOS:用于视频目标分割的卷积神经网络在线自适应。P. Voigtlaender, B. Leibe, BMVC 2017。[项目页面] [预计算结果]
MSK:从静态图像中学习视频目标分割。F. Perazzi*, A. Khoreva*, R. Benenson, B. Schiele, A. Sorkine-Hornung, CVPR 2017。[项目页面] [预计算结果]
SFL:SegFlow:视频目标分割与光流的联合学习。J. Cheng, Y.-H. Tsai, S. Wang, M.-H. Yang, ICCV 2017。[项目页面] [预计算结果]
CTN:通过卷积三叉戟网络进行在线视频目标分割。W.-D. Jang, C.-S. Kim, CVPR 2017。[项目页面] [预计算结果]
VPN:视频传播网络。V. Jampani, R. Gadde, P. V. Gehler, CVPR 2017。[项目页面] [预计算结果]
PLM:使用卷积神经网络进行像素级匹配的视频目标分割。J. Shin Yoon, F. Rameau, J. Kim, S. Lee, S. Shin, I. So Kweon, ICCV 2017。[项目页面] [预计算结果]
OFL:基于物体流动的视频分割。Y.-H. Tsai, M.-H. Yang, M. Black, CVPR 2016。[项目页面] [预计算结果]
BVS:双边空间视频分割。N. Marki, F. Perazzi, O. Wang, A. Sorkine-Hornung, CVPR 2016。[项目页面] [预计算结果]
FCP:用于视频分割的全连接目标提案。F. Perazzi, O. Wang, M. Gross, A. Sorkine-Hornung, ICCV 2015。[项目页面] [预计算结果]
JMP:JumpCut:非连续掩码传输和插值用于视频抠图。Q. Fan, F. Zhong, D. Lischinski, D. Cohen-Or, B. Chen, SIGGRAPH 2015。[项目页面] [预计算结果]
HVS:高效的分层图基视频分割。M. Grundmann, V. Kwatra, M. Han, I. A. Essa, CVPR 2010。[项目页面] [预计算结果]
SEA:SeamSeg:利用补丁接缝进行视频目标分割。S. Avinash Ramakanth, R. Venkatesh Babu, CVPR 2014。[项目页面] [预计算结果]
ARP:基于区域增减的视频主要目标分割。Y.J. Koh, C.-S. Kim, CVPR 2017。[项目页面] [预计算结果]
LVO:利用视觉记忆学习视频目标分割。P. Tokmakov, K. Alahari, C. Schmid, ICCV 2017。[项目页面] [预计算结果]
FSEG:融合分割：学习结合运动和外观，实现视频中通用对象的全自动分割。S. Jain, B. Xiong, K. Grauman，CVPR 2017。[项目页面] [预计算结果]
LMP:学习视频中的运动模式。P. Tokmakov, K. Alahari, C. Schmid，CVPR 2017。[项目页面] [预计算结果]
SFL:SegFlow:视频目标分割与光流的联合学习。J. Cheng, Y.-H. Tsai, S. Wang, M.-H. Yang，ICCV 2017。[项目页面] [预计算结果] FST:无约束视频中的快速目标分割。A. Papazoglou, V. Ferrari，ICCV 2013。[项目页面] [预计算结果]
CUT:通过最小成本多切割进行运动轨迹分割。M. Keuper, B. Andres, T. Brox，ICCV 2015。[项目页面] [预计算结果]
NLC:非局部一致性投票的视频分割。A. Faktor, M. Irani，BMVC 2014。[项目页面] [预计算结果]
MSG:视频中的目标分割：一种层次化的变分方法，将转折点轨迹转化为密集区域。P. Ochs, T. Brox，ICCV 2011。[项目页面] [预计算结果]
KEY:用于视频目标分割的关键片段。Y. Lee, J. Kim, K. Grauman，ICCV 2011。[项目页面] [预计算结果]
CVOS:基于遮挡持续性的因果视频目标分割。B. Taylor, V. Karasev, S. Soatto，CVPR 2015。[项目页面] [预计算结果]
TRC:通过追踪轨迹嵌入中的不连续性进行视频分割。K. Fragkiadaki, G. Zhang, J. Shi，CVPR 2012。[项目页面] [预计算结果]
实例嵌入迁移至无监督视频目标分割 [论文]

2017年DAVIS挑战赛结果
基准测试 2016----视频目标分割的基准数据集及评估方法
2016----用于视频语义分割的时钟式卷积网络
2016----MaskTrack ----从静态图像中学习视频目标分割
2017----DAVIS挑战赛第1届----带有重识别功能的视频目标分割
2017----DAVIS挑战赛第2届----清晰数据梦境用于多目标跟踪
2017----DAVIS挑战赛第3届----实例重识别流用于视频目标分割
2017----DAVIS挑战赛第4届----具有序列特异性目标提案的多实例视频分割
2017----DAVIS挑战赛第5届----为2017年视频目标分割DAVIS挑战赛而对卷积神经网络进行在线自适应
2017----DAVIS挑战赛第6届 ----学习使用空间传播网络在视频中分割实例
2017----DAVIS挑战赛第7届----关于多实例视频分割的一些有前景的想法
2017----DAVIS挑战赛第8届----采用迭代在线微调的单次拍摄视频目标分割
2017----DAVIS挑战赛第9届----使用追踪到的对象提案进行视频目标分割

多任务学习

论文：

使用不确定性权衡场景几何与语义损失的多任务学习 [论文]
使用共享跳跃连接的多模态编码器-解码器网络的多任务学习 [论文]

道路分割 && 实时分割

论文：

自动驾驶中的深度语义分割：分类、路线图与挑战 [论文]
2018-arxiv 实时语义分割比较研究[论文][代码]
MultiNet：面向自动驾驶的实时联合语义推理 [论文]
自动驾驶汽车道路分割 [链接]
用于单目道路分割的高效深度模型[论文]
基于多尺度学习特征集成的语义道路分割 [论文]
远程监督的道路分割 [论文]
带有随机数据增强的深度全卷积网络，用于提升道路检测的泛化能力 [论文]
ICCV-2017 面向自动驾驶的实时基于类别和通用障碍物检测 [论文]
ICCV-2017 FoveaNet：视角感知的城市场景解析 [论文]
CVPR-2017 UberNet：利用多样化数据集和有限内存训练适用于低、中、高层次视觉任务的通用卷积神经网络 [论文]

LinkNet：利用编码器表示实现高效语义分割 [论文]
ENet：用于实时语义分割的深度神经网络架构-2016 [代码-Caffe1][代码-Caffe2] [论文] [博客]
用于单目道路分割的高效深度模型[论文]
实时粗细结合的拓扑保持分割[论文]
用于高分辨率图像实时语义分割的ICNet [论文]
用于语义分割的高效且鲁本的深度网络 [论文]
NIPSW-2017 加速自动驾驶中的语义分割 [论文]

ECCV-2012 单幅图像中的道路场景分割 [论文]

代码

医学图像语义分割

论文

Arxiv-2018 深度学习及其在医学图像分割中的应用 [论文]

深度神经网络分割电子显微镜图像中的神经元膜
基于深度学习的语义图像分割 [论文]
利用级联全卷积神经网络自动分割CT和MRI影像中的肝脏及肿瘤 [论文]
DeepNAT：用于分割神经解剖结构的深度卷积神经网络 [论文]
基于CNN的医学影像数据分割 [论文]
视网膜图像深度理解（http://www.vision.ee.ethz.ch/~cvlsegmentation/driu/data/paper/DRIU_MICCAI2016.pdf）
基于模型的椎体MR图像分割，采用3D CNN
高效多尺度3D CNN结合全连接CRF，用于精准脑部病灶分割
U-net：用于生物医学图像分割的卷积网络
3D U-Net：从稀疏标注中学习密集体积分割
V-Net：用于体积医学图像分割的全卷积神经网络。arXiv:1606.04797
生物医学图像分割中跳跃连接的重要性：用于肌肉周膜分割的空间时钟递归神经网络
NPIS-2015 并行多维LSTM，应用于快速生物医学体积图像分割
多维门控循环单元用于生物医学3D数据分割
全卷积网络与循环神经网络结合，用于3D生物医学图像分割
循环全卷积神经网络用于多切片MRI心脏分割。arXiv:1608.03974
通过迁移非医疗领域的低层CNN特征，自动检测和分类结直肠息肉
深度学习用于多模态下的多任务医学图像分割
使用F-CNN进行皮层下脑结构分割
利用深度卷积神经网络和密集条件随机场进行分割标签传播
快速全自动分割运动伪影干扰的孕妇胎盘MRI图像
通过3D卷积神经网络自动检测脑部微出血的MR图像
使用深度卷积神经网络进行不均匀补丁采样，以分割白质高信号区域
统一框架下，利用深度卷积神经网络自动进行伤口分割与分析
带有捷径的深度3D卷积编码器网络，用于多尺度特征融合，应用于多发性硬化症病灶分割
利用卷积神经网络在MRI图像中分割脑肿瘤
使用三平面卷积神经网络进行膝关节软骨分割的深度特征学习
在心脏CT血管造影中使用卷积神经网络自动计算冠状动脉钙化评分 [论文]
利用卷积神经网络和随机视图聚合改进计算机辅助检测 [论文]
CT图像中的肺结节检测：使用多视角卷积网络减少假阳性率 [论文]

代码

部位语义分割

Look into Person: 自监督结构敏感学习及人体解析新基准-2017 [项目] [代码-Caffe] [论文]
基于深度学习的图像中人体部位发现-2016 [代码-Chainer] [论文]
用于地标引导语义部位分割的CNN级联网络-2016 [项目] [论文]
基于高层指导的语义部位分割深度学习-2015 [论文]
神经激活星座——使用卷积网络进行无监督部位模型发现-2015 [论文]
基于上下文卷积神经网络的人体解析-2015 [论文]
深度卷积神经网络中的部位检测器发现-2014 [代码] [论文]
用于目标分割和细粒度定位的超柱[论文]

服装解析

从服饰整体出发进行服装解析-2017 [论文]
基于局部-全局长短时记忆网络的语义目标解析-2015 [论文]
高性能服装解析CRF模型-2014 [项目] [代码] [数据集] [论文]
联合图像分割与标注的服装协同解析-2013 [项目] [数据集] [论文]
时尚照片中的服装解析-2012 [项目] [论文]

流行方法与实现

U-Net [https://arxiv.org/pdf/1505.04597.pdf][Pytorch](https://github.com/tangzhenyu/SemanticSegmentation_DL/tree/master/U-net)
SegNet [https://arxiv.org/pdf/1511.00561.pdf][Caffe](https://github.com/alexgkendall/caffe-segnet)
DeepLab [https://arxiv.org/pdf/1606.00915.pdf][Caffe](https://bitbucket.org/deeplab/deeplab-public/)
FCN [https://arxiv.org/pdf/1605.06211.pdf][tensorflow](https://github.com/tangzhenyu/SemanticSegmentation_DL/tree/master/FCN)
ENet [https://arxiv.org/pdf/1606.02147.pdf][Caffe](https://github.com/TimoSaemann/ENet)
LinkNet [https://arxiv.org/pdf/1707.03718.pdf][Torch](https://github.com/e-lab/LinkNet)
DenseNet [https://arxiv.org/pdf/1608.06993.pdf]
Tiramisu [https://arxiv.org/pdf/1611.09326.pdf]
DilatedNet [https://arxiv.org/pdf/1511.07122.pdf]
PixelNet [https://arxiv.org/pdf/1609.06694.pdf][Caffe](https://github.com/aayushbansal/PixelNet)
ICNet [https://arxiv.org/pdf/1704.08545.pdf][Caffe](https://github.com/hszhao/ICNet )
ERFNet [http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf][Torch](https://github.com/Eromera/erfnet )
RefineNet [https://arxiv.org/pdf/1611.06612.pdf][tensorflow](https://github.com/tangzhenyu/SemanticSegmentation_DL/tree/master/RefineNet)
PSPNet [https://arxiv.org/pdf/1612.01105.pdf,https://hszhao.github.io/projects/pspnet/][Caffe](https://github.com/hszhao/PSPNet )
空洞卷积 [https://arxiv.org/pdf/1511.07122.pdf][Caffe](https://github.com/fyu/dilation )
DeconvNet [https://arxiv.org/pdf/1505.04366.pdf][Caffe](http://cvlab.postech.ac.kr/research/deconvnet/ )
FRRN [https://arxiv.org/pdf/1611.08323.pdf][Lasagne](https://github.com/TobyPDE/FRRN )
GCN [https://arxiv.org/pdf/1703.02719.pdf][PyTorch](https://github.com/ZijunDeng/pytorch-semantic-segmentation )
LRR [https://arxiv.org/pdf/1605.02264.pdf][Matconvnet](https://github.com/golnazghiasi/LRR )
DUC、HDC [https://arxiv.org/pdf/1702.08502.pdf][PyTorch](https://github.com/ZijunDeng/pytorch-semantic-segmentation )
MultiNet [https://arxiv.org/pdf/1612.07695.pdf] tensorflow1 tensorflow2
Segaware [https://arxiv.org/pdf/1708.04607.pdf][Caffe](https://github.com/aharley/segaware )
使用对抗网络进行语义分割 [https://arxiv.org/pdf/1611.08408.pdf] [Chainer](+ https://github.com/oyam/Semantic-Segmentation-using-Adversarial-Networks )
原位激活批归一化：获得#1位置 [https://arxiv.org/abs/1712.02616] Pytorch

标注工具：

杰出研究人员与团队：

结果：

参考

https://github.com/nightrome/really-awesome-semantic-segmentation

https://github.com/mrgloom/awesome-semantic-segmentation

SemanticSegmentation_DL 快速上手指南

SemanticSegmentation_DL 是一个汇总了语义分割领域论文、资源及深度学习模型实现的开源项目。本指南将帮助您快速搭建环境并运行相关代码。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS。Windows 用户建议使用 WSL2 或 Docker。
硬件: 推荐使用 NVIDIA GPU (显存 >= 4GB) 以加速模型训练和推理。
软件依赖:
- Python 3.6+
- CUDA Toolkit (版本需与显卡驱动匹配，推荐 10.2 或 11.x)
- cuDNN

前置依赖库安装： 建议使用 pip 配合国内镜像源（如清华源）安装核心深度学习框架。

# 安装 PyTorch (示例：CUDA 11.3 版本，其他版本请访问 pytorch.org 查询)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu113

# 安装通用计算机视觉依赖
pip install opencv-python numpy matplotlib scipy tqdm

安装步骤

由于该项目主要是一个资源列表和多个独立模型的集合，没有统一的 setup.py。您需要克隆仓库并根据您想运行的具体模型（如 DFANet, LEDNet, DeepLab 等）安装其对应的依赖。

克隆项目仓库

git clone https://github.com/RoyalVane/SemanticSegmentation_DL.git
cd SemanticSegmentation_DL

安装特定模型依赖 进入您想要使用的具体模型目录（例如 DFANet_PyTorch 或 LEDNet），通常这些子项目会有自己的 requirements.txt。

以 DFANet 为例：

# 假设已下载或链接到具体的模型代码目录
cd path/to/DFANet_PyTorch
pip install -r requirements.txt

*如果没有 `requirements.txt`，通常只需确保已安装上述“环境准备”中的基础库即可。*

准备数据集 根据 README 中列出的数据集（如 VOC2012, Cityscapes, ADE20K 等），下载数据并解压。

建议： 国内开发者可使用开源中国（Gitee）或阿里云盘等资源站搜索对应数据集的镜像下载，以避免网络超时。

目录结构通常需调整为模型要求的格式，例如：
```
datasets/
├── VOC2012/
│   ├── JPEGImages/
│   └── SegmentationClass/
└── Cityscapes/
    ├── leftImg8bit/
    └── gtFine/
```

基本使用

以下以 DFANet (实时语义分割) 为例，展示最简单的推理流程。其他模型的使用方式类似，请参考各子项目目录下的 README.md 或 demo.py。

下载预训练模型 从该项目的 Release 页面或模型对应的原始仓库下载 .pth 权重文件，并放置在 weights/ 目录下。
运行推理脚本 执行以下命令对单张图片进行语义分割预测：

python demo.py --image_path ./test_image.jpg --weights_path ./weights/dfanet_cityscapes.pth --output_path ./result.png

参数说明：

--image_path: 输入图片路径。
--weights_path: 预训练权重文件路径。
--output_path: 分割结果保存路径。

查看结果 运行完成后，打开 ./result.png 即可查看带有颜色编码的语义分割掩码图。

提示：若要训练自己的模型，请修改对应模型目录下的 train.py 配置文件，指定数据集路径和超参数，然后运行 python train.py。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|昨天

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频