Mask_RCNN

25.5k 11.7k 中等 1 次阅读今天NOASSERTION开发框架图像

AI 解读由 AI 自动生成，仅供参考

Mask_RCNN 是一款基于 Keras 和 TensorFlow 构建的开源深度学习模型，专注于解决图像中的目标检测与实例分割难题。它不仅能精准识别图像中有哪些物体并框出位置（目标检测），还能进一步为每个独立物体生成精细的像素级轮廓掩膜（实例分割），即使多个同类物体重叠也能清晰区分。

该工具特别适合计算机视觉领域的研究人员、算法工程师及希望深入理解底层原理的开发者使用。其核心优势在于采用了特征金字塔网络（FPN）与 ResNet101 主干网络相结合的强大架构，在保持高精度的同时具备良好的扩展性。除了提供在 MS COCO 数据集上预训练的权重以便快速上手，Mask_RCNN 还独具特色地配套了丰富的 Jupyter 可视化教程。这些资源能逐步展示从锚框筛选、边界框修正到掩膜生成的完整流程，帮助用户直观调试模型、分析中间层激活状态及权重分布，极大地降低了学习与复现前沿算法的门槛，是探索实例分割技术的理想起点。

使用场景

某智慧城市交通部门正利用路口监控视频，自动统计早晚高峰期间不同车型的车流量并分析车辆轨迹。

没有 Mask_RCNN 时

传统目标检测算法只能输出矩形边框，在车辆密集拥堵时，边框严重重叠导致无法区分具体车辆数量。
难以精确提取车辆轮廓，当车辆被路灯杆或绿化带部分遮挡时，系统极易丢失目标或误判车型。
人工复核成本极高，工作人员需逐帧查看视频来修正错误的计数数据，效率低下且容易疲劳出错。
缺乏像素级的分割掩码，无法进行精细化的车道占用分析或车辆三维尺寸估算。

使用 Mask_RCNN 后

Mask_RCNN 生成的实例分割掩码能清晰分离紧挨着的车辆，即使在拥堵路段也能实现单车级别的精准计数。
凭借强大的特征金字塔网络，Mask_RCNN 能有效识别被部分遮挡的车辆，显著降低漏检率并提升车型分类准确度。
自动化流程完全取代人工复核，系统可实时输出带轮廓标注的视频流，将数据处理效率提升数十倍。
输出的高精度像素级掩码支持深度分析，如计算车辆实际投影面积以辅助判断违章变道或异常停车行为。

Mask_RCNN 通过将目标检测与实例分割完美结合，解决了复杂交通场景下“数不清、看不准”的核心难题，让视觉数据分析从粗糙的框选迈向了精细化的像素级理解。

运行环境要求

操作系统

Linux
Windows

GPU

需要 NVIDIA GPU（支持多 GPU 训练），具体型号和显存未说明，需匹配 TensorFlow 1.3 的 CUDA 版本

内存

未说明

依赖

notesWindows 用户安装 pycocotools 需要 Visual C++ 2015 构建工具；官方提供了经过验证的 Docker 容器；训练 MS COCO 数据集需额外下载特定的验证集子集文件。

python3.4

TensorFlow>=1.3

Keras>=2.0.8

pycocotools

快速开始

用于目标检测与分割的 Mask R-CNN

这是在 Python 3、Keras 和 TensorFlow 上实现的 Mask R-CNN。该模型为图像中每个对象实例生成边界框和分割掩码。它基于特征金字塔网络（FPN）和 ResNet101 主干网络。

实例分割示例

该仓库包含：

基于 FPN 和 ResNet101 构建的 Mask R-CNN 源代码。
MS COCO 数据集的训练代码。
MS COCO 数据集的预训练权重。
Jupyter 笔记本，用于可视化检测流程的每一步。
用于多 GPU 训练的 ParallelModel 类。
在 MS COCO 数据集上的评估指标（AP）。
自定义数据集训练示例。

代码经过详细注释，并设计得易于扩展。如果您在研究中使用了此代码，请考虑引用本仓库（下方提供 BibTeX 格式）。如果您从事 3D 视觉相关工作，我们最近发布的 Matterport3D 数据集也可能对您有所帮助。该数据集由我们的客户采集的 3D 重建空间构成，这些客户同意将其公开供学术研究使用。您可以在这里查看更多示例。

快速入门

demo.ipynb 是最简单的入门方式。它展示了如何使用在 MS COCO 数据集上预训练的模型来分割您自己的图像中的物体。其中包含了在任意图像上运行目标检测和实例分割的代码。
train_shapes.ipynb 展示了如何在自定义数据集上训练 Mask R-CNN。该笔记本引入了一个玩具数据集（Shapes），以演示如何在新数据集上进行训练。
(model.py、utils.py、config.py)：这些文件包含了 Mask R-CNN 的核心实现。
inspect_data.ipynb。该笔记本可视化了用于准备训练数据的不同预处理步骤。
inspect_model.ipynb 该笔记本深入探讨了检测和分割物体所执行的各个步骤，并提供了整个流程中每一步的可视化结果。
inspect_weights.ipynb 该笔记本检查了训练好的模型的权重，寻找异常和不寻常的模式。

分步检测

为了便于调试和理解模型，我们提供了 3 个笔记本 (inspect_data.ipynb、inspect_model.ipynb、 inspect_weights.ipynb)，它们提供了大量可视化内容，并允许逐步运行模型，以便在每个阶段检查输出。以下是一些示例：

1. 锚点排序与过滤

可视化了第一阶段区域建议网络的每一步操作，并展示了正负锚点以及锚框的精炼过程。

2. 边界框精炼

这是一个第二阶段最终检测框（虚线）及其应用的精炼结果（实线）的示例。

3. 掩码生成

生成的掩码示例。随后这些掩码会被缩放并放置到图像的正确位置。

4. 层激活

通常检查不同层的激活情况有助于发现潜在问题（如全零或随机噪声）。

5. 权重直方图

另一个有用的调试工具是检查权重的直方图。这些内容包含在 inspect_weights.ipynb 笔记本中。

6. 日志记录到 TensorBoard

TensorBoard 是另一个优秀的调试和可视化工具。该模型已配置为在每个 epoch 结束时记录损失并保存权重。

6. 将各个部分组合成最终结果

在 MS COCO 数据集上训练

我们提供了 MS COCO 数据集的预训练权重，以便您更轻松地开始。您可以将这些权重作为起点，训练您自己的网络变体。训练和评估代码位于 samples/coco/coco.py 中。您可以在 Jupyter 笔记本中导入该模块（请参阅提供的笔记本示例），也可以直接通过命令行运行，如下所示：

# 从预训练的 COCO 权重开始训练新模型
python3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=coco

# 从 ImageNet 权重开始训练新模型
python3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=imagenet

# 继续训练之前已经训练过的模型
python3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=/path/to/weights.h5

# 继续训练上次训练的模型。这将会在模型目录中找到最后训练的权重。
python3 samples/coco/coco.py train --dataset=/path/to/coco/ --model=last

您还可以使用以下命令运行 COCO 评估代码：

# 对上次训练的模型进行 COCO 评估
python3 samples/coco/coco.py evaluate --dataset=/path/to/coco/ --model=last

训练计划、学习率和其他参数应在 samples/coco/coco.py 中设置。

在自定义数据集上训练

首先阅读这篇关于气球颜色泼溅示例的博客文章《色彩的绽放：使用 Mask R-CNN 和 TensorFlow 进行实例分割》。它涵盖了从图像标注到训练，再到将结果应用于示例应用程序的完整流程。简而言之，要在您的自定义数据集上训练模型，您需要扩展两个类：

Config 该类包含默认配置。请继承它并修改您需要更改的属性。

Dataset 该类提供了一种一致的方式来处理任何数据集。它允许您使用新的数据集进行训练，而无需更改模型的代码。此外，它还支持同时加载多个数据集，这在您想要检测的对象并不都存在于一个数据集中时非常有用。

请参阅 samples/shapes/train_shapes.ipynb、samples/coco/coco.py、samples/balloon/balloon.py 和 samples/nucleus/nucleus.py 中的示例。

与官方论文的区别

本实现大部分遵循 Mask R-CNN 论文，但在某些地方为了代码的简洁性和通用性，我们做了一些调整。以下是我们已知的一些差异。如果您发现其他差异，请随时告知我们。

图像缩放： 为了支持每批次训练多张图像，我们将所有图像缩放为相同的尺寸。例如，在 MS COCO 数据集上使用 1024x1024 像素。我们会保持宽高比，因此如果图像不是正方形，我们会用零填充。而在论文中，缩放是使最短边为 800 像素，最长边则裁剪至 1000 像素。
边界框： 有些数据集提供边界框，而有些仅提供掩码。为了支持在多个数据集上进行训练，我们选择忽略数据集自带的边界框，转而实时生成它们。我们选取能够包围掩码所有像素的最小矩形作为边界框。这不仅简化了实现，还便于应用一些对边界框较难处理的数据增强技术，比如图像旋转。

为了验证这一方法，我们将其计算出的边界框与 COCO 数据集提供的边界框进行了对比。结果显示，约 2% 的边界框相差 1 像素或以上，约 0.05% 的边界框相差 5 像素或以上，而仅有 0.01% 的边界框相差 10 像素或以上。
学习率： 论文中使用的学习率为 0.02，但我们发现这个值过高，容易导致权重爆炸，尤其是在小批量的情况下。这可能与 Caffe 和 TensorFlow 在梯度计算方式上的差异有关（即跨批次和 GPU 是求和还是取平均）。或者，官方模型可能使用了梯度裁剪来避免这个问题。虽然我们也使用梯度裁剪，但并未设置得过于激进。我们发现较小的学习率反而收敛得更快，因此我们选择了较低的学习率。

引用

请使用以下 BibTeX 格式引用本仓库：

@misc{matterport_maskrcnn_2017,
  title={Mask R-CNN for object detection and instance segmentation on Keras and TensorFlow},
  author={Waleed Abdulla},
  year={2017},
  publisher={Github},
  journal={GitHub repository},
  howpublished={\url{https://github.com/matterport/Mask_RCNN}},
}

贡献

欢迎为本仓库做出贡献。您可以贡献的内容包括：

性能优化，例如将部分 Python 代码重写为 TensorFlow 或 Cython 实现。
在其他数据集上进行训练。
提升模型精度。
可视化工具和示例。

您也可以加入我们的团队，帮助我们开发更多类似项目。

环境要求

Python 3.4、TensorFlow 1.3、Keras 2.0.8，以及 requirements.txt 中列出的其他常用包。

MS COCO 特别要求：

若要在 MS COCO 数据集上进行训练或测试，您还需要：

pycocotools（安装说明见下文）
MS COCO 数据集
下载 5K 的 minival 和 35K 的 validation-minus-minival 子集。更多详情请参阅原始的 Faster R-CNN 实现。

如果您使用 Docker，代码已在此 Docker 容器上验证过可以正常运行。

安装步骤

克隆本仓库
安装依赖项
```
pip3 install -r requirements.txt
```
在仓库根目录下运行安装命令
```
python3 setup.py install
```
从发布页面下载预训练的 COCO 权重文件 mask_rcnn_coco.h5。
（可选）若要在 MS COCO 数据集上进行训练或测试，可以从以下仓库之一安装 pycocotools。这些仓库是原版 pycocotools 的分支，针对 Python 3 和 Windows 进行了修复（官方仓库似乎已不再维护）。
- Linux 版本：https://github.com/waleedka/coco
- Windows 版本：https://github.com/philferriere/cocoapi。您需要确保系统路径中包含 Visual C++ 2015 构建工具（详情请参阅相关仓库）。

使用本模型的项目

如果您将本模型扩展到其他数据集，或基于它构建相关项目，我们非常期待您的反馈。

4K 视频演示 by Karol Majek。

图片转 OSM：通过添加棒球、足球、网球、橄榄球和篮球场来改进 OpenStreetMap。

卫星图像中的运动场地识别

色彩点缀：一篇博客文章，详细介绍了如何从头训练该模型，并利用它实现色彩点缀效果。

气球色彩点缀

显微镜图像中的细胞核分割。专为 2018 年数据科学碗竞赛开发。

代码位于 samples/nucleus 目录中。

细胞核分割

手术机器人检测与分割 by the NUS 控制与机电一体化实验室。

手术机器人检测和分割

利用航空 LiDAR 数据重建三维建筑

由 Esri 与 Nvidia、迈阿密戴德县合作完成的概念验证项目。该项目由 Dmitry Kudinov、Daniel Hedges 和 Omar Maher 共同撰写并提供了代码。 3D 建筑重建

Usiigaci：相位差显微镜下的无标记细胞追踪

来自日本的一项研究项目，旨在自动跟踪微流控平台中的细胞。论文尚未发表，但源代码已公开。

极高分辨率航空影像中的北极冰楔多边形特征分析

一项研究北极地区退化过程与气候变化之间复杂关系的项目。作者包括 Weixing Zhang、Chandi Witharana、Anna Liljedahl 和 Mikhail Kanevskiy。

Mask-RCNN Shiny

HU Shiyu 的计算机视觉课程项目，用于对人物图像应用色彩突出效果，取得了很好的效果。

地图绘制挑战：将卫星影像转换为地图，供人道主义组织使用。

地图绘制挑战

用于从地理空间影像生成矢量掩膜的 GRASS GIS 插件。基于 Ondřej Pešek 的硕士论文。

GRASS GIS 图像

Mask R-CNN 快速上手指南

Mask R-CNN 是一个基于 Python 3、Keras 和 TensorFlow 的目标检测与实例分割模型实现。该模型能够生成图像中每个物体实例的边界框和分割掩码，底层架构基于特征金字塔网络（FPN）和 ResNet101 骨干网络。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux 或 Windows (Windows 需额外配置编译工具)
Python: 3.4+ (推荐 3.6+)
核心框架:
- TensorFlow 1.3+ (注意：此版本主要针对 TF 1.x，若需在 TF 2.x 运行可能需要修改代码或使用兼容模式)
- Keras 2.0.8+
其他依赖: 详见项目根目录下的 requirements.txt
MS COCO 数据集支持 (可选): 如需训练或测试 MS COCO 数据集，需安装 pycocotools。
- Linux: 推荐使用修复版 https://github.com/waleedka/coco
- Windows: 推荐使用修复版 https://github.com/philferriere/cocoapi (需安装 Visual C++ 2015 Build Tools)

提示: 国内用户如遇 pip 下载缓慢，可临时使用清华或阿里镜像源： pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

请按顺序执行以下命令完成安装：

克隆仓库

git clone https://github.com/matterport/Mask_RCNN.git
cd Mask_RCNN

安装 Python 依赖
```
pip3 install -r requirements.txt
```
安装 Mask R-CNN 包 在项目根目录下运行 setup 脚本：
```
python3 setup.py install
```
下载预训练权重 从 Releases 页面下载在 MS COCO 上预训练的权重文件 mask_rcnn_coco.h5，并将其放置在项目根目录或您指定的路径下。
(可选) 安装 pycocotools 如果您计划使用 MS COCO 数据集，请根据操作系统安装对应的 fork 版本：
- Linux:
```
pip3 install git+https://github.com/waleedka/coco.git#subdirectory=PythonAPI
```
- Windows: 请参考 philferriere/cocoapi 仓库说明进行编译安装。

基本使用

最简单的入门方式是运行官方提供的 Jupyter Notebook 演示，它展示了如何加载预训练模型并对自定义图片进行实例分割。

方式一：运行 Demo Notebook (推荐)

启动 Jupyter Notebook 并打开演示文件：

jupyter notebook samples/demo.ipynb

在该 Notebook 中，您将看到完整的流程：

加载预训练的 COCO 权重。
读取任意图片。
执行目标检测和实例分割。
可视化结果（边界框、类别标签、彩色掩码）。

方式二：代码调用示例

如果您希望在 Python 脚本中直接调用，参考以下核心逻辑：

import os
import numpy as np
from mrcnn.config import Config
from mrcnn import model as modellib, utils
from mrcnn import visualize

# 1. 定义配置类 (继承自 Config)
class InferenceConfig(Config):
    NAME = "coco_inference"
    IMAGES_PER_GPU = 1
    NUM_CLASSES = 1 + 80  # COCO 有 80 个类别 + 背景

config = InferenceConfig()

# 2. 创建模型实例
model = modellib.MaskRCNN(mode="inference", config=config, model_dir="./logs")

# 3. 加载预训练权重
COCO_MODEL_PATH = "./mask_rcnn_coco.h5"  # 确保文件存在
model.load_weights(COCO_MODEL_PATH, by_name=True)

# 4. 运行检测
image = ... # 加载您的图片 (numpy array)
results = model.detect([image], verbose=1)

# 5. 获取结果
r = results[0]
# r['rois']: 边界框
# r['masks']: 掩码
# r['class_ids']: 类别 ID
# r['scores']: 置信度

# 6. 可视化结果
visualize.display_instances(image, r['rois'], r['masks'], r['class_ids'], 
                            class_names=class_names, scores=r['scores'])

进阶：训练自己的数据集

若要训练自定义数据集（如气球颜色飞溅示例），请参考 samples/balloon/balloon.py 或 samples/shapes/train_shapes.ipynb。核心步骤包括：

子类化 Config 类以修改类别数和路径。
子类化 Dataset 类以加载和预处理您的数据。
调用 model.train() 开始训练。

版本历史

v2.12018/03/19

v2.02017/11/26

v1.02017/10/23

常见问题

如何安装 pycocotools 模块？

如何提高输出掩码（Mask）的分辨率以减少块状效应？

如何在自定义数据集上训练模型以支持多个类别（多分类）？

在 TensorFlow 2.x 环境下运行推理时出现错误或结果异常怎么办？

修改掩码分辨率后训练时报错 "Incompatible shapes"（形状不兼容）如何解决？

使用 VIA 工具标注的数据集如何转换为 Mask RCNN 可用的格式？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 152.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|3天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|6天前

插件开发框架

使用场景

没有 Mask_RCNN 时

使用 Mask_RCNN 后

运行环境要求

快速开始

用于目标检测与分割的 Mask R-CNN

快速入门

分步检测

1. 锚点排序与过滤

2. 边界框精炼

3. 掩码生成

4. 层激活

5. 权重直方图

6. 日志记录到 TensorBoard

6. 将各个部分组合成最终结果

在 MS COCO 数据集上训练

在自定义数据集上训练

与官方论文的区别

引用

贡献

环境要求

MS COCO 特别要求：

安装步骤

使用本模型的项目

4K 视频演示 by Karol Majek。

图片转 OSM：通过添加棒球、足球、网球、橄榄球和篮球场来改进 OpenStreetMap。

色彩点缀：一篇博客文章，详细介绍了如何从头训练该模型，并利用它实现色彩点缀效果。

显微镜图像中的细胞核分割。专为 2018 年数据科学碗竞赛 开发。

手术机器人检测与分割 by the NUS 控制与机电一体化实验室。

利用航空 LiDAR 数据重建三维建筑

Usiigaci：相位差显微镜下的无标记细胞追踪

极高分辨率航空影像中的北极冰楔多边形特征分析

Mask-RCNN Shiny

地图绘制挑战：将卫星影像转换为地图，供人道主义组织使用。

用于从地理空间影像生成矢量掩膜的 GRASS GIS 插件。基于 Ondřej Pešek 的硕士论文。

Mask R-CNN 快速上手指南

环境准备

安装步骤

基本使用

方式一：运行 Demo Notebook (推荐)

方式二：代码调用示例

进阶：训练自己的数据集

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

显微镜图像中的细胞核分割。专为 2018 年数据科学碗竞赛开发。