semantic-segmentation-editor

2k 451 中等 1 次阅读 5天前MIT数据工具开发框架图像

AI 解读由 AI 自动生成，仅供参考

semantic-segmentation-editor 是一款基于网页的开源标注工具，专为构建人工智能训练数据集而设计，尤其适用于自动驾驶领域的研究。它核心解决了高质量语义分割数据制作难的问题，支持对二维位图图像（如 JPG、PNG）和三维点云数据（PCD 格式）进行可视化标注与编辑。

这款工具非常适合 AI 开发者、计算机视觉研究人员以及自动驾驶算法工程师使用。通过浏览器即可直接操作，用户无需安装复杂的本地客户端，便能高效地完成像素级图像分割和大规模点云的场景理解标注。其独特的技术亮点在于强大的跨维度处理能力：不仅集成了 React、Paper.js 用于精细的 2D 绘图，还利用 three.js 实现了流畅的 3D 点云渲染，即便面对百万级点数的大型场景也能保持良好性能。此外，它还支持 RGB 彩色点云及多种压缩格式，并提供 Docker 一键部署方案，极大降低了环境配置门槛，让团队能快速搭建私有化的数据标注平台，专注于模型训练数据的积累与优化。

使用场景

某自动驾驶初创团队正在构建城市道路感知模型，急需对采集的数万张街景图片及对应的激光雷达点云数据进行像素级语义标注。

没有 semantic-segmentation-editor 时

多模态数据割裂：团队成员需分别使用 Photoshop 处理 2D 图像、用专用桌面软件处理 3D 点云，导致同一场景的图像与点云标签难以对齐，协作效率极低。
部署门槛高：标注工具依赖特定操作系统或昂贵的商业授权，新加入的标注员配置环境耗时数天，且无法通过浏览器直接访问。
大规模数据处理难：面对百万级点的稠密点云，现有开源工具频繁卡顿甚至崩溃，无法完成精细化的路面与障碍物分割。
类别定制繁琐：每次新增“施工路障”或“特殊车辆”等自定义类别，都需要修改底层代码并重新编译，响应业务需求滞后。

使用 semantic-segmentation-editor 后

2D/3D 统一标注：基于 Web 的界面同时支持 JPG 图片与 PCD 点云，标注员可在同一项目中无缝切换视图，确保多模态训练数据的高度一致性。
一键容器化部署：通过 Docker Compose 即可在服务器快速启动服务，标注员只需打开浏览器即可工作，无需关心本地环境配置。
高性能点云渲染：得益于 three.js 优化，即使加载百万级点数的街道场景也能流畅操作，轻松完成复杂路况的精细化分割。
灵活配置类别：仅需编辑 settings.json 文件即可动态添加或修改语义类别（如行人、车道线），即刻生效，极大提升了数据集迭代的灵活性。

semantic-segmentation-editor 通过轻量化的 Web 架构打通了 2D 图像与 3D 点云的标注壁垒，显著降低了自动驾驶数据准备的成本与周期。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明（标注百万级点云时建议较高内存）

依赖

notes该工具是基于 Meteor 框架开发的 Web 应用，非深度学习推理模型，因此无特定 GPU 或 Python 版本要求。支持通过 Docker Compose 部署或源码运行（需安装 Meteor）。处理大规模点云（如 100 万个点）时性能已优化，但具体内存需求取决于数据量。配置文件 settings.json 用于自定义类别和数据存储路径。

python未说明

Meteor 1.10+

React

Paper.js

three.js

Node.js (via Meteor)

Docker (可选)

快速开始

语义分割编辑器

一款基于Web的标注工具，用于创建AI训练数据集（2D和3D）。该工具是在自动驾驶研究背景下开发的。它支持图像文件（.jpg或.png）以及点云文件（.pcd）。这是一款使用Meteor框架，并结合React、Paper.js和three.js构建的应用程序。

最新变更

版本1.5: 提供Docker镜像并升级至Meteor 1.10
版本1.4: 支持RGB点云（感谢@Gekk0r）
版本1.3: 改进点云标注功能：修复了若干Bug并提升了性能（现在可以标注包含100万点的点云）
版本1.2.2: 破坏性变更：导出的点云坐标不再进行平移（感谢@hetzge）
版本1.2.0: 支持二进制及二进制压缩格式的点云文件（感谢@CecilHarvey）

位图图像编辑器

:movie_camera: 视频：位图标注概览

PCD点云编辑器

:movie_camera: 视频：点云标注概览

如何运行

使用Docker Compose

下载Docker Compose堆栈文件（sse-docker-stack.yml）
设置包含位图和点云文件的目录（YOUR_IMAGES_PATH），然后使用docker-compose运行工具
工具默认在端口80上运行，您可以在sse-docker-stack.yml中更改映射配置。

wget https://raw.githubusercontent.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor/master/sse-docker-stack.yml
wget https://raw.githubusercontent.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor/master/settings.json
METEOR_SETTINGS=$(cat ./settings.json) SSE_IMAGES=YOUR_IMAGES_PATH docker-compose -f stack.yml up

（可选）您可以修改settings.json来自定义类别数据。

从源码运行

安装Meteor（OSX或Linux）

curl https://install.meteor.com/ | sh

或者下载Meteor Windows安装程序

从这里下载并解压最新版本

启动应用

cd semantic-segmentation-editor-x.x.x
meteor npm install
meteor npm start

编辑器默认会在http://localhost:3000上运行。

(可选) 编辑settings.json

默认情况下，图像会从your_home_dir/sse-images目录提供服务，而点云二进制分割数据则会存储在your_home_dir/sse-internal目录中。您可以通过修改settings.json中的images-folder和internal-folder属性来配置这些目录。在Windows系统中，请使用“/”作为路径分隔符，例如c:/Users/john/images。

请查阅Meteor环境变量文档，以配置您的应用 (MONGO_URL、DISABLE_WEBSOCKETS等...)

配置文件：settings.json

{
  "configuration": {
    "images-folder": "/mnt/images", // 包含图像和PCD文件的根目录
    "internal-folder": "/mnt/pointcloud_data" // 分割数据（仅3D）将存储在此目录
  },
  // 工具中可用的不同类别集合
  // 对于对象类别，仅需填写'label'字段
  // 'icon'字段可以使用mdi-material-ui包中的图标
  "sets-of-classes": [
    {
      "name": "Cityscapes", "objects": [
      {"label": "VOID", "color": "#CFCFCF"},
      {"label": "道路", "color": "#804080", "icon": "Road"},
      {"label": "人行道", "color": "#F423E8", "icon": "NaturePeople"},
      {"label": "停车场", "color": "#FAAAA0", "icon": "Parking"},
      {"label": "铁路轨道", "color": "#E6968C", "icon": "Train"},
      {"label": "行人", "color": "#DC143C", "icon": "Walk"},
      {"label": "骑车人", "color": "#FF0000", "icon": "Motorbike"},
      {"label": "汽车", "color": "#0000E8", "icon": "Car"}
    },
    { ... }
  ]
}

使用方法

编辑器由三个不同的界面组成：

文件浏览器允许您浏览可用文件，选择位图图像或点云进行标注。

位图图像编辑器专门用于对jpg和png文件进行多边形标注。

点云编辑器则用于通过创建由3D点子集构成的对象来标注点云。

使用位图图像编辑器

有多种工具可用于创建标注多边形：

多边形绘制工具 (P)

单击和/或拖动以创建点
按 ESC 键可按相反顺序移除最后创建的点
拖动鼠标指针或按住 Shift 键，即可在无需为每个点单击的情况下创建复杂多边形
按 ENTER 键或双击第一个点以闭合多边形

魔术工具 (A)

使用对比度阈值检测自动创建多边形
此工具仅适用于绘制具有鲜明边缘对比的对象轮廓（例如：天空、车道标线）
在要描绘的区域内单击，然后调整右侧的滑块以优化结果
按 ENTER 键确认结果

操作工具 (Alt)

选择、移动现有多边形，并为其添加点
单击多边形内部将其选中
单击某个点将其选中
绘制套索圈以同时选中多个点
用鼠标拖动点以移动它
按住 Shift 键可分离属于多个多边形的点
单击多边形的一条边以创建新点，然后拖动新点以放置其位置

裁剪/扩展工具 (C)

修改现有多边形的形状
选择要修改的多边形
在多边形的轮廓上绘制一条起始和终止于轮廓上的直线
新线条将替换起始点和终点之间的原有路径
最终生成的形状始终是最大的一个

连续多边形工具 (F)

轻松创建连续多边形
使用多边形绘制工具开始绘制新多边形
将起点捕捉到要绕过的多边形轮廓上
将终点捕捉到另一条轮廓上，在此过程中应形成一条穿过一个或多个现有多边形的直线
按 F 键一次或多次以选择绕行路径

使用点云编辑器

鼠标左键：围绕当前焦点点（默认为点云中心）旋转点云；单击单个点将其添加到当前选区
鼠标滚轮：放大/缩小
鼠标中键（或 Ctrl+单击）：更改相机目标
鼠标右键：根据当前的选择工具和选择模式，用于同时选择多个点。
方向键：在场景中移动

PCD 支持

支持的 PCD 输入格式：ASCII、二进制及压缩二进制
支持的输入字段：x、y、z、label（可选整数）、rgb（可选整数）
输出 PCD 格式为 ASCII，包含字段 x、y、z、label、object 以及 rgb（如有）

API 端点

/api/listing：列出所有已标注的图像
/api/json/[文件路径]：（仅限 2D）获取该文件的多边形及其他数据
/api/pcdtext/[文件路径]：（仅限 3D）使用两个附加列：label 和 object 获取 PCD 文件的标注信息
/api/pcdfile/[文件路径]：（仅限 3D）与上一条相同，但以“纯文本”附件形式返回并可供下载

Semantic Segmentation Editor 快速上手指南

Semantic Segmentation Editor 是一款基于 Web 的标注工具，专为创建 AI 训练数据集（2D 图像和 3D 点云）而设计，广泛应用于自动驾驶研究领域。支持 JPG/PNG 图像及 PCD 点云文件的标注。

环境准备

系统要求

操作系统: Linux, macOS 或 Windows (WSL 推荐)
运行方式:
- 方案 A：Docker & Docker Compose（推荐，环境隔离好）
- 方案 B：本地源码运行（需安装 Meteor）

前置依赖

若选择方案 B（源码运行），需先安装 Meteor：

Linux/macOS:
```
curl https://install.meteor.com/ | sh
```
Windows: 下载并运行 Meteor Windows Installer

注意：国内网络环境下安装 Meteor 可能较慢，建议配置代理或使用国内镜像源加速 curl 请求。

安装步骤

方案一：使用 Docker Compose（推荐）

下载配置文件 获取 docker-compose 栈文件和默认设置文件：

wget https://raw.githubusercontent.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor/master/sse-docker-stack.yml
wget https://raw.githubusercontent.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor/master/settings.json

准备数据目录 创建一个文件夹存放待标注的图像和点云文件，假设路径为 /home/user/data。
启动服务 替换 YOUR_IMAGES_PATH 为你的实际数据路径，并执行以下命令：
```
METEOR_SETTINGS=$(cat ./settings.json) SSE_IMAGES=/home/user/data docker-compose -f sse-docker-stack.yml up
```
注：默认端口为 80，如需修改可在 sse-docker-stack.yml 中调整端口映射。

方案二：从源码运行

下载最新版本 从 GitHub Releases 下载最新压缩包并解压。

安装依赖并启动 进入项目目录执行：

cd semantic-segmentation-editor-x.x.x
meteor npm install
meteor npm start

访问应用 启动成功后，在浏览器打开 http://localhost:3000。

基本使用

启动后，编辑器主要包含三个界面：文件导航、2D 图像编辑器、3D 点云编辑器。

1. 配置类别 (可选)

在启动前或运行时，可编辑 settings.json 自定义标注类别（如道路、车辆、行人等）。

images-folder: 图像和 PCD 文件根目录。
sets-of-classes: 定义标签名称、颜色及图标。

2. 2D 图像标注流程

在文件导航中选择 .jpg 或 .png 文件。
绘制多边形 (快捷键 P):
- 点击或拖动创建顶点。
- 按 ESC 撤销上一个点。
- 按住 Shift 拖动可连续绘制复杂形状。
- 双击起点或按 ENTER 闭合多边形。
智能填充 (快捷键 A):
- 适用于边缘对比度明显的物体（如天空、车道线）。
- 点击区域内部，调整右侧滑块优化结果，按 ENTER 确认。
编辑与调整:
- 使用 操纵工具 (Alt) 移动顶点或调整形状。
- 使用 切割/扩展工具 (C) 修改多边形边界。

3. 3D 点云标注流程

在文件导航中选择 .pcd 文件（支持 ASCII, Binary, Binary compressed 格式）。
视角控制:
- 左键: 旋转视角；单击单点可将其加入选中状态。
- 滚轮: 缩放。
- 中键 (或 Ctrl+ 左键): 平移视角中心。
- 右键: 框选多个点（取决于当前选择模式）。
- 方向键: 在场景中移动。
标注操作:
- 选中点后，分配对应的类别标签。
- 标注数据将保存为包含 label 和 object 字段的 PCD 文件。

4. 数据导出

2D 数据: 通过 /api/json/[文件路径] 获取多边形坐标 JSON。
3D 数据: 通过 /api/pcdfile/[文件路径] 下载标注后的 PCD 文件。

版本历史

1.6.02021/01/04

1.5.32020/09/03

1.5.22020/07/20

1.5.12020/06/16

1.5.02020/05/06

1.4.02020/02/13

1.3.02020/01/04

1.2.22019/12/20

1.2.12019/12/18

1.2.02019/12/17

1.1.42019/09/17

1.1.32019/06/12

常见问题

在 MacOS 上运行时报错 'Cannot find module @babel/runtime/helpers/builtin/interopRequireDefault' 怎么办？

绘制大量重叠多边形时工具卡死或冻结如何解决？

为什么通过 Python 脚本调用 API (localhost:3000/api/json/...) 返回空数据，而浏览器访问正常？

点云编辑器无法加载大型 .pcd 文件（如 1GB），一直显示加载动画怎么办？

当数据库中标注文件超过一千个时，文件导航变得非常缓慢怎么办？

如何在点云编辑器中加载本地 PC 上的 .pcd 文件？打开后只显示默认文件。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent