make-sense

3.5k 583 简单 1 次阅读今天GPL-3.0开发框架数据工具图像

AI 解读由 AI 自动生成，仅供参考

make-sense 是一款免费且无需安装的在线图片标注工具，专为计算机视觉项目设计。用户只需打开浏览器访问网站，即可立即开始为照片绘制边界框、多边形等标签，并支持导出多种主流格式的数据集。它有效解决了传统标注软件安装繁琐、跨平台兼容性差以及数据隐私担忧等痛点，让数据集准备过程变得更加轻松高效。

这款工具特别适合人工智能开发者、深度学习研究人员以及需要构建自定义数据集的学生团队使用。无论是小型实验项目还是快速原型验证，make-sense 都能提供流畅的标注体验。其独特的技术亮点在于深度集成了基于 TensorFlow.js 的本地 AI 模型（如 YOLOv5、SSD 和 PoseNet）。这意味着 AI 不仅能自动推荐标注位置以减轻重复劳动，而且所有图像数据处理均在用户本地浏览器中完成，无需上传至服务器，从而在提升效率的同时最大程度保障了数据隐私与安全。

使用场景

某初创团队正在开发一套基于视觉的零售货架商品检测系统，需要快速构建包含数千张货架照片的高质量训练数据集。

没有 make-sense 时

环境部署繁琐：团队成员需在不同操作系统上配置复杂的 Python 环境和标注软件依赖，耗时且容易出错。
数据隐私风险：使用在线商业标注平台时，必须将未脱敏的原始货架照片上传至第三方服务器，存在泄露风险。
人工效率低下：完全依靠手动绘制每个商品的边界框，面对密集排列的商品，单人每天仅能处理少量图片。
格式转换困难：导出的标注文件格式单一，后续需编写额外脚本才能转换为 YOLO 或 COCO 等模型所需的格式。

使用 make-sense 后

开箱即用：成员只需打开浏览器访问网站即可立即开始工作，无需安装任何软件，完美适配 Windows、Mac 和 Linux 各种设备。
本地隐私保护：借助 TensorFlow.js 技术，所有图片处理和 AI 推理均在本地浏览器完成，原始数据无需上传，确保数据安全。
AI 智能辅助：集成 YOLOv5 和 SSD 预训练模型，自动推荐商品边界框和类别，人工仅需微调，标注速度提升数倍。
多格式支持：一键导出多种主流深度学习框架支持的标注格式，直接对接训练流程，省去格式转换环节。

make-sense 通过“浏览器即服务”和“本地化 AI 辅助”的双重优势，将数据准备周期从数周缩短至数天，同时牢牢守住了数据隐私底线。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需（基于浏览器运行，AI 推理使用 TensorFlow.js 在本地设备执行，支持 CPU 或 GPU 加速）

内存

未说明

依赖

notes该工具主要作为在线网页应用运行，无需安装即可使用。若需本地部署，需克隆仓库并安装 Node.js (v16.x.x) 和 npm (8.x.x)。AI 功能（如 YOLOv5, SSD, PoseNet）通过 TensorFlow.js 在浏览器端运行，保护数据隐私，图片无需上传至服务器。支持多种标注导出格式（CSV, YOLO, VOC XML 等）。

python不需要

Node.js v16.x.x

npm 8.x.x

React

Redux

TypeScript

TensorFlow.js

快速开始

GitHub release (latest by date including pre-releases)

makesense.ai

make sense logo

makesense.ai 是一款免费的在线照片标注工具。由于它基于浏览器运行，无需复杂的安装步骤——只需访问网站即可开始使用。此外，无论您使用哪种操作系统，我们都致力于提供真正的跨平台体验。这款工具非常适合小型计算机视觉深度学习项目，能够显著简化和加速数据集的准备工作。生成的标注文件可以以多种支持的格式下载。该应用采用 TypeScript 编写，并基于 React/Redux 框架开发。

📄 文档

您可以通过我们新发布的文档了解更多关于这款工具的信息——目前仍在 🚧 建设中。请告诉我们您希望我们优先涵盖哪些主题。

🤖 高级 AI 集成

makesense.ai 致力于大幅减少您在照片标注上花费的时间。我们正在努力集成最新、最强大的 AI 模型，这些模型不仅可以为您提供标注建议，还能自动完成重复且繁琐的任务。

YOLOv5 是我们目前功能最强大的集成。借助 yolov5js，您可以加载不仅来自 yolov5js-zoo 的预训练模型，更重要的是，您还可以加载自己使用 YOLOv5 训练并导出为 tfjs 格式的模型。
SSD 已在 COCO 数据集上预训练，能够在照片上为您绘制边界框，并在某些情况下建议标签。
PoseNet 是一种视觉模型，可用于通过估计关键身体关节的位置来估算图像或视频中的人体姿态。

驱动我们 AI 功能的核心引擎是 TensorFlow.js——这是最流行的神经网络训练框架的 JavaScript 版本。这一选择不仅有助于加快您的工作速度，还能保护您的数据隐私，因为与其他商业和开源工具不同，您的照片无需上传到服务器。这一次，AI 就在您的设备上运行！

https://user-images.githubusercontent.com/26109316/193255987-2d01c549-48c3-41ae-87e9-e1b378968966.mov

💻 本地设置

# 克隆仓库
git clone https://github.com/SkalskiP/make-sense.git

# 进入主目录
cd make-sense

# 安装依赖
npm install

# 在 localhost:3000 启动热重载服务
npm start

为了确保应用程序在本地正常运行，需要 npm 8.x.x 和 node.js v16.x.x 版本。有关此问题的更多信息，请参阅 #16。

🐳 Docker 设置

# 构建 Docker 镜像
docker build -t make-sense -f docker/Dockerfile .

# 以服务方式运行 Docker 镜像
docker run -dit -p 3000:3000 --restart=always --name=make-sense make-sense

# 查看 Docker 容器日志
docker logs make-sense

# 访问 makesense：http://localhost:3000/

⌨️ 键盘快捷键

功能	场景	Mac	Windows / Linux
多边形自动完成	编辑器	`Enter`	`Enter`
取消多边形绘制	编辑器	`Escape`	`Escape`
删除当前选中的标签	编辑器	`Backspace`	`Delete`
加载上一张图片	编辑器	`⌥` + `Left`	`Ctrl` + `Left`
加载下一张图片	编辑器	`⌥` + `Right`	`Ctrl` + `Right`
放大	编辑器	`⌥` + `+`	`Ctrl` + `+`
缩小	编辑器	`⌥` + `-`	`Ctrl` + `-`
移动图片	编辑器	`Up` / `Down` / `Left` / `Right`	`Up` / `Down` / `Left` / `Right`
选择标签	编辑器	`⌥` + `0-9`	`Ctrl` + `0-9`
关闭弹出窗口	弹出窗口	`Escape`	`Escape`

表 1. 支持的键盘快捷键

⬆️ 导出格式

	CSV	YOLO	VOC XML	VGG JSON	COCO JSON	PIXEL MASK
点	✓	✗	☐	☐	☐	✗
线	✓	✗	✗	✗	✗	✗
矩形	✓	✓	✓	☐	☐	✗
多边形	☐	✗	☐	✓	✓	☐
标签	✓	✗	✗	✗	✗	✗

表 2. 支持的标签导出格式矩阵，其中：

✓ - 支持的格式
☐ - 尚未支持的格式
✗ - 对该标签类型无意义的格式

您可以在我们的 Wiki 上找到导出文件的示例、描述和模式。

⬇️ 导入格式

	CSV	YOLO	VOC XML	VGG JSON	COCO JSON	PIXEL MASK
点	☐	✗	☐	☐	☐	✗
线	☐	✗	✗	✗	✗	✗
矩形	☐	✓	✓	☐	✓	✗
多边形	☐	✗	☐	☐	✓	☐
标签	☐	✗	✗	✗	✗	✗

表 3. 支持的标签导入格式矩阵

✓ - 支持的格式
☐ - 尚未支持的格式
✗ - 对该标签类型无意义的格式

🔐 隐私

我们不会存储您的图片，因为我们根本不会将它们发送到任何地方。

🚀 教程

如果你刚刚开始深度学习之旅，并希望在学习过程中创造出一些有趣的东西，makesense.ai 可以帮助你实现。利用我们的边界框标注功能准备数据集，并用它来训练你的第一个最先进的目标检测模型。请按照说明和示例操作，但最重要的是，释放你的创造力。

🏆 贡献

💬 引用

如果你的研究中使用了 Make Sense，请在你的论文或出版物中引用它。以下是一个 BibTeX 条目的示例：

@MISC{make-sense,
   author = {Piotr Skalski},
   title = {{Make Sense}},
   howpublished = "\url{https://github.com/SkalskiP/make-sense/}",
   year = {2019},
}

🪧 许可证

Make Sense 快速上手指南

Make Sense 是一款免费、开源的在线图像标注工具，专为计算机视觉深度学习项目设计。它无需安装即可在浏览器中使用，支持多种标注格式导出，并集成了 YOLOv5、SSD 等 AI 模型以辅助自动标注。所有数据处理均在本地完成，确保隐私安全。

环境准备

在本地部署前，请确保您的开发环境满足以下要求：

操作系统：跨平台支持（Windows, macOS, Linux）
Node.js: 推荐版本 v16.x.x
npm: 推荐版本 8.x.x
浏览器: 现代浏览器（Chrome, Firefox, Edge 等）

注意：版本不匹配可能导致应用无法正常运行（参考官方 Issue #16）。

安装步骤

您可以选择通过源码运行或 Docker 容器化部署。

方式一：源码运行（推荐开发者）

克隆仓库

git clone https://github.com/SkalskiP/make-sense.git

进入项目目录
```
cd make-sense
```
安装依赖 国内用户若遇到下载缓慢，可临时配置淘宝镜像源：
```
npm config set registry https://registry.npmmirror.com
npm install
```
启动服务
```
npm start
```
服务启动后，访问 http://localhost:3000/ 即可使用。

方式二：Docker 部署

如果您已安装 Docker，可使用以下命令快速构建并运行：

构建镜像

docker build -t make-sense -f docker/Dockerfile .

运行容器

docker run -dit -p 3000:3000 --restart=always --name=make-sense make-sense

访问服务 打开浏览器访问 http://localhost:3000/。

基本使用

Make Sense 的核心优势在于“开箱即用”和“本地隐私保护”。

开始标注
- 访问应用页面后，点击 "Start Project"。
- 上传您需要标注的图片文件（支持批量上传）。
- 定义标签类别（例如：person, car, dog）。
进行标注
- 在图片上绘制边界框（Rect）、多边形（Polygon）、点（Point）或线（Line）。
- AI 辅助：启用右侧面板的 AI 模型（如 YOLOv5 或 SSD），可自动推荐检测框，大幅减少手动操作。
- 快捷键：
  - Enter: 完成多边形绘制
  - Escape: 取消当前操作
  - Ctrl + Left/Right (Mac: Option + Left/Right): 切换上一张/下一张图片
  - Ctrl + +/-: 缩放图片
导出数据
- 标注完成后，点击 "Export" 按钮。
- 选择您需要的格式（支持 CSV, YOLO, VOC XML, COCO JSON, VGG JSON 等）。
- 标签文件将直接下载到本地，图片本身不会上传至任何服务器。
导入现有数据
- 如果您已有部分标注文件（如 YOLO 或 COCO 格式），可在项目开始时直接导入，继续编辑或修正。

版本历史

1.11.0-alpha2022/12/20

1.10.0-alpha2022/10/02

1.9.0-alpha2022/07/26

1.8.0-alpha2021/09/06

1.7.0-alpha2020/10/06

1.6.0-alpha2020/06/15

1.5.0-alpha2019/10/01

1.4.0-alpha2019/09/23

1.3.0-alpha2019/09/15

1.2.1-alpha2019/09/04

1.2.0-alpha2019/08/25

1.1.0-alpha2019/08/15

1.0.0-alpha2019/08/15

常见问题

如何导入现有的标注文件（例如 YOLO 格式）？

在 Windows 10 上运行时报错 'Cannot find module @csstools/normalize.css' 怎么办？

Docker 构建失败，报错 'Unsupported platform for esbuild-linux-arm64' 如何解决？

如何在本地运行时修复 TypeScript 编译错误（如 TS1005 或 TS2345）？

是否支持通过两次点击（而非拖拽）来绘制边界框？

如何导入自定义模型以加速标注？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架