EdgeSAM

GitHub
1.1k 58 简单 1 次阅读 2天前NOASSERTION图像开发框架
AI 解读 由 AI 自动生成,仅供参考

EdgeSAM 是专为手机、平板等边缘设备打造的加速版图像分割模型,源自著名的 Segment Anything Model (SAM)。它主要解决了原版 SAM 模型体积大、计算慢,难以在本地设备上实时运行的痛点。通过独特的“提示循环蒸馏”技术,EdgeSAM 将原本基于 ViT 的复杂架构转化为更轻量的纯 CNN 架构,并在训练过程中让提示编码器与掩码解码器共同参与,从而精准捕捉用户输入与生成结果间的动态关系。

这一创新使得 EdgeSAM 在几乎不牺牲精度的前提下,速度比原版 SAM 提升了 40 倍,比同类轻量模型 MobileSAM 快 14 倍,更是首个能在 iPhone 14 上实现超过 30 FPS 实时运行的 SAM 变体。无论是希望在移动端集成高精度分割功能的开发者、追求高效实验的研究人员,还是希望通过 iOS 应用(如 CutCha)体验一键抠图的普通用户,都能从中受益。目前,EdgeSAM 已开源训练代码并支持 ONNX 导出,轻松融入各类标注工具与工作流,让强大的 AI 分割能力真正触手可及。

使用场景

某电商平台的移动端开发团队正在构建一款让用户通过手机拍照快速抠图换背景的功能,以增强商品展示效果。

没有 EdgeSAM 时

  • 响应延迟严重:原始 SAM 模型计算量过大,在手机上处理一张图片需数秒,用户等待焦虑感强,极易流失。
  • 云端依赖成本高:为弥补手机端算力不足,不得不将图片上传至云端服务器处理,导致流量带宽成本激增且受网络波动影响大。
  • 小目标分割不准:现有的轻量级替代方案(如早期 MobileSAM)在复杂背景下对细小商品边缘的识别精度不足,抠图效果粗糙。
  • 发热耗电快:高强度的推理运算导致手机迅速发热并大量消耗电量,严重影响用户体验和应用留存率。

使用 EdgeSAM 后

  • 实时交互流畅:EdgeSAM 在 iPhone 14 等设备上实现超 30 FPS 的推理速度,用户手指移动提示框时,掩码生成几乎零延迟。
  • 纯端侧部署省钱:凭借极致的轻量化架构,所有计算均在本地完成,彻底省去了云端推理的带宽费用和网络延迟问题。
  • 细节还原更精准:通过“提示循环蒸馏”技术,EdgeSAM 在保持高速的同时,显著提升了 COCO 和 LVIS 数据集上的分割精度,发丝级边缘清晰可见。
  • 低功耗长续航:专为边缘设备优化的 CNN 架构大幅降低了算力负载,用户长时间使用也不会感到手机发烫或电量骤降。

EdgeSAM 成功将原本只能运行在服务器上的强大分割能力“装进”了用户的口袋,让高质量的实时图像编辑在移动端成为常态。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 非必需
  • 支持在无 GPU 环境下运行(使用 CPU 后端),若有 NVIDIA GPU 可加速(文中测试环境包含 2080 Ti, 3090)
  • iOS 部署需 CoreML 兼容设备(如 iPhone 14+)
内存

未说明

依赖
notes1. 该项目专为边缘设备优化,在无 GPU 的移动端或 Web 端也能流畅运行(iPhone 14 上可达 30+ FPS)。2. 若需导出 CoreML 模型,遇到 coremltools==7.1 的断言错误时,需手动注释掉源码中的相关断言代码。3. 导出的 CoreML 模型不包含动态尺寸的预处理和后处理步骤。4. 使用 ONNX 加速 Web Demo 时,需根据是否有 GPU 选择安装 onnxruntime 或 onnxruntime-gpu,不可同时安装。
python3.8+
torch==2.0.0
torchvision==0.15.1
onnxruntime (可选,版本 1.16.3)
onnxruntime-gpu (可选,版本 1.16.3)
coremltools (可选,用于导出 CoreML 模型)
EdgeSAM hero image

快速开始

EdgeSAM

基于提示循环的蒸馏技术,用于在端侧设备上部署 SAM

周冲1, 李翔泰1, 陈昌毅·洛伊1*, 戴博2

(*通讯作者)

1S-Lab,南洋理工大学2上海人工智能实验室

[论文] [项目页面] [Hugging Face 演示] [iOS 应用]

https://github.com/chongzhou96/EdgeSAM/assets/15973859/fe1cd104-88dc-4690-a5ea-ff48ae013db3

观看完整直播演示视频:[YouTube] [Bilibili]

更新

  • 2024年7月23日:我们发布了训练和评估代码,请查看 README_TRAIN.md
  • 2024年6月5日:请体验由 EdgeSAM 提供支持的 iOS 应用 CutCha
  • 2024年1月1日:EdgeSAM 已集成到 X-AnyLabeling 中。
  • 2023年12月19日:EdgeSAM 现已在分割标注工具 ISAT 中得到支持。
  • 2023年12月16日:EdgeSAM 现已在 Grounded-Segment-Anything 中得到支持。请查看 grounded-edge-sam 演示。感谢 IDEA Research 团队!
  • 2023年12月14日autodistill-grounded-edgesam 将 Grounding DINO 和 EdgeSAM 结合,打造了 Grounded EdgeSAM [博客]。感谢 Roboflow 团队!
  • 2023年12月13日:添加了 ONNX 导出,并以 ONNX 为后端加速了网页演示。

概述

EdgeSAM 是 Segment Anything Model (SAM) 的加速版本,专为在边缘设备上高效运行而优化,同时几乎不损失性能。 与原始 SAM 相比,它实现了 40 倍的速度提升,并且优于 MobileSAM,在边缘设备上部署时速度是后者的 14 倍,同时将 COCO 和 LVIS 数据集上的 mIoU 分别提高了 2.3 和 3.2。 EdgeSAM 也是首个能够在 iPhone 14 上以 超过 30 FPS 运行的 SAM 变体。

compare

在这张图中,我们展示了 EdgeSAM 与 SAM 和 MobileSAM 的编码器吞吐量对比,以及在 SA-1K 数据集(从 SA-1B 中采样)上使用框和点提示时的 mIoU 性能。

方法

我们的方法是将基于 ViT 的原始 SAM 图像编码器蒸馏成纯 CNN 架构,更适合边缘设备。我们仔细评估了多种蒸馏策略,并证明任务无关的编码器蒸馏无法捕捉 SAM 中蕴含的全部知识。为了克服这一瓶颈,我们将提示编码器和掩码解码器都纳入蒸馏过程,并在循环中加入框和点提示,使蒸馏后的模型能够准确捕捉用户输入与掩码生成之间的复杂动态。

arch

性能
方法 训练集 COCO AP COCO APs COCO APm COCO APl GFLops MParam. FPS iPhone 14 FPS 2080 Ti FPS 3090
SAM SA-1B 46.1 33.6 51.9 57.7 2734.8 641.1 - 4.3 -
FastSAM 2% SA-1B 37.9 23.9 43.4 50.0 887.6 68.2 - - 25.0*
MobileSAM 1% SA-1B 39.4 26.9 44.4 52.2 38.2 9.8 4.9 103.5 100.0*
EdgeSAM 1% SA-1B 42.2 29.6 47.6 53.9 22.1 9.6 38.7 164.3 -
EdgeSAM-3x 3% SA-1B 42.7 30.0 48.6 54.5 22.1 9.6 38.7 164.3 -
EdgeSAM-10x 10% SA-1B 43.0 30.3 48.9 55.1 22.1 9.6 38.7 164.3 -

在此表格中,我们报告了 COCO 数据集上的掩码 mAP。检测器采用 ViTDet-H,其框 mAP 为 58.7,用于提供框提示。在速度基准测试中,我们对编码器和解码器进行了推理(使用单个提示)。FLOPs 是基于 1024x1024 输入分辨率计算的。标有 * 的数字来自 MobileSAM。3x 和 10x 表示使用更多数据进行训练。此处我们未按照原始 SAM 论文中的设置应用额外的掩码细化迭代。

目录

安装

代码需要 python>=3.8,我们使用 torch==2.0.0torchvision==0.15.1。请参考 官方 PyTorch 安装说明

  1. 在本地克隆仓库:
git clone https://github.com/chongzhou96/EdgeSAM.git && cd EdgeSAM
  1. 安装其他依赖项:
pip install -r requirements.txt
  1. 安装 EdgeSAM:
pip install -e .

使用方法

  1. 下载检查点文件(有关 PyTorch 和 CoreML 检查点的更多详细信息,请参阅 检查点):
mkdir weights
wget -P weights/ https://huggingface.co/spaces/chongzhou/EdgeSAM/resolve/main/weights/edge_sam.pth
wget -P weights/ https://huggingface.co/spaces/chongzhou/EdgeSAM/resolve/main/weights/edge_sam_3x.pth
  1. 您可以通过以下几行代码轻松地将 EdgeSAM 集成到您的 Python 代码中:
from edge_sam import SamPredictor, sam_model_registry
sam = sam_model_registry["edge_sam"](checkpoint="<path/to/checkpoint>")
predictor = SamPredictor(sam)
predictor.set_image(<your_image>)
masks, _, _ = predictor.predict(<input_prompts>)

由于 EdgeSAM 采用与 SAM 相同的编码器-解码器架构,因此两者的使用方式非常相似。一个细微的区别是,EdgeSAM 可为每个提示输出 1、3 或 4 个掩码候选,而 SAM 则只能输出 1 或 3 个掩码。有关更多详细信息,请参阅 示例 Jupyter Notebook

训练与评估

有关详细信息,请参阅 README_TRAIN.md

Web 演示

在安装 EdgeSAM 并下载检查点文件后,您可以使用以下命令启动交互式 Web 演示:

python web_demo/gradio_app.py

默认情况下,演示将在 http://0.0.0.0:8080/ 上运行,并期望 edge_sam_3x.pth 存储在 weights/ 文件夹中。您可以通过以下方式更改默认行为:

python web_demo/gradio_app.py --checkpoint [CHECKPOINT] --server-name [SERVER_NAME] --port [PORT]

由于 EdgeSAM 可以在手机上流畅运行,因此即使没有 GPU 也无妨。 我们已在 Hugging Face Space 中部署了相同的 Web 演示 [链接]。 然而,由于它使用 CPU 作为后端且所有用户共享资源,体验可能不如本地部署。 非常感谢 Hugging Face 团队为我们提供 GPU 支持!

使用 ONNX 后端加速 Web 演示

  1. 如果您的机器没有 GPU,请使用 pip install onnxruntime 安装 onnxruntime;如果有 GPU,则使用 pip install onnxruntime-gpu(但不要同时安装两者)。我们的实现已在版本 1.16.3 下测试通过。

  2. 将 ONNX 模型下载到 weights/ 文件夹:

wget -P weights/ https://huggingface.co/spaces/chongzhou/EdgeSAM/resolve/main/weights/edge_sam_3x_encoder.onnx
wget -P weights/ https://huggingface.co/spaces/chongzhou/EdgeSAM/resolve/main/weights/edge_sam_3x_decoder.onnx
  1. 启动演示:
python web_demo/gradio_app.py --enable-onnx
  1. 在浏览器中访问 http://0.0.0.0:8080。

CoreML / ONNX 导出

CoreML

我们提供了一个脚本,可以将训练好的 EdgeSAM PyTorch 模型导出为两个 CoreML 模型包,分别用于编码器和解码器。您也可以在 检查点 下下载这些导出的 CoreML 模型。

对于编码器:

python scripts/export_coreml_model.py [CHECKPOINT]

对于解码器:

python scripts/export_coreml_model.py [CHECKPOINT] --decoder --use-stability-score

由于 EdgeSAM 没有对原始 SAM 的 IoU 标记进行知识蒸馏,其 IoU 预测可能不太可靠。因此,我们改用稳定性分数来选择掩码。如果您希望继续使用 IoU 预测,只需移除 --use-stability-score 即可。

以下是使用 Xcode 在 iPhone 14 上测量的 EdgeSAM CoreML 模型性能报告(左:编码器,右:解码器):

xcode

已知问题及模型说明

截至 coremltools==7.1 版本,在导出过程中可能会遇到断言错误,例如 assert len(inputs) <= 3 or inputs[3] is None。一种解决方法是按照堆栈跟踪路径注释掉该断言,例如 /opt/anaconda3/envs/EdgeSAM/lib/python3.8/site-packages/coremltools/converters/mil/frontend/torch/ops.py 第 1573 行

由于 CoreML 不支持动态目标尺寸的插值,因此转换后的 CoreML 模型不包含预处理步骤(如缩放、归一化和填充),也不包含后处理步骤(如恢复到原始尺寸)。

编码器的输入为 1x3x1024x1024 的图像,输出为 1x256x64x64 的图像嵌入。解码器则以图像嵌入以及点坐标和点标签作为输入。点坐标采用 (height, width) 格式,左上角为 (0, 0)。点标签的选择包括:0:负点1:正点2:框的左上角3:框的右下角

ONNX

与 CoreML 导出类似,您可以使用以下命令分别将编码器和解码器导出为 ONNX 模型:

对于编码器:

python scripts/export_onnx_model.py [CHECKPOINT]

对于解码器:

python scripts/export_onnx_model.py [CHECKPOINT] --decoder --use-stability-score

检查点

请从 EdgeSAM 的 Hugging Face Space 下载检查点文件(所有 EdgeSAM 变体仅在训练图像数量上有所不同):

模型 COCO mAP PyTorch CoreML ONNX
SAM 46.1 - - -
EdgeSAM 42.1 下载 [编码器] [解码器] [编码器] [解码器]
EdgeSAM-3x 42.7 下载 [编码器] [解码器] [编码器] [解码器]
EdgeSAM-10x 43 待定 待定 待定

注意:在使用 CoreML 模型之前,需要先解压缩模型包。

iOS 应用

我们计划将我们在现场演示中使用的 iOS 应用程序发布到 App Store。敬请关注!

致谢

本研究得到了 RIE2020 产业对接基金产业合作项目(IAF-ICP)资助计划的支持,以及行业合作伙伴提供的现金和实物捐赠。我们感谢 Han Soong Chong 在演示应用开发方面所付出的努力。

我们感谢以下项目为 EdgeSAM 的实现提供了支持:SAMMobileSAMFastSAMTinyViTRepViT

引用

@article{zhou2023edgesam,
  title={EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM},
  author={周冲、李向泰、陈昌礼、戴博},
  journal={arXiv 预印本 arXiv:2312.06660},
  year={2023}
}

许可证

本项目采用 NTU S-Lab 许可证 1.0 进行授权。再分发和使用应遵守该许可证的规定。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent