cloth-segmentation

GitHub
667 117 简单 1 次阅读 昨天MIT图像开发框架
AI 解读 由 AI 自动生成,仅供参考

cloth-segmentation 是一个基于深度学习的开源项目,专注于从人物肖像中精准识别并分割衣物区域。它能够将图像中的服装自动划分为上半身、下半身和全身三个类别,并以不同颜色标记,同时有效处理各种复杂背景和多变的拍摄姿态。

该工具主要解决了传统图像处理在复杂场景下难以准确区分衣物与背景、或无法细化衣物部位的难题,为虚拟试衣、时尚分析及图像编辑等应用提供了可靠的技术基础。其核心采用了先进的 U2NET 模型,经过 4.5 万张时尚数据集的训练,将原本复杂的 42 类标签简化为实用的三大分类,在保证高精度的同时降低了计算复杂度。

cloth-segmentation 特别适合计算机视觉开发者、AI 研究人员以及需要批量处理人物图像的设计师使用。项目不仅提供了预训练模型和完整的推理代码,支持单卡或多卡训练,还配备了 Google Colab 在线演示链接,让不具备本地高性能显卡的用户也能快速体验。无论是希望深入研究衣物解析算法的科研人员,还是寻求高效集成方案的工程团队,都能从中获得灵活且强大的支持。

使用场景

一家时尚电商公司的技术团队正在开发“虚拟试衣间”功能,需要精准提取用户照片中的衣物区域以进行数字化替换。

没有 cloth-segmentation 时

  • 人工标注成本高昂:为了训练模型,团队需雇佣大量人员对数万张模特图进行像素级手工描边,耗时数周且预算超支。
  • 复杂背景干扰严重:传统抠图算法难以区分衣物与背景(如街道、家具),导致生成的蒙版边缘杂乱,常误删衣物细节。
  • 姿态适应性差:当模特做出举手、转身等非标准动作时,旧方案无法准确识别上下装边界,导致试衣效果错位。
  • 分类粒度粗糙:难以自动区分上衣、下装和连体衣,开发人员不得不编写大量硬编码规则来强行分类,维护困难。

使用 cloth-segmentation 后

  • 自动化数据预处理:利用预训练的 U2NET 模型,团队一键将海量数据集自动解析为上装、下装和全身三类,标注效率提升数十倍。
  • 鲁棒的前景提取:无论背景多么杂乱或光线如何变化,cloth-segmentation 都能输出干净的四通道掩码(含背景通道),完美保留衣物边缘。
  • 全姿态精准支持:模型在各类人体姿态下表现稳定,能准确锁定不同身体部位的衣物区域,确保虚拟试衣贴合自然。
  • 原生语义分类:直接输出红(上装)、绿(下装)、黄(全身)的分类结果,无需额外逻辑判断,大幅简化了后端集成代码。

cloth-segmentation 通过高精度的语义分割能力,将原本繁琐的衣物处理流程转化为自动化流水线,显著降低了虚拟试衣功能的落地门槛。

运行环境要求

操作系统
  • 未说明
GPU
  • 训练支持多 GPU (通过 torch.distributed),推理未明确强制要求但建议使用 GPU
  • 具体型号、显存大小及 CUDA 版本未说明
内存

未说明

依赖
notes该工具基于 U2NET 模型,将衣物分割为上装、下装和全身三类。训练数据需从 Kaggle 下载 iMaterialist (Fashion) 2019 数据集并预处理为 768x768 像素。首次运行前需执行 `python setup_model_weights.py` 进行模型权重迁移以生成初始检查点。推理时需手动下载约 165MB 的预训练模型文件至 `trained_checkpoint` 文件夹。项目代码结构参考了 Pix2pixHD。
python3.8
PyTorch>1.3.0
tensorboardX
gdown
cloth-segmentation hero image

快速开始

使用 U2NET 进行服装分割

Python 3.8 License: MIT Open In Colab

本仓库包含用于从人物肖像中进行服装解析的训练代码、推理代码以及预训练模型。
在此,服装被解析为三类:上半身(红色)、下半身(绿色)和全身(黄色)

示例 000 示例 024 示例 018

该模型在任何背景和几乎所有姿势下都能良好工作。更多示例请访问 samples.md

技术细节

  • U2NET:本项目使用了令人惊叹的 U2NET 作为深度学习模型。与典型的显著性目标检测任务中 U2NET 输出单通道不同,此处输出四个通道,分别代表上半身衣物、下半身衣物、全身衣物和背景。对于给定版本的检查点,仅使用分类交叉熵损失函数。

  • 数据集:U2NET 在 4.5 万张图像的 iMaterialist (Fashion) 2019 at FGVC6 数据集上进行训练。为了降低复杂度,我将数据集中原有的 42 个类别合并为 3 个类别(上半身、下半身和全身)。所有图像均被调整为正方形 ¯\_(ツ)_/¯ 768 x 768 像素以供训练。(本次实验采用 768 像素,但如果在其他数据集上重新训练,约 384 像素也能很好地工作)。

训练

  • 本项目进行训练所需的依赖包括:
    •   PyTorch > 1.3.0
    •   tensorboardX
    •   gdown
  • 从此 链接 下载数据集,并解压所有文件。
  • options/base_options.py 中设置包含训练图像的 train 文件夹路径以及标签 CSV 文件 train.csv 的路径。
  • 若要移植原始 U2NET 模型除最后一层外的所有层,请运行 python setup_model_weights.py,它将在完成模型检查后在 prev_checkpoints 文件夹中生成权重。
  • 您可以在 options/base_options.py 中探索各种选项,例如检查点保存文件夹、日志文件夹等。
  • 对于单 GPU,请在 options/base_options.py 中将 distributed = False;对于多 GPU,则将其设置为 True
  • 单 GPU 运行 python train.py
  • 多 GPU 运行:
     python -m torch.distributed.launch --nnodes=1 --node_rank=0 --nproc_per_node=4 --use_env train.py
    此处命令适用于单节点、4 个 GPU 的情况。目前仅在单节点环境下进行了测试。
  • 您可以通过在日志文件夹中运行 TensorBoard 命令来查看损失曲线和示例图像。

测试/推理

  • 从此 链接(165 MB)下载预训练模型,并将其放置在 trained_checkpoint 文件夹中。
  • 将输入图像放入 input_images 文件夹。
  • 运行 python infer.py 进行推理。
  • 输出将保存在 output_images 文件夹中。

或者

  • 在 Colab 中进行推理,点击此处 Open In Colab

致谢

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频