Human-Segmentation-PyTorch

573 112 中等 1 次阅读 3天前图像开发框架

AI 解读由 AI 自动生成，仅供参考

Human-Segmentation-PyTorch 是一个基于 PyTorch 框架开源的人像分割工具包，旨在帮助开发者高效地将图像或视频中的人物从背景中精准分离。它解决了计算机视觉领域中人像抠图这一核心难题，为图像风格化、虚拟背景替换及视频特效制作提供了坚实的技术基础。

该项目非常适合人工智能研究人员、算法工程师以及需要集成分割功能的软件开发人员使用。其显著亮点在于极高的灵活性与完整性：不仅内置了 UNet、DeepLab3+、BiSeNet、PSPNet 和 ICNet 等五种主流分割架构，还支持搭配 MobileNetV2、ResNet 及 VGG 等多种骨干网络，允许用户根据对速度或精度的不同需求自由组合。此外，项目提供了从数据预处理、模型训练、断点续训到实时推理（支持视频文件与摄像头输入）的全流程代码，并附带了在混合数据集上训练好的权重模型。通过简单的配置即可评估模型的参数量、计算耗时及内存占用，极大地降低了人像分割技术的研发与落地门槛。

使用场景

一家在线视频会议平台的技术团队正致力于为其产品开发实时虚拟背景功能，以提升用户在居家办公时的隐私保护体验。

没有 Human-Segmentation-PyTorch 时

算法选型困难：团队需从零复现论文代码，在 UNet、DeepLab3+ 等多种架构间反复试错，难以快速确定适合移动端或低配 GPU 的轻量级模型。
训练成本高昂：缺乏现成的数据加载器和损失函数配置，处理 Portrait Segmentation 等数据集耗时费力，模型收敛速度慢且不稳定。
实时性能不足：自研模型未经过严格的 FLOPs 和推理时间基准测试，在普通笔记本 CPU 上延迟过高，导致视频画面卡顿，无法达到流畅的 30fps。
部署门槛高：缺少预训练权重支持，必须从头训练才能看到效果，极大延长了从概念验证到原型开发的周期。

使用 Human-Segmentation-PyTorch 后

架构灵活适配：直接调用内置的 MobileNetV2 或 ResNet 骨干网络，利用 measure_model.py 一键评估参数量与计算量，迅速锁定兼顾精度与速度的最佳模型。
训练流程标准化：通过简单的 JSON 配置文件即可启动训练，自动集成 Supervisely Person 等高质量数据集，显著缩短模型迭代周期。
实时推理流畅：基于预训练权重和优化的推理脚本（如 inference_webcam.py），在 GTX 1050 甚至 CPU 环境下也能实现低延迟的人像分割，确保视频通话顺滑。
快速原型落地：直接使用官方提供的 Benchmark 权重进行集成开发，将原本数周的算法调研与训练工作压缩至几天内完成。

Human-Segmentation-PyTorch 通过提供开箱即用的模型架构、训练管线及预训练权重，帮助团队以最低成本实现了高性能的实时人像分割功能。

运行环境要求

操作系统

未说明

GPU

非必需（支持 CPU 和 GPU 模式）
基准测试环境为 NVIDIA GeForce GTX 1050 Mobile，CUDA 9.0
运行命令中包含 --use_cuda 选项，表明需安装对应 CUDA 版本的 PyTorch 以启用 GPU 加速

内存

未说明

依赖

notes1. 项目使用 git submodule 管理部分代码，克隆后需执行 'git submodule sync' 和 'git submodule update --init --recursive' 初始化子模块。 2. 支持多种网络架构（如 UNet, DeepLab3+, BiSeNet 等）及骨干网络（MobileNetV2, ResNetV1, VGG16_bn）。 3. 推理支持视频文件和摄像头实时输入模式。 4. 可通过运行 'python measure_model.py' 评估模型的参数量、FLOPs 及在特定硬件上的推理时间。

python3.6.x

torch

pytorch-image-models (timm)

快速开始

人体分割-PyTorch

人体分割的模型、训练/推理代码，以及预训练权重，均使用PyTorch实现。

支持的网络

UNet：主干网络为MobileNetV2（所有α值及扩展）、ResNetV1（所有num_layers）
DeepLab3+：主干网络为ResNetV1（num_layers=18,34,50,101）、VGG16_bn
BiSeNet：主干网络为ResNetV1（num_layers=18）
PSPNet：主干网络为ResNetV1（num_layers=18,34,50,101）
ICNet：主干网络为ResNetV1（num_layers=18,34,50,101）

要评估网络的架构、显存占用、前向传播时间（CPU或GPU）、参数量和FLOPs，请使用以下命令：

python measure_model.py

数据集

人像分割（人物/背景）

用于图像风格化的自动人像分割：1800张图片
Supervisely Person：5711张图片

环境配置

本仓库使用Python3.6.x。
克隆仓库：

git clone --recursive https://github.com/AntiAegis/Human-Segmentation-PyTorch.git
cd Human-Segmentation-PyTorch
git submodule sync
git submodule update --init --recursive

使用pip安装所需依赖：

workon humanseg
pip install -r requirements.txt
pip install -e models/pytorch-image-models

训练

要从头开始训练一个网络，例如DeepLab3+，可以使用以下命令：

python train.py --config config/config_DeepLab.json --device 0

其中，config/config_DeepLab.json是配置文件，包含网络、数据加载器、优化器、损失函数、评估指标及可视化等配置。

若要从检查点继续训练网络，可以使用以下命令：

python train.py --config config/config_DeepLab.json --device 0 --resume path_to_checkpoint/model_best.pth

可以通过在配置文件中启用可视化模式来打开TensorBoard，以监控训练进度。

推理

推理有两种模式：视频和摄像头。

python inference_video.py --watch --use_cuda --checkpoint path_to_checkpoint/model_best.pth
python inference_webcam.py --use_cuda --checkpoint path_to_checkpoint/model_best.pth

基准测试

网络是在上述两个数据集合并后的数据集上进行训练的。共有6627张训练图片和737张测试图片。
模型输入大小设置为320。
CPU和GPU时间是10次运行的平均推理时间（测量前还有10次预热运行），批次大小为1。
mIoU是在合并数据集的测试子集（737张图片）上计算的。
基准测试的硬件配置如下：

CPU: Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz
GPU: GeForce GTX 1050 Mobile, CUDA 9.0

模型	参数量	FLOPs	CPU时间	GPU时间	mIoU
UNet_MobileNetV2（alpha=1.0，扩张=6）	4.7M	1.3G	167ms	17ms	91.37%
UNet_ResNet18	16.6M	9.1G	165ms	21ms	90.09%
DeepLab3+_ResNet18	16.6M	9.1G	133ms	28ms	91.21%
BiSeNet_ResNet18	11.9M	4.7G	88ms	10ms	87.02%
PSPNet_ResNet18	12.6M	20.7G	235ms	666ms	---
ICNet_ResNet18	11.6M	2.0G	48ms	55ms	86.27%

Human-Segmentation-PyTorch 快速上手指南

本指南帮助开发者快速部署并使用基于 PyTorch 的人像分割工具，支持多种主流网络架构（如 UNet, DeepLab3+, BiSeNet 等）。

环境准备

操作系统: Linux / macOS / Windows
Python 版本: 推荐 Python 3.6.x
深度学习框架: PyTorch (通过依赖自动安装)
硬件要求:
- CPU: 通用 x86 处理器
- GPU (可选): 支持 CUDA 的 NVIDIA 显卡（推荐用于加速推理和训练）

安装步骤

1. 克隆仓库

使用递归克隆以获取子模块代码：

git clone --recursive https://github.com/AntiAegis/Human-Segmentation-PyTorch.git
cd Human-Segmentation-PyTorch
git submodule sync
git submodule update --init --recursive

2. 创建虚拟环境并安装依赖

建议使用 virtualenv 或 conda 创建独立环境。以下以 virtualenvwrapper 为例：

# 创建并激活虚拟环境
workon humanseg

# 安装基础依赖
pip install -r requirements.txt

# 安装图像模型库 (建议配置国内镜像源加速)
pip install -e models/pytorch-image-models -i https://pypi.tuna.tsinghua.edu.cn/simple

提示: 若未配置 workon，可直接使用 python3 -m venv venv && source venv/bin/activate 创建环境，然后执行后续 pip 命令。

基本使用

1. 模型评估（可选）

在运行前，可查看指定网络的参数量、FLOPs 及预估耗时：

python measure_model.py

2. 推理演示

本项目提供视频文件和摄像头两种推理模式。请确保已下载预训练权重文件（参考 README Benchmark 章节中的 Google Drive 链接），并将 path_to_checkpoint/model_best.pth 替换为实际路径。

模式一：视频文件推理

python inference_video.py --watch --use_cuda --checkpoint path_to_checkpoint/model_best.pth

--watch: 播放处理后的视频结果。
--use_cuda: 启用 GPU 加速（若无 GPU 可移除此参数）。

模式二：实时摄像头推理

python inference_webcam.py --use_cuda --checkpoint path_to_checkpoint/model_best.pth

3. 开始训练（进阶）

如需从头训练模型（以 DeepLab3+ 为例）：

python train.py --config config/config_DeepLab.json --device 0

配置文件 config/config_DeepLab.json 中包含了网络结构、数据加载器、优化器及损失函数等详细设置。
若要断点续训，添加 --resume path_to_checkpoint/model_best.pth 参数。

常见问题

遇到 'ModuleNotFoundError: No module named timm.models.gen_efficientnet' 错误怎么办？

克隆仓库时出现子模块（submodule）错误，提示 'AntiAegis/pytorch-image-models' 是私有仓库无法访问，如何解决？

Supervisely 数据集下载速度太慢，是否有其他下载渠道？

如何使用该项目对单张静态图片进行分割，而不是使用摄像头或视频？

测试视频效果差或 FPS 很低（例如只有 1.8）是什么原因？

训练一个 epoch 后报错 'argument min must be Number, not tensor' 是怎么回事？

在使用 VOC2012 数据集（21 类）时，Dice Loss 不收敛或 mIoU 无变化，可能是什么原因？

加载预训练权重时报错 'size mismatch for decoder...'，维度不匹配怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 155.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架