[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thuyngch--Human-Segmentation-PyTorch":3,"tool-thuyngch--Human-Segmentation-PyTorch":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156033,2,"2026-04-14T23:32:00",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":76,"owner_website":76,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":76,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":92,"env_deps":94,"category_tags":100,"github_topics":101,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":155},7609,"thuyngch\u002FHuman-Segmentation-PyTorch","Human-Segmentation-PyTorch","Human segmentation models, training\u002Finference code, and trained weights, implemented in PyTorch","Human-Segmentation-PyTorch 是一个基于 PyTorch 框架开源的人像分割工具包，旨在帮助开发者高效地将图像或视频中的人物从背景中精准分离。它解决了计算机视觉领域中人像抠图这一核心难题，为图像风格化、虚拟背景替换及视频特效制作提供了坚实的技术基础。\n\n该项目非常适合人工智能研究人员、算法工程师以及需要集成分割功能的软件开发人员使用。其显著亮点在于极高的灵活性与完整性：不仅内置了 UNet、DeepLab3+、BiSeNet、PSPNet 和 ICNet 等五种主流分割架构，还支持搭配 MobileNetV2、ResNet 及 VGG 等多种骨干网络，允许用户根据对速度或精度的不同需求自由组合。此外，项目提供了从数据预处理、模型训练、断点续训到实时推理（支持视频文件与摄像头输入）的全流程代码，并附带了在混合数据集上训练好的权重模型。通过简单的配置即可评估模型的参数量、计算耗时及内存占用，极大地降低了人像分割技术的研发与落地门槛。","# Human-Segmentation-PyTorch\nHuman segmentation [models](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#supported-networks), [training](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#training)\u002F[inference](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#inference) code, and [trained weights](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#benchmark), implemented in PyTorch.\n\n## Supported networks\n* [UNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597): backbones [MobileNetV2](https:\u002F\u002Farxiv.org\u002Fabs\u002F1801.04381) (all aphas and expansions), [ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (all num_layers)\n* [DeepLab3+](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.02611): backbones [ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (num_layers=18,34,50,101), [VGG16_bn](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.1556)\n* [BiSeNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1808.00897): backbones [ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (num_layers=18)\n* [PSPNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105): backbones [ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (num_layers=18,34,50,101)\n* [ICNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.08545): backbones [ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385) (num_layers=18,34,50,101)\n\nTo assess architecture, memory, forward time (in either cpu or gpu), numper of parameters, and number of FLOPs of a network, use this command:\n```\npython measure_model.py\n```\n\n## Dataset\n**Portrait Segmentation (Human\u002FBackground)**\n* [Automatic Portrait Segmentation for Image Stylization](http:\u002F\u002Fxiaoyongshen.me\u002Fwebpage_portrait\u002Findex.html): 1800 images\n* [Supervisely Person](https:\u002F\u002Fhackernoon.com\u002Freleasing-supervisely-person-dataset-for-teaching-machines-to-segment-humans-1f1fc1f28469): 5711 images\n\n## Set\n* Python3.6.x is used in this repository.\n* Clone the repository:\n```\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FHuman-Segmentation-PyTorch.git\ncd Human-Segmentation-PyTorch\ngit submodule sync\ngit submodule update --init --recursive\n```\n* To install required packages, use pip:\n```\nworkon humanseg\npip install -r requirements.txt\npip install -e models\u002Fpytorch-image-models\n```\n\n## Training\n* For training a network from scratch, for example DeepLab3+, use this command:\n```\npython train.py --config config\u002Fconfig_DeepLab.json --device 0\n```\nwhere *config\u002Fconfig_DeepLab.json* is the configuration file which contains network, dataloader, optimizer, losses, metrics, and visualization configurations.\n* For resuming training the network from a checkpoint, use this command:\n```\npython train.py --config config\u002Fconfig_DeepLab.json --device 0 --resume path_to_checkpoint\u002Fmodel_best.pth\n```\n* One can open tensorboard to monitor the training progress by enabling the visualization mode in the configuration file.\n\n## Inference\nThere are two modes of inference: [video](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Finference_video.py) and [webcam](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Finference_webcam.py).\n```\npython inference_video.py --watch --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\npython inference_webcam.py --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\n```\n\n## Benchmark\n* Networks are trained on a combined dataset from the two mentioned datasets above. There are [6627 training](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Fdataset\u002Ftrain_mask.txt) and [737 testing](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Fdataset\u002Fvalid_mask.txt) images.\n* Input size of model is set to 320.\n* The CPU and GPU time is the averaged inference time of 10 runs (there are also 10 warm-up runs before measuring) with batch size 1.\n* The mIoU is measured on the testing subset (737 images) from the combined dataset.\n* Hardware configuration for benchmarking:\n```\nCPU: Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz\nGPU: GeForce GTX 1050 Mobile, CUDA 9.0\n```\n\n| Model | Parameters | FLOPs | CPU time | GPU time | mIoU |\n|:-:|:-:|:-:|:-:|:-:|:-:|\n| [UNet_MobileNetV2](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F17GZLCi_FHhWo4E4wPobbLAQdBZrlqVnF\u002Fview?usp=sharing) (alpha=1.0, expansion=6) | 4.7M | 1.3G | 167ms | 17ms | 91.37% |\n| [UNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F14QxasSCcL_ij7NHR7Fshx5fi5Sc9MleD\u002Fview?usp=sharing) | 16.6M | 9.1G | 165ms | 21ms | 90.09% |\n| [DeepLab3+_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1WME_m8CCDupM6tLX6yPt-iA6gpmwQ7Sc\u002Fview?usp=sharing) | 16.6M | 9.1G | 133ms | 28ms | 91.21% |\n| [BiSeNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Lm6O2-_lnQEjMM5lQRcIAbtA9YQUGQuy\u002Fview?usp=sharing) | 11.9M | 4.7G | 88ms | 10ms | 87.02% |\n| PSPNet_ResNet18 | 12.6M | 20.7G | 235ms | 666ms | --- |\n| [ICNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Rg8KSU89oQoWW37gjipFSsg2w_X_lefQ\u002Fview?usp=sharing) | 11.6M | 2.0G | 48ms | 55ms | 86.27% |\n","# 人体分割-PyTorch\n人体分割的[模型](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#supported-networks)、[训练](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#training)\u002F[推理](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#inference)代码，以及[预训练权重](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch#benchmark)，均使用PyTorch实现。\n\n## 支持的网络\n* [UNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)：主干网络为[MobileNetV2](https:\u002F\u002Farxiv.org\u002Fabs\u002F1801.04381)（所有α值及扩展）、[ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)（所有num_layers）\n* [DeepLab3+](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.02611)：主干网络为[ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)（num_layers=18,34,50,101）、[VGG16_bn](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.1556)\n* [BiSeNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1808.00897)：主干网络为[ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)（num_layers=18）\n* [PSPNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1612.01105)：主干网络为[ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)（num_layers=18,34,50,101）\n* [ICNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.08545)：主干网络为[ResNetV1](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.03385)（num_layers=18,34,50,101）\n\n要评估网络的架构、显存占用、前向传播时间（CPU或GPU）、参数量和FLOPs，请使用以下命令：\n```\npython measure_model.py\n```\n\n## 数据集\n**人像分割（人物\u002F背景）**\n* [用于图像风格化的自动人像分割](http:\u002F\u002Fxiaoyongshen.me\u002Fwebpage_portrait\u002Findex.html)：1800张图片\n* [Supervisely Person](https:\u002F\u002Fhackernoon.com\u002Freleasing-supervisely-person-dataset-for-teaching-machines-to-segment-humans-1f1fc1f28469)：5711张图片\n\n## 环境配置\n* 本仓库使用Python3.6.x。\n* 克隆仓库：\n```\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FHuman-Segmentation-PyTorch.git\ncd Human-Segmentation-PyTorch\ngit submodule sync\ngit submodule update --init --recursive\n```\n* 使用pip安装所需依赖：\n```\nworkon humanseg\npip install -r requirements.txt\npip install -e models\u002Fpytorch-image-models\n```\n\n## 训练\n* 要从头开始训练一个网络，例如DeepLab3+，可以使用以下命令：\n```\npython train.py --config config\u002Fconfig_DeepLab.json --device 0\n```\n其中，`config\u002Fconfig_DeepLab.json`是配置文件，包含网络、数据加载器、优化器、损失函数、评估指标及可视化等配置。\n* 若要从检查点继续训练网络，可以使用以下命令：\n```\npython train.py --config config\u002Fconfig_DeepLab.json --device 0 --resume path_to_checkpoint\u002Fmodel_best.pth\n```\n* 可以通过在配置文件中启用可视化模式来打开TensorBoard，以监控训练进度。\n\n## 推理\n推理有两种模式：[视频](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Finference_video.py)和[摄像头](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Finference_webcam.py)。\n```\npython inference_video.py --watch --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\npython inference_webcam.py --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\n```\n\n## 基准测试\n* 网络是在上述两个数据集合并后的数据集上进行训练的。共有[6627张训练图片](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Fdataset\u002Ftrain_mask.txt)和[737张测试图片](https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FSemantic-Segmentation-PyTorch\u002Fblob\u002Fmaster\u002Fdataset\u002Fvalid_mask.txt)。\n* 模型输入大小设置为320。\n* CPU和GPU时间是10次运行的平均推理时间（测量前还有10次预热运行），批次大小为1。\n* mIoU是在合并数据集的测试子集（737张图片）上计算的。\n* 基准测试的硬件配置如下：\n```\nCPU: Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz\nGPU: GeForce GTX 1050 Mobile, CUDA 9.0\n```\n\n| 模型 | 参数量 | FLOPs | CPU时间 | GPU时间 | mIoU |\n|:-:|:-:|:-:|:-:|:-:|:-:|\n| [UNet_MobileNetV2](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F17GZLCi_FHhWo4E4wPobbLAQdBZrlqVnF\u002Fview?usp=sharing)（alpha=1.0，扩张=6） | 4.7M | 1.3G | 167ms | 17ms | 91.37% |\n| [UNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F14QxasSCcL_ij7NHR7Fshx5fi5Sc9MleD\u002Fview?usp=sharing) | 16.6M | 9.1G | 165ms | 21ms | 90.09% |\n| [DeepLab3+_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1WME_m8CCDupM6tLX6yPt-iA6gpmwQ7Sc\u002Fview?usp=sharing) | 16.6M | 9.1G | 133ms | 28ms | 91.21% |\n| [BiSeNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Lm6O2-_lnQEjMM5lQRcIAbtA9YQUGQuy\u002Fview?usp=sharing) | 11.9M | 4.7G | 88ms | 10ms | 87.02% |\n| PSPNet_ResNet18 | 12.6M | 20.7G | 235ms | 666ms | --- |\n| [ICNet_ResNet18](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Rg8KSU89oQoWW37gjipFSsg2w_X_lefQ\u002Fview?usp=sharing) | 11.6M | 2.0G | 48ms | 55ms | 86.27% |","# Human-Segmentation-PyTorch 快速上手指南\n\n本指南帮助开发者快速部署并使用基于 PyTorch 的人像分割工具，支持多种主流网络架构（如 UNet, DeepLab3+, BiSeNet 等）。\n\n## 环境准备\n\n*   **操作系统**: Linux \u002F macOS \u002F Windows\n*   **Python 版本**: 推荐 Python 3.6.x\n*   **深度学习框架**: PyTorch (通过依赖自动安装)\n*   **硬件要求**:\n    *   CPU: 通用 x86 处理器\n    *   GPU (可选): 支持 CUDA 的 NVIDIA 显卡（推荐用于加速推理和训练）\n\n## 安装步骤\n\n### 1. 克隆仓库\n使用递归克隆以获取子模块代码：\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FAntiAegis\u002FHuman-Segmentation-PyTorch.git\ncd Human-Segmentation-PyTorch\ngit submodule sync\ngit submodule update --init --recursive\n```\n\n### 2. 创建虚拟环境并安装依赖\n建议使用 `virtualenv` 或 `conda` 创建独立环境。以下以 `virtualenvwrapper` 为例：\n\n```bash\n# 创建并激活虚拟环境\nworkon humanseg\n\n# 安装基础依赖\npip install -r requirements.txt\n\n# 安装图像模型库 (建议配置国内镜像源加速)\npip install -e models\u002Fpytorch-image-models -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n> **提示**: 若未配置 `workon`，可直接使用 `python3 -m venv venv && source venv\u002Fbin\u002Factivate` 创建环境，然后执行后续 `pip` 命令。\n\n## 基本使用\n\n### 1. 模型评估（可选）\n在运行前，可查看指定网络的参数量、FLOPs 及预估耗时：\n```bash\npython measure_model.py\n```\n\n### 2. 推理演示\n本项目提供视频文件和摄像头两种推理模式。请确保已下载预训练权重文件（参考 README Benchmark 章节中的 Google Drive 链接），并将 `path_to_checkpoint\u002Fmodel_best.pth` 替换为实际路径。\n\n**模式一：视频文件推理**\n```bash\npython inference_video.py --watch --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\n```\n*   `--watch`: 播放处理后的视频结果。\n*   `--use_cuda`: 启用 GPU 加速（若无 GPU 可移除此参数）。\n\n**模式二：实时摄像头推理**\n```bash\npython inference_webcam.py --use_cuda --checkpoint path_to_checkpoint\u002Fmodel_best.pth\n```\n\n### 3. 开始训练（进阶）\n如需从头训练模型（以 DeepLab3+ 为例）：\n```bash\npython train.py --config config\u002Fconfig_DeepLab.json --device 0\n```\n*   配置文件 `config\u002Fconfig_DeepLab.json` 中包含了网络结构、数据加载器、优化器及损失函数等详细设置。\n*   若要断点续训，添加 `--resume path_to_checkpoint\u002Fmodel_best.pth` 参数。","一家在线视频会议平台的技术团队正致力于为其产品开发实时虚拟背景功能，以提升用户在居家办公时的隐私保护体验。\n\n### 没有 Human-Segmentation-PyTorch 时\n- **算法选型困难**：团队需从零复现论文代码，在 UNet、DeepLab3+ 等多种架构间反复试错，难以快速确定适合移动端或低配 GPU 的轻量级模型。\n- **训练成本高昂**：缺乏现成的数据加载器和损失函数配置，处理 Portrait Segmentation 等数据集耗时费力，模型收敛速度慢且不稳定。\n- **实时性能不足**：自研模型未经过严格的 FLOPs 和推理时间基准测试，在普通笔记本 CPU 上延迟过高，导致视频画面卡顿，无法达到流畅的 30fps。\n- **部署门槛高**：缺少预训练权重支持，必须从头训练才能看到效果，极大延长了从概念验证到原型开发的周期。\n\n### 使用 Human-Segmentation-PyTorch 后\n- **架构灵活适配**：直接调用内置的 MobileNetV2 或 ResNet 骨干网络，利用 `measure_model.py` 一键评估参数量与计算量，迅速锁定兼顾精度与速度的最佳模型。\n- **训练流程标准化**：通过简单的 JSON 配置文件即可启动训练，自动集成 Supervisely Person 等高质量数据集，显著缩短模型迭代周期。\n- **实时推理流畅**：基于预训练权重和优化的推理脚本（如 `inference_webcam.py`），在 GTX 1050 甚至 CPU 环境下也能实现低延迟的人像分割，确保视频通话顺滑。\n- **快速原型落地**：直接使用官方提供的 Benchmark 权重进行集成开发，将原本数周的算法调研与训练工作压缩至几天内完成。\n\nHuman-Segmentation-PyTorch 通过提供开箱即用的模型架构、训练管线及预训练权重，帮助团队以最低成本实现了高性能的实时人像分割功能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuyngch_Human-Segmentation-PyTorch_8bf27472.png","thuyngch","Thuy Ng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthuyngch_8d83f25c.jpg","Machine Learning, Deep Learning, Computer Vision, Signal Processing",null,"Ho Chi Minh city","thuypn9a4@gmail.com","https:\u002F\u002Fgithub.com\u002Fthuyngch",[81,85],{"name":82,"color":83,"percentage":84},"Jupyter Notebook","#DA5B0B",94.4,{"name":86,"color":87,"percentage":88},"Python","#3572A5",5.6,573,112,"2026-04-11T13:45:29","未说明","非必需（支持 CPU 和 GPU 模式）。基准测试环境为 NVIDIA GeForce GTX 1050 Mobile，CUDA 9.0。运行命令中包含 --use_cuda 选项，表明需安装对应 CUDA 版本的 PyTorch 以启用 GPU 加速。",{"notes":95,"python":96,"dependencies":97},"1. 项目使用 git submodule 管理部分代码，克隆后需执行 'git submodule sync' 和 'git submodule update --init --recursive' 初始化子模块。\n2. 支持多种网络架构（如 UNet, DeepLab3+, BiSeNet 等）及骨干网络（MobileNetV2, ResNetV1, VGG16_bn）。\n3. 推理支持视频文件和摄像头实时输入模式。\n4. 可通过运行 'python measure_model.py' 评估模型的参数量、FLOPs 及在特定硬件上的推理时间。","3.6.x",[98,99],"torch","pytorch-image-models (timm)",[15,14],[102,103,104,105,106,107,108,109,110,111],"semantic-segmentation","deep-learning","pytorch","portrait-segmentation","unet","deeplab","bisenet","pspnet","icnet","human-segmentation","2026-03-27T02:49:30.150509","2026-04-15T08:09:36.143167",[115,120,125,130,135,140,145,150],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},34079,"遇到 'ModuleNotFoundError: No module named timm.models.gen_efficientnet' 错误怎么办？","这是因为项目依赖特定版本的 `timm` 库，该版本已作为子模块包含在仓库中。请运行以下命令同步并安装：\n```\ngit submodule sync\ngit submodule update --init --recursive\npip install -e models\u002Fpytorch-image-models\n```\n或者，也可以尝试直接安装特定版本：`pip3 install timm==0.1.10`。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F17",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},34080,"克隆仓库时出现子模块（submodule）错误，提示 'AntiAegis\u002Fpytorch-image-models' 是私有仓库无法访问，如何解决？","原仓库地址可能已失效或变更。解决方法是修改 `.gitmodules` 文件，将子模块 URL 从 `https:\u002F\u002Fgithub.com\u002FAntiAegis\u002Fpytorch-image-models` 替换为 `https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models`，然后重新执行初始化命令：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch.git\n# 修改 .gitmodules 文件中的 url 字段\ngit submodule update --init --recursive\n```","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F22",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},34081,"Supervisely 数据集下载速度太慢，是否有其他下载渠道？","维护者提供了 Google Drive 的备份下载链接，可以通过以下地址获取数据集：\nhttps:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F11vez-mbnXokLDAxVK2DuU96tDx9PimuP\u002Fview?usp=sharing","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F4",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},34082,"如何使用该项目对单张静态图片进行分割，而不是使用摄像头或视频？","项目默认提供的脚本主要针对摄像头和视频流。若需处理单张图片，用户需要基于现有代码编写自定义的推理脚本（customized code），加载模型并对单张图像执行前向传播。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F16",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},34083,"测试视频效果差或 FPS 很低（例如只有 1.8）是什么原因？","1. **速度问题**：FPS 高度依赖于硬件配置。在 Mac 等非高性能 GPU 设备上测试速度会较慢。\n2. **精度问题**：该仓库主要是在两个小型数据集上的基准测试（benchmark）。若需获得更高的分割精度，建议使用此代码框架在您自己的更大规模数据集上重新训练模型。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F5",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},34084,"训练一个 epoch 后报错 'argument min must be Number, not tensor' 是怎么回事？","这通常与 PyTorch 版本不兼容或自定义数据集格式有关。特别是当标签（mask）为单通道（0,1）且使用了自定义的 `trainer.py` 时，可能在图像归一化（norm_range）步骤出现类型错误。建议检查是否安装了与项目匹配的 PyTorch 版本，并确认未错误地修改了 `trainer.py` 中关于 Tensor 处理的逻辑。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F3",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},34085,"在使用 VOC2012 数据集（21 类）时，Dice Loss 不收敛或 mIoU 无变化，可能是什么原因？","这可能是由于标签预处理或 Loss 计算逻辑在多类别（num_class=21）情况下存在错误。有用户指出代码中 `targets = torch.zeros_like(logits).scatter_(...)` 这一行在处理 21 类时可能不正确。建议检查标签的 one-hot 编码转换过程以及 Dice Loss 函数是否适配多类别分割任务。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F1",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},34086,"加载预训练权重时报错 'size mismatch for decoder...'，维度不匹配怎么办？","该错误表明当前模型架构的定义与预训练权重文件（checkpoint）中的参数形状不一致。这通常发生在修改了模型配置（如 backbone 类型或通道数）却试图加载旧权重的场景中。请确保运行推理时使用的模型配置与训练该 checkpoint 时的配置完全一致，或者不要加载不匹配的预训练权重（去掉 `--checkpoint` 参数或使用对应配置的权重）。","https:\u002F\u002Fgithub.com\u002Fthuyngch\u002FHuman-Segmentation-PyTorch\u002Fissues\u002F9",[]]