[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-bubbliiiing--unet-pytorch":3,"tool-bubbliiiing--unet-pytorch":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":32,"env_os":89,"env_gpu":90,"env_ram":89,"env_deps":91,"category_tags":96,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":97,"updated_at":98,"faqs":99,"releases":140},9790,"bubbliiiing\u002Funet-pytorch","unet-pytorch","这是一个unet-pytorch的源码，可以训练自己的模型","unet-pytorch 是一个基于 PyTorch 框架实现的 U-Net 深度学习模型开源项目，专注于解决图像语义分割任务。U-Net 最初为生物医学图像设计，擅长在训练数据有限的情况下，通过提取浅层特征精准识别物体轮廓与细节，因此特别适用于医疗影像分析、细胞检测等场景，同时也能处理常规的目标分割任务。\n\n该项目主要帮助开发者和研究人员快速搭建、训练及部署自己的分割模型。它解决了从零复现经典算法难度大、环境配置复杂的问题，提供了从数据预处理、模型训练到预测评估的完整流程代码。用户只需按照 VOC 格式整理数据集，即可轻松启动训练或加载预训练权重进行推理。\n\nunet-pytorch 的技术亮点在于其高度的灵活性与实用性：支持 VGG、ResNet 等多种主干网络切换，适配 Adam、SGD 等优化器，并引入了学习率自适应调整及 Cosine 退火策略以提升收敛效果。此外，项目包含详尽的中文注释、视频教程链接以及针对医疗数据集的专用训练脚本，极大地降低了上手门槛。无论是需要验证算法的研究人员，还是希望将图像分割功能集成到应用中的工程师，都能利用此工具高效完成工作。","## Unet：U-Net: Convolutional Networks for Biomedical Image Segmentation目标检测模型在Pytorch当中的实现\n---\n\n### 目录\n1. [仓库更新 Top News](#仓库更新)\n2. [相关仓库 Related code](#相关仓库)\n3. [性能情况 Performance](#性能情况)\n4. [所需环境 Environment](#所需环境)\n5. [文件下载 Download](#文件下载)\n6. [训练步骤 How2train](#训练步骤)\n7. [预测步骤 How2predict](#预测步骤)\n8. [评估步骤 miou](#评估步骤)\n9. [参考资料 Reference](#Reference)\n\n## Top News\n**`2022-03`**:**进行大幅度更新、支持step、cos学习率下降法、支持adam、sgd优化器选择、支持学习率根据batch_size自适应调整。**  \nBiliBili视频中的原仓库地址为：https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Ftree\u002Fbilibili\n\n**`2020-08`**:**创建仓库、支持多backbone、支持数据miou评估、标注数据处理、大量注释等。**  \n\n## 相关仓库\n| 模型 | 路径 |\n| :----- | :----- |\nUnet | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch  \nPSPnet | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fpspnet-pytorch\ndeeplabv3+ | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fdeeplabv3-plus-pytorch\n\n### 性能情况\n**unet并不适合VOC此类数据集，其更适合特征少，需要浅层特征的医药数据集之类的。**\n| 训练数据集 | 权值文件名称 | 测试数据集 | 输入图片大小 | mIOU | \n| :-----: | :-----: | :------: | :------: | :------: | \n| VOC12+SBD | [unet_vgg_voc.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Funet_vgg_voc.pth) | VOC-Val12 | 512x512| 58.78 | \n| VOC12+SBD | [unet_resnet_voc.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Funet_resnet_voc.pth) | VOC-Val12 | 512x512| 67.53 | \n\n### 所需环境\ntorch==1.2.0    \ntorchvision==0.4.0   \n\n### 文件下载\n训练所需的权值可在百度网盘中下载。    \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1A22fC5cPRb74gqrpq7O9-A    \n提取码: 6n2c   \n\nVOC拓展数据集的百度网盘如下：   \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1vkk3lMheUm6IjTXznlg7Ng    \n提取码: 44mk   \n\n### 训练步骤\n#### 一、训练voc数据集\n1、将我提供的voc数据集放入VOCdevkit中（无需运行voc_annotation.py）。  \n2、运行train.py进行训练，默认参数已经对应voc数据集所需要的参数了。  \n\n#### 二、训练自己的数据集\n1、本文使用VOC格式进行训练。  \n2、训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的SegmentationClass中。    \n3、训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。    \n4、在训练前利用voc_annotation.py文件生成对应的txt。    \n5、注意修改train.py的num_classes为分类个数+1。    \n6、运行train.py即可开始训练。  \n\n#### 三、训练医药数据集\n1、下载VGG的预训练权重到model_data下面。  \n2、按照默认参数运行train_medical.py即可开始训练。\n\n### 预测步骤\n#### 一、使用预训练权重\n##### a、VOC预训练权重\n1. 下载完库后解压，如果想要利用voc训练好的权重进行预测，在百度网盘或者release下载权值，放入model_data，运行即可预测。  \n```python\nimg\u002Fstreet.jpg\n```    \n2. 在predict.py里面进行设置可以进行fps测试和video视频检测。    \n##### b、医药预训练权重\n1. 下载完库后解压，如果想要利用医药数据集训练好的权重进行预测，在百度网盘或者release下载权值，放入model_data，修改unet.py中的model_path和num_classes；\n```python\n_defaults = {\n    #-------------------------------------------------------------------#\n    #   model_path指向logs文件夹下的权值文件\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表miou较高，仅代表该权值在验证集上泛化性能较好。\n    #-------------------------------------------------------------------#\n    \"model_path\"    : 'model_data\u002Funet_vgg_medical.pth',\n    #--------------------------------#\n    #   所需要区分的类的个数+1\n    #--------------------------------#\n    \"num_classes\"   : 2,\n    #--------------------------------#\n    #   所使用的的主干网络：vgg、resnet50   \n    #--------------------------------#\n    \"backbone\"      : \"vgg\",\n    #--------------------------------#\n    #   输入图片的大小\n    #--------------------------------#\n    \"input_shape\"   : [512, 512],\n    #--------------------------------#\n    #   blend参数用于控制是否\n    #   让识别结果和原图混合\n    #--------------------------------#\n    \"blend\"         : True,\n    #--------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #--------------------------------#\n    \"cuda\"          : True,\n}\n```\n2. 运行即可预测。  \n```python\nimg\u002Fcell.png\n```\n#### 二、使用自己训练的权重\n1. 按照训练步骤训练。    \n2. 在unet.py文件里面，在如下部分修改model_path、backbone和num_classes使其对应训练好的文件；**model_path对应logs文件夹下面的权值文件**。    \n```python\n_defaults = {\n    #-------------------------------------------------------------------#\n    #   model_path指向logs文件夹下的权值文件\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表miou较高，仅代表该权值在验证集上泛化性能较好。\n    #-------------------------------------------------------------------#\n    \"model_path\"    : 'model_data\u002Funet_vgg_voc.pth',\n    #--------------------------------#\n    #   所需要区分的类的个数+1\n    #--------------------------------#\n    \"num_classes\"   : 21,\n    #--------------------------------#\n    #   所使用的的主干网络：vgg、resnet50   \n    #--------------------------------#\n    \"backbone\"      : \"vgg\",\n    #--------------------------------#\n    #   输入图片的大小\n    #--------------------------------#\n    \"input_shape\"   : [512, 512],\n    #--------------------------------#\n    #   blend参数用于控制是否\n    #   让识别结果和原图混合\n    #--------------------------------#\n    \"blend\"         : True,\n    #--------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #--------------------------------#\n    \"cuda\"          : True,\n}\n```\n3. 运行predict.py，输入    \n```python\nimg\u002Fstreet.jpg\n```   \n4. 在predict.py里面进行设置可以进行fps测试和video视频检测。    \n\n### 评估步骤\n1、设置get_miou.py里面的num_classes为预测的类的数量加1。  \n2、设置get_miou.py里面的name_classes为需要去区分的类别。  \n3、运行get_miou.py即可获得miou大小。  \n\n## Reference\nhttps:\u002F\u002Fgithub.com\u002Fggyyzm\u002Fpytorch_segmentation  \nhttps:\u002F\u002Fgithub.com\u002Fbonlime\u002Fkeras-deeplab-v3-plus\n","## Unet：U-Net：用于生物医学图像分割的卷积神经网络 目标检测模型在Pytorch中的实现\n---\n\n### 目录\n1. [仓库更新 Top News](#仓库更新)\n2. [相关仓库 Related code](#相关仓库)\n3. [性能情况 Performance](#性能情况)\n4. [所需环境 Environment](#所需环境)\n5. [文件下载 Download](#文件下载)\n6. [训练步骤 How2train](#训练步骤)\n7. [预测步骤 How2predict](#预测步骤)\n8. [评估步骤 miou](#评估步骤)\n9. [参考资料 Reference](#Reference)\n\n## Top News\n**`2022-03`**:**进行了大幅度更新，支持step、cos学习率下降法，支持adam、sgd优化器选择，支持学习率根据batch_size自适应调整。**  \nBiliBili视频中的原仓库地址为：https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Ftree\u002Fbilibili\n\n**`2020-08`**:**创建仓库，支持多backbone，支持数据miou评估，标注数据处理，大量注释等。**  \n\n## 相关仓库\n| 模型 | 路径 |\n| :----- | :----- |\nUnet | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch  \nPSPnet | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fpspnet-pytorch\ndeeplabv3+ | https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Fdeeplabv3-plus-pytorch\n\n### 性能情况\n**unet并不适合VOC此类数据集，其更适合特征少，需要浅层特征的医药数据集之类的。**\n| 训练数据集 | 权值文件名称 | 测试数据集 | 输入图片大小 | mIOU | \n| :-----: | :-----: | :------: | :------: | :------: | \n| VOC12+SBD | [unet_vgg_voc.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Funet_vgg_voc.pth) | VOC-Val12 | 512x512| 58.78 | \n| VOC12+SBD | [unet_resnet_voc.pth](https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Freleases\u002Fdownload\u002Fv1.0\u002Funet_resnet_voc.pth) | VOC-Val12 | 512x512| 67.53 | \n\n### 所需环境\ntorch==1.2.0    \ntorchvision==0.4.0   \n\n### 文件下载\n训练所需的权值可在百度网盘中下载。    \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1A22fC5cPRb74gqrpq7O9-A    \n提取码: 6n2c   \n\nVOC拓展数据集的百度网盘如下：   \n链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1vkk3lMheUm6IjTXznlg7Ng    \n提取码: 44mk   \n\n### 训练步骤\n#### 一、训练voc数据集\n1、将我提供的voc数据集放入VOCdevkit中（无需运行voc_annotation.py）。  \n2、运行train.py进行训练，默认参数已经对应voc数据集所需要的参数了。  \n\n#### 二、训练自己的数据集\n1、本文使用VOC格式进行训练。  \n2、训练前将标签文件放在VOCdevkit文件夹下的VOC2007文件夹下的SegmentationClass中。    \n3、训练前将图片文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中。    \n4、在训练前利用voc_annotation.py文件生成对应的txt。    \n5、注意修改train.py的num_classes为分类个数+1。    \n6、运行train.py即可开始训练。  \n\n#### 三、训练医药数据集\n1、下载VGG的预训练权重到model_data下面。  \n2、按照默认参数运行train_medical.py即可开始训练。\n\n### 预测步骤\n#### 一、使用预训练权重\n##### a、VOC预训练权重\n1. 下载完库后解压，如果想要利用voc训练好的权重进行预测，在百度网盘或者release下载权值，放入model_data，运行即可预测。  \n```python\nimg\u002Fstreet.jpg\n```    \n2. 在predict.py里面进行设置可以进行fps测试和video视频检测。    \n##### b、医药预训练权重\n1. 下载完库后解压，如果想要利用医药数据集训练好的权重进行预测，在百度网盘或者release下载权值，放入model_data，修改unet.py中的model_path和num_classes；\n```python\n_defaults = {\n    #-------------------------------------------------------------------#\n    #   model_path指向logs文件夹下的权值文件\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表miou较高，仅代表该权值在验证集上泛化性能较好。\n    #-------------------------------------------------------------------#\n    \"model_path\"    : 'model_data\u002Funet_vgg_medical.pth',\n    #--------------------------------#\n    #   所需要区分的类的个数+1\n    #--------------------------------#\n    \"num_classes\"   : 2,\n    #--------------------------------#\n    #   所使用的的主干网络：vgg、resnet50   \n    #--------------------------------#\n    \"backbone\"      : \"vgg\",\n    #--------------------------------#\n    #   输入图片的大小\n    #--------------------------------#\n    \"input_shape\"   : [512, 512],\n    #--------------------------------#\n    #   blend参数用于控制是否\n    #   让识别结果和原图混合\n    #--------------------------------#\n    \"blend\"         : True,\n    #--------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #--------------------------------#\n    \"cuda\"          : True,\n}\n```\n2. 运行即可预测。  \n```python\nimg\u002Fcell.png\n```  \n#### 二、使用自己训练的权重\n1. 按照训练步骤训练。    \n2. 在unet.py文件里面，在如下部分修改model_path、backbone和num_classes使其对应训练好的文件；**model_path对应logs文件夹下面的权值文件**。    \n```python\n_defaults = {\n    #-------------------------------------------------------------------#\n    #   model_path指向logs文件夹下的权值文件\n    #   训练好后logs文件夹下存在多个权值文件，选择验证集损失较低的即可。\n    #   验证集损失较低不代表miou较高，仅代表该权值在验证集上泛化性能较好。\n    #-------------------------------------------------------------------#\n    \"model_path\"    : 'model_data\u002Funet_vgg_voc.pth',\n    #--------------------------------#\n    #   所需要区分的类的个数+1\n    #--------------------------------#\n    \"num_classes\"   : 21,\n    #--------------------------------#\n    #   所使用的的主干网络：vgg、resnet50   \n    #--------------------------------#\n    \"backbone\"      : \"vgg\",\n    #--------------------------------#\n    #   输入图片的大小\n    #--------------------------------#\n    \"input_shape\"   : [512, 512],\n    #--------------------------------#\n    #   blend参数用于控制是否\n    #   让识别结果和原图混合\n    #--------------------------------#\n    \"blend\"         : True,\n    #--------------------------------#\n    #   是否使用Cuda\n    #   没有GPU可以设置成False\n    #--------------------------------#\n    \"cuda\"          : True,\n}\n```\n3. 运行predict.py，输入    \n```python\nimg\u002Fstreet.jpg\n```   \n4. 在predict.py里面进行设置可以进行fps测试和video视频检测。    \n\n### 评估步骤\n1、设置get_miou.py里面的num_classes为预测的类的数量加1。  \n2、设置get_miou.py里面的name_classes为需要去区分的类别。  \n3、运行get_miou.py即可获得miou大小。  \n\n## Reference\nhttps:\u002F\u002Fgithub.com\u002Fggyyzm\u002Fpytorch_segmentation  \nhttps:\u002F\u002Fgithub.com\u002Fbonlime\u002Fkeras-deeplab-v3-plus","# unet-pytorch 快速上手指南\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F Windows \u002F macOS\n*   **Python 版本**：建议 Python 3.6+\n*   **核心依赖**：\n    *   `torch==1.2.0` (或更高兼容版本)\n    *   `torchvision==0.4.0` (或更高兼容版本)\n*   **硬件建议**：推荐使用 NVIDIA GPU 以加速训练和预测（需安装 CUDA）。\n\n> **注意**：本工具特别适合特征较少、依赖浅层特征的**生物医学图像分割**任务，也可用于 VOC 等通用数据集。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch.git\n    cd unet-pytorch\n    ```\n\n2.  **安装依赖**\n    建议使用国内镜像源加速安装：\n    ```bash\n    pip install torch==1.2.0 torchvision==0.4.0 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n    *(注：若根目录无 requirements.txt，请根据实际报错安装 opencv-python, numpy, pillow 等常用库)*\n\n3.  **下载预训练权重（可选）**\n    如需直接使用预训练模型进行预测，请下载权值文件并放入 `model_data` 文件夹。\n    *   **百度网盘链接**: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1A22fC5cPRb74gqrpq7O9-A (提取码: 6n2c)\n    *   将下载的 `.pth` 文件（如 `unet_vgg_voc.pth`）移至项目根目录下的 `model_data\u002F` 文件夹中。\n\n## 基本使用\n\n### 1. 快速预测（使用预训练权重）\n\n修改 `predict.py` 中的配置参数，然后运行即可对单张图片进行分割预测。\n\n**配置修改 (`predict.py`)**:\n```python\n_defaults = {\n    # 指向 model_data 下的权值文件\n    \"model_path\"    : 'model_data\u002Funet_vgg_voc.pth',\n    # 需要区分的类的个数 + 1 (VOC 数据集为 21)\n    \"num_classes\"   : 21,\n    # 主干网络：vgg 或 resnet50\n    \"backbone\"      : \"vgg\",\n    # 输入图片大小\n    \"input_shape\"   : [512, 512],\n    # 是否将识别结果与原图混合显示\n    \"blend\"         : True,\n    # 是否使用 CUDA，无 GPU 设为 False\n    \"cuda\"          : True,\n}\n```\n\n**运行预测**:\n确保待测图片位于 `img\u002F` 目录下（例如 `img\u002Fstreet.jpg`），执行：\n```bash\npython predict.py\n```\n程序会自动加载图片进行预测，并保存结果。\n\n### 2. 训练自己的数据集（VOC 格式）\n\n本项目支持 VOC 格式数据集，适用于自定义场景或医药数据。\n\n**步骤简述**：\n1.  **准备数据**：\n    *   将图片放入 `VOCdevkit\u002FVOC2007\u002FJPEGImages\u002F`\n    *   将标签文件放入 `VOCdevkit\u002FVOC2007\u002FSegmentationClass\u002F`\n2.  **生成索引**：\n    运行脚本生成训练所需的 txt 文件：\n    ```bash\n    python voc_annotation.py\n    ```\n3.  **修改配置**：\n    打开 `train.py`，将 `num_classes` 修改为 **你的分类数 + 1**。\n4.  **开始训练**：\n    ```bash\n    python train.py\n    ```\n    训练产生的权值文件将保存在 `logs\u002F` 目录下。\n\n### 3. 医药数据集专用训练\n\n如果是生物医学图像（如细胞分割），可直接使用专用脚本：\n\n1.  下载 VGG 预训练权重至 `model_data\u002F`。\n2.  直接运行：\n    ```bash\n    python train_medical.py\n    ```\n\n### 4. 模型评估 (mIOU)\n\n训练完成后，可计算 mIOU 指标评估模型性能：\n\n1.  修改 `get_miou.py`：\n    *   `num_classes`: 设置为预测类别数 + 1。\n    *   `name_classes`: 设置对应的类别名称列表。\n2.  运行评估：\n    ```bash\n    python get_miou.py\n    ```","某生物医学实验室的研究团队正致力于开发一套自动分析显微镜下细胞图像的辅助系统，以替代人工勾画细胞轮廓进行病理统计。\n\n### 没有 unet-pytorch 时\n- **算法复现门槛高**：研究人员需从零编写 U-Net 复杂的编码器 - 解码器结构及跳跃连接逻辑，极易因代码错误导致模型无法收敛。\n- **数据适配困难**：缺乏针对医药数据集（特征少、依赖浅层细节）的专用预处理脚本和训练配置，通用目标检测模型效果极差。\n- **训练流程繁琐**：手动管理学习率衰减、优化器选择及权重保存机制，调试周期长达数周，严重拖慢科研进度。\n- **评估标准缺失**：缺少内置的 mIOU（平均交并比）评估模块，难以量化分割精度，无法客观对比不同实验结果。\n\n### 使用 unet-pytorch 后\n- **开箱即用的架构**：直接调用已实现的 VGG 或 ResNet 主干网络，无需重复造轮子，半天内即可搭建起完整的训练环境。\n- **医药场景深度优化**：利用 `train_medical.py` 专属脚本及预训练权重，快速适配细胞图像特征，显著提升了边缘分割的清晰度。\n- **智能化训练配置**：支持自适应学习率调整及多种优化器切换，一键启动训练，将模型迭代周期从数周缩短至数天。\n- **可视化精准评估**：内置 mIOU 计算与预测可视化功能，实时生成细胞掩膜图，让研究人员能直观验证并优化模型性能。\n\nunet-pytorch 通过提供高度封装且针对生物医学优化的全流程解决方案，让科研人员能将精力从底层代码调试回归到核心的病理分析研究中。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbubbliiiing_unet-pytorch_d8a8ead6.png","bubbliiiing","Bubbliiiing","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbubbliiiing_ad57dd39.jpg","Bubbliiiing哔哩哔哩空间： \r\nhttps:\u002F\u002Fspace.bilibili.com\u002F472467171   ",null,"https:\u002F\u002Fblog.csdn.net\u002Fweixin_44791964","https:\u002F\u002Fgithub.com\u002Fbubbliiiing",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1715,289,"2026-04-19T08:46:31","MIT","未说明","可选（代码中 cuda 参数默认为 True，但注释说明没有 GPU 可设置为 False），具体型号和显存大小未说明，CUDA 版本未说明",{"notes":92,"python":89,"dependencies":93},"该工具主要支持 VGG 和 ResNet50 主干网络。虽然默认配置开启 CUDA 加速，但明确支持在无 GPU 环境下运行（需将配置项 cuda 设为 False）。训练医药数据集时需注意修改分类数量（num_classes）为类别数加 1。预训练权重和 VOC 扩展数据集需通过百度网盘手动下载。",[94,95],"torch==1.2.0","torchvision==0.4.0",[15],"2026-03-27T02:49:30.150509","2026-04-20T07:16:08.944561",[100,105,110,115,120,125,130,135],{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},43964,"如果不使用预训练权重，如何从头开始训练自己的数据集？","可以将从主干网络开始训练获得的权重作为起点。如果你不想使用提供的 VOC 预训练权重，可以直接使用自己的数据集进行训练。对于二值分割任务（如 ECSSD），需要确保标签格式正确：将标签中的 255 改为 1，否则损失函数（Loss）可能会一直为 0。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F22",{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},43965,"训练时 Loss 一直为 0 是什么原因？","这通常是因为标签格式错误。对于二值语义分割任务，标签图像中的像素值应该是 0 和 1。如果原始标签使用的是 0 和 255，需要将 255 修改为 1 才能正常计算损失。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F24",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},43966,"如何只保留预测出的目标区域，并将背景裁剪或置黑？","可以通过修改 `unet.py` 文件中的代码来实现。找到第 180 行左右，将原本用于保留背景的逻辑反转。例如，将 `seg_img = (np.expand_dims(pr != 0, -1) * ...)` 修改为 `seg_img = (np.expand_dims(pr != 1, -1) * ...)`（具体取决于你的目标类别索引），这样可以利用掩码将非目标区域屏蔽。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F21",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},43967,"在远程 Linux 服务器上运行 predict.py 报错或无法显示图片怎么办？","这是因为远程服务器通常没有图形界面（GUI），无法直接弹出窗口显示图片。建议在代码中禁用 `plt.show()` 或类似的可可视化命令，改为直接将结果图片保存到磁盘，然后在本地下载查看。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F71",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},43968,"训练过程中 CE Loss 突然变为 NAN 如何解决？","这个问题可能出在网络最后用于分类的卷积层上。尝试将该卷积层的偏置参数（bias）设置为 False（即在定义 Conv2d 时设置 `bias=False`），这通常能解决 LogSoftmax 反向传播产生 NAN 值的问题。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F19",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},43969,"为什么 num_classes 设置为 2，但预测输出的灰度图却出现了 0, 1, 2 三种值？","这是因为保存预测结果时使用了 JPG 格式。JPG 是有损压缩格式，会在边缘处产生伪影，导致原本只有 0 和 1 的像素值出现杂色（如 2）。解决方法是将输出图片的保存格式强制更改为 PNG，因为 PNG 是无损压缩，能准确保留类别索引值。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F115",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},43970,"训练代码中的变量 nbs 是什么意思？学习率为什么要除以它？","`nbs` 是一个预先设定的基准批量大小（Base Batch Size，代码中默认为 16）。这是一种自适应调整学习率的策略：当实际使用的 `batch_size` 大于或小于 `nbs` 时，通过 `batch_size \u002F nbs` 的比例来线性缩放初始学习率和最小学习率，以适应不同的显存和训练配置。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F70",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},43971,"在浏览器中使用 ONNX.js 运行模型时报错 'outputMap.values is not a function' 怎么办？","这是由于 ONNX.js 的 API 使用方式不当。`sess.run()` 返回的对象结构可能随版本变化。请参考 ONNX.js 的官方文档（https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fonnxjs\u002Fblob\u002Fmaster\u002FREADME.md）确认正确的输出提取方式，通常需要直接访问返回对象的特定属性或使用正确的迭代方法获取张量数据。","https:\u002F\u002Fgithub.com\u002Fbubbliiiing\u002Funet-pytorch\u002Fissues\u002F53",[141,146,151],{"id":142,"version":143,"summary_zh":144,"released_at":145},351455,"v3.0","## 重要更新\n- 支持步进式和余弦退火学习率调度方法。\n- 支持选择Adam和SGD优化器。\n- 支持多种预测模式：单张图片预测、文件夹预测、视频预测以及图片裁剪。\n- 更新了summary.py文件，用于可视化网络结构。\n- 增加了多GPU训练功能。","2022-04-22T12:07:43",{"id":147,"version":148,"summary_zh":149,"released_at":150},351456,"v2.2","## 重要更新\n- 更新train.py文件，增加了大量的注释，增加多个可调整参数。\n- 更新predict.py文件，增加了大量的注释，增加fps、视频预测、批量预测等功能。\n- 更新unet.py文件，增加了大量的注释，增加先验框选择、置信度、非极大抑制等参数。\n- 合并get_dr_txt.py、get_gt_txt.py和get_map.py文件，通过一个文件来实现数据集的评估。\n- 更新voc_annotation.py文件，增加多个可调整参数。\n- 更新callback.py文件，防止多线程错误。\n- 更新summary.py文件，用于观看网络结构。","2022-03-04T09:57:30",{"id":152,"version":153,"summary_zh":77,"released_at":154},351457,"v1.0","2021-03-12T02:42:20"]