[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-milesial--Pytorch-UNet":3,"tool-milesial--Pytorch-UNet":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":76,"owner_company":78,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":79,"owner_url":80,"languages":81,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":10,"env_os":101,"env_gpu":102,"env_ram":103,"env_deps":104,"category_tags":110,"github_topics":111,"view_count":23,"oss_zip_url":76,"oss_zip_packed_at":76,"status":16,"created_at":123,"updated_at":124,"faqs":125,"releases":155},3479,"milesial\u002FPytorch-UNet","Pytorch-UNet","PyTorch implementation of the U-Net for image semantic segmentation with high quality images","Pytorch-UNet 是一个基于 PyTorch 框架实现的 U-Net 模型开源项目，专注于高分辨率图像的语义分割任务。它源自著名的 U-Net 架构，最初为 Kaggle 汽车图像掩膜挑战赛定制开发，能够精准地从复杂背景中提取目标对象，生成高质量的像素级分类结果。\n\n该工具有效解决了医学影像分析、人像背景移除以及自动驾驶场景理解等领域中，对图像进行精细化区域划分的难题。通过在 5000 张图像上从头训练，它在超过 10 万张测试图上取得了极高的精度（Dice 系数达 0.988+），并支持轻松扩展至多类别分割场景。\n\nPytorch-UNet 特别适合计算机视觉开发者、人工智能研究人员以及需要处理图像分割任务的技术团队使用。无论是希望快速复现经典算法的学者，还是寻求高效基线模型的工程师，都能从中受益。\n\n其技术亮点在于提供了灵活易用的训练与预测接口，支持混合精度训练（AMP）以加速计算过程，并兼容 Docker 容器化部署，极大降低了环境配置门槛。此外，项目还预置了数据下载脚本和详细的文档，帮助用户快速上手，将精力集中在模型优化与实际应用探索上。","# U-Net: Semantic segmentation with PyTorch\n\u003Ca href=\"#\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fmilesial\u002FPyTorch-UNet\u002Fmain.yml?logo=github&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fhub.docker.com\u002Fr\u002Fmilesial\u002Funet\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocker%20image-available-blue?logo=Docker&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fpytorch.org\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-v1.13+-red.svg?logo=PyTorch&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"#\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-v3.6+-blue.svg?logo=python&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\n![input and output for a random image in the test dataset](https:\u002F\u002Fi.imgur.com\u002FGD8FcB7.png)\n\n\nCustomized implementation of the [U-Net](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597) in PyTorch for Kaggle's [Carvana Image Masking Challenge](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fcarvana-image-masking-challenge) from high definition images.\n\n- [Quick start](#quick-start)\n  - [Without Docker](#without-docker)\n  - [With Docker](#with-docker)\n- [Description](#description)\n- [Usage](#usage)\n  - [Docker](#docker)\n  - [Training](#training)\n  - [Prediction](#prediction)\n- [Weights & Biases](#weights--biases)\n- [Pretrained model](#pretrained-model)\n- [Data](#data)\n\n## Quick start\n\n### Without Docker\n\n1. [Install CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n2. [Install PyTorch 1.13 or later](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n\n3. Install dependencies\n```bash\npip install -r requirements.txt\n```\n\n4. Download the data and run training:\n```bash\nbash scripts\u002Fdownload_data.sh\npython train.py --amp\n```\n\n### With Docker\n\n1. [Install Docker 19.03 or later:](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F)\n```bash\ncurl https:\u002F\u002Fget.docker.com | sh && sudo systemctl --now enable docker\n```\n2. [Install the NVIDIA container toolkit:](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html)\n```bash\ndistribution=$(. \u002Fetc\u002Fos-release;echo $ID$VERSION_ID) \\\n   && curl -s -L https:\u002F\u002Fnvidia.github.io\u002Fnvidia-docker\u002Fgpgkey | sudo apt-key add - \\\n   && curl -s -L https:\u002F\u002Fnvidia.github.io\u002Fnvidia-docker\u002F$distribution\u002Fnvidia-docker.list | sudo tee \u002Fetc\u002Fapt\u002Fsources.list.d\u002Fnvidia-docker.list\nsudo apt-get update\nsudo apt-get install -y nvidia-docker2\nsudo systemctl restart docker\n```\n3. [Download and run the image:](https:\u002F\u002Fhub.docker.com\u002Frepository\u002Fdocker\u002Fmilesial\u002Funet)\n```bash\nsudo docker run --rm --shm-size=8g --ulimit memlock=-1 --gpus all -it milesial\u002Funet\n```\n\n4. Download the data and run training:\n```bash\nbash scripts\u002Fdownload_data.sh\npython train.py --amp\n```\n\n## Description\nThis model was trained from scratch with 5k images and scored a [Dice coefficient](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FS%C3%B8rensen%E2%80%93Dice_coefficient) of 0.988423 on over 100k test images.\n\nIt can be easily used for multiclass segmentation, portrait segmentation, medical segmentation, ...\n\n\n## Usage\n**Note : Use Python 3.6 or newer**\n\n### Docker\n\nA docker image containing the code and the dependencies is available on [DockerHub](https:\u002F\u002Fhub.docker.com\u002Frepository\u002Fdocker\u002Fmilesial\u002Funet).\nYou can download and jump in the container with ([docker >=19.03](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F)):\n\n```console\ndocker run -it --rm --shm-size=8g --ulimit memlock=-1 --gpus all milesial\u002Funet\n```\n\n\n### Training\n\n```console\n> python train.py -h\nusage: train.py [-h] [--epochs E] [--batch-size B] [--learning-rate LR]\n                [--load LOAD] [--scale SCALE] [--validation VAL] [--amp]\n\nTrain the UNet on images and target masks\n\noptional arguments:\n  -h, --help            show this help message and exit\n  --epochs E, -e E      Number of epochs\n  --batch-size B, -b B  Batch size\n  --learning-rate LR, -l LR\n                        Learning rate\n  --load LOAD, -f LOAD  Load model from a .pth file\n  --scale SCALE, -s SCALE\n                        Downscaling factor of the images\n  --validation VAL, -v VAL\n                        Percent of the data that is used as validation (0-100)\n  --amp                 Use mixed precision\n```\n\nBy default, the `scale` is 0.5, so if you wish to obtain better results (but use more memory), set it to 1.\n\nAutomatic mixed precision is also available with the `--amp` flag. [Mixed precision](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.03740) allows the model to use less memory and to be faster on recent GPUs by using FP16 arithmetic. Enabling AMP is recommended.\n\n\n### Prediction\n\nAfter training your model and saving it to `MODEL.pth`, you can easily test the output masks on your images via the CLI.\n\nTo predict a single image and save it:\n\n`python predict.py -i image.jpg -o output.jpg`\n\nTo predict a multiple images and show them without saving them:\n\n`python predict.py -i image1.jpg image2.jpg --viz --no-save`\n\n```console\n> python predict.py -h\nusage: predict.py [-h] [--model FILE] --input INPUT [INPUT ...] \n                  [--output INPUT [INPUT ...]] [--viz] [--no-save]\n                  [--mask-threshold MASK_THRESHOLD] [--scale SCALE]\n\nPredict masks from input images\n\noptional arguments:\n  -h, --help            show this help message and exit\n  --model FILE, -m FILE\n                        Specify the file in which the model is stored\n  --input INPUT [INPUT ...], -i INPUT [INPUT ...]\n                        Filenames of input images\n  --output INPUT [INPUT ...], -o INPUT [INPUT ...]\n                        Filenames of output images\n  --viz, -v             Visualize the images as they are processed\n  --no-save, -n         Do not save the output masks\n  --mask-threshold MASK_THRESHOLD, -t MASK_THRESHOLD\n                        Minimum probability value to consider a mask pixel white\n  --scale SCALE, -s SCALE\n                        Scale factor for the input images\n```\nYou can specify which model file to use with `--model MODEL.pth`.\n\n## Weights & Biases\n\nThe training progress can be visualized in real-time using [Weights & Biases](https:\u002F\u002Fwandb.ai\u002F).  Loss curves, validation curves, weights and gradient histograms, as well as predicted masks are logged to the platform.\n\nWhen launching a training, a link will be printed in the console. Click on it to go to your dashboard. If you have an existing W&B account, you can link it\n by setting the `WANDB_API_KEY` environment variable. If not, it will create an anonymous run which is automatically deleted after 7 days.\n\n\n## Pretrained model\nA [pretrained model](https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Freleases\u002Ftag\u002Fv3.0) is available for the Carvana dataset. It can also be loaded from torch.hub:\n\n```python\nnet = torch.hub.load('milesial\u002FPytorch-UNet', 'unet_carvana', pretrained=True, scale=0.5)\n```\nAvailable scales are 0.5 and 1.0.\n\n## Data\nThe Carvana data is available on the [Kaggle website](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fcarvana-image-masking-challenge\u002Fdata).\n\nYou can also download it using the helper script:\n\n```\nbash scripts\u002Fdownload_data.sh\n```\n\nThe input images and target masks should be in the `data\u002Fimgs` and `data\u002Fmasks` folders respectively (note that the `imgs` and `masks` folder should not contain any sub-folder or any other files, due to the greedy data-loader). For Carvana, images are RGB and masks are black and white.\n\nYou can use your own dataset as long as you make sure it is loaded properly in `utils\u002Fdata_loading.py`.\n\n\n---\n\nOriginal paper by Olaf Ronneberger, Philipp Fischer, Thomas Brox:\n\n[U-Net: Convolutional Networks for Biomedical Image Segmentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n\n![network architecture](https:\u002F\u002Fi.imgur.com\u002FjeDVpqF.png)\n","# U-Net：基于 PyTorch 的语义分割\n\u003Ca href=\"#\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Factions\u002Fworkflow\u002Fstatus\u002Fmilesial\u002FPyTorch-UNet\u002Fmain.yml?logo=github&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fhub.docker.com\u002Fr\u002Fmilesial\u002Funet\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocker%20image-available-blue?logo=Docker&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fpytorch.org\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-v1.13+-red.svg?logo=PyTorch&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"#\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-v3.6+-blue.svg?logo=python&style=for-the-badge\" \u002F>\u003C\u002Fa>\n\n![测试数据集中一张随机图像的输入与输出](https:\u002F\u002Fi.imgur.com\u002FGD8FcB7.png)\n\n\n针对 Kaggle 的 [Carvana 图像掩码挑战赛](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fcarvana-image-masking-challenge)，基于高分辨率图像，在 PyTorch 中对 [U-Net](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597) 进行了定制化实现。\n\n- [快速入门](#quick-start)\n  - [不使用 Docker](#without-docker)\n  - [使用 Docker](#with-docker)\n- [描述](#description)\n- [用法](#usage)\n  - [Docker](#docker)\n  - [训练](#training)\n  - [预测](#prediction)\n- [Weights & Biases](#weights--biases)\n- [预训练模型](#pretrained-model)\n- [数据](#data)\n\n## 快速入门\n\n### 不使用 Docker\n\n1. [安装 CUDA](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n2. [安装 PyTorch 1.13 或更高版本](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n\n3. 安装依赖项\n```bash\npip install -r requirements.txt\n```\n\n4. 下载数据并运行训练：\n```bash\nbash scripts\u002Fdownload_data.sh\npython train.py --amp\n```\n\n### 使用 Docker\n\n1. [安装 Docker 19.03 或更高版本：](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F)\n```bash\ncurl https:\u002F\u002Fget.docker.com | sh && sudo systemctl --now enable docker\n```\n2. [安装 NVIDIA 容器工具包：](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html)\n```bash\ndistribution=$(. \u002Fetc\u002Fos-release;echo $ID$VERSION_ID) \\\n   && curl -s -L https:\u002F\u002Fnvidia.github.io\u002Fnvidia-docker\u002Fgpgkey | sudo apt-key add - \\\n   && curl -s -L https:\u002F\u002Fnvidia.github.io\u002Fnvidia-docker\u002F$distribution\u002Fnvidia-docker.list | sudo tee \u002Fetc\u002Fapt\u002Fsources.list.d\u002Fnvidia-docker.list\nsudo apt-get update\nsudo apt-get install -y nvidia-docker2\nsudo systemctl restart docker\n```\n3. [下载并运行镜像：](https:\u002F\u002Fhub.docker.com\u002Frepository\u002Fdocker\u002Fmilesial\u002Funet)\n```bash\nsudo docker run --rm --shm-size=8g --ulimit memlock=-1 --gpus all -it milesial\u002Funet\n```\n\n4. 下载数据并运行训练：\n```bash\nbash scripts\u002Fdownload_data.sh\npython train.py --amp\n```\n\n## 描述\n该模型从 5000 张图像中从头开始训练，在超过 10 万张测试图像上获得了 0.988423 的 [Dice 系数](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FS%C3%B8rensen%E2%80%93Dice_coefficient)。\n\n它可以轻松用于多类分割、人像分割、医学分割等场景。\n\n\n## 用法\n**注意：请使用 Python 3.6 或更高版本**\n\n### Docker\n\n包含代码和依赖项的 Docker 镜像已在 [DockerHub](https:\u002F\u002Fhub.docker.com\u002Frepository\u002Fdocker\u002Fmilesial\u002Funet) 上发布。\n您可以使用 ([docker >=19.03](https:\u002F\u002Fdocs.docker.com\u002Fget-docker\u002F)) 下载并进入容器：\n\n```console\ndocker run -it --rm --shm-size=8g --ulimit memlock=-1 --gpus all milesial\u002Funet\n```\n\n\n### 驯练\n\n```console\n> python train.py -h\n用法：train.py [-h] [--epochs E] [--batch-size B] [--learning-rate LR]\n                [--load LOAD] [--scale SCALE] [--validation VAL] [--amp]\n\n在图像和目标掩码上训练 UNet\n\n可选参数：\n  -h, --help            显示此帮助消息并退出\n  --epochs E, -e E      训练轮数\n  --batch-size B, -b B  批量大小\n  --learning-rate LR, -l LR\n                        学习率\n  --load LOAD, -f LOAD  从 .pth 文件加载模型\n  --scale SCALE, -s SCALE\n                        图像的下采样因子\n  --validation VAL, -v VAL\n                        用作验证集的数据百分比 (0-100)\n  --amp                 使用混合精度\n```\n\n默认情况下，`scale` 为 0.5，因此如果您希望获得更好的结果（但会占用更多内存），可以将其设置为 1。\n\n还可以通过 `--amp` 标志启用自动混合精度。[混合精度](https:\u002F\u002Farxiv.org\u002Fabs\u002F1710.03740) 允许模型在最近的 GPU 上使用更少的内存并提高速度，因为它采用 FP16 算法。建议启用 AMP。\n\n\n### 预测\n\n在训练完模型并将其保存到 `MODEL.pth` 后，您可以通过命令行轻松地在自己的图像上测试输出掩码。\n\n要预测单张图像并保存：\n`python predict.py -i image.jpg -o output.jpg`\n\n要预测多张图像并在不保存的情况下显示它们：\n`python predict.py -i image1.jpg image2.jpg --viz --no-save`\n\n```console\n> python predict.py -h\n用法：predict.py [-h] [--model FILE] --input INPUT [INPUT ...] \n                  [--output INPUT [INPUT ...]] [--viz] [--no-save]\n                  [--mask-threshold MASK_THRESHOLD] [--scale SCALE]\n\n根据输入图像预测掩码\n\n可选参数：\n  -h, --help            显示此帮助消息并退出\n  --model FILE, -m FILE\n                        指定存储模型的文件\n  --input INPUT [INPUT ...], -i INPUT [INPUT ...]\n                        输入图像的文件名\n  --output INPUT [INPUT ...], -o INPUT [INPUT ...]\n                        输出图像的文件名\n  --viz, -v             在处理图像时进行可视化\n  --no-save, -n         不保存输出掩码\n  --mask-threshold MASK_THRESHOLD, -t MASK_THRESHOLD\n                        将掩码像素视为白色所需的最小概率值\n  --scale SCALE, -s SCALE\n                        输入图像的比例因子\n```\n您可以使用 `--model MODEL.pth` 指定要使用的模型文件。\n\n## Weights & Biases\n\n训练进度可以使用 [Weights & Biases](https:\u002F\u002Fwandb.ai\u002F) 实时可视化。损失曲线、验证曲线、权重和梯度直方图以及预测的掩码都会被记录到该平台上。\n\n启动训练时，控制台会打印一个链接。点击该链接即可进入您的仪表板。如果您已有 W&B 账户，可以通过设置 `WANDB_API_KEY` 环境变量将其关联起来。如果没有，则会创建一个匿名运行，该运行将在 7 天后自动删除。\n\n\n## 预训练模型\n适用于 Carvana 数据集的 [预训练模型](https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Freleases\u002Ftag\u002Fv3.0) 已经提供。它也可以从 torch.hub 加载：\n\n```python\nnet = torch.hub.load('milesial\u002FPytorch-UNet', 'unet_carvana', pretrained=True, scale=0.5)\n```\n可用的比例因子为 0.5 和 1.0。\n\n## 数据\nCarvana 数据集可在 [Kaggle 网站](https:\u002F\u002Fwww.kaggle.com\u002Fc\u002Fcarvana-image-masking-challenge\u002Fdata) 上获取。\n\n你也可以使用辅助脚本下载数据：\n\n```\nbash scripts\u002Fdownload_data.sh\n```\n\n输入图像和目标掩码应分别放置在 `data\u002Fimgs` 和 `data\u002Fmasks` 文件夹中（请注意，由于数据加载器的特性，`imgs` 和 `masks` 文件夹内不应包含任何子文件夹或其他文件）。对于 Carvana 数据集，图像为 RGB 格式，掩码为黑白图像。\n\n你可以使用自己的数据集，只要确保它能在 `utils\u002Fdata_loading.py` 中正确加载即可。\n\n\n---\n\nOlaf Ronneberger、Philipp Fischer 和 Thomas Brox 的原始论文：\n\n[U-Net：用于生物医学图像分割的卷积网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F1505.04597)\n\n![网络架构](https:\u002F\u002Fi.imgur.com\u002FjeDVpqF.png)","# PyTorch-UNet 快速上手指南\n\nPyTorch-UNet 是一个基于 PyTorch 实现的 U-Net 语义分割模型，最初为 Kaggle Carvana 图像掩膜挑战赛设计，适用于医学图像分割、人像分割等多类场景。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\u002FWindows (需配置 CUDA 环境)\n*   **Python**: v3.6 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡 (可选，但强烈推荐用于训练)\n*   **CUDA**: 已安装并配置好对应的 CUDA 驱动\n*   **PyTorch**: v1.13 或更高版本\n\n## 安装步骤\n\n您可以选择直接使用 Docker 容器（推荐，环境隔离性好）或在本地环境中安装。\n\n### 方案一：使用 Docker (推荐)\n\n如果您已安装 Docker 和 NVIDIA Container Toolkit，这是最快捷的方式。\n\n1.  **拉取并运行镜像**：\n    以下命令将下载镜像并启动一个包含所有依赖的容器：\n    ```bash\n    sudo docker run --rm --shm-size=8g --ulimit memlock=-1 --gpus all -it milesial\u002Funet\n    ```\n\n2.  **进入容器后**，继续执行下方的“基本使用”步骤。\n\n### 方案二：本地安装 (Without Docker)\n\n如果您希望在本地环境中运行：\n\n1.  **安装 PyTorch**：\n    访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取适合您环境的安装命令。\n    *国内用户推荐使用清华源加速安装：*\n    ```bash\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    # 或者使用清华镜像\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n\n2.  **安装项目依赖**：\n    克隆本项目代码库后，进入目录并安装依赖：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPyTorch-UNet.git\n    cd PyTorch-UNet\n    pip install -r requirements.txt\n    ```\n\n## 基本使用\n\n### 1. 数据准备\n\n本项目默认使用 Carvana 数据集。您可以使用内置脚本自动下载：\n\n```bash\nbash scripts\u002Fdownload_data.sh\n```\n\n*注意：下载后的图片应位于 `data\u002Fimgs`，掩膜位于 `data\u002Fmasks`。若使用自定义数据集，请确保目录结构一致，并检查 `utils\u002Fdata_loading.py` 中的加载逻辑。*\n\n### 2. 训练模型\n\n使用以下命令开始训练。建议开启 `--amp` 参数以启用混合精度训练，可显著减少显存占用并提升速度。\n\n```bash\npython train.py --amp\n```\n\n**常用参数说明：**\n*   `--epochs E`: 训练轮数\n*   `--batch-size B`: 批次大小\n*   `--scale SCALE`: 图像缩放因子 (默认 0.5，设为 1 可获得更好效果但消耗更多显存)\n*   `--load LOAD`: 从 `.pth` 文件加载预训练权重继续训练\n\n### 3. 预测与推理\n\n训练完成后（或使用预训练模型），可对单张或多张图片进行分割预测。\n\n**加载官方预训练模型进行预测 (Python 代码示例)：**\n```python\nimport torch\nfrom unet import UNet\n\n# 加载预训练模型 (scale 可选 0.5 或 1.0)\nnet = torch.hub.load('milesial\u002FPytorch-UNet', 'unet_carvana', pretrained=True, scale=0.5)\nnet.eval()\n```\n\n**使用命令行进行预测：**\n\n*   **预测单张图片并保存结果：**\n    ```bash\n    python predict.py -i image.jpg -o output.jpg\n    ```\n\n*   **预测多张图片并实时预览（不保存）：**\n    ```bash\n    python predict.py -i image1.jpg image2.jpg --viz --no-save\n    ```\n\n*   **指定特定模型文件进行预测：**\n    ```bash\n    python predict.py -m MODEL.pth -i image.jpg -o output.jpg\n    ```\n\n**预测参数说明：**\n*   `--model`: 指定模型权重文件路径\n*   `--mask-threshold`: 掩膜阈值 (0-1)，决定像素被判定为前景的最小概率\n*   `--viz`: 可视化处理过程","某医疗影像初创团队正在开发一款辅助诊断系统，需要从大量高分辨率肺部 CT 扫描图中精准提取病灶区域，以协助医生快速定位肿瘤边界。\n\n### 没有 Pytorch-UNet 时\n- **开发周期漫长**：团队需从零搭建语义分割网络架构，反复调试编码器 - 解码器结构，耗时数周仍难复现论文效果。\n- **小样本训练困难**：面对仅有数千张标注数据的医疗数据集，自定义模型极易过拟合，泛化能力差，无法处理未见过的病灶形态。\n- **部署环境复杂**：缺乏标准化的容器支持，在不同服务器间迁移代码时，常因 CUDA、PyTorch 版本冲突导致环境配置失败。\n- **精度难以达标**：手动调整的模型在测试集上的 Dice 系数仅徘徊在 0.85 左右，无法满足临床辅助诊断对高准确率的严苛要求。\n\n### 使用 Pytorch-UNet 后\n- **即刻启动训练**：直接复用基于 Carvana 挑战赛验证的高质量 U-Net 实现，几行命令即可加载预置架构，将核心研发时间从数周缩短至几天。\n- **小数据高性能**：借助其在 5k 图像上训练即达 0.98+ Dice 系数的强大泛化能力，团队仅用少量医疗标注数据便实现了病灶的精准分割。\n- **一键容器化部署**：利用官方提供的 Docker 镜像，内置 NVIDIA 工具链与依赖库，彻底消除环境兼容性问题，实现跨平台无缝迁移。\n- **临床级精度交付**：模型在高分辨率 CT 图上表现出卓越的边缘捕捉能力，显著提升了病灶识别的准确率，顺利通过医院初步验收。\n\nPytorch-UNet 通过提供开箱即用的高性能分割方案，让医疗 AI 团队能将精力从底层架构搭建转向核心业务逻辑优化，加速了产品落地进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmilesial_Pytorch-UNet_d370d947.png","milesial",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmilesial_de4e7ad0.png","NVIDIA","https:\u002F\u002Fmilesial.github.io","https:\u002F\u002Fgithub.com\u002Fmilesial",[82,86,89,93],{"name":83,"color":84,"percentage":85},"Python","#3572A5",94.1,{"name":87,"color":88,"percentage":10},"Batchfile","#C1F12E",{"name":90,"color":91,"percentage":92},"Shell","#89e051",2.2,{"name":94,"color":95,"percentage":96},"Dockerfile","#384d54",0.8,11330,2736,"2026-04-04T19:37:36","GPL-3.0","Linux","需要 NVIDIA GPU（用于 Docker 和混合精度训练），需安装 CUDA，Docker 运行参数建议共享内存 8GB (--shm-size=8g)","未说明（建议 8GB+ 以支持 Docker 共享内存设置）",{"notes":105,"python":106,"dependencies":107},"1. 官方文档主要提供 Linux 下的 Docker 安装指南及 NVIDIA 容器工具包配置步骤。2. 支持使用 --amp 标志开启自动混合精度训练以减少显存占用并提升速度。3. 默认图像缩放比例为 0.5，若设为 1.0 可获得更好效果但会显著增加内存消耗。4. 可通过 torch.hub 直接加载预训练模型。","3.6+",[108,109],"torch>=1.13","requirements.txt 中定义的其他依赖",[13,14],[112,113,114,115,116,117,118,119,120,121,122],"pytorch","unet","pytorch-unet","semantic-segmentation","convolutional-networks","kaggle","tensorboard","wandb","weights-and-biases","deep-learning","convolutional-neural-networks","2026-03-27T02:49:30.150509","2026-04-06T05:19:24.528165",[126,131,136,141,146,151],{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},15948,"如何修改代码以支持多分类（Multi-class）分割任务？","1. 修改训练脚本中的类别数量参数（例如 n_classes = 3）。\n2. 确保损失函数计算时维度匹配。如果预测结果是 [batch, classes, h, w] 而真实标签是 [batch, 1, h, w]，需要在计算 loss 前对真实标签使用 squeeze 操作：loss = criterion(masks_pred, true_masks.squeeze(dim=1))。\n3. 对于预测结果转换：模型输出的 [batch, classes, h, w] 代表每个像素属于各类别的概率，可以使用 numpy 的 argmax 方法获取每个像素概率最大的类别索引，从而将其转换为单通道的类别掩码 [batch, 1, h, w]，其中元素值为 0, 1, 2 等类别索引。","https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Fissues\u002F15",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},15949,"运行 predict.py 时出现 'numpy.ndarray' object has no attribute 'unsqueeze' 错误怎么办？","这通常是因为 Pillow 库版本过旧或兼容性问题导致的图像读取格式异常。请确保安装最新版本的 Pillow：pip install --upgrade pillow。如果问题依旧，特别是处理 .tif 文件时在 Windows 上报错，尝试降级 libtiff 版本（例如 conda install libtiff=4.0.10），因为某些版本的 libtiff 在 Windows 上与 Pillow 存在兼容性问题。","https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Fissues\u002F94",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},15950,"如何使用自定义数据集（如人像分割）进行训练和预测？","1. 将自定义图像放入 '.\u002Fdata\u002Fimgs\u002F' 目录，对应的掩码图像放入 '.\u002Fdata\u002Fmasks\u002F' 目录。\n2. 确保图像和掩码文件名对应且格式正确（如都是 jpg 或 png）。\n3. 直接使用默认配置运行 python train.py 进行训练。\n4. 训练完成后，使用 python predict.py -i \u003C输入图片> --model \u003C模型路径> 进行预测。\n5. 如果遇到特定格式（如 TIF）读取错误，可能需要检查 dataset.py 中的图像加载逻辑或转换图像格式。部分用户反馈需微调代码以适配特定数据类型。","https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Fissues\u002F132",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},15951,"训练时出现 'Sizes of tensors must match except in dimension 1' 的 RuntimeError 如何解决？","该错误通常由输入图像尺寸不能被网络下采样倍数整除引起（UNet 通常会下采样 4 次或更多，导致特征图尺寸变化）。请确保输入图像的宽和高都能被 32（或至少 16）整除。解决方法包括：\n1. 在预处理阶段将图像裁剪或缩放到合适的尺寸。\n2. 检查数据增强代码，确保没有产生奇数尺寸的图像。\n3. 如果使用了 CRF 后处理，确保传递给 CRF 的概率值在 0 到 1 之间（应用 sigmoid 激活函数）。","https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Fissues\u002F5",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},15952,"遇到 'only batches of spatial targets supported (3D tensors) but got targets of size...' 错误怎么办？","这是因为目标掩码（target\u002Fmask）的维度多余了一个通道维。例如，标签形状可能是 [batch, 1, height, width]，但损失函数期望的是 [batch, height, width]。解决方法是在传入损失函数之前，对目标张量使用 squeeze 操作去除多余的维度：true_masks = true_masks.squeeze(dim=1)。这样可以消除大小为 1 的冗余维度，使形状匹配。","https:\u002F\u002Fgithub.com\u002Fmilesial\u002FPytorch-UNet\u002Fissues\u002F237",{"id":152,"question_zh":153,"answer_zh":154,"source_url":150},15953,"对于彩色标注的掩码（不同颜色代表不同类别），如何将其转换为模型可用的标签格式？","模型需要的是单通道的类别索引图，而不是 RGB 颜色图。你需要将 RGB 颜色映射为整数类别标签。例如，如果有 4 个类别，背景为黑色 [0,0,0]，其他类别分别为红、绿、蓝，你需要编写脚本遍历图像像素，将特定的 RGB 值替换为对应的整数（0, 1, 2, 3）。最终保存的标签图像应为单通道（灰度图），像素值即为类别索引。可以使用 Python 的 PIL 或 OpenCV 读取 RGB 掩码，通过查找表或条件判断将其转换为单通道整数矩阵并保存。",[156,161,166],{"id":157,"version":158,"summary_zh":159,"released_at":160},90693,"v3.0"," ","2022-02-19T04:09:30",{"id":162,"version":163,"summary_zh":164,"released_at":165},90694,"v2.0","[训练的 W&B 报告](https:\u002F\u002Fwandb.ai\u002Fanony-mouse-126085\u002FU-Net\u002Freports\u002FU-Net-training-on-Carvana--Vmlldzo5NDY4MzU?accessToken=dvx1wof4vmajw1hw72pem0fyo1b5tb93o9mgr4f807m6a7rv5t1es4jdrviffhzi)","2021-08-19T09:13:22",{"id":167,"version":168,"summary_zh":169,"released_at":170},90695,"v1.0","在 Carvana 数据集上使用双线性上采样训练的 UNet（5 个 epoch，缩放比例 100%）","2020-07-30T01:38:29"]