[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-isht7--pytorch-deeplab-resnet":3,"tool-isht7--pytorch-deeplab-resnet":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":76,"owner_email":77,"owner_twitter":75,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":90,"env_deps":92,"category_tags":98,"github_topics":99,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":140},6335,"isht7\u002Fpytorch-deeplab-resnet","pytorch-deeplab-resnet","DeepLab resnet v2 model in pytorch","pytorch-deeplab-resnet 是一个基于 PyTorch 框架实现的 DeepLab-ResNet v2 语义分割模型，源自 ACM MM 2017 发表的 SketchParse 论文。它主要解决图像像素级分类难题，特别擅长处理线条潦草的草图解析，能生成丰富的内容描述。\n\n该工具的核心亮点在于其独特的多尺度训练机制：模型同时在原始、0.75 倍及 0.5 倍三种尺度下计算损失，并融合输出结果以优化最终精度。此外，它支持权重共享策略，在保持训练效果的同时显著减小了模型文件体积。项目还完整复现了 Caffe 版本的训练细节，包括动量随机梯度下降（SGD）、多项式学习率衰减以及特定的数据增强方法。\n\n由于代码目前仅适配 Python 2.7 环境，且涉及从 Caffe 模型转换权重等专业步骤，pytorch-deeplab-resnet 更适合具备深度学习背景的研究人员和开发者使用。对于希望复现经典语义分割算法、进行草图分析研究或需要在 PyTorch 中迁移旧有 Caffe 模型的科研人员来说，这是一个极具参考价值的开源实现。","# pytorch-deeplab-resnet\n\nThis repository contains code for the deepLab-ResNet architecture used in my paper \"*SketchParse: Towards rich descriptions for poorly drawn sketches using multi-task hierarchical deep networks*\" published at ACM MM 2017. This architecture calculates losses on input images over multiple scales ( 1x, 0.75x, 0.5x ). Losses are calculated individually over these 3 scales. In addition to these 3 losses, one more loss is calculated after merging the output score maps on the 3 scales. These 4 losses are added to calculate the total loss.\n\n## Updates\n\n**24 June 2017**\n\n* Now, weights over the 3 scales ( 1x, 0.75x, 0.5x ) are shared as in the caffe implementation. Previously, each of the 3 scales had seperate weights. Results are almost same after making this change (more in the results section). However, the size of the trained .pth model has reduced significantly. Memory occupied on GPU(11.9 GB) and time taken (~3.5 hours) during training are same as before. Links to corresponding .pth files have been updated.\n* Custom data can be used to train pytorch-deeplab-resnet using train.py, flag --NoLabels (total number of labels in training data) has been added to train.py and evalpyt.py for this purpose. **Please note that labels should be denoted by contiguous values (starting from 0) in the ground truth images. For eg. if there are 7 (no_labels) different labels, then each ground truth image must have these labels as 0,1,2,3,...6 (no_labels-1).**\n\n\n# Usage\nNote that this repository has been tested with python 2.7 only.\n\n### Training \nStep 1: Convert `init.caffemodel` to a .pth file: `init.caffemodel` contains MS COCO trained weights. We use these weights as initilization for all but the final layer of our model. For the last layer, we use random gaussian with a standard deviation of 0.01 as the initialization.\nTo convert `init.caffemodel` to a .pth file, run (or download the converted .pth [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0BxhUwxvLPO7TVFJQU1dwbXhHdEk\u002Fview?usp=sharing&resourcekey=0-7UxnHrm5eDCyvz2G35aKgA))\n```\npython init_net_surgery.py\n```\nTo run `init_net_surgery .py`, [deeplab v2 caffe](https:\u002F\u002Fbitbucket.org\u002Faquariusjay\u002Fdeeplab-public-ver2) and pytorch (python 2.7) are required.\n\nStep 2: Now that we have our initialization, we can train deeplab-resnet by running,\n```\npython train.py\n```\nTo get a description of each command-line arguments, run\n```\npython train.py -h\n```\nTo run `train.py`, pytorch (python 2.7) is required.\n\n\nBy default, snapshots are saved in every 1000 iterations in the  data\u002Fsnapshots.\nThe following features have been implemented in this repository -\n* Training regime is the same as that of the caffe implementation - SGD with momentum is used, along with the `poly` lr decay policy. A weight decay has been used. The last layer has `10` times the learning rate of other layers.  \n* The iter\\_size parameter of caffe has been implemented, effectively increasing the batch\\_size to batch\\_size times iter\\_size\n* Random flipping and random scaling of input has been used as data augmentation. The caffe implementation uses 4 fixed scales (0.5,0.75,1,1.25,1.5) while in the pytorch implementation, for each iteration scale is randomly picked in the range - [0.5,1.3].\n* The boundary label (255 in ground truth labels) has not been ignored in the loss function in the current version, instead it has been merged with the background. The ignore\\_label caffe parameter would be implemented in the future versions. Post processing using CRF has not been implemented.\n* Batchnorm parameters are kept fixed during training. Also, caffe setting `use_global_stats = True` is reproduced during training. Running mean and variance are not calculated during training.\n\nWhen run on a Nvidia Titan X GPU, `train.py` occupies about 11.9 GB of memory. \n\n### Evaluation\nEvaluation of the saved models can be done by running\n```\npython evalpyt.py\n```\nTo get a description of each command-line arguments, run\n```\npython evalpyt.py -h\n```\n### Results\nWhen trained on VOC augmented training set (with 10582 images) using MS COCO pretrained initialization in pytorch, we get a validation performance of 72.40%(`evalpyt2.py`, on VOC). The corresponding .pth file can be downloaded [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0BxhUwxvLPO7TT0Y5UndZckIwMVE\u002Fview?usp=sharing&resourcekey=0-dN8LmTrIU54tOySJQpSjVg). This is in comparision to 75.54% that is acheived by using `train_iter_20000.caffemodel` released by [authors](https:\u002F\u002Farxiv.org\u002Fabs\u002F1606.00915), which can be replicated by running [this](https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fblob\u002Fdevelopment\u002Fcaffe_evalpyt.py) file . The `.pth` model converted from `.caffemodel` using the first section also gives 75.54% mean IOU.\nA previous version of this file reported mean IOU of 78.48% on the pytorch trained model which is caclulated in a different way (`evalpyt.py`, Mean IOU is calculated for each image and these values are averaged together. This way of calculating mean IOU is different than the one used by [authors](https:\u002F\u002Farxiv.org\u002Fabs\u002F1606.00915)). \n\nTo replicate this performance, run \n```\ntrain.py --lr 0.00025 --wtDecay 0.0005 --maxIter 20000 --GTpath \u003Ctrain gt images path here> --IMpath \u003Ctrain images path here> --LISTpath data\u002Flist\u002Ftrain_aug.txt\n```\n#### Dataset\nThe model presented in the results section was trained using the augmented VOC train set which was released by [this paper](http:\u002F\u002Fhome.bharathh.info\u002Fpubs\u002Fpdfs\u002FBharathICCV2011.pdf). You may download this augmented data directly from [here](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!AvBNaER10ndvhb4mFM_LkXLQ6yl9Og).\n\nNote that this code can be used to train pytorch-deeplab-resnet model for other datasets also. \n\n## Acknowledgement\nA part of the code has been borrowed from [https:\u002F\u002Fgithub.com\u002Fry\u002Ftensorflow-resnet](https:\u002F\u002Fgithub.com\u002Fry\u002Ftensorflow-resnet).\n","# pytorch-deeplab-resnet\n\n本仓库包含用于我发表在 ACM MM 2017 上的论文《SketchParse: 基于多任务层次化深度网络实现对草图的丰富描述》中的 deepLab-ResNet 架构的代码。该架构在多个尺度（1倍、0.75倍、0.5倍）上对输入图像计算损失，这3个尺度分别独立计算损失。此外，在合并3个尺度的输出得分图之后，还会再计算一个损失。最终将这4个损失相加得到总损失。\n\n## 更新\n\n**2017年6月24日**\n\n* 现在，3个尺度（1倍、0.75倍、0.5倍）的权重与 Caffe 实现一样是共享的。此前，每个尺度都有独立的权重。做出这一改动后，结果几乎相同（更多细节见结果部分）。不过，训练后的 .pth 模型文件大小显著减小。在 GPU 上占用的内存（11.9 GB）以及训练所需时间（约3.5小时）与之前保持一致。相应 .pth 文件的下载链接已更新。\n* 可以使用自定义数据通过 train.py 训练 pytorch-deeplab-resnet，并为此在 train.py 和 evalpyt.py 中添加了 --NoLabels 标志（表示训练数据中的标签总数）。**请注意，真值图像中的标签应使用连续数值（从0开始）。例如，如果有7种不同的标签，则每张真值图像必须包含这些标签：0,1,2,3,...6（即 no_labels-1）。**\n\n\n# 使用说明\n请注意，本仓库仅在 Python 2.7 环境下进行了测试。\n\n### 训练 \n步骤1：将 `init.caffemodel` 转换为 .pth 文件：`init.caffemodel` 包含 MS COCO 预训练的权重。我们使用这些权重作为除最后一层之外的所有层的初始化参数。对于最后一层，则采用标准差为0.01的随机高斯分布进行初始化。\n要将 `init.caffemodel` 转换为 .pth 文件，请运行（或在此处下载转换好的 .pth 文件 [链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0BxhUwxvLPO7TVFJQU1dwbXhHdEk\u002Fview?usp=sharing&resourcekey=0-7UxnHrm5eDCyvz2G35aKgA)）\n```\npython init_net_surgery.py\n```\n运行 `init_net_surgery.py` 需要 [deeplab v2 caffe](https:\u002F\u002Fbitbucket.org\u002Faquariusjay\u002Fdeeplab-public-ver2) 和 PyTorch（Python 2.7）。\n\n步骤2：现在我们已经有了初始化权重，可以通过运行以下命令来训练 deeplab-resnet：\n```\npython train.py\n```\n要查看每个命令行参数的说明，请运行：\n```\npython train.py -h\n```\n运行 `train.py` 需要 PyTorch（Python 2.7）。\n\n默认情况下，每1000次迭代会在 data\u002Fsnapshots 目录下保存一次快照。\n\n本仓库实现了以下功能：\n* 训练方式与 Caffe 实现相同——使用带有动量的 SGD，并结合 `poly` 学习率衰减策略。同时采用了权重衰减。最后一层的学习率是其他层的10倍。\n* 实现了 Caffe 的 iter_size 参数，从而有效将批处理大小提升为 batch_size 乘以 iter_size。\n* 在数据增强中使用了随机翻转和随机缩放。Caffe 实现使用4个固定尺度（0.5、0.75、1、1.25、1.5），而 PyTorch 实现则在每次迭代时随机选择[0.5,1.3]范围内的尺度。\n* 当前版本中，边界标签（真值标签中的255）并未在损失函数中被忽略，而是与背景合并。未来版本中将实现 Caffe 的 ignore_label 参数。尚未实现使用 CRF 进行后处理。\n* 训练过程中保持 BatchNorm 参数不变。同时，复现了 Caffe 中设置 `use_global_stats = True` 的行为。训练期间不计算运行均值和方差。\n\n在 Nvidia Titan X GPU 上运行 `train.py` 时，大约会占用11.9 GB的显存。\n\n### 评估\n可以通过运行以下命令来评估已保存的模型：\n```\npython evalpyt.py\n```\n要查看每个命令行参数的说明，请运行：\n```\npython evalpyt.py -h\n```\n\n### 结果\n在 PyTorch 中使用 MS COCO 预训练的初始化权重，并在 VOC 增强训练集（包含10582张图像）上进行训练后，验证集上的性能达到72.40%（evalpyt2.py，基于VOC数据）。相应的 .pth 文件可在此下载 [链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0BxhUwxvLPO7TT0Y5UndZckIwMVE\u002Fview?usp=sharing&resourcekey=0-dN8LmTrIU54tOySJQpSjVg)。相比之下，使用 [作者](https:\u002F\u002Farxiv.org\u002Fabs\u002F1606.00915)发布的 `train_iter_20000.caffemodel` 所获得的性能为75.54%，可通过运行 [此文件](https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fblob\u002Fdevelopment\u002Fcaffe_evalpyt.py) 复现。同样，使用第一部分方法从 `.caffemodel` 转换而来的 `.pth` 模型也能达到75.54%的平均交并比。\n\n此前的一个版本报告称，PyTorch 训练的模型在另一种计算方式下的平均交并比为78.48%（evalpyt.py，针对每张图像单独计算交并比，然后取平均值。这种计算平均交并比的方式与 [作者](https:\u002F\u002Farxiv.org\u002Fabs\u002F1606.00915)所用的方法不同）。\n\n要复现这一性能，请运行以下命令：\n```\ntrain.py --lr 0.00025 --wtDecay 0.0005 --maxIter 20000 --GTpath \u003C此处填写训练真值图像路径> --IMpath \u003C此处填写训练图像路径> --LISTpath data\u002Flist\u002Ftrain_aug.txt\n```\n\n#### 数据集\n结果部分展示的模型是在 [这篇论文](http:\u002F\u002Fhome.bharathh.info\u002Fpubs\u002Fpdfs\u002FBharathICCV2011.pdf) 发布的 VOC 增强训练集上训练的。您可以直接从 [这里](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!AvBNaER10ndvhb4mFM_LkXLQ6yl9Og) 下载该增强数据集。\n\n请注意，这段代码也可用于训练适用于其他数据集的 pytorch-deeplab-resnet 模型。\n\n## 致谢\n部分代码借鉴自 [https:\u002F\u002Fgithub.com\u002Fry\u002Ftensorflow-resnet](https:\u002F\u002Fgithub.com\u002Fry\u002Ftensorflow-resnet)。","# pytorch-deeplab-resnet 快速上手指南\n\n本指南基于 `pytorch-deeplab-resnet` 项目整理，旨在帮助开发者快速复现 DeepLab-ResNet 架构（源自 ACM MM 2017 论文 *SketchParse*）。该模型支持多尺度损失计算，适用于语义分割任务。\n\n> **注意**：本项目仅在 **Python 2.7** 环境下经过测试，请确保使用对应版本。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：Linux (推荐)\n- **Python 版本**：2.7 (必须)\n- **GPU**：NVIDIA GPU (推荐 Titan X 或更高，训练需约 11.9 GB 显存)\n- **CUDA\u002FcuDNN**：需安装与 PyTorch 版本匹配的驱动\n\n### 前置依赖\n1. **PyTorch** (Python 2.7 版本)\n2. **Caffe (DeepLab v2)**：仅在进行权重转换时需要。\n   - 仓库地址：[deeplab-public-ver2](https:\u002F\u002Fbitbucket.org\u002Faquariusjay\u002Fdeeplab-public-ver2)\n   - 需编译支持 Python 接口的 Caffe 版本。\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet.git\ncd pytorch-deeplab-resnet\n```\n\n### 2. 准备初始化权重 (.pth)\n模型需要使用在 MS COCO 数据集上预训练的权重进行初始化。你可以选择直接下载已转换的文件，或自行从 Caffe 模型转换。\n\n**方案 A：直接下载（推荐）**\n下载作者提供的已转换 `.pth` 文件：\n- [初始化权重下载链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0BxhUwxvLPO7TVFJQU1dwbXhHdEk\u002Fview?usp=sharing&resourcekey=0-7UxnHrm5eDCyvz2G35aKgA)\n- 下载后将其重命名为 `init.caffemodel.pth` (或根据代码实际读取的文件名调整) 并放入项目根目录。\n\n**方案 B：自行转换**\n如果你已有 `init.caffemodel` 文件，运行以下脚本进行转换（需确保 Caffe 和 PyTorch 环境已配置好）：\n```bash\npython init_net_surgery.py\n```\n\n## 基本使用\n\n### 1. 训练模型 (Training)\n使用 `train.py` 开始训练。默认配置会使用 SGD 优化器、动量策略以及 `poly` 学习率衰减策略。\n\n**最简单的训练命令：**\n```bash\npython train.py --GTpath \u003C训练集标签路径> --IMpath \u003C训练集图片路径> --LISTpath data\u002Flist\u002Ftrain_aug.txt --NoLabels \u003C类别数量>\n```\n\n**参数说明：**\n- `--GTpath`: 地面真值（Ground Truth）图像的路径。\n- `--IMpath`: 输入图像的路径。\n- `--LISTpath`: 包含图像文件列表的 txt 文件路径（参考 `data\u002Flist\u002F` 下的格式）。\n- `--NoLabels`: 训练数据中的类别总数。**注意**：标签值必须是连续的整数，从 0 开始（例如 7 个类别，标签应为 0,1,2,3,4,5,6）。边界标签（原为 255）在当前版本中会被合并到背景类。\n\n**高级训练示例（复现 78.48% mIOU 结果）：**\n```bash\npython train.py --lr 0.00025 --wtDecay 0.0005 --maxIter 20000 --GTpath \u003Ctrain gt images path here> --IMpath \u003Ctrain images path here> --LISTpath data\u002Flist\u002Ftrain_aug.txt\n```\n\n*训练过程中，模型快照每 1000 次迭代保存一次至 `data\u002Fsnapshots` 目录。*\n\n### 2. 评估模型 (Evaluation)\n训练完成后，使用 `evalpyt.py` 对保存的模型进行评估。\n\n**评估命令：**\n```bash\npython evalpyt.py --modelPath \u003C模型文件路径.pth> --GTpath \u003C验证集标签路径> --IMpath \u003C验证集图片路径> --LISTpath \u003C验证集列表路径>\n```\n\n查看完整参数帮助：\n```bash\npython evalpyt.py -h\n```\n\n### 3. 数据集准备\n官方结果是在 VOC augmented 训练集（10582 张图片）上得出的。\n- **数据来源**：[VOC Augmented Data](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!AvBNaER10ndvhb4mFM_LkXLQ6yl9Og)\n- 该代码也支持使用自定义数据集进行训练，只需按照上述 `--NoLabels` 的要求整理标签即可。","某计算机视觉团队正在开发一款“草图智能解析系统”，旨在将用户手绘的粗糙草图自动转化为包含丰富语义信息的分割地图，用于后续的设计辅助或动画生成。\n\n### 没有 pytorch-deeplab-resnet 时\n- **多尺度特征融合困难**：团队需手动编写代码拼接不同缩放比例（如 0.5x, 0.75x, 1x）的特征图，难以复现论文中提到的四重损失计算机制，导致模型对大小不一的草图物体识别率低。\n- **预训练权重迁移成本高**：缺乏直接的 Caffe 到 PyTorch 权重转换脚本，研究人员不得不重新从头训练 ResNet 主干网络，耗费数周时间且收敛效果不佳。\n- **自定义数据适配繁琐**：原有框架要求标签必须严格连续编码，缺乏灵活的数据加载接口，处理非标准草图数据集时需大量修改底层代码，极易引入 Bug。\n- **显存与效率失衡**：自行实现的多尺度训练往往为每个尺度分配独立权重，导致显存占用激增，无法在单张 Titan X 显卡上运行大批次训练。\n\n### 使用 pytorch-deeplab-resnet 后\n- **原生支持多层级损失优化**：直接调用内置架构，自动在三个尺度上独立计算损失并合并输出，显著提升了模型对潦草线条和模糊边界的解析精度。\n- **无缝衔接成熟预训练模型**：利用提供的 `init_net_surgery.py` 脚本，一键将 MS COCO 数据集上的 Caffe 权重转换为 PyTorch 格式，仅需微调最后一层即可快速启动训练。\n- **灵活适配私有草图数据**：通过简单的 `--NoLabels` 参数配置，即可支持任意类别数量的自定义数据集，只要标签从 0 开始连续编号，无需改动核心代码。\n- **共享权重降低资源门槛**：采用三尺度共享权重策略，在保证识别效果几乎不变的前提下，大幅减小模型文件体积，使 11.9GB 显存内的高效训练成为常态。\n\npytorch-deeplab-resnet 通过复用经过验证的多尺度深度学习架构，将草图解析算法的研发周期从数月缩短至数天，让团队能专注于业务逻辑而非底层算子实现。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fisht7_pytorch-deeplab-resnet_67c33565.png","isht7","Isht Dwivedi","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fisht7_930fd33a.png",null,"San Jose","isht.dwivedi@gmail.com","www.ishtdwivedi.in","https:\u002F\u002Fgithub.com\u002Fisht7",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,603,115,"2025-12-15T16:56:25","MIT",4,"未说明","必需 NVIDIA GPU，测试型号为 Titan X，显存需求约 11.9 GB，CUDA 版本未说明",{"notes":93,"python":94,"dependencies":95},"该工具仅测试于 Python 2.7 环境。训练前需将 Caffe 模型 (.caffemodel) 转换为 PyTorch 格式 (.pth)，此步骤依赖 deeplab v2 caffe 实现。自定义数据训练时，标签值必须从 0 开始连续编号。默认每 1000 次迭代保存一次快照。","2.7",[96,97],"pytorch (python 2.7 兼容版)","deeplab v2 caffe",[14,15],[100,101,102,103,104,105,106],"deep-learning","deeplab","pytorch","semantic-segmentation","deeplab-resnet","pascal-voc","computer-vision","2026-03-27T02:49:30.150509","2026-04-11T03:26:18.099529",[110,115,120,125,130,135],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},28686,"如何在显存较小的 GPU（如 GTX 1060 6G）上进行微调训练？","虽然原作者主要提供了 TensorFlow 版本的参考（https:\u002F\u002Fgithub.com\u002FDrSleep\u002Ftensorflow-deeplab-resnet），但在 PyTorch 版本中，你可以尝试减少批量大小（batch size）或使用更小的输入图像分辨率来适应显存限制。此外，确保你的数据集标签格式正确（例如处理 label-255 的问题），这有助于避免不必要的内存浪费和训练错误。如果可能，参考 Issue #5 中的讨论以获取关于评估脚本修改的建议，这可能对优化资源使用有帮助。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F7",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},28687,"为什么评估得到的 mIoU 分数与论文报告的数值不一致？","mean IoU (mIoU) 的正确计算方式是基于像素累积的，而不是简单地对每张图像的 IoU 求平均。如果发现分数偏低（例如 72.1% 或 75.4% 而非 76.3%），请检查评估脚本是否采用了正确的像素级累积逻辑。可以参考 FCN 项目的 score.py 实现。此外，预处理步骤（如使用 PIL 读取图像以保持范围和 RGB 通道顺序）也会影响结果。确保输入图像和 Ground Truth 的处理方式与原 DeepLab Caffe 实现一致，例如在测试时将图像填充为 (513, 513, 3) 的正方形。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F5",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},28688,"运行 train.py 时出现 'TypeError: float object cannot be interpreted as an integer' 错误怎么办？","该错误通常发生在调整标签大小时，尺寸变量被计算为浮点数而非整数。请检查你的 Ground Truth 图像标签值，确保它们都是有效的整数类别索引。有用户发现某些图像中包含异常的标签值（如 192），导致尺寸计算出错。请遍历数据集验证所有标签值的合法性，并确保在 `resize_label_batch` 函数中传入的尺寸参数已明确转换为整数类型（int）。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F18",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},28689,"加载预训练模型时出现 'unexpected key' 或 KeyError 错误如何解决？","当使用 COCO 预训练模型（MS_DeepLab_resnet_pretrained_COCO_init.pth）微调 VOC 数据集时，如果出现键不匹配错误，通常是因为模型结构中存在额外的层（如 'Scale.conv1.weight'）或分类头维度不一致。请确认你使用的预训练权重文件版本与代码中的模型定义完全匹配。如果进行了迁移学习（类别数量变化），可能需要手动修改 state_dict，剔除不匹配的层或重新初始化最后一层分类器。此外，禁用随机尺度增强（scale augmentation）可能会导致性能下降约 1%，但不会导致加载错误。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F13",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},28690,"使用自定义数据集（仅包含标签 0 和 255）评估时报 'sizes do not match' 错误的原因是什么？","主要原因有两个：1. 在训练过程中，标签 255 通常被视为忽略索引并与背景合并（见 train.py 第 106 行），导致模型实际上只在标签 0 上训练。建议将自定义数据集中的前景标签从 255 改为 1，然后重新训练。2. 评估时（evalpyt2.py），DeepLab 要求在测试阶段将图像填充为正方形（513x513）。如果输入图像尺寸不符合要求或未正确填充，会导致张量尺寸不匹配。请确保在传入模型前，图像已被处理为 (513, 513, 3) 的形状。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F8",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},28691,"训练后模型生成的分割结果全为背景（空白），即使损失在下降，这是什么原因？","如果模型预测结果全为背景（类别 0），即使损失在下降，可能是以下原因：1. 数据不平衡导致模型倾向于预测背景；2. 标签处理有误，例如前景标签未被正确识别或被误认为是忽略区域；3. 超参数设置不当。建议首先验证预训练模型在相同数据上的表现以排除数据加载问题。其次，检查标签映射是否正确（确保前景不是 255 除非被正确处理）。最后，尝试调整学习率、增加前景样本权重或检查是否意外修改了训练脚本中的关键逻辑。","https:\u002F\u002Fgithub.com\u002Fisht7\u002Fpytorch-deeplab-resnet\u002Fissues\u002F32",[]]