[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-lzx1413--PytorchSSD":3,"tool-lzx1413--PytorchSSD":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":76,"owner_email":77,"owner_twitter":75,"owner_website":78,"owner_url":79,"languages":80,"stars":101,"forks":102,"last_commit_at":103,"license":104,"difficulty_score":105,"env_os":106,"env_gpu":107,"env_ram":108,"env_deps":109,"category_tags":116,"github_topics":117,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":123,"updated_at":124,"faqs":125,"releases":166},9471,"lzx1413\u002FPytorchSSD","PytorchSSD","pytorch version of SSD and it's enhanced methods such as RFBSSD,FSSD and RefineDet","PytorchSSD 是一个基于 PyTorch 框架实现的单阶段目标检测工具集，不仅复现了经典的 SSD 算法，还集成了 RFB-SSD、FSSD 和 RefineDet 等多种增强改进版本。它主要解决了开发者在将前沿论文算法转化为实际代码时面临的复现难、环境配置复杂以及性能对比不便等痛点，提供了一套开箱即用的高效解决方案。\n\n该工具特别适合计算机视觉领域的研究人员、算法工程师及深度学习开发者使用。无论是需要快速验证新想法的学术探索，还是追求高精度与高速度平衡的工业落地场景，PytorchSSD 都能提供强有力的支持。其核心亮点在于卓越的性能表现：在 VOC 和 COCO 数据集上，集成感受野块（RFB）技术的模型在保持极快推理速度（最高可达 83 FPS）的同时，实现了超越传统 Faster R-CNN 的检测精度。此外，项目还针对移动端优化了 MobileNet 架构，并提供了详尽的训练、评估指南及多显卡测试数据，帮助用户轻松上手并复现业界领先的检测结果。","# Pytorch SSD Series\n## Pytorch 4.1 is suppoted on branch 0.4 now.\n## Support Arc:\n* SSD [SSD: Single Shot Multibox  Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02325)\n* FSSD [FSSD: Feature Fusion Single Shot Multibox Detector](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00960)\n* RFB-SSD[Receptive Field Block Net for Accurate and Fast Object Detection](https:\u002F\u002Farxiv.org\u002Fabs\u002F1711.07767)\n* RefineDet[Single-Shot Refinement Neural Network for Object Detection](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1711.06897.pdf)\n\n### VOC2007 Test\n| System                                   |  *mAP*   | **FPS** (Titan X Maxwell) |\n| :--------------------------------------- | :------: | :-----------------------: |\n| [Faster R-CNN (VGG16)](https:\u002F\u002Fgithub.com\u002FShaoqingRen\u002Ffaster_rcnn) |   73.2   |             7             |\n| [YOLOv2 (Darknet-19)](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F) |   78.6   |            40             |\n| [R-FCN (ResNet-101)](https:\u002F\u002Fgithub.com\u002Fdaijifeng001\u002FR-FCN) |   80.5   |             9             |\n| [SSD300* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |   77.2   |            46             |\n| [SSD512* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |   79.8   |            19             |\n| RFBNet300 (VGG16)                        | **80.5** |            83             |\n| RFBNet512 (VGG16)                        | **82.2** |            38             |\n| SSD300 (VGG)                             |   77.8   |     **150 (1080Ti)**      |\n| FSSD300 (VGG)                            |   78.8   |       120 (1080Ti)        |\n\n### COCO \n| System                                   | *test-dev mAP* | **Time** (Titan X Maxwell) |\n| :--------------------------------------- | :------------: | :------------------------: |\n| [Faster R-CNN++ (ResNet-101)](https:\u002F\u002Fgithub.com\u002FKaimingHe\u002Fdeep-residual-networks) |      34.9      |           3.36s            |\n| [YOLOv2 (Darknet-19)](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F) |      21.6      |            25ms            |\n| [SSD300* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |      25.1      |            22ms            |\n| [SSD512* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |      28.8      |            53ms            |\n| [RetinaNet500 (ResNet-101-FPN)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.02002.pdf) |      34.4      |            90ms            |\n| RFBNet300 (VGG16)                        |    **29.9**    |         **15ms\\***         |\n| RFBNet512 (VGG16)                        |    **33.8**    |         **30ms\\***         |\n| RFBNet512-E (VGG16)                      |    **34.4**    |         **33ms\\***         |\n| [SSD512 (HarDNet68)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorchSSD-HarDNet) |      31.7      |          TBD (12.9ms\\*\\*)  |\n| [SSD512 (HarDNet85)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorchSSD-HarDNet) |      35.1      |          TBD (15.9ms\\*\\*)  |\n| RFBNet512 (HarDNet68)                    |      33.9      |          TBD (16.7ms\\*\\*)  |\n| RFBNet512 (HarDNet85)                    |      36.8      |          TBD (19.3ms\\*\\*)  |\n\n*Note*: **\\*** The speed here is tested on the newest pytorch and cudnn version (0.2.0 and cudnnV6), which is obviously faster than the speed reported in the paper (using pytorch-0.1.12 and cudnnV5).\n\n*Note*: **\\*\\*** HarDNet results are measured on Titan V with pytorch 1.0.1\nfor detection only (NMS is NOT included, which is 13~18ms in general cases).\nFor reference, the measurement of SSD-vgg on the same environment is 15.7ms\n(also detection only).\n\n### MobileNet\n| System                                   | COCO *minival mAP* | **\\#parameters** |\n| :--------------------------------------- | :----------------: | :--------------: |\n| [SSD MobileNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.04861) |        19.3        |       6.8M       |\n| RFB MobileNet                            |       20.7\\*       |       7.4M       |\n\n\\*: slightly better than the original ones in the paper (20.5).\n\n### Contents\n1. [Installation](#installation)\n2. [Datasets](#datasets)\n3. [Training](#training)\n4. [Evaluation](#evaluation)\n5. [Models](#models)\n\n## Installation\n- Install [PyTorch-0.2.0-0.3.1](http:\u002F\u002Fpytorch.org\u002F) by selecting your environment on the website and running the appropriate command.\n- Clone this repository. This repository is mainly based on[RFBNet](https:\u002F\u002Fgithub.com\u002Fruinmessi\u002FRFBNet), [ssd.pytorch](https:\u002F\u002Fgithub.com\u002Famdegroot\u002Fssd.pytorch) and [Chainer-ssd](https:\u002F\u002Fgithub.com\u002FHakuyume\u002Fchainer-ssd), a huge thank to them.\n  * Note: We currently only support Python 3+.\n- Compile the nms and coco tools:\n```Shell\n.\u002Fmake.sh\n```\nNote*: Check you GPU architecture support in utils\u002Fbuild.py, line 131. Default is:\n\n``` \n'nvcc': ['-arch=sm_52',\n```\n- Install [pyinn](https:\u002F\u002Fgithub.com\u002Fszagoruyko\u002Fpyinn) for MobileNet backbone:\n```Shell\npip install git+https:\u002F\u002Fgithub.com\u002Fszagoruyko\u002Fpyinn.git@master\n```\n- Then download the dataset by following the [instructions](#download-voc2007-trainval--test) below and install opencv. \n```Shell\nconda install opencv\n```\nNote: For training, we currently  support [VOC](http:\u002F\u002Fhost.robots.ox.ac.uk\u002Fpascal\u002FVOC\u002F) and [COCO](http:\u002F\u002Fmscoco.org\u002F). \n\n## Datasets\nTo make things easy, we provide simple VOC and COCO dataset loader that inherits `torch.utils.data.Dataset` making it fully compatible with the `torchvision.datasets` [API](http:\u002F\u002Fpytorch.org\u002Fdocs\u002Ftorchvision\u002Fdatasets.html).\n\n### VOC Dataset\n##### Download VOC2007 trainval & test\n\n```Shell\n# specify a directory for dataset to be downloaded into, else default is ~\u002Fdata\u002F\nsh data\u002Fscripts\u002FVOC2007.sh # \u003Cdirectory>\n```\n\n##### Download VOC2012 trainval\n\n```Shell\n# specify a directory for dataset to be downloaded into, else default is ~\u002Fdata\u002F\nsh data\u002Fscripts\u002FVOC2012.sh # \u003Cdirectory>\n```\n### COCO Dataset\nInstall the MS COCO dataset at \u002Fpath\u002Fto\u002Fcoco from [official website](http:\u002F\u002Fmscoco.org\u002F), default is ~\u002Fdata\u002FCOCO. Following the [instructions](https:\u002F\u002Fgithub.com\u002Frbgirshick\u002Fpy-faster-rcnn\u002Fblob\u002F77b773655505599b94fd8f3f9928dbf1a9a776c7\u002Fdata\u002FREADME.md) to prepare *minival2014* and *valminusminival2014* annotations. All label files (.json) should be under the COCO\u002Fannotations\u002F folder. It should have this basic structure\n```Shell\n$COCO\u002F\n$COCO\u002Fcache\u002F\n$COCO\u002Fannotations\u002F\n$COCO\u002Fimages\u002F\n$COCO\u002Fimages\u002Ftest2015\u002F\n$COCO\u002Fimages\u002Ftrain2014\u002F\n$COCO\u002Fimages\u002Fval2014\u002F\n```\n*UPDATE*: The current COCO dataset has released new *train2017* and *val2017* sets which are just new splits of the same image sets. \n\n## Training\n- First download the fc-reduced [VGG-16](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.1556) PyTorch base network weights at:    https:\u002F\u002Fs3.amazonaws.com\u002Famdegroot-models\u002Fvgg16_reducedfc.pth\n  or from our [BaiduYun Driver](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jIP86jW) \n- MobileNet pre-trained basenet is ported from [MobileNet-Caffe](https:\u002F\u002Fgithub.com\u002Fshicai\u002FMobileNet-Caffe), which achieves slightly better accuracy rates than the original one reported in the [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.04861), weight file is available at: https:\u002F\u002Fdrive.google.com\u002Fopen?id=13aZSApybBDjzfGIdqN1INBlPsddxCK14 or [BaiduYun Driver](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dFKZhdv).\n\n- By default, we assume you have downloaded the file in the `RFBNet\u002Fweights` dir:\n```Shell\nmkdir weights\ncd weights\nwget https:\u002F\u002Fs3.amazonaws.com\u002Famdegroot-models\u002Fvgg16_reducedfc.pth\n```\n\n- To train RFBNet using the train script simply specify the parameters listed in `train_RFB.py` as a flag or manually change them.\n```Shell\npython train_test.py -d VOC -v RFB_vgg -s 300 \n```\n- Note:\n  * -d: choose datasets, VOC or COCO.\n  * -v: choose backbone version, RFB_VGG, RFB_E_VGG or RFB_mobile.\n  * -s: image size, 300 or 512.\n  * You can pick-up training from a checkpoint by specifying the path as one of the training parameters (again, see `train_RFB.py` for options)\n\n## Evaluation\nThe test frequency can be found in the train_test.py\nBy default, it will directly output the mAP results on VOC2007 *test* or COCO *minival2014*. For VOC2012 *test* and COCO *test-dev* results, you can manually change the datasets in the `test_RFB.py` file, then save the detection results and submitted to the server. \n\n## Models\n* ImageNet [mobilenet](https:\u002F\u002Fdrive.google.com\u002Fopen?id=11VqerLerDkFzN_fkwXG4Vm1CIU2G5Gtm)\n* 07+12 [RFB_Net300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1V3DjLw1ob89G8XOuUn7Jmg_o-8k_WM3L), [BaiduYun Driver](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1bplRosf),[FSSD300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1xhgdxCF_HuC3SP6ALhhTeC5RTmuoLzgC),[SSD300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=10sM_yWSN8vRZdh6Sf0CILyMfcoJiCNtn)\n* COCO [RFB_Net512_E](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1pHDc6Xg9im3affOr7xaimXaRNOHtbaPM), [BaiduYun Driver](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1o8dxrom)\n* COCO [RFB_Mobile Net300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1vmbTWWgeMN_qKVWOeDfl1EN9c7yHPmOe), [BaiduYun Driver](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1bp4ik1L)\n\n## Update (Sep 29, 2019)\n* Add SSD and RFBNet with [Harmonic DenseNet (HarDNet)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorch-HarDNet) as backbone models.\n* Pretrained backbone models: \n[hardnet68_base_bridge.pth](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002Fhardnet68_base_bridge.pth) | \n[hardnet85_base.pth](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002Fhardnet85_base.pth) \n* Pretrained models for COCO dataset:\n[SSD512-HarDNet68](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FSSD512_HarDNet68_COCO.pth) | \n[SSD512-HarDNet85](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FSSD512_HarDNet85_COCO.pth) | \n[RFBNet512-HarDNet68](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FRFB512_HarDNet68_COCO.pth) | \n[RFBNet512-HarDNet85](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FRFB512_HarDNet85_COCO.pth)\n\n\n","# PyTorch SSD 系列\n## 目前分支 0.4 已支持 PyTorch 4.1。\n## 支持的模型：\n* SSD [SSD：单次多框检测器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02325)\n* FSSD [FSSD：特征融合单次多框检测器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00960)\n* RFB-SSD[感受野块网络用于准确快速的目标检测](https:\u002F\u002Farxiv.org\u002Fabs\u002F1711.07767)\n* RefineDet[单次精炼神经网络用于目标检测](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1711.06897.pdf)\n\n### VOC2007 测试\n| 系统                                   |  *mAP*   | **FPS** (Titan X Maxwell) |\n| :--------------------------------------- | :------: | :-----------------------: |\n| [Faster R-CNN (VGG16)](https:\u002F\u002Fgithub.com\u002FShaoqingRen\u002Ffaster_rcnn) |   73.2   |             7             |\n| [YOLOv2 (Darknet-19)](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F) |   78.6   |            40             |\n| [R-FCN (ResNet-101)](https:\u002F\u002Fgithub.com\u002Fdaijifeng001\u002FR-FCN) |   80.5   |             9             |\n| [SSD300* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |   77.2   |            46             |\n| [SSD512* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |   79.8   |            19             |\n| RFBNet300 (VGG16)                        | **80.5** |            83             |\n| RFBNet512 (VGG16)                        | **82.2** |            38             |\n| SSD300 (VGG)                             |   77.8   |     **150 (1080Ti)**      |\n| FSSD300 (VGG)                            |   78.8   |       120 (1080Ti)        |\n\n### COCO \n| 系统                                   | *test-dev mAP* | **Time** (Titan X Maxwell) |\n| :--------------------------------------- | :------------: | :------------------------: |\n| [Faster R-CNN++ (ResNet-101)](https:\u002F\u002Fgithub.com\u002FKaimingHe\u002Fdeep-residual-networks) |      34.9      |           3.36s            |\n| [YOLOv2 (Darknet-19)](http:\u002F\u002Fpjreddie.com\u002Fdarknet\u002Fyolo\u002F) |      21.6      |            25ms            |\n| [SSD300* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |      25.1      |            22ms            |\n| [SSD512* (VGG16)](https:\u002F\u002Fgithub.com\u002Fweiliu89\u002Fcaffe\u002Ftree\u002Fssd) |      28.8      |            53ms            |\n| [RetinaNet500 (ResNet-101-FPN)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.02002.pdf) |      34.4      |            90ms            |\n| RFBNet300 (VGG16)                        |    **29.9**    |         **15ms\\***         |\n| RFBNet512 (VGG16)                        |    **33.8**    |         **30ms\\***         |\n| RFBNet512-E (VGG16)                      |    **34.4**    |         **33ms\\***         |\n| [SSD512 (HarDNet68)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorchSSD-HarDNet) |      31.7      |          TBD (12.9ms\\*\\*)  |\n| [SSD512 (HarDNet85)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorchSSD-HarDNet) |      35.1      |          TBD (15.9ms\\*\\*)  |\n| RFBNet512 (HarDNet68)                    |      33.9      |          TBD (16.7ms\\*\\*)  |\n| RFBNet512 (HarDNet85)                    |      36.8      |          TBD (19.3ms\\*\\*)  |\n\n*注*: **\\*** 此处的速度是在最新的 PyTorch 和 cuDNN 版本（0.2.0 和 cuDNN V6）上测试的，明显快于论文中报告的速度（使用 PyTorch 0.1.12 和 cuDNN V5）。\n\n*注*: **\\*\\*** HarDNet 的结果是在 Titan V 上使用 PyTorch 1.0.1 测得的，仅计算检测时间（未包含 NMS，一般情况下 NMS 需要 13~18 毫秒）。作为参考，相同环境下 SSD-VGG 的检测时间为 15.7 毫秒（同样仅计算检测时间）。\n\n### MobileNet\n| 系统                                   | COCO *minival mAP* | **\\#参数** |\n| :--------------------------------------- | :----------------: | :--------------: |\n| [SSD MobileNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.04861) |        19.3        |       6.8M       |\n| RFB MobileNet                            |       20.7\\*       |       7.4M       |\n\n\\*: 略高于论文中的原始结果（20.5）。\n\n### 目录\n1. [安装](#installation)\n2. [数据集](#datasets)\n3. [训练](#training)\n4. [评估](#evaluation)\n5. [模型](#models)\n\n## 安装\n- 根据你的环境在官网选择并运行相应命令，安装 [PyTorch-0.2.0-0.3.1](http:\u002F\u002Fpytorch.org\u002F)。\n- 克隆本仓库。本仓库主要基于[RFBNet](https:\u002F\u002Fgithub.com\u002Fruinmessi\u002FRFBNet)、[ssd.pytorch](https:\u002F\u002Fgithub.com\u002Famdegroot\u002Fssd.pytorch)和[Chainer-ssd](https:\u002F\u002Fgithub.com\u002FHakuyume\u002Fchainer-ssd)，在此向他们表示感谢。\n  * 注意：我们目前仅支持 Python 3+。\n- 编译 nms 和 coco 工具：\n```Shell\n.\u002Fmake.sh\n```\n注意*: 在 utils\u002Fbuild.py 第 131 行检查你的 GPU 架构是否支持。默认设置为：\n\n``` \n'nvcc': ['-arch=sm_52',\n```\n- 安装 [pyinn](https:\u002F\u002Fgithub.com\u002Fszagoruyko\u002Fpyinn) 以用于 MobileNet 主干网络：\n```Shell\npip install git+https:\u002F\u002Fgithub.com\u002Fszagoruyko\u002Fpyinn.git@master\n```\n- 然后按照下方的[说明](#download-voc2007-trainval--test)下载数据集，并安装 opencv。 \n```Shell\nconda install opencv\n```\n注意：对于训练，我们目前支持 [VOC](http:\u002F\u002Fhost.robots.ox.ac.uk\u002Fpascal\u002FVOC\u002F) 和 [COCO](http:\u002F\u002Fmscoco.org\u002F)。\n\n## 数据集\n为了方便起见，我们提供了一个简单的 VOC 和 COCO 数据集加载器，它继承自 `torch.utils.data.Dataset`，因此与 `torchvision.datasets` [API](http:\u002F\u002Fpytorch.org\u002Fdocs\u002Ftorchvision\u002Fdatasets.html) 完全兼容。\n\n### VOC 数据集\n##### 下载 VOC2007 trainval 和 test\n\n```Shell\n# 指定数据集下载的目录，否则默认为 ~\u002Fdata\u002F\nsh data\u002Fscripts\u002FVOC2007.sh # \u003Cdirectory>\n```\n\n##### 下载 VOC2012 trainval\n\n```Shell\n# 指定数据集下载的目录，否则默认为 ~\u002Fdata\u002F\nsh data\u002Fscripts\u002FVOC2012.sh # \u003Cdirectory>\n```\n### COCO 数据集\n从 [官方网站](http:\u002F\u002Fmscoco.org\u002F) 将 MS COCO 数据集安装到 \u002Fpath\u002Fto\u002Fcoco，默认路径为 ~\u002Fdata\u002FCOCO。按照 [说明](https:\u002F\u002Fgithub.com\u002Frbgirshick\u002Fpy-faster-rcnn\u002Fblob\u002F77b773655505599b94fd8f3f9928dbf1a9a776c7\u002Fdata\u002FREADME.md) 准备 *minival2014* 和 *valminusminival2014* 的标注文件。所有标签文件 (.json) 应该放在 COCO\u002Fannotations\u002F 文件夹下。其基本结构应如下所示：\n```Shell\n$COCO\u002F\n$COCO\u002Fcache\u002F\n$COCO\u002Fannotations\u002F\n$COCO\u002Fimages\u002F\n$COCO\u002Fimages\u002Ftest2015\u002F\n$COCO\u002Fimages\u002Ftrain2014\u002F\n$COCO\u002Fimages\u002Fval2014\u002F\n```\n*更新*: 目前 COCO 数据集已发布新的 *train2017* 和 *val2017* 数据集，它们只是对原有图像集的新划分。\n\n## 训练\n- 首先从以下地址下载fc-reduced [VGG-16](https:\u002F\u002Farxiv.org\u002Fabs\u002F1409.1556) PyTorch基础网络权重：    https:\u002F\u002Fs3.amazonaws.com\u002Famdegroot-models\u002Fvgg16_reducedfc.pth\n  或者从我们的[百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jIP86jW)下载。\n- MobileNet预训练基础网络移植自[MobileNet-Caffe](https:\u002F\u002Fgithub.com\u002Fshicai\u002FMobileNet-Caffe)，其准确率略高于原论文[1704.04861]中报告的数值，权重文件可在以下链接获取：https:\u002F\u002Fdrive.google.com\u002Fopen?id=13aZSApybBDjzfGIdqN1INBlPsddxCK14 或 [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dFKZhdv)。\n\n- 默认情况下，我们假设您已将文件下载到`RFBNet\u002Fweights`目录下：\n```Shell\nmkdir weights\ncd weights\nwget https:\u002F\u002Fs3.amazonaws.com\u002Famdegroot-models\u002Fvgg16_reducedfc.pth\n```\n\n- 要使用训练脚本训练RFBNet，只需在`train_RFB.py`中列出的参数作为命令行选项指定，或手动修改这些参数即可。\n```Shell\npython train_test.py -d VOC -v RFB_vgg -s 300 \n```\n- 注意：\n  * `-d`：选择数据集，VOC或COCO。\n  * `-v`：选择主干网络版本，RFB_VGG、RFB_E_VGG或RFB_mobile。\n  * `-s`：图像尺寸，300或512。\n  * 您可以通过指定检查点路径来从某个检查点继续训练（具体选项请参阅`train_RFB.py`）。\n\n## 评估\n测试频率可以在`train_test.py`中找到。\n默认情况下，它会直接输出VOC2007 *test*或COCO *minival2014*上的mAP结果。对于VOC2012 *test*和COCO *test-dev*的结果，您可以手动更改`test_RFB.py`文件中的数据集，然后保存检测结果并提交到服务器。\n\n## 模型\n* ImageNet [mobilenet](https:\u002F\u002Fdrive.google.com\u002Fopen?id=11VqerLerDkFzN_fkwXG4Vm1CIU2G5Gtm)\n* 07+12 [RFB_Net300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1V3DjLw1ob89G8XOuUn7Jmg_o-8k_WM3L), [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1bplRosf),[FSSD300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1xhgdxCF_HuC3SP6ALhhTeC5RTmuoLzgC),[SSD300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=10sM_yWSN8vRZdh6Sf0CILyMfcoJiCNtn)\n* COCO [RFB_Net512_E](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1pHDc6Xg9im3affOr7xaimXaRNOHtbaPM), [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1o8dxrom)\n* COCO [RFB_Mobile Net300](https:\u002F\u002Fdrive.google.com\u002Fopen?id=1vmbTWWgeMN_qKVWOeDfl1EN9c7yHPmOe), [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1bp4ik1L)\n\n## 更新（2019年9月29日）\n* 增加了以[Harmonic DenseNet (HarDNet)](https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorch-HarDNet)为骨干网络的SSD和RFBNet模型。\n* 预训练骨干网络模型：\n[hardnet68_base_bridge.pth](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002Fhardnet68_base_bridge.pth) | \n[hardnet85_base.pth](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002Fhardnet85_base.pth) \n* COCO数据集的预训练模型：\n[SSD512-HarDNet68](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FSSD512_HarDNet68_COCO.pth) | \n[SSD512-HarDNet85](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FSSD512_HarDNet85_COCO.pth) | \n[RFBNet512-HarDNet68](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FRFB512_HarDNet68_COCO.pth) | \n[RFBNet512-HarDNet85](https:\u002F\u002Fping-chao.com\u002Fhardnet\u002FRFB512_HarDNet85_COCO.pth)","# PytorchSSD 快速上手指南\n\nPytorchSSD 是一个基于 PyTorch 的目标检测工具箱，支持 SSD、FSSD、RFB-SSD、RefineDet 等多种经典算法，并在 VOC 和 COCO 数据集上提供了高性能的预训练模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐)\n*   **Python 版本**: Python 3+\n*   **深度学习框架**: PyTorch 0.2.0 - 0.3.1 (部分新特性如 HarDNet 需 PyTorch 1.0.1+)\n*   **GPU 支持**: CUDA 及 cuDNN (默认架构为 `sm_52`，如需其他架构请修改源码)\n*   **依赖库**: OpenCV, pyinn (仅 MobileNet 骨干网需要)\n\n> **注意**：本项目主要基于较早期的 PyTorch 版本开发。若使用新版 PyTorch (如 1.x)，可能需要对代码进行少量适配。\n\n## 2. 安装步骤\n\n### 2.1 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPingoLH\u002FPytorchSSD.git\ncd PytorchSSD\n```\n\n### 2.2 编译 NMS 和 COCO 工具\n执行脚本编译必要的 C++\u002FCUDA 扩展。\n```bash\n.\u002Fmake.sh\n```\n*提示：如果您的 GPU 架构不是默认的 `sm_52`，请编辑 `utils\u002Fbuild.py` 第 131 行，将 `-arch=sm_52` 修改为您对应的架构（如 `sm_61`, `sm_70` 等）。*\n\n### 2.3 安装额外依赖\n如果您计划使用 **MobileNet** 作为骨干网络，需安装 `pyinn`：\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fszagoruyko\u002Fpyinn.git@master\n```\n\n安装 OpenCV：\n```bash\n# 推荐使用 conda 安装\nconda install opencv\n# 或使用 pip\npip install opencv-python\n```\n\n### 2.4 下载预训练骨干网络\n训练前需下载 VGG16 或 MobileNet 的预训练权重，并放入 `weights` 目录。\n\n**VGG16 (Reduced FC):**\n```bash\nmkdir weights\ncd weights\n# 方案 A: 直接下载 (国际源)\nwget https:\u002F\u002Fs3.amazonaws.com\u002Famdegroot-models\u002Fvgg16_reducedfc.pth\n# 方案 B: 百度网盘 (国内加速)\n# 链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1jIP86jW \n```\n\n**MobileNet (可选):**\n可从 Google Drive 或百度网盘下载 `mobilenet_v1.pth` 并放入 `weights` 目录。\n*   百度网盘链接: `https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dFKZhdv`\n\n### 2.5 准备数据集\n项目支持 **VOC** 和 **COCO** 数据集。\n\n**VOC 数据集 (自动下载脚本):**\n```bash\n# 下载 VOC2007 trainval & test\nsh data\u002Fscripts\u002FVOC2007.sh \u003C您的数据存放目录>\n\n# 下载 VOC2012 trainval\nsh data\u002Fscripts\u002FVOC2012.sh \u003C您的数据存放目录>\n```\n*若不指定目录，默认下载到 `~\u002Fdata\u002F`。*\n\n**COCO 数据集:**\n需手动从 [官网](http:\u002F\u002Fmscoco.org\u002F) 下载，并按以下结构组织：\n```text\n$COCO\u002F\n├── annotations\u002F      # 包含所有 .json 标签文件\n├── images\u002F\n│   ├── train2014\u002F\n│   ├── val2014\u002F\n│   └── test2015\u002F\n└── cache\u002F\n```\n*注：需自行准备 `minival2014` 和 `valminusminival2014` 的标注划分。*\n\n## 3. 基本使用\n\n### 3.1 开始训练\n使用 `train_test.py` 脚本启动训练。以下命令演示了如何在 **VOC** 数据集上训练 **RFB-SSD (VGG backbone)**，输入尺寸为 **300x300**。\n\n```bash\npython train_test.py -d VOC -v RFB_vgg -s 300\n```\n\n**参数说明：**\n*   `-d`: 数据集选择 (`VOC` 或 `COCO`)\n*   `-v`: 骨干网络版本 (`RFB_vgg`, `RFB_E_vgg`, `RFB_mobile`, `SSD_vgg`, `FSSD_vgg` 等)\n*   `-s`: 输入图像尺寸 (`300` 或 `512`)\n\n*断点续训：可在脚本中指定权重路径参数继续训练。*\n\n### 3.2 模型评估\n测试逻辑集成在训练脚本中，也可单独配置。默认会在 **VOC2007 test** 或 **COCO minival2014** 上输出 mAP 结果。\n\n若要生成提交到官方服务器的结果文件（如 VOC2012 test 或 COCO test-dev）：\n1.  修改 `test_RFB.py` 中的数据集配置。\n2.  运行测试脚本保存检测结果。\n\n### 3.3 使用预训练模型推理\n您可以直接从 [Models](#models) 章节提供的链接下载训练好的 `.pth` 文件（支持 Google Drive 和百度网盘），加载后即可用于推理。\n\n**支持的预训练模型示例：**\n*   **VOC 07+12**: RFB_Net300, FSSD300, SSD300\n*   **COCO**: RFB_Net512_E, RFB_MobileNet300\n*   **HarDNet 骨干网 (2019 更新)**: SSD512-HarDNet68\u002F85, RFBNet512-HarDNet68\u002F85\n\n*(具体下载链接请参考原文 README 的 \"Models\" 和 \"Update\" 章节)*","某自动驾驶初创团队需要在嵌入式设备上实时检测道路上的行人、车辆及交通标志，以保障行车安全。\n\n### 没有 PytorchSSD 时\n- **推理速度滞后**：采用传统的 Faster R-CNN 方案，在同等硬件下帧率仅为 7 FPS，无法满足车辆高速行驶时的实时响应需求，存在严重的安全延迟。\n- **精度与速度难平衡**：若切换至早期 YOLOv2 提升速度，小目标（如远处交通灯）的检测精度（mAP）会大幅下降至 21.6%，导致漏检风险激增。\n- **部署适配困难**：缺乏针对移动端优化的轻量级模型支持，尝试自行修改网络结构耗时耗力，且难以复现论文中 RFB 模块的高性能表现。\n- **环境依赖复杂**：不同检测算法依赖不同的框架版本（如 Caffe 或旧版 Darknet），导致开发环境割裂，模型迭代和对比实验效率极低。\n\n### 使用 PytorchSSD 后\n- **实时性显著提升**：部署 RFBNet300 模型后，在 Titan X 上帧率飙升至 83 FPS，即使在边缘设备上也实现了流畅的实时检测，彻底消除安全延迟。\n- **小目标检测更精准**：得益于 RFB 模块对感受野的增强，COCO 数据集上的 mAP 提升至 29.9%，有效解决了远距离小物体的漏检问题。\n- **移动端完美适配**：直接调用集成的 RFB MobileNet 版本，仅增加极少参数量（7.4M）便将精度提升至 20.7%，轻松嵌入车载计算单元。\n- **研发流程统一高效**：基于统一的 PyTorch 框架集成了 SSD、FSSD、RefineDet 等多种 SOTA 算法，团队可在同一环境下快速对比验证，大幅缩短模型选型周期。\n\nPytorchSSD 通过提供高精度与高速度兼备的单阶段检测方案，帮助团队在资源受限的嵌入式场景中实现了安全与性能的双重突破。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Flzx1413_PytorchSSD_ec7c09dc.png","lzx1413","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Flzx1413_7c924cee.jpg","learning",null,"Shanghai,China","lzx1413@live.cn","https:\u002F\u002Fscholar.google.com\u002Fcitations?user=eoAPuNAAAAAJ&hl=en&newwindow=1","https:\u002F\u002Fgithub.com\u002Flzx1413",[81,85,89,93,97],{"name":82,"color":83,"percentage":84},"Python","#3572A5",95.4,{"name":86,"color":87,"percentage":88},"C","#555555",2.8,{"name":90,"color":91,"percentage":92},"Cuda","#3A4E3A",1.3,{"name":94,"color":95,"percentage":96},"Shell","#89e051",0.5,{"name":98,"color":99,"percentage":100},"C++","#f34b7d",0,704,235,"2026-01-19T18:08:59","MIT",4,"Linux","必需 NVIDIA GPU。README 提及测试环境为 Titan X Maxwell, 1080Ti, Titan V。需编译 CUDA 代码，默认架构为 sm_52 (对应 Maxwell)，建议根据显卡调整 utils\u002Fbuild.py。依赖特定版本的 cudnn (文中提及 cudnnV5\u002FV6)。","未说明",{"notes":110,"python":111,"dependencies":112},"1. 该项目主要基于较旧的 PyTorch 版本 (0.2.0-0.3.1)，若要使用 HarDNet 等新特性需 PyTorch 1.0.1，存在版本兼容差异。2. 安装时需运行 .\u002Fmake.sh 编译 nms 和 coco 工具，务必检查 utils\u002Fbuild.py 中的 GPU 架构设置 ('-arch=sm_52') 是否匹配当前显卡。3. 仅支持 VOC 和 COCO 数据集。4. 需要手动下载 VGG-16 或 MobileNet 的预训练权重文件。","3+",[113,114,115],"pytorch (0.2.0 - 0.3.1, 部分新功能支持 0.4 及 1.0.1)","opencv","pyinn",[14],[118,119,120,121,122],"pytorch","ssd","fssd","rfb","refinedet","2026-03-27T02:49:30.150509","2026-04-19T15:38:04.478306",[126,131,136,141,146,151,156,161],{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},42480,"如何复现 README 中的结果（例如 RFBNet300）？训练时学习率不变化怎么办？","要复现结果，需要确保网络结构完整。对于 RFBNet300 等模型，如果缺少最后的模块会导致性能下降。具体修复方法是在 `SSD_vgg.py` 文件中，将 `[128, 'S', 256]` 附加到 `extras['512']` 的末尾。此外，请检查是否使用了正确的分支版本（如 v.4.0），并确认训练轮数（通常需要 300 epoch）和学习率策略配置正确。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F47",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},42481,"RefineDet 在 Pascal VOC 和 COCO 数据集上的表现差异及原因是什么？","RefineDet 在 Pascal VOC 上表现较好，但在 COCO 上通常低于两阶段算法（如 FPN Faster R-CNN）。主要原因有两点：1. Pascal VOC 数据集相对简单，难以区分算法优劣；而 COCO 更复杂，单阶段算法在此类数据集上普遍弱于两阶段算法。2. 评测标准不同：Pascal VOC 偏向目标召回率（Recall），单阶段算法在此有优势；COCO 兼顾定位精准度，单阶段算法在定位精度上存在差距，导致得分较低。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F17",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},42482,"训练时出现 Loss 为 inf (无穷大) 的错误如何解决？","该问题通常由 Python 2 与 Python 3 的除法运算差异引起。解决方法是在代码文件头部添加 `from __future__ import division`，以确保执行浮点除法而非整数除法。添加后重新运行训练即可解决 Loss 为 inf 的问题。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F2",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},42483,"Multibox Loss 中的分类损失计算为何不使用 torch.nn.functional.cross_entropy？","代码中手动实现的 `log_sum_exp` 操作本质上等同于 Softmax Cross Entropy Loss。如果不将第一个 Softmax 的损失添加到最终总损失中，不会影响网络训练效果。手动实现主要是为了数值稳定性（通过 +\u002F- x_max 防止溢出）以及更灵活地控制梯度计算流程，避免多次调用 `F.cross_entropy` 可能带来的输入张量梯度追踪问题。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F14",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},42484,"FSSD-MobileNet 训练的 mAP 较低，如何冻结 BN 层以提升性能？","在 PyTorch 实现中，仅设置 `learn_mult` 和 `decay_mult` 为 0 并不能真正冻结 BN 层。原始 Caffe 版 SSD 是通过设置 `use_global_stats=true` 来冻结 BN 层的。如果在 PyTorch 中希望达到相同效果（即在训练时使用全局统计量而非批次统计量），需要修改 BN 层的逻辑，使其在训练模式下也使用 `eval()` 状态或手动指定使用 running_mean 和 running_var，否则 BN 层仍会随批次数据更新，可能导致性能不如预期。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F11",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},42485,"运行时出现 AttributeError: 'SSD' object has no attribute 'module' 错误怎么办？","该错误通常与 PyTorch 版本兼容性或多进程数据加载死锁有关。如果是 PyTorch 0.3.1 版本，尝试升级或检查代码中是否正确处理了 `DataParallel` 包装。此外，一个常见的解决方案是在代码导入 `cv2` 后立即添加 `cv2.setNumThreads(0)`，这可以解决因 OpenCV 线程与 PyTorch DataLoader 冲突导致的潜在死锁或属性访问错误。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F12",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},42486,"训练 RefineDet 时出现 RuntimeError: shape does not match (掩码形状不匹配) 错误如何解决？","这是一个已知的维度匹配问题，通常发生在损失计算阶段，当正样本掩码（mask）的形状与索引张量形状不一致时触发。该问题在类似的 SSD PyTorch 实现中也有记录。建议参考相关修复方案（如 ssd.pytorch 项目中的 issue #173），检查 `refine_multibox_loss.py` 中关于 `loss_c[pos]` 的赋值逻辑，确保 `pos` 掩码的维度与待赋值的张量维度在广播机制下兼容，或者调整 batch size 和数据预处理以匹配预期的先验框数量。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F55",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},42487,"RefineDet320 在 VOC 2007 上 mAP 仅为 0.76，低于 SSD300，如何提升？","如果 RefineDet 的表现不如预期，可以尝试切换到同一仓库中的 RFBNet 方法，用户反馈 RFBNet 在该仓库中能取得更好的性能。此外，确保使用了作者开源的最新代码版本，并检查超参数设置（如输入尺寸、锚框比例等）是否与论文或推荐配置一致。有时特定的网络变体在特定数据集上可能需要更多的调优才能超越基准模型。","https:\u002F\u002Fgithub.com\u002Flzx1413\u002FPytorchSSD\u002Fissues\u002F88",[]]