[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ethanhe42--KL-Loss":3,"tool-ethanhe42--KL-Loss":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":79,"owner_url":81,"languages":82,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":117,"env_os":118,"env_gpu":119,"env_ram":120,"env_deps":121,"category_tags":128,"github_topics":129,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":136,"updated_at":137,"faqs":138,"releases":174},5965,"ethanhe42\u002FKL-Loss","KL-Loss","Bounding Box Regression with Uncertainty for Accurate Object Detection (CVPR'19)","KL-Loss 是一款专为提升目标检测精度而设计的开源算法工具，核心在于引入“不确定性”来优化边界框回归。在大规模数据集（如 MS-COCO）中，即使标注力求精准，人工标记的边界框仍难免存在模糊性，传统方法往往忽略这一噪声，限制了检测上限。KL-Loss 创新性地提出了一种新型损失函数，能够同时学习边界框的变换参数及其定位方差（即不确定性）。\n\n该工具的独特亮点在于，它不仅几乎不增加额外计算量就能显著提升各类架构的定位准确率，还能利用学到的方差信息优化非极大值抑制（NMS）过程。通过合并相邻的检测框，KL-Loss 进一步减少了冗余并提高了最终得分。实验数据显示，在 ResNet-50-FPN Mask R-CNN 等主流模型上，它能将高精度指标（AP90）大幅提升 6.2%，效果显著优于以往的边界框细化方法。\n\nKL-Loss 非常适合计算机视觉领域的研究人员和算法开发者使用，尤其是那些致力于改进目标检测模型性能、探索更鲁棒回归策略的专业人士。如果你正在基于 PyTorch 或 Caffe2\u002FDetectron 框架开发检测系统，并希望突破现有的精度瓶颈，KL-Loss 提供了一个经","KL-Loss 是一款专为提升目标检测精度而设计的开源算法工具，核心在于引入“不确定性”来优化边界框回归。在大规模数据集（如 MS-COCO）中，即使标注力求精准，人工标记的边界框仍难免存在模糊性，传统方法往往忽略这一噪声，限制了检测上限。KL-Loss 创新性地提出了一种新型损失函数，能够同时学习边界框的变换参数及其定位方差（即不确定性）。\n\n该工具的独特亮点在于，它不仅几乎不增加额外计算量就能显著提升各类架构的定位准确率，还能利用学到的方差信息优化非极大值抑制（NMS）过程。通过合并相邻的检测框，KL-Loss 进一步减少了冗余并提高了最终得分。实验数据显示，在 ResNet-50-FPN Mask R-CNN 等主流模型上，它能将高精度指标（AP90）大幅提升 6.2%，效果显著优于以往的边界框细化方法。\n\nKL-Loss 非常适合计算机视觉领域的研究人员和算法开发者使用，尤其是那些致力于改进目标检测模型性能、探索更鲁棒回归策略的专业人士。如果你正在基于 PyTorch 或 Caffe2\u002FDetectron 框架开发检测系统，并希望突破现有的精度瓶颈，KL-Loss 提供了一个经过顶会（CVPR 2019）验证的高效解决方案。","# Bounding Box Regression with Uncertainty for Accurate Object Detection\n\n[GitHub - yihui-he\u002FKL-Loss: Bounding Box Regression with Uncertainty for Accurate Object Detection (CVPR'19)](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002FKL-Loss)\n\n[CVPR 2019 Open Access Repository](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2019\u002Fhtml\u002FHe_Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection_CVPR_2019_paper.html)\n\n**CVPR 2019** [[presentation (youtube)]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=bcGtNdTzdkc)\n\n[Yihui He](http:\u002F\u002Fyihui-he.github.io\u002F), [Chenchen Zhu](https:\u002F\u002Fsites.google.com\u002Fandrew.cmu.edu\u002Fzcckernel), [Jianren Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=NL8MDkwAAAAJ&hl=en), [Marios Savvides](http:\u002F\u002Fwww.cmu-biometrics.org\u002F), [Xiangyu Zhang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=yuB-cfoAAAAJ&hl=en&oi=ao), Carnegie Mellon University & Megvii Inc.\n\n[https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FbcGtNdTzdkc](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FbcGtNdTzdkc)\n\n### Table of Contents\n\n1. [Citation](about:blank#citation)\n2. [Installation](about:blank#installation)\n3. [Testing](about:blank#testing)\n4. [Training](about:blank#training)\n5. [PyTorch re-implementations](about:blank#pytorch-re-implementations)\n6. [FAQ](about:blank#faq)\n\nLarge-scale object detection datasets (e.g., MS-COCO) try to define the ground truth bounding boxes as clear as possible. However, we observe that ambiguities are still introduced when labeling the bounding boxes. In this paper, we propose a novel bounding box regression loss for learning bounding box transformation and localization variance together. Our loss greatly improves the localization accuracies of various architectures with nearly no additional computation. The learned localization variance allows us to merge neighboring bounding boxes during non-maximum suppression (NMS), which further improves the localization performance. On MS-COCO, we boost the Average Precision (AP) of VGG-16 Faster R-CNN from 23.6% to 29.1%. More importantly, for ResNet-50-FPN Mask R-CNN, our method improves the AP and AP90 by **1.8%** and **6.2%** respectively, which significantly outperforms previous state-of-the-art bounding box refinement methods.\n\n![https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fethanhe42_KL-Loss_readme_58d0b7d9d2aa.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fethanhe42_KL-Loss_readme_58d0b7d9d2aa.png)\n\n### Citation\n\nIf you find the code useful in your research, please consider citing:\n\n```\n@InProceedings{klloss,\n  author = {He, Yihui and Zhu, Chenchen and Wang, Jianren and Savvides, Marios and Zhang, Xiangyu},\n  title = {Bounding Box Regression With Uncertainty for Accurate Object Detection},\n  booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},\n  month = {June},\n  year = {2019}\n}\n```\n\n### Installation\n\nPlease find installation instructions for Caffe2 and Detectron in `[INSTALL.md](INSTALL.md)`.\n\nWhen installing cocoapi, please use [my fork](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002Fcocoapi) to get AP80 and AP90 scores.\n\n### Testing\n\nInference without Var Voting (8 GPUs):\n\n```\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\nYou will get:\n\n```\n Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.385\n Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.578\n Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.412\n Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.209\n Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.412\n Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.515\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.323\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.499\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.522\n Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.321\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.553\n Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.680\n Average Precision  (AP) @[ IoU=0.60      | area=   all | maxDets=100 ] = 0.533\n Average Precision  (AP) @[ IoU=0.70      | area=   all | maxDets=100 ] = 0.461\n Average Precision  (AP) @[ IoU=0.80      | area=   all | maxDets=100 ] = 0.350\n Average Precision  (AP) @[ IoU=0.85      | area=   all | maxDets=100 ] = 0.269\n Average Precision  (AP) @[ IoU=0.90      | area=   all | maxDets=100 ] = 0.154\n Average Precision  (AP) @[ IoU=0.95      | area=   all | maxDets=100 ] = 0.032\n```\n\nInference with Var Voting:\n\n```\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml STD_NMS True\n```\n\nYou will get:\n\n```\n Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.392\n Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.576\n Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.425\n Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.212\n Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.417\n Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.526\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.324\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.528\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.564\n Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.346\n Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.594\n Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.736\n Average Precision  (AP) @[ IoU=0.60      | area=   all | maxDets=100 ] = 0.536\n Average Precision  (AP) @[ IoU=0.70      | area=   all | maxDets=100 ] = 0.472\n Average Precision  (AP) @[ IoU=0.80      | area=   all | maxDets=100 ] = 0.363\n Average Precision  (AP) @[ IoU=0.85      | area=   all | maxDets=100 ] = 0.281\n Average Precision  (AP) @[ IoU=0.90      | area=   all | maxDets=100 ] = 0.165\n Average Precision  (AP) @[ IoU=0.95      | area=   all | maxDets=100 ] = 0.037\n```\n\n### Training\n\n```\npython2 tools\u002Ftrain_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\n### PyTorch re-implementations\n\n[Stronger-yolo-pytorch](https:\u002F\u002Fyihui-he.github.io\u002FStronger-yolo-pytorch\u002F): yolov3 + KL-loss\n\n### FAQ\n\nPlease create a [new issue](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002FKL-Loss\u002Fissues\u002Fnew).\n\n---\n\n[Detectron Readme](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDetectron)\n","# 带有不确定性的边界框回归用于精确目标检测\n\n[GitHub - yihui-he\u002FKL-Loss：带有不确定性的边界框回归用于精确目标检测（CVPR'19）](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002FKL-Loss)\n\n[CVPR 2019 开放获取资源库](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2019\u002Fhtml\u002FHe_Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection_CVPR_2019_paper.html)\n\n**CVPR 2019** [[演示视频（YouTube）]](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=bcGtNdTzdkc)\n\n[Yihui He](http:\u002F\u002Fyihui-he.github.io\u002F)、[Chenchen Zhu](https:\u002F\u002Fsites.google.com\u002Fandrew.cmu.edu\u002Fzcckernel)、[Jianren Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=NL8MDkwAAAAJ&hl=en)、[Marios Savvides](http:\u002F\u002Fwww.cmu-biometrics.org\u002F)、[Xiangyu Zhang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=yuB-cfoAAAAJ&hl=en&oi=ao)，卡内基梅隆大学与旷视科技有限公司。\n\n[https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FbcGtNdTzdkc](https:\u002F\u002Fwww.youtube.com\u002Fembed\u002FbcGtNdTzdkc)\n\n### 目录\n\n1. [引用](about:blank#citation)\n2. [安装](about:blank#installation)\n3. [测试](about:blank#testing)\n4. [训练](about:blank#training)\n5. [PyTorch 重实现](about:blank#pytorch-re-implementations)\n6. [常见问题解答](about:blank#faq)\n\n大规模目标检测数据集（如 MS-COCO）试图尽可能清晰地定义真实边界框。然而，我们观察到在标注边界框时仍然存在模糊性。在本文中，我们提出了一种新颖的边界框回归损失函数，用于同时学习边界框变换和定位方差。我们的损失函数极大地提高了多种架构的定位精度，且几乎不增加额外计算量。通过学习到的定位方差，我们可以在非极大值抑制（NMS）过程中合并相邻的边界框，从而进一步提升定位性能。在 MS-COCO 数据集上，我们将 VGG-16 Faster R-CNN 的平均精度（AP）从 23.6% 提升至 29.1%。更重要的是，对于 ResNet-50-FPN Mask R-CNN，我们的方法分别将 AP 和 AP90 提高了 **1.8%** 和 **6.2%**，显著优于先前最先进的边界框精炼方法。\n\n![https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fethanhe42_KL-Loss_readme_58d0b7d9d2aa.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fethanhe42_KL-Loss_readme_58d0b7d9d2aa.png)\n\n### 引用\n\n如果您在研究中发现此代码有用，请考虑引用：\n\n```\n@InProceedings{klloss,\n  author = {He, Yihui and Zhu, Chenchen and Wang, Jianren and Savvides, Marios and Zhang, Xiangyu},\n  title = {Bounding Box Regression With Uncertainty for Accurate Object Detection},\n  booktitle = {IEEE 计算机视觉与模式识别会议（CVPR）},\n  month = {六月},\n  year = {2019}\n}\n```\n\n### 安装\n\n请参阅 `[INSTALL.md](INSTALL.md)` 中关于 Caffe2 和 Detectron 的安装说明。\n\n在安装 cocoapi 时，请使用 [我的分支](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002Fcocoapi)，以获得 AP80 和 AP90 分数。\n\n### 测试\n\n无 Var 投票推理（8 GPU）：\n\n```\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\n您将得到：\n\n```\n 平均精度  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.385\n 平均精度  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.578\n 平均精度  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.412\n 平均精度  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.209\n 平均精度  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.412\n 平均精度  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.515\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.323\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.499\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.522\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.321\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.553\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.680\n 平均精度  (AP) @[ IoU=0.60      | area=   all | maxDets=100 ] = 0.533\n 平均精度  (AP) @[ IoU=0.70      | area=   all | maxDets=100 ] = 0.461\n 平均精度  (AP) @[ IoU=0.80      | area=   all | maxDets=100 ] = 0.350\n 平均精度  (AP) @[ IoU=0.85      | area=   all | maxDets=100 ] = 0.269\n 平均精度  (AP) @[ IoU=0.90      | area=   all | maxDets=100 ] = 0.154\n 平均精度  (AP) @[ IoU=0.95      | area=   all | maxDets=100 ] = 0.032\n```\n\n带 Var 投票的推理：\n\n```\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml STD_NMS True\n```\n\n您将得到：\n\n```\n 平均精度  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.392\n 平均精度  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.576\n 平均精度  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.425\n 平均精度  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.212\n 平均精度  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.417\n 平均精度  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.526\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.324\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.528\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.564\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.346\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.594\n 平均召回率     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.736\n 平均精度  (AP) @[ IoU=0.60      | area=   all | maxDets=100 ] = 0.536\n 平均精度  (AP) @[ IoU=0.70      | area=   all | maxDets=100 ] = 0.472\n 平均精度  (AP) @[ IoU=0.80      | area=   all | maxDets=100 ] = 0.363\n 平均精度  (AP) @[ IoU=0.85      | area=   all | maxDets=100 ] = 0.281\n 平均精度  (AP) @[ IoU=0.90      | area=   all | maxDets=100 ] = 0.165\n 平均精度  (AP) @[ IoU=0.95      | area=   all | maxDets=100 ] = 0.037\n```\n\n### 训练\n\n```\npython2 tools\u002Ftrain_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\n### PyTorch 重实现\n\n[Stronger-yolo-pytorch](https:\u002F\u002Fyihui-he.github.io\u002FStronger-yolo-pytorch\u002F)：yolov3 + KL-loss\n\n### 常见问题解答\n\n请创建一个 [新问题](https:\u002F\u002Fgithub.com\u002Fyihui-he\u002FKL-Loss\u002Fissues\u002Fnew)。\n\n---\n\n[Detectron 说明文档](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDetectron)","# KL-Loss 快速上手指南\n\nKL-Loss 是一种用于目标检测的边界框回归损失函数，通过引入不确定性（Uncertainty）学习定位方差，显著提升了检测精度。本项目基于 Caffe2 和 Detectron 框架实现。\n\n## 环境准备\n\n本工具依赖 **Caffe2** 和 **Detectron** 框架，且主要基于 **Python 2** 开发。\n\n*   **操作系统**: Linux (推荐 Ubuntu 16.04+)\n*   **Python 版本**: Python 2.7\n*   **核心依赖**:\n    *   Caffe2 (需支持 GPU)\n    *   Detectron (Facebook AI Research 的目标检测库)\n    *   CUDA & cuDNN\n*   **数据集**: MS-COCO (需预先下载并配置)\n\n> **注意**：由于该项目较旧（CVPR 2019），官方未提供 PyTorch 原生实现（虽有第三方复现版），若要运行此官方仓库，请务必搭建好 Caffe2 + Detectron 环境。\n\n## 安装步骤\n\n### 1. 安装 Caffe2 和 Detectron\n请参考项目自带的 `[INSTALL.md](INSTALL.md)` 文件完成 Caffe2 和 Detectron 的基础安装。确保 `detectron` 模块可在 Python 中正常导入。\n\n### 2. 安装定制版 COCO API\n为了获取 AP80 和 AP90 等特定评估指标，**必须**使用作者提供的 fork 版本安装 `cocoapi`，而非官方版本。\n\n```bash\n# 克隆作者定制的 cocoapi\ngit clone https:\u002F\u002Fgithub.com\u002Fyihui-he\u002Fcocoapi.git\ncd cocoapi\u002FPythonAPI\n\n# 编译并安装\nmake\npython2 setup.py install --user\n```\n\n### 3. 配置项目\n将本项目克隆到本地，并确保 Detectron 能正确找到配置文件路径。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyihui-he\u002FKL-Loss.git\ncd KL-Loss\n# 确保 configs 目录位于 Detectron 可识别的路径下，或设置相应环境变量\n```\n\n## 基本使用\n\n以下命令默认使用 8 张 GPU 进行推理或训练。请根据实际硬件情况调整。\n\n### 1. 模型测试 (Testing)\n\n**方式 A：标准推理 (不使用 Var Voting)**\n运行 Faster R-CNN (ResNet-50-FPN) 进行基础测试：\n\n```bash\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\n**方式 B：启用 Var Voting 推理 (推荐)**\n利用学习到的定位方差合并相邻框，进一步提升精度：\n\n```bash\npython2 tools\u002Ftest_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml STD_NMS True\n```\n\n### 2. 模型训练 (Training)\n\n使用 MS-COCO 数据集开始训练：\n\n```bash\npython2 tools\u002Ftrain_net.py -c configs\u002Fe2e_faster_rcnn_R-50-FPN_2x.yaml\n```\n\n> **提示**：训练前请确保已在 `configs` 对应的 yaml 文件中正确设置了 COCO 数据集的路径。\n\n### 3. PyTorch 用户替代方案\n如果您希望使用 PyTorch 框架，作者提供了结合 YOLOv3 的复现版本，可访问：\n[Stronger-yolo-pytorch](https:\u002F\u002Fyihui-he.github.io\u002FStronger-yolo-pytorch\u002F)","某自动驾驶团队正在训练感知模型，以在复杂城市道路中精准识别行人和车辆，确保自动紧急制动系统的安全触发。\n\n### 没有 KL-Loss 时\n- **标注模糊导致训练偏差**：人工标注的边界框存在天然歧义（如行人被部分遮挡），传统损失函数强行拟合单一坐标，导致模型对模糊样本学习过度自信却定位不准。\n- **高 IoU 阈值下性能瓶颈**：在要求严格的定位任务（如 IoU>0.75）中，模型平均精度（AP75）难以提升，无法区分“大概位置”和“精确位置”。\n- **后处理误删有效检测**：非极大值抑制（NMS）阶段仅依赖置信度得分，容易因多个重叠框分数相近而错误剔除真实目标，或保留冗余框。\n- **缺乏不确定性量化**：模型输出只有坐标，无法告知下游决策系统当前检测结果的可靠程度，增加了安全系统的误判风险。\n\n### 使用 KL-Loss 后\n- **联合学习位置与方差**：KL-Loss 让模型同时回归边界框坐标及其定位方差，有效吸收了标注噪声，使模型在面对遮挡目标时更加鲁棒。\n- **高精度定位显著提升**：在 MS-COCO 数据集验证中，ResNet-50-FPN 架构的 AP75 指标大幅提升 6.2%，显著增强了紧密贴合目标的检测能力。\n- **智能融合重叠框**：利用学习到的方差信息优化 NMS 策略（Var Voting），自动合并邻近的模糊检测框，既消除了冗余又保留了最佳定位结果。\n- **输出可信度评估**：模型能为每个检测框提供不确定性估计，帮助自动驾驶系统在下游决策中动态调整权重，提升整体安全性。\n\nKL-Loss 通过引入不确定性建模，以几乎零额外的计算成本，解决了目标检测中长期存在的标注歧义难题，实现了从“猜坐标”到“知深浅”的质变。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fethanhe42_KL-Loss_58d0b7d9.png","ethanhe42","Ethan He","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fethanhe42_7e3f086b.jpg","@xai-org | prev @NVIDIA @facebookresearch CMU | 9k citations","@xai-org","Palo Alto, CA",null,"EthanHe_42","https:\u002F\u002Fgithub.com\u002Fethanhe42",[83,87,91,95,99,103,106,110],{"name":84,"color":85,"percentage":86},"Python","#3572A5",93.2,{"name":88,"color":89,"percentage":90},"CMake","#DA3434",4.6,{"name":92,"color":93,"percentage":94},"Cython","#fedf5b",1.2,{"name":96,"color":97,"percentage":98},"C++","#f34b7d",0.4,{"name":100,"color":101,"percentage":102},"MATLAB","#e16737",0.2,{"name":104,"color":105,"percentage":102},"Cuda","#3A4E3A",{"name":107,"color":108,"percentage":109},"Dockerfile","#384d54",0.1,{"name":111,"color":112,"percentage":109},"Makefile","#427819",721,105,"2026-03-05T07:28:41","Apache-2.0",4,"Linux","需要 NVIDIA GPU，测试命令示例使用 8 张 GPU，具体显存和 CUDA 版本未说明（依赖 Caffe2\u002FDetectron 环境）","未说明",{"notes":122,"python":123,"dependencies":124},"该项目基于 Facebook 的 Detectron 框架（使用 Caffe2 后端），而非 PyTorch 原生版本（README 中仅列出了独立的 PyTorch 复现项目链接）。安装需参考 INSTALL.md 配置 Caffe2 和 Detectron。测试和训练脚本明确使用 python2 运行。如需获取 AP80 和 AP90 指标，必须安装作者指定的 cocoapi 分支。","2.7",[125,126,127],"Caffe2","Detectron","cocoapi (需使用作者提供的 fork 版本)",[15,14],[130,131,132,133,134,135],"object-detection","pytorch","detection-algorithm","detection-model","detection","detection-network","2026-03-27T02:49:30.150509","2026-04-10T02:43:48.349590",[139,144,149,154,159,164,169],{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},27048,"KL-Loss 的三个组成部分分别对应论文公式中的哪一部分？","KL-Loss 包含三个部分：\n1. `loss_bbox`：标准的边界框回归损失（预测坐标的均值）。\n2. `bbox_pred_std_abs_logw_loss`：对应方差的对数项。\n3. `bbox_pred_std_abs_mulw_loss`：对应方差的乘法项。\n具体代码实现可参考 `fast_rcnn_heads.py` 中的 `add_fast_rcnn_losses` 函数，当 `cfg.PRED_STD` 启用时即为 KL-Loss 代码，需对照论文公式 9 和公式 10 进行推导。其中，`bbox_pred_std_abs_mulw_loss` 和 `bbox_pred_std_abs_logw_loss` 负责生成标准差（std）的梯度，而 `loss_bbox` 负责生成边界框（bbox）的梯度。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F18",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},27049,"在使用 KL-Loss 训练时出现 Loss 为 NaN 或数值过大怎么办？","如果出现 `bbox_pred_std_abs_logw_loss` 为极大的负数导致最终 Loss 为 NaN，或者仅优化 `loss_bbox` 导致 log_loss 极大，请注意梯度的传播路径。作者确认使用了 `StopGradient` 操作：\n- `bbox_pred_std_abs_mulw_loss` 和 `bbox_pred_std_abs_logw_loss` 会产生针对标准差（std）的梯度。\n- `loss_bbox` 会产生针对边界框坐标（bbox）的梯度。\n确保在实现时正确隔离了这两部分的梯度回传，防止梯度冲突导致数值爆炸。参考代码位置：`detectron\u002Fmodeling\u002Ffast_rcnn_heads.py` 第 136 行附近。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F13",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},27050,"如何将 KL-Loss 应用到 Faster R-CNN 中？","虽然仓库主要展示 Fast R-CNN 版本，但 README 中的测试演示（demo）实际上是在 Faster R-CNN 上运行的。你可以参考 Issue #18 中关于损失函数各部分对应的讨论来修改代码。此外，Soft-NMS 和方差投票（variance-voting）的代码位于 `detectron\u002Fcore\u002Ftest.py` 第 68 行以及 `detectron\u002Futils\u002Fcython_nms.pyx` 中，集成时需一并考虑。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F22",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},27051,"KL-Loss 是否适用于单阶段检测器（如 RetinaNet 或 YOLO）？","是的，KL-Loss 同样适用于单阶段检测器（如 RetinaNet 或 YOLO），并且有助于训练更快收敛。\n对于 PyTorch 用户，可以参考 YOLO 的重实现版本（搜索仓库 README 中的 PyTorch re-implementations 部分）。\n注意：在某些单阶段实现中（如 Stronger YOLO），代码可能只包含了 `loss_bbox` 和 `bbox_pred_std_abs_logw_loss`，而未显式包含 `bbox_pred_std_abs_mulw_loss`，这取决于具体的公式简化或实现方式，但核心思想一致。不确定性预测分支的权重初始化（全连接层 FC 或卷积层 conv2d）可根据网络结构调整。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F31",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},27052,"由于 KL 散度理论上不收敛于 0，如何判断训练是否正常以及评估方差？","1. **判断训练状态**：可以通过观察 Loss 曲线来判断。此外，你仍然可以计算标准的回归损失（standard loss）作为辅助指标，以确认训练是否在正常进行。\n2. **评估方差**：由于没有方差的真实标签（Ground Truth），通常只能通过视觉验证。理想情况下，可以让多名标注者对同一物体进行标注，计算这些标注之间的差异作为方差的真实值参考。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F27",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},27053,"在使用 KL-Loss 时，如何处理通常用于归一化边界框目标的回归方差（BBox Regression Variance）？","Faster R-CNN 通常使用 (cx, cy, w, h) 编码并配合方差值（如 0.1, 0.1, 0.2, 0.2）进行归一化，而本工作使用的是 (x1, y1, x2, y2) 编码。在从一种编码转换到另一种编码时，需要确认是否保留了这些方差值的影响。虽然这些方差值常被视为“魔法数值”在不同实现间传递，但在复现时建议检查 `detectron\u002Fcore\u002Fconfig.py` 中的相关配置（如第 456-458 行），确保在变换编码格式时正确处理了归一化系数，或者直接沿用原代码中的变换逻辑以避免偏差。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F19",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},27054,"在哪里可以找到 Soft-NMS 和方差投票（Variance-Voting）的具体代码位置？","Soft-NMS 和方差投票的实现位于以下文件中：\n1. 主测试逻辑：`detectron\u002Fcore\u002Ftest.py`（约第 68 行）。\n2. NMS 具体实现：`detectron\u002Futils\u002Fcython_nms.pyx`。\n如果在复现时找不到相关功能，请重点检查这两个文件。","https:\u002F\u002Fgithub.com\u002Fethanhe42\u002FKL-Loss\u002Fissues\u002F10",[175],{"id":176,"version":177,"summary_zh":79,"released_at":178},180208,"models","2019-03-26T20:23:54"]