[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-IDEA-Research--DAB-DETR":3,"tool-IDEA-Research--DAB-DETR":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":99,"forks":100,"last_commit_at":101,"license":102,"difficulty_score":103,"env_os":104,"env_gpu":105,"env_ram":106,"env_deps":107,"category_tags":116,"github_topics":117,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":122,"updated_at":123,"faqs":124,"releases":154},5197,"IDEA-Research\u002FDAB-DETR","DAB-DETR","[ICLR 2022] Official implementation of the paper \"DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR\"","DAB-DETR 是一款基于 Transformer 架构的目标检测开源模型，源自 ICLR 2022 获奖论文。它旨在解决经典 DETR 模型训练收敛缓慢、对位置信息利用不足等核心痛点。\n\n传统 DETR 依赖抽象的内容向量作为查询（Query），而 DAB-DETR 创新性地提出使用“动态锚框”作为查询。该方法直接将边界框的坐标信息输入 Transformer 解码器，并在网络层间动态更新这些坐标。这种设计不仅引入了明确的位置先验知识，提升了查询与图像特征的匹配度，还允许模型利用框的宽高信息来调节位置注意力图。从原理上看，这相当于以级联方式执行软 ROI 池化，使模型能更快速地聚焦目标。\n\n在同等设置下（如使用 ResNet50-DC5 骨干网络训练 50 个周期），DAB-DETR 在 MS-COCO 基准测试中取得了优于同类模型的检测精度（AP 达 45.7%），显著加速了训练过程。\n\n这款工具非常适合计算机视觉领域的研究人员和算法开发者使用。如果你正在探索高效的 Transformer 检测方案，或希望深入理解检测模型中\"Query\"的机制并复现前沿成果，DAB-DETR 提","DAB-DETR 是一款基于 Transformer 架构的目标检测开源模型，源自 ICLR 2022 获奖论文。它旨在解决经典 DETR 模型训练收敛缓慢、对位置信息利用不足等核心痛点。\n\n传统 DETR 依赖抽象的内容向量作为查询（Query），而 DAB-DETR 创新性地提出使用“动态锚框”作为查询。该方法直接将边界框的坐标信息输入 Transformer 解码器，并在网络层间动态更新这些坐标。这种设计不仅引入了明确的位置先验知识，提升了查询与图像特征的匹配度，还允许模型利用框的宽高信息来调节位置注意力图。从原理上看，这相当于以级联方式执行软 ROI 池化，使模型能更快速地聚焦目标。\n\n在同等设置下（如使用 ResNet50-DC5 骨干网络训练 50 个周期），DAB-DETR 在 MS-COCO 基准测试中取得了优于同类模型的检测精度（AP 达 45.7%），显著加速了训练过程。\n\n这款工具非常适合计算机视觉领域的研究人员和算法开发者使用。如果你正在探索高效的 Transformer 检测方案，或希望深入理解检测模型中\"Query\"的机制并复现前沿成果，DAB-DETR 提供了清晰的代码实现和理论验证，是极具价值的参考项目。","﻿# DAB-DETR\r\n\r\nThis is the official pytorch implementation of our ICLR 2022 paper [DAB-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329). \r\n\r\nAuthors: [Shilong Liu](https:\u002F\u002Fwww.lsl.zone\u002F), [Feng Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=zh-CN&user=ybRe9GcAAAAJ), [Hao Zhang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=B8hPxMQAAAAJ&hl=zh-CN), [Xiao Yang](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~xiaoyang\u002F), [Xianbiao Qi](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=odjSydQAAAAJ&hl=en),   [Hang Su](https:\u002F\u002Fwww.suhangss.me\u002F), [Jun Zhu](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~jun\u002Findex.shtml), [Lei Zhang](https:\u002F\u002Fwww.leizhang.org\u002F)\r\n\r\n# News\r\n[2022\u002F9\u002F22]: We release a toolbox [**detrex**](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002Fdetrex) that provides state-of-the-art Transformer-based detection algorithms. It includes DINO **with better performance**. Welcome to use it! \u003C\u002Fbr>\r\n[2022\u002F7\u002F12]: Code for [DINO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605) is available now! [[code for DINO](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO)]. \\\r\n[2022\u002F6]: We release a unified detection and segmentation model [Mask DINO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.02777.pdf) that achieves the best results on all the three segmentation tasks (**54.5** AP on [COCO instance leaderboard](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Finstance-segmentation-on-coco-minival), **59.4** PQ on [COCO panoptic leaderboard](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fpanoptic-segmentation-on-coco-minival), and **60.8** mIoU on [ADE20K semantic leaderboard](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k))! Code will be available [here](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FMaskDINO). \\\r\n[2022\u002F5\u002F28] Code for [DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305) is available [here](https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR)! \\\r\n[2022\u002F5\u002F22] We release a notebook for visualizion in [inference_and_visualize.ipynb](inference_and_visualize.ipynb). \\\r\n[2022\u002F4\u002F14] We release the [```.pptx``` file](resources\u002Fcomparison_raleted_works_raw.pptx) of our [DETR-like models comparison figure](#comparison-of-detr-like-models) for those who want to draw model arch figures in paper.  \\\r\n[2022\u002F4\u002F12] We fix a bug in the file ```datasets\u002Fcoco_eval.py```. The parameter ```useCats``` of ```CocoEvaluator``` should be ```True``` by default. \\\r\n[2022\u002F4\u002F9] Our code is available! \\\r\n[2022\u002F3\u002F9] We build a repo [Awesome Detection Transformer](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002Fawesome-detection-transformer) to present papers about transformer for detection and segmenttion. Welcome to your attention! \\\r\n[2022\u002F3\u002F8] Our new work [DINO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605) set a new record of **63.3AP** on the MS-COCO leader board. [[code for DINO](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO)]. \\\r\n[2022\u002F3\u002F8] Our new work [DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305) has been accpted by CVPR 2022! [[code for DN-DETR](https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR)]. \\\r\n[2022\u002F1\u002F21] Our work has been accepted to ICLR 2022.\r\n\r\n# Abstract\r\nWe present in this paper a novel query formulation using dynamic anchor boxes for DETR (DEtection TRansformer) and offer a deeper understanding of the role of queries in DETR. This new formulation directly uses box coordinates as queries in Transformer decoders and dynamically updates them layer-by-layer. Using box coordinates not only helps using explicit positional priors to improve the query-to-feature similarity and eliminate the slow training convergence issue in DETR, but also allows us to modulate the positional attention map using the box width and height information. Such a design makes it clear that queries in DETR can be implemented as performing soft ROI pooling layer-by-layer in a cascade manner. As a result, it leads to the best performance on MS-COCO benchmark among the DETR-like detection models under the same setting, e.g., AP 45.7\\% using ResNet50-DC5 as backbone trained in 50 epochs. We also conducted extensive experiments to confirm our analysis and verify the effectiveness of our methods.\r\n\r\n# Model\r\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_24ee724f02b4.png)\r\n\r\n\r\n\r\n\u003C!-- # Results\r\n![results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_45b29de9eccf.png) -->\r\n\r\n\r\n# Model Zoo\r\nWe provide our models with R50 backbone, including both **DAB-DETR** and **DAB-Deformable-DETR** (See Appendix C of [our paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329) for more details). \r\n\r\n\r\n\u003Ctable>\r\n  \u003Cthead>\r\n    \u003Ctr style=\"text-align: right;\">\r\n      \u003Cth>\u003C\u002Fth>\r\n      \u003Cth>name\u003C\u002Fth>\r\n      \u003Cth>backbone\u003C\u002Fth>\r\n      \u003Cth>box AP\u003C\u002Fth>\r\n      \u003Cth>Log\u002FConfig\u002FCheckpoint\u003C\u002Fth>\r\n      \u003Cth>Where in \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329\">Our Paper\u003C\u002Fa>\u003C\u002Fth>\r\n    \u003C\u002Ftr>\r\n  \u003C\u002Fthead>\r\n  \u003Ctbody>\r\n    \u003Ctr>\r\n      \u003Cth>0\u003C\u002Fth>\r\n      \u003Ctd>DAB-DETR-R50\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>42.2\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Table 2\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n    \u003Ctr>\r\n      \u003Cth>1\u003C\u002Fth>\r\n      \u003Ctd>DAB-DETR-R50(3 pat)\u003Csup>\u003Ca id=\"sup1c\" herf=\"#sup1\">1\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>42.6\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Table 2\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n    \u003Ctr>\r\n      \u003Cth>2\u003C\u002Fth>\r\n      \u003Ctd>DAB-DETR-R50-DC5\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>44.5\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Table 2\u003C\u002Ftd>\r\n    \u003C\u002Ftr>    \r\n    \u003Ctr>\r\n      \u003Cth>3\u003C\u002Fth>\r\n      \u003Ctd>DAB-DETR-R50-DC5-fixxy\u003Csup>\u003Ca id=\"sup2c\" herf=\"#sup2\">2\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>44.7\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Table 8. Appendix H.\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n    \u003Ctr>\r\n      \u003Cth>4\u003C\u002Fth>\r\n      \u003Ctd>DAB-DETR-R50-DC5(3 pat)\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>45.7\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Table 2\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n    \u003Ctr>\r\n      \u003Cth>5\u003C\u002Fth>\r\n      \u003Ctd>DAB-Deformbale-DETR\u003Cbr>(Deformbale Encoder Only)\u003Csup>\u003Ca id=\"sup3c\" herf=\"#sup3\">3\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>46.9\u003C\u002Ftd>\r\n      \u003Ctd>\u003C\u002Ftd>\r\n      \u003Ctd>Baseline for \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305\">DN-DETR\u003C\u002Fa>\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n    \u003C!-- \u003Ctr>\r\n      \u003Cth>6\u003C\u002Fth>\r\n      \u003Ctd>DAB-Deformable-DETR-R50\u003Csup>\u003Ca id=\"sup4c\" herf=\"#sup4\">4\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>48.1\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Extend Results for Table 5,\u003Cbr> Appendix C.\u003C\u002Ftd>\r\n    \u003C\u002Ftr> -->\r\n    \u003Ctr>\r\n      \u003Cth>6\u003C\u002Fth>\r\n      \u003Ctd>DAB-Deformable-DETR-R50-v2\u003Csup>\u003Ca id=\"sup4c\" herf=\"#sup4\">4\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\r\n      \u003Ctd>R50\u003C\u002Ftd>\r\n      \u003Ctd>48.7\u003C\u002Ftd>\r\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">Tsinghua Cloud\u003C\u002Fa>\u003C\u002Ftd>\r\n      \u003Ctd>Extend Results for Table 5,\u003Cbr> Appendix C.\u003C\u002Ftd>\r\n    \u003C\u002Ftr>\r\n  \u003C\u002Ftbody>\r\n\u003C\u002Ftable>\r\n\r\nNotes: \r\n- \u003Csup>\u003Ca id=\"sup1\" herf=\"#sup1c\">1\u003C\u002Fa>\u003C\u002Fsup>: The models with marks (3 pat) are trained with multiple pattern embeds (refer to Anchor DETR or [our paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329) for more details.). \r\n- \u003Csup>\u003Ca id=\"sup2\" herf=\"#sup2c\">2\u003C\u002Fa>\u003C\u002Fsup>: The term \"fixxy\" means we use random initialization of anchors and do not update their parameters during training (See Appendix H of [our paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329) for more details). \r\n- \u003Csup>\u003Ca id=\"sup3\" herf=\"#sup3c\">3\u003C\u002Fa>\u003C\u002Fsup>: The DAB-Deformbale-DETR(Deformbale Encoder Only) is a multiscale version of our DAB-DETR. See [DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305) for more details. \r\n- \u003Csup>\u003Ca id=\"sup4\" herf=\"#sup4c\">4\u003C\u002Fa>\u003C\u002Fsup>: The result here is better than the number in our paper, as we use different losses coefficients during training. Refer to our config file for more details.\r\n\r\n\r\n# Usage\r\n## Installation\r\nWe use the great DETR project as our codebase, hence no extra dependency is needed for our **DAB-DETR**. For the **DAB-Deformable-DETR**, you need to compile the deformable attention operator manually.\r\n\r\nWe test our models under ```python=3.7.3,pytorch=1.9.0,cuda=11.1```. Other versions might be available as well.\r\n\r\n1. Clone this repo\r\n```sh\r\ngit clone https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDAB-DETR.git\r\ncd DAB-DETR\r\n```\r\n\r\n2. Install Pytorch and torchvision\r\n\r\nFollow the instrction on https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F.\r\n```sh\r\n# an example:\r\nconda install -c pytorch pytorch torchvision\r\n```\r\n\r\n3. Install other needed packages\r\n```sh\r\npip install -r requirements.txt\r\n```\r\n\r\n4. Compiling CUDA operators\r\n```sh\r\ncd models\u002Fdab_deformable_detr\u002Fops\r\npython setup.py build install\r\n# unit test (should see all checking is True)\r\npython test.py\r\ncd ..\u002F..\u002F..\r\n```\r\n\r\n## Data\r\nPlease download [COCO 2017](https:\u002F\u002Fcocodataset.org\u002F) dataset and organize them as following:\r\n```\r\nCOCODIR\u002F\r\n  ├── train2017\u002F\r\n  ├── val2017\u002F\r\n  └── annotations\u002F\r\n  \t├── instances_train2017.json\r\n  \t└── instances_val2017.json\r\n```\r\n\r\n\r\n## Run\r\nWe use the standard **DAB-DETR-R50** and **DAB-Deformable-DETR-R50** as examples for training and evalulation.\r\n\r\n### Inference with our pretrained models\r\nSee [inference_and_visualize.ipynb](inference_and_visualize.ipynb).\r\n\r\n### Eval our pretrianed models\r\n\r\nDownload our DAB-DETR-R50 model checkpoint from [this link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1pae4Yxi0H9OOFdXZg3zXuKK9yOznhTNU?usp=sharing) and perform the command below. \r\nYou can expect to get the final AP about ```42.2```.\r\n\r\nFor our DAB-Deformable-DETR ([download here](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1uP9N0HIBPB6OPxLq5aqeIfKNOFFYQl2t?usp=sharing)), the final AP expected is ```48.7```.\r\n\r\n```sh\r\n# for dab_detr: 42.2 AP\r\npython main.py -m dab_detr \\\r\n  --output_dir logs\u002FDABDETR\u002FR50 \\\r\n  --batch_size 1 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\ # replace the args to your COCO path\r\n  --resume \u002Fpath\u002Fto\u002Four\u002Fcheckpoint \\ # replace the args to your checkpoint path\r\n  --eval\r\n\r\n# for dab_deformable_detr: 48.7 AP\r\npython main.py -m dab_deformable_detr \\\r\n  --output_dir logs\u002Fdab_deformable_detr\u002FR50 \\\r\n  --batch_size 2 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\ # replace the args to your COCO path\r\n  --resume \u002Fpath\u002Fto\u002Four\u002Fcheckpoint \\ # replace the args to your checkpoint path\r\n  --transformer_activation relu \\\r\n  --eval\r\n```\r\n\r\n\r\n### Training your own models\r\nSimilarly, you can also train our model on a single process: \r\n```sh\r\n# for dab_detr\r\npython main.py -m dab_detr \\\r\n  --output_dir logs\u002FDABDETR\u002FR50 \\\r\n  --batch_size 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR  # replace the args to your COCO path\r\n```\r\n\r\n\r\n### Distributed Run\r\nHowever, as the training is time consuming, we suggest to train the model on multi-device.\r\n\r\nIf you plan to train the models on a cluster with Slurm, here is an example command for training:\r\n```sh\r\n# for dab_detr: 42.2 AP\r\npython run_with_submitit.py \\\r\n  --timeout 3000 \\\r\n  --job_name DABDETR \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\r\n  -m dab_detr \\\r\n  --job_dir logs\u002FDABDETR\u002FR50_%j \\\r\n  --batch_size 2 \\\r\n  --ngpus 8 \\\r\n  --nodes 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \r\n\r\n# for dab_deformable_detr: 48.7 AP\r\npython run_with_submitit.py \\\r\n  --timeout 3000 \\\r\n  --job_name dab_deformable_detr \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\r\n  -m dab_deformable_detr \\\r\n  --transformer_activation relu \\\r\n  --job_dir logs\u002Fdab_deformable_detr\u002FR50_%j \\\r\n  --batch_size 2 \\\r\n  --ngpus 8 \\\r\n  --nodes 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \r\n```\r\n\r\nThe final AP should be similar to ours. (```42.2``` for **DAB-DETR** and ```48.7``` for **DAB-Deformable-DETR**). Our configs and logs(see the [model_zoo](#model-zoo)) could be used as references as well. \r\n\r\nNotes: \r\n  - The results are sensitive to the batch size. We use 16(2 images each GPU x 8 GPUs) by default.\r\n\r\n\r\nOr run with multi-processes on a single node:\r\n```sh\r\n# for dab_detr: 42.2 AP\r\npython -m torch.distributed.launch --nproc_per_node=8 \\\r\n  main.py -m dab_detr \\\r\n  --output_dir logs\u002FDABDETR\u002FR50 \\\r\n  --batch_size 2 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR\r\n\r\n# for dab_deformable_detr: 48.7 AP\r\npython -m torch.distributed.launch --nproc_per_node=8 \\\r\n  main.py -m dab_deformable_detr \\\r\n  --output_dir logs\u002Fdab_deformable_detr\u002FR50 \\\r\n  --batch_size 2 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --transformer_activation relu \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR\r\n```\r\n\r\n\r\n# Detailed Model\r\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_be8b45c3de29.png)\r\n\r\n# Comparison of DETR-like Models\r\nThe source file can be found [here](.\u002Fresources\u002Fcomparison_raleted_works_raw.pptx).\r\n\r\n![comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_b55350c88652.png)\r\n\r\n\r\n\r\n# Links\r\n\u003Cp>\r\n\u003Cfont size=3>\u003Cb>DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection.\u003C\u002Fb>\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>Hao Zhang*, Feng Li*, \u003Cb>Shilong Liu*\u003C\u002Fb>, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>arxiv 2022.\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605'>[paper]\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO'>[code]\u003C\u002Fa>  \r\n\u003C\u002Fp>\r\n\r\n\u003Cp>\r\n\u003Cfont size=3>\u003Cb>DN-DETR: Accelerate DETR Training by Introducing Query DeNoising.\u003C\u002Fb>\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>Feng Li*, Hao Zhang*, \u003Cb>Shilong Liu\u003C\u002Fb>, Jian Guo, Lionel M. Ni, Lei Zhang.\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>IEEE Conference on Computer Vision and Pattern Recognition (\u003Cb>CVPR\u003C\u002Fb>) 2022.\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305'>[paper]\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR'>[code]\u003C\u002Fa>    \r\n\u003C\u002Fp>\r\n\r\n# License\r\nDAB-DETR is released under the Apache 2.0 license. Please see the [LICENSE](LICENSE) file for more information.\r\n\r\nCopyright (c) IDEA. All rights reserved.\r\n\r\nLicensed under the Apache License, Version 2.0 (the \"License\"); you may not use these files except in compliance with the License. You may obtain a copy of the License at http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\r\n\r\nUnless required by applicable law or agreed to in writing, software distributed under the License is distributed on an \"AS IS\" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.\r\n\r\n\r\n\r\n# Citation\r\n```bibtex\r\n@inproceedings{\r\n  liu2022dabdetr,\r\n  title={{DAB}-{DETR}: Dynamic Anchor Boxes are Better Queries for {DETR}},\r\n  author={Shilong Liu and Feng Li and Hao Zhang and Xiao Yang and Xianbiao Qi and Hang Su and Jun Zhu and Lei Zhang},\r\n  booktitle={International Conference on Learning Representations},\r\n  year={2022},\r\n  url={https:\u002F\u002Fopenreview.net\u002Fforum?id=oMI9PjOb9Jl}\r\n}\r\n```","﻿# DAB-DETR\n\n这是我们ICLR 2022论文[“DAB-DETR”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329)的官方PyTorch实现。\n\n作者：[刘士龙](https:\u002F\u002Fwww.lsl.zone\u002F)、[李峰](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=zh-CN&user=ybRe9GcAAAAJ)、[张浩](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=B8hPxMQAAAAJ&hl=zh-CN)、[杨晓](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~xiaoyang\u002F)、[齐先标](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=odjSydQAAAAJ&hl=en)、[苏航](https:\u002F\u002Fwww.suhangss.me\u002F)、[朱俊](https:\u002F\u002Fml.cs.tsinghua.edu.cn\u002F~jun\u002Findex.shtml)、[张磊](https:\u002F\u002Fwww.leizhang.org\u002F)\n\n# 最新动态\n[2022年9月22日]：我们发布了一个工具箱[**detrex**](https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002Fdetrex)，其中包含了最先进的基于Transformer的目标检测算法。该工具箱包括性能更优的DINO模型。欢迎大家使用！\u003C\u002Fbr>\n[2022年7月12日]：[DINO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605)的代码现已开放！[[DINO代码链接](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO)]。\u003C\u002Fbr>\n[2022年6月]：我们发布了一种统一的目标检测与分割模型[Mask DINO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.02777.pdf)，在三大分割任务上均取得了最佳成绩（COCO实例分割排行榜AP为**54.5**，COCO全景分割排行榜PQ为**59.4**，ADE20K语义分割排行榜mIoU为**60.8**）！代码将在此处提供：[MaskDINO代码链接](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FMaskDINO)。\u003C\u002Fbr>\n[2022年5月28日]：[DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305)的代码已在此处开放：[DN-DETR代码链接](https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR)！\u003C\u002Fbr>\n[2022年5月22日]：我们发布了用于可视化推理结果的Notebook文件[inference_and_visualize.ipynb](inference_and_visualize.ipynb)。\u003C\u002Fbr>\n[2022年4月14日]：我们发布了用于绘制类似DETR模型对比图的[```.pptx```文件](resources\u002Fcomparison_raleted_works_raw.pptx)，供需要在论文中绘制模型架构图的研究者参考。\u003C\u002Fbr>\n[2022年4月12日]：我们修复了文件```datasets\u002Fcoco_eval.py```中的一个错误。```CocoEvaluator```类的参数```useCats```默认应设置为```True```。\u003C\u002Fbr>\n[2022年4月9日]：我们的代码正式开源！\u003C\u002Fbr>\n[2022年3月9日]：我们创建了一个仓库[Awesome Detection Transformer](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002Fawesome-detection-transformer)，用于整理和展示关于目标检测与分割领域Transformer相关的工作。欢迎关注！\u003C\u002Fbr>\n[2022年3月8日]：我们的新工作[DINO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605)在MS-COCO榜单上创造了新的记录，AP达到**63.3%**。[[DINO代码链接](https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO)]。\u003C\u002Fbr>\n[2022年3月8日]：我们的新工作[DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305)已被CVPR 2022接收！[[DN-DETR代码链接](https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR)]。\u003C\u002Fbr>\n[2022年1月21日]：我们的工作已被ICLR 2022接收。\n\n# 摘要\n本文提出了一种新颖的查询表示方法，即在DETR（DEtection TRansformer）中使用动态锚框，并深入探讨了查询在DETR中的作用。该方法直接将边界框坐标作为Transformer解码器的输入查询，并逐层动态更新这些坐标。采用边界框坐标不仅能够利用显式的先验位置信息来提升查询与特征之间的相似性，从而缓解DETR训练收敛缓慢的问题，还允许我们通过边界框的宽高信息来调节位置注意力图。这种设计清晰地表明，DETR中的查询可以被理解为以级联方式逐层执行软ROI池化操作。因此，在相同实验设置下，我们的方法在类似DETR的目标检测模型中取得了MS-COCO基准测试的最佳性能，例如使用ResNet50-DC5作为骨干网络并在50个epoch内训练时，AP可达45.7%。此外，我们还进行了大量实验来验证上述分析及所提方法的有效性。\n\n# 模型\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_24ee724f02b4.png)\n\n\n\n\u003C!-- # 结果\n![results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_45b29de9eccf.png) -->\n\n# 模型 zoo\n我们提供了基于 R50 主干网络的模型，包括 **DAB-DETR** 和 **DAB-Deformable-DETR**（更多细节请参阅我们论文 [附录 C](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329)）。\n\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr style=\"text-align: right;\">\n      \u003Cth>\u003C\u002Fth>\n      \u003Cth>名称\u003C\u002Fth>\n      \u003Cth>主干网络\u003C\u002Fth>\n      \u003Cth>边界框 AP\u003C\u002Fth>\n      \u003Cth>日志\u002F配置文件\u002F检查点\u003C\u002Fth>\n      \u003Cth>在 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329\">我们的论文\u003C\u002Fa>中的位置\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Cth>0\u003C\u002Fth>\n      \u003Ctd>DAB-DETR-R50\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>42.2\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>表 2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>1\u003C\u002Fth>\n      \u003Ctd>DAB-DETR-R50(3 pat)\u003Csup>\u003Ca id=\"sup1c\" herf=\"#sup1\">1\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>42.6\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>表 2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>2\u003C\u002Fth>\n      \u003Ctd>DAB-DETR-R50-DC5\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>44.5\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>表 2\u003C\u002Ftd>\n    \u003C\u002Ftr>    \n    \u003Ctr>\n      \u003Cth>3\u003C\u002Fth>\n      \u003Ctd>DAB-DETR-R50-DC5-fixxy\u003Csup>\u003Ca id=\"sup2c\" herf=\"#sup2\">2\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>44.7\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>表 8、附录 H。\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>4\u003C\u002Fth>\n      \u003Ctd>DAB-DETR-R50-DC5(3 pat)\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>45.7\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>表 2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>5\u003C\u002Fth>\n      \u003Ctd>DAB-Deformbale-DETR\u003Cbr>(仅可变形编码器)\u003Csup>\u003Ca id=\"sup3c\" herf=\"#sup3\">3\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>46.9\u003C\u002Ftd>\n      \u003Ctd>\u003C\u002Ftd>\n      \u003Ctd>作为 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305\">DN-DETR\u003C\u002Fa> 的基线\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- \u003Ctr>\n      \u003Cth>6\u003C\u002Fth>\n      \u003Ctd>DAB-Deformable-DETR-R50\u003Csup>\u003Ca id=\"sup4c\" herf=\"#sup4\">4\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>48.1\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>扩展了表 5 和附录 C 中的结果。\u003C\u002Ftd>\n    \u003C\u002Ftr> -->\n    \u003Ctr>\n      \u003Cth>6\u003C\u002Fth>\n      \u003Ctd>DAB-Deformable-DETR-R50-v2\u003Csup>\u003Ca id=\"sup4c\" herf=\"#sup4\">4\u003C\u002Fa>\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd>R50\u003C\u002Ftd>\n      \u003Ctd>48.7\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1ByfbyCZL8o6zOKqH6dQFCsVQ8dgRXfUU?usp=sharing\">Google Drive\u003C\u002Fa>&nbsp;|&nbsp;\u003Ca href=\"https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Fd\u002F3aa9d0da60e8423dab54\u002F\">清华云\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>扩展了表 5 和附录 C 中的结果。\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n注释：\n- \u003Csup>\u003Ca id=\"sup1\" herf=\"#sup1c\">1\u003C\u002Fa>\u003C\u002Fsup>：带有 (3 pat) 标记的模型使用了多模式嵌入进行训练（详情请参阅 Anchor DETR 或我们的论文 [https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329)）。\n- \u003Csup>\u003Ca id=\"sup2\" herf=\"#sup2c\">2\u003C\u002Fa>\u003C\u002Fsup>：“fixxy” 表示我们在训练过程中使用随机初始化的锚点，并且不更新其参数（更多细节请参阅我们论文 [附录 H](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.12329)）。\n- \u003Csup>\u003Ca id=\"sup3\" herf=\"#sup3c\">3\u003C\u002Fa>\u003C\u002Fsup>：DAB-Deformbale-DETR（仅可变形编码器）是我们 DAB-DETR 的多尺度版本。更多细节请参阅 [DN-DETR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305)。\n- \u003Csup>\u003Ca id=\"sup4\" herf=\"#sup4c\">4\u003C\u002Fa>\u003C\u002Fsup>：此处的结果优于我们论文中的数值，因为我们训练时使用了不同的损失系数。具体细节请参考我们的配置文件。\n\n\n# 使用方法\n## 安装\n我们以优秀的 DETR 项目作为代码库，因此对于 **DAB-DETR** 不需要额外的依赖。而对于 **DAB-Deformable-DETR**，则需要手动编译可变形注意力算子。\n\n我们已在 ```python=3.7.3, pytorch=1.9.0, cuda=11.1``` 环境下测试过这些模型，其他版本也可能适用。\n\n1. 克隆本仓库\n```sh\ngit clone https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDAB-DETR.git\ncd DAB-DETR\n```\n\n2. 安装 PyTorch 和 torchvision\n\n请按照 https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F 上的说明进行安装。\n```sh\n# 示例：\nconda install -c pytorch pytorch torchvision\n```\n\n3. 安装其他所需包\n```sh\npip install -r requirements.txt\n```\n\n4. 编译 CUDA 算子\n```sh\ncd models\u002Fdab_deformable_detr\u002Fops\npython setup.py build install\n# 运行单元测试（应显示所有检查均为 True）\npython test.py\ncd ..\u002F..\u002F..\n```\n\n## 数据\n请下载 [COCO 2017](https:\u002F\u002Fcocodataset.org\u002F) 数据集，并按以下方式组织：\n``` \nCOCODIR\u002F\n  ├── train2017\u002F\n  ├── val2017\u002F\n  └── annotations\u002F\n  \t├── instances_train2017.json\n  \t└── instances_val2017.json\n```\n\n\n## 运行\n我们以标准的 **DAB-DETR-R50** 和 **DAB-Deformable-DETR-R50** 为例，演示如何进行训练和评估。\n\n### 使用我们的预训练模型进行推理\n请参阅 [inference_and_visualize.ipynb](inference_and_visualize.ipynb)。\n\n### 评估我们的预训练模型\n\n从 [此链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1pae4Yxi0H9OOFdXZg3zXuKK9yOznhTNU?usp=sharing) 下载我们的 DAB-DETR-R50 模型检查点，并执行以下命令。您预计最终的 AP 大约为 ```42.2```。\n\n对于我们的 DAB-Deformable-DETR（[下载地址](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1uP9N0HIBPB6OPxLq5aqeIfKNOFFYQl2t?usp=sharing)），预期的最终 AP 为 ```48.7```。\n\n```sh\n# 对于 dab_detr：AP 为 42.2\npython main.py -m dab_detr \\\n  --output_dir logs\u002FDABDETR\u002FR50 \\\n  --batch_size 1 \\\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\ # 替换为您自己的 COCO 路径\n  --resume \u002Fpath\u002Fto\u002Four\u002Fcheckpoint \\ # 替换为您自己的检查点路径\n  --eval\n\n# 对于 dab_deformable_detr：AP 为 48.7\npython main.py -m dab_deformable_detr \\\n  --output_dir logs\u002Fdab_deformable_detr\u002FR50 \\\n  --batch_size 2 \\\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\ # 替换为您自己的 COCO 路径\n  --resume \u002Fpath\u002Fto\u002Four\u002Fcheckpoint \\ # 替换为您自己的检查点路径\n  --transformer_activation relu \\\n  --eval\n```\n\n### 训练自己的模型\r\n同样，你也可以在单个进程中训练我们的模型：\r\n```sh\r\n# 对于dab_detr\r\npython main.py -m dab_detr \\\r\n  --output_dir logs\u002FDABDETR\u002FR50 \\\r\n  --batch_size 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR  # 将参数替换为你自己的COCO数据集路径\r\n```\r\n\r\n\r\n### 分布式运行\r\n然而，由于训练耗时较长，我们建议在多设备上进行训练。\r\n\r\n如果你计划在使用Slurm调度的集群上训练模型，以下是一个示例命令：\r\n```sh\r\n# 对于dab_detr：42.2 AP\r\npython run_with_submitit.py \\\r\n  --timeout 3000 \\\r\n  --job_name DABDETR \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\r\n  -m dab_detr \\\r\n  --job_dir logs\u002FDABDETR\u002FR50_%j \\\r\n  --batch_size 2 \\\r\n  --ngpus 8 \\\r\n  --nodes 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \r\n\r\n# 对于dab_deformable_detr：48.7 AP\r\npython run_with_submitit.py \\\r\n  --timeout 3000 \\\r\n  --job_name dab_deformable_detr \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\r\n  -m dab_deformable_detr \\\r\n  --transformer_activation relu \\\r\n  --job_dir logs\u002Fdab_deformable_detr\u002FR50_%j \\\r\n  --batch_size 2 \\\r\n  --ngpus 8 \\\r\n  --nodes 1 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \r\n```\r\n\r\n最终的AP值应与我们的结果相近。（**DAB-DETR**为42.2，**DAB-Deformable-DETR**为48.7）。我们的配置文件和日志（参见[model_zoo](#model-zoo)）也可作为参考。\r\n\r\n注意：\r\n  - 结果对批量大小较为敏感。我们默认使用16（每张GPU 2张图像 × 8张GPU）。\r\n\r\n\r\n或者在单节点上使用多进程运行：\r\n```sh\r\n# 对于dab_detr：42.2 AP\r\npython -m torch.distributed.launch --nproc_per_node=8 \\\r\n  main.py -m dab_detr \\\r\n  --output_dir logs\u002FDABDETR\u002FR50 \\\r\n  --batch_size 2 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR\r\n\r\n# 对于dab_deformable_detr：48.7 AP\r\npython -m torch.distributed.launch --nproc_per_node=8 \\\r\n  main.py -m dab_deformable_detr \\\r\n  --output_dir logs\u002Fdab_deformable_detr\u002FR50 \\\r\n  --batch_size 2 \\\r\n  --epochs 50 \\\r\n  --lr_drop 40 \\\r\n  --transformer_activation relu \\\r\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR\r\n```\r\n\r\n\r\n# 模型详解\r\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_be8b45c3de29.png)\r\n\r\n# 类DETR模型对比\r\n源文件可在[这里](.\u002Fresources\u002Fcomparison_raleted_works_raw.pptx)找到。\r\n\r\n![comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_readme_b55350c88652.png)\r\n\r\n\r\n\r\n# 链接\r\n\u003Cp>\r\n\u003Cfont size=3>\u003Cb>DINO：具有改进去噪锚框的DETR，用于端到端目标检测。\u003C\u002Fb>\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>Hao Zhang*, Feng Li*, \u003Cb>Shilong Liu*\u003C\u002Fb>, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>arXiv 2022。\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.03605'>[论文]\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fgithub.com\u002FIDEACVR\u002FDINO'>[代码]\u003C\u002Fa>  \r\n\u003C\u002Fp>\r\n\r\n\u003Cp>\r\n\u003Cfont size=3>\u003Cb>DN-DETR：通过引入查询去噪加速DETR训练。\u003C\u002Fb>\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>Feng Li*, Hao Zhang*, \u003Cb>Shilong Liu\u003C\u002Fb>, Jian Guo, Lionel M. Ni, Lei Zhang。\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Cfont size=2>IEEE计算机视觉与模式识别会议（\u003Cb>CVPR\u003C\u002Fb>）2022。\u003C\u002Ffont>\r\n\u003Cbr>\r\n\u003Ca href='https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.01305'>[论文]\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDN-DETR'>[代码]\u003C\u002Fa>    \r\n\u003C\u002Fp>\r\n\r\n# 许可证\r\nDAB-DETR采用Apache 2.0许可证发布。更多信息请参阅[LICENSE](LICENSE)文件。\r\n\r\n版权所有 © IDEA。保留所有权利。\r\n\r\n根据Apache许可证第2.0版（“许可证”）授权；除非符合许可证规定，否则不得使用这些文件。您可以在http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0获取许可证副本。\r\n\r\n除非适用法律要求或书面协议另有约定，否则根据“AS IS”基础分发的软件不提供任何形式的保证或条件，无论是明示还是暗示。有关特定语言的权限和限制，请参阅许可证条款。\r\n\r\n\r\n\r\n# 引用\r\n```bibtex\r\n@inproceedings{\r\n  liu2022dabdetr,\r\n  title={{DAB}-{DETR}: Dynamic Anchor Boxes are Better Queries for {DETR}},\r\n  author={Shilong Liu and Feng Li and Hao Zhang and Xiao Yang and Xianbiao Qi and Hang Su and Jun Zhu and Lei Zhang},\r\n  booktitle={International Conference on Learning Representations},\r\n  year={2022},\r\n  url={https:\u002F\u002Fopenreview.net\u002Fforum?id=oMI9PjOb9Jl}\r\n}\r\n```","# DAB-DETR 快速上手指南\n\nDAB-DETR 是 ICLR 2022 收录的目标检测模型，通过动态锚框（Dynamic Anchor Boxes）作为 Transformer 的查询向量，显著提升了 DETR 类模型的收敛速度和检测精度。本指南基于官方 PyTorch 实现整理。\n\n## 环境准备\n\n*   **操作系统**: Linux (推荐)\n*   **Python**: 3.7.3 (其他版本可能兼容，但官方测试为此版本)\n*   **PyTorch**: 1.9.0\n*   **CUDA**: 11.1\n*   **数据集**: COCO 2017 (需自行下载并整理目录结构)\n\n**COCO 数据集目录结构要求：**\n```text\nCOCODIR\u002F\n  ├── train2017\u002F\n  ├── val2017\u002F\n  └── annotations\u002F\n      ├── instances_train2017.json\n      └── instances_val2017.json\n```\n\n## 安装步骤\n\n### 1. 克隆代码库\n```sh\ngit clone https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDAB-DETR.git\ncd DAB-DETR\n```\n\n### 2. 安装 PyTorch 和 torchvision\n建议根据本地 CUDA 版本前往 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取安装命令。以下为官方测试环境的示例：\n```sh\nconda install -c pytorch pytorch torchvision\n```\n> **提示**：国内用户可使用清华源加速安装：\n> `conda install -c https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fcloud\u002Fpytorch pytorch torchvision`\n\n### 3. 安装依赖包\n```sh\npip install -r requirements.txt\n```\n> **提示**：国内用户可使用 pip 国内镜像：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 4. 编译 CUDA 算子 (仅 DAB-Deformable-DETR 需要)\n如果你计划使用 **DAB-Deformable-DETR** 模型，必须手动编译可变形注意力算子。基础版 DAB-DETR 可跳过此步。\n```sh\ncd models\u002Fdab_deformable_detr\u002Fops\npython setup.py build install\n# 单元测试（应输出所有 checking is True）\npython test.py\ncd ..\u002F..\u002F..\n```\n\n## 基本使用\n\n以下示例展示如何使用预训练模型进行评估（Evaluation）。请确保已下载对应的权重文件并替换命令中的路径。\n\n### 1. 评估基础版 DAB-DETR (ResNet50)\n预期 AP 约为 **42.2**。\n\n```sh\npython main.py -m dab_detr \\\n  --output_dir logs\u002FDABDETR\u002FR50 \\\n  --batch_size 1 \\\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\n  --resume \u002Fpath\u002Fto\u002Fyour\u002Fcheckpoint.pth \\\n  --eval\n```\n\n### 2. 评估可变形版 DAB-Deformable-DETR (ResNet50)\n预期 AP 约为 **48.7**。\n\n```sh\npython main.py -m dab_deformable_detr \\\n  --output_dir logs\u002Fdab_deformable_detr\u002FR50 \\\n  --batch_size 2 \\\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR \\\n  --resume \u002Fpath\u002Fto\u002Fyour\u002Fcheckpoint.pth \\\n  --transformer_activation relu \\\n  --eval\n```\n\n### 3. 训练自己的模型 (单卡示例)\n以基础版 DAB-DETR 为例，训练 50 个 epoch：\n\n```sh\npython main.py -m dab_detr \\\n  --output_dir logs\u002FDABDETR\u002FR50 \\\n  --batch_size 1 \\\n  --epochs 50 \\\n  --lr_drop 40 \\\n  --coco_path \u002Fpath\u002Fto\u002Fyour\u002FCOCODIR\n```\n\n> **注意**：由于训练耗时较长，生产环境建议使用多卡分布式训练（需配置 Slurm 或使用 `torch.distributed`），具体命令可参考官方 README 中的 \"Distributed Run\" 部分。","某自动驾驶团队正在开发城市道路感知系统，急需提升模型对密集车辆和行人的检测精度与训练效率。\n\n### 没有 DAB-DETR 时\n- **训练收敛极慢**：传统 DETR 模型需要数百个 epoch 才能收敛，导致算法迭代周期长达数周，严重拖慢研发进度。\n- **小目标漏检率高**：由于缺乏显式的位置先验，模型在远距离行人或小型车辆的检测上表现不佳，容易丢失关键目标。\n- **查询机制不直观**：原有的内容查询（Content Query）难以直接关联物理坐标，开发者很难通过调整锚框来优化注意力机制。\n- **特征匹配效率低**：解码器难以快速定位感兴趣区域（ROI），导致在复杂拥堵场景下的推理稳定性不足。\n\n### 使用 DAB-DETR 后\n- **训练速度显著提升**：利用动态锚框作为查询输入，模型在仅 50 个 epoch 内即可达到高精度，将研发迭代周期从数周缩短至几天。\n- **小目标检测更精准**：通过引入明确的坐标先验并逐层动态更新，大幅提升了模型对远处行人及小型车辆的召回率。\n- **查询机制物理意义明确**：直接将边界框坐标作为查询向量，使开发者能更直观地理解和调控模型的空间注意力分布。\n- **级联池化效果更佳**：实现了类似软 ROI 池化的级联处理，显著增强了复杂交通场景下的特征对齐能力与推理鲁棒性。\n\nDAB-DETR 通过将动态锚框融入查询机制，从根本上解决了 Transformer 检测模型收敛慢和小目标感知弱的难题，让高精度实时感知落地成为可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FIDEA-Research_DAB-DETR_3d05f762.png","IDEA-Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FIDEA-Research_b8b3359e.png","The International Digital Economy Academy (“IDEA”). ",null,"www.idea.edu.cn","https:\u002F\u002Fgithub.com\u002FIDEA-Research",[80,84,88,91,95],{"name":81,"color":82,"percentage":83},"Jupyter Notebook","#DA5B0B",77.7,{"name":85,"color":86,"percentage":87},"Python","#3572A5",19,{"name":89,"color":90,"percentage":10},"Cuda","#3A4E3A",{"name":92,"color":93,"percentage":94},"C++","#f34b7d",0.3,{"name":96,"color":97,"percentage":98},"Shell","#89e051",0.1,576,95,"2026-03-31T23:38:42","Apache-2.0",4,"Linux","需要 NVIDIA GPU，需编译 CUDA 算子，测试环境为 CUDA 11.1","未说明",{"notes":108,"python":109,"dependencies":110},"DAB-DETR 基础版无需额外依赖，但 DAB-Deformable-DETR 版本需要手动编译 deformable attention 的 CUDA 算子。官方测试环境为 Python 3.7.3, PyTorch 1.9.0, CUDA 11.1。数据集需使用 COCO 2017。若使用 Slurm 集群可进行分布式训练。","3.7.3",[111,112,113,114,115],"torch==1.9.0","torchvision","pycocotools","scipy","timm",[35,15],[118,119,120,121],"detr","dab-detr","detection","transformer","2026-03-27T02:49:30.150509","2026-04-08T01:49:47.582832",[125,130,135,140,145,150],{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},23559,"如何运行推理脚本并可视化单张图像的检测结果？","项目提供了一个专门的 Notebook 用于单张图像的推理和可视化。你可以访问 `inference_and_visualize.ipynb` 文件（地址：https:\u002F\u002Fgithub.com\u002FIDEA-opensource\u002FDAB-DETR\u002Fblob\u002Fmain\u002Finference_and_visualize.ipynb）。对于本地图片，使用 PIL Image 加载图片路径，并将 target 参数设置为 None 即可进行推理。","https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FDAB-DETR\u002Fissues\u002F29",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},23560,"是否有官方发布的推理测试脚本或输出 JSON 格式的脚本？","维护者提供了用于单图推理和可视化的 Notebook。如果需要批量测试或输出特定格式，可以参考仓库中的 `evaluate` 函数进行修改。核心逻辑是在 `@torch.no_grad()` 装饰器下，将模型和准则设为 `eval()` 模式，遍历数据加载器，利用 `CocoEvaluator` 或自定义列表收集结果。具体代码结构可参考 Issue 评论中提供的 `evaluate_test` 函数片段。","https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FDAB-DETR\u002Fissues\u002F10",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},23561,"训练过程中 AP 和 AR 指标始终为 0 或保持不变，该如何解决？","这通常与学习率（lr）和批次大小（batch_size）的设置有关。当使用较小的 batch_size（例如 1）时，必须相应地调整学习率。有用户反馈，在保持其他参数不变的情况下，仅修改学习率并在训练约 6 个 epoch 后，损失值和评估结果开始正常变化。请检查是否根据 batch_size 线性缩放了学习率。","https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FDAB-DETR\u002Fissues\u002F12",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},23562,"DAB-DETR 中的可学习锚框（learnable anchor boxes）是如何初始化的？","关于技术细节，边界框头（bbox_head）预测的是偏移量（offset）。模型使用归一化坐标（0 到 1 之间的浮点数）。参考点（reference）和偏移量在逆 sigmoid 空间相加，然后通过 sigmoid 函数投影回 [0, 1] 区间，这一机制与 Deformable DETR 类似。具体的初始化策略和默认设置建议查阅最新代码或论文表 2 的相关说明。","https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FDAB-DETR\u002Fissues\u002F2",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},23563,"如何在只有少量数据（如 3k 样本）的情况下从头训练 DAB-DETR？","在小数据集上从头训练 DAB-DETR 比较困难，效果可能不如 CNN 方法（如 Cascade RCNN）或 Conditional DETR。原因可能包括：1) 直接在 decoder 层通过 MLP 生成 4D 边界框难以优化；2) 温度系数（temperature scale）可能需要调整（尝试改回默认值 1）；3) 数据量少时检测模型普遍难收敛。建议先尝试复现并微调 Conditional DETR，或者使用 ImageNet 预训练的 ResNet50 权重作为骨干网络初始化，而不是完全随机初始化。","https:\u002F\u002Fgithub.com\u002FIDEA-Research\u002FDAB-DETR\u002Fissues\u002F56",{"id":151,"question_zh":152,"answer_zh":153,"source_url":144},23564,"调制位置注意力（Modulated Positional Attention）与 Conditional DETR 中的条件交叉注意力有何区别？","调制位置注意力是对条件交叉注意力的改进。它不仅仅是将交叉注意力分为内容和空间点积两部分，还引入了参考点（referenced w）参与到空间点积的计算中。具体实现上，它利用参考点和预测的偏移量来动态调整注意力权重的空间分布，从而更精准地定位物体。",[]]