[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-LeapLabTHU--DAT":3,"tool-LeapLabTHU--DAT":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":109,"github_topics":110,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":164},5270,"LeapLabTHU\u002FDAT","DAT","Repository of Vision Transformer with Deformable Attention (CVPR2022) and DAT++: Spatially Dynamic Vision Transformerwith Deformable Attention","DAT 是一款基于可变形注意力机制的视觉 Transformer 开源模型，源自 CVPR 2022 最佳论文候选作品及其升级版 DAT++。它旨在解决传统 Vision Transformer（ViT）因全局注意力导致的计算成本过高问题，同时克服了 Swin Transformer 等窗口式方法可能遗漏关键特征及感受野受限的缺陷。\n\n通过引入可学习的偏移量，DAT 能够动态调整注意力采样的位置，使模型像“智能放大镜”一样，自动聚焦于图像中对任务最关键的区域，而非机械地处理所有像素。这种机制不仅大幅提升了计算效率，还增强了模型捕捉长距离依赖和细粒度特征的能力，在图像分类、目标检测及语义分割等任务中表现卓越。\n\nDAT 特别适合计算机视觉领域的研究人员与开发者使用，尤其是那些希望在不牺牲精度的前提下优化模型效率，或需要构建高性能骨干网络进行下游任务探索的专业人士。其核心亮点在于将可变形卷积的思想巧妙融入 Transformer 架构，实现了空间上的动态感知，让注意力分布更加灵活且符合物体实际结构。项目提供了完整的训练代码及在 ImageNet-1K 上预训练的多个版本模型，便于用户快速复","DAT 是一款基于可变形注意力机制的视觉 Transformer 开源模型，源自 CVPR 2022 最佳论文候选作品及其升级版 DAT++。它旨在解决传统 Vision Transformer（ViT）因全局注意力导致的计算成本过高问题，同时克服了 Swin Transformer 等窗口式方法可能遗漏关键特征及感受野受限的缺陷。\n\n通过引入可学习的偏移量，DAT 能够动态调整注意力采样的位置，使模型像“智能放大镜”一样，自动聚焦于图像中对任务最关键的区域，而非机械地处理所有像素。这种机制不仅大幅提升了计算效率，还增强了模型捕捉长距离依赖和细粒度特征的能力，在图像分类、目标检测及语义分割等任务中表现卓越。\n\nDAT 特别适合计算机视觉领域的研究人员与开发者使用，尤其是那些希望在不牺牲精度的前提下优化模型效率，或需要构建高性能骨干网络进行下游任务探索的专业人士。其核心亮点在于将可变形卷积的思想巧妙融入 Transformer 架构，实现了空间上的动态感知，让注意力分布更加灵活且符合物体实际结构。项目提供了完整的训练代码及在 ImageNet-1K 上预训练的多个版本模型，便于用户快速复现结果或作为基线进行二次开发。","# Vision Transformer with Deformable Attention\n\nThis repository contains the code for the paper Vision Transformer with Deformable Attention (CVPR2022, **Best Paper Finalists**) \\[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.00520)\\]\\[[video](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F17476d769ced48eaa278\u002F)]\\[[poster](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F9afe817efb504d32951b\u002F)\\]\\[[CVPR page](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FXia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.html)\\], and DAT++: Spatially Dynamic Vision Transformerwith Deformable Attention (extended version)\\[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.01430)].\n\nThis repository mainly includes the implementation for image classification experiments. For object detection and instance segmentation, please refer to [DAT-Detection](https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT-Detection); for semantic segmentation, please see [DAT-Segmentation](https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT-Segmentation) for more details.\n\n## Introduction\n\n### Motivation\n\n![Motivation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_6879515458e6.png)\n\n**(a) Vision Transformer(ViT)** has proved its superiority over many tasks thanks to its large or even global receptive field. However, this global attention leads to excessive computational costs. **(b) Swin Transformer** proposes shifted window attention, which is a more efficient sparse attention mechanism with linear computation complexity. Nevertheless, this hand-crafted attention pattern is likely to drop important features outside one window, and shifting windows impedes the growth of the receptive field, limiting modeling the long-range dependencies. **(c) DCN** expands the receptive fields of the standard convolutions with the learned offsets for each different query. Howbeit, directly applying this technique to the Vision Transformer is non-trivial for the quadratic space complexity and the training difficulties. **(d) Deformable Attention (DAT)** is proposed to model the relations among tokens effectively under the guidance of the important regions in the feature maps. This flexible scheme enables the self-attention module to focus on relevant regions and capture more informative features.\n\n\n### Method\n\n![Deform_Attn](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_e1ef02657d9a.png)\n\nBy learning several groups of offsets for the grid reference points, the deformed keys and values are sampled from these shifted locations. This deformable attention can capture the most informative regions in the image. On this basis, we present **Deformable Attention Transformer (DAT)** and **DAT++**, a general backbone model with deformable attention for both image classification and other dense prediction tasks. \n\n### Visualizations\n\n![Visualizations](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_f47f2823fafa.png)\n\nVisualizations show the most important keys denotes in orange circles, where larger circles indicates higher attention scores in the 3rd column. The 4-th and 5-th columns display the important keys (orange circles) to some  queries (red starts). The important keys cover the main parts of the objects, which demonstrates the effectiveness of DAT and DAT++.\n\n## Dependencies\n\n- NVIDIA GPU + CUDA 11.3\n- Python 3.9\n- PyTorch == 1.11.0\n- torchvision == 0.12.0\n- numpy == 1.20.3\n- timm == 0.5.4\n- einops == 0.6.1\n- natten == 0.14.6\n- PyYAML\n- yacs\n- termcolor\n\n## Evaluate Pretrained Models on ImageNet-1K Classification\n\nWe provide the pretrained models in the tiny, small, and base versions of DAT++, as listed below.\n\n| model  | resolution | acc@1 | config | pretrained weights |\n| :---: | :---: | :---: | :---: | :---: |\n| DAT-T++ | 224x224 | 83.9 | [config](configs\u002Fdat_tiny.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgrl-pI8MPFoll-ueNQ?e=bpdieu) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F14c5ddae10b642e68089\u002F) |\n| DAT-S++ | 224x224 | 84.6 | [config](configs\u002Fdat_small.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgroB0ESeknbTsksWAg?e=Jbh0BS) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F4c2a76360c964fbd81d5\u002F) |\n| DAT-B++ | 224x224 | 84.9 | [config](configs\u002Fdat_base.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgrl_P46QOehhgA0-wg?e=DJRAfw) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F8e30492404d348d89f25\u002F) |\n| DAT-B++ | 384x384 | 85.9 | [config](configs\u002Fdat_base_384.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgroAI7cLAoj17khZNw?e=7yzxAg) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F032dc804cdf44bf18bb5\u002F) |\n\nTo evaluate one model, please download the pretrained weights to your local machine and run the script `evaluate.sh` as follow. \n\n**Please notice: Before training or evaluation, please set the `--data-path` argument in `train.sh` or `evaluate.sh` to the path where ImageNet-1K data stores.**\n\n```\nbash evaluate.sh \u003Cgpu_nums> \u003Cpath-to-config> \u003Cpath-to-pretrained-weights>\n```\n\nE.g., suppose evaluating the DAT-Tiny model (`dat_pp_tiny_in1k_224.pth`) with 8 GPUs, the command should be:\n\n```\nbash evaluate.sh 8 configs\u002Fdat_tiny.yaml dat_pp_tiny_in1k_224.pth\n```\n\nAnd the evaluation result should give:\n\n```\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 301): INFO  * Acc@1 83.864 Acc@5 96.734\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 179): INFO Accuracy of the network on the 50000 test images: 83.9%\n```\n\n\n## Train Models from Scratch\n\nTo train a model from scratch, we provide a simple script `train.sh`. E.g, to train a model with 8 GPUs on a single node, you can use this command:\n\n```\nbash train.sh 8 \u003Cpath-to-config> \u003Cexperiment-tag>\n```\n\nWe also provide a training script `train_slurm.sh` for training models on multiple machines with a larger batch-size like 4096. \n\n```\nbash train_slurm.sh 32 \u003Cpath-to-config> \u003Cslurm-job-name>\n```\n\n**Remember to change the \\\u003Cpath-to-imagenet\\> in the script files to your own ImageNet directory.**\n\n## Future Updates\n\n- [x] Classification pretrained models.\n- [x] Object Detection codebase & models.\n- [x] Semantic Segmentation codebase & models.\n- [ ] ImageNet-22K pretraining for DAT-B++ and DAT-L++.\n- [ ] DINO \u002F Mask2Former for system level DET\u002FSEG.\n- [ ] CUDA \u002F CUTLASS acceleration (maybe).\n\n## Acknowledgements\n\nThis code is developed on the top of [Swin Transformer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer), we thank to their efficient and neat codebase. The computational resources supporting this work are provided by [Hangzhou\nHigh-Flyer AI Fundamental Research Co.,Ltd](https:\u002F\u002Fwww.high-flyer.cn\u002F).\n\n## Citation\n\nIf you find our work is useful in your research, please consider citing:\n\n```\n@article{xia2023dat,\n    title={DAT++: Spatially Dynamic Vision Transformer with Deformable Attention}, \n    author={Zhuofan Xia and Xuran Pan and Shiji Song and Li Erran Li and Gao Huang},\n    year={2023},\n    journal={arXiv preprint arXiv:2309.01430},\n}\n\n@InProceedings{Xia_2022_CVPR,\n    author    = {Xia, Zhuofan and Pan, Xuran and Song, Shiji and Li, Li Erran and Huang, Gao},\n    title     = {Vision Transformer With Deformable Attention},\n    booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n    month     = {June},\n    year      = {2022},\n    pages     = {4794-4803}\n}\n```\n\n## Contact\n\nIf you have any questions or concerns, please send email to [xzf23@mails.tsinghua.edu.cn](mailto:xzf23@mails.tsinghua.edu.cn).\n","# 带有可变形注意力的视觉Transformer\n\n本仓库包含论文《带有可变形注意力的视觉Transformer》（CVPR 2022，**最佳论文入围者**）\\[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.00520)\\]\\[[视频](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F17476d769ced48eaa278\u002F)]\\[[海报](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F9afe817efb504d32951b\u002F)\\]\\[[CVPR页面](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fhtml\u002FXia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.html)\\]以及其扩展版本《DAT++：基于可变形注意力的空间动态视觉Transformer》\\[[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.01430)]的代码实现。\n\n本仓库主要包含图像分类实验的实现。对于目标检测和实例分割任务，请参考[DAT-Detection](https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT-Detection)；对于语义分割任务，请参阅[DAT-Segmentation](https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT-Segmentation)以获取更多详细信息。\n\n## 简介\n\n### 动机\n\n![Motivation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_6879515458e6.png)\n\n**(a) 视觉Transformer (ViT)** 凭借其大范围甚至全局的感受野，在众多任务中展现了优越性。然而，这种全局注意力机制带来了过高的计算开销。**(b) Swin Transformer** 提出了移位窗口注意力机制，这是一种更高效的稀疏注意力方法，具有线性的时间复杂度。尽管如此，这种人工设计的注意力模式可能会遗漏窗口之外的重要特征，而移位窗口的设计也限制了感受野的扩展，从而难以建模长距离依赖关系。**(c) DCN** 通过为每个查询学习偏移量来扩展标准卷积的感受野。然而，将这一技术直接应用于视觉Transformer并不容易，因为其空间复杂度呈二次方增长，且训练难度较大。**(d) 可变形注意力 (DAT)** 则是在特征图中重要区域的引导下，有效建模标记之间的关系。这种灵活的机制使自注意力模块能够聚焦于相关区域，捕捉更具信息量的特征。\n\n\n### 方法\n\n![Deform_Attn](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_e1ef02657d9a.png)\n\n通过为网格参考点学习多组偏移量，从这些偏移后的位置采样变形的键和值。这种可变形注意力能够捕捉图像中最富信息的区域。在此基础上，我们提出了 **可变形注意力Transformer (DAT)** 和 **DAT++**，这是一种通用的骨干网络模型，适用于图像分类以及其他密集预测任务。\n\n### 可视化结果\n\n![Visualizations](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_readme_f47f2823fafa.png)\n\n可视化结果显示，最重要的键用橙色圆圈标注，其中第三列中较大的圆圈表示更高的注意力得分。第四列和第五列展示了某些查询（红色星号）所关注的重要键（橙色圆圈）。这些重要键覆盖了物体的主要部分，这充分证明了DAT和DAT++的有效性。\n\n## 依赖项\n\n- NVIDIA GPU + CUDA 11.3\n- Python 3.9\n- PyTorch == 1.11.0\n- torchvision == 0.12.0\n- numpy == 1.20.3\n- timm == 0.5.4\n- einops == 0.6.1\n- natten == 0.14.6\n- PyYAML\n- yacs\n- termcolor\n\n## 在ImageNet-1K分类数据集上评估预训练模型\n\n我们提供了DAT++的tiny、small和base三个版本的预训练模型，具体如下表所示。\n\n| 模型  | 分辨率 | top-1准确率 | 配置文件 | 预训练权重 |\n| :---: | :---: | :---: | :---: | :---: |\n| DAT-T++ | 224x224 | 83.9% | [config](configs\u002Fdat_tiny.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgrl-pI8MPFoll-ueNQ?e=bpdieu) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F14c5ddae10b642e68089\u002F) |\n| DAT-S++ | 224x224 | 84.6% | [config](configs\u002Fdat_small.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgroB0ESeknbTsksWAg?e=Jbh0BS) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F4c2a76360c964fbd81d5\u002F) |\n| DAT-B++ | 224x224 | 84.9% | [config](configs\u002Fdat_base.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgrl_P46QOehhgA0-wg?e=DJRAfw) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F8e30492404d348d89f25\u002F) |\n| DAT-B++ | 384x384 | 85.9% | [config](configs\u002Fdat_base_384.yaml) | [OneDrive](https:\u002F\u002F1drv.ms\u002Fu\u002Fs!ApI0vb6wPqmtgroAI7cLAoj17khZNw?e=7yzxAg) \u002F [TsinghuaCloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F032dc804cdf44bf18bb5\u002F) |\n\n要评估某个模型，请先将预训练权重下载到本地机器，然后运行以下`evaluate.sh`脚本：\n\n**请注意：在进行训练或评估之前，请务必在`train.sh`或`evaluate.sh`脚本中将`--data-path`参数设置为ImageNet-1K数据存储的路径。**\n\n```\nbash evaluate.sh \u003Cgpu数量> \u003C配置文件路径> \u003C预训练权重路径>\n```\n\n例如，假设使用8张GPU卡评估DAT-Tiny模型（`dat_pp_tiny_in1k_224.pth`），命令应为：\n\n```\nbash evaluate.sh 8 configs\u002Fdat_tiny.yaml dat_pp_tiny_in1k_224.pth\n```\n\n评估结果应显示：\n\n```\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 301): INFO  * Acc@1 83.864 Acc@5 96.734\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 179): INFO 网络在50000张测试图像上的准确率为：83.9%\n```\n\n\n## 从头开始训练模型\n\n为了从头开始训练模型，我们提供了一个简单的`train.sh`脚本。例如，要在单节点上使用8张GPU卡训练模型，可以使用以下命令：\n\n```\nbash train.sh 8 \u003C配置文件路径> \u003C实验标签>\n```\n\n此外，我们还提供了一个用于多机训练的`train_slurm.sh`脚本，支持更大的批量大小，如4096。\n\n```\nbash train_slurm.sh 32 \u003C配置文件路径> \u003Cslurm作业名称>\n```\n\n**请记得将脚本文件中的`\u003Cpath-to-imagenet>`替换为你自己的ImageNet数据目录路径。**\n\n## 未来更新\n\n- [x] 分类任务的预训练模型。\n- [x] 目标检测的代码库及模型。\n- [x] 语义分割的代码库及模型。\n- [ ] DAT-B++和DAT-L++在ImageNet-22K数据集上的预训练。\n- [ ] DINO \u002F Mask2Former用于系统级的目标检测\u002F分割。\n- [ ] CUDA \u002F CUTLASS加速（可能）。\n\n## 致谢\n\n本代码是在[Swin Transformer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FSwin-Transformer)的基础上开发的，我们感谢他们高效且整洁的代码库。本研究的计算资源由[杭州高飞人工智能基础研究有限公司](https:\u002F\u002Fwww.high-flyer.cn\u002F)提供。\n\n## 引用\n\n如果您认为我们的工作对您的研究有所帮助，请考虑引用以下文献：\n\n```\n@article{xia2023dat,\n    title={DAT++：具有可变形注意力的空间动态视觉Transformer}, \n    author={Zhuofan Xia 和 Xuran Pan 和 Shiji Song 和 Li Erran Li 和 Gao Huang},\n    year={2023},\n    journal={arXiv 预印本 arXiv:2309.01430},\n}\n\n@InProceedings{Xia_2022_CVPR,\n    author    = {Xia, Zhuofan 和 Pan, Xuran 和 Song, Shiji 和 Li, Li Erran 和 Huang, Gao},\n    title     = {具有可变形注意力的视觉Transformer},\n    booktitle = {IEEE\u002FCVF 计算机视觉与模式识别会议（CVPR）论文集},\n    month     = {6月},\n    year      = {2022},\n    pages     = {4794-4803}\n}\n```\n\n## 联系方式\n\n如果您有任何问题或疑虑，请发送邮件至 [xzf23@mails.tsinghua.edu.cn](mailto:xzf23@mails.tsinghua.edu.cn)。","# DAT (Deformable Attention Transformer) 快速上手指南\n\nDAT 是一种结合可变形注意力机制的视觉 Transformer 模型，旨在高效捕捉图像中的关键区域特征，在图像分类、目标检测和语义分割任务中表现优异。本指南将帮助你快速搭建环境并运行预训练模型。\n\n## 环境准备\n\n### 系统要求\n- **GPU**: NVIDIA GPU\n- **CUDA**: 11.3\n- **Python**: 3.9\n- **PyTorch**: 1.11.0\n- **torchvision**: 0.12.0\n\n### 前置依赖\n请确保安装以下 Python 库：\n```bash\nnumpy==1.20.3\ntimm==0.5.4\neinops==0.6.1\nnatten==0.14.6\nPyYAML\nyacs\ntermcolor\n```\n\n> **提示**：国内用户建议使用清华源或阿里源加速 `pip` 安装，例如：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n1. **克隆仓库**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT.git\n   cd DAT\n   ```\n\n2. **安装依赖**\n   创建虚拟环境（推荐）并安装依赖：\n   ```bash\n   conda create -n dat python=3.9\n   conda activate dat\n   \n   # 安装 PyTorch (根据 CUDA 11.3)\n   pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html\n   \n   # 安装其他依赖\n   pip install -r requirements.txt\n   ```\n   *注：若 `requirements.txt` 未直接提供，请手动安装上述“前置依赖”列表中列出的包。*\n\n3. **编译 NATTEN (如需)**\n   如果 `natten` 未通过 pip 直接安装成功，可能需要从源码编译：\n   ```bash\n   pip install natten==0.14.6\n   ```\n\n## 基本使用\n\n### 1. 准备数据集\n下载 ImageNet-1K 数据集，并记录其本地路径（例如 `\u002Fdata\u002Fimagenet`）。\n\n### 2. 下载预训练模型\n本项目提供 Tiny、Small 和 Base 版本的 DAT++ 预训练权重。国内用户推荐从 **清华云盘** 下载。\n\n以 **DAT-T++** 为例：\n- **配置文件**: `configs\u002Fdat_tiny.yaml`\n- **权重下载**: [清华云盘链接](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F14c5ddae10b642e68089\u002F)\n- 将下载的权重文件重命名为 `dat_pp_tiny_in1k_224.pth` 并放在项目根目录。\n\n### 3. 评估模型 (Evaluation)\n在运行脚本前，请务必修改 `evaluate.sh` 或命令中的 `--data-path` 为你的 ImageNet 数据路径。\n\n使用 8 张 GPU 评估 DAT-Tiny 模型的命令如下：\n\n```bash\nbash evaluate.sh 8 configs\u002Fdat_tiny.yaml dat_pp_tiny_in1k_224.pth\n```\n\n**预期输出示例：**\n```text\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 301): INFO  * Acc@1 83.864 Acc@5 96.734\n[2023-09-04 17:18:15 dat_plus_plus] (main.py 179): INFO Accuracy of the network on the 50000 test images: 83.9%\n```\n\n### 4. 从头训练 (Training)\n若需从头训练模型，请修改 `train.sh` 中的数据路径，然后运行：\n\n```bash\n# 单节点 8 卡训练示例\nbash train.sh 8 configs\u002Fdat_tiny.yaml my_experiment_tag\n```\n\n> **注意**：对于多机大规模训练（如 batch-size 4096），可使用 `train_slurm.sh` 脚本。","某医疗影像实验室团队正在开发一套自动识别肺部 CT 扫描中微小结节的辅助诊断系统，急需提升模型对不规则病灶的捕捉能力。\n\n### 没有 DAT 时\n- **计算资源浪费严重**：传统 ViT 采用全局注意力机制，导致模型对大量背景健康组织进行无效计算，推理速度缓慢，难以满足临床实时性要求。\n- **关键特征易丢失**：若改用 Swin Transformer 等窗口机制，微小的结节往往因跨越窗口边界或被分割而丢失关键上下文信息，造成漏检。\n- **感受野受限**：手工设计的固定注意力模式无法灵活适应结节大小不一、形态各异的特性，限制了模型对长距离依赖关系的建模能力。\n- **训练收敛困难**：尝试直接将可变形卷积技术迁移至 Transformer 架构时，常因空间复杂度呈二次方增长而导致显存溢出或训练不稳定。\n\n### 使用 DAT 后\n- **聚焦核心区域**：DAT 通过可变形注意力机制，让模型自动学习偏移量，将计算资源集中分布在结节所在的“重要区域”，大幅降低冗余计算。\n- **精准捕捉细节**：动态采样的键值对能够跨越固定网格限制，完整覆盖形状不规则的微小结节，显著提升了小目标检测的准确率。\n- **灵活适应形态**：不再受限于手工设计的窗口，DAT 能根据图像内容自适应调整感受野，有效建模病灶与周围组织的长距离关联。\n- **高效稳定训练**：得益于线性的计算复杂度优化，DAT 在保持高精度的同时降低了显存占用，使得在单卡 GPU 上训练大分辨率医学影像成为可能。\n\nDAT 通过让视觉模型学会“动态聚焦”，在保证高精度的前提下解决了医疗影像分析中计算效率与小目标漏检的双重难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeapLabTHU_DAT_68795154.png","LeapLabTHU","LeapLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLeapLabTHU_e9baff07.png","The Learning And Perception (LEAP) Lab is a research group at Tsinghua University working in the area of machine learning, multi-modal learning and embodied int",null,"https:\u002F\u002Fwww.leaplab.ai\u002F","https:\u002F\u002Fgithub.com\u002FLeapLabTHU",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.2,{"name":86,"color":87,"percentage":88},"Shell","#89e051",0.8,929,85,"2026-04-03T12:47:46","Apache-2.0",4,"未说明","必需 NVIDIA GPU，CUDA 11.3",{"notes":97,"python":98,"dependencies":99},"该工具主要用于图像分类实验，目标检测和语义分割需参考其他仓库。运行前需在脚本中配置 ImageNet-1K 数据集路径。提供 Tiny、Small 和 Base 版本的预训练模型。","3.9",[100,101,102,103,104,105,106,107,108],"torch==1.11.0","torchvision==0.12.0","numpy==1.20.3","timm==0.5.4","einops==0.6.1","natten==0.14.6","PyYAML","yacs","termcolor",[14,35,15],[111,112,113,114,115],"deep-learning","deformable-attention","image-classification","pytorch","vision-transformer","2026-03-27T02:49:30.150509","2026-04-08T07:43:25.679469",[119,124,129,134,139,144,149,154,159],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},23884,"DAT 与 Deformable DETR 的注意力机制有什么区别？","DAT 中的空间采样操作相对简单，可以直接通过 PyTorch 的 `F.grid_sample(feature, pos)` 实现，且速度可行。而 Deformable DETR 针对不同数量的 key 提供了优化的 CUDA 算子版本。如果项目对低延迟有极高需求，DAT 未来也可以考虑实现类似的优化 CUDA 版本。更多细节可参考论文附录 Part A。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F18",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},23885,"为什么参考点坐标计算中要使用 `.mul_(2).sub_(1)` 操作？","该操作是为了将坐标归一化到 [-1, +1] 区间，以符合 PyTorch 中 `F.grid_sample` 网格采样操作的协议。在该协议中，(-1, -1) 代表左上角，(+1, +1) 代表右下角。初始网格是从 0.5 到 H-0.5（或 W-0.5），除以尺寸后变为 [0, 1]，再乘以 2 减 1 即映射到 [-1, 1]。关于偏移范围因子 `s` 的消融实验可在论文的消融研究部分找到。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F12",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},23886,"如何修改模型以支持更大的输入尺寸（例如从 384 改为 1024）？","你需要对每个注意力层中的相对位置偏置表（relative position bias table）进行插值处理。但需注意，正如 SwinV2 论文指出的，大尺寸输入可能会降低相对位置编码的性能，因此可能需要采用其他位置编码技术（如 SwinV2 中的 Log-CPB）。此外，大幅增加的输入尺寸会导致巨大的显存消耗，需要配备更大显存的 GPU。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F19",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},23887,"我在 ImageNet 上训练的准确率与论文结果有差距，原因是什么？","这通常与批量大小（batch_size）和 GPU 配置有关。论文中的结果是在 32 张 A100 GPU 上使用 4096 的批量大小训练得出的。如果在单节点（如 8x V100 或 3090）上使用较小的批量大小（如 1024 或更少），可能会观察到轻微的性能下降（例如 81.8% vs 82.0%）。预训练权重已提交，建议检查您的训练设置是否与论文一致。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F9",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},23888,"运行模型时出现 'RuntimeError: Trying to create tensor with negative dimension' 错误怎么办？","这是因为默认配置中的步长（strides）参数设置为 -1。请查阅项目提供的配置文件（configs），并根据实际输入尺寸正确设置 strides 参数，避免产生负数维度。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F4",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},23889,"Deformable Attention 是否适用于文本或一维序列数据？","目前尚未在文本、时间序列或其他一维数据上尝试过该机制。但 Deformable Attention 的核心概念（空间\u002F时间动态建模）理论上在不同模态的数据上都可能有效。将其适配到一维数据是一个有趣的方向，但需要重新考虑一些具体的设计细节。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F32",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},23890,"变形注意力的计算成本是否与全局注意力相同？","是的，因为采样的 key\u002Fvalue 数量与 query 数量相同，所以计算成本理论上是相同的。关于为何不在最后两个阶段使用全局自注意力，以及具体的性能对比，请参考论文中消融研究部分的表 6（Table 6）。目前的设置可能并非最优，后续可能会有更深入的调查和改进。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F16",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},23891,"目标检测和分割的代码何时发布？","检测和分割的代码仓库已随 DAT 的扩展版本更新并发布。用户可以前往相关仓库查看代码，如果遇到任何问题，欢迎提交 Issue 反馈。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F2",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},23892,"是否会发布 DAT 的预训练模型？","是的，预训练权重已经提交到代码库中，用户可以直接下载使用。","https:\u002F\u002Fgithub.com\u002FLeapLabTHU\u002FDAT\u002Fissues\u002F6",[165],{"id":166,"version":167,"summary_zh":168,"released_at":169},145460,"CVPR2022","2022年CVPR会议上发表的带有可变形注意力机制的视觉Transformer的归档版本。","2023-09-05T10:05:49"]