[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-raoyongming--GFNet":3,"tool-raoyongming--GFNet":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":78,"owner_email":80,"owner_twitter":78,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":96,"env_deps":98,"category_tags":104,"github_topics":105,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":111,"updated_at":112,"faqs":113,"releases":144},2698,"raoyongming\u002FGFNet","GFNet","[NeurIPS 2021] [T-PAMI] Global Filter Networks for Image Classification","GFNet 是一款专为图像分类任务设计的深度学习架构，曾发表于神经信息处理系统大会（NeurIPS 2021）并收录于 IEEE TPAMI 期刊。它旨在解决传统视觉 Transformer 在处理高分辨率图像时，因自注意力机制计算量过大而导致效率低下的难题。\n\n与依赖复杂注意力矩阵的模型不同，GFNet 创新地将图像处理转换到频域进行。其核心在于用“全局滤波层”替代了标准的自注意力层，通过二维离散傅里叶变换、可学习的全局滤波器逐元素相乘以及逆变换这三个步骤，高效地捕捉图像中的长程空间依赖关系。这种设计不仅概念简洁，更将计算复杂度降低至对数线性级别，使其在处理高清特征图时比自注意力机制和空间 MLP 更加迅速且节省资源。\n\nGFNet 非常适合计算机视觉领域的研究人员和开发者使用，特别是那些需要在有限算力下训练高精度模型，或致力于探索频域分析方法在深度学习中应用的技术人员。项目基于 PyTorch 构建，提供了从轻量级到大型的多款预训练模型（如 GFNet-Ti 至 GFNet-H-B），并在 ImageNet 数据集上展现了极具竞争力的准确率，是兼顾效率与性能的优秀开源选择。","# Global Filter Networks for Image Classification\n\nCreated by [Yongming Rao](https:\u002F\u002Fraoyongming.github.io\u002F), [Wenliang Zhao](https:\u002F\u002Fwl-zhao.github.io\u002F), [Zheng Zhu](http:\u002F\u002Fwww.zhengzhu.net\u002F), [Jiwen Lu](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=TN8uDQoAAAAJ&hl=en&authuser=1), [Jie Zhou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=6a79aPwAAAAJ&hl=en&authuser=1)\n\nThis repository contains PyTorch implementation for GFNet (NeurIPS 2021 & T-PAMI).\n\nGlobal Filter Networks is a transformer-style architecture that learns long-term spatial dependencies in the frequency domain with log-linear complexity. Our architecture replaces the self-attention layer in vision transformers with three key operations: a 2D discrete Fourier transform, an element-wise multiplication between frequency-domain features and learnable global filters, and a 2D inverse Fourier transform.\n\n![intro](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_2a5f9740fcca.gif)\n\nOur code is based on [pytorch-image-models](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models) and [DeiT](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdeit).\n\n[[Project Page]](https:\u002F\u002Fgfnet.ivg-research.xyz\u002F) [[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00645)\n\n## Global Filter Layer\n\nGFNet is a conceptually simple yet computationally efficient architecture, which consists of several stacking Global Filter Layers and Feedforward Networks (FFN).  The Global Filter Layer mixes tokens with log-linear complexity benefiting from the highly efficient Fast Fourier Transform (FFT) algorithm.  The layer is easy to implement: \n\n```python\nimport torch\nimport torch.nn as nn\nimport torch.fft\n\nclass GlobalFilter(nn.Module):\n    def __init__(self, dim, h=14, w=8):\n        super().__init__()\n        self.complex_weight = nn.Parameter(torch.randn(h, w, dim, 2, dtype=torch.float32) * 0.02)\n\n    def forward(self, x):\n        B, H, W, C = x.shape\n        x = torch.fft.rfft2(x, dim=(1, 2), norm='ortho')\n        weight = torch.view_as_complex(self.complex_weight)\n        x = x * weight\n        x = torch.fft.irfft2(x, s=(H, W), dim=(1, 2), norm='ortho')\n        return x\n\n```\n\nCompared to self-attention and spatial MLP, our Global Filter Layer is much more efficient to process high-resolution feature maps:\n\n![efficiency](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_6692fe438a2f.png)\n\n## Model Zoo\n\nWe provide our GFNet models pretrained on ImageNet:\n| name | arch | Params | FLOPs | acc@1 | acc@5 | url |\n| --- | --- | --- | --- | --- | --- | --- |\n| GFNet-Ti | ```gfnet-ti``` | 7M | 1.3G | 74.6 | 92.2 |  [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F3d0c1579aa524a0a99dd\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1_xrfC7c_ccZnVicYDnrViOA_T1N-xoHI\u002Fview?usp=sharing)|\n| GFNet-XS | ```gfnet-xs``` | 16M | 2.8G | 78.6 | 94.2 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fe0ab5b1583954a1fa9b2\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1paf9gQWdsLXrG58R77yJ3U0FiNINg9xN\u002Fview?usp=sharing)|\n| GFNet-S | ```gfnet-s``` | 25M | 4.5G | 80.0 | 94.9 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fe5561fa070c44d9399bf\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F18aRey_1abWNMmSL7TZQ4WxpplLRCDGEl\u002Fview?usp=sharing)|\n| GFNet-B | ```gfnet-b``` | 43M | 7.9G | 80.7 | 95.1 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F2fbf264597af4d72afb3\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1OncnXYAXpdjZBq4JK5Y3xacIHOIMePQo\u002Fview?usp=sharing)|\n| GFNet-H-Ti | ```gfnet-h-ti``` | 15M | 2.0G | 80.1 | 95.1 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fb22dd45eccbe462cbbfb\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Nrq5sfHD9RklCMl6WkcVrAWI5vSVzwSm\u002Fview?usp=sharing)|\n| GFNet-H-S | ```gfnet-h-s``` | 32M | 4.5G | 81.5 | 95.6 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F5229cb4d1daf48e69675\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1w4d7o1LTBjmSkb5NKzgXBBiwdBOlwiie\u002Fview?usp=sharing)|\n| GFNet-H-B | ```gfnet-h-b``` | 54M | 8.4G | 82.9 | 96.2 | [Tsinghua Cloud](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F954c5af21e824ba6b40c\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1F900_-yPH7GFYfTt60xn4tu5a926DYL0\u002Fview?usp=sharing)|\n\n\n\n## Usage\n\n### Requirements\n\n- torch>=1.8.0\n- torchvision\n- timm\n\n*Note*: To use the ```rfft2``` and ```irfft2``` functions in PyTorch, you need to install PyTorch>=1.8.0. Complex numbers are supported after PyTorch 1.6.0, but the ```fft``` API is slightly different from the current version. \n\n**Data preparation**: download and extract ImageNet images from http:\u002F\u002Fimage-net.org\u002F. The directory structure should be\n\n```\n│ILSVRC2012\u002F\n├──train\u002F\n│  ├── n01440764\n│  │   ├── n01440764_10026.JPEG\n│  │   ├── n01440764_10027.JPEG\n│  │   ├── ......\n│  ├── ......\n├──val\u002F\n│  ├── n01440764\n│  │   ├── ILSVRC2012_val_00000293.JPEG\n│  │   ├── ILSVRC2012_val_00002138.JPEG\n│  │   ├── ......\n│  ├── ......\n```\n\n### Evaluation\n\nTo evaluate a pre-trained GFNet model on the ImageNet validation set with a single GPU, run:\n\n```\npython infer.py --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --arch arch_name --model-path \u002Fpath\u002Fto\u002Fmodel\n```\n\n\n### Training\n\n#### ImageNet\n\nTo train GFNet models on ImageNet from scratch, run:\n\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs --arch gfnet-xs --batch-size 128 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F\n```\n\nTo finetune a pre-trained model at higher resolution, run:\n\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs-img384 --arch gfnet-xs --input-size 384 --batch-size 64 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --lr 5e-6 --weight-decay 1e-8 --min-lr 5e-6 --epochs 30 --finetune \u002Fpath\u002Fto\u002Fmodel\n```\n\n#### Transfer Learning Datasets\n\nTo finetune a pre-trained model on a transfer learning dataset, run:\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet_transfer.py  --output_dir logs\u002Fgfnet-xs-cars --arch gfnet-xs --batch-size 64 --data-set CARS --data-path \u002Fpath\u002Fto\u002Fstanford_cars --epochs 1000 --lr 0.0001 --weight-decay 1e-4 --clip-grad 1 --warmup-epochs 5 --finetune \u002Fpath\u002Fto\u002Fmodel \n```\n\n## Visualization\n\nTo have an intuitive understanding of our Global Filter operation, we visualize the learned filters from different layers of GFNet-XS. \n\n![vis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_78a105d9d0bd.png)\n\n## License\nMIT License\n\n## Citation\nIf you find our work useful in your research, please consider citing:\n```\n@inproceedings{rao2021global,\n  title={Global Filter Networks for Image Classification},\n  author={Rao, Yongming and Zhao, Wenliang and Zhu, Zheng and Lu, Jiwen and Zhou, Jie},\n  booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},\n  year = {2021}\n}\n```\n","# 用于图像分类的全局滤波网络\n\n由 [Yongming Rao](https:\u002F\u002Fraoyongming.github.io\u002F)、[Wenliang Zhao](https:\u002F\u002Fwl-zhao.github.io\u002F)、[Zheng Zhu](http:\u002F\u002Fwww.zhengzhu.net\u002F)、[Jiwen Lu](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=TN8uDQoAAAAJ&hl=en&authuser=1)、[Jie Zhou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=6a79aPwAAAAJ&hl=en&authuser=1) 创建\n\n本仓库包含 GFNet（NeurIPS 2021 & T-PAMI）的 PyTorch 实现。\n\n全局滤波网络是一种基于 Transformer 的架构，它以对数线性复杂度在频域中学习长期的空间依赖关系。我们的架构用三个关键操作替换了视觉 Transformer 中的自注意力层：二维离散傅里叶变换、频域特征与可学习全局滤波器之间的逐元素乘法，以及二维逆傅里叶变换。\n\n![intro](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_2a5f9740fcca.gif)\n\n我们的代码基于 [pytorch-image-models](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models) 和 [DeiT](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdeit)。\n\n[[项目页面]](https:\u002F\u002Fgfnet.ivg-research.xyz\u002F) [[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.00645)\n\n## 全局滤波层\n\nGFNet 是一种概念简单但计算高效的架构，由多个堆叠的全局滤波层和前馈网络（FFN）组成。全局滤波层利用高效快速傅里叶变换（FFT）算法，以对数线性的复杂度混合特征图中的 token。该层实现起来非常容易：\n\n```python\nimport torch\nimport torch.nn as nn\nimport torch.fft\n\nclass GlobalFilter(nn.Module):\n    def __init__(self, dim, h=14, w=8):\n        super().__init__()\n        self.complex_weight = nn.Parameter(torch.randn(h, w, dim, 2, dtype=torch.float32) * 0.02)\n\n    def forward(self, x):\n        B, H, W, C = x.shape\n        x = torch.fft.rfft2(x, dim=(1, 2), norm='ortho')\n        weight = torch.view_as_complex(self.complex_weight)\n        x = x * weight\n        x = torch.fft.irfft2(x, s=(H, W), dim=(1, 2), norm='ortho')\n        return x\n\n```\n\n与自注意力机制和空间 MLP 相比，我们的全局滤波层在处理高分辨率特征图时效率更高：\n\n![efficiency](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_6692fe438a2f.png)\n\n## 模型库\n\n我们提供了在 ImageNet 上预训练的 GFNet 模型：\n| 名称 | 架构 | 参数量 | FLOPs | top-1 精确度 | top-5 精确度 | 下载链接 |\n| --- | --- | --- | --- | --- | --- | --- |\n| GFNet-Ti | ```gfnet-ti``` | 7M | 1.3G | 74.6 | 92.2 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F3d0c1579aa524a0a99dd\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1_xrfC7c_ccZnVicYDnrViOA_T1N-xoHI\u002Fview?usp=sharing)|\n| GFNet-XS | ```gfnet-xs``` | 16M | 2.8G | 78.6 | 94.2 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fe0ab5b1583954a1fa9b2\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1paf9gQWdsLXrG58R77yJ3U0FiNINg9xN\u002Fview?usp=sharing)|\n| GFNet-S | ```gfnet-s``` | 25M | 4.5G | 80.0 | 94.9 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fe5561fa070c44d9399bf\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F18aRey_1abWNMmSL7TZQ4WxpplLRCDGEl\u002Fview?usp=sharing)|\n| GFNet-B | ```gfnet-b``` | 43M | 7.9G | 80.7 | 95.1 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F2fbf264597af4d72afb3\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1OncnXYAXpdjZBq4JK5Y3xacIHOIMePQo\u002Fview?usp=sharing)|\n| GFNet-H-Ti | ```gfnet-h-ti``` | 15M | 2.0G | 80.1 | 95.1 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002Fb22dd45eccbe462cbbfb\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1Nrq5sfHD9RklCMl6WkcVrAWI5vSVzwSm\u002Fview?usp=sharing)|\n| GFNet-H-S | ```gfnet-h-s``` | 32M | 4.5G | 81.5 | 95.6 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F5229cb4d1daf48e69675\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1w4d7o1LTBjmSkb5NKzgXBBiwdBOlwiie\u002Fview?usp=sharing)|\n| GFNet-H-B | ```gfnet-h-b``` | 54M | 8.4G | 82.9 | 96.2 | [清华大学云](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F954c5af21e824ba6b40c\u002F?dl=1) \u002F [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1F900_-yPH7GFYfTt60xn4tu5a926DYL0\u002Fview?usp=sharing)|\n\n\n\n## 使用方法\n\n### 需求\n\n- torch>=1.8.0\n- torchvision\n- timm\n\n*注*: 要使用 PyTorch 中的 `rfft2` 和 `irfft2` 函数，需要安装 PyTorch>=1.8.0。虽然 PyTorch 1.6.0 之后就支持复数运算，但 `fft` API 在不同版本间存在细微差异。\n\n**数据准备**: 从 http:\u002F\u002Fimage-net.org\u002F 下载并解压 ImageNet 图片。目录结构应如下所示：\n\n```\n│ILSVRC2012\u002F\n├──train\u002F\n│  ├── n01440764\n│  │   ├── n01440764_10026.JPEG\n│  │   ├── n01440764_10027.JPEG\n│  │   ├── ......\n│  ├── ......\n├──val\u002F\n│  ├── n01440764\n│  │   ├── ILSVRC2012_val_00000293.JPEG\n│  │   ├── ILSVRC2012_val_00002138.JPEG\n│  │   ├── ......\n│  ├── ......\n```\n\n### 评估\n\n要在单个 GPU 上评估预训练的 GFNet 模型在 ImageNet 验证集上的性能，请运行：\n\n```\npython infer.py --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --arch arch_name --model-path \u002Fpath\u002Fto\u002Fmodel\n```\n\n\n### 训练\n\n#### ImageNet\n\n要从头开始在 ImageNet 上训练 GFNet 模型，请运行：\n\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs --arch gfnet-xs --batch-size 128 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F\n```\n\n若需在更高分辨率下微调预训练模型，请运行：\n\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs-img384 --arch gfnet-xs --input-size 384 --batch-size 64 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --lr 5e-6 --weight-decay 1e-8 --min-lr 5e-6 --epochs 30 --finetune \u002Fpath\u002Fto\u002Fmodel\n```\n\n#### 迁移学习数据集\n\n要在迁移学习数据集上微调预训练模型，请运行：\n\n```\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet_transfer.py  --output_dir logs\u002Fgfnet-xs-cars --arch gfnet-xs --batch-size 64 --data-set CARS --data-path \u002Fpath\u002Fto\u002Fstanford_cars --epochs 1000 --lr 0.0001 --weight-decay 1e-4 --clip-grad 1 --warmup-epochs 5 --finetune \u002Fpath\u002Fto\u002Fmodel \n```\n\n## 可视化\n\n为了更直观地理解我们的全局滤波操作，我们可视化了 GFNet-XS 不同层中学习到的滤波器。\n\n![vis](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_readme_78a105d9d0bd.png)\n\n## 许可证\nMIT 许可证\n\n## 引用\n如果您在研究中使用了我们的工作，请考虑引用以下文献：\n```\n@inproceedings{rao2021global,\n  title={Global Filter Networks for Image Classification},\n  author={Rao, Yongming and Zhao, Wenliang and Zhu, Zheng and Lu, Jiwen and Zhou, Jie},\n  booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},\n  year = {2021}\n}\n```","# GFNet 快速上手指南\n\nGFNet (Global Filter Networks) 是一种基于频域操作的 Transformer 风格架构，通过二维离散傅里叶变换（2D DFT）和可学习的全局滤波器来捕捉长程空间依赖，具有对数线性复杂度，在处理高分辨率图像时效率显著。\n\n## 环境准备\n\n### 系统要求\n- **Python**: 建议 3.7+\n- **PyTorch**: >= 1.8.0 (必须，以支持 `rfft2` 和 `irfft2` API)\n- **GPU**: 推荐用于训练和推理（支持 CUDA）\n\n### 前置依赖\n请确保安装以下核心库：\n- `torch`\n- `torchvision`\n- `timm` (pytorch-image-models)\n\n> **注意**：虽然 PyTorch 1.6.0+ 支持复数运算，但本项目使用的 FFT API 接口在 1.8.0 版本中才稳定，请务必升级。\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet.git\n   cd GFNet\n   ```\n\n2. **安装依赖**\n   建议使用国内镜像源加速安装（如清华源）：\n   ```bash\n   pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n   pip install timm -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n   ```\n   *(注：`cu118` 请根据你的实际 CUDA 版本调整，若无 GPU 可移除 `--index-url` 部分或使用 cpu 版本)*\n\n3. **准备数据集 (ImageNet)**\n   下载 ImageNet 数据集并解压，目录结构需如下所示：\n   ```text\n   ILSVRC2012\u002F\n   ├── train\u002F\n   │   ├── n01440764\u002F\n   │   │   ├── n01440764_10026.JPEG\n   │   │   └── ...\n   ├── val\u002F\n   │   ├── n01440764\u002F\n   │   │   ├── ILSVRC2012_val_00000293.JPEG\n   │   │   └── ...\n   ```\n\n## 基本使用\n\n### 1. 模型推理 (Evaluation)\n使用预训练模型在 ImageNet 验证集上进行单卡推理测试。\n\n```bash\npython infer.py --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --arch gfnet-xs --model-path \u002Fpath\u002Fto\u002Fmodel_checkpoint.pth\n```\n*请将 `\u002Fpath\u002Fto\u002F...` 替换为实际的数据集路径和下载的模型权重路径。*\n\n### 2. 从头训练 (Training)\n在 ImageNet 上从头训练 GFNet-XS 模型（默认使用 8 张 GPU 分布式训练）：\n\n```bash\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs --arch gfnet-xs --batch-size 128 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F\n```\n\n### 3. 微调高分辨率模型 (Finetune)\n加载预训练权重，在更高分辨率（如 384x384）下进行微调：\n\n```bash\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet.py  --output_dir logs\u002Fgfnet-xs-img384 --arch gfnet-xs --input-size 384 --batch-size 64 --data-path \u002Fpath\u002Fto\u002FILSVRC2012\u002F --lr 5e-6 --weight-decay 1e-8 --min-lr 5e-6 --epochs 30 --finetune \u002Fpath\u002Fto\u002Fpretrained_model.pth\n```\n\n### 4. 迁移学习 (Transfer Learning)\n在其他数据集（如 Stanford Cars）上进行微调：\n\n```bash\npython -m torch.distributed.launch --nproc_per_node=8 --use_env main_gfnet_transfer.py  --output_dir logs\u002Fgfnet-xs-cars --arch gfnet-xs --batch-size 64 --data-set CARS --data-path \u002Fpath\u002Fto\u002Fstanford_cars --epochs 1000 --lr 0.0001 --weight-decay 1e-4 --clip-grad 1 --warmup-epochs 5 --finetune \u002Fpath\u002Fto\u002Fpretrained_model.pth\n```\n\n---\n**预训练模型下载**：\n项目提供多种规格模型（Ti, XS, S, B 等），推荐优先使用**清华云盘**链接下载以获得更快速度。具体链接请参考原项目 README 中的 \"Model Zoo\" 表格。","某医疗影像初创团队正在开发一套高分辨率肺部 CT 结节自动筛查系统，需要在有限的服务器资源下实现对 4K 级别医学图像的实时分类。\n\n### 没有 GFNet 时\n- **显存爆炸难以训练**：采用传统 Vision Transformer 处理高分辨率 CT 切片时，自注意力机制的计算复杂度随图像尺寸平方级增长，导致单卡显存迅速溢出，无法直接训练大尺寸输入。\n- **推理延迟过高**：为了满足显存限制被迫将图像压缩至低分辨率，不仅丢失了微小结节的纹理细节，且复杂的注意力计算导致单张图像推理耗时超过 200ms，无法满足临床实时辅助诊断需求。\n- **长程依赖捕捉不足**：若改用普通卷积网络（CNN）虽能降低算力消耗，但受限于局部感受野，难以有效关联病灶与周围组织的全球上下文信息，导致假阳性率居高不下。\n\n### 使用 GFNet 后\n- **高效处理高分辨率**：GFNet 利用快速傅里叶变换（FFT）在频域进行全局滤波，将对数线性复杂度引入架构，使得团队能够直接在原生高分辨率下训练模型，显存占用降低约 60%。\n- **实时推理性能提升**：得益于频域元素乘法的极高效率，模型在同等硬件上的推理速度提升 3 倍以上，单张图像处理时间缩短至 50ms 以内，实现了流畅的实时筛查体验。\n- **全局特征精准捕获**：通过可学习的全局滤波器，GFNet 在不增加额外计算负担的前提下，完美保留了图像的全局空间依赖关系，显著提升了微小结节的识别准确率，Top-1 精度提升 4.5%。\n\nGFNet 通过频域全局滤波技术，成功打破了高分辨率医学影像分析中精度与效率不可兼得的瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fraoyongming_GFNet_4af8fc87.png","raoyongming","Yongming Rao","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fraoyongming_8996ae72.jpg",null,"Tencent","raoyongming95@gmail.com","https:\u002F\u002Fraoyongming.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fraoyongming",[84,88],{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",84.5,{"name":89,"color":90,"percentage":91},"Python","#3572A5",15.5,508,45,"2026-03-28T04:06:56","MIT","未说明","训练示例显示需要多卡环境 (8 GPU)，具体型号和显存未说明，但需支持 CUDA 以运行 PyTorch",{"notes":99,"python":96,"dependencies":100},"必须使用 PyTorch 1.8.0 或更高版本以支持 rfft2 和 irfft2 函数。代码基于 pytorch-image-models 和 DeiT 项目。训练示例命令使用了 torch.distributed.launch，表明支持分布式多 GPU 训练。数据集需手动下载并整理为 ImageNet (ILSVRC2012) 标准格式。",[101,102,103],"torch>=1.8.0","torchvision","timm",[14,26,13],[106,107,108,109,110],"vision-transformer","image-classification","computer-vision","deep-learning","image-recognition","2026-03-27T02:49:30.150509","2026-04-06T05:32:15.016956",[114,119,124,129,134,139],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},12506,"GFNet 是否支持灵活的输入尺寸？如何修改代码以适配不同大小的输入？","是的，可以通过插值（interpolate）动态调整权重尺寸来支持灵活输入。在 `GlobalFilter` 的 forward 函数中，检查权重形状与输入形状是否匹配，如果不匹配，则使用 `F.interpolate` 对权重进行双线性插值。参考代码如下：\nif not weight.shape[1:3] == x.shape[2:4]:\n    weight = F.interpolate(weight.permute(3,0,1,2), size=x.shape[2:4], mode='bilinear', align_corners=False).permute(1,2,3,0)\n此外，也可以参考 HorNet 项目中的对象检测模型实现，该模型专为任意输入尺寸设计。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F16",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},12507,"如何将 GFNet 的全球滤波器（Global Filter）扩展用于 3D 数据？","可以将 2D 傅里叶变换扩展为 3D。对于 3D 数据，使用 `torch.fft.irfftn` 进行逆变换，并指定相应的维度。代码示例如下：\nx = torch.fft.irfftn(x, s=(H, W, D), dim=(1, 2, 3), norm='ortho')\n维护者确认这种针对 3D 数据（H, W, D 维度）的修改方法是正确的。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F30",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},12508,"GFNet 中全局滤波器的复杂度（FLOPs）是如何计算的？","根据官方回复，对于长度为 N 的复数信号，FFT 需要 N\u002F2 log N 次复数乘法。对于 2D rFFT，复杂度计算涉及沿 H 维度的实数信号 1D FFT 和沿 W 维度的复数信号 1D FFT。具体换算为实数乘法时（1 次复数乘法=4 次实数乘法）：\n- rFFT 复杂度约为：HWD * log(HW)\n- Global Filter 复杂度约为：2HWD\n- irFFT 复杂度约为：HWD * log(HW)\n请注意，理论复杂度可能与 GPU 实际实现存在差异，详细的大 O 符号表示已在论文的最新版本（arXiv v2）表 1 中更新。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F12",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},12509,"代码中的 `fp32fft` 选项有什么作用？现在还需要使用吗？","该选项是早期实验遗留的代码，用于在使用 FFT 函数前将输入转换为 float32。由于 PyTorch 的 FFT 函数本身不支持 float16 (complex fp16) 输入，因此在使用 FFT 时必须确保输入为 fp32 或 fp64。维护者已确认正确的做法始终是转换输入类型，并已在最新代码中移除了 `fp32fft` 选项以避免混淆。用户直接使用最新代码即可，无需手动处理此选项。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F2",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},12510,"加载预训练的 ImageNet 权重时出现 'Missing key(s)' 或 'Unexpected key(s)' 错误怎么办？","这通常是因为保存的权重字典中包含额外的键（如 \"model\"），或者模型定义与权重结构不完全匹配。解决方法是在加载状态字典时，先提取权重字典中的实际模型部分。例如，如果报错显示 \"Unexpected key(s): 'model'\"，则应使用以下代码加载：\nstate_dict = torch.load(weightpath)['model']\nmodel.load_state_dict(state_dict)\n如果仍有缺失键，请确保使用的代码版本与预训练权重对应的架构版本一致。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F33",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},12511,"项目是否提供了可视化代码？如果运行报错该如何解决？","项目已添加可视化代码 `viz_freq.ipynb`。如果在运行时遇到问题，首先检查软件版本限制。维护者建议用户提供具体的错误信息以便排查。通常这类问题与环境依赖或版本不兼容有关，确保安装了正确版本的 PyTorch 和相关绘图库（如 matplotlib）通常能解决问题。","https:\u002F\u002Fgithub.com\u002Fraoyongming\u002FGFNet\u002Fissues\u002F8",[]]