[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-facebookresearch--madgrad":3,"tool-facebookresearch--madgrad":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",152630,2,"2026-04-12T23:33:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":88,"env_os":75,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":94,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":95,"updated_at":96,"faqs":97,"releases":138},7073,"facebookresearch\u002Fmadgrad","madgrad","MADGRAD Optimization Method","MADGRAD 是一款专为深度学习设计的随机优化算法，旨在解决传统优化器在收敛速度与泛化能力之间难以兼顾的痛点。它巧妙融合了动量机制、自适应调整及双重平均梯度技术，既拥有 SGD（随机梯度下降）出色的泛化性能，又具备媲美甚至超越 Adam 的快速收敛速度。\n\n该工具特别适合从事计算机视觉与自然语言处理研究的开发者及科研人员。无论是训练图像分类模型、图像生成任务，还是构建 Transformer 等大规模语言模型，MADGRAD 均能表现优异。其独特亮点在于提供了标准版与镜像下降版（Mirror MADGRAD）两种实现：前者适用于需要强泛化能力的场景，后者则在大规模数据集训练中表现更为卓越，且无需像标准版那样大幅调整权重衰减参数。\n\n使用上，MADGRAD 对 PyTorch 用户极为友好，支持通过 pip 直接安装或作为单文件嵌入项目，也可无缝集成至 FairSeq 框架。不过需要注意的是，由于算法特性，使用者通常需要进行学习率搜索以找到最佳参数，部分场景下还需配合梯度裁剪使用。作为一款开源成果，MADGRAD 为追求高效训练与优异测试性能的团队提供了一个强有力的新选择。","\n# MADGRAD Optimization Method\n\nA Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization\n\nDocumentation available at https:\u002F\u002Fmadgrad.readthedocs.io\u002Fen\u002Flatest\u002F.\n\n\n``` pip install madgrad ```\n\nTry it out! A best-of-both-worlds optimizer with the generalization performance of SGD and at least as fast convergence as that of Adam, often faster. A drop-in torch.optim implementation `madgrad.MADGRAD` is provided, as well as a FairSeq wrapped instance. For FairSeq, just import madgrad anywhere in your project files and use the `--optimizer madgrad` command line option, together with `--weight-decay`, `--momentum`, and optionally `--madgrad_eps`.\n\nThe madgrad.py file containing the optimizer can be directly dropped into any PyTorch project if you don't want to install via pip. If you are using fairseq, you need the acompanying fairseq_madgrad.py file as well.\n\n## Things to note:\n - You may need to use a lower weight decay than you are accustomed to. Often 0.\n - You should do a full learning rate sweep as the optimal learning rate will be different from SGD or Adam. Best LR values we found were 2.5e-4 for 152 layer PreActResNet on CIFAR10, 0.001 for ResNet-50 on ImageNet, 0.025 for IWSLT14 using `transformer_iwslt_de_en` and 0.005 for RoBERTa training on BookWiki using `BERT_BASE`. On NLP models gradient clipping also helped.\n\n# Mirror MADGRAD\nThe mirror descent version of MADGRAD is also included as `madgrad.MirrorMADGRAD`. This version works extremely well, even better than MADGRAD, on large-scale transformer training. This version is recommended for any problem where the datasets are big enough that generalization gap is not an issue.\n\nAs the mirror descent version does not implicitly regularize, you can usually use weight\ndecay values that work well with other optimizers.\n\n# Tech Report\n\n[Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11075)\n\nWe introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-masked models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.\n\n\n```BibTeX\n@misc{defazio2021adaptivity,\n      title={Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization}, \n      author={Aaron Defazio and Samy Jelassi},\n      year={2021},\n      eprint={2101.11075},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG}\n}\n```\n\n# Results\n\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_madgrad_readme_8eee960bbd8d.png)\n![nlp](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_madgrad_readme_c7f9a0977384.png)\n\n# License\n\nMADGRAD is licensed under the [MIT License](LICENSE).\n","# MADGRAD 优化方法\n\n一种用于随机优化的动量化、自适应、对偶平均梯度方法\n\n文档可在 https:\u002F\u002Fmadgrad.readthedocs.io\u002Fen\u002Flatest\u002F 获取。\n\n\n``` pip install madgrad ```\n\n立即试用！这是一种兼具两全其美的优化器，它拥有与 SGD 相当的泛化性能，且收敛速度至少不逊于 Adam，通常甚至更快。我们提供了一个可直接替换 torch.optim 的实现 `madgrad.MADGRAD`，以及一个封装在 FairSeq 中的实例。对于 FairSeq，只需在项目文件中的任意位置导入 madgrad，并使用命令行选项 `--optimizer madgrad`，同时配合 `--weight-decay`、`--momentum`，以及可选的 `--madgrad_eps`。\n\n如果您不想通过 pip 安装，也可以将包含该优化器的 `madgrad.py` 文件直接放入任何 PyTorch 项目中。如果您使用 FairSeq，则还需要配套的 `fairseq_madgrad.py` 文件。\n\n## 注意事项：\n - 您可能需要使用比平时更低的权重衰减值，很多时候设为 0 即可。\n - 建议进行全面的学习率搜索，因为最佳学习率会与 SGD 或 Adam 不同。我们发现的最佳学习率包括：CIFAR10 数据集上 152 层 PreActResNet 的 2.5e-4，ImageNet 上 ResNet-50 的 0.001，使用 `transformer_iwslt_de_en` 模型的 IWSLT14 数据集上的 0.025，以及在 BookWiki 数据集上训练 RoBERTa 模型时使用 `BERT_BASE` 的 0.005。此外，在 NLP 模型中，梯度裁剪也有帮助。\n\n# 镜像 MADGRAD\nMADGRAD 的镜像下降版本也一并提供，名为 `madgrad.MirrorMADGRAD`。该版本在大规模 Transformer 训练中表现尤为出色，甚至优于 MADGRAD。对于数据集足够大、泛化差距不是主要问题的任务，推荐使用此版本。\n\n由于镜像下降版本不会进行隐式正则化，因此您可以通常使用与其他优化器兼容的权重衰减值。\n\n# 技术报告\n\n[无妥协的自适应性：一种用于随机优化的动量化、自适应、对偶平均梯度方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11075)\n\n我们提出了一种名为 MADGRAD 的新型优化方法，属于 AdaGrad 自适应梯度方法家族。MADGRAD 在多个领域的深度学习优化任务中表现出色，涵盖视觉领域的分类和图像到图像任务，以及自然语言处理中的循环神经网络和双向掩码模型。对于这些任务中的每一项，MADGRAD 在测试集性能上均能与 SGD 和 ADAM 竞争，甚至在传统上自适应方法表现不佳的问题上也能超越它们。\n\n\n```BibTeX\n@misc{defazio2021adaptivity,\n      title={无妥协的自适应性：一种用于随机优化的动量化、自适应、对偶平均梯度方法}, \n      author={Aaron Defazio 和 Samy Jelassi},\n      year={2021},\n      eprint={2101.11075},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG}\n}\n```\n\n# 结果\n\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_madgrad_readme_8eee960bbd8d.png)\n![nlp](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_madgrad_readme_c7f9a0977384.png)\n\n# 许可证\n\nMADGRAD 采用 [MIT 许可证](LICENSE) 许可。","# MADGRAD 快速上手指南\n\nMADGRAD 是一种结合了动量、自适应和双重平均梯度的随机优化方法。它兼具 SGD 的泛化性能和 Adam 的快速收敛速度（甚至更快），是深度学习训练的优秀选择。\n\n## 环境准备\n\n- **系统要求**：支持 Linux、macOS 或 Windows。\n- **前置依赖**：\n  - Python 3.6+\n  - PyTorch 1.7+\n  - (可选) FairSeq：若需在 FairSeq 框架中使用，请确保已安装 fairseq。\n\n## 安装步骤\n\n推荐使用 pip 进行安装。国内用户可使用清华源加速下载：\n\n```bash\npip install madgrad -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n如果不希望通过 pip 安装，也可以直接将项目中的 `madgrad.py` 文件复制到你的 PyTorch 项目目录中。若使用 FairSeq，还需同时复制 `fairseq_madgrad.py`。\n\n## 基本使用\n\n### 1. 在原生 PyTorch 项目中使用\n\n作为 `torch.optim` 的直接替代品，导入并实例化即可：\n\n```python\nfrom madgrad import MADGRAD\n\n# 假设 model 是你的神经网络模型\noptimizer = MADGRAD(model.parameters(), lr=0.001, weight_decay=0, momentum=0.9)\n\n# 后续训练循环与普通用法一致\nfor input, target in dataset:\n    optimizer.zero_grad()\n    output = model(input)\n    loss = loss_fn(output, target)\n    loss.backward()\n    optimizer.step()\n```\n\n**注意**：\n- 建议将 `weight_decay` 设置为较低值（通常为 0）。\n- 需要重新搜索最佳学习率（LR）。参考值：CIFAR10 (ResNet) 约为 `2.5e-4`，ImageNet (ResNet-50) 约为 `0.001`。\n\n### 2. 在 FairSeq 项目中使用\n\n只需在项目的任意文件中导入 `madgrad`，然后在命令行启动训练时指定优化器参数：\n\n```bash\nfairseq-train ... --optimizer madgrad --weight-decay 0 --momentum 0.9 --madgrad-eps 1e-6\n```\n\n### 3. 进阶选项：Mirror MADGRAD\n\n对于大规模 Transformer 训练（如数据集极大，无需担心泛化差距的情况），推荐使用镜像下降版本 `MirrorMADGRAD`，其表现通常优于标准版，且支持常规的 weight decay 设置。\n\n```python\nfrom madgrad import MirrorMADGRAD\n\noptimizer = MirrorMADGRAD(model.parameters(), lr=0.001, weight_decay=0.01)\n```","某计算机视觉团队正在基于 ResNet-50 架构训练一个大规模图像分类模型，目标是快速收敛并在 ImageNet 数据集上获得最高的测试集准确率。\n\n### 没有 madgrad 时\n- **优化器选择两难**：使用 SGD 虽然泛化性能好但收敛缓慢，耗时极长；改用 Adam 虽收敛快，却在最终测试精度上往往不如 SGD，陷入“速度”与“精度”的权衡困境。\n- **调参成本高昂**：为了平衡两者，工程师需要花费数天时间反复调整学习率调度策略和动量参数，尝试寻找所谓的“最佳平衡点”。\n- **训练资源浪费**：由于收敛速度慢或需要更多 epoch 才能达到理想精度，导致 GPU 集群长时间高负荷运转，显著增加了算力成本和碳排放。\n- **特定任务表现不佳**：在某些对自适应方法不友好的视觉任务中，传统自适应优化器容易陷入局部最优，导致模型性能天花板较低。\n\n### 使用 madgrad 后\n- **兼得速度与精度**：madgrad 成功结合了 SGD 的优异泛化能力和 Adam 的快速收敛特性，在更少的训练步数内达到了甚至超越了 SGD 的最终精度。\n- **简化调参流程**：只需进行一次完整的学习率扫描（如设定为 0.001），即可快速锁定最优参数，无需在复杂的超参数组合中盲目试错。\n- **显著提升效率**：模型收敛速度大幅加快，缩短了整体训练周期，使团队能在相同时间内迭代更多实验方案，加速产品落地。\n- **广泛适用性强**：无论是标准的图像分类还是复杂的图像到图像任务，madgrad 均表现出稳定的优越性，尤其在大型 Transformer 训练中配合 MirrorMADGRAD 版本效果更佳。\n\nmadgrad 通过打破传统优化器的性能妥协，让深度学习训练同时实现了“跑得快”和“算得准”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_madgrad_8eee960b.png","facebookresearch","Meta Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffacebookresearch_449342bd.png","",null,"https:\u002F\u002Fopensource.fb.com","https:\u002F\u002Fgithub.com\u002Ffacebookresearch",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,801,58,"2026-03-27T22:37:29","MIT",1,"未说明",{"notes":91,"python":89,"dependencies":92},"该工具是一个 PyTorch 优化器实现，可通过 pip 安装或直接复制 madgrad.py 文件使用。若需与 FairSeq 集成，还需 accompanying fairseq_madgrad.py 文件。使用时需注意：1. 可能需要比习惯更低的权重衰减（常为 0）；2. 必须进行完整的学习率扫描，因为最佳学习率与 SGD 或 Adam 不同；3. 在 NLP 模型上梯度裁剪有帮助；4. 对于大规模 Transformer 训练，推荐使用镜像下降版本 (MirrorMADGRAD)，此时可使用与其他优化器兼容的权重衰减值。",[93],"torch",[14],"2026-03-27T02:49:30.150509","2026-04-13T17:43:05.703280",[98,103,108,113,118,123,128,133],{"id":99,"question_zh":100,"answer_zh":101,"source_url":102},31818,"MADGRAD 是否支持 AdamW 风格的解耦权重衰减（decoupled weight decay）？","是的，维护者已确认这是一种更好的实现方式。建议在代码中调整，将权重衰减从梯度计算中移除，改为在更新参数时直接减去 `learning_rate * weight_decay * param`。此外，对于学习率调度，建议预先使用 2\u002F3 次幂校正调整衰减率，而不是将其硬编码在优化器内部，以避免在学习率降低后缩放错误。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F1",{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},31819,"MADGRAD 可以直接替换 Adam 使用吗？需要注意什么？","MADGRAD 可以作为 Adam 的直接替代品（drop-in replacement），但不能直接使用 Adam 的默认超参数。为了获得最佳效果，必须重新调整学习率（learning rate）和权重衰减（weight decay）。目前官方暂无 TensorFlow\u002FKeras 版本，但社区有第三方实现可供参考。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F6",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},31820,"遇到 GPU 和 CPU 设备不匹配的状态初始化错误（state initialization bug）如何解决？","这是一个已知问题，原因是优化器在 `__init__` 阶段初始化状态时，模型参数可能尚未移动到 GPU，导致张量设备不一致。解决方案是将状态初始化逻辑移至 `step()` 函数内部，并添加 `if len(state) == 0` 的检查。维护者已创建 \"inline\" 分支修复此问题，建议用户更新到该分支或应用相关补丁。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F4",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},31821,"如何将 MADGRAD 用于 Keras 或 TensorFlow 项目？","官方仓库目前仅提供 PyTorch 实现，没有原生的 Keras 或 TensorFlow 版本。如果需要在 Keras 中使用，推荐尝试第三方实现的版本，例如：https:\u002F\u002Fgithub.com\u002FDarshanDeshpande\u002Ftf-madgrad。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F8",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},31822,"如何冻结特定参数组（设置 lr=0.0）而不让其因 eps 参数继续更新？","在旧版本中，即使设置 `lr=0.0`，由于 `eps` 参数的存在，参数仍可能发生微小更新。维护者已确认可以通过修改代码来实现跳过 `lr=0.0` 的参数组。具体做法是在优化步骤中加入判断，如果参数组的学习率为 0，则直接跳过该组的更新逻辑。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F16",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},31823,"MADGRAD 是否有理论上的遗憾分析（regret analysis）或收敛性证明？","官方技术报告提供了随机设置下的收敛速率界限（convergence rate bound），而非严格的在线遗憾分析。详细理论分析可参考论文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.11075。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F7",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},31824,"保存的 v1.1 版本模型在加载到 v1.2 版本时报错 `KeyError: 'decouple_decay'` 怎么办？","这是由于版本升级后参数字典键变化导致的兼容性问题。v1.2 引入了 `decouple_decay` 参数，而旧模型文件中缺失该键。解决方法是修改源码，在读取该参数时使用 `group.get('decouple_decay', reasonable_default)` 代替直接访问，从而为旧模型提供默认值以保持一致性。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F15",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},31825,"MADGRAD 在 CIFAR-100 数据集上的表现如何？","根据社区反馈，在 CIFAR-100 上使用 ResNet18 训练时，若未仔细调参，MADGRAD 的表现可能不如带动量的 SGD（SGDM）。有用户指出，需要针对该数据集专门调整学习率（如 2.5e-3）和权重衰减策略。如果在特定任务上效果不佳，建议对比基线并重新进行超参数搜索。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmadgrad\u002Fissues\u002F14",[]]