[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-facebookresearch--dadaptation":3,"tool-facebookresearch--dadaptation":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":89,"env_os":76,"env_gpu":90,"env_ram":90,"env_deps":91,"category_tags":95,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":96,"updated_at":97,"faqs":98,"releases":129},7451,"facebookresearch\u002Fdadaptation","dadaptation","D-Adaptation for SGD, Adam and AdaGrad","dadaptation 是一个专为深度学习设计的开源优化器库，支持 SGD、Adam 和 AdaGrad 等主流算法。它的核心突破在于实现了“免学习率”训练：用户无需再为寻找最佳学习率而进行繁琐的调参实验，只需将学习率参数设为 1.0，dadaptation 即可在训练过程中自动估算并动态调整合适的学习率大小。\n\n这一特性有效解决了深度学习中学习率敏感难调、不同任务需反复试错的痛点，显著降低了模型训练的门槛和时间成本。dadaptation 特别适合 AI 研究人员、算法工程师及深度学习开发者使用，尤其是在处理计算机视觉、自然语言处理等复杂模型（如 Transformer、ResNet）时表现优异。\n\n其技术亮点包括：支持逐层学习率缩放（layer-wise scaling），允许不同网络层以不同速率学习；兼容 AdamW 风格的解耦权重衰减，有助于缓解过拟合；并提供详细的日志记录，方便监控自适应学习率的实时变化。此外，项目团队还推出了进阶版本 Prodigy，理论上能更快速地提升学习率估计效率。作为已在 ICML 2023 发表论文的成熟方案，dadaptation 提供了即插即用的","dadaptation 是一个专为深度学习设计的开源优化器库，支持 SGD、Adam 和 AdaGrad 等主流算法。它的核心突破在于实现了“免学习率”训练：用户无需再为寻找最佳学习率而进行繁琐的调参实验，只需将学习率参数设为 1.0，dadaptation 即可在训练过程中自动估算并动态调整合适的学习率大小。\n\n这一特性有效解决了深度学习中学习率敏感难调、不同任务需反复试错的痛点，显著降低了模型训练的门槛和时间成本。dadaptation 特别适合 AI 研究人员、算法工程师及深度学习开发者使用，尤其是在处理计算机视觉、自然语言处理等复杂模型（如 Transformer、ResNet）时表现优异。\n\n其技术亮点包括：支持逐层学习率缩放（layer-wise scaling），允许不同网络层以不同速率学习；兼容 AdamW 风格的解耦权重衰减，有助于缓解过拟合；并提供详细的日志记录，方便监控自适应学习率的实时变化。此外，项目团队还推出了进阶版本 Prodigy，理论上能更快速地提升学习率估计效率。作为已在 ICML 2023 发表论文的成熟方案，dadaptation 提供了即插即用的 PyTorch 优化器类，帮助开发者更专注于模型架构设计而非超参数微调。","# D-Adaptation\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_150dfe653354.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdadaptation) [![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_150dfe653354.png\u002Fmonth)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdadaptation)\n\nLearning rate free learning for SGD, AdaGrad and Adam! \n\n*by Aaron Defazio and Konstantin Mishchenko [(Arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07733)*\n\n``` pip install dadaptation ```\n\n**NEW V3.0 release uses an improved algorithm that may give different results from past versions. The old version is still availiable under experimental\u002Fd_adapt_adam_preprint.**\n\n## NEW: Prodigy\nWe have recently released the [Prodigy](https:\u002F\u002Fgithub.com\u002Fkonstmish\u002Fprodigy) method, which grows the adapted learning rate faster than D-Adaptation in theory and practice. Try it out if D-Adaptation is under-estimating the learning rate.\n\n## How To Cite\nIf you use D-Adaptation in a publication, please cite our work as \n```\n@ARTICLE{defazio2023dadapt,\nauthor = {Aaron Defazio and Konstantin Mishchenko},\ntitle = {Learning-Rate-Free Learning by D-Adaptation},\njournal = {The 40th International Conference on Machine Learning (ICML 2023)},\nyear = {2023}\n}\n```\n\n## Details\n\nThe provided Pytorch Optimizer classes are drop-in replacements, either copy into your project or use via pip with dadaptation.DAdaptSGD,  dadaptation.DAdaptAdam or dadaptation.DAdaptAdaGrad.\n\n - **Set the LR parameter to 1.0**. This parameter is not ignored. Setting it larger to smaller will directly scale up or down the D-Adapted learning rate estimate.\n - Different per-layer learning rates can be achieved by setting the layer_scale value in each parameter-group. It defaults to 1.0, and scales each layer's learning rate relative to the other layers.\n - **Use the same learning rate scheduler you would normally use on the problem.**\n - The Adam variant supports AdamW style weight decay, just set decouple=True. It is not turned on by default, so if you are replacing your adam implementation, make sure you use decoupled if necessary.\n - It may be necessary to use larger weight decay than you would normally use, try a factor of 2 or 4 bigger if you see overfitting. D-Adaptation uses larger learning rates than people typically hand-choose, in some cases that requires more decay.\n - Use the log_every setting to see the learning rate being used (d*lr) and the current D bound.\n - Only the AdaGrad version supports sparse gradients. It does not adapt as efficiently as the other variants and should be considered experimental.\n \n## Change Log\n\n### Version 3.2\n - Added support for layer-wise scaling to DAdaptAdam.\n\n### Version 3.0\n - Major improvements to DAdaptAdam, improving the performance particularly on Transformer models. This variant may behave differently in practice. The old version is availiable under experimental\u002Fd_adapt_adam_preprint if you wish to continue to use it.\n - The IP variant is now the main variant of the method.\n - Added Lion. This is highly experimental. Feedback on it's performance is welcome.\n\n### Version 2.0\n - Added Adan - should still be considered experimental.\n - Added support for PyTorch's Fully Sharded Data Parallel. \n - Improved support of edge cases such as learning rate zero.\n - Improved logging - uses Python logging rather than print statements\n\n # Experimental results\n\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_26070e41e9c3.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_67f8702e6c10.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_c640fcba9531.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f26bb00b4530.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_b28ff662255c.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f75ca575a6c5.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_e339984bd70e.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_8ae10d404e14.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_c8842e459a07.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f80e9a90c0eb.png)\n\n# License\nSee the [License file](\u002FLICENSE).\n","# D-Adaptation\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_150dfe653354.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdadaptation) [![月下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_150dfe653354.png\u002Fmonth)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fdadaptation)\n\n适用于 SGD、AdaGrad 和 Adam 的无学习率优化！\n\n*作者：Aaron Defazio 和 Konstantin Mishchenko [(Arxiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.07733)*\n\n``` pip install dadaptation ```\n**全新 V3.0 版本采用了改进的算法，可能与旧版本产生不同的结果。旧版本仍可在 experimental\u002Fd_adapt_adam_preprint 中找到。**\n\n## 新功能：Prodigy\n我们最近发布了 [Prodigy](https:\u002F\u002Fgithub.com\u002Fkonstmish\u002Fprodigy) 方法，该方法在理论和实践上都能比 D-Adaptation 更快地增长自适应学习率。如果 D-Adaptation 低估了学习率，请尝试使用 Prodigy。\n\n## 如何引用\n如果您在论文或其他出版物中使用了 D-Adaptation，请按以下方式引用我们的工作：\n```\n@ARTICLE{defazio2023dadapt,\nauthor = {Aaron Defazio and Konstantin Mishchenko},\ntitle = {通过 D-Adaptation 实现无学习率优化},\njournal = {第40届国际机器学习大会 (ICML 2023)},\nyear = {2023}\n}\n```\n\n## 详细信息\n\n提供的 PyTorch 优化器类可以直接替换现有优化器，您可以将其复制到项目中，或通过 `pip install dadaptation` 使用 `dadaptation.DAdaptSGD`、`dadaptation.DAdaptAdam` 或 `dadaptation.DAdaptAdaGrad`。\n\n - **将 LR 参数设置为 1.0**。此参数不会被忽略。将其调大或调小会直接放大或缩小 D-Adapted 学习率估计值。\n - 可以为每个参数组设置 `layer_scale` 值来实现不同层的学习率。默认值为 1.0，它会根据其他层的比例缩放每一层的学习率。\n - **使用您通常用于该问题的学习率调度器。**\n - Adam 变体支持 AdamW 风格的权重衰减，只需设置 `decouple=True` 即可。默认情况下未启用，因此如果您正在替换现有的 Adam 实现，请确保在必要时使用解耦式权重衰减。\n - 可能需要使用比平时更大的权重衰减，如果出现过拟合，可以尝试将其增大 2 倍或 4 倍。D-Adaptation 使用的学习率通常比人工选择的要高，在某些情况下这需要更强的权重衰减。\n - 使用 `log_every` 设置查看当前使用的学习率（d*lr）以及当前的 D 上界。\n - 只有 AdaGrad 版本支持稀疏梯度。其自适应效率不如其他变体，应被视为实验性功能。\n\n## 更新日志\n\n### 版本 3.2\n - 为 DAdaptAdam 添加了分层缩放支持。\n\n### 版本 3.0\n - 对 DAdaptAdam 进行了重大改进，特别是在 Transformer 模型上的性能有所提升。该变体在实际应用中可能表现不同。如果您希望继续使用旧版本，可以在 experimental\u002Fd_adapt_adam_preprint 中找到。\n - IP 变体现在是该方法的主要变体。\n - 添加了 Lion。此功能目前处于高度实验阶段，欢迎提供性能反馈。\n\n### 版本 2.0\n - 添加了 Adan——仍应视为实验性功能。\n - 添加了对 PyTorch 全切片数据并行的支持。\n - 改进了对边缘情况（如学习率为零）的支持。\n - 改进了日志记录——使用 Python 日志模块而非 print 语句。\n\n # 实验结果\n\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_26070e41e9c3.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_67f8702e6c10.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_c640fcba9531.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f26bb00b4530.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_b28ff662255c.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f75ca575a6c5.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_e339984bd70e.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_8ae10d404e14.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_c8842e459a07.png)\n![vision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_readme_f80e9a90c0eb.png)\n\n # 许可证\n请参阅 [许可证文件](\u002FLICENSE)。","# D-Adaptation 快速上手指南\n\nD-Adaptation 是一种无需手动设置学习率的优化算法，适用于 SGD、AdaGrad 和 Adam。它能自动调整学习率，简化超参数调优过程。\n\n## 环境准备\n\n- **系统要求**：Linux, macOS, Windows\n- **前置依赖**：\n  - Python >= 3.7\n  - PyTorch >= 1.8\n  - 建议安装最新的 `pip` 版本以确保兼容性\n\n## 安装步骤\n\n推荐使用国内镜像源加速安装（如清华源）：\n\n```bash\npip install dadaptation -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n或者使用官方源安装：\n\n```bash\npip install dadaptation\n```\n\n> **注意**：v3.0 及以上版本使用了改进的算法，性能更优但行为可能与旧版本不同。如需使用旧版 Adam 实现，可参考项目中的 `experimental\u002Fd_adapt_adam_preprint` 目录。\n\n## 基本使用\n\nD-Adaptation 提供的优化器类可直接替换 PyTorch 原生优化器。核心要点是将学习率 (`lr`) 设置为 **1.0**，算法会自动估算实际步长。\n\n### 1. 替换 Adam 优化器\n\n```python\nfrom dadaptation import DAdaptAdam\n\n# 原代码：optimizer = torch.optim.Adam(model.parameters(), lr=0.001)\n# 新代码：\noptimizer = DAdaptAdam(model.parameters(), lr=1.0, decouple=True) \n# 注意：若需权重衰减，请设置 decouple=True (类似 AdamW)\n```\n\n### 2. 替换 SGD 优化器\n\n```python\nfrom dadaptation import DAdaptSGD\n\n# 原代码：optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)\n# 新代码：\noptimizer = DAdaptSGD(model.parameters(), lr=1.0, momentum=0.9)\n```\n\n### 3. 替换 AdaGrad 优化器\n\n```python\nfrom dadaptation import DAdaptAdaGrad\n\n# 仅 AdaGrad 变体支持稀疏梯度\noptimizer = DAdaptAdaGrad(model.parameters(), lr=1.0)\n```\n\n### 4. 配合学习率调度器\n\n您可以继续使用原本的学习率调度器（Scheduler），用法不变：\n\n```python\nscheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100)\n\n# 训练循环中\nfor epoch in range(100):\n    train(...)\n    scheduler.step()\n```\n\n### 5. 监控学习率\n\n在训练过程中，可以通过设置 `log_every` 参数查看当前估算的学习率（`d*lr`）和 D 边界值：\n\n```python\noptimizer = DAdaptAdam(model.parameters(), lr=1.0, log_every=100)\n```\n\n### 进阶提示\n- **权重衰减**：D-Adaptation 通常使用较大的学习率，若发现过拟合，尝试将权重衰减 (`weight_decay`) 设置为常规值的 2 到 4 倍。\n- **分层学习率**：可通过在参数组中设置 `layer_scale` 来实现不同层的学习率缩放（默认为 1.0）。","某初创团队正在训练一个基于 Transformer 架构的垂直领域大语言模型，面临超参数调优耗时过长的问题。\n\n### 没有 dadaptation 时\n- **学习率摸索成本极高**：工程师需花费数天时间进行网格搜索，反复尝试不同的初始学习率，稍有不慎就会导致模型发散或收敛极慢。\n- **多阶段训练繁琐**：为了适应训练过程中的动态变化，必须精心设计复杂的学习率调度策略（Scheduler），增加了代码维护难度。\n- **资源浪费严重**：大量的 GPU 算力被消耗在无效的试错实验上，而非用于实质性的模型迭代，拖慢了产品上线进度。\n- **泛化能力受限**：人工设定的固定学习率往往难以适配所有网络层，导致部分层级欠拟合或过拟合，影响最终模型效果。\n\n### 使用 dadaptation 后\n- **实现“零”学习率调优**：直接将优化器替换为 `DAdaptAdam` 并将学习率设为 1.0，算法自动根据梯度动态估算最佳步长，彻底免除了手动调参过程。\n- **简化训练流程**：无需再设计复杂的预热或衰减策略，dadaptation 能自适应地调整全局及分层学习率，显著降低了工程复杂度。\n- **大幅提升实验效率**：省去了漫长的超参数搜索环节，团队可将原本用于调参的 GPU 资源全部投入模型结构创新，研发周期缩短 50% 以上。\n- **增强模型稳定性**：得益于更智能的自适应机制，模型在训练初期更稳定，且能自动平衡各层级的更新幅度，最终收敛精度往往优于人工调优结果。\n\ndadaptation 的核心价值在于将深度学习从繁琐的“手工调参”时代推进到“自适应优化”时代，让开发者专注于模型本身而非超参数。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffacebookresearch_dadaptation_26070e41.png","facebookresearch","Meta Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffacebookresearch_449342bd.png","",null,"https:\u002F\u002Fopensource.fb.com","https:\u002F\u002Fgithub.com\u002Ffacebookresearch",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,531,24,"2026-04-10T04:56:45","MIT",1,"未说明",{"notes":92,"python":90,"dependencies":93},"该工具是 PyTorch 优化器的即插即用替代品（如 DAdaptSGD, DAdaptAdam）。安装后需将学习率（LR）参数显式设置为 1.0。Adam 变体支持解耦权重衰减（需设置 decouple=True）。仅 AdaGrad 版本支持稀疏梯度（实验性）。建议使用与常规任务相同的学习率调度器。若出现过拟合，可能需要比平时更大的权重衰减（2-4 倍）。",[94],"torch",[14],"2026-03-27T02:49:30.150509","2026-04-14T20:49:44.963595",[99,104,109,114,119,124],{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},33433,"D-Adaptation 是否支持 DyLoRA（动态低秩适应）？如果默认参数无效该怎么办？","目前的 D-Adaptation 算法在使用 DyLoRA 时可能效果不佳，因为默认参数（如 d0=1e-6）不会动态调整。维护者建议尝试该项目的新版本优化器 **Prodigy**，它在参数高效微调方面取得了进展，可能更好地解决此类问题。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F24",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},33434,"如何将 Lion 优化器与 D-Adaptation 结合使用？遇到 Loss 变为 NaN 或不稳定该如何解决？","Lion 对学习率非常敏感，结合 D-Adaptation 时若出现 Loss 变为 NaN 或训练不稳定，建议采取以下措施：\n1. **必须使用学习率预热（Warmup）**：这是稳定训练的关键。\n2. **增加批量大小（Batch Size）**：建议使用梯度累积（Gradient Accumulation）将有效 batch size 提升至 64 或以上。\n3. **调度器选择**：配合使用带有预热的余弦退火（Cosine Decay with Warmup）调度器。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F20",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},33435,"在 Stable Diffusion 训练中使用 Dadapt Lion 导致模型变成噪声或无法学习，如何解决？","如果在 Stable Diffusion 训练中发现 Dadapt Lion 导致模型迅速崩溃（变噪声）或完全不学习：\n1. **检查配置错误**：确认是否错误地启用了类似 dadapt_adam 的 decouple 选项，这可能导致 NaN。\n2. **实现差异**：有用户反馈修改源码中 `numerator_acum` 使用 `update` 而状态 `s` 使用 `grad` 可能会影响收敛，但官方表示目前缺乏 Lion 的理论支持来确定最佳步长估计方式，建议先保持默认实现。\n3. **环境重置**：有时重新安装相关依赖包可能解决不明原因的不工作问题。如果问题依旧，建议暂时回退到表现更稳定的 dadapt_adam。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F35",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},33436,"使用 D-Adaptation 训练时遇到 'ZeroDivisionError: float division by zero' 错误怎么办？","该错误通常发生在初始学习率为 0 时。维护者已在主分支（main branch）的最新代码中添加了一个条件判断，当学习率为 0 时会跳过导致除零错误的计算行。**解决方案是更新到仓库的最新代码版本**。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F4",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},33437,"遇到 '\u003C' not supported between instances of 'float' and 'complex' 错误（涉及复数梯度）如何解决？","当处理涉及复数梯度的数据集（如 Geo-FNO）时，可能会在计算 `d = max(d, min(d_hat, d*growth_rate))` 时出错。解决方案如下：\n1. **降低 growth_rate**：默认的 growth_rate 可能过高，尝试将其设置为 **1.2**。\n2. **添加学习率预热（Warmup）**：D-Adaptation 在优化初期可能不稳定，预热有助于缓解此问题。\n3. **代码更新**：确保使用的是已添加复数支持的最新版本代码。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F10",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},33438,"官方示例图像中的训练配置是多少？每个 Epoch 包含多少个 Step？","不同数据集的每个 Epoch 包含的 Step 数量差异很大，并非统一标准。根据维护者提供的日志数据，各数据集的 Steps per Epoch 如下：\n- IWSLT14: 1101\n- GPT: 62820\n- Bert: 3935\n- DLRM: 3061\n- MRI: 4343\n- COCO: 7329\n- CIFAR-10: 390\n- CIFAR-100: 781\n- ImageNet: 5005\n建议参考具体数据集的实际大小来设定预期，而非强制统一到某个固定数值。","https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdadaptation\u002Fissues\u002F25",[]]