grokfast

GitHub
579 50 非常简单 1 次阅读 5天前MIT开发框架
AI 解读 由 AI 自动生成,仅供参考

Grokfast 是一款旨在加速机器学习模型“顿悟”(Grokking)现象的开源优化辅助工具。在深度学习中,模型有时会在长时间完美过拟合训练数据后,突然实现泛化能力的飞跃,这一过程往往耗时极长。Grokfast 正是为了解决这一漫长的等待延迟而生,它能显著缩短模型从过拟合到真正掌握规律的时间。

该工具的核心技术亮点在于将训练过程中的参数梯度视为时间信号,并通过频谱分析将其分解为“快速变化导致过拟合”和“缓慢变化诱导泛化”两个分量。Grokfast 通过简单的几行代码,放大梯度中的低频(慢变)分量,从而在不改变模型架构的前提下,将顿悟过程加速高达 50 倍以上。实验证明,该方法广泛适用于图像、自然语言处理及图神经网络等多种任务场景。

Grokfast 特别适合 AI 研究人员和深度学习开发者使用,尤其是那些正在探索模型泛化机制、希望减少训练成本或复现顿悟现象的专业人士。其集成极为简便,仅需下载单个 Python 文件并在优化器调用前插入一行滤波代码即可生效,无需安装额外的复杂依赖库,让前沿的优化理论能迅速落地于实际实验中。

使用场景

某算法团队正在训练一个小型 Transformer 模型,试图让其在有限的算术运算数据集中掌握泛化规律,但模型陷入了典型的“顿悟(Grokking)”延迟困境。

没有 grokfast 时

  • 训练周期极长:模型在完美过拟合训练数据后,仍需额外运行数万次迭代才能突然实现泛化,严重消耗 GPU 算力资源。
  • 收敛时机难测:由于泛化发生的时间点具有高度随机性和滞后性,工程师难以判断何时停止训练,容易过早放弃或无效空转。
  • 调试成本高昂:漫长的等待过程拉长了实验反馈循环,导致超参数调整和架构验证的效率极低,阻碍研发进度。
  • 资源利用率低:大部分计算时间浪费在梯度更新缓慢的“ plateau"阶段,慢变分量(即指向泛化的信号)被噪声淹没,无法有效引导优化方向。

使用 grokfast 后

  • 加速泛化出现:通过放大梯度中的慢变分量,grokfast 将原本需要数万步的顿悟过程压缩了 50 倍以上,显著缩短训练时间。
  • 训练过程可控:泛化现象在可预测的早期阶段稳定出现,团队能更精准地设定训练终止条件,避免资源浪费。
  • 研发效率飞跃:实验迭代周期从“天”级缩短至“小时”级,研究人员能快速验证不同架构在复杂任务上的泛化潜力。
  • 信号提取增强:即使在小批量或高噪声场景下,grokfast 也能有效分离并增强指向通用规律的梯度信号,让模型更快“开窍”。

grokfast 的核心价值在于将原本不可控的漫长“顿悟”等待,转化为高效、可预期的快速泛化过程,极大提升了模型训练的经济性与可行性。

运行环境要求

操作系统
  • 未说明
GPU
  • 非必需(核心库仅依赖 PyTorch,可运行于 CPU)
  • 复现实验测试环境为单张 GTX 1080 Ti,显存需求视任务而定:算法数据任务约 290-458MB,MNIST 约 196-198MB,IMDb 约 754-762MB,QM9 约 216MB
内存

未说明

依赖
notes核心功能仅需安装 PyTorch,无需其他额外包。若要复现论文中的实验(包括数据预处理和结果汇总),需通过 conda 创建 Python 3.10 环境并安装 requirements.txt 中的依赖。部分实验(如 IMDb)需手动下载数据集。该工具通过在优化器调用前插入几行代码即可加速模型的'grokking'现象。
python3.10 (复现实验环境指定版本)
torch
grokfast hero image

快速开始

Grokfast:通过放大慢梯度加速 Grokking

Jaerin Lee* · Bong Gyun Kang* · Kihoon Kim · Kyoung Mu Lee

首尔国立大学

*表示共同贡献。

项目 ArXiv Github X HFPaper LICENSE

简而言之: 我们通过使用增强型优化器放大参数梯度的低频成分,从而加速了 Grokking 现象

fig2 fig3

摘要: 机器学习中一个令人困惑的现象被称为 Grokking,即在对训练数据几乎完美过拟合之后,经过数十倍的迭代才实现泛化。针对机器学习从业者关注的这种长时间延迟问题,我们的目标是加速处于 Grokking 现象下的模型的泛化过程。我们将训练过程中参数梯度随时间变化的一系列信号视为随机信号,并将其分解为两个成分:快速变化、导致过拟合的成分,以及缓慢变化、促进泛化的成分。基于这一分析,我们仅需几行代码即可放大梯度中的慢速变化成分,从而将 Grokking 现象加速超过 50 倍。实验表明,我们的算法适用于图像、语言和图等多种任务,使得这种突然泛化的奇特现象具有实际应用价值。

fig2 fig3

使用方法

安装

Grokfast 除了 PyTorch 外,无需其他额外依赖包。文件 requirements.txt 仅用于复现文章中的实验,具体说明见下文的 复现部分

指导说明

只需在调用优化器之前插入一行代码,即可应用 Grokfast。

  1. 从我们的仓库下载单个文件 grokfast.py
wget https://raw.githubusercontent.com/ironjr/grokfast/main/grokfast.py
  1. 导入辅助函数。
from grokfast import gradfilter_ma, gradfilter_ema
  1. 在训练循环 之前 插入以下一行。
grads = None
  1. loss.backward()optimizer.step() 之间,插入以下其中一行。请确保 modelnn.Module 类型,并且在训练循环开始前已正确初始化 grads
# ... 在优化循环中。
loss.backwards() # 计算梯度。

### 选项 1:Grokfast(有参数 alpha 和 lamb)
grads = gradfilter_ema(model, grads=grads, alpha=alpha, lamb=lamb)
### 选项 2:Grokfast-MA(有参数 window_size 和 lamb)
# grads = gradfilter_ma(model, grads=grads, window_size=window_size, lamb=lamb)

optimizer.step() # 调用优化器。
# ... 日志记录及其他代码。

完成!

(2-1) 或者,直接将方法复制粘贴到你的代码中!
### 导入
from collections import deque
from typing import Dict, Optional, Literal
import torch
import torch.nn as nn


### Grokfast
def gradfilter_ema(
    m: nn.Module,
    grads: Optional[Dict[str, torch.Tensor]] = None,
    alpha: float = 0.99,
    lamb: float = 5.0,
) -> Dict[str, torch.Tensor]:
    if grads is None:
        grads = {n: p.grad.data.detach() for n, p in m.named_parameters() if p.requires_grad}

    for n, p in m.named_parameters():
        if p.requires_grad:
            grads[n] = grads[n] * alpha + p.grad.data.detach() * (1 - alpha)
            p.grad.data = p.grad.data + grads[n] * lamb

    return grads


### Grokfast-MA
def gradfilter_ma(
    m: nn.Module,
    grads: Optional[Dict[str, deque]] = None,
    window_size: int = 128,
    lamb: float = 5.0,
    filter_type: Literal['mean', 'sum'] = 'mean',
    warmup: bool = True,
    trigger: bool = False,
) -> Dict[str, deque]:
    if grads is None:
        grads = {n: deque(maxlen=window_size) for n, p in m named parameters() if p requires grad}

    for n, p in m named parameters():
        if p requires grad:
            grads[n].append(p.grad.data.detach())

            if not warmup or len(grads[n]) == window_size and not trigger:
                if filter_type == "mean":
                    avg = sum(grads[n]) / len(grads[n])
                elif filter_type == "sum":
                    avg = sum(grads[n])
                else:
                    raise ValueError(f"Unrecognized filter_type {filter_type}")
                p.grad.data = p.grad.data + avg * lamb

    return grads

参数说明

  1. Grokfast (gradfilter_ema)

    • m: nn.Module: 包含所有可训练参数的模型。
    • grads: Optional[Dict[str, torch.Tensor]] = None: 运行时内存(EMA)。初始值设为 None。后续递归地传入该方法的输出。
    • alpha: float = 0.98: EMA 的动量超参数。
    • lamb: float = 2.0: 滤波器的放大因子超参数。
  2. Grokfast-MA (gradfilter_ma)

    • m: nn.Module: 包含所有可训练参数的模型。
    • grads: Optional[Dict[str, deque]] = None: 运行时内存(窗口移动平均队列)。初始值设为 None。后续递归地传入该方法的输出。
    • window_size: int = 100: 滤波器窗口的宽度。额外的内存需求会随着窗口大小线性增加。
    • lamb: float = 5.0: 滤波器的放大因子超参数。
    • filter_type: Literal['mean', 'sum'] = 'mean': 对运行队列的聚合方式。
    • warmup: bool = True: 如果为真,则在队列填满之前不应用滤波器。
    • trigger: bool = False: 仅用于消融实验。如果为真,则完全不应用滤波器。

复现

我们还注意到每次运行所需的额外计算资源。时间和内存开销均使用单块 GTX 1080 Ti GPU 进行测量。

安装

这将安装用于预处理数据和汇总结果的附加包。

conda create -n grok python=3.10 && conda activate grok
git clone https://github.com/ironjr/grokfast
pip install -r requirements.txt

算法性数据(Transformer 解码器,Grokfast-MA

运行 达到 95% 验证准确率的迭代次数 达到 95% 验证准确率的壁时(秒) 显存需求(MB) 每次迭代延迟(秒)
基线 39890 5984 290 0.15
Grokfast-MA 790($\times$ 50.49 $\downarrow$) 292($\times$ 20.49 $\downarrow$) 458 0.37
# python main.py --label test # 基线。
python main.py --label test --filter ma --window_size 100 --lamb 5.0 --weight_decay 0.01

算法性数据(Transformer 解码器,Grokfast

运行 达到 95% 验证准确率的迭代次数 达到 95% 验证准确率的壁时(秒) 显存需求(MB) 每次迭代延迟(秒)
基线 39890 5984 $290 0.15
Grokfast 910($\times$ 43.84 $\downarrow$) 137($\times$ 43.79 $\downarrow$) 294 0.15
# python main.py --label test # 基线。
python main.py --label test --filter ema --alpha 0.98 --lamb 2.0 --weight_decay 0.005

MNIST(MLP)

运行 达到 95% 验证准确率的迭代次数 达到 95% 验证准确率的壁时(秒) 显存需求(MB) 每次迭代延迟(毫秒)
基线 44022 1928 196 43.8
Grokfast 2001($\times$ 22.00 $\downarrow$) 87.8($\times$ 21.96 $\downarrow$) 198 43.9
# python main_mnist.py --label test # 基线。
python main_mnist.py --label test --alpha 0.8 --lamb 0.1 --weight_decay 2.0

IMDb(LSTM)

运行 最佳验证准确率 最小验证损失 显存需求(MB) 每次迭代延迟(毫秒)
基线 0.84 0.517 754 20.4
Grokfast 0.90 0.412 762 21.2
# python main_imdb.py --label test # 基线。
python main_imdb.py --label test --alpha 0.98 --lamb 2.0 --weight_decay 10.0

QM9(G-CNN)

运行 最小验证损失 显存需求(MB) 每次迭代延迟(毫秒)
基线 0.00659 216 40.2
Grokfast 0.00348 216 41.4
# python main_qm9.py --label test # 基线。
python main_qm9.py --label test --alpha 0.9 --lamb 1.0 --weight_decay 0.01

常见问题解答

如何选择合适的超参数

这些建议基于我在主论文中展示的实验中的经验。它们可能并不适用于所有问题,也可能有更智能的方法能够取得更好的效果。因此,请将这些建议视为设计您自己的滤波器时的一种可能的起点指南。

  1. 截止参数:本研究使用 MA/EMA 滤波器来实现滤波技术。对于 MA 滤波器,截止频率由窗口大小决定;对于 EMA 滤波器,截止频率由动量参数决定。
    1. 大致确定您希望达到的加速倍数。 例如,在主论文中,截止参数是根据原始的 grokking 报告确定的,该报告表明泛化发生的速度比过拟合慢约 100 倍。因此,我们希望实现 N=100 倍的加速。
    2. 设定截止参数搜索的基准值。 对于 MA,我从窗口大小 w=N=100 开始;对于 EMA,我从满足 alpha^{N} = alpha^{100} = 0.1 的动量参数 alpha 开始(大约为 0.98)。
    3. 在基准值附近进行超参数搜索。 我围绕 (1.b) 中设定的值进行了超参数扫描。
  2. 权重衰减:权重衰减通常在优化器构造函数中设置(例如,optimizer = optim.Adam(m.parameters(), weight_decay=wd))。
    1. 从该任务的默认权重衰减开始。 例如,该任务中最常用的 GitHub 仓库所选择的值。
    2. 固定权重衰减,首先尝试找到 Grokfast 滤波器参数(动量、窗口大小和幅度)的最佳设置。 尽管权重衰减确实会影响最佳滤波器参数的取值,但根据我的经验,其影响似乎并不显著。
    3. 逐步增加权重衰减的值。 从 X1 开始,然后尝试 (X2, X5, X10)。我未能通过将权重衰减提高到默认值的 100 倍而获得更好的结果。

致谢

我们的代码大量借鉴了以下项目:

  • Ziming Liu 等人,“Omnigrok:超越算法性数据的 grokking”,ICLR 2023。[arXiv] [代码]
  • Alethea Power 等人,“Grokking:在小型算法性数据集上超越过拟合的泛化”,arXiv 预印本 arXiv:2201.02177。[arXiv] [代码]
  • @danielmamay 对 Grokking 的重新实现。[代码]

感谢大家提供的有用参考!

引用

如果您觉得我们的项目有用,请引用我们!

@article{lee2024grokfast,
    title={{Grokfast}: 加速 grokking 通过放大缓慢梯度},
    author={Lee, Jaerin and Kang, Bong Gyun and Kim, Kihoon and Lee, Kyoung Mu},
    journal={arXiv preprint arXiv:2405.20233},
    year={2024}
}

星标历史

星标历史图

联系方式

如有任何问题,请发送邮件至 jarin.lee@gmail.com

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

143.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|昨天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent