grokfast
Grokfast 是一款旨在加速机器学习模型“顿悟”(Grokking)现象的开源优化辅助工具。在深度学习中,模型有时会在长时间完美过拟合训练数据后,突然实现泛化能力的飞跃,这一过程往往耗时极长。Grokfast 正是为了解决这一漫长的等待延迟而生,它能显著缩短模型从过拟合到真正掌握规律的时间。
该工具的核心技术亮点在于将训练过程中的参数梯度视为时间信号,并通过频谱分析将其分解为“快速变化导致过拟合”和“缓慢变化诱导泛化”两个分量。Grokfast 通过简单的几行代码,放大梯度中的低频(慢变)分量,从而在不改变模型架构的前提下,将顿悟过程加速高达 50 倍以上。实验证明,该方法广泛适用于图像、自然语言处理及图神经网络等多种任务场景。
Grokfast 特别适合 AI 研究人员和深度学习开发者使用,尤其是那些正在探索模型泛化机制、希望减少训练成本或复现顿悟现象的专业人士。其集成极为简便,仅需下载单个 Python 文件并在优化器调用前插入一行滤波代码即可生效,无需安装额外的复杂依赖库,让前沿的优化理论能迅速落地于实际实验中。
使用场景
某算法团队正在训练一个小型 Transformer 模型,试图让其在有限的算术运算数据集中掌握泛化规律,但模型陷入了典型的“顿悟(Grokking)”延迟困境。
没有 grokfast 时
- 训练周期极长:模型在完美过拟合训练数据后,仍需额外运行数万次迭代才能突然实现泛化,严重消耗 GPU 算力资源。
- 收敛时机难测:由于泛化发生的时间点具有高度随机性和滞后性,工程师难以判断何时停止训练,容易过早放弃或无效空转。
- 调试成本高昂:漫长的等待过程拉长了实验反馈循环,导致超参数调整和架构验证的效率极低,阻碍研发进度。
- 资源利用率低:大部分计算时间浪费在梯度更新缓慢的“ plateau"阶段,慢变分量(即指向泛化的信号)被噪声淹没,无法有效引导优化方向。
使用 grokfast 后
- 加速泛化出现:通过放大梯度中的慢变分量,grokfast 将原本需要数万步的顿悟过程压缩了 50 倍以上,显著缩短训练时间。
- 训练过程可控:泛化现象在可预测的早期阶段稳定出现,团队能更精准地设定训练终止条件,避免资源浪费。
- 研发效率飞跃:实验迭代周期从“天”级缩短至“小时”级,研究人员能快速验证不同架构在复杂任务上的泛化潜力。
- 信号提取增强:即使在小批量或高噪声场景下,grokfast 也能有效分离并增强指向通用规律的梯度信号,让模型更快“开窍”。
grokfast 的核心价值在于将原本不可控的漫长“顿悟”等待,转化为高效、可预期的快速泛化过程,极大提升了模型训练的经济性与可行性。
运行环境要求
- 未说明
- 非必需(核心库仅依赖 PyTorch,可运行于 CPU)
- 复现实验测试环境为单张 GTX 1080 Ti,显存需求视任务而定:算法数据任务约 290-458MB,MNIST 约 196-198MB,IMDb 约 754-762MB,QM9 约 216MB
未说明

快速开始
Grokfast:通过放大慢梯度加速 Grokking
Jaerin Lee* · Bong Gyun Kang* · Kihoon Kim · Kyoung Mu Lee
首尔国立大学
*表示共同贡献。
简而言之: 我们通过使用增强型优化器放大参数梯度的低频成分,从而加速了 Grokking 现象。
![]() |
![]() |
|---|
摘要: 机器学习中一个令人困惑的现象被称为 Grokking,即在对训练数据几乎完美过拟合之后,经过数十倍的迭代才实现泛化。针对机器学习从业者关注的这种长时间延迟问题,我们的目标是加速处于 Grokking 现象下的模型的泛化过程。我们将训练过程中参数梯度随时间变化的一系列信号视为随机信号,并将其分解为两个成分:快速变化、导致过拟合的成分,以及缓慢变化、促进泛化的成分。基于这一分析,我们仅需几行代码即可放大梯度中的慢速变化成分,从而将 Grokking 现象加速超过 50 倍。实验表明,我们的算法适用于图像、语言和图等多种任务,使得这种突然泛化的奇特现象具有实际应用价值。
![]() |
![]() |
|---|
使用方法
安装
Grokfast 除了 PyTorch 外,无需其他额外依赖包。文件 requirements.txt 仅用于复现文章中的实验,具体说明见下文的 复现部分。
指导说明
只需在调用优化器之前插入一行代码,即可应用 Grokfast。
- 从我们的仓库下载单个文件
grokfast.py。
wget https://raw.githubusercontent.com/ironjr/grokfast/main/grokfast.py
- 导入辅助函数。
from grokfast import gradfilter_ma, gradfilter_ema
- 在训练循环 之前 插入以下一行。
grads = None
- 在
loss.backward()和optimizer.step()之间,插入以下其中一行。请确保model是nn.Module类型,并且在训练循环开始前已正确初始化grads:
# ... 在优化循环中。
loss.backwards() # 计算梯度。
### 选项 1:Grokfast(有参数 alpha 和 lamb)
grads = gradfilter_ema(model, grads=grads, alpha=alpha, lamb=lamb)
### 选项 2:Grokfast-MA(有参数 window_size 和 lamb)
# grads = gradfilter_ma(model, grads=grads, window_size=window_size, lamb=lamb)
optimizer.step() # 调用优化器。
# ... 日志记录及其他代码。
完成!
(2-1) 或者,直接将方法复制粘贴到你的代码中!
### 导入
from collections import deque
from typing import Dict, Optional, Literal
import torch
import torch.nn as nn
### Grokfast
def gradfilter_ema(
m: nn.Module,
grads: Optional[Dict[str, torch.Tensor]] = None,
alpha: float = 0.99,
lamb: float = 5.0,
) -> Dict[str, torch.Tensor]:
if grads is None:
grads = {n: p.grad.data.detach() for n, p in m.named_parameters() if p.requires_grad}
for n, p in m.named_parameters():
if p.requires_grad:
grads[n] = grads[n] * alpha + p.grad.data.detach() * (1 - alpha)
p.grad.data = p.grad.data + grads[n] * lamb
return grads
### Grokfast-MA
def gradfilter_ma(
m: nn.Module,
grads: Optional[Dict[str, deque]] = None,
window_size: int = 128,
lamb: float = 5.0,
filter_type: Literal['mean', 'sum'] = 'mean',
warmup: bool = True,
trigger: bool = False,
) -> Dict[str, deque]:
if grads is None:
grads = {n: deque(maxlen=window_size) for n, p in m named parameters() if p requires grad}
for n, p in m named parameters():
if p requires grad:
grads[n].append(p.grad.data.detach())
if not warmup or len(grads[n]) == window_size and not trigger:
if filter_type == "mean":
avg = sum(grads[n]) / len(grads[n])
elif filter_type == "sum":
avg = sum(grads[n])
else:
raise ValueError(f"Unrecognized filter_type {filter_type}")
p.grad.data = p.grad.data + avg * lamb
return grads
参数说明
Grokfast (
gradfilter_ema)m: nn.Module: 包含所有可训练参数的模型。grads: Optional[Dict[str, torch.Tensor]] = None: 运行时内存(EMA)。初始值设为None。后续递归地传入该方法的输出。alpha: float = 0.98: EMA 的动量超参数。lamb: float = 2.0: 滤波器的放大因子超参数。
Grokfast-MA (
gradfilter_ma)m: nn.Module: 包含所有可训练参数的模型。grads: Optional[Dict[str, deque]] = None: 运行时内存(窗口移动平均队列)。初始值设为None。后续递归地传入该方法的输出。window_size: int = 100: 滤波器窗口的宽度。额外的内存需求会随着窗口大小线性增加。lamb: float = 5.0: 滤波器的放大因子超参数。filter_type: Literal['mean', 'sum'] = 'mean': 对运行队列的聚合方式。warmup: bool = True: 如果为真,则在队列填满之前不应用滤波器。trigger: bool = False: 仅用于消融实验。如果为真,则完全不应用滤波器。
复现
我们还注意到每次运行所需的额外计算资源。时间和内存开销均使用单块 GTX 1080 Ti GPU 进行测量。
安装
这将安装用于预处理数据和汇总结果的附加包。
conda create -n grok python=3.10 && conda activate grok
git clone https://github.com/ironjr/grokfast
pip install -r requirements.txt
算法性数据(Transformer 解码器,Grokfast-MA)
| 运行 | 达到 95% 验证准确率的迭代次数 | 达到 95% 验证准确率的壁时(秒) | 显存需求(MB) | 每次迭代延迟(秒) |
|---|---|---|---|---|
| 基线 | 39890 | 5984 | 290 | 0.15 |
| Grokfast-MA | 790($\times$ 50.49 $\downarrow$) | 292($\times$ 20.49 $\downarrow$) | 458 | 0.37 |
# python main.py --label test # 基线。
python main.py --label test --filter ma --window_size 100 --lamb 5.0 --weight_decay 0.01
算法性数据(Transformer 解码器,Grokfast)
| 运行 | 达到 95% 验证准确率的迭代次数 | 达到 95% 验证准确率的壁时(秒) | 显存需求(MB) | 每次迭代延迟(秒) |
|---|---|---|---|---|
| 基线 | 39890 | 5984 | $290 | 0.15 |
| Grokfast | 910($\times$ 43.84 $\downarrow$) | 137($\times$ 43.79 $\downarrow$) | 294 | 0.15 |
# python main.py --label test # 基线。
python main.py --label test --filter ema --alpha 0.98 --lamb 2.0 --weight_decay 0.005
MNIST(MLP)
| 运行 | 达到 95% 验证准确率的迭代次数 | 达到 95% 验证准确率的壁时(秒) | 显存需求(MB) | 每次迭代延迟(毫秒) |
|---|---|---|---|---|
| 基线 | 44022 | 1928 | 196 | 43.8 |
| Grokfast | 2001($\times$ 22.00 $\downarrow$) | 87.8($\times$ 21.96 $\downarrow$) | 198 | 43.9 |
# python main_mnist.py --label test # 基线。
python main_mnist.py --label test --alpha 0.8 --lamb 0.1 --weight_decay 2.0
IMDb(LSTM)
| 运行 | 最佳验证准确率 | 最小验证损失 | 显存需求(MB) | 每次迭代延迟(毫秒) |
|---|---|---|---|---|
| 基线 | 0.84 | 0.517 | 754 | 20.4 |
| Grokfast | 0.90 | 0.412 | 762 | 21.2 |
- 在训练之前,请从 Google Drive 或 百度网盘(提取码:vdp7)下载 IMDb 数据集。
# python main_imdb.py --label test # 基线。
python main_imdb.py --label test --alpha 0.98 --lamb 2.0 --weight_decay 10.0
QM9(G-CNN)
| 运行 | 最小验证损失 | 显存需求(MB) | 每次迭代延迟(毫秒) |
|---|---|---|---|
| 基线 | 0.00659 | 216 | 40.2 |
| Grokfast | 0.00348 | 216 | 41.4 |
# python main_qm9.py --label test # 基线。
python main_qm9.py --label test --alpha 0.9 --lamb 1.0 --weight_decay 0.01
常见问题解答
如何选择合适的超参数
这些建议基于我在主论文中展示的实验中的经验。它们可能并不适用于所有问题,也可能有更智能的方法能够取得更好的效果。因此,请将这些建议视为设计您自己的滤波器时的一种可能的起点指南。
- 截止参数:本研究使用 MA/EMA 滤波器来实现滤波技术。对于 MA 滤波器,截止频率由窗口大小决定;对于 EMA 滤波器,截止频率由动量参数决定。
- 大致确定您希望达到的加速倍数。 例如,在主论文中,截止参数是根据原始的 grokking 报告确定的,该报告表明泛化发生的速度比过拟合慢约 100 倍。因此,我们希望实现 N=100 倍的加速。
- 设定截止参数搜索的基准值。 对于 MA,我从窗口大小 w=N=100 开始;对于 EMA,我从满足 alpha^{N} = alpha^{100} = 0.1 的动量参数 alpha 开始(大约为 0.98)。
- 在基准值附近进行超参数搜索。 我围绕 (1.b) 中设定的值进行了超参数扫描。
- 权重衰减:权重衰减通常在优化器构造函数中设置(例如,
optimizer = optim.Adam(m.parameters(), weight_decay=wd))。- 从该任务的默认权重衰减开始。 例如,该任务中最常用的 GitHub 仓库所选择的值。
- 固定权重衰减,首先尝试找到 Grokfast 滤波器参数(动量、窗口大小和幅度)的最佳设置。 尽管权重衰减确实会影响最佳滤波器参数的取值,但根据我的经验,其影响似乎并不显著。
- 逐步增加权重衰减的值。 从 X1 开始,然后尝试 (X2, X5, X10)。我未能通过将权重衰减提高到默认值的 100 倍而获得更好的结果。
致谢
我们的代码大量借鉴了以下项目:
- Ziming Liu 等人,“Omnigrok:超越算法性数据的 grokking”,ICLR 2023。[arXiv] [代码]
- Alethea Power 等人,“Grokking:在小型算法性数据集上超越过拟合的泛化”,arXiv 预印本 arXiv:2201.02177。[arXiv] [代码]
- @danielmamay 对 Grokking 的重新实现。[代码]
感谢大家提供的有用参考!
引用
如果您觉得我们的项目有用,请引用我们!
@article{lee2024grokfast,
title={{Grokfast}: 加速 grokking 通过放大缓慢梯度},
author={Lee, Jaerin and Kang, Bong Gyun and Kim, Kihoon and Lee, Kyoung Mu},
journal={arXiv preprint arXiv:2405.20233},
year={2024}
}
星标历史
联系方式
如有任何问题,请发送邮件至 jarin.lee@gmail.com。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备




