grokfast

579 50 非常简单 1 次阅读 5天前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

Grokfast 是一款旨在加速机器学习模型“顿悟”（Grokking）现象的开源优化辅助工具。在深度学习中，模型有时会在长时间完美过拟合训练数据后，突然实现泛化能力的飞跃，这一过程往往耗时极长。Grokfast 正是为了解决这一漫长的等待延迟而生，它能显著缩短模型从过拟合到真正掌握规律的时间。

该工具的核心技术亮点在于将训练过程中的参数梯度视为时间信号，并通过频谱分析将其分解为“快速变化导致过拟合”和“缓慢变化诱导泛化”两个分量。Grokfast 通过简单的几行代码，放大梯度中的低频（慢变）分量，从而在不改变模型架构的前提下，将顿悟过程加速高达 50 倍以上。实验证明，该方法广泛适用于图像、自然语言处理及图神经网络等多种任务场景。

Grokfast 特别适合 AI 研究人员和深度学习开发者使用，尤其是那些正在探索模型泛化机制、希望减少训练成本或复现顿悟现象的专业人士。其集成极为简便，仅需下载单个 Python 文件并在优化器调用前插入一行滤波代码即可生效，无需安装额外的复杂依赖库，让前沿的优化理论能迅速落地于实际实验中。

使用场景

某算法团队正在训练一个小型 Transformer 模型，试图让其在有限的算术运算数据集中掌握泛化规律，但模型陷入了典型的“顿悟（Grokking）”延迟困境。

没有 grokfast 时

训练周期极长：模型在完美过拟合训练数据后，仍需额外运行数万次迭代才能突然实现泛化，严重消耗 GPU 算力资源。
收敛时机难测：由于泛化发生的时间点具有高度随机性和滞后性，工程师难以判断何时停止训练，容易过早放弃或无效空转。
调试成本高昂：漫长的等待过程拉长了实验反馈循环，导致超参数调整和架构验证的效率极低，阻碍研发进度。
资源利用率低：大部分计算时间浪费在梯度更新缓慢的“ plateau"阶段，慢变分量（即指向泛化的信号）被噪声淹没，无法有效引导优化方向。

使用 grokfast 后

加速泛化出现：通过放大梯度中的慢变分量，grokfast 将原本需要数万步的顿悟过程压缩了 50 倍以上，显著缩短训练时间。
训练过程可控：泛化现象在可预测的早期阶段稳定出现，团队能更精准地设定训练终止条件，避免资源浪费。
研发效率飞跃：实验迭代周期从“天”级缩短至“小时”级，研究人员能快速验证不同架构在复杂任务上的泛化潜力。
信号提取增强：即使在小批量或高噪声场景下，grokfast 也能有效分离并增强指向通用规律的梯度信号，让模型更快“开窍”。

grokfast 的核心价值在于将原本不可控的漫长“顿悟”等待，转化为高效、可预期的快速泛化过程，极大提升了模型训练的经济性与可行性。

运行环境要求

操作系统

未说明

GPU

非必需（核心库仅依赖 PyTorch，可运行于 CPU）
复现实验测试环境为单张 GTX 1080 Ti，显存需求视任务而定：算法数据任务约 290-458MB，MNIST 约 196-198MB，IMDb 约 754-762MB，QM9 约 216MB

内存

未说明

依赖

notes核心功能仅需安装 PyTorch，无需其他额外包。若要复现论文中的实验（包括数据预处理和结果汇总），需通过 conda 创建 Python 3.10 环境并安装 requirements.txt 中的依赖。部分实验（如 IMDb）需手动下载数据集。该工具通过在优化器调用前插入几行代码即可加速模型的'grokking'现象。

python3.10 (复现实验环境指定版本)

torch

快速开始

Grokfast：通过放大慢梯度加速 Grokking

Jaerin Lee* · Bong Gyun Kang* · Kihoon Kim · Kyoung Mu Lee

首尔国立大学

*表示共同贡献。

简而言之： 我们通过使用增强型优化器放大参数梯度的低频成分，从而加速了 Grokking 现象。

摘要： 机器学习中一个令人困惑的现象被称为 Grokking，即在对训练数据几乎完美过拟合之后，经过数十倍的迭代才实现泛化。针对机器学习从业者关注的这种长时间延迟问题，我们的目标是加速处于 Grokking 现象下的模型的泛化过程。我们将训练过程中参数梯度随时间变化的一系列信号视为随机信号，并将其分解为两个成分：快速变化、导致过拟合的成分，以及缓慢变化、促进泛化的成分。基于这一分析，我们仅需几行代码即可放大梯度中的慢速变化成分，从而将 Grokking 现象加速超过 50 倍。实验表明，我们的算法适用于图像、语言和图等多种任务，使得这种突然泛化的奇特现象具有实际应用价值。

使用方法

安装

Grokfast 除了 PyTorch 外，无需其他额外依赖包。文件 requirements.txt 仅用于复现文章中的实验，具体说明见下文的复现部分。

指导说明

只需在调用优化器之前插入一行代码，即可应用 Grokfast。

从我们的仓库下载单个文件 grokfast.py。

wget https://raw.githubusercontent.com/ironjr/grokfast/main/grokfast.py

导入辅助函数。

from grokfast import gradfilter_ma, gradfilter_ema

在训练循环之前插入以下一行。

grads = None

在 loss.backward() 和 optimizer.step() 之间，插入以下其中一行。请确保 model 是 nn.Module 类型，并且在训练循环开始前已正确初始化 grads：

# ... 在优化循环中。
loss.backwards() # 计算梯度。

### 选项 1：Grokfast（有参数 alpha 和 lamb）
grads = gradfilter_ema(model, grads=grads, alpha=alpha, lamb=lamb)
### 选项 2：Grokfast-MA（有参数 window_size 和 lamb）
# grads = gradfilter_ma(model, grads=grads, window_size=window_size, lamb=lamb)

optimizer.step() # 调用优化器。
# ... 日志记录及其他代码。

完成！

(2-1) 或者，直接将方法复制粘贴到你的代码中！

### 导入
from collections import deque
from typing import Dict, Optional, Literal
import torch
import torch.nn as nn


### Grokfast
def gradfilter_ema(
    m: nn.Module,
    grads: Optional[Dict[str, torch.Tensor]] = None,
    alpha: float = 0.99,
    lamb: float = 5.0,
) -> Dict[str, torch.Tensor]:
    if grads is None:
        grads = {n: p.grad.data.detach() for n, p in m.named_parameters() if p.requires_grad}

    for n, p in m.named_parameters():
        if p.requires_grad:
            grads[n] = grads[n] * alpha + p.grad.data.detach() * (1 - alpha)
            p.grad.data = p.grad.data + grads[n] * lamb

    return grads


### Grokfast-MA
def gradfilter_ma(
    m: nn.Module,
    grads: Optional[Dict[str, deque]] = None,
    window_size: int = 128,
    lamb: float = 5.0,
    filter_type: Literal['mean', 'sum'] = 'mean',
    warmup: bool = True,
    trigger: bool = False,
) -> Dict[str, deque]:
    if grads is None:
        grads = {n: deque(maxlen=window_size) for n, p in m named parameters() if p requires grad}

    for n, p in m named parameters():
        if p requires grad:
            grads[n].append(p.grad.data.detach())

            if not warmup or len(grads[n]) == window_size and not trigger:
                if filter_type == "mean":
                    avg = sum(grads[n]) / len(grads[n])
                elif filter_type == "sum":
                    avg = sum(grads[n])
                else:
                    raise ValueError(f"Unrecognized filter_type {filter_type}")
                p.grad.data = p.grad.data + avg * lamb

    return grads

参数说明

Grokfast (gradfilter_ema)
- m: nn.Module: 包含所有可训练参数的模型。
- grads: Optional[Dict[str, torch.Tensor]] = None: 运行时内存（EMA）。初始值设为 None。后续递归地传入该方法的输出。
- alpha: float = 0.98: EMA 的动量超参数。
- lamb: float = 2.0: 滤波器的放大因子超参数。
Grokfast-MA (gradfilter_ma)
- m: nn.Module: 包含所有可训练参数的模型。
- grads: Optional[Dict[str, deque]] = None: 运行时内存（窗口移动平均队列）。初始值设为 None。后续递归地传入该方法的输出。
- window_size: int = 100: 滤波器窗口的宽度。额外的内存需求会随着窗口大小线性增加。
- lamb: float = 5.0: 滤波器的放大因子超参数。
- filter_type: Literal['mean', 'sum'] = 'mean': 对运行队列的聚合方式。
- warmup: bool = True: 如果为真，则在队列填满之前不应用滤波器。
- trigger: bool = False: 仅用于消融实验。如果为真，则完全不应用滤波器。

复现

我们还注意到每次运行所需的额外计算资源。时间和内存开销均使用单块 GTX 1080 Ti GPU 进行测量。

安装

这将安装用于预处理数据和汇总结果的附加包。

conda create -n grok python=3.10 && conda activate grok
git clone https://github.com/ironjr/grokfast
pip install -r requirements.txt

算法性数据（Transformer 解码器，Grokfast-MA）

运行	达到 95% 验证准确率的迭代次数	达到 95% 验证准确率的壁时（秒）	显存需求（MB）	每次迭代延迟（秒）
基线	39890	5984	290	0.15
Grokfast-MA	790（$\times$ 50.49 $\downarrow$）	292（$\times$ 20.49 $\downarrow$）	458	0.37

# python main.py --label test # 基线。
python main.py --label test --filter ma --window_size 100 --lamb 5.0 --weight_decay 0.01

算法性数据（Transformer 解码器，Grokfast）

运行	达到 95% 验证准确率的迭代次数	达到 95% 验证准确率的壁时（秒）	显存需求（MB）	每次迭代延迟（秒）
基线	39890	5984	$290	0.15
Grokfast	910（$\times$ 43.84 $\downarrow$）	137（$\times$ 43.79 $\downarrow$）	294	0.15

# python main.py --label test # 基线。
python main.py --label test --filter ema --alpha 0.98 --lamb 2.0 --weight_decay 0.005

MNIST（MLP）

运行	达到 95% 验证准确率的迭代次数	达到 95% 验证准确率的壁时（秒）	显存需求（MB）	每次迭代延迟（毫秒）
基线	44022	1928	196	43.8
Grokfast	2001（$\times$ 22.00 $\downarrow$）	87.8（$\times$ 21.96 $\downarrow$）	198	43.9

# python main_mnist.py --label test # 基线。
python main_mnist.py --label test --alpha 0.8 --lamb 0.1 --weight_decay 2.0

IMDb（LSTM）

运行	最佳验证准确率	最小验证损失	显存需求（MB）	每次迭代延迟（毫秒）
基线	0.84	0.517	754	20.4
Grokfast	0.90	0.412	762	21.2

在训练之前，请从 Google Drive 或百度网盘（提取码：vdp7）下载 IMDb 数据集。

# python main_imdb.py --label test # 基线。
python main_imdb.py --label test --alpha 0.98 --lamb 2.0 --weight_decay 10.0

QM9（G-CNN）

运行	最小验证损失	显存需求（MB）	每次迭代延迟（毫秒）
基线	0.00659	216	40.2
Grokfast	0.00348	216	41.4

# python main_qm9.py --label test # 基线。
python main_qm9.py --label test --alpha 0.9 --lamb 1.0 --weight_decay 0.01

常见问题解答

如何选择合适的超参数

这些建议基于我在主论文中展示的实验中的经验。它们可能并不适用于所有问题，也可能有更智能的方法能够取得更好的效果。因此，请将这些建议视为设计您自己的滤波器时的一种可能的起点指南。

截止参数：本研究使用 MA/EMA 滤波器来实现滤波技术。对于 MA 滤波器，截止频率由窗口大小决定；对于 EMA 滤波器，截止频率由动量参数决定。
1. 大致确定您希望达到的加速倍数。 例如，在主论文中，截止参数是根据原始的 grokking 报告确定的，该报告表明泛化发生的速度比过拟合慢约 100 倍。因此，我们希望实现 N=100 倍的加速。
2. 设定截止参数搜索的基准值。 对于 MA，我从窗口大小 w=N=100 开始；对于 EMA，我从满足 alpha^{N} = alpha^{100} = 0.1 的动量参数 alpha 开始（大约为 0.98）。
3. 在基准值附近进行超参数搜索。 我围绕 (1.b) 中设定的值进行了超参数扫描。
权重衰减：权重衰减通常在优化器构造函数中设置（例如，optimizer = optim.Adam(m.parameters(), weight_decay=wd)）。
1. 从该任务的默认权重衰减开始。 例如，该任务中最常用的 GitHub 仓库所选择的值。
2. 固定权重衰减，首先尝试找到 Grokfast 滤波器参数（动量、窗口大小和幅度）的最佳设置。 尽管权重衰减确实会影响最佳滤波器参数的取值，但根据我的经验，其影响似乎并不显著。
3. 逐步增加权重衰减的值。 从 X1 开始，然后尝试 (X2, X5, X10)。我未能通过将权重衰减提高到默认值的 100 倍而获得更好的结果。

致谢

我们的代码大量借鉴了以下项目：

Ziming Liu 等人，“Omnigrok：超越算法性数据的 grokking”，ICLR 2023。[arXiv] [代码]
Alethea Power 等人，“Grokking：在小型算法性数据集上超越过拟合的泛化”，arXiv 预印本 arXiv:2201.02177。[arXiv] [代码]
@danielmamay 对 Grokking 的重新实现。[代码]

感谢大家提供的有用参考！

引用

如果您觉得我们的项目有用，请引用我们！

@article{lee2024grokfast,
    title={{Grokfast}: 加速 grokking 通过放大缓慢梯度},
    author={Lee, Jaerin and Kang, Bong Gyun and Kim, Kihoon and Lee, Kyoung Mu},
    journal={arXiv preprint arXiv:2405.20233},
    year={2024}
}

星标历史

联系方式

如有任何问题，请发送邮件至 jarin.lee@gmail.com。

Grokfast 快速上手指南

Grokfast 是一个旨在加速机器学习中“顿悟”（Grokking）现象的优化器增强工具。它通过放大参数梯度中的低频分量（即缓慢变化但能诱导泛化的成分），显著缩短模型从过拟合到泛化的等待时间，适用于图像、语言和图结构等多种任务。

环境准备

操作系统: Linux, macOS, Windows
Python 版本: 推荐 Python 3.8+ (实验复现环境为 Python 3.10)
核心依赖:
- PyTorch (必须)
- 无需其他额外第三方库即可运行核心功能。

国内加速建议：安装 PyTorch 时，推荐使用清华或中科大镜像源以加快下载速度：
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

Grokfast 的核心功能仅需一个 Python 文件，无需通过 pip 安装包。

下载核心脚本 直接从 GitHub 仓库下载 grokfast.py 文件到你的项目目录：
```
wget https://raw.githubusercontent.com/ironjr/grokfast/main/grokfast.py
```
(如果无法访问 GitHub，可手动下载该文件并保存为 grokfast.py)
(可选) 安装复现实验依赖 如果你需要运行官方提供的复现代码（包含数据预处理和结果汇总），请执行：
```
git clone https://github.com/ironjr/grokfast
cd grokfast
pip install -r requirements.txt
```

基本使用

只需在现有的训练循环中插入几行代码，即可启用 Grokfast。

1. 导入辅助函数

在你的训练脚本中导入以下函数：

from grokfast import gradfilter_ma, gradfilter_ema

2. 初始化状态变量

在训练循环开始前，初始化梯度记忆变量：

grads = None

3. 修改训练循环

在 loss.backward() 之后、optimizer.step() 之前，插入过滤函数。

方案 A：使用 Grokfast-EMA (指数移动平均，推荐用于大多数场景)

# ... 在优化循环中
loss.backward()  # 计算梯度

# 应用 Grokfast-EMA 过滤器
# alpha: 动量超参数 (默认 0.98), lamb: 放大系数 (默认 2.0)
grads = gradfilter_ema(model, grads=grads, alpha=0.98, lamb=2.0)

optimizer.step()  # 更新参数

方案 B：使用 Grokfast-MA (滑动窗口平均)

# ... 在优化循环中
loss.backward()  # 计算梯度

# 应用 Grokfast-MA 过滤器
# window_size: 窗口大小 (默认 100), lamb: 放大系数 (默认 5.0)
grads = gradfilter_ma(model, grads=grads, window_size=100, lamb=5.0)

optimizer.step()  # 更新参数

参数调优建议

alpha (EMA): 控制截止频率。若希望加速倍数约为 $N$，可尝试设定 $\alpha$ 使得 $\alpha^N \approx 0.1$（例如加速 100 倍，$\alpha \approx 0.98$）。
window_size (MA): 对应加速倍数的粗略估计值。
lamb: 梯度放大系数，通常设置在 1.0 到 5.0 之间，需配合具体任务调整。
weight_decay: 建议保留优化器中原有的权重衰减设置，先固定它再调整 Grokfast 参数。

常见问题

为新模型和数据集选择 AdamW 权重衰减（weight decay）值的最佳策略是什么？

Grokfast 是否仅适用于 Transformer 模型？

为什么在某些实验中 AdamW 的表现优于 Grokfast + Adam？

使用 Grokfast 时遇到梯度爆炸（grad norm 变为 inf）该怎么办？

Grokfast 对学习率的选择有什么建议？

Grokfast 滤波器参数（如窗口大小、alpha）应该如何调整？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent