recurrentgemma

666 35 中等 1 次阅读 5天前Apache-2.0语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

RecurrentGemma 是 Google DeepMind 推出的一系列开源权重语言模型，基于创新的 Griffin 架构构建。它主要解决了传统大模型在处理长文本序列时推理速度慢、计算资源消耗大的痛点。通过用“局部注意力机制”与“线性递归”的组合替代全局注意力机制，RecurrentGemma 在生成长内容时能显著提升推理效率，同时保持高质量的输出表现。

这款工具特别适合开发者、AI 研究人员以及需要部署高效语言模型的技术团队使用。官方提供了高度优化的 Flax（JAX）实现版本供生产环境采用，同时也附带了 PyTorch 版本以便参考和学习。项目不仅包含完整的模型代码，还配备了丰富的示例脚本和 Colab 教程，涵盖从基础文本采样到特定任务（如英法翻译）微调的全流程，帮助用户快速上手。

其核心技术亮点在于独特的混合架构设计，既保留了 Transformer 模型的强大表达能力，又大幅降低了长序列生成的内存占用和时间成本。模型权重及分词器可通过 Kaggle 免费获取，支持灵活的本地部署与二次开发，是探索高效大模型应用的理想选择。

使用场景

某跨国电商公司的数据团队需要构建一个能实时处理超长用户评论流的情感分析系统，以监控全球大促期间的舆情变化。

没有 recurrentgemma 时

传统 Transformer 模型在处理数千字的连续评论时，因全局注意力机制导致显存爆炸，频繁出现内存溢出错误。
长文本生成的推理延迟极高，无法跟上实时数据流的涌入速度，导致舆情预警往往滞后数分钟甚至更久。
为了适配现有硬件，团队被迫将长评论强行截断，丢失了关键的上下文情感转折信息，分析准确率大幅下降。
部署成本高昂，必须租用配备多张高端 GPU 的服务器集群才能勉强维持服务运行。

使用 recurrentgemma 后

基于 Griffin 架构的线性递归机制替代了全局注意力，使得处理超长序列时显存占用保持恒定，彻底消除了内存溢出风险。
推理速度显著提升，能够流畅地逐字生成对长篇评论的深度摘要与分析，实现了真正的毫秒级实时响应。
完整保留数万字符的上下文窗口，精准捕捉用户从“抱怨物流”到“赞赏客服”的情感反转，大幅提升了分析颗粒度。
凭借高效的计算特性，单张消费级显卡即可承载高并发请求，将基础设施成本降低了 70% 以上。

recurrentgemma 通过革新性的架构设计，让企业在低成本硬件上也能轻松实现超长文本的实时、高精度智能处理。

运行环境要求

操作系统

未说明

GPU

非必需（支持 CPU、GPU 或 TPU）
若使用 GPU，支持 NVIDIA T4, P100, V100, A100 等型号
针对 JAX/Flax 实现进行了 TPU 优化
具体显存大小和 CUDA 版本未在文中明确指定

内存

未说明

依赖

notes1. 推荐使用 Flax/JAX 实现以获得最佳性能，特别是长序列生成时。2. 模型权重需通过 Kaggle 下载，使用前需接受 Gemma 许可条款。3. 项目提供 Poetry 和 pip 两种安装方式，支持按需安装 JAX 或 PyTorch 特定依赖。4. 微调功能在 JAX 环境下不支持 TPUv2，但支持 TPUv3+ 及所列 GPU 型号。

python未说明

flax (推荐，高度优化)

jax

pytorch (参考实现，未优化)

poetry (依赖管理)

pallas (用于 JAX 中的线性扫描内核)

快速开始

循环Gemma

RecurrentGemma 是由 Google DeepMind 推出的一系列开放权重语言模型，基于新颖的 Griffin 架构。该架构通过用局部注意力与线性递归的混合机制替代全局注意力，实现了在生成长序列时的快速推理。

本仓库包含模型的实现以及采样和微调的示例。我们建议大多数用户采用高度优化的 Flax 实现。同时，我们也提供了未优化的 PyTorch 实现作为参考。

了解更多关于 RecurrentGemma 的信息

RecurrentGemma 技术报告提供了关于 RecurrentGemma 训练和评估的具体细节。
Griffin 论文描述了其底层模型架构。

快速入门

安装

使用 Poetry

RecurrentGemma 使用 Poetry 进行依赖管理。

要为整个项目安装依赖：

克隆代码库。
运行 poetry install -E full 创建包含所有依赖的虚拟环境。
运行 poetry shell 激活创建的虚拟环境。

如果只需要安装部分依赖，请使用以下针对不同库的命令。

使用 pip

如果您希望使用 pip 而不是 Poetry，则需要创建一个虚拟环境（运行 python -m venv recurrentgemma-demo 并激活 . recurrentgemma-demo/bin/activate），然后：

克隆代码库。
运行 pip install .[full]。

安装特定于库的包

JAX

仅安装 JAX 路径所需的依赖： poetry install -E jax 或 (pip install .[jax])。

PyTorch

仅安装 PyTorch 路径所需的依赖： poetry install -E torch（或 pip install .[torch]）。

测试

要安装运行单元测试所需的依赖： poetry install -E test（或 pip install .[test]）。

下载模型

模型检查点可通过 Kaggle 获取，地址为：http://kaggle.com/models/google/recurrentgemma。选择 Flax 或 PyTorch 版本，点击 ⤓ 按钮下载模型压缩包，然后将其解压到本地目录。

无论哪种情况，压缩包中都包含模型权重和分词器。

运行单元测试

要运行测试，请从源码根目录安装可选的 [test] 依赖（例如使用 pip install .[test]），然后执行：

pytest .

示例

要运行示例采样脚本，需传入权重目录和分词器的路径：

python examples/sampling_jax.py \
  --path_checkpoint=/path/to/archive/contents/2b/ \
  --path_tokenizer=/path/to/archive/contents/tokenizer.model

Colab 笔记本教程

colabs/sampling_tutorial_jax.ipynb 包含一个使用 JAX 进行采样的 Colab 笔记本。
colabs/sampling_tutorial_pytorch.ipynb 包含一个使用 PyTorch 进行采样的 Colab 笔记本。
colabs/fine_tuning_tutorial_jax.ipynb 包含一个使用 JAX 对 RecurrentGemma 进行微调的基础教程，例如用于英法翻译任务。

要运行这些笔记本，您需要拥有 Kaggle 账户，并首先阅读并接受 RecurrentGemma 页面上的 Gemma 许可条款。之后即可运行笔记本，它们会自动从那里下载权重和分词器。

目前不同笔记本支持的硬件如下：

硬件	T4	P100	V100	A100	TPUv2	TPUv3+
Jax 中采样	✅	✅	✅	✅	✅	✅
PyTorch 中采样	✅	✅	✅	✅	✅	✅
Jax 中微调	✅	✅	✅	✅	❌	✅

系统要求

RecurrentGemma 代码可以在 CPU、GPU 或 TPU 上运行。代码已针对使用 Flax 实现的 TPU 进行优化，其中包含一个低级 Pallas 内核，用于在循环层中执行线性扫描。

贡献

我们欢迎 bug 报告和问题反馈。有关 PR 的详细信息，请参阅 CONTRIBUTING.md。

许可证

本代码根据 Apache License, Version 2.0（“许可证”）授权；除非符合许可证规定，否则不得使用此文件。您可以在 http://www.apache.org/licenses/LICENSE-2.0 获取许可证副本。

除非适用法律另有规定或双方另有约定，否则根据本许可证分发的软件以“现状”提供，不附带任何明示或暗示的保证或条件。具体的权利和限制请参阅许可证文本。

免责声明

本项目并非 Google 官方产品。

RecurrentGemma 快速上手指南

RecurrentGemma 是 Google DeepMind 推出的一系列开源语言模型，基于创新的 Griffin 架构。该架构通过混合局部注意力机制和线性递归，替代了全局注意力机制，从而在生成长序列时实现更快的推理速度。本指南将帮助您快速在中国开发环境中部署并使用该模型。

1. 环境准备

系统要求

硬件：支持 CPU、GPU (NVIDIA T4/P100/V100/A100) 或 TPU (v2/v3+)。
- 推荐：使用 TPU 配合 Flax/JAX 实现以获得最佳性能（包含优化的 Pallas 内核）。
- 参考：提供未优化的 PyTorch 实现供参考。
操作系统：Linux 或 macOS (Windows 需通过 WSL2 运行)。
Python 版本：建议 Python 3.9+。

前置依赖

包管理工具：推荐使用 Poetry 进行依赖管理，也可使用 pip。
Kaggle 账号：下载模型权重和分词器需要 Kaggle 账号，并需先同意 RecurrentGemma 许可条款。

注意：目前官方暂未提供中国镜像源。国内用户若遇到 pip 或 poetry 下载依赖缓慢，可临时配置国内镜像（如清华源、阿里源）加速 Python 包安装，但模型权重仍需从 Kaggle 下载。

2. 安装步骤

您可以选择使用 Poetry（推荐）或 pip 进行安装。

方式一：使用 Poetry (推荐)

克隆代码库

git clone https://github.com/google-deepmind/recurrentgemma.git
cd recurrentgemma

安装依赖
- 完整安装（包含所有依赖）：
```
poetry install -E full
poetry shell
```
- 仅安装 JAX/Flax 路径（高性能推荐）：
```
poetry install -E jax
poetry shell
```
- 仅安装 PyTorch 路径（参考用）：
```
poetry install -E torch
poetry shell
```

方式二：使用 pip

克隆代码库并创建虚拟环境

git clone https://github.com/google-deepmind/recurrentgemma.git
cd recurrentgemma
python -m venv recurrentgemma-demo
source recurrentgemma-demo/bin/activate  # Windows 用户请使用: recurrentgemma-demo\Scripts\activate

安装依赖
- 完整安装：
```
pip install .[full]
```
- 仅安装 JAX 路径：
```
pip install .[jax]
```
- 仅安装 PyTorch 路径：
```
pip install .[torch]
```

3. 基本使用

第一步：下载模型

访问 Kaggle RecurrentGemma 页面。
登录账号并接受许可协议。
选择 Flax 或 PyTorch 版本的模型变体。
点击 ⤓ 按钮下载模型归档文件。
将文件解压到本地目录（例如 /path/to/archive/contents/）。
- 注：归档文件中已包含模型权重 (2b/ 等文件夹) 和分词器 (tokenizer.model)。

第二步：运行采样示例 (Sampling)

以下命令演示如何使用 JAX 后端进行文本生成采样。请根据您的实际路径替换参数。

python examples/sampling_jax.py \
  --path_checkpoint=/path/to/archive/contents/2b/ \
  --path_tokenizer=/path/to/archive/contents/tokenizer.model

--path_checkpoint: 指向解压后的模型权重目录（如 2b, 7b 等）。
--path_tokenizer: 指向 tokenizer.model 文件的路径。

进阶：使用 Colab 教程

如果您希望直接在云端运行示例或进行微调，可以使用官方提供的 Colab Notebook（需绑定 Kaggle 账号自动下载权重）：

JAX 采样教程: colabs/sampling_tutorial_jax.ipynb
PyTorch 采样教程: colabs/sampling_tutorial_pytorch.ipynb
JAX 微调教程 (如英法翻译任务): colabs/fine_tuning_tutorial_jax.ipynb

版本历史

v1.0.12026/02/06

v1.0.02025/06/04

常见问题

如何保存训练后的模型参数？

RecurrentGemma (Griffin) 与 Flash Attention 2 相比有什么优势？

是否会发布 PyTorch 版本的自定义线性扫描 CUDA 内核？

如何将 Griffin 模型转换为 GGUF 格式以便量化？

在 CPU 上运行微调教程时遇到 "Truncated Zstd-compressed stream" 错误怎么办？

RecurrentGemma 是否使用与 Gemma 相同的分词器（tokenizer）？

是否有计划发布预训练的 Hawk 模型权重？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架