alphagenome_research

GitHub
704 106 较难 1 次阅读 今天Apache-2.0其他
AI 解读 由 AI 自动生成,仅供参考

alphagenome_research 是谷歌 DeepMind 推出的开源研究代码库,旨在配合其统一的 DNA 序列模型 AlphaGenome 使用。它专注于解析长达 100 万个碱基对的 DNA 序列,以单碱基分辨率精准预测基因表达、剪接模式、染色质特征及染色体接触图谱等多种生物学功能,从而帮助科研人员深入理解基因组运作机制并评估调控变异的影响。

该工具主要解决了传统方法难以在长序列范围内高精度预测复杂基因组功能的难题,为遗传学研究和疾病机理探索提供了强大的计算支持。它特别适合生物信息学家、计算生物学家以及从事基因组学研究的专业开发者使用。用户可利用其提供的 JAX 实现模型、变体评分器及数据加载工具,在本地复现研究或进行二次开发;同时也为普通研究人员提供了 Colab 笔记本,便于快速上手体验模型推理与变异分析。

技术亮点方面,alphagenome_research 基于高效的 JAX 框架构建,支持在 NVIDIA H100 GPU 或 TPU 上运行,并提供了便捷的 API 封装类,让用户能轻松调用预训练权重进行“计算机模拟诱变”等高级分析。虽然直接运行模型对硬件有一定要求,但官方也推荐通过云端 API 方式降低使用门槛,让非专业硬件用户也能受益于这一前沿成果。

使用场景

某生物制药公司的基因组学团队正在评估一种罕见遗传病候选药物靶点,需要精准预测患者特定 DNA 变异对基因表达及剪接模式的深层影响。

没有 alphagenome_research 时

  • 传统模型仅能分析短片段序列,无法捕捉长达 100 万碱基对范围内的远端调控元件相互作用,导致预测盲区。
  • 研究人员需分别运行多个独立工具来预测基因表达、剪接或染色质特征,数据整合困难且结果往往相互矛盾。
  • 缺乏单碱基分辨率的精细评估,难以区分同义突变与致病突变的细微差异,严重拖慢候选靶点的筛选速度。
  • 本地部署高精度模型依赖昂贵的专用硬件集群,中小规模实验室难以承担算力成本,只能依赖低精度的云端 API。

使用 alphagenome_research 后

  • 利用其统一的 DNA 序列模型,直接输入百万级碱基序列,一次性获得涵盖基因表达、剪接模式及接触图谱的全方位高分辨率预测。
  • 通过内置的变体评分器(variant scorers)和计算机诱变功能,快速量化特定突变的功能效应,将数周的实验验证工作压缩至几小时。
  • 基于 JAX 的高效实现配合预训练权重,使团队能在单张 NVIDIA H100 GPU 上完成复杂推理,大幅降低了高性能计算的门槛。
  • 提供的 Colab 笔记本和数据加载器让研究人员能立即复现论文结果,并灵活定制针对特定疾病位点的深度分析流程。

alphagenome_research 将原本碎片化、高门槛的基因组功能分析转化为统一、高效且精准的标准化流程,显著加速了从基因变异发现到药物靶点确证的研发周期。

运行环境要求

操作系统
  • Linux
GPU
  • 推理推荐至少 NVIDIA H100 GPU
  • 需正确安装 CUDA、cuDNN 和 JAX(具体版本未说明,需参考 JAX 官方文档)
内存

未说明

依赖
notes该工具基于 JAX 框架,非 PyTorch。推理强烈推荐使用 NVIDIA H100 GPU,训练推荐 TPU v3 或更高版本。模型权重需从 Kaggle 或 Hugging Face 下载,并同意非商业用途条款。建议创建 Python 虚拟环境以避免冲突。提供了 Colab 笔记本以便在无专用硬件环境下体验。
python未说明 (建议使用 Python 虚拟环境)
jax
dm-haiku
optax
tensorflow
numpy
pandas
pyBigWig
pyfaidx
huggingface_hub
kagglehub
alphagenome_research hero image

快速开始

AlphaGenome 页眉图片

AlphaGenome 研究

预提交检查

模型权重 | 安装 | 快速入门 | 文档 | 社区 | 使用条款

AlphaGenome 是一种统一的 DNA 序列模型,旨在推进调控性变异效应预测,并揭示基因组功能。它能够分析长达 100 万个碱基对的 DNA 序列,在单碱基对分辨率下提供跨多种模态的预测结果,包括基因表达、剪接模式、染色质特征和接触图谱等。

本仓库提供了以下研究代码:

  • AlphaGenome 模型的实现,使用 JAX 编写。
  • 包含配套变异评分器的 AlphaGenome API 实现。
  • 用于从 TFRecords 中读取 AlphaGenome 训练数据的数据集加载器。
  • Colab 笔记本,用于 运行 模型,以及 分析 评估结果。

我们强烈建议使用我们的 AlphaGenome API,无需专用硬件即可与模型交互。

安装

[!TIP] 我们强烈建议您创建一个 Python 虚拟环境, 以避免与系统 Python 环境发生冲突。

要安装,请克隆本仓库的本地副本并运行 pip install

$ git clone https://github.com/google-deepmind/alphagenome_research.git
$ pip install -e ./alphagenome_research

这将安装所有必需的依赖项,包括以 开发模式 安装本仓库。

模型权重

要使用我们预训练的模型权重,您可以从以下任一平台下载:

两者均要求接受我们的非商业 模型条款。请求将立即处理。

模型要求

为了运行模型,我们建议至少使用 NVIDIA H100 GPU。 请确保正确安装 CUDA、cuDNN 和 JAX;在此方面, JAX 安装文档 是一个有用的参考资料。

对于训练,我们建议使用 Tensor Processing Units (TPUs) v3 或更高版本。

快速入门

与 AlphaGenome 模型交互最简单的方式是使用提供的 DNA Model 类。该类封装了核心模型,并提供了一组更直观的函数,用于生成预测、对变异进行评分、执行体外诱变(ISM)等操作。

它还提供了以下工厂函数,用于使用我们预训练的权重创建模型实例:

from alphagenome_research.model import dna_model

# 从 Kaggle 下载:
model = dna_model.create_from_kaggle('all_folds')

# 或者从 Hugging Face:
model = dna_model.create_from_huggingface('all_folds')

以下是使用从 Kaggle 下载的模型权重进行变异预测的示例:

from alphagenome.data import genome
from alphagenome.visualization import plot_components
from alphagenome_research.model import dna_model
import matplotlib.pyplot as plt

model = dna_model.create_from_kaggle('all_folds')

interval = genome.Interval(chromosome='chr22', start=35677410, end=36725986)
variant = genome.Variant(
    chromosome='chr22',
    position=36201698,
    reference_bases='A',
    alternate_bases='C',
)

outputs = model.predict_variant(
    interval=interval,
    variant=variant,
    ontology_terms=['UBERON:0001157'],
    requested_outputs=[dna_model.OutputType.RNA_SEQ],
)

plot_components.plot(
    [
        plot_components.OverlaidTracks(
            tdata={
                'REF': outputs.reference.rna_seq,
                'ALT': outputs.alternate.rna_seq,
            },
            colors={'REF': 'dimgrey', 'ALT': 'red'},
        ),
    ],
    interval=outputs.reference.rna_seq.interval.resize(2**15),
    # 在变异位置添加一条垂直线作为标注。
    annotations=[plot_components.VariantAnnotation([variant], alpha=0.8)],
)
plt.show()

更多示例,请参阅我们的 快速入门 笔记本。

引用 AlphaGenome

如果您在研究中使用 AlphaGenome,请按以下方式引用:

@article{alphagenome,
  title={Advancing regulatory variant effect prediction with {AlphaGenome}},
  author={Avsec, {\v Z}iga and Latysheva, Natasha and Cheng, Jun and Novati, Guido and Taylor, Kyle R. and Ward, Tom and Bycroft, Clare and Nicolaisen, Lauren and Arvaniti, Eirini and Pan, Joshua and Thomas, Raina and Dutordoir, Vincent and Perino, Matteo and De, Soham and Karollus, Alexander and Gayoso, Adam and Sargeant, Toby and Mottram, Anne and Wong, Lai Hong and Drot{\'a}r, Pavol and Kosiorek, Adam and Senior, Andrew and Tanburn, Richard and Applebaum, Taylor and Basu, Souradeep and Hassabis, Demis and Kohli, Pushmeet},
  journal={Nature},
  volume={649},
  number={8099},
  pages={1206--1218},
  year={2026},
  doi={10.1038/s41586-025-10014-0},
  publisher={Nature Publishing Group UK London}
}

致谢

AlphaGenome 模型发布使用了以下库和软件包:

我们感谢所有这些项目的贡献者和维护者!

许可与免责声明

版权所有 2026 Google LLC

所有软件均采用 Apache License, Version 2.0(Apache 2.0)许可协议;除非符合 Apache 2.0 许可协议的规定,否则不得使用。您可以在以下网址获取 Apache 2.0 许可协议的副本: https://www.apache.org/licenses/LICENSE-2.0。如上所述,模型权重可通过 Kaggle 和 Hugging Face 获取,并受以下模型条款约束: https://deepmind.google.com/science/alphagenome/model-terms。

用于帮助您使用 AlphaGenome 模型的代码示例和文档采用知识共享署名 4.0 国际许可协议(CC-BY)授权。您可以在以下网址获取 CC-BY 许可协议的副本: https://creativecommons.org/licenses/by/4.0/legalcode。

除下文“训练数据”、“评估数据”或“训练与评估数据”标题下另有说明外,所有其他材料均采用知识共享署名-非商业性使用 4.0 国际许可协议(CC-BY-NC)授权。您可以在以下网址获取 CC-BY-NC 许可协议的副本: https://creativecommons.org/licenses/by-nc/4.0/legalcode。

除非适用法律要求或双方另有书面约定,否则在此依据 Apache 2.0 或 CC-BY 许可协议分发的所有软件和材料均按“现状”提供,不附带任何形式的明示或默示保证或条件。有关这些许可协议下的具体权限和限制,请参阅相应的许可协议文本。

本产品并非 Google 官方产品。

训练数据

FANTOM5: 此数据已重新处理。原始 FANTOM5 数据可在 https://fantom.gsc.riken.jp/5/ 下以 CC-BY 许可协议获取(请参阅上述链接以获取副本)。引用文献:Lizio M, et al. 更新 FANTOM 网络资源:扩展以提供更多转录组图谱。Nucleic Acids Res. 47: D752–D758 (2019)。https://doi.org/10.1093/nar/gky1099.

4D 核组: 此数据已按照随附论文“方法”部分中所述的方法进行重新处理。原始 4D 核组数据可从 4DN 数据门户 https://data.4dnucleome.org/ 获取,并受该网站上提供的数据使用指南约束。4DN 数据门户是 4DN 的一部分,引用文献为 4DN 白皮书(https://www.nature.com/articles/nature23884)和 4DN 数据门户论文(https://www.nature.com/articles/s41467-022-29697-4)。

评估数据

此数据包括:(i) 变异列表;(ii) 目标值;以及 (iii) AlphaGenome 预测得分。

CAGI: CAGI 数据可从 genomeinterpretation.org/challenges.html 获取,并受此处提供的条款约束: http://www.genomeinterpretation.org/data-use-agreement.html。

GTEx v8: GTEx v8 数据可从 gtexportal.org/home 获取。本文所描述工作的数据来源于: https://github.com/calico/borzoi。请访问 GTEx 门户网站以获取最新且最准确的数据版本。

GTEx v8 重新处理后纳入 EMBL-EBI eQTL 目录: 原始数据由 GTEx 门户网站提供(见上文),经 EMBL-EBI 修改后发布,并采用 CC-BY-4.0 许可协议授权,其副本可在以下网址找到: https://creativecommons.org/licenses/by/4.0/legalcode。引用文献:*Kerimov, N., Hayhurst, J.D., Peikova, K. et al. 统一处理的人类基因表达及剪接数量性状位点汇编。Nat Genet 53, 1290–1299 (2021)。https://doi.org/10.1038/s41588-021-00924-w.*

ChromBPNet: ChromBPNet 数据可从 https://www.synapse.org/Synapse:syn59449898/files/ 获取。引用文献:Pampari, A. et al. ChromBPNet:偏置因子分解、碱基分辨率的染色质可及性深度学习模型揭示顺式调控序列语法、转录因子足迹及调控变异。BioRxiv, 2024–12 (2025)。

ClinVar: ClinVar 数据可在以下网址找到: https://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/,并受此数据使用政策约束: https://www.ncbi.nlm.nih.gov/clinvar/docs/maintenance_use/。引用文献:*Landrum, M. J. et al. ClinVar:改善变异解读的可及性并提供支持证据。Nucleic Acids Res. 2018 年 1 月 4 日,46(D1): D1062–D1067。doi:10.1093/nar/gkx1153.*

MFASS: MFASS 数据可在 https://github.com/KosuriLab/MFASS 找到。引用文献:一种多重化外显子识别检测表明,未被充分认识的罕见遗传变异中有相当一部分会导致大效应的剪接紊乱;Chong, Rockie 等人;Molecular Cell,第 73 卷第 1 期,183–194.e8。

eQTL: eQTL 数据采用 CC-BY-4.0 许可协议授权,其副本可在以下网址找到: https://creativecommons.org/licenses/by/4.0/legalcode。引用文献:*Kerimov, N., Hayhurst, J.D., Peikova, K. et al. 统一处理的人类基因表达及剪接数量性状位点汇编。Nat Genet 53, 1290–1299 (2021)。https://doi.org/10.1038/s41588-021-00924-w。*

Open Targets: Open Targets 数据可在 https://platform-docs.opentargets.org/licence 获取,并采用知识共享 1.0 通用许可协议授权,其副本可在以下网址找到: https://creativecommons.org/publicdomain/zero/1.0/legalcode。

PolyA 位点注释: PolyA 位点注释可在以下网址获取: https://exon.apps.wistar.org/polya_db/v3/。本项目使用的数据是经过重新处理的版本,可在以下地址找到: https://storage.googleapis.com/seqnn-share/helper/polyadb_human_v3.csv.gz。引用文献:*Linder, J., Srivastava, D., Yuan, H. et al. 以 DNA 序列预测 RNA-seq 覆盖率作为统一的基因调控模型。Nat Genet 57, 949–961 (2025)。https://doi.org/10.1038/s41588-024-02053-6。*

训练与评估数据

ENCODE: 本数据已重新处理。原始 ENCODE 数据可根据数据使用政策(https://www.encodeproject.org/help/citing-encode/)在 https://www.encodeproject.org/help/getting-started/#download 上获取。具体数据已在《利用 AlphaGenome 推进调控性变异效应预测》论文的补充表格中列出并引用。该数据由 ENCODE 联盟提供,其最新发表的文献包括:

GENCODE: 已发布的 GENCODE 数据集版权归 EMBL-EBI 所有,版权年份为 2024 年。经过修改的 GENCODE 数据集版本(可在 https://www.gencodegenes.org/human/releases.html 查阅)在使用时需注明以下信息:

为准备该数据集,团队遵循了此处所述的方法:https://github.com/google-deepmind/alphagenome/blob/main/scripts/process_gtf.py。

第三方软件

您对本仓库中材料所引用的任何第三方软件、库或代码的使用(包括“致谢”章节中列出的库),可能受单独的条款与条件或许可协议约束。您对这些第三方软件、库或代码的使用须遵守相应规定,并应在使用前确认自己能够符合所有适用的限制或条款与条件。

版本历史

v0.2.02026/04/02
v0.1.02026/02/20
v0.0.12026/01/28

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。

72.1k|★☆☆☆☆|2天前
开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最

65.6k|★☆☆☆☆|今天
开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架,旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。 无论是刚入门的学生、专注算法的研究人员,还是需要快速落地产品的工程师,都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码,即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性,还允许开发者根据需求自由选择:利用 JAX 或 PyTorch 的即时执行模式进行高效调试,或切换至速度最快的后端以获得最高 350% 的性能提升。此外,Keras 具备强大的扩展能力,能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群,是连接原型开发与生产部署的理想桥梁。

63.9k|★★☆☆☆|昨天
开发框架数据工具其他