materials_discovery

1.2k 182 较难 1 次阅读今天Apache-2.0其他

AI 解读由 AI 自动生成，仅供参考

Materials Discovery: GNoME 是一个致力于加速无机晶体发现的研究项目，旨在利用机器学习解决材料科学中从芯片到电池、光伏等领域的核心难题。该项目通过扩展机器学习方法的规模，成功预测并分享了超过 38 万种新型稳定材料结构；截至 2024 年 8 月，数据集已进一步扩充至逾 52 万种能量极接近理论稳定态的材料，为科研人员提供了宝贵的“凸包”参考上下文。

其核心技术亮点在于采用了名为 GNoME 的消息传递图神经网络架构，该模型在训练后实现了 21meV/atom 的顶尖预测精度，大幅降低了筛选新材料的计算成本。此外，项目还集成了 Nequip 架构以学习原子间势能及材料动力学特性，并提供了基于 JAX 的实现代码。配套的数据集不仅包含详细的成分与能量信息，还通过 Colab 笔记本提供了便捷的交互接口，方便用户探索化学体系或计算分解能。

Materials Discovery: GNoME 主要面向材料科学研究人员、计算化学家以及 AI 领域的开发者。对于希望利用数据驱动方法加速新材料研发、验证理论模型或探索未知化学空间的团队而言，这是一个极具价值的开源资源。需要注意的是，该项目属于前沿研究性质，数据与代码仍在持续迭代中，欢迎社区共同探索与反馈。

使用场景

某新能源实验室的研究团队正致力于寻找一种高稳定性、低成本的固态电池电解质材料，需要在数百万种可能的化学组合中筛选出具备实际应用潜力的候选晶体。

没有 materials_discovery 时

研究人员依赖传统的密度泛函理论（DFT）逐个计算候选材料的稳定性，筛选一个化学体系往往需要数周甚至数月的超算时间。
由于缺乏大规模预计算数据支持，团队极易陷入“局部最优”，错过那些位于凸包（convex hull）边缘但极具潜力的新型稳定结构。
面对海量的化学空间，团队只能凭经验缩小搜索范围，导致大量潜在的突破性材料因未被纳入测试列表而永远被埋没。
每次尝试新的元素组合都需要重新搭建计算流程，重复劳动繁多且难以复用历史数据，研发迭代周期极其漫长。

使用 materials_discovery 后

团队直接调用 GNoME 发布的超过 52 万种已验证稳定材料的数据库，瞬间锁定数百个符合能量标准的候选者，将筛选时间从数月缩短至几分钟。
借助更新后的凸包数据，研究人员能清晰识别出距离理论稳定态仅 1 meV/atom 以内的微稳态材料，大幅扩展了可探索的化学家族边界。
利用提供的 Colab 示例和预训练模型，团队可快速计算特定体系的分解能，无需从头训练模型或运行昂贵的 DFT 基准测试。
基于现成的结构化数据和 JAX 实现的 Nequip 架构，团队能迅速模拟材料动力学行为，将原本线性的研发流程转变为并行的多方案验证模式。

materials_discovery 通过将机器学习规模化的预测能力转化为现成的海量数据集，彻底打破了传统材料发现中的算力与时间瓶颈，让科学家能从繁琐的计算中解放出来，专注于真正的科学创新。

运行环境要求

操作系统

未说明

GPU

需要 GPU（用于 JAX 加速），具体型号、显存大小及 CUDA 版本未在文档中明确说明

内存

未说明（文档提及结构文件加载因文件大小而复杂，暗示可能需要较大内存）

依赖

notes该项目主要提供数据集和模型定义。其中 Nequip 模型提供了基于 JAX 的实现。代码和笔记本在 Apache 2.0 许可下发布，但数据集遵循 CC BY-NC 4.0（非商业性）许可。文档提到结构文件较大，建议参考 Colab 示例学习如何从压缩数据中提取特定文件以避免加载全部数据。这是一个研究项目而非官方 Google 产品，可能存在缺陷。

python未说明

JAX

Nequip

快速开始

材料发现：GNoME

数据集 | 模型 | Colab 笔记本 | 许可证 | 免责声明 | 即将推出 | 引用

什么是材料发现：GNoME？

从微芯片到电池和光伏器件，无机晶体的发现是材料科学中的一个基本问题。材料科学中的图网络（GNoME）项目旨在通过扩展机器学习方法来解决这一核心任务。该项目近期发表了研究成果，本仓库旨在与更广泛的材料科学界共享对381,000种新型稳定材料的发现，并希望通过更新的凸包结构促进令人兴奋的新研究。

截至2024年8月，我们已扩展数据集，发布了所有能量距离凸包小于1 meV/原子的材料。我们希望这能为感兴趣的化学家族中的凸包提供更丰富的背景信息，使总材料数量超过520,000种。

这是一个研究项目，并非谷歌的官方产品。随着仓库内容的不断扩展，可能会出现一些错误和不完善之处。请帮助我们探索这些结构，并告诉我们您的想法！

数据集

原始论文中描述的数据集以多种文件格式提供。有关详细信息，包括如何下载数据集，请参阅 DATASET.md 中的数据集说明文件。

摘要版 数据集摘要以 CSV 格式提供。该文件包含基于密度泛函理论（DFT）计算得到的成分和原始能量，以及其他常用指标（如形成能和分解能）。

结构文件 由于文件体积较大，加载结构文件稍显复杂。鉴于凸包的组织方式，每种成分只需一个结构，因此可以使用摘要文件中的信息从链接的云存储桶中提取压缩数据目录。另一种方法是从压缩的 ZIP 文件中单独提取所需文件（仅提取必要的文件），可视化 Colab 笔记本中对此进行了示例说明。

r²SCAN 基线计算采用 PBE 泛函进行。论文还报告了使用 r²SCAN 泛函计算的二元和三元体系的相关指标。我们为此类计算提供了计算能量及相应指标的摘要。

模型

我们提供了论文中使用的两组模型的定义。

GNoME 是新材料发现的主要模型。这种简单的消息传递架构通过对2018年 Materials Project 数据快照进行训练而优化，最终实现了21 meV/原子的先进性能。

Nequip 对应于 Batzner 等人（2022）提出的架构。该架构用于训练论文中描述的原子间势函数，从而从大规模数据集中学习动力学特性。我们提供了基于 JAX 的实现以及相应架构的基本配置参数。

Colab 笔记本

这些 Colab 示例展示了如何与数据集交互，为探索各种化学体系或计算分解能提供了接口。

许可证

本仓库中提供的 Colab 笔记本及相关代码采用 Apache License, Version 2.0 许可证授权。您可以在 https://www.apache.org/licenses/LICENSE-2.0 获取该许可证的副本。

材料探索图网络数据库中的数据可根据知识共享署名-非商业性使用4.0国际许可协议（CC BY NC 4.0）使用。您可以在 https://creativecommons.org/licenses/by-nc/4.0/ 获取该许可证的副本。该数据集是使用 Vienna Ab initio Simulation Package (VASP) 运行密度泛函理论计算而创建的。

即将推出

参考结构和搜索路径
模型训练 Colab 和配置
其他材料属性（例如电子能带结构）

免责声明

本项目并非谷歌的官方产品。

材料探索图网络数据库，版权属于 Google LLC，(2023)。

材料探索图网络数据库中的数据仅供理论建模使用，在使用时应谨慎。该数据库并非用于且未获批准用于任何医疗或临床用途。材料探索图网络数据库具有实验性质，按“现状”提供。在法律允许的最大范围内，Google 对材料探索图网络数据库不作任何明示或暗示的陈述、条件或保证（包括但不限于不侵犯第三方知识产权、质量合格、适销性或特定用途适用性），用户应就其使用此类内容承担全部责任，并使 Google 免受任何损害。

引用

如果您使用本资源，请引用我们的论文：

  @article{merchant2023scaling,
    title={Scaling deep learning for materials discovery},
    author={Amil Merchant and Simon Batzner and Samuel S. Schoenholz and Muratahan Aykol and Gowoon Cheon and Ekin Dogus Cubuk},
    journal={Nature},
    year={2023},
    doi={10.1038/s41586-023-06735-9},
    href={https://www.nature.com/articles/s41586-023-06735-9},
}

Materials Discovery (GNoME) 快速上手指南

环境准备

本项目主要涉及数据集加载、模型定义及 JAX 环境的配置。请确保您的开发环境满足以下要求：

操作系统：推荐 Linux (Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本：Python 3.9 或更高版本。
硬件要求：
- CPU：用于数据预处理和基础分析。
- GPU：强烈推荐配备 NVIDIA GPU（需安装 CUDA），以便运行 Nequip 模型训练或大规模推理。
前置依赖：
- pip 包管理工具
- git
- Google Cloud Storage 访问权限（用于下载大型数据集）

注意：由于核心计算库 JAX 对 GPU 支持有特定要求，建议先根据 JAX 官方安装指南配置好带有 CUDA/cuDNN 支持的 JAX 环境。

安装步骤

克隆仓库 获取项目源代码：

git clone https://github.com/google-deepmind/materials_discovery.git
cd materials_discovery

创建虚拟环境并安装依赖 推荐使用 venv 或 conda 隔离环境。以下为使用 pip 的标准安装流程：

python -m venv gnome_env
source gnome_env/bin/activate  # Windows 用户使用: gnome_env\Scripts\activate

# 安装基础依赖
pip install -r requirements.txt

# 安装 JAX (示例：安装支持 CUDA 的版本，请根据实际硬件调整)
pip install "jax[cuda12_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

获取数据集 项目包含超过 520,000 种材料数据，文件较大，需从 Google Cloud Bucket 下载。
- 详细下载说明和描述文件请参阅项目根目录下的 DATASET.md。
- 数据集许可协议为 CC BY-NC 4.0（非商业用途）。
通常需要使用 gsutil 工具下载：
```
# 确保已安装 google-cloud-storage 包
pip install google-cloud-storage

# 示例：下载摘要数据 (具体路径请参考 DATASET.md)
# gsutil cp gs://gnome-dataset/summary.csv ./data/
```

基本使用

本项目最便捷的使用方式是通过 Google Colab 进行交互式探索，无需本地配置复杂环境。若需在本地运行，可参考以下逻辑加载数据。

方式一：使用 Colab 笔记本（推荐）

项目提供了现成的 Colab 示例，用于探索化学系统或计算分解能。

访问项目 README 中的 [Colabs] 部分链接。
在 Colab 中打开笔记本，按照单元格顺序执行。
笔记本演示了如何从压缩数据包中提取特定结构，并可视化凸包（Convex Hull）数据。

方式二：本地代码示例

以下是一个简化的 Python 示例，展示如何读取数据集摘要（CSV 格式）并查看材料形成能：

import pandas as pd

# 1. 加载摘要数据 (假设已下载 summary.csv 到本地 data 目录)
df = pd.read_csv('data/summary.csv')

# 2. 查看前几行数据
print(df.head())

# 3. 筛选稳定材料 (例如：分解能 < 0 的材料)
stable_materials = df[df['decomposition_energy'] < 0]

print(f"发现稳定材料数量：{len(stable_materials)}")

# 4. 查看特定化学组成的能量信息
# 注意：完整结构文件位于压缩目录中，需根据 composition 索引提取
target_composition = "LiFePO4" # 示例组成
result = df[df['composition'] == target_composition]
if not result.empty:
    print(f"找到 {target_composition}, 形成能：{result['formation_energy'].values[0]} eV/atom")
else:
    print(f"未找到 {target_composition}")

模型使用提示

GNoME 模型：用于预测新材料稳定性，基于 2018 年 Materials Project 快照训练。
Nequip 模型：用于学习原子间势能及动力学，提供 JAX 实现。
具体的模型加载和推理配置请参考 models/ 目录下的定义文件及后续更新的训练 Colab。

引用说明：若在研究中使用本资源，请务必引用原文献： Merchant et al., "Scaling deep learning for materials discovery", Nature (2023).

常见问题

离子弛豫数据集（ionic relaxation dataset）是否会向社区开放？

使用 gsutil 下载数据集时出现反复重试错误怎么办？

nequip 和 GNoME 模型文件代码完全一样，它们是相同的模型吗？

A-lab 的设计和配置会开源吗？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|6天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.7k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|1周前

开发框架其他