AI2BMD

571 82 中等 1 次阅读 2周前MIT其他

AI 解读由 AI 自动生成，仅供参考

AI2BMD 是一款由微软推出的开源程序，旨在利用人工智能技术高效模拟蛋白质分子动力学，并达到第一性原理（ab initio）的计算精度。传统上，要实现如此高精度的生物分子模拟往往需要巨大的计算资源和漫长的时间，而 AI2BMD 通过深度学习模型成功解决了这一效率瓶颈，让研究人员能够在可接受的时间内获得接近量子力学计算级别的准确结果。

该工具特别适合计算生物学、生物物理学领域的科研人员以及关注分子模拟算法的开发者使用。其核心亮点在于将复杂的密度泛函理论（DFT）计算能力与 AI 推理速度相结合，内置了包含约 2000 万种二肽构象的大规模训练数据集，并支持如 Chignolin 等标准蛋白质体系的快速模拟。用户无需配置复杂的环境，只需通过简单的 Python 启动脚本配合 Docker 容器即可运行。目前，AI2BMD 已将其核心研究成果发表于《自然》杂志，为探索蛋白质折叠、药物研发等前沿科学问题提供了强有力的计算支持。

使用场景

某生物医药研发团队正致力于解析一种新型小蛋白药物在原子层面的折叠路径与动态稳定性，以指导后续的分子优化设计。

没有 AI2BMD 时

计算成本极高：传统从头算（ab initio）分子动力学模拟依赖密度泛函理论（DFT），对包含上百个原子的蛋白质进行纳秒级模拟，往往需要占用超级计算机数周甚至数月的算力资源。
精度与效率难以兼得：为了缩短时间，研究人员被迫使用经验力场代替量子力学计算，但这牺牲了电子层面的高精度，无法准确捕捉化学键断裂或复杂的电荷转移过程。
数据采样不足：受限于昂贵的计算开销，只能运行极短时间的模拟或极少次数的重复实验，导致无法充分探索蛋白质广阔的构象空间，遗漏关键的中间态结构。
技术门槛高：搭建高精度的量子化学计算环境复杂，参数调试繁琐，严重拖慢了从假设提出到验证的迭代周期。

使用 AI2BMD 后

仿真速度飞跃：AI2BMD 利用深度学习模型替代耗时的 DFT 实时计算，在保持从头算精度的前提下，将模拟速度提升了数个数量级，使原本需数月的任务在普通工作站上几天即可完成。
兼顾量子精度：无需妥协于经验力场，AI2BMD 直接输出符合 DFT 级别（如 M06-2X/6-31G*）的势能面和原子受力，精准还原蛋白质折叠过程中的微观量子效应。
充分构象采样：高效的计算能力支持运行更长时程的轨迹模拟和更多样本的并行测试，帮助团队完整绘制出蛋白质折叠的自由能景观，发现以往被忽略的亚稳态。
部署便捷高效：通过 Docker 镜像和简单的 Python 启动脚本，研究人员无需深入配置复杂的量子化学软件栈，即可快速复现 Nature 论文级别的模拟结果。

AI2BMD 成功打破了量子精度与计算效率之间的长期壁垒，让科研团队能以低成本实现“显微镜级”的蛋白质动态观测。

运行环境要求

操作系统

Linux (x86-64)

GPU

必需，需支持 CUDA 的 NVIDIA GPU，显存 8GB+
已测试型号：A100, V100, RTX A6000, Titan RTX

内存

32GB+

依赖

notes该工具通过 Docker 镜像分发，无需手动安装复杂的 Python 依赖库，但宿主机器必须安装 Docker 并将用户加入 docker 组。输入蛋白文件 (.pdb) 需预先处理：添加氢原子，并在 N 端和 C 端分别加上 ACE 和 NME 封端基团，且需符合特定的原子命名规范（建议使用 PyMOL 和 AmberTools 处理）。目前不支持含二硫键的蛋白质。

python3.7+

Docker (26.1+)

NVIDIA Container Toolkit (隐含需求)

快速开始

AI²BMD：人工智能驱动的从头计算生物分子动力学模拟

概述

AI²BMD 是一款能够以从头计算精度高效模拟蛋白质分子动力学的程序。本仓库包含该模拟程序、数据集以及与 AI²BMD 相关的公开资料。AI²BMD 的主要内容已发表在《Nature》期刊上（https://www.nature.com/articles/s41586-024-08127-z）。

以下动画展示了 AI²BMD 的工作原理。

https://github.com/user-attachments/assets/912a3e5a-c465-4dc7-8c2d-9f7807cac2a7

快速入门

AI²BMD 的源代码托管于此仓库中。我们已将源代码和运行时库打包成 Docker 镜像，并提供一个 Python 启动脚本，以简化安装流程。要运行该模拟程序，您无需克隆此仓库。只需下载 scripts/ai2bmd 并执行即可（需 Python >=3.7 和 Docker 环境）。

我们可以按照如下步骤运行一次分子动力学模拟：

# 如果已设置好启动脚本，可跳过以下两行
wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/scripts/ai2bmd'
chmod +x ai2bmd
# 下载 Chignolin 蛋白质结构数据文件
wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig.pdb'
# 下载预处理并溶剂化的 Chignolin 蛋白质结构数据文件
wget --directory-prefix=chig_preprocessed 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig_preprocessed/chig-preeq.pdb'
wget --directory-prefix=chig_preprocessed 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig_preprocessed/chig-preeq-nowat.pdb'
# 从容器注册表拉取 Docker 镜像
docker pull ghcr.io/microsoft/ai2bmd:latest
# 启动程序，所有模拟参数均采用默认值
# 如果用户未加入 docker 组，可能需要使用 sudo 执行以下命令
./ai2bmd --prot-file chig.pdb --preprocess-dir chig_preprocessed --preeq-steps 0 --sim-steps 1000 --record-per-steps 1

这里我们以一个非常简单的蛋白质 Chignolin 作为示例。程序将使用默认参数进行模拟。

结果将保存在一个名为 Logs-chig 的新目录中。该目录包含模拟轨迹文件：

chig-traj.traj：ASE 二进制格式的完整轨迹文件。

注意：目前，AI²BMD 支持具有中性末端封端（ACE 和 NME）、单链且由标准氨基酸组成的蛋白质的 MD 模拟。

数据集

蛋白质单元数据集

蛋白质单元数据集涵盖了约 2000 万个在 DFT 水平下计算得到的二肽构象。可通过以下命令下载：

# 如果已设置好启动脚本，可跳过以下两行
wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/scripts/ai2bmd'
chmod +x ai2bmd
# 如果用户未加入 docker 组，可能需要使用 sudo 执行以下命令
./ai2bmd --download-training-data

下载完成后，当前工作目录中将生成多个 numpy 数据文件 (*.npz)。

AIMD-Chig 数据集

AIMD-Chig 数据集包含 166 个原子的 Chignolin 蛋白质的 200 万个构象，以及它们对应的势能和原子力，这些数据均由密度泛函理论 (DFT) 在 M06-2X/6-31G* 水平下计算得出。

阅读文章 [AIMD-Chig：利用从头计算分子动力学探索 166 原子蛋白质 Chignolin 的构象空间]（https://www.nature.com/articles/s41597-023-02465-9）。
查看报道 [首个达到从头计算精度的蛋白质完整构象分子动力学数据集及其背后的新型计算技术]（https://bioengineeringcommunity.nature.com/posts/aimd-chig-exploring-the-conformational-space-of-proteins-at-dft-level）。
获取数据集 [AIMD-Chig]（https://figshare.com/articles/dataset/_strong_AIMD-Chig_exploring_the_conformational_space_of_166-atom_protein_strong_em_strong_Chignolin_strong_em_strong_with_strong_em_strong_ab_initio_strong_em_strong_molecular_dynamics_strong_/22786730）。

系统要求

硬件要求

AI²BMD 程序可在 x86-64 架构的 GNU/Linux 系统上运行。我们建议使用具备以下配置的机器：

CPU：8 核及以上
内存：32 GB 及以上
GPU：支持 CUDA 的 GPU，显存 8 GB 及以上

该程序已在以下 GPU 上测试通过：

A100
V100
RTX A6000
Titan RTX

软件要求

该程序已在以下系统上测试通过：

操作系统：Ubuntu 20.04，Docker：27.1
操作系统：ArchLinux，Docker：26.1

高级设置

环境配置

为方便实用，运行时库及依赖项已被打包至 Docker 镜像中。在启动 Docker 镜像之前，您需要安装 Docker 软件（详情请参阅 https://docs.docker.com/engine/install/），并将当前用户添加到 docker 组中，具体操作如下：

sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

蛋白质文件准备

AI²BMD 的输入文件应为 .pdb 格式。如果 .pdb 文件中缺少氢原子，需添加氢原子。随后，应在蛋白质的 N 端用 ACE（乙酰基）封端，在 C 端用 NME（N-甲基）封端。这些步骤可使用 PyMOL 软件通过以下命令高效完成。

from pymol import cmd
pymol.finish_launching()
cmd.load("your_protein.pdb","molecule")
cmd.h_add("molecule") # 添加氢原子

cmd.wizard("mutagenesis")
cmd.get_wizard().set_n_cap("acet")
selection = "/%s//%s/%s" % (molecule, chain, resi) # 选择 N 端
cmd.get_wizard().do_select(selection)
cmd.get_wizard().apply()

cmd.get_wizard().set_c_cap("nmet")
selection = "/%s//%s/%s" % (molecule, chain, resi) # 选择 N 端
cmd.get_wizard().do_select(selection)
cmd.get_wizard().apply()

cmd.set_wizard()

接下来，可以使用 AmberTools 的 pdb4amber 工具调整 .pdb 文件中的原子名称，特别是确保 ACE 和 NME 的命名符合 ai2bmd 的要求。ACE 和 NME 的原子名称应符合以下规范：

ACE：C、O、CH3、H1、H2、H3
NME：N、CH3、H、HH31、HH32、HH33

pdb4amber -i your_protein.pdb -o processed_your_protein.pdb

此外，请确认蛋白质链中不存在 TER 分隔符，并且残基编号应从 1 开始，不得有间隙。

完成上述步骤后，您的 .pdb 文件应类似于以下格式：

ATOM      1  H1  ACE     1      10.845   8.614   5.964  1.00  0.00           H
ATOM      2  CH3 ACE     1      10.143   9.373   5.620  1.00  0.00           C
ATOM      3  H2  ACE     1       9.425   9.446   6.437  1.00  0.00           H
ATOM      4  H3  ACE     1       9.643   9.085   4.695  1.00  0.00           H
ATOM      5  C   ACE     1      10.805  10.740   5.408  1.00  0.00           C
ATOM      6  O   ACE     1      10.682  11.417   4.442  1.00  0.00           O
...
ATOM    170  N   NME    12       9.499   8.258  10.367  1.00  0.00           N
ATOM    171  H   NME    12       9.393   8.028  11.345  1.00  0.00           H
ATOM    172  CH3 NME    12       8.845   7.223   9.569  1.00  0.00           C
ATOM    173 HH31 NME    12       7.842   6.990   9.925  1.00  0.00           H
ATOM    174 HH32 NME    12       8.798   7.589   8.543  1.00  0.00           H
ATOM    175 HH33 NME    12       9.418   6.305   9.435  1.00  0.00           H
END

您也可以参考 examples 文件夹中的蛋白质文件。需要注意的是，目前机器学习势能对含有二硫键的蛋白质支持尚不完善，我们将在近期进行更新。

预处理

在预处理阶段，系统会先构建溶剂化体系，然后进行能量最小化和若干预平衡阶段。目前，AI²MD 通过参数 preprocess_method 提供两种预处理方法。

如果您选择 FF19SB 方法，系统将依次经历溶剂化、能量最小化、加热以及多个预平衡阶段。为了利用多核 CPU 和 GPU 加速预处理过程，您需要获取 AMBER 软件包，并修改 src/AIMD/preprocess.py 中的相关命令。

如果您选择 AMOEBA 方法，系统将仅进行溶剂化和能量最小化阶段。我们强烈建议您进行预平衡模拟，以使模拟系统充分松弛。

模拟

AI²BMD 通过参数 mode 提供两种生产模拟模式。默认的 fragment 模式表示蛋白质会被分割成二肽，然后在每一步模拟中由机器学习势能进行计算。

AI²BMD 也支持用户自行训练机器学习势能，并在不进行碎片化的情况下进行模拟。visnet 模式表示蛋白质的整体势能和原子力将由 ViSNet 模型直接计算，无需进行碎片化。使用此模式时，您需要自行使用分子数据训练 ViSNet 模型，将其上传至 src/ViSNet，并为参数 ckpt-type 设置相应的值。这样，您就可以使用 AI²BMD 模拟程序来模拟除蛋白质以外的任何分子。如需自行训练 ViSNet 模型，请参阅分支 ViSNet，其中包含源代码、模型训练说明及其他技术细节。

要执行包括预处理在内的完整 AI²BMD 模拟，可参考以下命令。

wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/scripts/ai2bmd'
chmod +x ai2bmd
# 如果用户未配置 docker 组，可能需要使用 sudo 运行以下命令
./ai2bmd --prot-file path/to/target-protein.pdb --sim-steps nnn  ...
#        '-------- 必填参数 ---------' '-- 可选参数 --'
#
# 常见可选参数：
#
# 【模拟目录映射选项】
#   --base-dir path/to/base-dir    模拟运行目录（默认为当前目录）
#   --log-dir  path/to/log-dir     日志及结果保存目录（默认为 base-dir/Logs-蛋白质名）
#   --src-dir  path/to/src-dir     将本地 src 目录挂载到仓库的 src/ 目录位置（默认不启用）
#
# 【模拟参数选项】
#   --sim-steps nnn                模拟步数
#   --temp-k nnn                   模拟温度（单位：开尔文）
#   --timestep nnn                 模拟时间步长（单位：飞秒）
#   --preeq-steps nnn              每个约束条件下的预平衡模拟步数
#   --max-cyc nnn                  预处理中能量最小化的最大循环次数
#   --preprocess-method [method]   预处理方法
#   --mode [mode]                  模拟过程中是否进行碎片化
#   --record-per-steps nnn         轨迹保存频率
#
# 【性能优化选项】
#   --device-strategy [strategy]   计算设备分配策略
#       excess-compute                 保留最后一块 GPU 用于非键合及溶剂相关计算
#       small-molecule                 最大化资源用于模型推理
#       large-molecule                 提升大分子模拟性能
#   --chunk-size nnn               每批处理的原子数（减少内存消耗）
#
# 【其他启动选项】
#   --software-update              若指定，则在运行前更新 Docker 镜像中的程序
#   --download-training-data       若指定，则下载 AI2BMD 训练数据并解压到工作目录，忽略其他所有选项。
#   --gpus                         指定传递给程序的 GPU 设备，可选：
#                                  all:        将所有可用 GPU 传递给程序。

#                                  none:       禁用 GPU 直通。
#                                  i[,j,k...]  直通部分 GPU。示例：--gpus 0,1

后处理分析

模拟轨迹的格式为 ASE 格式的 .traj 文件。若需将其转换为 .dcd 格式以便进行可视化，可先安装 MDAnalysis，并以 src/utils/traj2dcd.py 脚本作为参考，执行以下命令：

python traj2dcd.py --input xxx.pdb --output xxx.dcd --pdb xxx.pdb --num-atoms nnn --stride nnn

# 参数说明：
# --input         输入轨迹文件的名称
# --output        输出轨迹文件的名称
# --pdb           与输入轨迹对应的参考 PDB 文件
# --num-atoms     蛋白质或整个溶剂化体系的原子数
# --stride        输出轨迹的频率

故障排除

由于对质子跳跃行为的建模不足或模拟体系设置不当，模拟可能会崩溃。质子跳跃现象在大型生物分子和长时间模拟中尤为常见。鉴于机器学习势能训练过程中已出现过若干质子跳跃案例，模型可能遇到“分布外”情况，从而给出错误的原子作用力，最终导致模拟崩溃。我们将持续更新 AI²BMD 势能，提升其预测能力；同时也强烈建议大家贡献数据集，以进一步微调模型。

为避免或缓解模拟崩溃，我们提供以下建议：1) 在正式生产模拟运行前充分弛豫模拟体系；2) 延长预平衡模拟的时间；3) 在正式生产模拟中增加施加约束条件的模拟时长（通过参数 preeq-steps）；4) 从崩溃前几步处重新启动模拟；5) 扩大溶剂盒子的尺寸；6) 调整其他模拟体系设置。

除了直接进行模拟之外，我们也鼓励用户利用 AI²BMD 对现有模拟轨迹进行重加权，并据此计算蛋白质的相关性质。

引用

(#：共同第一作者；*：通讯作者）

Tong Wang#*, Xinheng He#, Mingyu Li#, Yatao Li#, Ran Bi, Yusong Wang, Chaoran Cheng, Xiangzhen Shen, Jiawei Meng, He Zhang, Haiguang Liu, Zun Wang, Shaoning Li, Bin Shao*, Tie-Yan Liu. 利用AI²BMD对蛋白质分子动力学进行从头计算表征。Nature 2024。

Yusong Wang#, Tong Wang#*, Shaoning Li#, Xinheng He, Mingyu Li, Zun Wang, Nanning Zheng, Bin Shao*, Tie-Yan Liu. 通过等变向量-标量交互消息传递增强分子的几何表征，Nature Communications, 15.1 (2024): 313。

Tong Wang#*, Xinheng He#, Mingyu Li#, Bin Shao*, Tie-Yan Liu. AIMD-Chig：利用从头算分子动力学探索166个原子的Chignolin蛋白构象空间，Scientific Data 10, 549 (2023)。

Yusong Wang#, Shaoning Li#, Tong Wang*, Bin Shao, Nanning Zheng, Tie-Yan Liu. 带有原子间位置编码的几何Transformer。NeurIPS 2023。

Zun Wang#, Hongfei Wu#, Lixin Sun, Xinheng He, Zhirong Liu, Bin Shao, Tong Wang*, Tie-Yan Liu. 利用细粒度力场指标改进用于分子动力学模拟的机器学习力场，The Journal of Chemical Physics，第159卷，第3期，封面文章。

Shiqi Gong#, Xinheng He#, Qi Meng, Zhiming Ma, Bin Shao*, Tong Wang*, Tie-Yan Liu. 蛋白质动力学马尔可夫状态模型的随机延迟时间参数化，The Journal of Physical Chemistry B 2022年第126卷第46期，封面文章，2022年。

许可证

根据MIT许可证授权。

免责声明

AI²BMD 是一项研究项目。它并非微软官方支持的产品。

联系方式

如有任何问题、建议或技术支持，请联系 Tong Wang（项目负责人）和 Ran Bi。

AI2BMD 快速上手指南

AI2BMD 是一款基于人工智能的从头算（ab initio）生物分子动力学模拟程序，能够以量子力学精度高效模拟蛋白质动力学。本指南将帮助您快速在本地环境中部署并运行该工具。

环境准备

系统要求

操作系统: x86-64 GNU/Linux (推荐 Ubuntu 20.04 或 ArchLinux)
CPU: 8 核及以上
内存: 32 GB 及以上
GPU: 支持 CUDA 的显卡，显存 8 GB 及以上
- 已测试型号: A100, V100, RTX A6000, Titan RTX

前置依赖

Python: 版本 >= 3.7
Docker: 已安装并配置好用户权限
- 若未配置 Docker 用户组，请执行以下命令：
```
sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker
```

安装步骤

AI2BMD 采用 Docker 容器化部署，无需克隆整个代码仓库，只需下载启动脚本即可。

下载启动脚本并赋予执行权限：

wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/scripts/ai2bmd'
chmod +x ai2bmd

拉取 Docker 镜像：首次运行时脚本会自动拉取，也可手动预拉取：
```
docker pull ghcr.io/microsoft/ai2bmd:latest
```

基本使用

以下示例演示如何对一个小蛋白 Chignolin 进行简单的动力学模拟。

1. 准备数据文件

下载示例蛋白结构文件及预处理文件：

# 下载原始蛋白结构
wget 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig.pdb'

# 下载预处理后的溶剂化结构文件
mkdir -p chig_preprocessed
wget --directory-prefix=chig_preprocessed 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig_preprocessed/chig-preeq.pdb'
wget --directory-prefix=chig_preprocessed 'https://raw.githubusercontent.com/microsoft/AI2BMD/main/examples/chig_preprocessed/chig-preeq-nowat.pdb'

2. 运行模拟

执行以下命令启动模拟（使用默认参数，模拟 1000 步）：

./ai2bmd --prot-file chig.pdb --preprocess-dir chig_preprocessed --preeq-steps 0 --sim-steps 1000 --record-per-steps 1

注意：如果当前用户未加入 docker 组，可能需要在命令前加 sudo。

3. 查看结果

模拟完成后，结果将保存在 Logs-chig 目录中：

chig-traj.traj: ASE 二进制格式的全轨迹文件。

输入文件注意事项

目前 AI2BMD 仅支持以下类型的蛋白质模拟：

单链蛋白
标准氨基酸
末端需封闭：N 端为 ACE (乙酰基)，C 端为 NME (N-甲基)
暂不支持二硫键（后续版本将更新支持）

若需处理自己的 PDB 文件，请确保补充氢原子并按上述要求添加末端封闭基团（可参考 PyMOL 或 AmberTools 进行处理）。

版本历史

v1.1.02025/02/18

v1.0.02025/02/18

v0.1.02025/02/18

ViSNet-v1.02023/11/03

常见问题

运行模拟时出现"Solvent dynamic component Tinker terminated abnormally"错误或卡在 80-100 步怎么办？

遇到"[Errno 32] Broken pipe"错误导致模拟终止的原因是什么？

如何处理 pdb4amber 处理后产生的 ACE/NME 残基原子命名不匹配问题？

如何在 Docker 容器中运行本地修改过的 preprocess.py 脚本？

Pretrained-3D-ViSNet 模型在验证集上的表现较差（如 MAE 约为 0.091）是否正常？

哪些 GPU 型号支持 AI2BMD 的 Tinker-GPU 加速？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他

使用场景

没有 AI2BMD 时

使用 AI2BMD 后

运行环境要求

快速开始

AI2BMD：人工智能驱动的从头计算生物分子动力学模拟

目录

概述

快速入门

数据集

蛋白质单元数据集

AIMD-Chig 数据集

系统要求

硬件要求

软件要求

高级设置

环境配置

蛋白质文件准备

预处理

模拟

后处理分析

故障排除

相关研究

模型架构

ViSNet

Geoformer

面向MLFF的细粒度力场指标

马尔可夫状态模型的随机延迟时间参数化

引用

许可证

免责声明

联系方式

AI2BMD 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

基本使用

1. 准备数据文件

2. 运行模拟

3. 查看结果

输入文件注意事项

版本历史

常见问题

相似工具推荐

ML-For-Beginners

ragflow

PaddleOCR

awesome-machine-learning

scikit-learn

keras

AI²BMD：人工智能驱动的从头计算生物分子动力学模拟