Machine-learning-for-proteins

1.7k 217 非常简单 1 次阅读 3天前GPL-3.0其他

AI 解读由 AI 自动生成，仅供参考

Machine-learning-for-proteins 是一个专注于蛋白质领域机器学习研究的开源论文清单。鉴于该学科发展迅猛，传统静态综述难以及时覆盖最新成果，该项目旨在提供一个动态更新、社区协作的知识库，系统梳理从基础理论到工程应用的前沿文献。

它有效解决了研究人员在海量学术资源中难以快速定位高质量论文的痛点。通过精细的分类体系，内容涵盖工具与数据集、定向进化、表示学习、生成模型、生物物理特性预测、结构序列互推以及分子相互作用等多个核心方向。所有条目均按时间倒序排列，确保用户能第一时间获取最新突破，且大部分条目附带直接链接，极大提升了文献检索效率。

这一资源特别适合从事计算生物学、蛋白质工程及 AI for Science 领域的科研人员、算法开发者及相关专业的学生使用。其独特亮点在于采用了开放的协作模式，鼓励全球学者共同贡献与修正，不仅打破了单一团队的知识局限，更构建了一个持续生长的学术生态。无论是希望了解行业全景的初学者，还是深耕特定细分方向的专家，都能从中获得极具价值的参考指引，是探索蛋白质智能设计不可或缺的案头工具。

使用场景

某生物制药公司的算法团队正致力于利用深度学习设计一种新型耐高温酶，以优化工业催化流程。

没有 Machine-learning-for-proteins 时

文献检索大海捞针：研究人员需在 PubMed、arXiv 等多个平台手动搜索，极易遗漏最新的生成式模型或无监督预测论文。
技术选型盲目低效：面对“从序列预测结构”还是“基于扩散模型设计”等路线选择时，缺乏系统的分类对比，难以判断哪种模型最适合当前数据量。
领域认知更新滞后：蛋白质工程领域进展极快，静态综述出版即过时，团队难以实时掌握如“表位学习”或“协同进化模式”等前沿突破。
跨学科协作困难：生物学家与算法工程师因缺乏统一的知识索引，常对术语和适用工具理解不一致，沟通成本高昂。

使用 Machine-learning-for-proteins 后

一站式精准获取：团队直接查阅按应用场景（如“预测稳定性”、“生成模型”）分类的最新论文列表，瞬间锁定 2023 年关于扩散模型在生物信息学中应用的关键研究。
科学决策有据可依：借助清晰的分类体系，快速对比不同模型类型在“定向进化”中的表现，迅速确定采用结合无监督变异预测的混合架构。
实时同步前沿动态：依托社区协作的反向 chronological 更新机制，确保团队始终基于本月最新预印本调整实验方案，不错过任何技术红利。
统一语言提升效率：项目组成员以该列表为共同知识基准，迅速对齐对“表示学习”等概念的理解，大幅缩短方案研讨周期。

Machine-learning-for-proteins 将分散破碎的学术成果转化为结构化的导航图，让蛋白质设计团队从繁琐的文献调研中解放出来，专注于核心创新。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库并非一个可执行的软件工具或代码库，而是一个关于蛋白质机器学习论文的综述列表和资源索引。因此，它没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户只需通过浏览器访问链接或下载文献即可使用。

python未说明

Machine-learning-for-proteins hero image

快速开始

蛋白质领域的机器学习论文

背景

我们最近发布了一篇关于蛋白质工程中机器学习方法的综述，但该领域发展迅速，新论文层出不穷，任何静态文档都难免遗漏重要工作。此外，这种形式也使我们能够将范围扩展到工程以外的应用领域。我们希望这能成为对该领域感兴趣人士的有用资源。

据我们所知，这是首个公开的、协作维护的蛋白质应用机器学习论文列表。我们尝试根据论文的应用场景和模型类型对其进行分类。如果您有其他论文或分类的建议，请提交拉取请求或创建议题！

格式

在每个类别中，论文按时间倒序排列（最新的排在前面）。在可能的情况下，应提供链接。

类别

综述
 工具与数据集
 机器学习引导的定向进化
 表示学习
 无监督变异预测
 生成模型
 生物物理
 稳定性预测
 从序列预测结构
 从结构预测序列
 分类、注释、搜索与比对
 与其他分子相互作用的预测
 其他监督学习

综述

蛋白质工程中的机器学习。
Kadina E. Johnston, Clara Fannjiang, Bruce J. Wittmann, Brian L. Hie, Kevin K. Yang & Zachary Wu。
分子科学中的机器学习，2023年10月。
[10.1007/978-3-031-37196-7_9]

利用生成式人工智能解码酶催化与进化以增强工程化能力。
Wen Jun Xie, Arieh Warshel。
预印本，2023年10月。
[10.1101/2023.10.10.561808]

机器学习引导的蛋白质工程。
Petr Kouba, Pavel Kohout, Faraneh Haddadi, Anton Bushuiev, Raman Samusevich, Jiri Sedlar, Jiri Damborsky, Tomas Pluskal, Josef Sivic, 和 Stanislav Mazurenko。
ACS Catalysis，2023年10月。
[10.1021/acscatal.3c02743]

用于从头设计蛋白质的生成式人工智能。
Adam Winnifrith, Carlos Outeiral, Brian Hie。
预印本，2023年10月。
[arxiv]

用于蛋白质建模的深度学习方法生态系统的发展。
Julia R. Rogers, Gergő Nikolényi, Mohammed AlQuraishi。
预印本，2023年10月。
[arxiv]

利用全局生成模型探索蛋白质序列空间。
Sergio Romero-Romero, Sebastian Lindner, Noelia Ferruz。
预印本，2023年5月。
[arxiv]

生物信息学中的扩散模型：深度学习革命的新浪潮正在发挥作用。
Zhiye Guo, Jian Liu, Yanli Wang, Mengrui Chen, Duolin Wang, Dong Xu, Jianlin Cheng。
预印本，2023年2月。
[arxiv]

学习上位效应与残基共进化模式：推动酶工程发展的当前趋势与未来展望。
Marcel Wittmund, Frederic Cadet 和 Mehdi D. Davari。
ACS Catalysis，2022年11月。
[10.1021/acscatal.2c01426]

从序列到功能再到结构：深度学习在蛋白质设计中的应用。
Noelia Ferruz, Michael Heinzinger, Mehmet Akdel, Alexander Goncearenco, Luca Naef, Christian Dallago。
预印本，2022年9月。
[10.1101/2022.08.31.505981]

基于进化与物理启发的建模在计算蛋白质设计中的应用：当前与未来的协同作用。
Cyril Malbranke, David Bikard, Simona Cocco, Rémi Monasson, Jérôme Tubiana。
预印本，2022年8月。
[arxiv]

深度学习方法在蛋白质设计中用于处理构象灵活性与开关特性。
Lucas S. P. Rudde, Mahdi Hijazi, Patrick Barth。
Front. Mol. Biosci., 2022年8月。
[10.3389/fmolb.2022.928534]

利用语言模型进行可控的蛋白质设计。
Noelia Ferruz, Birte Höker。
Nature Machine Intelligence，2022年6月。
[10.1038/s42256-022-00499-z]

通往完全可编程蛋白质催化之路。
Sarah L. Lovelock, Rebecca Crawshaw, Sophie Basler, Colin Levy, David Baker, Donald Hilvert, Anthony P. Green。
Nature，2022年6月。
[10.1038/s41586-022-04456-z]

通过序列引导的蛋白质工程与设计高效探索序列空间。
Ben E. Clifton, Dan Kozome，以及 Paola Laurino。
Biochemistry，2022年3月。
[10.1021/acs.biochem.1c00757]

利用语言模型学习蛋白质的功能特性。
Serbulent Unsal, Heval Atas, Muammer Albayrak, Kemal Turhan, Aybar C. Acar & Tunca Doğan。
Nature Machine Intelligence，2022年3月。
[10.1038/s42256-022-00457-9]

人工智能在代谢工程中用于酶与代谢途径设计的应用。
Woo Dae Jang, Gi Bae Kim, Yeji Kim, Sang Yup Lee。
Current Opinion in Biotechnology，2022年2月。
[10.1016/j.copbio.2021.07.024]

适应性机器学习在蛋白质工程中的应用。
Brian L. Hie, Kevin K. Yang。
Current Opinion in Structural Biology，2022年2月。
[10.1016/j.sbi.2021.11.002]

利用深度生成模型进行蛋白质序列设计。
Zachary Wu, Kadina E. Johnston, Frances H. Arnold, Kevin K. Yang。
Current Opinion in Chemical Biology，2021年12月。
[10.1016/j.cbpa.2021.04.004]

人工智能在预测突变对蛋白质稳定性影响方面的挑战。
Fabrizio Pucci, Martin Schwersensky, Marianne Rooman。
预印本，2021年11月。
[arxiv]

定向进化中机器学习的进展。
Bruce J Wittmann, Kadina E Johnston, Zachary Wu, Frances H Arnold。
Current Opinion in Structural Biology，2021年8月。
[10.1016/j.sbi.2021.01.008]

蛋白质磷酸化位点预测的机器学习技术简述。
法尔扎内·伊斯迈利、马赫迪·普尔米尔宰伊、沙欣·拉马齐、埃尔哈姆·亚瓦里。
预印本，2021年8月。
[arxiv]

学习蛋白质的语言：进化、结构与功能。
特里斯坦·贝普勒、邦妮·伯格。
细胞系统，2021年6月。
[10.1016/j.cels.2021.05.017]

表示学习在生物序列分析中的应用。
一枝仁志、松谷太郎、山田圭介、岩野夏希、住俊介、细田诗音、赵士涛、福永司、滨田道明。
计算与结构生物技术杂志，2021年5月。
[10.1016/j.csbj.2021.05.039]

数据驱动的计算蛋白质设计。
文森特·弗拉皮耶、艾米·E·基廷。
当前结构生物学观点，2021年5月。
/10.1016/j.sbi.2021.03.009]

机器学习在蛋白质结构预测中的应用。
穆罕默德·阿尔库赖希。
当前化学生物学观点，2021年5月。
[10.1016/j.cbpa.2021.04.005]

蛋白质序列到结构的学习：这是否标志着端到端革命的终结？
埃洛迪·莱恩、斯蒂芬·艾斯曼、阿爾內·埃洛夫森、謝爾蓋·格魯季寧。
预印本，2021年5月。
[arxiv]

通过人工智能和机器学习革新酶工程。
尼图·辛格、桑尼·马利克、安维塔·古普塔、金舒克·拉杰·斯里瓦斯塔瓦。
生命科学新兴课题，2021年4月。
[10.1042/ETLS20200257]

蛋白质的语言：自然语言处理、机器学习与蛋白质序列。
丹·奥弗、纳达夫·布兰德斯、米哈尔·利尼亚尔。
计算与结构生物技术杂志，2021年1月。
[10.1016/j.csbj.2021.03.022]

第十二章——机器学习辅助的酶工程。
尼克拉斯·E·西德霍夫、乌尔里希·施万内贝格和梅赫迪·D·达瓦里。
酶学方法，2020年11月。
[10.1016/bs.mie.2020.05.005]

基于机器学习和人工智能的方法用于生物活性配体发现及GPCR配体识别。
塞巴斯蒂安·拉斯奇卡、本杰明·考夫曼。
预印本，2020年1月。
[arXiv]

机器学习在酶工程中的应用。
斯坦尼斯拉夫·马祖连科、兹比涅克·普罗科普、伊日·丹博尔斯基。
ACS催化，2019年12月。
[10.1021/acscatal.9b04321]

机器学习引导的定向进化在蛋白质工程中的应用。
凯文·K·杨、扎卡里·吴、弗朗西斯·H·阿诺德。
自然方法，2019年7月。
[10.1038/s41592-019-0496-6]
预印本可在arxiv上查阅。

使用TAPE评估蛋白质迁移学习。
罗尚·拉奥、尼古拉斯·巴塔查里亚、尼尔·托马斯、严端、陈曦、约翰·坎尼、皮特·阿贝尔、宋云生。
预印本，2019年6月。
[arxiv]

机器学习能否革新选择性酶的定向进化？
李广岳、董义杰、曼弗雷德·T·雷茨。
先进合成与催化，2019年3月。
[10.1002/adsc.201900149]

工具与数据集

Scaffold-Lab：在统一框架中对蛋白质主链生成方法进行关键评估和排名。
郑卓奇、张博、钟博子涛、刘可欣、李正鑫、朱俊杰、于金宇、魏婷、陈海峰。
预印本，2024年5月。
[10.1101/2024.02.10.579743]

基于神经网络生成的酶的计算评分与实验评估。
肖恩·R·约翰逊、付晓志、桑德拉·维克南德、克拉拉·戈尔丁、萨拉·莫纳科、阿列克谢·泽列兹尼亚克、杨凯文·K。
自然生物技术，2024年4月。
[10.1038/s41587-024-02214-2]

深度插入缺失诱变揭示了插入和缺失对蛋白质稳定性和功能的影响。
玛格达莱娜·托波尔斯卡、安东尼·贝尔特兰、本·莱纳。
预印本，2023年10月。
[10.1101/2023.10.06.561180]

OpenProteinSet：用于大规模结构生物学的训练数据集。
古斯塔夫·阿德里茨、纳齐姆·布阿塔、萨钦·卡迪安、卢卡斯·雅罗施、丹尼尔·贝伦伯格、伊恩·菲斯克、安德鲁·M·沃特金斯、史蒂芬·拉、理查德·邦诺、穆罕默德·阿尔库赖希。
预印本，2023年8月。
[arxiv]

生物学与设计领域中蛋白质折叠稳定性的大规模实验分析。
津保山孝太郎、尤斯塔斯·道帕拉斯、乔纳森·陈、艾洛迪·莱恩、亚瑟·莫赫塞尼·贝赫巴哈尼、乔纳森·J·韦恩斯坦、尼尔·M·曼根、谢尔盖·奥夫钦尼科夫及加布里埃尔·J·罗克林。
自然杂志，2023年7月。
[10.1038/s41586-023-06328-6]

FLOP：针对野生型蛋白质适应度景观的任务集。
彼得·莫尔奇·格罗特、理查德·迈克尔、耶斯珀·萨洛蒙、田鹏飞、沃特·布姆斯马。
预印本，2023年6月。
[10.1101/2023.06.21.545880]

PDBench：评估蛋白质序列设计的计算方法。
莱昂纳多·V·卡斯托里纳、罗卡斯·佩特雷纳斯、卡尔蒂克·苏布尔、克里斯托弗·W·伍德。
生物信息学，2023年1月。
[10.1093/bioinformatics/btad027]]

KRAS抑制的能量与别构景观。
温晨春、安德烈·J·福雷、本·莱纳。
预印本，2022年12月。
[10.1101/2022.12.06.519122]

ManyFold：用于训练和验证蛋白质折叠模型的高效灵活库。
阿梅莉娅·比列加斯-莫尔西略、路易斯·罗宾逊、阿图尔·弗拉若莱、托马斯·D·巴雷特。
生物信息学，2022年12月。
[10.1093/bioinformatics/btac773]

生物学与蛋白质设计领域中蛋白质折叠稳定性的大规模实验分析。
津保山孝太郎、尤斯塔斯·道帕拉斯、乔纳森·陈、艾洛迪·莱恩、亚瑟·莫赫塞尼·贝赫巴哈尼、乔纳森·J·韦恩斯坦、尼尔·M·曼根、谢尔盖·奥夫钦尼科夫、加布里埃尔·J·罗克林。
预印本，2022年12月。
[10.1101/2022.12.06.519132]

用于模型指导的蛋白质设计基准测试的调优适应度景观。
尼尔·托马斯、阿蒂什·阿加瓦拉、大卫·贝朗热、宋云S、露西·J·科尔威尔。
预印本，2022年10月。
[10.1101/2022.10.28.514293]

深度突变扫描与机器学习揭示了同源蛋白中调控别构热点的结构与分子规则。
梅根·利安德、刘壮、崔强、斯里瓦特桑·拉曼。
Elife，2022年10月。
[10.7554/eLife.79932]

随机化门控消除排序测序实验中的偏差。
布莱恩·L·特里普、黄步伟、艾丽卡·A·德贝内迪克蒂斯、布莱恩·科文特里、尼古拉斯·巴塔查里亚、杨凯文·K、戴维·贝克、洛林·克劳福德。
蛋白质科学，2022年8月。
[10.1002/pro.4401]

Uni-Fold：开发超越AlphaFold的蛋白质折叠模型的开源平台。
李子瑶、刘旭阳、陈伟杰、沈凡、毕航睿、柯国林、张林峰。
预印本，2022年8月。
[10.1101/2022.08.04.502811]

PEER：一个全面且多任务的蛋白质序列理解基准测试。
许明浩、张左白、陆嘉瑞、朱兆成、张阳天、马昌、刘润成、唐健。
预印本，2022年6月。
[arxiv]

FLIP：蛋白质适应度景观推断中的基准测试任务。
克里斯蒂安·达拉戈、乔迪·穆、卡迪娜·E·约翰斯顿、布鲁斯·J·威特曼、尼古拉斯·巴塔查里亚、塞缪尔·戈德曼、阿里·马达尼、杨凯文·K。
NeurIPS 2021 数据集与基准测试赛道，2021年12月。
[10.1101/2021.11.09.467890]

evSeq：经济高效的扩增子测序，用于检测蛋白质文库中的每一个变异体。
布鲁斯·J·威特曼、卡迪娜·E·约翰斯顿、帕特里克·J·阿尔姆赫耶尔、弗朗西斯·H·阿诺德。
预印本，2021年11月。
[10.1101/2021.11.18.469179]

immuneML生态系统：用于自适应免疫受体库的机器学习分析。
米莱娜·帕夫洛维奇、隆内克·谢弗尔、凯沙夫·莫特瓦尼、查克拉瓦尔蒂·坎杜里、拉德米拉·孔波娃、尼古拉·瓦佐夫、克努特·瓦甘、法比安·L·M·贝尔纳尔、亚历山德雷·阿尔梅达·科斯塔、布莱恩·科里、拉赫马德·阿克巴尔、加迪·S·阿尔哈吉、加布里埃尔·巴拉班、托德·M·布鲁斯科、玛丽亚·切尔尼戈夫斯卡娅、斯科特·克里斯特利、琳赛·G·考威尔、罗伯特·弗兰克、伊瓦尔·格吕滕、斯韦因翁·贡德森、英格丽德·霍贝克·哈夫、埃文德·霍维格、平汉·谢、君特·克兰鲍尔、玛丽克·L·库伊耶尔、克里斯汀·伦德-安德森、安东尼奥·马尔蒂尼、托马斯·米诺托、约翰·彭萨尔、克努特·兰德、恩里科·里卡迪、菲利普·A·罗伯特、阿图尔·罗沙、安德烈·斯拉博德金、伊戈尔·斯纳普科夫、路德维格·M·索利德、德米特罗·季托夫、塞德里克·R·韦伯、迈克尔·维德里希、古尔·亚阿里、维克托·格雷夫及盖尔·凯蒂尔·桑德韦。
自然机器智能，2021年11月。
[10.1038/s42256-021-00413-z]

从深度学习中学习到的嵌入表示，用于可视化和预测蛋白质集合。
克里斯蒂安·达拉戈、康斯坦丁·舒策、迈克尔·海因辛格、托比亚斯·奥莱尼、玛丽亚·利特曼、艾米·X·卢、杨凯文·K、闵善宇、尹成浩、詹姆斯·T·莫顿、布尔克哈德·罗斯特。
Current Protocols，2021年5月。
[10.1002/cpz1.113]

基于群体的黑盒优化用于生物序列设计。
克里斯托夫·安格穆勒、大卫·贝朗热、安德烈娅·加内、泽尔达·马里埃特、大卫·多汉、凯文·墨菲、露西·科尔威尔、D·斯卡利。
ICML，2020年7月。
[ICML]

Selene：一个基于PyTorch的序列数据深度学习库。
凯瑟琳·M·陈、埃文·M·科弗、周建、奥尔加·G·特罗扬斯卡娅。
自然方法，2019年3月。
[10.1038/s41592-019-0360-8]

机器学习引导的定向进化

通过主动学习增强人工金属酶的序列-活性映射与进化。
托比亚斯·沃恩霍尔特、莫伊米尔·穆特尼、格雷戈尔·W·施密特、克里斯蒂安·谢尔哈斯、立尾良、斯文·潘克、托马斯·R·沃德、安德烈亚斯·克劳塞*及马库斯·耶舍克。
ACS中央科学，2024年5月。
[10.1021/acscentsci.4c00258]

碱基编辑酶的机器学习与定向进化。
拉米罗·M·佩罗塔、斯文雅·芬克、拉斐尔·费雷拉、米夏埃尔·莫雷、艾哈迈德·马哈斯、阿努什·奇亚皮诺-佩佩、丽莎·M·里德迈尔、安娜-泰蕾丝·梅拉、路易莎·S·莱曼、乔治·M·丘奇。
预印本，2024年5月。
[10.1101/2024.05.17.594556]

通过直接偏好优化将蛋白质生成模型与实验适应度对齐。
塔拉勒·维达塔拉、拉斐尔·拉法伊洛夫、布莱恩·希。
预印本，2024年5月。
[10.1101/2024.05.20.595026]

计算稳定非血红素铁酶可实现新功能的高效进化。
布里安妮·R·金、基拉·H·苏米达、杰西卡·L·卡鲁索、大卫·贝克、杰西·G·扎拉坦。
预印本，2024年5月。
[10.1101/2024.04.18.590141]

微滴筛选快速表征生物催化剂，以支持其人工智能辅助工程化。
马克西米利安·甘茨、西蒙·V·马蒂斯、弗里德里科·E·H·宁策尔、保罗·J·祖雷克、坦雅·克瑙斯、埃利·帕特尔、丹尼尔·博罗斯、弗里德里希-马克西米利安·韦伯林、马修·R·A·肯尼思、奥斯卡·J·克莱因、埃利奥特·J·梅德卡尔夫、雅各布·莫斯、迈克尔·赫格尔、托马什·S·卡明斯基、弗朗切斯科·G·穆蒂、皮耶特罗·利奥、弗洛里安·霍尔费尔德。
预印本，2024年4月。
[10.1101/2024.04.08.588565]

自动化体内酶工程加速生物催化剂优化。
恩里科·奥尔西、伦纳特·沙达·冯·博尔齐斯科夫斯基、施特凡·诺克、巴勃罗·I·尼克尔及施特芬·N·林德纳。
自然通讯，2024年4月。
[10.1038/s41467-024-46574-4]

结合机器学习与超高通量筛选工程高活性且多样化的核酸酶。
尼尔·托马斯、大卫·贝兰热、许晨玲、韩森·李、凯瑟琳·平野、岩井浩介、万雅·波利奇、肯德拉·D·尼伯格、凯文·霍夫、卢卡斯·弗伦茨、查理·A·埃姆里奇、金俊宇、玛丽亚·查瓦哈、阿比·拉马南、杰里米·J·阿格雷斯蒂、露西·J·科尔威尔。
预印本，2024年4月。
[10.1101/2024.03.21.585615]

用于数据驱动蛋白质工程的可解释预测性机器学习模型。
大卫·梅迪纳-奥尔蒂斯、阿什坎·哈利费、霍达·安瓦里-卡泽马巴德及梅赫迪·D·达瓦里。
预印本，2024年3月。
[arxiv]

机器学习辅助光、氧、电压光感受器加合物寿命工程化。
斯特法妮·海默、尼克拉斯·埃里克·西德霍夫、索菲娅·维尔纳、吉泽姆·厄尔居屈、乌尔里希·施瓦内贝格、卡尔-埃里希·雅格尔、梅赫迪·D·达瓦里及乌尔里希·克劳斯
JACS Au，2023年11月。
[10.1021/jacsau.3c00440]

基于生物物理的蛋白质语言模型用于蛋白质工程。
萨姆·盖尔曼、布莱斯·约翰逊、蔡斯·弗雷什林、萨米尔·德科斯塔、安东尼·吉特、菲利普·A·罗梅罗。
预印本，2024年3月。
[10.1101/2024.03.15.585128]

利用ProteinMPNN提升蛋白质表达、稳定性和功能。
基拉·H·苏米达、雷耶斯·努涅斯-弗兰科、因德雷克·卡尔韦特、塞缪尔·J·佩洛克、巴西勒·I·M·威基、卢卡斯·F·米勒斯、尤斯塔斯·道帕拉斯、王珏、亚科夫·基普尼斯、诺埃尔·詹姆森、亚历克斯·康、乔什敏·德拉克鲁斯、巴努马蒂·桑卡拉恩、阿西姆·K·贝拉、冈萨洛·希门尼斯-奥塞斯、大卫·贝克。
预印本，2023年10月。
[10.1101/2023.10.03.560713]

运用合成共进化与机器学习工程蛋白质-蛋白质相互作用。
艾琳·杨、凯文·M·朱德、本·赖、梅森·米诺特、安娜·M·科西拉、迦勒·R·格拉斯曼、西宫大辅、尹锡金、赛·T·雷迪、阿里·A·汗、K·克里斯托弗·加西亚。
科学，2023年7月
[10.1126/science.adh1720]

面向离线模型的双向学习用于生物序列设计。
陈灿、张颖雪、刘雪、马克·科茨。
预印本，2023年1月。
[arxiv]

基于梯度的离散MCMC实现蛋白质的即插即用定向进化。
帕特里克·埃马米、艾丹·佩罗、杰弗里·劳、大卫·比亚焦尼、彼得·C·圣约翰。
预印本，2022年12月。
[arxiv]

酶的组合组装与设计。
罗莎莉·利普什-索科利克、奥尔加·赫尔松斯基、西布林·P·施罗德、卡斯珀·德博尔、什洛莫-雅基尔·霍赫、吉迪恩·J·戴维斯、赫尔门·S·欧弗克利夫特、萨雷尔·J·弗莱施曼。
预印本，2022年12月。
[10.1101/2022.09.17.508230]

针对分布偏移下的标签预测，用于机器引导的序列设计。
劳伦·伯克·惠洛克、斯蒂芬·马利纳、杰弗里·格罗尔德、萨姆·西奈。
预印本，2022年11月
[arxiv]

PropertyDAG：用于生物序列设计的多目标贝叶斯优化，处理部分有序的混合变量属性。
朴智源、塞缪尔·斯坦顿、萨义德·萨雷米、安德鲁·沃特金斯、亨利·德怀尔、弗拉基米尔·格利戈里耶维奇、理查德·邦诺、斯蒂芬·拉、庆贤·曹。
预印本，2022年10月。
[arxiv]

设计的活性位点文库揭示数千种功能性GFP变体。
乔纳森·雅各布·温斯坦、卡洛斯·马蒂·戈麦斯·阿尔达拉维、罗莎莉·利普什-索科利克、什洛莫·雅基尔·霍赫、德米安·利伯曼、雷纳特·内沃、海姆·魏斯曼、叶卡捷琳娜·彼得罗维奇-科皮特曼、大卫·马古利斯、德米特里·伊万科夫、大卫·麦坎德利什、萨雷尔·雅各布·弗莱施曼。
预印本，2022年10月。
[10.1101/2022.10.11.511732]

通过深度学习和分子模拟加速理性PROTAC设计。
双佳·郑、游海·谭、振宇·王、成涛·李、志清·张、尚旭、洪明·陈及岳东·杨。
自然机器智能，2022年9月。
[10.1038/s42256-022-00527-y]

从实验室进化实验中推断蛋白质适应度景观。
萨米尔·德科斯塔、艾米丽·C·欣兹、蔡斯·R·弗雷什林、玄彬·宋、菲利普·A·罗梅罗。
预印本，2022年9月。
[10.1101/2022.09.01.506224]

由人工智能预测结合力和自然性所实现的抗体优化。
沙罗尔·巴查斯、戈兰·拉科切维奇、大卫·斯宾塞、阿南德·V·萨斯特里、罗贝尔·海勒、约翰·M·萨顿、乔治·卡孙、安德鲁·斯塔希拉、贾希尔·M·古铁雷斯、埃德里斯·亚辛、博尔卡·梅焦、文森特·布莱、克里斯塔·科恩内特、珍妮弗·T·斯坦顿、亚历山大·布朗、内博伊沙·蒂亚尼奇、凯伦·麦克洛斯基、丽贝卡·维亚佐、丽贝卡·康斯布鲁克、海莉·卡特、西蒙·莱文、沙希德·阿卜杜勒哈克、雅各布·绍尔、阿比盖尔·B·文图拉、兰达尔·S·奥尔森、恩金·亚皮奇、乔舒亚·迈尔、肖恩·麦克莱恩、马修·韦因斯托克、格雷戈里·汉努姆、阿里埃尔·施瓦茨、迈尔斯·甘德尔、罗伯托·斯普雷阿菲科。
预印本，2022年8月。
[10.1101/2022.08.16.504181]

利用可泛化至全新突变空间的机器学习模型对治疗性抗体的亲和力与特异性进行协同优化。
艾米丽·K·马科夫斯基、帕特里克·C·金努嫩、黄洁、吴琳娜、马修·D·史密斯、王铁欣、阿莱克·A·戴赛、克雷格·N·斯特鲁、张玉磊、詹妮弗·M·祖潘西奇、约翰·S·沙尔特、詹妮弗·J·林德曼、彼得·M·泰西耶。
《自然通讯》，2022年7月。
[10.1038/s41467-022-31457-3]

结合进化概率与机器学习的混合模型助力数据驱动的蛋白质工程。
亚历山大-莫里斯·伊利格、尼克拉斯·E·齐德霍夫、乌尔里希·施万内贝格和梅迪·D·达瓦里。
预印本，2022年6月。
[arxiv]

GFP适应度景观的异质性与数据驱动的蛋白质设计。
路易莎·冈萨雷斯·索默迈耶、奥班·弗莱斯、亚历山大·S·米申、妮娜·G·博扎诺娃、安娜·A·伊戈尔基娜、延斯·迈勒、玛丽亚-埃利森达·阿拉巴尔·普霍尔、叶卡捷琳娜·V·普廷采娃、卡伦·S·萨尔基相。
eLife，2022年5月。
[10.7554/eLife.75842]

基于深度网络“幻觉”的从头蛋白质设计。
伊万·阿尼申科、塞缪尔·J·佩洛克、塔穆卡·M·奇迪亚乌西库、特蕾莎·A·拉梅洛特、谢尔盖·奥夫钦尼科夫、郝静舟、库什布·巴夫纳、克里斯托弗·诺恩、亚历克斯·康、阿西姆·K·贝拉、弗兰克·迪马约、劳伦·卡特、卡梅隆·M·周、加埃塔诺·T·蒙特利奥内以及大卫·贝克。
《自然》，2021年12月。
[10.1038/s41586-021-04184-w]

通过知情的训练集设计实现高效的机器学习辅助定向蛋白质进化。
布鲁斯·J·维特曼、易松岳、弗朗西斯·H·阿诺德。
《细胞系统》，2021年11月。
[10.1016/j.cels.2021.07.008]

基于机器学习的文库设计提升腺相关病毒（AAV）文库的包装效率与多样性。
朱丹青、大卫·H·布鲁克斯、阿科苏阿·布西亚、安娜·卡内罗、克拉拉·范江、加利娜·波波娃、大卫·申、爱德华·F·张、托马什·J·诺瓦科夫斯基、詹妮弗·利斯特加滕、大卫·V·沙弗尔。
预印本，2021年11月。
[10.1101/2021.11.02.467003]

基于生成序列模型的随机DNA合成协议优化设计。
伊莱·N·温斯坦、艾伦·N·阿明、威尔·格拉斯沃赫尔、丹尼尔·卡斯勒、让·迪塞、黛博拉·S·马克斯。
预印本，2021年10月。
[10.1101/2021.10.28.466307]

无似然推断与黑盒序列设计的统一及其拓展。
张丁怀、付杰、约书亚·本吉奥、阿伦·库维尔。
预印本，2021年10月。
[arxiv]

机器导向进化用于提高亚胺还原酶的活性与立体选择性。
埃里克·J·马、埃莉娜·西罗拉、查尔斯·摩尔、阿尔卡季·库默尔、马库斯·施托克利、迈克尔·法勒、卡罗琳·布凯、法比安·埃吉曼、马蒂厄·利吉贝尔、丹·胡英、杰弗里·卡特勒、卢卡·西格里斯特、理查德·A·刘易斯、安妮-克里斯汀·阿克尔、恩斯特·弗罗因德、埃尔克·科赫、马库斯·沃格尔、霍尔格·施林根西彭、爱德华·J·奥克利以及拉德卡·斯纳伊德罗娃。
《ACS催化》，2021年9月。
[10.1021/acscatal.1c02786]

PyPEF——一个用于数据驱动蛋白质工程的集成框架。
尼克拉斯·E·齐德霍夫、亚历山大-莫里斯·伊利格、乌尔里希·施万内贝格以及梅迪·D·达瓦里*
《化学信息学模型杂志》，2021年7月。
[10.1021/acs.jcim.1c00099]

用于高效离线模型驱动优化的保守目标模型。
布兰登·特拉布科、阿维拉尔·库马尔、耿鑫阳、谢尔盖·列文。
预印本，2021年7月。
[arxiv]

面向属性增强型生成的深度外推技术。
阿尔文·陈、阿里·马达尼、本·克劳斯、尼基尔·奈克。
预印本，2021年7月。
[arxiv]

用于蛋白质设计的贝叶斯优化有效代理模型。
内特·格鲁弗、塞缪尔·斯坦顿、波琳娜·基里琴科、马克·芬齐、菲利普·马费托内、维韦克·迈尔斯、艾米丽·德拉尼、佩顿·格林赛德、安德鲁·戈登·威尔逊。
2021年ICML计算生物学研讨会，2021年7月。
[pdf]

结合进化与结构约束正则化的贝叶斯优化在定向蛋白质进化中的应用。
特雷弗·S·弗里斯比、克里斯托弗·詹姆斯·朗米德。
《分子生物学算法》，2021年7月。
[10.1186/s13015-021-00195-4]

深度自适应设计：摊销顺序式贝叶斯实验设计。
亚当·福斯特、黛西·R·伊万诺娃、伊利亚斯·马利克、汤姆·雷恩福思。
预印本，2021年7月。
[arxiv]

机器学习驱动的抗体设计在无约束规模下的计算机模拟原理验证。
拉赫马德·阿克巴尔、菲利普·A·罗伯特、塞德里克·R·韦伯、迈克尔·维德里希、罗伯特·弗兰克、米莱娜·帕夫洛维奇、洛内克·谢弗尔、玛丽亚·切尔尼戈夫斯卡娅、伊戈尔·斯纳普科夫、安德烈·斯拉博德金、布里吉·布尚·梅塔、恩凯莱伊达·米霍、弗里德乔夫·伦德-约翰森、扬·特耶·安德森、塞普·霍赫赖特、英格丽德·霍贝克·哈夫、居特·克兰鲍尔、盖尔·凯蒂尔·桑德韦、维克多·格雷夫。
预印本，2021年7月。
[10.1101/2021.07.08.451480]

利用机器学习对AAV衣壳蛋白进行深度多样化。
德鲁·H·布莱恩特、阿里·巴希尔、萨姆·西奈、妮娜·K·贾因、皮尔斯·J·奥格登、帕特里克·F·莱利、乔治·M·丘奇、露西·J·科尔威尔以及埃里克·D·凯尔西克。
《自然生物技术》，2021年2月。
[10.1038/s41587-020-00793-4]

深度不确定性与蛋白质搜索。
泽尔达·马里埃特、加森·杰尔费尔、子王、克里斯托夫·安格穆勒、大卫·贝兰热、苏哈尼·沃拉、麦克斯韦尔·比莱斯基、露西·科尔威尔、D·斯卡利、达斯汀·特兰、贾斯珀·斯诺克。
NeurIPS 2020 分子机器学习研讨会，2020年12月。
[pdf]

机器学习指导的酰基-ACP还原酶工程化以提高体内脂肪醇产量。
乔纳森·C·格林霍尔、萨拉·A·法尔贝格、布赖恩·F·普弗勒、菲利普·A·罗梅罗。
预印本，2021年5月。
[10.1101/2021.05.21.445192]

基于仅序列模型的大规模稳定蛋白质设计与优化。
杰迪迪亚·M·辛格、斯科特·诺沃特尼、德文·斯特里克兰、休·K·哈多克斯、尼古拉斯·莱比、加布里埃尔·J·罗克林、卡梅隆·M·周、阿尼迪亚·罗伊、阿西姆·K·贝拉、弗朗西斯·C·莫塔……埃里克·克拉文斯。
预印本，2021年3月。
[10.1101/2021.03.12.435185]

AdaLead：一种简单而稳健的自适应贪心搜索算法，用于序列设计。
萨姆·西奈、理查德·王、亚历山大·沃特利、斯图尔特·斯洛克姆、埃莉娜·洛坎、埃里克·D·凯尔西。
预印本，2020年10月。
[arxiv]

NK景观作为机器学习驱动蛋白质工程的通用基准。
亚当·C·马特、马哈卡兰·桑杜、科林·杰克逊。
预印本，2020年10月。
[10.1101/2020.09.30.319780]

面向生物发现与设计的不确定性学习。
布莱恩·希、布莱恩·布莱森、邦妮·伯格。
预印本，2020年8月。
[10.1101/2020.08.11.247072]

基于种群的黑箱优化在生物序列设计中的应用。
克里斯托夫·安格尔穆勒、大卫·贝兰热、安德烈娅·加内、泽尔达·马里埃特、大卫·多汉、凯文·墨菲、露西·科尔韦尔、D·斯库利。
ICML，2020年7月。
[ICML]

面向模型驱动设计的自动聚焦预言机。
克拉拉·范江、珍妮弗·利斯特加滕。
预印本，2020年6月。
[arxiv]

通过后悔最小化进行领域外推。
金文功、雷吉娜·巴尔齐莱、汤米·雅各拉。
预印本，2020年6月。
[arxiv]

用于分子设计的快速可微DNA和蛋白质序列优化。
约翰内斯·林德、格奥尔格·塞利格。
预印本，2020年5月。
[arxiv]

深入探讨蛋白质工程中的机器学习模型。
许宇婷、迪普塔克·维尔玛、罗伯特·P·谢里丹、安迪·利亚乌、马俊水、尼古拉斯·马歇尔、约翰·麦金托什、爱德华·C·谢勒、弗拉基米尔·斯韦特尼克、珍妮弗·约翰斯顿。
《化学信息与建模杂志》，2020年4月。
[10.1021/acs.jcim.0c00073]

整合进化背景的深度序列建模在蛋白质工程中的应用。
卢云、林武、丁汉田、苏宇峰、刘洋、韦斯利·魏谦、赵慧敏、彭健。
预印本，2020年1月。
[10.1101/2020.01.16.908509]

基于批处理贝叶斯优化的生物序列设计。
大卫·贝兰热、苏哈尼·沃拉、泽尔达·马里埃特、拉米娅·德什潘德、大卫·多汉、克里斯托夫·安格尔穆勒、凯文·墨菲、奥利维埃·沙佩尔、露西·科尔韦尔。
NeurIPS机器学习与物理科学研讨会，2019年12月。
[ML4PS]

面向模型优化的模型反演网络。
阿维拉尔·库马尔、谢尔盖·列文
预印本，2019年12月。
[arxiv]

逐个突变位点解读突变效应预测。
C. K. 斯鲁蒂、梅赫尔·K. 普拉卡什。
bioRxiv，2019年12月
[10.1101/867812]

基于结构的深度学习框架用于蛋白质工程。
拉加夫·施罗夫、奥斯汀·W·科尔、巴雷特·R·莫罗、丹尼尔·J·迪亚斯、艾萨克·唐内尔、吉米·戈利哈尔、安德鲁·D·埃灵顿、罗斯·泰耶。
预印本，2019年11月。
[10.1101/833905]

全面的AAV衣壳适应度景观揭示了一种病毒基因，并实现了机器指导的设计。
皮尔斯·J·奥格登、埃里克·D·凯尔西、萨姆·西奈、乔治·M·丘奇。
《科学》杂志，2019年11月。
[10.1126/science.aaw2900]

机器学习指导的通道视紫红蛋白工程化实现了微创光遗传学技术。
克莱尔·N·贝德布鲁克、凯文·K·杨、J·埃利奥特·罗宾逊、维维安娜·格拉迪纳鲁、弗朗西斯·H·阿诺德。
《自然方法》杂志，2019年10月。
[10.1038/s41592-019-0583-8]
预印本可在[bioRxiv]上查阅。

基于组合约束的批处理随机贝叶斯优化设计。
凯文·K·杨、于欣·陈、艾丽西亚·李、易松·岳。
国际人工智能与统计会议（AISTATS），2019年4月。
[arxiv] [PMLR]

利用机器学习辅助的组合文库定向蛋白质进化。
扎卡里·吴、S. B. 詹妮弗·坎、拉塞尔·D. 刘易斯、布鲁斯·J. 维特曼、弗朗西斯·H·阿诺德。
PNAS，2019年4月。
[10.1073/pnas.1901979116]

通过自适应采样进行条件化以实现稳健设计。
大卫·H·布鲁克斯、朴韩彪、珍妮弗·利斯特加滕。
预印本，2019年1月。
[arxiv]

一种用于可靠预测氨基酸相互作用的机器学习方法及其在对映选择性酶定向进化中的应用。
弗雷德里克·卡代、尼古拉斯·丰泰纳、李广跃、华金·桑奇斯、马修·吴福昌、鲁迪·潘贾伊坦、伊亚纳尔·韦特里韦尔、伯纳德·奥夫曼、曼弗雷德·T·雷茨。
《科学报告》杂志，2018年11月。
[10.1038/s41598-018-35033-y]

自适应采样设计。
大卫·H·布鲁克斯、珍妮弗·利斯特加滕。
预印本，2018年10月。
[arxiv]

机器学习指导的诱变技术用于荧光蛋白的定向进化。
佐藤裕、及川美咲、中泽光、新出哲平、亀田友志、津田浩二以及梅津光雄。
《ACS合成生物学》杂志，2018年8月。
[10.1021/acssynbio.8b00155]

迈向蛋白质的机器指导设计。
苏罗吉特·比斯瓦斯、格列布·库兹涅佐夫、皮尔斯·J·奥格登、尼古拉斯·J·康威、瑞安·P·亚当斯、乔治·M·丘奇。
预印本，2018年6月。
[10.1101/337154] [bioRxiv]

反馈GAN（FBGAN）用于DNA：一种用于优化蛋白质功能的新颖反馈回路架构。
安维塔·古普塔、詹姆斯·邹。
预印本，2018年4月。
[arxiv]

利用机器学习设计整膜型通道视紫红质，以实现高效的真核表达和质膜定位。
克莱尔·N·贝德布鲁克、凯文·K·杨、奥斯汀·J·赖斯、维维安娜·格拉迪纳鲁、弗朗西斯·H·阿诺德。
《PLoS 计算生物学》，2017年10月。
[10.1371/journal.pcbi.1005786]

利用设计的富含信息的基因变体探索杨树谷胱甘肽转移酶的序列—功能空间。
亚曼·穆斯达尔、斯里达尔·戈文达拉扬、本特·曼内尔维克。
《蛋白质工程、设计与选择》，2017年8月。
[10.1093%2Fprotein%2Fgzx045]

利用高斯过程探索蛋白质适应度景观。
菲利普·A·罗梅罗、安德烈亚斯·克劳塞、弗朗西斯·H·阿诺德。
《美国国家科学院院刊》，2013年1月。
[10.1073/pnas.1215251110]

利用机器学习和合成基因工程改造蛋白酶K。
廖俊、曼弗雷德·K·瓦姆思、斯里达尔·戈文达拉扬、乔恩·E·内斯、丽贝卡·P·王、克拉斯·古斯塔夫松、杰里米·明舒尔。
BMC 生物技术，2007年3月。
[10.1186/1472-6750-7-16]

通过基于ProSAR的酶进化提升催化功能。
理查德·J·福克斯、S·克里斯托弗·戴维斯、艾米莉·C·芒多夫、丽莎·M·纽曼、韦斯娜·加夫里洛维奇、史蒂文·K·马、洛莱塔·M·钟、夏琳·青、萨瑞娜·谭、希拉·穆利、约翰·格雷特、约翰·格鲁伯、约翰·C·惠特曼、罗杰·A·谢尔顿、贾尔特·W·海斯曼。
《自然生物技术》，2007年2月。
[《自然生物技术》]

表征学习

特征复用与扩展：理解基于蛋白质语言模型的迁移学习。
弗朗西斯卡-周凡·李、艾娃·P·阿米尼、伊桑·岳、凯文·K·杨、亚历克斯·X·卢。
ICML，2024年7月。
[10.1101/2024.02.05.578959]

ProSST：基于量化结构与解耦注意力的蛋白质语言建模。
李明晨、谭阳、马新竹、钟博子涛、于慧群、周子怡、欧阳万力、周冰欣、洪亮、谭攀。
预印本，2024年5月。
[10.1101/2024.04.15.589672]

基于生物物理学的蛋白质语言模型在蛋白质工程中的应用。
萨姆·盖尔曼、布莱斯·约翰逊、蔡斯·弗雷斯林、萨米尔·德科斯塔、安东尼·吉特、菲利普·A·罗梅罗。
预印本，2024年3月。
[10.1101/2024.03.15.585128]

卷积神经网络在蛋白质序列预训练方面可与变压器相媲美。
凯文·K·杨、尼科洛·富西、亚历克斯·X·卢。
《细胞系统》，2024年2月。
[10.1016/j.cels.2024.01.008]

两种基于序列和两种基于结构的机器学习模型已分别学习到蛋白质生物化学的不同方面。
安娜斯塔西娅·V·库利科娃、丹尼尔·J·迪亚斯、陈天龙、T·杰弗里·科尔、安德鲁·D·埃灵顿及克劳斯·O。
《科学报告》，2023年8月。
[10.1038/s41598-023-40247-w]

Domain-PFP：利用功能感知域嵌入表示进行蛋白质功能预测。
纳比勒·伊布泰哈兹、加贺屋由纪、木原大介。
预印本，2023年8月。
[10.1101/2023.08.23.554486]

来自等变图变换器的上下文相关蛋白质与抗体编码。
赛·普贾·马哈詹、杰弗里·A·鲁弗洛、杰弗里·J·格雷。
预印本，2023年7月。
[10.1101/2023.07.15.549154]

Ankh：优化的蛋白质语言模型解锁通用建模能力。
艾哈迈德·埃尔纳加尔、哈泽姆·埃萨姆、瓦法·萨拉赫-埃尔丁、瓦利德·穆斯塔法、穆罕默德·埃尔克尔达维、夏洛特·罗什罗、布尔克哈德·罗斯特。
预印本，2023年6月。
[arxiv]

结构感知的蛋白质自监督学习。
陈灿（萨姆）、周景波、王帆、刘雪、窦德静。
《生物信息学》，2023年4月。
[10.1093/bioinformatics/btad189]

轻量级对比式蛋白质结构—序列转换。
郑江斌、王革、黄宇飞、胡博振、李思远、陈成、范新文、李斯坦 Z。
预印本，2023年3月。
[arxiv]

蛋白质序列与结构联合表征学习的系统性研究。
张左白、王传睿、徐明浩、钱塔马拉克尚、奥蕾莉·洛萨诺、帕耶尔·达斯、唐健。
预印本，2023年3月。
[arxiv]

结构信息驱动的语言模型是蛋白质设计师。
郑在祥、邓一凡、薛东宇、周毅、叶飞、顾全全。
预印本，2023年2月。
[10.1101/2023.02.03.526917]

用于蛋白质表征学习的检索式序列增强。
马畅、赵海腾、郑林、辛嘉义、李钦通、吴立军、邓志宏、陆洋、刘奇、孔令鹏。
预印本，2023年2月。
[10.1101/2023.02.22.529597]

ProtST：蛋白质序列与生物医学文本的多模态学习。
徐明浩、袁鑫宇、圣地亚哥·米雷特、唐健。
预印本，2023年1月。
[arxiv]

密码子语言嵌入为蛋白质工程提供强大信号。
卡洛斯·欧特伊拉尔、夏洛特·M·迪恩。
预印本，2022年12月。
[10.1101/2022.12.15.519894]

当几何深度学习遇见预训练的蛋白质语言模型时。
吴芳、陶宇、德拉戈米尔·拉德夫、许金波。
预印本，2022年12月。
[arxiv]

利用图神经网络对蛋白质表征进行对比学习，以实现结构与功能注释。
罗佳琪、罗宇楠。
预印本，2022年12月。
[10.1101/2022.11.29.518451]

在人工切割的蛋白质上训练自监督肽序列模型。
吉尔·萨德、王子辰、贾斯琳·格雷瓦尔、胡泽法·兰格瓦拉、莱恩·普赖斯。
预印本，2022年11月。
[arxiv]

利用序列迁移的掩码反向折叠进行蛋白质表征学习。
凯文·K·杨、尼科洛·扎尼凯利、休·叶。
《蛋白质工程、设计与选择》，2022年10月。
[10.1093/protein/gzad015]

处于进化尺度上的蛋白质序列语言模型能够实现准确的结构预测。
林泽明、哈利尔·阿金、罗山·拉奥、布赖恩·希、朱中凯、陆文婷、阿兰·多斯桑托斯科斯塔、玛丽亚姆·法泽尔-扎兰迪、汤姆·塞尔库、萨尔·坎迪多、亚历山大·里夫斯。
预印本，2022年7月。
[10.1101/2022.07.20.500902]

借助语言学推进蛋白质语言模型：提升可解释性的路线图。
武氏美河、拉赫马德·阿克巴尔、菲利普·A·罗伯特、巴特沃米耶·斯维亚特恰克、维克托·格莱夫、盖尔·凯蒂尔·桑德韦、达格·特吕格韦·特鲁斯勒·豪格。
预印本，2022年7月。
[arxiv]

自监督深度学习能够编码蛋白质亚细胞定位的高分辨率特征。
小林博史、基思·C·切弗尔斯、曼努埃尔·D·莱昂内蒂和洛伊克·A·罗耶。
自然方法，2022年7月。
[10.1038/s41592-022-01541-z]

COLLAPSE：用于识别和表征蛋白质结构位点的表示学习框架。
亚历山大·德里、罗斯·B·奥特曼。
预印本，2022年7月。
[10.1101/2022.07.20.500713]

CoSP：口袋与配体的协同监督预训练。
高张阳、陈诚、吴立荣、李善志。
预印本，2022年6月。
[arxiv]

利用分子动力学模拟对蛋白质模型进行药物结合前的预训练。
吴峰、张琪、拉德夫、王勇、金鑫、江洋、李士卓、牛震。
预印本，2022年6月。
[10.21203/rs.3.rs-1566483/v1]

探索基于进化且无需&的蛋白质语言模型作为蛋白质功能预测器。
胡明阳、袁发杰、杨凯文、鞠福松、苏瑾、王辉、杨飞、丁秋阳。
预印本，2022年6月。
[arxiv]

利用蛋白质语言模型计算进化速率。
布莱恩·L·希、杨凯文、彼得·S·金。
细胞系统，2022年4月。
[10.1016/j.cels.2022.01.003]

利用无监督语言建模识别酶活性位点。
洛伊克·夸特·达西、马泰奥·马尼卡、丹尼尔·普罗布斯特、菲利普·施瓦勒、伊夫斯·加埃坦·纳纳·特乌坎、特奥多罗·莱诺。
预印本，2021年11月。
[10.33774/chemrxiv-2021-m20gg]

人工智能引导的内在无序蛋白构象挖掘。
阿尤什·古普塔、索维克·戴、周焕翔。
预印本，2021年11月。
[10.1101/2021.11.21.469457]

利用自监督学习破译抗体的语言。
李振宇、劳拉·S·米切尔、詹姆斯·H.R·法默里、贾斯汀·巴顿、雅各布·D·加尔森。
预印本，2021年11月。
[10.1101/2021.11.10.468064]

通过成对掩码语言模型预训练共进化的蛋白质表示。
何亮、张世卓、吴立军、夏欢欢、鞠福松、张鹤、刘思远、夏英策、朱建伟、邓攀、邵斌、秦涛、刘铁燕。
预印本，2021年10月。
[arxiv]

生物序列的神经距离嵌入。
加布里埃莱·科尔索、雷克斯·英、米哈尔·潘迪、佩塔尔·韦利奇科维奇、朱雷·莱斯科韦茨、皮耶特罗·利奥。
预印本，2021年9月。
[arxiv]

具有生物学意义的迁移学习可改善转录因子结合预测。
格尔曼·诺瓦科夫斯基、马努·萨拉斯瓦特、奥里奥尔·福尔内斯、萨拉·莫斯塔菲和怀斯·W·沃瑟曼。
基因组生物学，2021年9月。
[10.1186/s13059-021-02499-5]

迈向更通用的蛋白质设计嵌入：利用序列与结构的联合表示。
萨娜·曼苏尔、白敏京、乌梅什·马丹、埃里克·霍维茨。
预印本，2021年9月。
[10.1101/2021.09.01.458592]

氢键与自注意力相遇：实现通用蛋白质结构嵌入所需的一切。
陈程、赵宇国、朱大明、宁康、崔雪峰。
预印本，2021年8月。
[10.1101/2021.01.31.428935]

利用进化进行对比学习，发现内在无序区域的分子特征。
卢X亚历克斯、卢X艾米、普里蒂沙纳茨·伊娃、扎林·塔拉内、福尔曼-凯·朱莉、摩西斯·艾伦。
预印本，2021年7月。
[10.1101/2021.07.29.454330]

利用变分自编码器从冷冻电镜图像推断原子坐标的连续分布。
丹·罗森鲍姆、玛尔塔·加尔内洛、米哈尔·齐林斯基、查理·比蒂、艾伦·克兰西、安德烈娅·胡贝尔、普什米特·科利、安德鲁·W·塞尼尔、约翰·詹珀、卡尔·多尔施、S.M.阿里·埃斯拉米、奥拉夫·罗嫩贝格、乔纳斯·阿德勒。
预印本，2021年6月。
[arxiv]

生物序列数据的预训练模型。
宋博生、李子萌、林轩、王建民、王天、傅向正。
功能基因组学简报，2021年5月。
[10.1093/bfgp/elab025]

ProteinBERT：一种通用的蛋白质序列与功能深度学习模型。
纳达夫·布兰德斯、丹·奥弗、亚姆·佩莱格、纳达夫·拉波波特、米哈尔·利尼亚尔。
预印本，2021年5月。
[10.1101/2021.05.24.445464]

随机嵌入与线性回归即可预测蛋白质功能。
陆天宇、卢X亚历克斯、摩西斯·艾伦。
预印本，2021年4月。
[arxiv]

结合进化数据与实验标记数据进行蛋白质适应度预测。
克洛伊·许、亨特·尼索诺夫、克拉拉·范姜、珍妮弗·利斯特加滕。
预印本，2021年3月。
[10.1101/2021.03.28.437402]

MSA Transformer。
罗尚·拉奥、杰森·刘、罗伯特·费库伊尔、乔舒亚·迈尔、约翰·F·坎尼、彼得·阿贝尔、汤姆·塞尔库、亚历山大·里夫斯。
预印本，2021年2月。
[10.1101/2021.02.12.430858]

通过数据增强提高蛋白质序列模型的泛化能力。
申宏宇、莱恩·C·普赖斯、塔哈·巴哈多里、弗兰齐斯卡·西格尔。
预印本，2021年2月。
[10.1101/2021.02.18.431877]

利用域架构上的自监督学习捕捉蛋白质结构域的结构与功能。
达米亚诺斯·P·梅利迪斯、沃尔夫冈·内伊德尔。
算法，2021年1月。
[10.3390/a14010028]

蛋白质序列的对抗式对比预训练。
马修·B.A.麦克德莫特、布伦丹·叶普、哈里·许、金迪、彼得·索洛维茨。
预印本，2021年1月。
[arxiv]

蛋白质表面的快速端到端学习。
弗雷尔·斯韦里松、让·费迪、布鲁诺·E·科雷亚、迈克尔·M·布朗斯坦。
预印本，2020年12月。
[10.1101/2020.12.28.424589]

Transformer蛋白质语言模型是无监督的结构学习者。
罗尚·拉奥、谢尔盖·奥夫钦尼科夫、乔舒亚·迈尔、亚历山大·里夫斯、汤姆·塞尔库。
预印本，2020年12月。
[10.1101/2020.12.15.422761]

蛋白质三级结构的自监督表示学习（PtsRep）：以蛋白质工程为例
罗俊文、蔡毅、吴嘉林、蔡宏敏、杨晓峰、林章林。
预印本，2020年12月。
[10.1101/2020.12.22.423916]

什么是蛋白质序列有意义的表示？
尼基·斯卡夫特·德特勒夫森、索伦·豪贝格、沃特·布姆斯马。
预印本，2020年11月。
[arxiv]

谱预测：一种基于比对的蛋白质序列模型预训练任务
帕斯卡尔·施图尔姆费尔斯、杰西·维格、阿里·马达尼、纳兹宁·法蒂玛·拉贾尼。
预印本，2020年11月。
[arxiv]

利用上下文透镜生成固定长度的蛋白质嵌入
阿米尔·沙内萨扎德、大卫·贝兰格、大卫·多汉。
预印本，2020年10月。
[arxiv]

蛋白质表示学习方法评估：定量分析
塞尔布伦特·温萨尔、赫瓦尔·阿塔什、穆阿默尔·阿尔拜拉克、凯末尔·图尔汉、艾巴尔·C·阿卡尔、通卡·多安。
预印本，2020年10月。
[10.1101/2020.10.28.359828]

通过互信息最大化进行蛋白质表示的自监督对比学习
艾米·X·卢、张浩然、马尔泽耶·加塞米、艾伦·摩西。
预印本，2020年9月。
[10.1101/2020.09.04.283929]

ProtTrans：通过自监督深度学习和高性能计算破解生命密码的语言
艾哈迈德·埃尔纳加尔、迈克尔·海因辛格、克里斯蒂安·达拉戈、加利亚·雷哈维、王宇、利昂·琼斯、汤姆·吉布斯、塔马斯·费赫尔、克里斯托夫·安格雷尔、马丁·施泰内格尔、德布辛杜·鲍米克、布尔克哈德·罗斯特。
预印本，2020年7月。
[10.1101/2020.07.12.199554]

无监督蛋白质嵌入在预测分子功能方面优于手工设计的序列和结构特征
阿梅莉亚·比列加斯-莫尔西略、斯塔夫罗斯·马克罗迪米特里斯、罗兰德·范哈姆、安赫尔·M·戈麦斯、维多利亚·桑切斯、马塞尔·莱因德斯。
预印本，2020年4月。
[10.1101/2020.04.07.028373]

Site2Vec：一种参考系不变的算法，用于蛋白质-配体结合位点的向量嵌入
阿尔纳布·巴德拉、卡利达斯·Y。
预印本，2020年3月。
[arxiv]

面向蛋白质工程的整合进化背景的深度序列建模
鲁云楠、武蓝、丁瀚田、苏宇峰、刘洋、韦斯利·魏谦、赵慧敏、彭健。
预印本，2020年1月。
[10.1101/2020.01.16.908509]

序列表示及其在预测蛋白质—蛋白质相互作用中的应用
丹纳贾伊·基莫蒂、普拉韦什·比亚尼、詹姆斯·M·霍根。
预印本，2019年12月。
[10.1101/2019.12.31.890699]

生物序列的语言建模——精选数据集与基准模型
何塞·胡安·阿尔马格罗·阿门特罗斯、亚历山大·罗森伯格·约翰森、奥莱·温特、亨里克·尼尔森。
预印本，2019年12月。
[alrojo.github.io]

利用潜在空间模型解析蛋白质进化与适应度景观
丁新强、邹正廷、查尔斯·L·布鲁克斯三世。
《自然通讯》，2019年12月。
[10.1038/s41467-019-13633-0]

端到端多任务学习：从蛋白质语言到蛋白质特征，无需比对
艾哈迈德·埃尔纳加尔、迈克尔·海因辛格、克里斯蒂安·达拉戈、布尔克哈德·罗斯特。
预印本，2019年12月。
[10.1101/864405]

仅基于序列的深度表示学习实现统一的理性蛋白质工程
伊森·C·艾利、格里戈里·希穆利亚、苏罗吉特·比斯瓦斯、穆罕默德·阿尔库赖希、乔治·M·丘奇。
《自然方法》，2019年10月。
[10.1038/s41592-019-0598-1]

基于图卷积网络的结构导向功能预测
弗拉基米尔·格利戈里耶维奇、P·道格拉斯·伦弗鲁、托马什·科希奥莱克、朱莉娅·科勒勒曼、孔炯贤、汤米·瓦塔宁、丹尼尔·贝伦贝格、布林·泰勒、伊恩·M·菲斯克、拉姆尼克·J·泽维尔、罗布·奈特、理查德·邦诺。
预印本，2019年10月。
[0.1101/786236]

生命的语言建模——蛋白质序列的深度学习
迈克尔·海因辛格、艾哈迈德·埃尔纳加尔、王宇、克里斯蒂安·达拉戈、德米特里·涅恰耶夫、弗洛里安·马特斯、布尔克哈德·罗斯特。
预印本，2019年9月。
[10.1101/614313]

用序列信息增强蛋白质网络嵌入
哈桑·卡内、穆罕默德·K·库利巴利、佩尔金斯·阿贾诺、阿里·阿卜杜拉。
预印本，2019年8月。
[10.1101/730481]

用于蛋白质分类的通用深度序列模型
尼尔斯·斯特罗特霍夫、帕特里克·瓦格纳、马库斯·文策尔、沃伊切赫·萨梅克。
预印本，2019年7月。
[10.1101/704874]

DeepPrime2Sec：基于一级序列的蛋白质二级结构深度学习预测
埃赫萨内丁·阿斯加里、妮娜·波尔纳、爱丽丝·C·麦克哈迪、穆罕默德·R·K·莫夫拉德。
预印本，2019年7月。
[10.1101/705426]

一种自洽的声音化方法，将氨基酸序列转化为音乐作品，并应用于人工智能驱动的蛋白质设计
余志华、秦照、弗朗西斯科·J·马丁-马丁内斯、马库斯·J·布勒尔。
《ACS纳米》，2019年6月。
[10.1021/acsnano.9b02180]

使用TAPE评估蛋白质迁移学习
罗尚·拉奥、尼古拉斯·巴塔查里亚、尼尔·托马斯、段燕、陈曦、约翰·坎尼、皮特·阿贝尔、宋云S。
预印本，2019年6月。
[arxiv]

利用神经网络中的隐式知识对蛋白质进行功能解析与工程改造
尤利乌斯·乌普迈尔·祖·贝尔岑、托雷·布尔格尔、施特凡·霍尔德巴赫、费利克斯·布贝克、卢卡斯·亚当、卡塔琳娜·甘多尔、玛丽塔·克莱因、扬·马托尼、保琳·普富德勒、卢卡斯·普拉茨、莫里茨·普日比利拉、马克思·施文德曼、丹尼尔·海德、马赖克·丹妮拉·霍夫曼、迈克尔·延德鲁施、卡罗琳·施梅拉斯、马克思·瓦尔德豪尔、伊琳娜·莱曼、多米尼克·尼奥佩克、罗兰德·艾尔斯。
《自然机器智能》，2019年5月。
[Nature Machine Intelligence]

生命的语言建模——蛋白质序列的深度学习
迈克尔·海因辛格、艾哈迈德·埃尔纳加尔、王宇、克里斯蒂安·达拉戈、德米特里·涅恰耶夫、弗洛里安·马特斯、布尔克哈德·罗斯特。
预印本，2019年5月。
[10.1101/614313] [bioRxiv]

生物学结构与功能源于将无监督学习扩展至2.5亿条蛋白质序列。
亚历山大·里夫斯、西达尔特·戈亚尔、乔舒亚·迈尔、德米·郭、迈尔·奥特、C·劳伦斯·齐特尼克、杰里·马、罗布·费格斯。
预印本，2019年4月。
[10.1101/622803] [bioRxiv]

从序列数据中学习蛋白质的组成性基序。
热罗姆·图比阿纳、西蒙娜·科科、雷米·莫纳松。
eLife，2019年3月。
[10.7554/eLife.39397]

用于判别性基序发现（DiMotif）和序列嵌入（ProtVecX）的蛋白质序列概率性变长分割方法。
埃赫萨内丁·阿斯加里、爱丽丝·C·麦克哈迪、穆罕默德·R·K·莫弗拉德。
科学报告，2019年3月。
[10.1038/s41598-019-38746-w]

利用结构信息学习蛋白质序列嵌入。
特里斯坦·贝普勒、邦妮·伯格。
国际表征学习会议，2019年2月。
[ICLR]

傅里叶变换与蛋白质化学计量学原理在蛋白质工程中的应用。
弗雷德里克·卡代、尼古拉斯·丰泰纳、伊亚纳尔·韦特里维尔、马蒂厄·吴福昌、奥利维埃·萨夫里亚马、泽维尔·卡代、菲利普·夏尔东。
BMC生物信息学，2018年10月。
[10.1186/s12859-018-2407-8]

用于机器学习的蛋白质学习嵌入。
凯文·K·杨、扎卡里·吴、克莱尔·N·贝德布鲁克、弗朗西斯·H·阿诺德
生物信息学，2018年8月
[10.1093/bioinformatics/bty178]

用于注释、发现和工程的深度语义蛋白质表示。
艾瑞尔·S·施瓦茨、格雷戈里·J·汉南、扎克·R·德维尔、迈克尔·E·斯穆特、安娜·R·格兰特、杰森·M·奈特、斯科特·A·贝克尔、乔纳森·R·伊兹、马修·C·拉法夫、哈里尼·埃瓦尼、尹音·刘、阿尔君·K·班萨尔、托比·H·理查德森
预印本，2018年7月
[10.1101/365965]

肽和蛋白质定量构效关系建模的改进描述符。
马克·H·巴利、尼古拉斯·J·特纳、罗伊斯顿·古达克尔。
化学信息与建模杂志，2018年1月。
[10.1021/acs.jcim.7b00488]

蛋白质序列的变分自编码。
萨姆·西奈、埃里克·凯尔西、乔治·M·丘奇、马丁·A·诺瓦克
预印本，2017年12月
[arxiv]

利用词嵌入和循环神经网络预测蛋白质结合亲和力。
卡洛·马扎费罗。
预印本，2017年4月。
[10.1101/128223] [bioRxiv]

dna2vec：可变长度k-mer的一致向量表示。
帕特里克·吴
预印本，2017年1月
[arxiv]

用于生物序列分析的分布式表示。
丹安贾伊·基莫蒂、阿克沙伊·索尼、普拉韦什·比亚尼、詹姆斯·M·霍根
预印本，2016年8月
[arxiv]

ProFET：特征工程捕捉蛋白质的高层次功能。
丹·奥弗、米哈尔·利尼亚尔。
生物信息学，2015年6月。
[10.1093/bioinformatics/btv345]

AAindex：氨基酸索引数据库，2008年进展报告。
川岛修一、皮奥特·波卡罗夫斯基、玛丽亚·波卡罗夫斯卡、安杰伊·科林斯基、片山俊明、金久弥生。
核酸研究，2008年1月。
[10.1093/nar/gkm998]

无监督变异预测

人类蛋白质错义突变的预测机制影响。
Jurgen Janes、Marc Muller、Senthil Selvaraj、Diogo Manoel、James Stephenson、Catarina Goncalves、Aleix Lafita、Benjamin Polacco、Kirsten Obernier、Kaur Alasoo、Manuel C Lemos、Nevan Krogan、Maria Martin、Luis R. Saraiva、David Burke、Pedro Beltrao。
预印本，2024年5月。
[10.1101/2024.05.29.596373]

解码人类蛋白质组中功能丧失型突变的分子机制。
Matteo Cagiada、Nicolas Jonsson、Kresten Lindorff-Larsen。
预印本，2024年5月。
[10.1101/2024.05.21.595203]

AlphaFold2 可以预测单点突变效应。
John M. McBride、Konstantin Polev、Amirbek Abdirasulov、Vladimir Reinharz、Bartosz A. Grzybowski、Tsvi Tlusty。
自然杂志，2023年10月。
[10.1101/2022.04.14.488301]

从大流行前数据中学习以预测病毒逃逸。
Nicole N. Thadani、Sarah Gurev、Pascal Notin、Noor Youssef、Nathan J. Rollins、Daniel Ritter、Chris Sander、Yarin Gal 和 Debora S. Marks。
自然杂志，2023年10月。
[10.1038/s41586-023-06617-0]

利用深度蛋白质语言模型进行全基因组疾病突变效应预测。
Nadav Brandes、Grant Goldman、Charlotte H. Wang、Chun Jimmie Ye 和 Vasilis Ntranos。
自然遗传学，2023年8月。
[10.1038/s41588-023-01465-0]

蛋白质适应度预测受语言模型、集成学习和采样方法相互作用的影响。
Mehrsa Mardikoraem、Daniel Woldring。
预印本，2023年2月。
[10.1101/2023.02.09.527362]

利用预训练蛋白质语言模型嵌入预测免疫逃逸。
Kyle Swanson、Howard Chang、James Zou。
预印本，2022年12月。
[10.1101/2022.11.30.518466]

蛋白质语言模型中的救援突变揭示了临床相关基因中的突变效应与结构特征。
Onuralp Soylemez、Pablo Cordero。
预印本，2022年11月。
[arxiv]

基于深度突变扫描的突变效应预测器更新基准测试。
Benjamin J. Livesey、Joseph A. Marsh。
预印本，2022年11月。
[10.1101/2022.11.19.517196]

利用 RoseTTAFold 准确预测突变效应。
Sanaa Mansoor、Minkyung Baek、David Juergens、Joseph L. Watson、David Baker。
预印本，2022年11月。
[10.1101/2022.11.04.515218]

基于 Transformer 的多结构域蛋白突变效应预测的进化调优协议。
Hideki Yamaguchi、Yutaka Saito。
生物信息学简报，2021年11月。
[10.1093/bib/bbab234]

利用进化数据的深度生成模型进行疾病突变预测。
Jonathan Frazer、Pascal Notin、Mafalda Dias、Aidan Gomez、Joseph K Min、Kelly Brock、Yarin Gal、Debora S Marks。
自然杂志，2021年11月。
[10.1038/s41586-021-04043-8]

语言模型实现对蛋白质功能突变效应的零样本预测。
Joshua Meier、Roshan Rao、Robert Verkuil、Jason Liu、Tom Sercu、Alexander Rives。
预印本，2021年7月。
[10.1101/2021.07.09.450648]

从深度突变扫描中无监督推断蛋白质适应度景观。
Jorge Fernandez-de-Cossio-Diaz、Guido Uguzzoni、Andrea Pagnani。
预印本，2020年3月。
[10.1101/2020.03.18.996595]

遗传变异的深度生成模型捕捉突变效应。
Adam J. Riesselman、John B. Ingraham、Debora S. Marks。
自然方法，2018年9月。
[10.1038/s41592-018-0138-4]

蛋白质序列的变分自编码。
Sam Sinai、Eric Kelsic、George M. Church、Martin A. Nowak。
预印本，2017年12月。
[arxiv]

生成模型

在 24 小时 GPU 时间内完成蛋白质语言模型训练。
Nathan C. Frey、Taylor Joren、Aya Abdelsalam Ismail、Allen Goodman、Richard Bonneau、Kyunghyun Cho、Vladimir Gligorijević。
预印本，2024年5月。
[10.1101/2024.05.14.594108]

学习蛋白质结构的语言。
Benoit Gaujac、Jérémie Donà、Liviu Copoiu、Timothy Atkinson、Thomas Pierrot、Thomas D. Barrett。
预印本，2024年5月。
[arxiv]

众里寻一：利用 Genie 2 在结构宇宙尺度上设计和构建蛋白质支架。
Yeqing Lin、Minji Lee、Zhao Zhang、Mohammed AlQuraishi。
预印本，2024年5月。
[arxiv]

ProtMamba：一种具有同源性感知但无需比对的蛋白质状态空间模型。
Damiano Sgarbossa、Cyril Malbranke、Anne-Florence Bitbol。
预印本，2024年5月。
[10.1101/2024.05.24.595730]

ProtT3：用于文本化蛋白质理解的蛋白质到文本生成。
Zhiyuan Liu、An Zhang、Hao Fei、Enzhi Zhang、Xiang Wang、Kenji Kawaguchi、Tat-Seng Chua。
预印本，2024年5月。
[arxiv]

蛋白质结构的连续语言。
Lukas Billera、Anton Oresten、Aron Stålmarck、Kenta Sato、Mateusz Kaduk、Ben Murrell。
预印本，2024年5月。
[10.1101/2024.05.11.593685]

通过建模 CRISPR-Cas 序列宇宙设计高功能基因组编辑工具。
Jeffrey A. Ruffolo、Stephen Nayfach、Joseph Gallagher、Aadyot Bhatnagar、Joel Beazer、Riffat Hussain、Jordan Russ、Jennifer Yip、Emily Hill、Martin Pacesa、Alexander J. Meeske、Peter Cameron、Ali Madani。
预印本，2024年4月。
[10.1101/2024.04.22.590591]

基于语言模型嵌入的扩散过程用于蛋白质序列生成。
Viacheslav Meshchaninov、Pavel Strashnov、Andrey Shevtsov、Fedor Nikolaev、Nikita Ivanisenko、Olga Kardymon、Dmitry Vetrov。
预印本，2024年3月。
[arxiv]

通过折叠扩散生成蛋白质结构。
Kevin E. Wu、Kevin K. Yang、Rianne van den Berg、James Y. Zou、Alex X. Lu、Ava P. Amini。
自然通讯，2024年2月。
[10.1038/s41467-024-45051-2]

Proteus：探索蛋白质结构生成以提升可设计性和效率。
Chentong Wang、Yannan Qu、Zhangzhi Peng、Yukai Wang、Hongli Zhu、Dachuan Chen、Longxing Cao。
预印本，2024年2月。
[10.1101/2024.02.10.579791]

扩散语言模型是多功能的蛋白质学习器。
王鑫友、郑在祥、叶飞、薛东宇、黄树建、顾全全。
预印本，2024年2月。
[arxiv]

用于多配体对接和结合位点设计的谐波自条件流匹配。
汉内斯·施塔克、景博文、雷吉娜·巴尔扎伊、汤米·雅科拉。
预印本，2023年11月。
[arxiv]

基于SE(3)流匹配的快速蛋白质主链生成。
杰森·尹、安德鲁·坎贝尔、安德鲁·Y·K·冯、迈克尔·加斯特格、何塞·希门尼斯-卢纳、莎拉·刘易斯、维克托·加西亚·萨托拉斯、巴斯蒂安·S·维林、雷吉娜·巴尔扎伊、汤米·雅科拉、弗兰克·诺埃。
预印本，2023年10月。
[arxiv]

用于蛋白质主链生成的SE(3)-随机流匹配。
阿维谢克·乔伊·博斯、塔拉·阿洪德-萨德格、基利安·法特拉斯、纪尧姆·于盖、贾里德·雷克托-布鲁克斯、刘承浩、安德烈·克里斯蒂安·尼卡、马克西姆·科拉布廖夫、迈克尔·布朗斯坦、亚历山大·通。
预印本，2023年10月。
[arxiv]

基于模体的蛋白质序列与结构联合设计。
宋振桥、赵云龙、宋宇飞、石文贤、杨阳、李磊。
预印本，2023年10月。
[arxiv]

PepMLM：基于掩码语言模型的目标序列条件化肽结合物生成。
陈天来、莎拉·佩尔策米迪斯、里奥·沃森、文卡塔·斯里卡尔·卡维拉尤尼、阿什利·许、普拉奈·武雷、里沙布·普卢古尔塔、索菲娅·文科夫、劳伦·洪、田王、维维安·尤迪斯蒂拉、埃琳娜·哈勒尔、赵琳、普拉南·查特吉。
预印本，2023年10月。
[arxiv]

通过自然酶序列的生成式建模提升荧光素酶活性与稳定性。
谢文俊、刘党亮、王晓娅、张傲轩、魏启嘉、阿希姆·南迪、董苏伟、阿里耶·瓦舍尔。
预印本，2023年10月。
[10.1101/2023.09.18.558367]

利用进化扩散进行蛋白质生成：只需序列即可。
莎拉·阿拉姆达里、尼提娅·塔卡尔、里安娜·范登伯格、亚历克斯·西杰·卢、尼科洛·富西、艾娃·帕尔迪斯·阿米尼、凯文·K·杨。
预印本，2023年9月。
[10.1101/2023.09.11.556673]

利用小型蛋白质语言模型高效准确地生成序列。
雅伊萨·塞拉诺、塞尔吉·罗达、维克托·瓜亚尔、亚历克西斯·莫利纳。
预印本，2023年8月。
[10.1101/2023.08.04.551626]

应用于蛋白质主链生成的SE(3)扩散模型。
杰森·尹、布莱恩·L·特里普、瓦伦丁·德·博尔托利、埃米尔·马修、阿尔诺·杜塞、雷吉娜·巴尔扎伊、汤米·雅科拉。
ICML，2023年7月。
ACM

利用RFdiffusion从头设计蛋白质结构与功能。
约瑟夫·L·沃森、大卫·尤尔根斯、纳撒尼尔·R·贝内特、布莱恩·L·特里普、杰森·尹、海伦·E·艾森纳赫、伍迪·阿亨、安德鲁·J·博斯特、罗伯特·J·拉戈特、卢卡斯·F·米尔斯、巴西勒·I·M·威基、尼基塔·哈尼克尔、塞缪尔·J·佩洛克、亚历克西斯·库尔贝、威廉·谢夫勒、王珏、普里塔姆·文卡特什、以撒·萨平顿、苏珊娜·巴斯克斯·托雷斯、安娜·劳科、瓦伦丁·德·博尔托利、埃米尔·马修、谢尔盖·奥夫钦尼科夫、雷吉娜·巴尔扎伊、汤米·S·雅科拉、弗兰克·迪马约、明京·白及大卫·贝克。
Nature，2023年7月。
[10.1038/s41586-023-06415-8]

PoET：作为序列之序列的蛋白质家族生成模型。
蒂莫西·F·特鲁昂二世、特里斯坦·贝普勒。
预印本，2023年6月。
[arxiv]

利用等变平移进行蛋白质序列与结构协同设计。
史晨策、王传睿、陆佳睿、钟博子涛、唐健。
ICLR，2023年5月。
[arxiv]

基于注意力机制的扩散模型，利用二级结构约束进行从头蛋白质生成设计。
倪博、戴维·L·卡普兰、马库斯·J·布勒。
Cell Chem，2023年4月。
[10.1016/j.chempr.2023.03.020]

ProtWave-VAE：将自回归采样与基于潜在空间的推理相结合，用于数据驱动的蛋白质设计。
尼克萨·普拉利亚克、连欣然、拉玛·兰加纳坦、安德鲁·L·费格森。
预印本，2023年4月。
[10.1101/2023.04.23.537971]

ProtFIM：基于蛋白质语言模型的中间填充式蛋白质序列设计。
李有韩、柳河顺。
预印本，2023年3月。
[arxiv]

通过迭代精炼实现外推式可控序列生成。
维沙克·帕德马库马尔、理查德·袁哲·庞、何贺、安库尔·P·帕里克。
预印本，2023年3月。
[arxiv]

ProteinVAE：用于翻译型蛋白质设计的变分自编码器。
吕苏悦、沙欣·索夫拉蒂-哈什金、迈克尔·加顿。
预印本，2023年3月。
[10.1101/2023.03.04.531110]

基于多序列比对训练的蛋白质语言模型的生成能力。
达米亚诺·斯加博萨、翁贝托·卢波、安妮-弗洛伦斯·比特博尔。
eLife，2023年2月。
[10.7554/eLife.79854]

评估提示调优在条件性蛋白质序列生成中的应用。
安德烈娅·纳森森、凯文·克莱因、伯恩哈德·Y·雷纳德、梅拉尼亚·诺维茨卡、雅库布·M·巴托舍维奇。
预印本，2023年2月。
[10.1101/2023.02.28.530492]

利用深度学习从头设计荧光素酶。
Andy Hsien-Wei Yeh、克里斯托弗·诺恩、雅科夫·基普尼斯、道格·蒂舍尔、塞缪尔·J·佩洛克、德克兰·埃文斯、彭臣·马、Gyu Rie Lee、Jason Z. Zhang、伊万·阿尼申科、布莱恩·科文特里、龙兴·曹、朱斯塔斯·道帕拉斯、萨默尔·哈拉比亚、米歇尔·德威特、劳伦·卡特、K. N. Houk及大卫·贝克。
Nature，2023年2月。
[10.1038/s41586-023-05696-3]

一种文本引导的蛋白质设计框架。
刘圣超、朱宇涛、陆佳睿、徐兆、聂伟力、安东尼·吉特、肖超伟、唐健、郭宏宇、阿尼玛·阿南德库马尔。
预印本，2023年2月。
[arxiv]

大型语言模型可生成跨不同家族的功能性蛋白质序列。
阿里·马达尼、本·克劳斯、埃里克·R·格林、苏布·苏布拉马尼安、本杰明·P·莫尔、詹姆斯·M·霍尔顿、何塞·路易斯·奥尔莫斯二世、蔡明雄、扎卡里·Z·孙、理查德·索彻、詹姆斯·S·弗雷泽及尼基尔·奈克。
Nature Biotechnology，2023年1月。
[10.1038/s41587-022-01618-2]

利用生成式人工智能解锁从头抗体设计。
阿米尔·沙内萨扎德、莎罗尔·巴查斯、乔治·卡孙、约翰·M·萨顿、安德烈娅·K·施泰格、理查德·帅、克里斯塔·科纳特、亚历克斯·莫雷黑德、安珀·布朗、切尔西·钟、布里安娜·K·卢顿、尼古拉斯·迪亚斯、马特·麦克帕特隆、贝利·奈特、梅西·拉达奇、凯瑟琳·贝特曼、大卫·A·斯宾塞、约万·切约维奇、盖林·科佩克-贝利沃、罗贝尔·海勒、埃德里斯·亚辛、凯伦·麦克洛克西、莫妮卡·纳蒂维达德、达尔顿·查普曼、卢卡·斯托亚诺维奇、戈兰·拉科切维奇、格雷戈里·汉南、恩金·亚皮奇、凯瑟琳·莫兰、罗丹特·卡圭亚特、沙希德·阿卜杜勒哈克、郭哲远、莉莲·R·克鲁格、迈尔斯·甘德尔、乔舒亚·迈尔。
预印本，2023年1月。
[10.1101/2023.01.08.523187]

针对生物活性螺旋肽的高亲和力蛋白质结合剂的从头设计。
苏珊娜·巴斯克斯·托雷斯、菲利普·J·Y·梁、艾萨克·D·卢茨、普里塔姆·文卡特什、约瑟夫·L·沃森、法比安·欣克、胡伊-贤·阮、安迪·显伟·叶、大卫·尤尔根斯、纳撒尼尔·R·贝内特、安德鲁·N·胡夫纳格尔、埃里克·黄、迈克尔·J·麦科斯、马克·埃克斯波西特、李奎丽、保罗·M·莱文、李欣婷、米拉·兰布、埃利夫·尼哈尔·科尔克马兹、杰夫·尼瓦拉、兰斯·斯图尔特、约瑟夫·M·罗杰斯、大卫·贝克。
预印本，2022年12月。
[10.1101/2022.12.10.519862]

基于深度学习的信号蛋白合成同源物设计。
连欣然、尼克萨·普拉利亚克、苏布·K·苏布拉马尼安、萨拉·韦辛格、拉玛·兰加纳坦、安德鲁·L·弗格森。
预印本，2022年12月。
[10.1101/2022.12.21.521443]

用于生成式蛋白质设计的高级编程语言。
布莱恩·希、萨尔瓦托雷·坎迪多、林泽明、奥里·卡贝利、罗山·饶、尼基塔·斯梅塔宁、汤姆·塞尔库、亚历山大·里夫斯。
预印本，2022年12月。
[10.1101/2022.12.21.521526]

语言模型的泛化能力超越天然蛋白质。
罗伯特·费尔库伊尔、奥里·卡贝利、杜一伦、巴西勒·I·M·威基、卢卡斯·F·米勒斯、尤斯塔斯·道帕拉斯、大卫·贝克、谢尔盖·奥夫钦尼科夫、汤姆·塞尔库、亚历山大·里夫斯。
预印本，2022年12月。
[10.1101/2022.12.21.521521]

通过潜伏构象优化进行表位特异性结合蛋白的深度生成设计。
拉斐尔·R·江口、克里斯蒂安·A·乔、乌迪特·帕雷克、艾琳·S·哈利克、迈克尔·D·沃德、尼哈·维塔尼、格雷戈里·R·鲍曼、约瑟夫·G·贾丁、黄博思。
预印本，2022年12月。
[10.1101/2022.12.22.521698]

用可编程生成模型照亮蛋白质空间。
约翰·英格拉汉、马克斯·巴拉诺夫、扎克·科斯特洛、文森特·弗拉皮耶、艾哈迈德·伊斯梅尔、尚铁、王武杰、文森特·徐、弗里茨·奥伯迈耶、安德鲁·比姆、格沃尔格·格里戈里扬。
预印本，2022年12月。
[10.1101/2022.12.01.518682]

通过整合结构预测网络和扩散生成模型实现广泛适用且精确的蛋白质设计。
约瑟夫·L·沃森、大卫·尤尔根斯、纳撒尼尔·R·贝内特、布莱恩·L·特里普、杰森·尹、海伦·E·艾森纳赫、伍迪·阿亨、安德鲁·J·博斯特、罗伯特·J·拉戈特、卢卡斯·F·米勒斯、巴西勒·I·M·威基、尼基塔·哈尼克尔、塞缪尔·J·佩洛克、亚历克西斯·库尔贝、威廉·谢夫勒、王珏、普里塔姆·文卡特什、艾萨克·萨平顿、苏珊娜·巴斯克斯·托雷斯、安娜·劳科、瓦伦丁·德·博尔托利、埃米尔·马修、雷吉娜·巴尔齐莱、汤米·S·雅科拉、弗兰克·迪马约、白敏京、大卫·贝克。
预印本，2022年12月。
[10.1101/2022.12.09.519842]

基于图的深度生成模型用于从头PROTAC设计。
迪维亚·诺里、康纳·W·科利、罗西奥·梅尔卡多。
预印本，2022年11月。
[arxiv]

冷冻电镜结构的潜在空间扩散模型。
卡斯滕·克莱斯、蒂姆·多克霍恩、李子豪、艾伦·钟。
预印本，2022年11月。
[arxiv]

具有等变平移的蛋白质序列与结构协同设计。
陈策、王传睿、陆嘉睿、钟博涛、唐健。
预印本，2022年10月。
[arxiv]

蛋白质结构的深度生成模型揭示了连续折叠空间中的远缘关系。
伊利·J·德赖岑、斯特拉·维雷特尼克、卡梅隆·穆拉、菲利普·E·伯恩。
预印本，2022年8月。
[10.1101/2022.07.29.501943]

基于神经网络推导的Potts模型，用于利用主链原子坐标和三级基序进行基于结构的蛋白质设计。
亚历克斯·J·李、明仁·卢、以色列·德斯塔、维克拉姆·桑达尔、格沃尔格·格里戈里扬、艾米·E·基廷。
预印本，2022年8月。
[10.1101/2022.08.02.501736]

ProtGPT2是一种用于蛋白质设计的深度无监督语言模型。
诺埃利亚·费鲁兹、施特芬·施密特和比尔特·霍克尔。
《自然通讯》，2022年7月。
[10.1038/s41467-022-32007-7]

ProteinSGM：基于评分的生成模型用于从头蛋白质设计。
李镇洙、金弼民。
预印本，2022年7月。
[10.1101/2022.07.13.499967]

基于扩散生成模型的抗原特异性抗体设计与优化。
罗世通、苏宇峰、彭星刚、王晟、彭建、马建竹。
预印本，2022年7月。
[10.1101/2022.07.10.499510]

端到端深度结构生成模型用于蛋白质设计。
赖博桥、马修·麦克帕特隆、许金波。
预印本，2022年7月。
[10.1101/2022.07.09.499440]

利用深度学习预测SARS-CoV-2的抗原进化。
韩文凯、陈宁宁、孙世伟、高鑫。
预印本，2022年6月。
[10.1101/2022.06.23.497375]

幻觉般的蛋白质组装体。
B. I. M. 威基、L. F. 米勒斯、A. 库尔贝、R. J. 拉戈特、J. 道帕拉斯、E. 金富、S. 蒂普斯、R. D. 基布勒、M. 白、F. 迪马约、X. 李、L. 卡特、A. 康、H. 阮、A. K. 贝拉、D. 贝克。
预印本，2022年6月。
[10.1101/2022.06.09.493773]

ProGen2：探索蛋白质语言模型的边界。
埃里克·尼金坎普、杰弗里·鲁弗洛、伊利·N·温斯坦、尼基尔·奈克、阿里·马达尼。
预印本，2022年6月。
[arxiv]

DiffMD：用于分子动力学模拟的几何扩散模型。
吴芳、李斯坦 Z。
预印本，2022年4月。
[arxiv]

基于蛋白质-配体结构的几何深度学习引导的片段式配体生成。
亚历山大·S·鲍尔斯、海伦·H·于、帕特里夏·苏里亚纳、罗恩·O·德罗尔。
预印本，2022年3月。
[10.1101/2022.03.17.484653]

在黑暗中设计：用于从头蛋白质设计的深度生成模型学习。
刘易斯·莫法特、肖恩·M·坎达希尔、大卫·T·琼斯。
预印本，2022年1月。
[10.1101/2022.01.27.478087]

利用AlphaFold2采样转运蛋白和受体的构象景观。
迭戈·德尔阿拉莫、达维德·萨拉、哈桑·S·姆乔劳拉布、延斯·迈勒。
预印本，2021年11月。
[10.1101/2021.11.22.469536]

针对多样化抗体序列设计的深度生成模型基准测试。
伊戈尔·梅尔尼克、帕耶尔·达斯、维吉尔·琴塔马拉克尚、奥雷莉·洛萨诺。
预印本，2021年11月。
[arxiv]

使用简单自回归模型高效地生成蛋白质序列。
珍妮·特兰基耶、圭多·乌古佐尼、安德烈亚·帕尼亚尼、弗朗切斯科·赞波尼及马丁·魏格特。
自然通讯，2021年10月。
[10.1038/s41467-021-25756-4]

利用深度学习框架在功能蛋白质之间的氨基酸序列空间中导航。
特里斯坦·比塔尔-费尔德尔。
PeerJ计算机科学，2021年9月。
[10.7717/peerj-cs.684]

BioPhi：基于天然抗体库和深度学习的抗体设计、人源化及“人类性”评估平台。
大卫·普里霍达、贾德·马阿马里、安德鲁·韦特、维罗妮卡·胡安、劳伦斯·法亚达特-迪尔曼、丹尼尔·斯沃齐尔、丹尼·A·比特顿。
预印本，2021年8月。
[10.1101/2021.08.08.455394]

共进化模型中的祖先序列重建。
埃德温·罗德里格斯·奥尔塔、亚历杭德罗·拉赫-卡斯特利亚诺斯、罗伯托·穆莱特。
预印本，2021年8月。
[arxiv]

AMaLa：通过退火突变近似景观分析定向进化实验。
卢卡·塞斯塔、圭多·乌古佐尼、豪尔赫·费尔南德斯-德-科西奥·迪亚斯、安德烈亚·帕尼亚尼。
国际分子科学杂志，2021年8月。
[10.3390/ijms222010908]

蛋白质进化中序列空间探索与上位性信号涌现的建模。
马泰奥·比萨尔迪、胡安·罗德里格斯-里瓦斯、弗朗切斯科·赞波尼、马丁·魏格特。
预印本，2021年6月。
[arxiv]

通过潜在插值实现腺相关病毒衣壳的生成式多样化。
萨姆·锡奈、妮娜·贾因、乔治·M·丘奇、埃里克·D·凯尔西克。
预印本，2021年4月。
[10.1101/2021.04.16.440236]

利用自回归生成模型进行蛋白质设计与变异预测。
申贞恩、亚当·里塞尔曼、科拉施、康纳·麦克马洪、伊莱娜·西蒙、克里斯·桑德、阿希什·曼格利克、安德鲁·克鲁斯、黛博拉·马克斯。
自然通讯，2021年4月。
[10.1038/s41467-021-22732-w]

利用生成对抗网络扩展功能蛋白质序列空间。
多纳塔斯·雷佩卡、维金塔斯·扬尼斯基斯、劳里纳斯·卡尔普斯、埃尔日别塔·伦贝扎、扬·兹里梅茨、西莫娜·波维洛涅内、伊尔曼塔斯·罗凯蒂斯、奥德里尤斯·劳里纳纳斯、维萨姆·阿布阿瓦、奥托·萨沃莱宁、罗兰达斯·梅斯基斯、马丁·K·M·英奎斯特、阿列克谢·泽列兹尼亚克。
自然机器智能，2021年3月。
[10.1038/s42256-021-00310-5]

利用变分自编码器生成功能性蛋白质变体。
亚历克斯·霍金斯-胡克、弗洛伦斯·德帕迪厄、塞巴斯蒂安·鲍尔、纪尧姆·库瓦隆、阿瑟·陈、大卫·比卡尔。
PLOS计算生物学，2021年2月。
[10.1371/journal.pcbi.1008736]

利用掩码语言模型的吉布斯采样生成新型蛋白质序列。
肖恩·R·约翰逊、莎拉·莫纳科、肯尼思·马西、扎伊德·赛义德。
预印本，2021年1月。
[10.1101/2021.01.26.428322]

生成式序列模型中成对关系的结构-适应度景观。
预印本，2020年11月。
迪伦·马歇尔、王浩博、迈克尔·斯蒂夫勒、尤斯塔斯·道帕拉斯、彼得·库、谢尔盖·奥夫钦尼科夫。
[10.1101/2020.11.29.402875]

利用引导条件Wasserstein生成对抗网络进行新折叠的从头蛋白质设计。
穆斯塔法·卡里米、邵文·朱、岳曹、杨申。
化学信息与建模期刊，2020年9月。
[10.1021/acs.jcim.0c00593]

深度学习助力功能性从头抗菌蛋白质的设计。
哈维尔·卡塞雷斯-德尔皮亚诺、罗伯托·伊巴涅斯、帕特里西奥·阿莱格雷、辛西娅·桑韦萨、罗穆阿尔多·帕斯-菲布拉斯、西蒙·科雷亚、佩德罗·雷塔马尔、胡安·克里斯托瓦尔·希门尼斯、莱昂纳多·阿尔瓦雷斯。
预印本，2020年8月。
[10.1101/2020.08.26.266940]

考虑突变多样性的生成式概率生物序列模型。
伊利·N·温斯坦、黛博拉·S·马克斯。
预印本，2020年8月。
[10.1101/2020.07.31.231381]

IG-VAE：通过直接生成3D坐标进行免疫球蛋白蛋白质的生成建模。
拉斐尔·R·江口、南拉塔·阿南德、克里斯蒂安·A·乔、蒲思·黄。
预印本，2020年8月。
[10.1101/2020.08.07.242347]

用于最大化合成DNA和蛋白质序列适应度与多样性的生成式神经网络。 约翰内斯·林德、尼古拉斯·博加德、亚历山大·B·罗森伯格、格奥尔格·塞利格 细胞系统，2020年7月 [10.1016/j.cels.2020.05.007]

基于注意力机制的神经网络生成信号肽。
扎卡里·吴、凯文·凯昌·杨、迈克尔·利什卡、艾丽西亚·李、阿丽娜·巴齐拉、大卫·韦尔尼克、大卫·P·韦纳、弗朗西斯·H·阿诺德。
ACS合成生物学，2020年7月。
[10.1021/acssynbio.0c00219]

面向多类病毒突变预测的生物信息驱动蛋白质序列生成。
于洋·王、普拉卡尔什·亚达夫、里希凯什·马加尔、阿米尔·巴拉蒂·法里马尼。
预印本，2020年6月。
[10.1101/2020.06.11.146167]

利用生成对抗网络设计特征控制的人类化抗体发现文库。
蒂莱利·阿米穆尔、杰里米·M·沙弗、兰达尔·R·凯切姆、J·亚历克斯·泰勒、鲁提利奥·H·克拉克、乔什·史密斯、丹妮尔·范·西特斯、克里斯汀·C·西斯卡、保琳·斯米特、梅根·斯普拉格、布鲁斯·A·克尔温和迪恩·佩蒂特。 预印本，2020年4月。 [10.1101/2020.04.12.024844]

ProGen：用于蛋白质生成的语言建模。
阿里·马达尼、布莱恩·麦肯、尼基尔·奈克、尼提什·希里什·凯斯卡、南拉塔·阿南德、拉斐尔·R·江口、蒲思·黄、理查德·索彻。
预印本，2020年3月。
[10.1101/2020.03.07.982272]

基于引导条件Wasserstein生成对抗网络（gcWGAN）的全新折叠蛋白质从头设计。
穆斯塔法·卡里米、朱绍文、曹悦、沈洋。
预印本，2019年9月。
[10.1101/769919]

从冷冻电镜图像重建三维蛋白质结构的连续分布。
艾伦·D·钟、特里斯坦·贝普勒、约瑟夫·H·戴维斯、邦妮·伯格。
预印本，2019年9月。 [arXiv]

用于T细胞受体蛋白序列的深度生成模型。
克里斯蒂安·戴维森、布兰登·J·奥尔森、威廉·S·德威特三世、让·冯、伊莱亚斯·哈金斯、菲利普·布拉德利、弗雷德里克·A·马森四世。
eLife，2019年9月。
[10.7554/eLife.46935.001]

基于图的蛋白质设计生成模型。
约翰·英格拉姆、维卡斯·K·加格、雷吉娜·巴尔齐莱、汤米·雅科拉。
ICLR关于高度结构化数据的深度生成模型研讨会，2019年5月。
[OpenReview]

如何“幻觉”出功能性蛋白质。
扎克·科斯特洛、埃克托·加西亚·马丁
预印本，2019年3月
[arxiv]

基于适应性采样的鲁棒设计条件化。
大卫·H·布鲁克斯、朴汉范、珍妮弗·利斯特加滕。
预印本，2019年1月。
[arxiv]

蛋白质结构的生成式建模。
纳姆拉塔·阿南德、黄博思。
NeurIPS，2018年12月。
[NeurIPS]

利用变分自编码器设计金属蛋白和新型蛋白质折叠。
乔·G·格林纳、刘易斯·莫法特、戴维·T·琼斯。
Scientific Reports，2018年11月。
[10.1038/s41598-018-34533-1]

基于适应性采样的设计。
大卫·H·布鲁克斯、珍妮弗·利斯特加滕。
预印本，2018年10月。
[arxiv]

遗传变异的深度生成模型捕捉突变效应。
亚当·J·里塞尔曼、约翰·B·英格拉姆、黛博拉·S·马克斯
Nature Methods，2018年9月
[10.1038/s41592-018-0138-4]

DNA反馈GAN（FBGAN）：一种用于优化蛋白质功能的新型反馈回路架构。
安维塔·古普塔、詹姆斯·邹。
预印本，2018年4月。
[arxiv]

用于肽类构建性设计的循环神经网络模型。
亚历克斯·T·穆勒、扬·A·希斯和吉斯贝尔特·施奈德。
《化学信息与建模杂志》，2018年1月
[10.1021/acs.jcim.7b00414]

蛋白质序列的变分自编码。
萨姆·西奈、埃里克·凯尔西、乔治·M·丘奇、马丁·A·诺瓦克
预印本，2017年12月
[arxiv]

生物物理学

通过蛋白质结构扩散实现精确构象采样。
贾浩凡、李子耀、埃里克·阿尔凯德、郭林、黄华清、E·魏楠。 预印本，2024年5月。
[10.1101/2024.05.20.594916]

ForceGen：基于非线性机械展开响应的端到端从头蛋白质生成，使用蛋白质语言扩散模型。
倪波、大卫·L·卡普兰、马库斯·J·布赫勒。
预印本，2023年10月。
[arxiv]

粗粒度蛋白质的化学可转移生成式反向映射。
杨秀贞、拉斐尔·戈麦斯-邦巴雷利。
预印本，2023年3月。
[arxiv]

通过机器学习直接生成蛋白质构象集合。
贾科莫·詹森、吉尔伯托·瓦尔德斯-加西亚、林熙和迈克尔·费格。
Nature Communications，2023年2月。
[10.1038/s41467-023-36443-x]用蛋白质语言和图神经网络匹配受体与气味分子

蛋白质热力学的机器学习粗粒度势能。
马切伊·马耶夫斯基、阿德里亚·佩雷斯、菲利普·托尔克、施特凡·多尔、尼古拉斯·E·查隆、托尼·乔尔吉诺、布鲁克·E·胡西奇、塞西莉亚·克莱门蒂、弗兰克·诺埃、詹尼·德·法布里蒂斯。
预印本，2022年12月。
[arxiv]

用归一化流跳过副本交换阶梯。
米歇莱·因韦尔尼齐、安德烈亚斯·克雷默、塞西莉亚·克莱门蒂、弗兰克·诺埃。
预印本，2022年10月。
[arxiv]

从数据到噪声再到数据：利用生成式人工智能在不同温度下混合物理规律。
王一航、卢卡斯·赫伦和普拉提尤什·蒂瓦里。
PNAS，2022年8月。
[10.1073/pnas.2203656119]

无需分子的分子动力学：用生成式神经网络搜索蛋白质构象空间。
格雷戈里·施温格、路易吉·L·帕莱塞、阿里埃尔·费尔南德斯、洛伦·施维伯特、多梅尼科·L·加蒂。
预印本，2022年6月。
[arxiv]

预测稳定性

蛋白质稳定性的遗传架构。
安德烈·J·福雷、艾娜·马尔蒂-阿兰达、克里斯蒂娜·伊达尔戈-卡尔塞多、约恩·M·施密德尔、本·莱纳。
预印本，2023年10月。
[10.1101/2023.10.27.564339]

结合新大型数据集与深度神经网络，在预测突变对蛋白质稳定性影响方面取得进展。
玛丽娜·A·帕克、尼基塔·V·多维琴科、萨蒂亚尔特·米什拉·夏尔马、德米特里·N·伊万科夫。
预印本，2023年1月。
[10.1101/2022.12.31.522396]

PROSTATA：基于Transformer的蛋白质稳定性评估。
德米特里·乌梅连科夫、塔季亚娜·I·沙什科娃、帕维尔·V·斯特拉什诺夫、费多尔·尼古拉耶夫、玛丽亚·辛杰耶娃、尼基塔·V·伊万尼森科、奥尔加·L·卡尔迪蒙。
预印本，2022年12月。
[10.1101/2022.12.25.521875]

利用深度学习表示快速预测蛋白质稳定性。
拉斯·M·布劳比耶尔、马赫尔·M·卡塞姆、莉迪娅·L·古德、尼古拉斯·约翰逊、马泰奥·卡吉亚达、克里斯托弗·E·约翰逊、沃特·布姆斯马、阿梅莉·斯坦、克雷斯滕·林多夫-拉尔森。
预印本，2022年8月。
[10.1101/2022.07.14.500157]

人工神经网络用于根据Rosetta计算的性质预测基于结构的蛋白质—蛋白质结合自由能。
马修斯·费拉兹、若泽·内托、罗伯托·林斯、埃里科·特谢拉。
预印本，2022年8月。
[10.26434/chemrxiv-2022-zhd87]

用于蛋白质物理的深度神经网络能量函数构建。
黄欢、熊兆平、弗朗切斯科·宗塔。
《化学理论与计算杂志》，2008年8月。
[10.1021/acs.jctc.2c00069]

基于序列和结构特征的机器学习用于可泛化的抗体热稳定性预测。
阿梅亚·哈马尔卡尔、罗山·拉奥、乔纳斯·霍纳、维布克·代斯廷、乔纳斯·安拉尔、安雅·霍尼格、朱莉娅·茨维克拉、伊娃·西恩茨-维德曼、多丽丝·劳、奥斯汀·赖斯、蒂莫西·P·莱利、李丹青、汉娜·B·卡特罗尔、克里斯汀·E·廷伯格、杰弗里·J·格雷、凯茜·Y·魏。
预印本，2022年6月。
[10.1101/2022.06.03.494724]

酶热适应性的深度表征学习。
李刚、菲利普·布里奇、扬·日里梅茨、桑德拉·维克南德、延斯·尼尔森、阿列克谢·泽列兹尼亚克、马丁·K·M·英奎斯特。
预印本，2022年3月。
[10.1101/2022.03.14.484272]

利用独立生成的数据集评估蛋白质工程热稳定性预测工具。 黄沛珊、西蒙·K·S·楚、恩里克·N·弗里佐、摩根·P·康诺利、瑞安·W·卡斯特以及贾斯汀·B·西格尔。
ACS Omega，2020年3月。
[10.1021/acsomega.9b04105]

使用深度3D卷积神经网络预测点突变引起的蛋白质热稳定性变化。
卞莉、杨宇成T、约翰·A·卡普拉、马克·B·格斯坦。
预印本，2020年2月。
[10.1101/2020.02.28.959874]

机器学习在G蛋白偶联受体热稳定化突变优先级排序中的应用。
S·穆克、S·戈什、S·阿丘坦、X·陈、X·姚、M·桑杜、M·C·格里福尔、K·F·费内尔、Y·谢、V·沙姆古苏达拉姆、X·邱、C·G·泰特、N·瓦伊德希。
预印本，2019年7月。
[10.1101/715375]

机器学习在预测微生物生长温度和酶催化最适条件中的应用 李刚、克尔斯滕·S·拉贝、延斯·尼尔森、马丁·K·M·英奎斯特。
ACS合成生物学，2019年5月
[10.1021/acssynbio.9b00099]

mGPfusion：利用高斯过程核学习与数据融合预测蛋白质稳定性变化。 埃米·约基宁、马库斯·海诺宁、哈里·莱赫德斯马基。
生物信息学，2018年7月。
[10.1093/bioinformatics/bty238]

基于结构的机器学习工具用于蛋白质单点突变热稳定性预测模型。
贾蕾、拉米娅·亚拉加达、查尔斯·C·里德。
PLOS One，2015年9月。
[10.1371/journal.pone.0138022]

NeEMO：一种利用残基相互作用网络提高突变导致蛋白质稳定性预测准确性的方法。
曼努埃尔·吉奥洛、阿尔贝托·J·M·马丁†、伊恩·沃尔什、卡洛·费拉里、西尔维奥·C·E·托萨托。
BMC基因组学，2014年5月。
[10.1186/1471-2164-15-S4-S7]

mCSM：利用图论签名预测蛋白质中突变的影响。
道格拉斯·E·V·皮雷斯、大卫·B·阿舍、汤姆·L·布伦德尔。
生物信息学，2014年2月。
[10.1093/bioinformatics/btt691]

PROTS-RF：一种稳健的模型，用于预测突变诱导的蛋白质稳定性变化。
李云琪、方建文。
PLOS One，2012年10月。
[10.1371/journal.pone.0047247]

预测由单点或多点突变引起的蛋白质热稳定性变化。
田健、吴宁峰、楚晓宇、范云柳。
BMC生物信息学，2010年7月。
[10.1186/1471-2105-11-370]

利用统计势能和神经网络快速准确地预测突变引起的蛋白质稳定性变化：PoPMuSiC-2.0。
伊夫·德胡克、阿琳·格罗斯菲尔、本杰明·福尔什、迪米特里·吉利斯、菲利普·博加尔茨、玛丽安娜·鲁曼。
生物信息学，2009年10月。
[10.1093/bioinformatics/btp445]

使用支持向量机预测单点突变引起的蛋白质稳定性变化。
程建林、阿洛·兰德尔、皮埃尔·巴尔迪。
Proteins，2005年12月。
[10.1002/prot.20810]

利用支持向量机从序列预测蛋白质稳定性变化。
埃米迪奥·卡普里奥蒂、皮耶罗·法里塞利、雷莫·卡拉布雷塞、丽塔·卡萨迪奥。
生物信息学，2005年9月。
[10.1093/bioinformatics/bti1109]

I-Mutant2.0：根据蛋白质序列或结构预测突变引起的稳定性变化。
埃米迪奥·卡普里奥蒂、皮耶罗·法里塞利、丽塔·卡萨迪奥。
核酸研究，2005年7月。
[10.1093/nar/gki375]

基于神经网络的方法，用于预测单点突变引起的蛋白质稳定性变化。
埃米迪奥·卡普里奥蒂、皮耶罗·法里塞利、丽塔·卡萨迪奥。
生物信息学，2004年8月。
[10.1093/bioinformatics/bth928]

用于判别式蛋白质分类的不匹配字符串核。
克里斯蒂娜·S·莱斯利、埃利亚扎尔·埃斯金、阿迪埃尔·科恩、杰森·韦斯顿、威廉·斯塔福德·诺布尔。
生物信息学，2004年3月。
[10.1093/bioinformatics/btg431]

从序列预测结构

利用AlphaFold 3精确预测生物分子相互作用的结构。
乔什·艾布拉姆森、乔纳斯·阿德勒、杰克·邓格、理查德·埃文斯、蒂姆·格林、亚历山大·普里策尔、奥拉夫·罗嫩贝格、林赛·威尔莫尔、安德鲁·J·巴拉德、乔舒亚·班布里克、塞巴斯蒂安·W·博登斯坦、戴维·A·埃文斯、洪家春、迈克尔·奥尼尔、戴维·雷曼、凯瑟琳·图尼亚苏瓦努尔、扎卡里·吴、阿克维莱·热姆古利特、艾琳妮·阿尔瓦尼蒂、查尔斯·比蒂、奥塔维娅·贝尔托利、亚历克斯·布里奇兰、阿列克谢·切列帕诺夫、迈尔斯·康格里夫、…约翰·M·詹珀。
自然杂志，2024年5月。
[10.1038/s41586-024-07487-w]

ScaleFold：将AlphaFold初始训练时间缩短至10小时。
朱飞文、阿尔卡迪乌什·诺瓦钦斯基、李润东、辛杰、宋一飞、米哈尔·马尔琴凯维奇、苏克鲁·布尔克·埃里尔马兹、杨俊、米夏埃尔·安德施。
预印本，2024年4月。
[arxiv]

利用RoseTTAFold全原子模型进行通用的生物分子建模与设计。
罗希特·克里希纳、王珏、伍迪·阿亨、帕斯卡尔·斯图姆费尔斯、普里塔姆·文卡特什、因德雷克·卡尔韦特、李圭里、费利克斯·S·莫雷-伯罗斯、伊万·阿尼申科、伊恩·R·汉弗里斯、瑞安·麦克休、迪昂妮·瓦菲阿多斯、李欣婷、乔治·A·萨瑟兰、安德鲁·希奇科克、C·尼尔·亨特、白敏京、弗兰克·迪马约、戴维·贝克。
预印本，2023年10月。
[10.1101/2023.10.09.561603]

利用仿生抗体语言模型准确预测抗体功能与结构。
景宏泰、高正涛、徐盛、沈涛、彭章志、何帅、游涛、叶双、林伟、孙思琪。
预印本，2023年8月。
[arxiv]

利用AlphaFold2系统性地识别条件折叠的固有无序区域。
T. Reid Alderson、Iva Pritišanac、Đesika Kolarić 和 Julie D. Forman-Kay。
PNAS，2023年8月。
[10.1073/pnas.2304302120]

Highfold：使用AlphaFold准确预测环肽单体及复合物。
Chenhao Zhang、Chengyun Zhang、Tianfeng Shang、Xinyi Wu、Hongliang Duan。
预印本，2023年8月。
[10.1101/2023.08.27.554979]

通过多序列比对生成提升蛋白质三级结构预测精度。
Le Zhang、Jiayang Chen、Tao Shen、Yu Li、Siqi Sun。
预印本，2023年6月。
[arxiv]

利用RoseTTAFold2高效且准确地预测蛋白质结构。
Minkyung Baek、Ivan Anishchenko、Ian R. Humphreys、Qian Cong、David Baker、Frank DiMaio。
预印本，2023年5月。
[10.1101/2023.05.24.542179]

EigenFold：基于扩散模型的生成式蛋白质结构预测。
Bowen Jing、Ezra Erives、Peter Pao-Huang、Gabriele Corso、Bonnie Berger、Tommi Jaakkola。
预印本，2023年4月。
[arxiv]

利用语言模型在进化尺度上预测原子级蛋白质结构。
Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Nikita Smetanin、Robert Verkuil、Ori Kabeli、Yaniv Shmueli、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Salvatore Candido、Alexander Rives。
Science，2023年3月。
[10.1126/science.ade2574]

DR-BERT：用于标注无序区域的蛋白质语言模型。
Ananthan Nambiar、John Malcolm Forsyth、Simon Liu、Sergei Maslov。
预印本，2023年2月。
[10.1101/2023.02.22.529574]

AlphaFold预测无序蛋白质的结构集合。
Z. Faidon Brotzakis、Shengyu Zhang、Michele Vendruscolo。
预印本，2023年1月。
[10.1101/2023.01.19.524720]

AFsample：通过激进采样改进AlphaFold的多聚体预测。
Björn Wallner。
预印本，2022年12月。
[10.1101/2022.12.20.521205]

OpenFold：重训AlphaFold2揭示其学习机制与泛化能力的新见解。
Gustaf Ahdritz、Nazim Bouatta、Sachin Kadyan、Qinghui Xia、William Gerecke、Timothy J O’Donnell、Daniel Berenberg、Ian Fisk、Niccolò Zanichelli、Bo Zhang、Arkadiusz Nowaczynski、Bei Wang、Marta M Stepniewska-Dziubinska、Shang Zhang、Adegoke Ojewole、Murat Efe Guney、Stella Biderman、Andrew M Watkins、Stephen Ra、Pablo Ribalta Lorenzo、Lucas Nivon、Brian Weitzner、Yih-En Andrew Ban、Peter K Sorger、Emad Mostaque、Zhao Zhang、Richard Bonneau、Mohammed AlQuraishi。
预印本，2022年11月。
[10.1101/2022.11.20.517210]

利用蛋白质语言模型改进蛋白质复合物预测。
Bo Chen、Ziwei Xie、Jiezhong Qiu、Zhaofeng Ye、Jinbo Xu、Jie Tang。
预印本，2022年11月。
[10.1101/2022.09.15.508065]

tFold-Ab：无需序列同源即可快速准确地预测抗体结构。
Jiaxiang Wu、Fandi Wu、Biaobin Jiang、Wei Liu、Peilin Zhao。
预印本，2022年11月。
[10.1101/2022.11.10.515918]

超快速蛋白质结构预测以捕捉突变动态中序列变异的影响。
Konstantin Weissenow、Michael Heinzinger、Martin Steinegger、Burkhard Rost。
预印本，2022年11月。
[10.1101/2022.11.14.516473]

利用深度语言模型和Transformer网络改进蛋白质二级结构预测。
Tianqi Wu、Weihang Cheng、Jianlin Cheng。
预印本，2022年11月。
[10.1101/2022.11.21.517442]

利用深度学习势函数实现快速准确的从头蛋白质结构预测。
Robin Pearce、Yang Li、Gilbert S. Omenn、Yang Zhang。
PLoS Computational Biology，2022年9月。
[10.1371/journal.pcbi.1010539]

利用RoseTTAFoldNA准确预测核酸及蛋白质–核酸复合物结构。
Minkyung Baek、Ryan McHugh、Ivan Anishchenko、David Baker、Frank DiMaio。
预印本，2022年9月。
[10.1101/2022.09.09.507333]

幻化出含有中心口袋的闭合重复蛋白。
Linna An、Derrick R Hicks、Dmitri Zorine、Justas Dauparas、Basile I. M. Wicky、Lukas F. Milles、Alexis Courbet、Asim K. Bera、Hannah Nguyen、Alex Kang、Lauren Carter、David Baker。
预印本，2022年9月。
[10.1101/2022.09.01.506251]

作为基于能量模型的蛋白质侧链构象SE(3)等变图注意力网络。
Deqin Liu、Sheng Chen、Shuangjia Zheng、Sen Zhang、Yuedong Yang。
预印本，2022年9月。
[10.1101/2022.09.05.506704]

SPEACH_AF：利用Alphafold2采样蛋白质集合与构象异质性。
Richard A. Stein、Hassane S. Mchaourab。
PLoS Computational Biology，2022年8月。
[10.1371/journal.pcbi.1010483]

少量样本学习精确的折叠景观用于蛋白质结构预测。
Jun Zhang、Sirui Liu、Mengyun Chen、Haotian Chu、Min Wang、Zidong Wang、Jialiang Yu、Ningxi Ni、Fan Yu、Diqing Chen、Yi Isaac Yang、Boxin Xue、Lijiang Yang、Yuan Liu、Yi Qin Gao。
预印本，2022年8月。
[arxiv]

利用全原子图表示和SE(3)等变图神经网络进行原子级蛋白质结构精修。
Tianqi Wu、Jianlin Cheng。
预印本，2022年8月。
[10.1101/2022.05.06.490934]

HelixFold-Single：以蛋白质语言模型替代MSA进行蛋白质结构预测。
Xiaomin Fang、Fan Wang、Lihang Liu、Jingzhou He、Dayong Lin、Yingfei Xiang、Xiaonan Zhang、Hua Wu、Hui Li、Le Song。
预印本，2022年8月。
[[arxiv]https://arxiv.org/abs/2207.13921]

NetSurfP-3.0：基于蛋白质语言模型和深度学习的蛋白质结构特征准确快速预测。
马格努斯·哈拉尔德松·霍伊、埃里克·尼古拉斯·基尔、本特·彼得森、莫滕·尼尔森、奥莱·温特、亨里克·尼尔森、耶佩·霍尔格伦、保罗·马卡蒂利。
核酸研究，2022年7月。
[10.1093/nar/gkac439]

从一级序列进行高分辨率从头结构预测。
吴瑞东、丁帆、王睿、沈锐、张希文、罗世通、苏晨鹏、吴作凡、谢琪、邦妮·伯杰、马建竹、彭健。
预印本，2022年7月。
[10.1101/2022.07.21.500999]

基于期望反射的蛋白质结构预测。
埃文·克雷斯韦尔-克莱、丹泰·黄、乔·麦肯纳、克里斯·杨、埃里克·张、维普尔·佩里瓦尔。
预印本，2022年7月。
[10.1101/2022.07.12.499755]

PSP：用于蛋白质结构预测的百万级蛋白质序列数据集。
刘思睿、张俊、褚浩天、王敏、薛博欣、倪宁熙、于佳亮、谢宇豪、陈振宇、陈梦云、刘源、皮娅·帕特拉、徐凡、陈杰、王子东、杨立江、余凡、陈磊、秦毅高。
预印本，2022年6月。
[arxiv]

同源寡聚蛋白复合物中蛋白质残基间接触的准确预测。
严雨萌、黄圣友。
生物信息学简报，2021年9月。
[10.1093/bib/bbab038]

利用AlphaFold2和扩展的多序列比对改进蛋白质—蛋白质相互作用的预测。
P·布莱恩特、G·波扎蒂、A·埃洛夫松。
预印本，2021年9月。
[10.1101/2021.09.15.460468]

利用三通道神经网络准确预测蛋白质结构及相互作用。
MINKYUNG BAEK… DAVID BAKER。
科学，2021年8月。
[10.1126/science.abj8754]

通过图变换器将MSA嵌入蒸馏为折叠的蛋白质结构。
艾伦·科斯塔、曼维塔·蓬纳帕蒂、约瑟夫·M·雅各布森、普拉南·查特吉。
预印本，2021年6月。
[10.1101/2021.06.02.446809]

通过深度残差卷积网络从三重共进化矩阵推导出高精度蛋白质接触图。
李阳、张成鑫、埃里克·W·贝尔、郑伟、周晓根、于东军、张洋。
PLOS计算生物学，2021年3月。
[10.1371/journal.pcbi.1008865]

用于同时预测蛋白质结构属性的多任务深度学习。
张步忠、李金燕、权丽君、吕强。
预印本，2021年2月。
[10.1101/2021.02.04.429840]

用于预测蛋白质膜结合特性及二级结构的多任务深度学习系统。
李彬、杰弗里·门登霍尔、约翰·安东尼·卡普拉、延斯·迈勒。
预印本，2020年12月。
[10.1101/2020.12.02.409045]

单层注意力机制足以预测蛋白质接触。
尼古拉斯·巴塔查亚、尼尔·托马斯、罗山·拉奥、尤斯塔斯·道帕拉斯、彼得·K·库、大卫·贝克、孙允锡、谢尔盖·奥夫钦尼科夫。
预印本，2020年12月。
[10.1101/2020.12.21.423882]

利用深度图神经网络快速有效地优化蛋白质模型。
景晓阳、许进波。
预印本，2020年12月。
[10.1101/2020.12.10.419994]

从序列进行蛋白质结构比对。
詹姆斯·T·莫顿、查理·E·M·斯特劳斯、罗伯特·布莱克威尔、丹尼尔·贝伦伯格、弗拉基米尔·格利戈里耶维奇、理查德·邦诺。
预印本，2020年11月。
[10.1101/2020.11.03.365932]

基于深度学习，利用多序列比对的习得表征预测蛋白质结构。
肖恩·M·坎达希尔、乔·G·格林纳、安迪·M·劳、戴维·T·琼斯。
预印本，2020年11月。
[10.1101/2020.11.27.401232]

基于深度学习的蛋白质结构预测中实数值距离预测的研究。
李进、许进波。
预印本，2020年11月。
[10.1101/2020.11.26.400523]

REALDIST：实数值蛋白质距离预测。
巴德里·阿迪卡里。
预印本，2020年11月。
[10.1101/2020.11.28.402214]

深度神经网络与注意力机制相结合可增强蛋白质接触预测的可解释性。
陈晨、吴天奇、郭志业、程建林。
预印本，2020年9月。
[10.1101/2020.09.04.283937]

系统发育相关性对基于共进化的蛋白质接触预测影响有限。
埃德温·罗德里格斯·奥尔塔、马丁·魏格特。
预印本，2020年8月。
[10.1101/2020.08.12.247577]

最小基因组的近乎完整蛋白质结构建模。
乔·G·格林纳、尼基塔·德赛、肖恩·M·坎达希尔、戴维·T·琼斯。
预印本，2020年7月。
[arxiv]

基于模板的深度学习蛋白质结构预测。
张海仓、申玉峰。
预印本，2020年6月。
[2020.06.02.129270]

基于能量模型的原子分辨率蛋白质构象。
杜一伦、乔舒亚·迈尔、杰里·马、罗布·费格斯、亚历山大·里夫斯。
ICLR，2020年4月。
[arXiv]

一个完全开源的框架，用于深度学习蛋白质实数值距离。
巴德里·阿迪卡里。
预印本，2020年4月。
[10.1101/2020.04.26.061820]

PhANNs：一种快速准确的工具和网页服务器，用于分类噬菌体结构蛋白。
维克多·塞古里坦、杰克逊·雷德菲尔德、大卫·萨拉蒙、罗伯特·A·爱德华兹、安卡·M·塞加尔。
预印本，2020年4月。
[10.1101/2020.04.03.023523]

DeepDist：利用深度残差卷积网络进行实数值残基间距离预测。
吴天奇、郭志业、侯杰、程建林。
预印本，2020年3月。
[10.1101/2020.03.17.995910))]

利用预测的残基间取向改进蛋白质结构预测。
杨建义、伊万·阿尼申科、朴汉范、彭振岭、谢尔盖·奥夫钦尼科夫、大卫·贝克。
PNAS，2020年1月。
[10.1073/pnas.1914677117]

蛋白质结构预测中的深度学习方法。
米尔科·托里西、詹卢卡·波拉斯特里、权莉娅。
计算与结构生物技术期刊，2020年1月。
[10.1016/j.csbj.2019.12.011]

利用深度学习势能改进蛋白质结构预测。
安德鲁·W·塞尼尔、理查德·埃文斯、约翰·贾姆珀、詹姆斯·柯克帕特里克、洛朗·西弗雷、蒂姆·格林、秦崇礼、奥古斯丁·齐德克、亚历山大·W·R·尼尔森、亚历克斯·布里奇兰、雨果·佩内多内斯、斯蒂格·彼得森、凯伦·西蒙扬、史蒂夫·克罗斯恩、普什米特·科利、戴维·T·琼斯、戴维·西尔弗、科雷·卡武克乔卢、德米斯·哈萨比斯。
Nature，2020年1月。
[10.1038/s41586-019-1923-7]

深度学习通过迭代预测的结构约束扩展从头设计蛋白质模型对基因组的覆盖范围。
乔·G·格里纳、肖恩·M·坎达希尔、戴维·T·琼斯。
Nature Communications，2019年9月。
[10.1038/s41467-019-11994-0]

DeepPrime2Sec：基于一级序列的蛋白质二级结构深度学习预测。
埃赫桑丁·阿斯加里、妮娜·珀纳、爱丽丝·C·麦克哈迪、穆罕默德·R·K·莫夫拉德。
预印本，2019年7月。
[10.1101/705426]

端到端可微分的蛋白质结构学习。
穆罕默德·阿尔库赖希。
Cell Systems，2019年4月。
[10.1016/j.cels.2019.03.006]

DESTINI：一种基于接触信息的深度学习蛋白质结构预测方法。
高牧、周宏毅、杰弗里·斯科尔尼克。
Scientific Reports，2019年3月。
[10.1038/s41598-019-40314-1]

利用结构信息学习蛋白质序列嵌入。
特里斯坦·贝普勒、博尼尔·伯杰。
国际表征学习会议，2019年2月。
[ICLR]

蛋白质结构的生成式建模。
南拉塔·阿南德、蒲思苏·黄。
NeurIPS，2018年12月。
[NeurIPS]

基于距离的深度学习驱动的蛋白质折叠。
徐金波。
预印本，2018年11月。
[arxiv]

Porter 5：快速、最先进的从头预测蛋白质二级结构（3类和8类）。
米尔科·托里西、马纳兹·卡利尔、詹卢卡·波拉斯特里。
预印本，2018年10月。
[10.1101/289033] [bioRxiv]

基于数据划分和半随机子空间方法的蛋白质二级结构预测。
马宇明、刘一辉、程金勇。
Scientific Reports，2018年6月。
[10.1038/s41598-018-28084-8]

利用长短期记忆网络进行蛋白质二级结构预测。
索伦·卡埃·松德比、奥莱·温特。
预印本，2014年12月。
[arxiv]

用于蛋白质二级结构预测的深度监督与卷积生成随机网络。
周健、奥尔加·G·特罗扬斯卡娅。
预印本，2014年3月。
[arxiv]

从结构预测序列

基于上下文感知几何深度学习的蛋白质序列设计。
吕西安·F·克拉普、费尔南多·A·梅雷莱斯、卢西亚诺·A·阿布里亚塔、马泰奥·达尔·佩拉罗。
预印本，2023年6月。
[10.1101/2023.06.19.545381]

利用深度贝叶斯优化进行逆向蛋白质折叠。
娜塔莉·莫斯、曾怡萌、丹尼尔·艾伦·安德森、菲利普·马费托内、亚伦·所罗门、佩顿·格林赛德、奥斯伯特·巴斯塔尼、雅各布·R·加德纳。
预印本，2023年3月。
[arxiv]

基于物理信息神经网络的蛋白质设计。
SI·奥马尔、C·凯萨尔、AJ·本-萨松、E·哈伯。
生物分子，2023年2月。 [10.3390/biom13030457]

利用松弛的序列空间进行高效且可扩展的从头蛋白质设计。
克里斯托弗·弗兰克、阿里·霍绍伊、约斯塔·德·斯蒂赫特、多米尼克·希维茨、冯世浩、谢尔盖·奥夫钦尼科夫、亨德里克·迪茨。
预印本，2023年2月。
[10.1101/2023.02.24.529906]

通过反转AlphaFold结构预测网络进行从头蛋白质设计。
卡斯珀·戈韦尔德、本尼迪克特·沃尔夫、哈迈德·哈克扎德、斯特凡·罗塞、布鲁诺·E·科雷亚。
预印本，2022年12月。
[10.1101/2022.12.13.520346]

基于ProteinMPNN的稳健深度学习蛋白质序列设计。
J·道帕拉斯、I·阿尼申科、N·贝内特、H·白、R·J·拉戈特、L·F·米勒斯、B·I·M·威基、A·库尔贝、R·J·德哈斯、N·贝塞尔、P·J·Y·梁、T·F·哈迪、S·佩洛克、D·提舍尔、F·陈、B·科普尼克、H·阮、A·康、B·桑卡拉恩、A·K·贝拉、N·P·金、D·贝克。
科学，2022年9月。
[10.1126/science.add2187]

PiFold：迈向有效且高效的蛋白质逆向折叠。
高张阳、谭成、李斯坦泽。
预印本，2022年9月。
arxiv

PeTriBERT：通过三维编码增强BERT以用于逆向蛋白质折叠和设计。
鲍德温·杜莫蒂埃、安托万·留特库斯、克莱芒·卡雷、加布里埃尔·克鲁克。
预印本，2022年8月。
[10.1101/2022.08.10.503344]

SIPF：用于逆向蛋白质折叠的采样方法。
付天帆、孙继明。
KDD，2022年8月。
[10.1145/3534678.3539284]

基于深度学习和自洽性的无旋转异构体蛋白质序列设计。
刘宇峰、张璐、王伟伦、朱敏、王晨晨、李福东、张家海、李厚强、陈权与刘海燕。
自然计算科学，2022年7月。
[10.1038/s43588-022-00273-6]

通过学习残基的简洁局部环境实现准确高效的蛋白质序列设计。
黄斌、范廷文、王凯悦、张海沧、于春功、聂淑玉、齐杨硕、郑伟谋、韩建、范正、孙世伟、叶生、杨怀义、卜东波。
预印本，2022年7月。
[10.1101/2022.06.25.497605]

基于结构数据的蛋白质序列采样与预测。
加布里埃尔·安德烈斯·奥雷利亚纳、哈维尔·卡塞雷斯-德尔皮亚诺、罗伯托·伊巴涅斯、迈克尔·P·邓恩、莱昂纳多·阿尔瓦雷斯。
预印本，2021年11月。
[10.1101/2021.09.06.459171]

利用深度学习设计具有不连续功能位点的蛋白质。
道格·提舍尔、西德尼·利桑扎、王珏、董润泽、伊万·阿尼申科、卢卡斯·F·米勒斯、谢尔盖·奥夫钦尼科夫、大卫·贝克。
预印本，2020年11月。
[10.1101/2020.11.29.402743]

利用几何向量感知器从蛋白质结构中学习。
景博文、施特凡·艾斯曼、帕特里夏·苏里亚纳、拉斐尔·J.L·汤森德、罗恩·德罗尔。
预印本，2020年9月。
[arxiv]

基于学习势能的蛋白质序列设计。
纳姆拉塔·阿南德、拉斐尔·R·江口、亚历山大·德里、罗斯·B·奥特曼、黄博思。
预印本，2020年1月。
[10.1101/2020.01.06.895466]

利用深度图神经网络设计真正的新型蛋白质。
阿列克谢·斯特罗卡奇、大卫·贝塞拉、卡尔莱斯·科尔比、阿尔伯特·佩雷斯-里瓦、菲利普·M·金。
预印本，2019年12月。
[10.1101/868935] [bioRxiv]

ProDCoNN：利用卷积神经网络进行蛋白质设计。
张源、陈洋、王晨然、罗春潮、刘秀文、吴伟、张金峰。
蛋白质：结构、功能、生物信息学，2019年12月。
[10.1002/prot.25868]

RamaNet：利用长短期记忆生成对抗神经网络进行从头蛋白质计算设计。
萨丽·萨班、米哈伊尔·马尔科夫斯基。
预印本，2019年6月。
[10.1101/671552] [bioRxiv]

基于图的蛋白质生成模型。
约翰·英格拉姆、维卡斯·K·加格、雷吉娜·巴尔齐莱、汤米·雅科拉。
ICLR关于高度结构化数据的深度生成模型研讨会，2019年5月。
[OpenReview]

SPIN2：利用深度神经网络从蛋白质结构预测序列谱。
詹姆斯·奥康奈尔、李志秀、杰克·汉森姆、里斯·赫弗南、詹姆斯·莱昂斯、库尔迪普·帕利瓦尔、阿卜杜拉·德赫赞吉、杨跃东、周耀奇。
蛋白质，2018年3月。
[10.1002/prot.25489]

分类、注释、搜索与比对

FAPM：利用超越结构建模的多模态模型对蛋白质进行功能注释。
向文凯、熊兆平、陈欢、熊嘉诚、张伟、傅尊云、郑明月、刘冰、石倩。
预印本，2024年5月。
[10.1101/2024.05.07.593067]

使用大型蛋白质结构字母表进行序列比对，可将对远缘同源物的敏感性提高一倍。
罗伯特·C·埃德加。
预印本，2024年5月。
[10.1101/2024.05.24.595840]

ProteinCLIP：用自然语言增强蛋白质语言模型。
凯文·E·吴、霍华德·张、詹姆斯·邹。
预印本，2024年5月。
[10.1101/2024.05.14.594226]

蛋白质语言模型揭示病毒模拟与免疫逃逸。
丹·奥弗、米哈尔·利尼亚尔。
预印本，2024年3月。
[10.1101/2024.03.14.585057]

利用注意力机制预测蛋白质序列的酶功能。
尼古拉斯·布通、弗朗索瓦·科斯特、扬·勒孔夫。
生物信息学，2023年10月。
[10.1093/bioinformatics/btad620]

在已知蛋白质宇宙的尺度上对预测结构进行聚类。
伊尼戈·巴里奥-埃尔南德斯、郑基·余、尤尔根·雅内斯、米洛特·米尔迪塔、卡梅伦·L·M·吉尔克里斯特、塔尼塔·温、米哈伊·瓦拉迪、萨米尔·维兰卡尔、佩德罗·贝尔特劳和马丁·施泰因格。
《自然》杂志，2023年9月。
[10.1038/s41586-023-06510-w]

TEMPROT：利用Transformer嵌入和同源搜索进行蛋白质功能注释。
加布里埃尔·B·奥利维拉、埃利奥·佩德里尼和扎诺尼·迪亚斯。
《BMC生物信息学》，2023年6月。
[10.1186/s12859-023-05375-0]

基于对比学习的酶功能预测。
于天浩、崔海洋、李嘉楠、罗宇楠、蒋广德、赵慧敏。
《科学》杂志，2023年3月。
[10.1126/science.adf2465]

ProteInfer：用于蛋白质功能推断的深度神经网络。
西奥·桑德森、麦克斯韦尔·L·拜莱斯基、大卫·贝朗热、露西·J·科尔威尔。
《eLife》，2023年2月。
[10.7554/eLife.80942]

用于预测酶性质的机器学习模型应在未用于模型训练的蛋白质上进行测试。
亚历山大·克罗尔、马丁·J·勒歇尔。
预印本，2023年2月。
[10.1101/2023.02.06.526991]

语言模型可以识别蛋白质序列中的酶活性位点。
伊夫斯·盖坦·纳纳·特乌坎、洛伊克·夸特·达西、马泰奥·马尼卡、丹尼尔·普罗布斯特、菲利普·施瓦勒、特奥多罗·莱诺。
预印本，2023年2月。
[10.26434/chemrxiv-2021-m20gg-v3]

基于蛋白质序列嵌入的无比对序列保守性估计方法用于识别功能位点。
韦兰·杨、周中亮、李胜、纳塔拉詹·坎南。
《生物信息学简报》，2023年1月。
[10.1093/bib/bbac599]

通过预训练语言模型和基于同源性的标签传播，实现快速且准确的蛋白质功能序列预测。
袁千木、谢俊杰、谢建聪、赵慧英、杨跃东。
预印本，2022年12月。
[10.1101/2022.12.05.519119]

向量聚类多重序列比对：利用蛋白质语言模型将序列比对推进至蛋白质序列相似度的“暮光区”。
克莱尔·D·麦克怀特、莫娜·辛格。
预印本，2022年10月。
[10.1101/2022.10.21.513099]

AlphaFold2显著提升蛋白质序列比对效果。
阿塔纳西奥斯·巴尔齐斯、莱拉·曼苏里、苏珊娜·金、比约恩·E·兰格、伊奥纳斯·埃尔布、塞德里克·诺特雷达姆。
《生物信息学》，2022年9月。
[doi.org/10.1093/bioinformatics/btac625]

GO Bench：基于机器学习的蛋白质功能注释通用基准测试共享平台。
安德鲁·迪克森、埃赫萨内丁·阿斯加里、爱丽丝·C·麦克哈迪、穆罕默德·R·K·莫夫拉德。
预印本，2022年7月。
[10.1101/2022.07.19.500685]

SETH模型可根据蛋白质嵌入预测残基无序性的细微差异。
达格玛·伊尔茨霍费尔、迈克尔·海因津格、布尔哈德·罗斯特。
预印本，2022年6月。
[10.1101/2022.06.23.497276]

TSignal：用于信号肽预测的Transformer模型。
亚历山德鲁·杜米特雷斯库、艾米·约基宁、尤霍·凯洛萨洛、维勒·帕维莱宁、哈里·莱赫德斯马基。
预印本，2022年6月。
[10.1101/2022.06.02.493958]

TMbed——基于语言模型嵌入预测跨膜蛋白。
迈克尔·伯恩霍弗、布尔哈德·罗斯特。
预印本，2022年6月。
[10.1101/2022.06.12.495804]

基于蛋白质嵌入的对比学习以闪电般的速度揭示“午夜地带”的奥秘。
迈克尔·海因津格、玛丽亚·利特曼、伊恩·西利托、尼古拉·博尔丁、克里斯蒂娜·奥伦戈、布尔哈德·罗斯特。
预印本，2021年11月。
[10.1101/2021.11.14.468528]

SignalP 6.0利用蛋白质语言模型实现所有类型信号肽的精准预测。
费利克斯·特乌费尔、何塞·胡安·阿尔马格罗·阿门特罗斯、亚历山大·罗森贝格·约翰森、马格努斯·哈尔多尔·吉斯拉松、西拉斯·厄比·皮尔、康斯坦提诺斯·D·齐里戈斯、奥莱·温特、索伦·布鲁纳克、冈纳尔·冯·海涅、亨里克·尼尔森。
预印本，2021年7月。
[10.1101/2021.06.09.447770]

采用氨基酸序列图像表示的卷积神经网络用于蛋白质功能预测。
萨米娅·塔斯尼姆·萨拉、Md·梅赫迪·哈桑、阿赫桑·艾哈迈达、斯瓦克哈尔·沙塔布达。
《计算生物学与化学》，2021年6月。
[10.1016/j.compbiolchem.2021.107494]

针对3D蛋白质结构学习的内生-外生卷积与池化技术。
佩德罗·埃尔莫西利亚、马可·舍费尔、马捷伊·朗、格洛丽亚·法克尔曼、佩雷·保·巴斯克斯、芭芭拉·科兹利科娃、迈克尔·克罗内、托比亚斯·里切尔、蒂莫·罗平斯基。
预印本，2021年4月。
[arxiv]

深度学习生成的嵌入可使GO注释超越同源性范围。
玛丽亚·利特曼、迈克尔·海因津格、克里斯蒂安·达拉戈、托比亚斯·奥列尼、布尔哈德·罗斯特。
预印本，2020年9月。
[10.1101/2020.09.04.282814]

基于图卷积网络的结构导向蛋白质功能预测。
弗拉基米尔·格利戈里耶维奇、P·道格拉斯·伦弗鲁、托马什·科希奥莱克、朱莉娅·科勒勒·莱曼、丹尼尔·贝伦堡、汤米·瓦塔宁、克里斯·钱德勒、布林·C·泰勒、伊恩·M·菲斯克、赫拉·弗拉马基斯、拉姆尼克·J·泽维尔、罗布·奈特、京炯贤、理查德·邦诺。
预印本，2020年6月。
[10.1101/786236]

无监督蛋白质嵌入在预测分子功能方面优于手工设计的序列和结构特征。
阿梅莉亚·比列加斯-莫尔西略、斯塔夫罗斯·马克罗迪米特里斯、罗兰·范·哈姆、安赫尔·M·戈麦斯、维多利亚·桑切斯、马塞尔·赖因德斯。
预印本，2020年4月。
[10.1101/2020.04.07.028373]

机器学习预测新型抗CRISPR蛋白。
加文·J·诺特、珍妮弗·A·杜德纳、法亚兹·乌尔·阿米尔·阿夫萨尔·明哈斯。
预印本，2019年11月。
[10.1101/854950]

利用生成对抗网络创建的合成特征样本改进蛋白质功能预测。
岑万、戴维·T·琼斯。
预印本，2019年8月。
[10.1101/730143]

用于蛋白质分类的通用深度序列模型。
尼尔斯·施罗特霍夫、帕特里克·瓦格纳、马库斯·文策尔、沃伊切赫·萨梅克。
预印本，2019年7月。
[10.1101/704874]

利用充分的输入子集评估蛋白质家族分类模型。
布兰登·卡特、麦克斯韦尔·L·比莱斯基、杰米·史密斯、西奥·桑德森、德鲁·布莱恩特、大卫·贝朗热、露西·J·科尔威尔。
预印本，2019年6月。
[10.1101/674119] [bioRxiv]

蛋白质分选预测的简要历史。
亨里克·尼尔森、康斯坦蒂诺斯·D·齐里戈斯、索伦·布鲁纳克、冈纳尔·冯·海涅。
《蛋白质期刊》，2019年5月。
[10.1007/s10930-019-09838-3]

DEEPred：基于多任务前馈深度神经网络的自动化蛋白质功能预测。
阿赫迈特·苏雷亚·里法伊奥卢、通查·多安、玛丽亚·赫苏斯·马丁、伦古尔·切廷-阿塔莱、沃尔坎·阿塔莱。
《科学报告》，2019年5月。
[10.1038/s41598-019-43708-3]

利用深度学习标注蛋白质世界。
麦克斯韦尔·L·比莱斯基、大卫·贝朗热、德鲁·布莱恩特、西奥·桑德森、布兰登·卡特、D·斯库利、马克·A·德普里斯托、露西·J·科尔威尔。
预印本，2019年5月。
[10.1101/626507] [bioRxiv]

ECPred：一种基于EC命名法预测蛋白质序列酶功能的工具。
阿尔佩伦·达尔基兰、阿赫迈特·苏雷亚·里法伊奥卢、玛丽亚·赫苏斯·马丁、伦古尔·切廷-阿塔莱、沃尔坎·阿塔莱、通查·多安。
《BMC生物信息学》，2018年9月。
[10.1186/s12859-018-2368-y]

DeepGO：利用深度本体论感知分类器从序列和相互作用中预测蛋白质功能。
马哈特·库尔曼诺夫、穆罕默德·阿西夫·汗、罗伯特·霍恩多夫。
《生物信息学》，2018年2月。
[10.1093/bioinformatics/btx624]

利用深度神经网络实现近乎完美的蛋白质多标签分类。
巴拉兹·萨尔凯亚、文策·格罗穆什布。
《方法》，2018年1月。
[10.1016/j.ymeth.2017.06.034]

大规模自动化蛋白质序列功能预测及针对PTEN转录本变异体的实验案例验证。
阿赫迈特·苏雷亚·里法伊奥卢、通查·多安、奥梅尔·希南·萨拉奇、图林·埃尔萨欣、拉比·赛迪、梅赫梅特·沃尔坎·阿塔莱、玛丽亚·赫苏斯·马丁、伦古尔·切廷-阿塔莱。
《蛋白质》，2017年11月。
[10.1002/prot.25416]

ProLanGO：基于循环神经网络的神经机器翻译用于蛋白质功能预测。
任志曹、科尔顿·弗雷塔斯、梁光灿、苗孙、海青江、张新辰。
《分子》，2017年10月。
[10.3390/molecules22101732]

用于深度蛋白质组学和基因组学的生物序列连续分布式表示。
埃赫萨内丁·阿斯加里、穆罕默德·R·K·莫夫拉德
《PLOS One》，2015年11月。
[10.1371/journal.pone.0141287]

蛋白质结构的结构比对核函数。
钱建秋、马蒂厄·于、阿萨·本-胡尔、让-菲利普·韦尔、威廉·斯塔福德·诺布尔
《生物信息学》，2007年1月。
[10.1093/bioinformatics/btl642]

谱核：用于SVM蛋白质分类的字符串核函数。
克里斯蒂娜·S·莱斯利、埃莱亚扎尔·埃斯金、威廉·斯塔福德·诺布尔。
《太平洋生物计算研讨会》，2002年1月。
[pdf]

预测与其他分子的相互作用

用于分子系统精确高效几何深度学习的通用框架。
张硕、刘洋、谢磊。
《科学报告》，2023年11月。
[10.1038/s41598-023-46382-8]

利用掩码语言模型配对相互作用的蛋白质序列。
翁贝托·卢波、达米亚诺·斯加博萨、安妮-弗洛伦斯·比特博尔。
预印本，2023年8月。
[10.1101/2023.08.14.553209]

从蛋白质到配体：解析用于结合亲和力预测的深度学习方法。
罗汉·戈兰特拉、阿日贝塔·库宾科娃、安德烈娅·Y·魏瑟、安东尼娅·S·J·S·梅伊。
预印本，2023年8月。
[10.1101/2023.08.01.551483]

利用生成式深度学习框架从头设计κ-阿片受体拮抗剂。
莱斯利·萨拉斯-埃斯特拉达、达维德·普罗瓦西、邱兴、胡斯努·于米特·卡尼斯坎、奚平·黄、杰弗里·F·迪贝尔托、若昂·马塞洛·拉米姆·里贝罗、金建、布莱恩·L·罗斯以及玛尔塔·菲利佐拉。
《化学信息学与建模杂志》，2023年8月。
[10.1021/acs.jcim.3c00651]

基于序列的纳米抗体-抗原结合预测。
乌萨马·萨达尔、萨尔万·阿里、穆罕默德·索海卜·阿尤布、穆罕默德·绍伊卜、库拉姆·巴希尔、伊姆达德·乌拉·汗、默里·帕特森。
预印本，2023年7月。
[arxiv]

机器学习优化候选抗体，获得高度多样化的亚纳摩尔级亲和力抗体库。
林莉、埃丝特·古普塔、约翰·斯皮思、莱斯利·辛格、拉斐尔·海梅斯、艾米丽·恩格尔哈特、兰多夫·洛佩斯、拉蒙达·S·卡塞雷斯、特里斯坦·贝普勒以及马修·E·沃尔什。
《自然通讯》，2023年6月。
[10.1038/s41467-023-39022-2]

利用蛋白质语言和图神经网络匹配受体与气味分子。
马泰伊·赫拉迪什、马克桑斯·拉利斯、塞巴斯蒂安·菲奥鲁奇、热雷米·托潘。
ICLR，2023年5月。
ICLR

基于机器学习和深度学习预测酶小分子底物的一般模型。
亚历山大·克罗尔、萨哈斯拉·兰詹、马丁·K·M·英奎斯特以及马丁·J·莱彻。
《自然通讯》，2023年5月。
[10.1038/s41467-023-38347-2]

利用学习到的表面指纹从头设计蛋白质相互作用。
巴勃罗·盖因萨、莎拉·韦尔勒、亚历山德拉·范·霍尔-博沃伊斯、安东尼·马尚、安德烈亚斯·谢克、赞德·哈特韦尔德、斯蒂芬·巴克利、董春尼、宋广谭、弗雷尔·斯韦里松、卡斯珀·戈弗德、普里西拉·图雷利、夏琳·拉克洛、亚历山德拉·特斯连科、马丁·帕塞萨、斯蒂芬·罗塞特、桑德琳·乔治翁、简·马斯登、亚伦·佩特鲁泽拉、李克芳、徐泽鹏、严柴、浦韩、乔治·F·高……以及布鲁诺·E·科雷亚。
《自然》，2023年4月。
[10.1038/s41586-023-05993-x]

PeSTo：无参数几何深度学习，用于精确预测蛋白质结合界面。
吕西安·F·克拉普、卢西亚诺·A·阿布里亚塔、法比奥·科尔特斯·罗德里格斯以及马泰奥·达尔·佩拉罗。
《自然通讯》，2023年4月。
[10.1038/s41467-023-37701-8]

DRPBind：预测内在无序蛋白质序列中的DNA、RNA和蛋白质结合残基。
罗内什·夏尔马、津田达彦、阿洛克·夏尔马。
预印本，2023年3月。
[10.1101/2023.03.20.533427]

FlexVDW：一种用于在配体对接中考虑蛋白质柔性的机器学习方法。
帕特里夏·苏里亚纳、约瑟夫·M·帕吉、罗恩·O·德罗尔。
预印本，2023年3月。
[arxiv]

端到端的序列-结构-功能元学习可预测全基因组范围内暗蛋白的化学-蛋白质相互作用。
蔡天、谢丽、张硕、陈木格、何迪、阿米特什·巴德库尔、刘洋、哈里·克里希纳·南巴拉、迈克尔·多罗甘、韦恩·W·哈丁、卡梅伦·穆拉、菲利普·E·伯恩、谢磊。
《PLOS 计算生物学》，2023年1月。
[10.1371/journal.pcbi.1010851]

人工智能在解析嗅觉、嗅觉受体与小分子之间关系中的应用。
雷亚娜·阿切布什、安妮·特罗梅兰、卡琳·奥杜兹和奥利维埃·塔布尔欧。
《科学报告》，2022年11月。
[10.1038/s41598-022-23176-y]

DiffBP：用于靶向蛋白质结合的三维分子生成扩散模型。
林海涛、黄宇飞、刘猛、李璇静、季水旺、李三祥。
预印本，2022年11月。
[arxiv]

DiffDock：用于分子对接的扩散步骤、扭转与转向。
加布里埃莱·科尔索、汉内斯·施塔克、景博文、雷吉娜·巴尔齐莱、汤米·雅科拉。
预印本，2022年10月。
[arxiv]

基于AlphaFold的分子对接预测在抗生素发现中的基准测试。
费利克斯·王、阿蒂·克里希南、艾丽卡·J·郑、汉内斯·施塔克、阿比盖尔·L·曼森、阿什莉·M·厄尔、汤米·雅科拉、詹姆斯·J·柯林斯。
《分子系统生物学》，2022年9月。
[10.15252/msb.202211081]

利用多尺度生成扩散模型进行动态主链蛋白质-配体结构预测。
乔卓然、聂伟力、阿拉什·瓦赫达特、托马斯·F·米勒三世、阿尼玛·阿南德库马尔。
预印本，2022年9月。
[arxiv]

基于蛋白质序列的强化学习模型实现广泛使用且快速的从头药物设计。
李亚琴、李玲丽、徐永进、于毅。
预印本，2022年8月。
[10.1101/2022.08.18.504370]

通过层次化等变精炼进行抗体-抗原对接与设计。
金文功、雷吉娜·巴尔齐莱、汤米·雅科拉。
预印本，2022年7月。
[arxiv]

用于化合物-蛋白质亲和力及接触预测的跨模态自监督蛋白质嵌入。
尤云宁、沈阳。
预印本，2022年7月。
[10.1101/2022.07.18.500559]

EvoBind：利用AlphaFold进行肽结合物的计算机定向进化。
帕特里克·布莱恩特、阿尔内·埃洛夫松。
预印本，2022年7月。
[10.1101/2022.07.23.501214]

BepiPred-3.0：利用蛋白质语言模型改进B细胞表位预测。
约阿基姆·克利福德、马格努斯·哈拉尔森·霍伊、莫滕·尼尔森、塞巴斯蒂安·德勒兰、比约恩·彼得斯、保罗·马尔卡蒂利。
预印本，2022年7月。
[10.1101/2022.07.11.499418]

利用BERT语言模型预测跨膜转运蛋白的特定底物。
西玛·阿泰伊、格雷戈里·巴特勒。
预印本，2022年7月。
[10.1101/2022.07.23.501263]

利用微调后的蛋白质结构预测网络预测肽结合特异性。
阿米尔·莫特曼、尤斯塔斯·道帕拉斯、白敏京、穆罕默德·H·阿贝迪、大卫·贝克、菲利普·布拉德利。
预印本，2022年7月。
[10.1101/2022.07.12.499365]

利用PocketMiner图神经网络从单个蛋白质结构中预测隐匿性口袋的位置。
阿图尔·梅勒、迈克尔·沃德、乔纳森·博罗夫斯基、杰弗里·M·洛特哈默、梅格纳·克希尔萨加尔、费利佩·奥维多、胡安·拉维斯塔·费雷斯、格雷戈里·R·鲍曼。
预印本，2022年6月。
[10.1101/2022.06.28.497399]

上下颠倒：将全局视角整合到基于序列的蛋白质-蛋白质相互作用预测中。
罗希特·辛格、卡皮尔·德夫科塔、塞缪尔·斯莱济斯基、邦妮·伯格、莱诺尔·考恩。
《生物信息学》，2022年7月。
[10.1093/bioinformatics/btac258]

利用深度学习构建蛋白质功能位点支架。
王珏、西德尼·利桑扎、戴维·尤尔根斯、道格·提舍尔、约瑟夫·L·沃森、卡拉·M·卡斯特罗、罗伯特·拉戈特、阿米贾伊·萨拉戈维、卢卡斯·F·米尔斯、白敏京、伊万·阿尼申科、魏杨、德里克·R·希克斯、马克·埃克斯波西特、托马斯·施利希特哈尔勒、春正浩、尤斯塔斯·道帕拉斯、纳撒尼尔·贝内特、巴西勒·I·M·威基、安德鲁·门克斯、弗兰克·迪马约、布鲁诺·科雷亚、谢尔盖·奥夫钦尼科夫以及大卫·贝克。
《科学》，2022年7月。
[10.1126/science.abn2100]

酶的底物范围：基于机器学习和深度学习的一般预测模型。 亚历山大·克罗尔、萨哈斯拉·兰詹、马丁·K·M·英奎斯特、马丁·J·莱彻。
预印本，2022年5月。
[10.1101/2022.05.24.493213]

家族级酶-底物特异性筛选的机器学习建模。
塞缪尔·戈德曼、里亚·达斯、凯文·K·杨、康纳·W·科利。
《PLoS 计算生物学》，2022年2月。
[10.1371/journal.pcbi.1009853] 酶的底物范围：基于机器学习和深度学习的一般预测模型 亚历山大·克罗尔、萨哈斯拉·兰詹、马丁·K·M·英奎斯特、马丁·J·莱彻。
预印本，2022年5月。
[10.1101/2022.05.24.493213]

AlphaFold编码了识别高亲和力肽结合物的原则。
常立伟、阿尔贝托·佩雷斯。
预印本，2022年3月。
[10.1101/2022.03.18.484931]

利用非结构数据预测蛋白质-配体复合物的结构与亲和力。
约瑟夫·M·帕吉、朱莉娅·A·贝尔克、斯科特·A·霍林斯沃思、尼古拉斯·维利亚纽瓦、亚历山大·S·鲍尔斯、玛丽·J·克拉克、奥古斯丁·G·钱帕拉蒂、乔纳森·E·蒂南、托马斯·K·劳、罗杰·K·苏纳哈拉以及罗恩·O·德罗尔。
《PNAS》，2021年12月。
[10.1073/pnas.2112621118]

AlphaFill：用配体和辅因子丰富AlphaFold模型。
马尔滕·L·赫克尔曼、伊达·德·德·弗里斯、罗比·P·约斯滕、阿纳斯塔西斯·佩拉基斯。
预印本，2021年11月。
[10.1101/2021.11.26.470110]

深度学习可根据结构特征实现基因组规模的米氏常数预测。
亚历山大·克罗尔、马丁·K·M·英奎斯特、大卫·赫克曼、马丁·J·莱彻尔。
PLoS生物学，2021年10月
[10.1371/journal.pbio.3001402]

基于序列的概率模型探究T细胞应答。
芭芭拉·布拉维、维诺德·P·巴拉昌德兰、本杰明·D·格林鲍姆、亚历山德拉·M·瓦尔恰克、蒂埃里·莫拉、雷米·莫纳松、西蒙娜·科科。
PLOS计算生物学，2021年9月。
[10.1371/journal.pcbi.1009297]

具有生物学意义的迁移学习可提升转录因子结合位点预测性能。
格尔曼·诺瓦科夫斯基、马努·萨拉斯瓦特、奥里奥尔·福尔内斯、萨拉·莫斯塔菲及怀思·W·沃瑟曼。
基因组生物学，2021年9月。
[10.1186/s13059-021-02499-5]

基于深度学习的kcat预测有助于改进酶约束模型重建。
李飞然、袁乐、陆洪忠、李刚、陈宇、马丁·K·M·英奎斯特、爱德华·J·刻尔霍文、延斯·尼尔森。
预印本，2021年8月
[10.1101/2021.08.06.455417 ]

十亿个合成的三维抗体-抗原复合物实现了对抗体特异性预测不受限制的机器学习研究。
菲利普·A·罗伯特、拉赫马德·阿克巴尔、罗伯特·弗兰克、米莱娜·帕夫洛维奇、迈克尔·维德里希、伊戈尔·斯纳普科夫、玛丽亚·切尔尼戈夫斯卡娅、洛内克·谢费尔、安德烈·斯拉博德金、布里吉·布尚·梅塔、麦哈·武、奥雷尔·普罗斯、克日什托夫·阿布拉姆、亚历克斯·奥拉尔、恩凯莱达·米霍、达格·特吕格韦·特里斯勒·豪格、弗里特约夫·伦德-约翰森、塞普·霍赫赖特、英格丽德·霍贝克·哈夫、君特·克拉姆鲍尔、盖尔·K·桑德韦、维克多·格莱夫。
预印本，2021年7月。
[10.1101/2021.07.06.451258]

利用CNN与GCN相结合的方法，融合序列和空间邻域信息进行互补决定簇预测。
卢帅、李玉光、王飞、南晓飞、张守涛。
IEEE/ACM计算生物学与生物信息学汇刊，2021年5月。
[10.1109/TCBB.2021.3083001]

用于互补决定簇-表位联合预测的神经消息传递方法。
爱丽丝·德尔·韦基奥、安德蕾娅·迪亚克、皮耶特罗·利奥、佩塔尔·韦利奇科维奇。
预印本，2021年5月。
[arxiv]

通过学习随机掩码解释生物序列的神经网络。
约翰内斯·林德、阿莉莎·拉弗勒、陈子博、阿雅斯贾·柳贝季奇、大卫·贝克、斯里拉姆·坎南、格奥尔格·泽利格。
预印本，2021年4月。
[10.1101/2021.04.29.441979]

GraphProt2：一种基于图神经网络的RNA结合蛋白结合位点预测方法。
迈克尔·乌尔、范丁·陈、弗洛里安·海尔、罗尔夫·巴科芬。
预印本，2021年3月。
[10.1101/850024]

利用抗体-抗原结合界面训练基于图像的深度神经网络进行抗体-表位分类。
丹尼尔·R·里波尔、西达尔塔·乔杜里、安德斯·瓦尔克维斯特。
PLOS计算生物学，2021年3月。
[10.1371/journal.pcbi.1008864]

用于新型病毒-人类蛋白质相互作用的多任务迁移学习框架。
阮氏东、梅加·科斯拉。
预印本，2021年3月。
[10.1101/2021.03.25.437037]

EGRET：边缘聚合图注意力网络与迁移学习提升蛋白质-蛋白质相互作用位点预测精度。
萨赞·马赫布布、穆罕默德·沙姆苏佐哈·贝济德。
预印本，2021年2月。
[10.1101/2020.11.07.372466]

迈向蛋白质复合物功能的系统性表征：自然语言处理与机器学习框架。
瓦伦·S·夏尔马、安德烈亚·福萨蒂、罗道尔福·丘法、玛丽亚·布尔扬、埃文·G·威廉姆斯、陈振、邵文光、帕特里克·G·A·佩德里奥利、安东尼·W·珀塞尔、玛丽亚·罗德里格斯·马丁内斯、……李晨。
预印本，2021年2月。
[10.1101/2021.02.24.432789]

胶囊网络用于蛋白质泛素化位点预测。
黄启义、蒋久磊、罗音、李伟民、王颖。
预印本，2021年1月。
[10.1101/2021.01.07.425697]

准确的新抗原预测取决于突变位置相对于患者等位基因特异性MHC锚定位点的位置。
夏辉明、乔舒亚·F·麦克米歇尔、苏昂松·苏帕蓬、梅根·M·里希特斯、阿纳米卡·巴苏、科迪·A·拉米雷斯、克里斯蒂娜·普伊格-索斯、凯尔西·C·科托、贾斯里特·洪达尔、苏珊娜·基瓦拉、……马拉基·格里菲斯。
预印本，2020年12月。
[10.1101/2020.12.08.416271]

DeepPurpose：用于药物-靶标相互作用预测的深度学习库。
黄克新、傅天凡、卢卡斯·M·格拉斯、马林卡·齐特尼克、肖曹、孙继明。
生物信息学，2020年12月。
[10.1093/bioinformatics/btaa1005]

采用不同蛋白质工程和机器学习方法评估2-脱氧-D-核糖-5-磷酸醛缩酶（DERA）的底物特异性。
桑妮·沃蒂莱宁、马库斯·海诺宁、马蒂娜·安德贝格、埃米·约基宁、汉努·马海莫、约翰·派科宁、妮娜·哈库利宁、尤哈·鲁维宁、哈里·莱赫德斯马基、塞缪尔·卡斯基、尤霍·鲁苏、梅尔雅·彭蒂拉及安努·科伊武拉。
应用微生物学与生物技术，2020年11月。
[10.1007/s00253-020-10960-x]

BERTMHC：利用Transformer和多实例学习提升MHC-肽II类相互作用预测精度。
程俊、凯德雷·本贾马、卡罗拉·里特纳、布兰登·马龙。
预印本，2020年11月。
[10.1101/2020.11.24.396101]

细胞穿透肽预测：构建并解读基于随机森林的预测模型。
希尔帕·亚达哈利、钱德拉·S·维尔马。
预印本，2020年10月。
[10.1101/2020.10.15.341149]

Struct2Graph：一种基于图注意力网络的蛋白质-蛋白质相互作用结构预测方法。
马扬克·巴拉万、阿布拉姆·马格纳、雅各布·萨尔丁格、埃米内·S·图拉利-埃姆雷、希瓦尼·科扎雷卡尔、保罗·埃尔瓦蒂、J·斯科特·范埃普斯、尼古拉斯·A·科托、安吉拉·维奥利、阿尔弗雷德·O·英雄。
预印本，2020年9月。
[10.1101/2020.09.17.301200]

基于TCR CDR3区预测单个T细胞的抗原特异性。
戴维·S·费舍尔、吴一涵、本杰明·舒伯特、法比安·J·泰斯。
分子系统生物学，2020年8月。
[10.15252/msb.20199416]

DeepKinZero：用于预测涉及研究较少激酶的激酶–磷酸化位点关联的零样本学习。
伊曼·德兹纳比、布斯拉·阿拉巴奇、梅赫梅特·科尤图尔克、厄兹努尔·塔斯坦。
生物信息学，2020年6月。
[10.1093/bioinformatics/btaa013]

EpiDope：一种用于线性B细胞表位预测的深度神经网络。
马克西米利安·科拉茨、弗洛里安·莫克、马丁·霍尔策、埃马努埃尔·巴斯、康拉德·萨克瑟、曼雅·马尔茨。
预印本，2020年5月。
[10.1101/2020.05.12.090019]

Site2Vec：一种参考系不变的算法，用于蛋白质-配体结合位点的向量嵌入表示。
阿尔纳布·巴德拉、卡利达斯·Y。
预印本，2020年3月。
[arxiv]

基于能量的图卷积网络用于评分蛋白质对接模型。
曹悦、沈洋。
蛋白质：结构、功能与生物信息学，2020年。
[10.1002/prot.25888]

利用深度上下文化表示学习评估突变对蛋白质-蛋白质相互作用的影响
周广宇、陈慕浩、朱洁婷、王铮、江俊宇、王伟。
NAR基因组学与生物信息学，2020年3月
[10.1093/nargab/lqaa015]

利用机器学习对蛋白质-肽相互作用及信号网络进行生物物理预测。
约瑟夫·M·坎宁安、格里戈里·科伊蒂格、彼得·K·索格和穆罕默德·阿尔库赖希。
自然方法，2020年1月。
[10.1038/s41592-019-0687-1]

从嗅觉受体的序列中解码其功能。
丛晓静、任文文、乔迪·帕卡隆、克莱尔·A·德·马尔什、徐伦、松波弘明、于一群、热罗姆·戈莱比奥斯基。
预印本，2020年1月。
[10.1101/2020.01.06.895540]

用于合成生物学的序列到功能深度学习框架。
杰奎琳·瓦莱里、凯瑟琳·M·柯林斯、比安卡·A·莱佩、蒂莫西·K·卢、迪奥戈·M·卡马乔。
预印本，2019年12月。
[10.1101/870055]

可解释的深度关系网络用于预测化合物-蛋白质亲和力和接触。
穆斯塔法·卡里米、吴迪、王张阳、沈洋。
预印本，2019年12月。
[arxiv]

利用单个蛋白质/配体结合模型预测从未见过的蛋白质的活性配体。
维克拉姆·桑达尔、露西·科尔韦尔。
NeurIPS机器学习与物理科学研讨会，2019年12月。
[ML4PS]

利用几何深度学习从蛋白质分子表面破译相互作用指纹。
P·盖恩扎、F·斯韦里森、F·蒙蒂、E·罗多拉、D·博斯凯尼、M·M·布朗斯坦、B·E·科雷亚。
自然方法，2019年12月。
[10.1038/s41592-019-0666-6]

基于3D蛋白质结构的端到端学习用于界面预测
拉斐尔·J·L·汤森德、里希·贝迪、帕特里夏·A·苏里亚娜、罗恩·O·德罗尔。
NeurIPS，2019年12月。
[arxiv]

USMPep：用于主要组织相容性复合物结合亲和力预测的通用序列模型。
约翰娜·菲勒哈本、马库斯·文策尔、沃伊切赫·萨梅克、尼尔斯·施特罗特霍夫。
预印本，2019年10月。
[10.1101/816546]

DeepCLIP：利用深度学习预测突变对蛋白质-RNA结合的影响。
亚历山大·古利弗·比约恩霍尔特·格伦宁、托马斯·科德·多克托尔、西蒙·乔纳斯·拉尔森、乌尔丽卡·西蒙·斯潘斯贝格·彼得森、丽瑟·洛勒·霍尔姆、吉特·霍夫曼·布鲁恩、迈克尔·比克罗德·汉森、安妮-梅特·哈通、扬·鲍姆巴赫、布拉格·斯托尔斯坦·安德烈森。
预印本，2019年9月。
[10.1101/757062]

基于暹罗残差RCNN的多方面蛋白质-蛋白质相互作用预测
陈慕浩、朱洁婷、周广宇、陈雪璐、张天然、常凯威、卡洛·扎尼奥洛、王伟。
生物信息学，2019年7月。（ISMB/ECCB-2019会议论文集）
[10.1093/bioinformatics/btz328]

DeepConv-DTI：通过在蛋白质序列上进行卷积的深度学习预测药物-靶标相互作用。
李英伍、金宗洙、南浩中。
PLoS计算生物学，2019年6月。
[10.1371/journal.pcbi.1007129]

利用点云方法结合结合位点结构进行药物发现。
文森特·马莱、卡洛斯·G·奥利维尔、尼古拉斯·莫伊泰西耶、杰罗姆·瓦尔迪斯普尔。
预印本，2019年5月。
[arXiV]]

海鞘特异性神经肽的G蛋白偶联受体库。
白石章、奥久田敏美、宫坂奈津子、大杉智宏、奥野靖史、井上淳和佐竹本雄。
PNAS，2019年3月。
[10.1073/pnas.1816640116]

卷积神经网络架构的简单技巧可提高DNA-蛋白质结合预测的准确性。
曹振、张世华。
生物信息学，2018年10月。
[10.1093/bioinformatics/bty893

MHCflurry：开源I类MHC结合亲和力预测工具。
蒂莫西·J·奥唐奈、亚历克斯·鲁宾斯坦、玛丽亚·邦萨克、安杰莉卡·B·里默、乌里·拉瑟森、杰夫·哈默巴赫。
细胞系统，2018年6月。
[10.1016/j.cels.2018.05.014]

P2Rank：基于机器学习的工具，可快速准确地从蛋白质结构中预测配体结合位点。
拉多斯拉夫·克里瓦克、大卫·霍克萨。
化学信息学杂志，2018年8月。
[10.1186/s13321-018-0285-8]

DeepMHC：用于高性能肽-MHC结合亲和力预测的深度卷积神经网络。
胡建君、刘忠浩。
预印本，2017年12月。
[10.1101/239236] [bioRxiv]

DeepSite：使用3D卷积神经网络的蛋白质结合位点预测器。
J、吉梅内斯、S·多尔、G·马丁内斯-罗塞尔、A·S·罗斯、G·德·法布里提斯。
生物信息学，2017年10月。
[10.1093/bioinformatics/btx350]

利用词嵌入和循环神经网络预测蛋白质结合亲和力。
卡洛·马扎费罗。
预印本，2017年4月。
[10.1101/128223] [bioRxiv]

用于预测蛋白质-配体结合亲和力的原子卷积网络。
约瑟夫·戈梅斯、巴拉特·拉姆孙达尔、埃文·N·费因伯格、维杰·S·潘德。
预印本，2017年3月。
[arxiv]

用于预测DNA-蛋白质结合的卷积神经网络架构。
曾浩洋、马修·D·爱德华兹、刘戈、大卫·K·吉福德。
生物信息学，2016年6月15日。
[10.1093/bioinformatics/btw255]

用于建模RNA结合蛋白靶标结构特征的深度学习框架。
张赛、周静田、胡海林、龚海鹏、陈立功、程超、曾建阳。
核酸研究，2015年10月。
[10.1093/nar/gkv1025]

利用深度学习预测DNA和RNA结合蛋白的序列特异性。
巴巴克·阿里帕纳希、安德鲁·德隆、马修·T·韦劳赫、布伦丹·J·弗雷。
自然生物技术，2015年7月。
[10.1038/nbt.3300]

基于学习到的三维表征进行蛋白质-蛋白质对接。
格奥尔基·德列维扬科、纪尧姆·拉穆勒。
预印本，2017年3月。
[10.1101/738690][bioRxiv]

其他监督学习

基于蛋白质序列的深度迁移学习框架，用于识别人类蛋白质组范围内的去泛素化酶-底物相互作用。
刘源、李典科、张欣、夏思敏、屈英杰、凌新平、李阳、孔祥仁、张凌强、崔春平和李东。
自然通讯，2024年5月。
[10.1038/s41467-024-48446-3]

TransMEP：在大型蛋白质语言模型上进行迁移学习，以从少量已知数据集中预测蛋白质突变效应。
蒂尔曼·霍夫鲍尔、比尔吉特·施特罗德尔。
预印本，2024年1月。
[10.1101/2024.01.12.575432]

蛋白质序列-功能关系的简单性。
朴妍宇、布莱恩·P·H·梅茨格、约瑟夫·W·桑顿。
预印本，2023年9月。
[10.1101/2023.09.02.556057]

基于深度学习的大规模同义变异数据集的密码子优化，可实现通用且可调的蛋白质表达。
戴维·A·康斯坦特、贾希尔·M·古铁雷斯、阿南德·V·萨斯特里、丽贝卡·维亚佐、尼古拉斯·R·史密斯、朱拜尔·侯赛因、戴维·A·斯宾塞、海莉·卡特、阿比盖尔·B·文图拉、迈克尔·T·M·路易、克里斯塔·科恩内特、丽贝卡·康斯布鲁克、乔舒亚·贝内特、肯尼思·A·克劳福德、约翰·M·萨顿、安内莉丝·莫里森、安德烈娅·K·施泰格、凯里安娜·A·杰克逊、珍妮弗·T·斯坦顿、沙希德·阿卜杜勒哈克、格雷戈里·汉努姆、乔舒亚·迈尔、马修·魏因斯托克、迈尔斯·甘德尔。
预印本，2023年2月。
[10.1101/2023.02.11.528149]

将基于生物物理学的知识与贝叶斯神经网络有机结合，用于稳健的蛋白质性质预测。
亨特·尼索诺夫、王一欣和詹妮弗·利斯特加滕。
ACS合成生物学，2023年10月。
[10.1021/acssynbio.3c00217]

FiTMuSiC：利用结构和（共）进化数据进行蛋白质适应度预测。
马茨韦伊·季申、加布里埃尔·西亚、保琳·赫尔曼斯、让·夸西格罗赫、玛丽安娜·鲁曼、法布里齐奥·普奇。
预印本，2023年8月。
[10.1101/2023.08.01.551497]

评估蛋白质回归模型的性能。
理查德·迈克尔、雅各布·凯斯特尔-汉森、彼得·莫尔奇·格罗特、西蒙·巴特尔斯、耶斯珀·萨洛蒙、田鹏飞、尼科斯·S·哈察基斯、沃特·K·博姆斯马。
预印本，2023年6月。
[10.1101/2023.06.18.545472]

可解释的神经架构搜索和迁移学习，用于理解序列依赖性酶促反应。
张子俊、亚当·R·兰森、迈克尔·谢利、奥尔加·特罗扬斯卡娅。
预印本，2023年5月。
[arxiv]

基于蛋白质语言模型的端到端II型聚酮化合物预测，无需序列比对。
黄家权、高倩迪、唐颖、吴亚鑫、张鹤谦、秦志伟。
预印本，2023年4月。
[10.1101/2023.04.18.537339]

压平曲线——如何利用小型深度突变扫描数据集获得更好结果。
格雷戈尔·维尔恩斯贝格、伊娃·普里蒂沙纳茨、古斯塔夫·奥伯多费尔、卡尔·格鲁伯。
预印本，2023年3月。
[10.1101/2023.03.27.534314]

使用结构感知图卷积网络预测和设计蛋白酶特异性。
卢昌鹏、约瑟夫·H·卢宾、维杜尔·V·萨尔马、塞缪尔·Z·斯滕茨、王冠阳、王思健、萨加尔·D·卡雷。
预印本，2023年2月。
[10.1101/2023.02.16.528728]

针对蛋白质序列和小分子的线性尺度核，在提供不确定性量化和改进可解释性的同时，性能优于深度学习。
乔纳森·帕金森、王伟。
预印本，2023年2月。
[arxiv]

利用机器学习和深度学习预测动力学未表征酶的周转数。
亚历山大·克罗尔、胡晓潘、妮娜·A·利布兰特、马丁·J·莱彻。
预印本，2022年11月。
[10.1101/2022.11.10.516024]

PrMFTP：基于多头自注意力机制和类别权重优化的多功能治疗肽预测。
闫文辉、唐文定、王丽华、毕燕楠、夏俊峰。
PLOS计算生物学，2022年9月。
[10.1371/journal.pcbi.1010511]

利用表型相似性学习提高电压门控钠通道错义突变功能效应的预测精度。
克里斯蒂安·马尔特·博塞尔曼、乌尔丽克·B.S.黑德里希、霍尔格·莱尔切、尼科·普菲弗。
预印本，2022年9月。
[10.1101/2022.09.29.510111]

哺乳动物细胞中的合成蛋白质级神经网络。
陈子博、詹姆斯·M·林顿、朱荣辉、迈克尔·B·埃洛维茨。
预印本，2022年7月。
[10.1101/2022.07.10.499405]

人工智能时代的蛋白质结构预测：应用于计算机模拟力谱学时的挑战与局限性。
普里斯西拉·S.F.C.戈麦斯、迭戈·E.B.戈麦斯、拉斐尔·C.贝尔纳迪。
预印本，2022年7月。
doi: https://doi.org/10.1101/2022.06.30.498329

哺乳动物细胞中的合成蛋白质级神经网络。
陈子博、詹姆斯·M·林顿、朱荣辉、迈克尔·埃洛维茨。
预印本，2022年7月。
[10.1101/2022.07.10.499405]

PRESTO：基于端到端深度学习模型的快速蛋白质机械强度预测。
弗兰克·Y.C.刘、倪波、马库斯·J·布勒。
极端力学快报，2022年8月。
[10.1016/j.eml.2022.101803]

基于深度学习的kcat预测有助于改进酶约束模型重建。
李飞然、袁乐、陆洪忠、李刚、陈宇、马丁·K·M·恩格奎斯特、爱德华·J·克尔霍文、延斯·尼尔森。
《自然催化》，2022年6月。
[10.1038/s41929-022-00798-z]

一种拓扑数据分析方法用于发现蛋白质动力学中的生物物理特征。
唐伟成、加布里埃尔·蒙特罗·达席尔瓦、亨利·基尔韦斯拉赫蒂、艾琳·斯基恩斯、毕波·冯、蒂莫西·苏迪约诺、凯文·K·杨、萨扬·穆克吉、布伦达·鲁本斯坦、洛林·克劳福德。
《PLoS计算生物学》，2022年5月。
[10.1371/journal.pcbi.1010045]

利用神经网络从深度突变扫描数据中学习蛋白质序列—功能关系。
萨姆·盖尔曼、莎拉·A·法尔贝格、皮特·海因策尔曼、菲利普·A·罗梅罗和安东尼·吉特。
《PNAS》，2021年11月。
[10.1073/pnas.2104878118]

癌症中酶活性的多尺度分析。
阿娃·P·索莱马尼、杰西·D·柯克帕特里克、凯茜·S·王、亚历克斯·M·雅格尔、苏珊·苏、圣地亚哥·纳兰霍、钱钟、克里斯蒂娜·M·卡巴纳、泰勒·杰克斯、桑吉塔·N·巴蒂亚。
预印本，2021年11月。
[10.1101/2021.11.11.468288]

上位性网络允许对深度神经网络进行稀疏谱正则化，以推断适应度函数。
阿米拉利·阿加扎德、亨特·尼索诺夫、奥尔汗·奥卡尔、大卫·H·布鲁克斯、黄一杰、O·奥赞·科伊卢奥卢、珍妮弗·利斯特加滕和坎南·拉姆昌德兰。
《自然通讯》，2021年9月。
[10.1038/s41467-021-25371-3]

AllerStat：通过机器学习在蛋白质序列中寻找统计显著的过敏原特异性模式。
后藤健斗、田目尚正、吉田拓海、花田博之、佐久间拓人、足立玲子、近藤一成、竹内一郎。
预印本，2021年8月。
[10.1101/2021.08.17.456743]

一种拓扑数据分析方法用于发现蛋白质动力学中的生物物理特征。
唐伟成、加布里埃尔·蒙特罗·达席尔瓦、亨利·基尔韦斯拉赫蒂、艾琳·斯基恩斯、毕波·冯、蒂莫西·苏迪约诺、凯文·K·杨、萨扬·穆克吉、布伦达·鲁本斯坦、洛林·克劳福德。
预印本，2021年7月。
[10.1101/2021.07.28.454240]

回归模型性能与实验噪声的关系。
李刚、扬·兹里梅茨、季博文、耿军、约翰·拉尔斯布林克、阿列克谢·泽列兹尼亚克、延斯·尼尔森、马丁·K·M·恩格奎斯特。
《生物信息学与生物学见解》，2021年6月。
[10.1177/11779322211020315]

In-Pero：利用蛋白质序列的深度学习嵌入预测过氧化物酶体蛋白的定位。
马可·安特吉尼、维托尔·AP·马丁斯·多斯桑托斯、爱德华多·萨肯蒂。
《国际分子科学杂志》，2021年6月。
[10.3390/ijms22126409]

利用蛋白质稳定性和保守性分析预测并解释大规模诱变数据。
马格努斯·H·霍伊、马泰奥·卡吉亚达、安德斯·哈根·贝克·弗雷德里克森、阿梅莉·施泰因、克雷斯滕·林多夫-拉尔森。
预印本，2021年6月。
[10.1101/2021.06.26.450037]

机器学习区分蛋白质中的酶促金属与非酶促金属。
瑞安·费汉、梅根·W·富兰克林、乔安娜·S·G·斯卢斯基。
《自然通讯》，2021年6月。
[10.1038/s41467-021-24070-3]

评估计算预测工具在估计错义突变导致的蛋白质稳定性变化方面的性能。
沙希德·伊克巴尔、李福义、秋津达也、戴维·B·阿舍尔、杰弗里·I·韦伯、宋江宁。
《生物信息学简报》，2021年5月。
[10.1093/bib/bbab184]

使用分子变换器预测酶促反应。
大卫·克罗伊特、菲利普·施瓦勒、让-路易·雷蒙德。
《化学科学》，2021年5月。
[10.1039/D1SC02362D]

关于适应度函数的稀疏性及其对学习的影响。
大卫·H·布鲁克斯、阿米拉利·阿加扎德、珍妮弗·利斯特加滕。
预印本，2021年5月。
[10.1101/2021.05.24.445506]

深度蛋白质表示可用于预测重组蛋白表达。
汉娜-玛丽·马尔蒂尼、何塞·胡安·阿尔马格罗·阿门特罗斯、亚历山大·罗森贝格·约翰森、耶斯珀·萨洛蒙、亨里克·尼尔森。
预印本，2021年5月。
[10.1101/2021.05.13.443426]

利用深度学习工具和建模从二维静态图像中估算细胞周期蛋白的时间表达。 蒂埃里·佩科特、玛丽亚·C·库伊蒂尼奥、罗杰·H·约翰逊、辛西娅·蒂默斯、古斯塔沃·莱昂内。
预印本，2021年4月。
[10.1101/2021.03.01.433386]

轻量级注意力机制根据生命语言预测蛋白质位置。
汉内斯·施塔克、克里斯蒂安·达拉戈、迈克尔·海因齐格、布尔哈德·罗斯特。
预印本，2021年4月。
[10.1101/2021.04.25.441334]

基于位置的SHAP（PoSHAP）用于解释从生物序列训练的机器学习模型。
奎因·迪金森、杰西·G·梅耶。
预印本，2021年3月。
[10.1101/2021.03.04.433939]

利用卷积神经网络建模突变对生化表型的影响：以SARS-CoV-2为例。
王博、埃里克·R·加马松。
预印本，2021年2月。
[10.1101/2021.01.28.428521]

利用双向深度循环神经网络从科学文献中识别蛋白质亚细胞定位。
拉凯什·大卫、里斯-约书亚·D·梅内泽斯、扬·德·克莱克、伊恩·R·卡斯尔登、科内利亚·M·胡珀、古斯塔沃·卡内罗和马修·吉利汉。
《科学报告》，2021年1月。
[10.1038/s41598-020-80441-8]

DeepPSC（蛋白质结构相机）：以α碳轨迹为案例，基于计算机视觉重建蛋白质主链结构。
张兴、罗俊文、蔡毅、朱伟、杨晓峰、蔡宏敏、林章林。
预印本，2020年8月。
[10.1101/2020.08.12.247312]

TransINT：基于界面的膜蛋白—蛋白相互作用预测。
G·哈曾、A·居尔坎达尼扬、T·伊萨、R·C·马伦。
预印本，2020年7月。
[10.1101/871590]

DeepEMhancer：用于冷冻电镜体积后处理的深度学习解决方案。
R·桑切斯-加西亚、J·戈麦斯-布兰科、A·库埃沃、JM·卡拉索、COS·索兰佐、J·巴尔加斯。
预印本，2020年6月。
[10.1101/2020.06.12.148296]

ProtTox：基于蛋白质序列的毒素识别。
萨塔潘·穆蒂亚、德班詹·达塔、穆罕默德·赖哈努尔·伊斯兰、帕特里克·巴特勒、安德鲁·沃伦、纳伦·拉马克里希南。
预印本，2020年4月。
[10.1101/2020.04.18.048439]

预测β-内酰胺酶的生存能力：折叠与结合自由能如何与β-内酰胺酶适应度相关联。
乔丹·杨、南迪塔·奈克、贾格迪什·苏雷什·帕特尔、克里斯托弗·S·威利、温泽·顾、杰西·黄、马蒂·伊特雷伯格、曼达尔·T·奈克、丹尼尔·M·温赖希、布伦达·M·鲁本斯坦。
预印本，2020年4月。
[10.1101/2020.04.15.043661]

利用卷积神经网络、距离图和持久同调对蛋白质结构进行折叠分类。
叶灿·洪、永宇·邓、郝凡·崔、扬·塞格特、简林·程。
预印本，2020年4月。
[10.1101/2020.04.15.042739]

用于序列-功能关系的最小上位性插值法。
周娟楠、大卫·M·麦坎德利什。
自然通讯，2020年4月。
[10.7554/eLife.16965.024]

机器学习用于识别A类GPCR抑制中的灵活性特征。
约瑟夫·贝米斯特-巴芬顿、亚历克斯·J·沃尔夫、塞巴斯蒂安·拉斯奇卡、莱斯利·A·库恩。
生物分子，2020年3月。
[10.3390/biom10030454]

利用深度学习从冷冻电镜密度图中提取隐藏的蛋白质动力学信息。
松本茂幸、石田祥一、荒木光次、加藤隆之、寺山圭、奥野康史。
预印本，2020年2月。
[10.1101/2020.02.17.951863]

将蛋白质特异性从头药物生成视为机器翻译问题的Transformer神经网络。
达里娅·格列奇什尼科娃。
预印本，2019年12月。
[10.1101/863415]

基于主动学习和元学习的迭代肽建模。
雷尼尔·巴雷特、安德鲁·D·怀特。
预印本，2019年11月。
[arxiv]

基于深度卷积神经网络和注意力机制的泛特异性模型，用于可解释的MHC-I肽结合预测。
金晶、刘忠浩、阿里雷扎·纳西里、崔宇欣、斯蒂芬·路易斯、安西·张、赵勇、胡建军。
预印本，2019年11月。
[10.1101/830737]

BCrystal：一种可解释的基于序列的蛋白质结晶预测器。
阿卜杜拉赫曼·埃尔巴西尔、拉格文德拉·马尔、哈立德·昆吉、雷达·拉维、泽尤尔·伊斯兰、郭友庄、普拉桑纳·R·科拉特卡尔、哈利玛·本斯迈尔。
生物信息学，2019年10月。
[10.1093/bioinformatics/btz762]

用于抗菌肽设计的深度学习回归模型。
雅各布·维滕、扎克·维滕。
预印本，2019年7月。
/10.1101/692681] [bioRxiv]

利用机器学习从蛋白质一级序列预测生物体生长温度。
戴维·B·索尔、王大宁。
预印本，2019年6月。
[10.1101/677328] [bioRxiv]

SolXplain：一种可解释的基于序列的蛋白质溶解度预测器。
拉格文德拉·马尔。
预印本，2019年5月。
[10.1101/651067] [bioRxiv]

利用三维卷积神经网络高精度检测蛋白质功能位点。
温彤、拉塞尔·B·奥特曼。
生物信息学，2019年5月。
[10.1093/bioinformatics/bty813]

开发基于机器学习的回归预测模型以工程化蛋白质溶解度。
韩曦、王晓楠、周康。
生物信息学，2019年4月。
[10.1093/bioinformatics/btz294]

DeepCrystal：一个基于序列的蛋白质结晶预测的深度学习框架。
阿卜杜拉赫曼·埃尔巴西尔、巴拉苏布拉马尼亚·穆瓦尔库穆达尔万、哈立德·昆吉、普拉桑纳·R·科拉特卡尔、拉格文德拉·马尔、哈利玛·本斯迈尔。
生物信息学，2018年11月。
[10.1093/bioinformatics/bty953]

DeepSol：一个基于序列的蛋白质溶解度预测的深度学习框架。
萨米尔·库拉纳、雷达·拉维、哈立德·昆吉、郭友庄、哈利玛·本斯迈尔、拉格文德拉·马尔。
生物信息学，2018年3月。
[10.1093/bioinformatics/bty166]

利用序列衍生特征改进膜蛋白表达的统计模型。
夏姆·M·萨拉迪、诺曼·贾韦德、阿克塞尔·穆勒、威廉·M·克莱蒙斯二世。
生物化学杂志，2018年3月。
[10.1074/jbc.RA117.001052]

从序列-活性数据中学习上位性相互作用以预测对映体选择性。
朱利安·佐格、约瑟菲娜·古穆利亚、阿尔佩什库马尔·K·马尔德、米卡埃尔·博登。
计算机辅助分子设计杂志，2017年12月。
[10.1007/s10822-017-0090-x]

利用大规模诱变数据进行定量错义突变效应预测。
凡妮莎·E·格雷、罗纳德·J·豪斯、延斯·吕贝克、杰伊·申杜尔、道格拉斯·M·福勒。
细胞系统，2017年12月。
[10.1016/j.cels.2017.11.003]

DeepLoc：利用深度学习预测蛋白质亚细胞定位。
何塞·胡安·阿尔马格罗·阿门特罗斯、卡斯珀·卡埃·松德比、索伦·卡埃·松德比、亨里克·尼尔森、奥勒·温特。
生物信息学，2017年9月。
[10.1093/bioinformatics/btx548]

半监督高斯过程用于自动化酶搜索。
约瑟夫·梅洛尔、伊欧安娜·格里戈拉斯、巴勃罗·卡波内尔和让-卢普·福隆。
ACS合成生物学，2016年3月。
[10.1021/acssynbio.5b00294]

蛋白质结构中功能位点的高精度预测。
柳博米尔·布图罗维奇、迈克·王、格蕾丝·W·唐、拉塞尔·B·奥特曼、德拉古廷·佩特科维奇。
PLOS One，2014年3月。
[10.1371/journal.pone.0091240]

负责蛋白质-蛋白质相互作用特异性和多样化的MADS转录因子中的序列基序。
阿尔特·D·J·范·代克、朱塞帕·莫拉比托、马丁·费尔斯、罗兰德·C·H·J·范·哈姆、格尔科·C·安格嫩特、理查德·G·H·伊明克。
PLOS计算生物学，2010年11月。
[10.1371/journal.pcbi.1001017]

基于序列层面决定因素预测和理解转录因子的相互作用：组合调控机制研究
A.D.J. van Dijk、C.J.F. ter Braak、R.G. Immink、G.C. Angenent、R.C.H.J. van Ham
《生物信息学》，2008年1月
[10.1093/bioinformatics/btm539]

深度卷积网络用于蛋白质折叠质量评估
格奥尔基·德列维扬科、谢尔盖·格鲁金、约书亚·本吉奥、纪尧姆·拉穆勒
《生物信息学》，2018年12月
[10.1093/bioinformatics/bty494][ArXiv]

Machine-learning-for-proteins 快速上手指南

项目说明： Machine-learning-for-proteins 并非一个可直接安装的软件库或工具包，而是一个开源的学术论文与资源索引列表。它旨在收集、分类并持续更新关于机器学习在蛋白质工程、结构预测、序列设计及生物物理等领域的前沿研究论文。

本指南将指导开发者如何获取该资源列表，并如何利用其中的链接高效开展研究工作。

1. 环境准备

由于本项目本质是一个文档仓库（Repository），无需特定的深度学习框架（如 PyTorch/TensorFlow）或 GPU 环境即可浏览内容。您只需要具备基础的代码版本管理工具和阅读环境。

操作系统：Windows / macOS / Linux 均可
前置依赖：
- git：用于克隆仓库
- 现代浏览器（Chrome, Edge, Firefox 等）：用于查看渲染后的 Markdown 文件或访问论文链接
- （可选）Markdown 编辑器：如 VS Code, Typora，用于本地离线阅读

2. 安装步骤（获取资源）

通过 Git 将该项目克隆到本地，以便随时查阅最新的论文列表。

步骤 1: 克隆仓库

打开终端（Terminal 或 CMD），执行以下命令：

git clone https://github.com/your-target-repo/Machine-learning-for-proteins.git

(注：请替换为实际的 GitHub 仓库地址，通常在项目主页右上角点击 "Code" 按钮复制)

若在国内网络环境下克隆速度较慢，可使用 Gitee 镜像（如果有）或配置 Git 代理：

# 配置临时 HTTP 代理 (示例)
git -c http.proxy=http://127.0.0.1:7890 clone https://github.com/your-target-repo/Machine-learning-for-proteins.git

步骤 2: 进入目录

cd Machine-learning-for-proteins

步骤 3: 更新内容

由于该列表是协作维护的，建议定期拉取最新内容：

git pull origin main

3. 基本使用

本项目的主要使用方式是查阅分类索引并访问原始论文。

方式 A: 本地阅读

在本地文件夹中打开 README.md 文件。您可以直接看到按类别整理的论文列表，包括：

Reviews (综述)
Tools and datasets (工具与数据集)
Generative models (生成模型)
Predicting structure from sequence (从序列预测结构)
等其他专业分类。

方式 B: 在线浏览与追踪

直接访问该项目的 GitHub 页面，利用浏览器的搜索功能（Ctrl+F / Cmd+F）查找关键词（如 "Diffusion", "Stability", "Design"）。

使用示例：查找关于“蛋白质稳定性预测”的最新论文

在 README.md 中找到 Predicting stability 章节。
该章节下的论文按时间倒序排列（最新在前）。
点击论文标题旁的 DOI 链接或 arXiv 链接直达原文。

例如，您可能找到如下条目（示例数据）：

AI challenges for predicting the impact of mutations on protein stability. Preprint, November 2021. [arxiv]

点击链接阅读论文，并根据论文中的 "Code Availability" 部分去获取具体的实现代码（通常指向独立的 GitHub 仓库）。

贡献与反馈

如果您发现了新的重要论文或希望添加新的分类，可以通过以下方式参与：

# 创建新分支
git checkout -b add-new-paper

# 编辑 README.md 添加论文信息 (遵循现有格式)
# ... 编辑保存 ...

# 提交更改
git add README.md
git commit -m "Add new paper on [Topic]"

# 推送并发起 Pull Request
git push origin add-new-paper

提示：本列表仅作为文献导航，具体的算法复现请参考各篇论文作者提供的独立代码仓库。

常见问题

我是蛋白质机器学习领域的新手，应该从哪些论文或资源开始学习？

有哪些关于使用随机森林预测蛋白质相互作用的重要论文？

如何向该项目贡献新的论文引用？

有哪些关于蛋白质结晶预测的深度学习框架？

有哪些利用变分自编码器（VAE）生成功能性蛋白质变体的研究？

有没有关于仅使用序列模型进行大规模蛋白质设计和优化的研究？

有哪些关于蛋白质序列对抗对比预训练的研究？

如何通过数据增强提高蛋白质序列模型的泛化能力？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|2天前

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|4天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.1k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|4天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.7k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|4天前

开发框架数据工具其他