5月9日,谷歌DeepMind和Isomorphic Labs联合发布了最新预测蛋白质等结构的大模型——AlphaFold 3。据悉,AlphaFold 3可以通过准确预测蛋白质、DNA、RNA、配体等的结构以及它们之间的相互作用,增强人类对新药的发现方法与效率。例如,用AlphaFold 3去预测新冠病毒(COVID-19)的刺突蛋白结构,深度解读病毒与宿主细胞ACE2受体之间的相互作用关系。
医疗研究人员便能基于该结构的完整信息快速开发一种小分子药物,阻断新冠与ACE2的结合,从而有效地阻止病毒的入侵、复制和传播。再经过多轮动物、临床、人体的实验,一款特效药、疫苗就能快速诞生了。所以,不少医学领域的科学家对AlphaFold 3的评价非常高,认为AI也有机会去竞争医学领域的诺贝尔奖。
目前,AlphaFold 3已经免费提供在线使用,手稿论文已在全球顶级期刊《自然》上发布,稍后会推出编辑整理版。
论文地址:https://www.nature.com/articles/s41586-024-07487-w#citeas
谷歌表示,自AlphaFold系列模型发布以来,全球数百万科研人员在其帮助下实现了多项技术突破,在疟疾疫苗、癌症治疗和酶设计等获得了大奖。最新发布的AlphaFold 3是在2代模型基础之上研发而成,并且使用了全新扩散模型、Pairformer等创新模块,进一步增强对蛋白质的预测准确率以及架构解读。
解读AlphaFold 3创新模块
从AlphaFold 3的论文来看,虽然AlphaFold 2在预测蛋白质结构方面已经很优秀,但研究人员为了进一步提升其准确率和泛化能力,在AlphaFold 3引入了生成式AI领域非常火的扩散模型。使用扩散模型的好处是,可以直接在原始原子坐标上操作,而不需要依赖于氨基酸特定的框架或侧链扭转角度。这种直接预测原子坐标的方法有助于减少立体化学的损失。
其核心思想是将结构预测问题转化为一个逆向过程,从带有噪声的坐标中恢复出真实的生物分子结构。这个过程通过逐步去噪,逐渐精细化结构预测。可指导AlphaFold 3学习如何从噪声数据中恢复出准确的蛋白质结构信息。
在上一代AlphaFold 2模型中,Evoformer模块对准确预测蛋白质结构发挥了重要作用,负责处理多序列比对(MSA)表示、成对表示和单个残基表示。但Evoformer也有一个非常致命的缺点,就是对算力的消耗非常大,不适用于批量大规模业务。所以,在AlphaFold 3中用Pairformer替代了Evoformer模块,彻底去除了对MSA表示的处理,只保留了简单、高效的成对表示和单个残基表示。
Pairformer模块只有4个transformer块组成,仅使用简单的加权平均方法处理MSA表示,接着所有信息都通过成对表示传递给48个标准的transformer块进一步处理数据。
这种巧妙的设计不仅极大节省了算力,还提升了AlphaFold 3的预测泛化能力,可轻松预测各种非天然化合物。
根据谷歌公布的测试数据显示,AlphaFold 3 的准确性比 PoseBusters 基准测试中最佳传统方法高出50%,这也是首个超越基于物理的生物分子结构预测AI模型。
为什么预测蛋白质结构很重要
所有的植物、动物和人类细胞内部都有数十亿的分子机器,并由蛋白质、DNA等多种分子组成。但是,这些分子并不是独立工作的,它们需要互相配合才能完成复杂的生命活动。只有通过研究这些分子如何协同工作,我们才能真正理解生命的运作过程。
例如,当你吃东西的时候体内的消化酶(一种蛋白质)就开始工作,帮助你分解食物。消化酶需要与食物中的分子相互作用,把大的分子分解成小的分子,身体才能吸收这些营养物质。
因此,蛋白质在所有生物过程中都扮演关键角色,包括细胞信号传递、免疫反应、代谢和细胞结构维持等。很多疾病,例如,癌症、阿尔茨海默病、心血管疾病等,都与蛋白质的异常功能或折叠有关。
只有通过预测和理解特定蛋白质的结构,医疗科学家可以更好地理解疾病的分子基础,进而发现疾病的成因和潜在的治疗目标,加速医药的研发进程。