苹果推出SimpleFold通用预测模型，直接对标AlphaFold2-堆代码网

苹果推出SimpleFold通用预测模型，直接对标AlphaFold2

发布于 2个月前
 508 热度

 0 评论

怪性酷
1 粉丝 46 篇博客

苹果公司的研究人员用一个叫SimpleFold的模型证明，预测蛋白质的三维结构，也许并不需要像AlphaFold2那样复杂的“独门秘籍”，一套通用的变换器（Transformer）架构就可能足够了。

一切要从那个“老大难”问题说起
蛋白质的功能，很大程度上由其精确的三维空间结构决定。搞清楚蛋白质是怎么从一条氨基酸链折叠成复杂立体形态的，是几十年来困扰生物学家的核心问题之一。早在1972年，Christian Anfinsen就因证明了蛋白质的氨基酸序列决定其三维结构而获得诺贝尔奖。可怎么从序列解出结构，这条路走了半个世纪。最初，科学家们只能用X射线晶体学这类又慢又贵的实验方法，像拍分子级照片一样，一点点解析结构。

后来计算机科学发展起来，人们开始尝试用计算来预测。为了检验各路方法的成色，1994年起，全球科学家们每两年举办一次“蛋白质结构预测关键评估”（Critical Assessment of protein Structure Prediction, CASP）大赛，这成了蛋白质折叠领域的“华山论剑”。多年来，各路神仙各显神通，但预测精度始终和实验方法有不小的差距。

直到2020年，DeepMind公司的AlphaFold2在CASP14上一战成名，其预测精度达到了与实验方法相媲美的程度，整个领域为之震动。AlphaFold2的成功，被看作是“炼丹术”的极致。它设计了一套极其复杂且精巧的架构，里面塞满了为蛋白质折叠任务量身定做的“独门秘籍”，比如利用多序列比对（Multiple Sequence Alignments, MSAs）寻找进化亲缘关系，构建显式的“对表示”（pair representation）来描述氨基酸残基之间的关系，还有那个计算量巨大的“三角形更新”（triangular updates）模块来回传递空间信息。

这些设计，就像是给模型焊上了一套专门的“外骨骼”，硬编码了研究人员对蛋白质折叠物理过程的理解。一时间，AlphaFold2的架构成了行业标杆，后来者如华盛顿大学的RoseTTAFold等，也大都沿着这条路子走，不断地在这些领域特有的复杂模块上做文章。大家似乎形成了一个共识：搞定蛋白质折叠，就得用这种重型、特化的武器。

换个思路行不行？
生成模型领域大爆发仍然持续。从文本生成图像的DALL-E、Midjourney，到各种3D模型生成，它们的核心思路出奇的一致：用一个相对通用的架构，喂给它海量的数据，让模型自己去学习从输入到输出的映射规律。它们不依赖于开发者硬塞给它的“先验知识”，而是直接从数据中悟道。那能不能也像生成图像一样，给模型一个氨基酸序列（相当于文本提示），让它直接“画”出蛋白质的三维结构？

一些研究者开始了尝试。他们将扩散（diffusion）和流匹配（flow-matching）这类生成模型技术引入蛋白质折叠。但早期探索者们还是有点“路径依赖”，在架构上依然保留了AlphaFold2那些计算昂贵的组件，比如“对表示”和“三角形更新”。这时，苹果公司的研究人员带来了SimpleFold。

SimpleFold的核心思想是，把蛋白质折叠这个事，彻底看成一个条件生成任务，就像“文本生成图像”一样。它的目标，是从一团随机的高斯噪声出发，在氨基酸序列的指引下，一步步把这团噪声“雕刻”成一个精确的全原子蛋白质结构。这个“雕刻”的过程，就是由一种叫做“流匹配”（flow-matching）的技术来控制的。

你可以把流匹配想象成一个时间依赖的变换过程。在时间t=0时，我们有一堆杂乱无章的原子坐标（高斯噪声）。在时间t=1时，我们希望得到一个真实、有序的蛋白质结构。流匹配模型要学习的就是一个速度场，它告诉每个原子在从0到1的每一个瞬间，应该朝哪个方向移动，移动多快，最终才能到达正确的位置。

上图就是它的架构图，极其清爽。没有MSA，没有“对表示”，没有“三角形更新”，什么都没有。它只用了最基础、最通用的变换器模块。

整个架构是一个“细-粗-细”的流程：
原子编码器（细）：输入的是带噪声的原子坐标和原子类型等特征。这个编码器只关注局部，也就是一个原子只跟它周围的邻居们互动。处理完后，它会把同一个氨基酸残基里的所有原子信息“打包”（平均池化），生成一个代表这个残基的“残基标记”。

残基主干（粗）：这是模型的主体和计算核心。它接收上一步打包好的“残基标记”，同时，它还接收一个来自预训练蛋白质语言模型ESM2-3B的序列嵌入。ESM2就像一个“蛋白质专家”，它已经读过了海量的蛋白质序列，能深刻理解序列中蕴含的生物学信息。这两部分信息合并后，在这个巨大的变换器主干网络里进行充分的信息交互和推理。

原子解码器（细）：残基主干处理完毕后，输出带有结构信息的残基标记。这些标记被“解包”，重新投射回每个原子身上。原子解码器再对这些原子信息进行一轮局部的精细调整，最终输出预测的速度场，也就是指导原子如何移动的指令。

就是这么简单。它把处理旋转对称性的难题，也用一种最“暴力”的方式解决了：在训练时，把目标蛋白质结构随机转来转去，让模型自己去学习这种旋转不变性，而不是设计复杂的等变网络。为了让这套简单的架构发挥最大威力，SimpleFold走了另一条路：用海量数据来喂养。

研究人员混合了三类数据：首先是PDB（蛋白质数据库）里经过实验验证的约16万个高质量结构；其次是从AlphaFold数据库的SwissProt子集中筛选出的约27万个高质量预测结构；最后，也是最大的一头，是来自AFESM数据库的，经过筛选和去重的近200万个代表性结构。而对于最大的30亿参数模型，他们更是将数据集扩充到了惊人的近900万个结构。

SimpleFold的实际表现
研究人员在两个公认的蛋白质折叠基准测试CAMEO22和CASP14上，对SimpleFold进行了一系列评估。

从上表可以看出，尽管架构简单，但SimpleFold-3B的表现极具竞争力。在CAMEO22上，它的各项指标几乎与ESMFold和RoseTTAFold2持平，达到了AlphaFold2性能的95%以上。在更具挑战性的CASP14上，它甚至超过了同样使用PLM（蛋白质语言模型）的ESMFold。这证明，放弃那些复杂的领域专用模块，并不会导致性能断崖式下跌。一条更简洁、更通用的路径是完全可行的。

SimpleFold真正的杀手锏，还在于它的“生成”能力。传统的回归模型，比如AlphaFold2，对一个序列只会给出一个确定性的预测结构。但生物世界里，蛋白质不是僵硬的，它会运动、会变化，甚至有些蛋白质本身就存在多种稳定构象。

在预测具有多种构象的蛋白质（Apo/holo和Fold-switch数据集）时，SimpleFold同样表现出色，甚至在Apo/holo上取得了当前最佳的性能。这对于理解蛋白质功能和药物发现至关重要。

SimpleFold完美展现了“规模效应”（Scaling Law）的魅力。无论是增加模型参数量（从1亿到30亿），还是扩大训练数据集（从16万到近900万），模型的性能都随之稳步提升。这说明SimpleFold的通用架构设计是一条康庄大道，未来的提升路径清晰明了：更大的模型，更多的数据。通过拥抱生成模型的简洁哲学，并借助海量数据和计算的力量，我们同样可以抵达甚至超越过去的高度。

参考资料：
https://github.com/apple/ml-simplefold
https://arxiv.org/abs/2509.18480

 用户评论

AI大模型
 112 成员 |  723 话题
+我要提问 +随便写写

可能感兴趣的话题

一种无人建模的企业风险：AI 正在取代它本需学习的专家

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层

中国AI视频生成模型震动好莱坞

实时智能体 RAG：基于Spark与 Iceberg彻底解决上下文退化问题