2020年12月,由于疫情令面对面会议难以举办,数百位计算科学家在电子屏幕前线上集会,并见证了科学新时代的到来。

他们参加的会议是一场友好竞赛,正式名称为“结构预测关键评估”(CASP),一般被叫作“国际蛋白质结构预测竞赛”,每两年举办一次。有的学者已经参加了近三十年。参会同行们都痴迷于同一个问题,那就是蛋白质折叠问题。他们较量的方式很简明:能否根据最简单的蛋白质一级结构信息,即多肽链中氨基酸残基的排列顺序,准确预测蛋白质分子的三维形状?蛋白质形状决定其行为,因此准确预测形状将为我们理解疾病、生产新药和洞见生命运作方式带来深远影响。

科学家总要在竞赛中测试自己最新的蛋白质折叠工具,但一直难以企及理想的预测结果。回顾历史,CASP呈现的进展总是小幅度的,因此对于2020年底的第十四届CASP(CASP14),同行们并不认为会有惊喜。

直到他们亲眼见证划时代的AlphaFold2。

CASP14上,蛋白质科学界新人约翰·江珀(John Jumper)介绍了一款来自谷歌DeepMind的人工智能新工具AlphaFold2。他展示的数据表明,AlphaFold2的3D蛋白质结构预测模型拥有超过90%的准确率——是最接近它的竞争对手的5倍。蛋白质折叠问题一下子从触不可及落入寻常任务。

CASP14的总结发言中,会议组织者约翰·莫尔特(John Moult)确信:AlphaFold2“很大程度上解决了”蛋白质折叠问题,并永远改变了蛋白质科学。“这不是结束,而是开始。”他的语气激动又伴有些不安。

当谷歌的公关将此消息大力推广至全球,各路媒体纷纷宣称AlphaFold2“会改变一切”。很多一辈子研究单一蛋白质结构的生物学家开始担心失业问题。当然也有人认为上述成果不会带来什么改变,所谓变革只是炒作。

距离AlphaFold2问世已过去三年半。现在我们对于蛋白质三维结构的AI预测有了比较全面深入的认识。

AlphaFold2无疑改变了生物学家研究蛋白质的方式。它能非常巧妙地解决蛋白质折叠问题的一部分,解决方式不同于科学家,但这个强大预测工具并非无所不知,也无法取代生物实验,反倒凸显了生物实验的必要性。

AlphaFold2最大的影响或许是让生物学家意识到人工智能的力量。它启发了新算法,包括用于设计本不存在于自然界的新蛋白质的算法,也催生了新的生物技术企业和科学实践方式。它的进阶版AlphaFold3于2024年5月发布,能结合DNA或RNA等分子的结构信息对蛋白质建模,这推动生物预测更上一层楼。

然而,人工智能目前还无法模拟蛋白质随时间的变化情况,也难以对细胞内环境物质中的蛋白质进行建模。

=============第1部分=============

提出问题

一张纸可以折成轻盈滑翔的纸飞机,可以承载祝愿的千纸鹤抑或其他复杂精妙的折纸艺术品。纸的折叠形态决定其功用。同样地,一长串氨基酸分子只有折叠成特定形状(生物学家称之为结构)时才具备功能。蛋白质的结构决定它如何与其他分子结合或相互作用,而这决定了它在细胞内的作用。

地球上已知的蛋白质有几亿种,未知的更多。它们可谓无所不能:血红蛋白和肌红蛋白帮助机体运输、储存氧气;角蛋白构成头发、指甲和皮肤的结构;胰岛素使葡萄糖进入细胞并转化为能量。蛋白质可以呈现无数种形状(结构),对应它们为生命所做的无数种工作。

哥伦比亚大学系统生物学系专家穆罕默德·艾尔库莱希(Mohammed AlQuraishi)说道:“从原子到生态系统,蛋白质结构就像一种通用语言。一切都发生于蛋白质。”

细胞将氨基酸分子连接成多肽链,再令肽链盘曲折叠形成空间结构,从而制得蛋白质。它选择的氨基酸类型取决于DNA提供的一组基本指令。多肽链会在形成后瞬间就精确地弯曲折叠,成为三维形状的蛋白质。一旦结束“组装”,蛋白质便匆忙开展工作。

若蛋白质不能很好完成折叠过程,机体就会遭遇一系列灾难。许多疾病和病症,如镰状细胞性贫血病,都由蛋白质错误折叠引起。错误折叠的蛋白质会聚集成团块——这是阿尔茨海默病和帕金森综合征等神经退行性疾病的标志。

然而,一直没人真正知晓蛋白质折叠的具体过程。由氨基酸分子连接而成的肽链的序列信息,怎样编码出了蛋白质的复杂形状?约翰霍普金斯大学生物物理学名誉教授乔治·罗斯(George Rose)表示,这是“我们可以提出的最深刻的问题”。

早在1930年代,学界就开始探究上述问题。不过真正意义上的探索始于1950年代中期。当时生物化学家克里斯蒂安·安芬森(Christian Anfinsen)将蛋白质添加到特定化学溶液里,以破坏蛋白质的化学键使其不再折叠或错误折叠,然后观察下一步反应。安芬森发现,不折叠或错误折叠的蛋白质能自发地重新折叠成正确结构。这一后来为他赢得诺贝尔奖的发现证明了蛋白质的三维形状是由内部编码(氨基酸序列串)指导形成的。

2.1.1

1950年代,生物化学家克里斯蒂安·安芬森开展实验,发现氨基酸分子链内含一个能指导自己如何折叠成蛋白质的编码。他推测,应当有一种方法可根据该编码预测蛋白质形状。这一假设被称为安芬森法则

因此,安芬森假设,应当有一种方法可以根据蛋白质的氨基酸序列预测其形状。从此便有了所谓蛋白质折叠问题。

多肽链只要组装完成,就可于千分之一秒内完成折叠,变作真正的蛋白质。这个时间尺度让分子生物学家赛勒斯·列文塔尔(Cyrus Levinthal)感到困惑。他在1969年论文《如何雅致地折叠》(How to Fold Graciously)中指出:如果蛋白质尝试所有可能的折叠方式,它将需要非常长的时间才能组装完成。他认为,一定有某种东西让蛋白质更直接地沿正确路径折叠。

随着时间推移,蛋白质折叠问题分化出一些新问题。当时主要有三大问题:能否根据蛋白质的氨基酸序列预测其结构?指导折叠的编码是什么?折叠机制是什么?

这些问题早在1960年代初就开始萦绕科学家脑海。彼时第一批通过实验确定的蛋白质结构问世。剑桥大学的两位生物学家马克斯·佩鲁茨(Max Perutz)和约翰·肯德鲁(John Kendrew)将蛋白质培养成晶体,用X射线轰击它们,并测量射线的弯曲程度——此项技术被称为X射线晶体学。通过这种方式以及二十多年的努力,他们确定了血红蛋白和肌红蛋白的三维结构,后来因此共享诺贝尔奖。

2.1.2

约翰·肯德鲁(左)和马克斯·佩鲁茨(右)利用X射线晶体学细致地揭示了血红蛋白和肌红蛋白的结构。然后他们用球(代表原子)和棍子(代表化学键)建立了物理模型

自那以后,大量研究人员不光分析各种蛋白质的结构形态,还努力了解它们怎样折叠出这些结构。

格拉斯哥大学结构生物学家海伦·沃尔登(Helen Walden)表示:“想看清事物外观是人类的本能,因为只有这样你才能了解它们的功能。”有些人研究化学性质,另一些人研究物理学。实验人员通过艰苦、繁重的实验室工作重建蛋白质形状。计算生物学家借助模型寻找线索,使用不同的算法规则组合对其进行编程和重新编程。

随着越来越多蛋白质结构的出现,蛋白质科学界需要一种能组织和共享这些结构的方法。1971年,学界建立起蛋白质数据库。它作为一个蛋白质结构的档案库,免费对外开放,成为任何需要了解蛋白质结构以探究生物学问题的人的可靠工具。

2.1.3

X射线晶体学帮助科学家绘制出电子密度图。该图可直观显示电子聚集的位置,从而确定原子在分子中可能所处的位置。通过将多个电子密度图堆叠到一起(左图),科学家可以推断出蛋白质或其他分子(如青霉素)的结构(右图)

蛋白质数据库刚开放时,存有7种蛋白质的结构。近50年过后,谷歌DeepMind用它来训练AlphaFold2时,面对的是超过14万种蛋白质结构的储备,而且每种结构都是被结构生物学家费力解码过的。

实验者的痛苦

1970年代中期开始,结构生物信息学家珍妮特·桑顿(Janet Thornton)每隔几个月就会收到一份包裹。包裹内是一盘约30厘米长的磁带,存储着蛋白质数据库中新的蛋白质结构数据。桑顿会急切地拆开包裹并分析新结构。她收到的第一盘磁带上只有20个结构。

每一个蛋白质结构背后都是研究人员多年的科研努力。博士生通常会花费四年甚至更长时间来结晶单个蛋白质,从中收集数据或解释数据以找出折叠结构。

那时桑顿所在的牛津大学生物物理系是全球X射线晶体学的中心之一。1965年,蛋白质晶体学先驱之一戴维·菲利普斯(David Phillips)首次确定了溶菌酶的蛋白质结构(免疫系统依靠此酶攻击细菌)。牛津大学的生物物理学家利用X射线晶体学绘制了蛋白质电子密度图。桑顿表示,她和同事将这些电子密度图打印到塑料片上,并将它们一张叠一张地堆起来,从而绘制出蛋白质形貌的“等高线图”。

之后,他们将蛋白质的“地形图”转换成物理模型。生物物理学家弗雷德里克·理查兹(Frederic Richards)于1968年发明了理查兹盒(以他的名字命名)。这是一种大型光学比较仪,能帮助晶体学家通过半镀银镜观察堆叠的电子密度片,以构建蛋白质结构的物理模型。桑顿将由塑料片承载的地图放入理查兹盒,盒内一面倾斜的镜子把地图反射到工作区,让观察者准确看清每个原子相对其他原子的位置。然后,他们用球和棍构建物理模型。

这种方法既烦琐又受限制。1971年,后来成为著名晶体学家的路易斯·约翰逊(Louise Johnson)正努力给磷酸化酶建模。磷酸化酶含842个氨基酸,是当时研究过的最大蛋白质。为了建模,约翰逊必须爬上梯子,进入一个两层楼的理查兹箱。

模型完成后,科学家用尺子测量原子之间的距离,得出蛋白质结构的坐标。然后他们将坐标输入计算机。桑顿表示,计算机版本看起来像一片茂密的森林,原子杂乱地聚集在一起。只有通过3D眼镜观察结构时,她才能看到蛋白质的拓扑结构。

桑顿说道:“这是个非常痛苦的过程,但最后还是完成了,真是太神奇了。”

经过年复一年的艰苦努力,他们终于达成了研究目标。只要是自己有信心的蛋白质结构,科学家就将其提交至蛋白质数据库。到1984年,库内已存152种蛋白质;到1992年,存储量更是高达747种。

当实验人员努力构建物理模型时,计算科学家尝试另一条路径来解决问题。安芬森相信蛋白质结构可以通过氨基酸序列预测得到,计算派当然也认同此观点,但他们对预测结构一事过于乐观了。

制定自己的规则

1960年代初,约翰·莫尔特还是个想做物理学家的本科生。后来他了解到蛋白质折叠问题。“有人来做讲座,说生物学太重要了,不能把它留给生物学家。我不知深浅地当真了。”莫尔特被深深吸引,然后改变了生涯规划。

毕业后,莫尔特开始研究蛋白质晶体学。他破译了几种蛋白质的结构,包括β-内酰胺酶(一种能破坏青霉素的细菌酶),并于1970年获得牛津大学分子生物物理学博士学位。但当他开始博士后研究时,实验派方法令其厌倦,他选择转向日益发展的蛋白质计算领域。不同于实验派,计算生物学家尝试编写算法来证明安芬森的理论正确:只要给程序输入一串氨基酸,就可生成正确的蛋白质结构。

2.1.4

约翰·莫尔特与他人共同创立了前文提到的CASP,以迫使他自己和其他计算生物学家根据实验确定的蛋白质结构测试他们的蛋白质计算机模型

从生物实验到计算机的转变并不容易。莫尔特解决单个蛋白质结构问题时习惯慢工出细活。在新领域,计算派的论文常常声称已经解决了蛋白质折叠问题以及相关子问题。莫尔特对此表示怀疑。

在虚拟世界里,若自然世界的法则行不通,计算派学者会编写自己的规则。他们设计算法,使原子以某种方式粘在一起,或控制蛋白质总是折叠向右或向左。日积月累,模型离现实越来越远。

尽管如此,莫尔特还是看到了两派各自的价值。实验派的工作精确但缓慢;计算派的工作快速却与真实的生物物理相差很大,因此常有谬误。

他相信,一定有某种方法可以结合实验与计算的优点。

“跺木地板”

1990年代初,莫尔特与同事克日什托夫·菲德利斯(Krzysztof Fidelis)发起一项社区科学实验,即前文提到的CASP。

作为CASP的组织者,莫尔特和菲德利斯会发布一份蛋白质氨基酸序列的列表。这些蛋白质的结构都是不久前被实验人员破译并提供给他们的,但破译结果尚未公布。来自全球各地的计算团队会尽最大努力,利用能用的任何方法来预测结构。针对参与者建立的模型,会有一个独立的科学家小组通过比较计算结果与实验证实的结构来做评估。

CASP很快成为蛋白质折叠问题的计算模型试验场。当时AI尚未诞生,计算方法涉及分子物理学的模拟。CASP是科学家进行公开试验以检验自己想法的平台。桑顿说道:“这本不是比赛,却变成了比赛。”

CASP每两年举办一次,参会的科学家相聚加州蒙特雷的阿西洛马会议中心。除了听到比赛结果,计算派学者们还会谈论自己的方法。莫尔特鼓励参会者在听到不喜欢的内容时,跺木地板。

曾师从桑顿的伦敦大学学院生物信息学教授戴维·琼斯(David Jones)回忆道:如果讨论陷入细节,生物学家就会跺脚;如果某个主张被夸大了,他们也跺脚;如果发言者说话重复啰嗦,也免不了跺脚伺候……不过琼斯指出,那是友好的跺脚,“并不令人讨厌”。琼斯表示,有一年,他与同事提出一种叫作“线程”(threading)的计算方法:氨基酸按已知的蛋白质结构被编织成特定序列,以寻找相互匹配的序列和结构。 “这个方法令我们非常高兴,可后来就不灵了……”琼斯笑着回忆道。

当被问及彼时CASP的成果如何时,莫尔特选择用好坏不一来形容。有些方法表现超出预期,比如“同源建模”,即通过比较已知蛋白质的结构来推断未知蛋白质的结构;另一些方法则一无所获。莫尔特说,大多数结构预测都是“看上去很痛苦的物体”。

荷兰癌症研究所和乌得勒支大学的结构生物学家阿纳斯塔西斯·佩拉基斯(Anastassis Perrakis)开玩笑道:“我很高兴看到他们失败,我们喜欢在科学上互相取笑。”佩拉基斯负责将实验确定的结构提供给CASP组织者用于比赛。

在竞逐与取笑的过程中,有人开始引领前沿。

1996年,第二届CASP结束后,一位名叫大卫·贝克(David Baker)的年轻人邀请琼斯一起打的去机场。贝克听过琼斯的演说。当时正研究自己的计算模型的他其实没有为CASP2准备好模型,但他想聊聊。琼斯在车里听了他的想法,从没想过会再次见到他。

2.1.5

大卫·贝克是当今世界最顶尖的蛋白质设计专家之一,曾凭借高性能算法Rosetta在CASP上脱颖而出

1998年举办的CASP3上,贝克凭借其Rosetta算法一鸣惊人。琼斯认为他成了“最强选手”。Rosetta等算法模拟氨基酸分子的原子之间的相互作用,从而预测它们的折叠方式。不过贝克表示,算法“还不够好,也不够准确,还难以发挥作用”。

2008年,人类智能仍碾压计算机的时候,已在华盛顿大学管理自己实验室的贝克开发出一款名为Foldit的免费网游——游戏玩家需将氨基酸序列折叠成蛋白质结构。贝克团队于《自然》(Nature)杂志发表论文称,Foldit的人类玩家在蛋白质建模方面的表现优于Rosetta。

不过人类的领先优势并未持续多久。2010年代初,共同进化这一概念的重大突破推动了领域发展,后来又被证明对人工智能至关重要。已存在几十年的共同进化概念其实很简单:通过仔细比较千百种蛋白质中相关的氨基酸序列,科学家可以识别出发生突变的氨基酸,关键在于,能确定它们是否与其他氨基酸同步突变。如果两种氨基酸一起变化,它们很可能以某种方式相关联。

但在2010年代初以前,这种预测工作的准确度始终欠佳,徘徊于20%~24%的水平。后来计算派注意到自己统计方法有错:将一些本无联系的氨基酸认定为相关。

完善了统计工具后,2016年,预测准确率升至47%。又过两年,这一数字变作70%。贝克的算法建立于这一成功的预测基础:2014年,Rosetta生成了两种蛋白质结构,其准确率之高令CASP评判员认为贝克可能已经解决了蛋白质折叠问题。

劳伦斯伯克利国家实验室的结构生物学家保罗·亚当斯(Paul Adams)表示,共同进化的见解“太棒了”。在未使用机器学习的情况下,共同进化是“真正推动该领域向前发展的重大事件之一”。

然而,该研究领域目前的发展还很有限。共同进化需要大量相似的蛋白质用于比较,而实验人员解决蛋白质结构的速度不够快,无法满足计算人员的需求。

=============第2部分=============

走出深渊

2016年,戴维·琼斯于《自然》杂志撰文勾勒未来。谷歌DeepMind团队的研究人员详细介绍他们的算法如何利用所谓“深度学习”在围棋博弈中击败人类顶尖棋手。

深度学习是一种人工智能,其灵感源于人类大脑。大脑中的分子信息通过一个相互连接的脑细胞(称为神经元)网络发送。神经元的树突就像手臂,抓住相邻神经元发送的分子,而这些分子会告诉接收它们的神经元是否放电并传播信号。

布朗大学计算机科学教授迈克尔·利特曼(Michael Littman)指出:“如果某个神经元的活动足够多,它就会放电。”

1950年代,计算机科学家意识到他们可以将电子比特连接在一起以创建“神经网络”。神经网络的每个单元都是一个节点,相当于大脑的一个神经元:神经元A1从其他神经元,比如A0处接收信息,然后计算是否向下一个神经元,比如A2处发射信号。在神经网络中,信息在多层神经元之间传播以产生特定结果,例如从某图像中识别出狗。

利特曼表示,神经元层数越多,可执行的计算就越复杂。但早期神经网络仅两层。1990年代,层数增加至三层,并于此后20年间一直保持该水平。“我们无法确定如何可靠地创建比这更深层的网络。”

1990年代以来,包括琼斯和莫尔特在内的结构生物学家就一直尝试在蛋白质科学中应用神经网络,但浅层网络和稀疏数据的局限阻碍了发展。到2010年代初期,计算科学家学会了如何更好地构建神经网络,从而更高水平地训练更多层。网络深度增加到20、50、100甚至数千层。利特曼说道:“为将其与90年代的方法区分开,人们开始称之为深度学习。”

深度学习改变了人工智能,产出了擅长识别照片或声音特征的算法。而且事实证明,它能在智力对决中击败人类。

2016年3月,DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis)在首尔见证了他的AI系统AlphaGo击败围棋世界冠军李世石。那时他也回想起自己大学期间玩Foldit的情景:如果DeepMind的研究人员可以编写一种算法来模仿围棋大师的直觉,是不是也能写出模仿Foldit游戏玩家直觉的算法——虽对生物学一无所知,却善于折叠蛋白质?

芝加哥丰田技术学院的许锦波教授也预见到通过深度学习解决蛋白质折叠问题的前景。这些网络在图像识别领域的应用启发了他。当时,计算科学家已经在卷积网络方面取得了巨大成功(卷积网络可编写深度学习算法,从而将图像分解成碎片,并识别它们之间的模式)。许锦波将该技术应用于蛋白质折叠。他使用矩阵来表示哪些氨基酸在空间上靠得很近,然后将数据作为图像输入卷积网络。算法从图像中寻找模式,以预测组成蛋白质的原子的三维坐标。

2016年,许教授于arxiv.org发布了上述研究的预印本文章,并正式发表在《PlOS计算生物学》(PLOS Computational Biology)杂志上。莫尔特表示,此项工作对该领域“影响颇大”,向人们展示了“深度学习能做到什么”。

不久后,蛋白质结构研究小组开始涉足深度学习。艾尔库莱希及其团队率先开发出一种能直接使用神经网络预测蛋白质结构的方法,即所谓的“端到端”方法,但效果并不好。

琼斯说道:“我并不确切知道自己想用深度学习做什么,但我明白自己需要搞深度学习。”

在收到谷歌DeepMind询问CASP竞赛情况的邮件前,琼斯已经开始撰写资助申请,希望加入前者团队。“他当然也回复表示愿意提供帮助,我当时以为他们只想秀一秀强大的计算机实力。但会面后,我发现谷歌的野心非常大。”

新玩家

2016年,当琼斯开始担任DeepMind的顾问,负责后来被称为AlphaFold的项目时,约翰·江珀正于芝加哥大学攻读理论化学博士学位。

十几岁时,江珀自学了计算机编程。他还擅长物理。因此上大学后,他决定专攻数学和物理。他的工程师父母都曾担心他以后找不到工作。

在范德堡大学读本科时,江珀与费米国家加速器实验室的研究人员合作,研究亚原子粒子夸克的奇异性质。一天,与同事坐一块儿吃午餐时,他受到了刺激。江珀问同事:“我们正在搞的这个实验,什么时候能搞出点名堂来?”其中一位教授表示可能要等到自己退休以后了,另一位年纪更大些的教授则说自己可能活不到那天了。

江珀说道:“我想在更短的时间内完成科学研究。”本科毕业后的他开始攻读凝聚态物理学博士学位,但很快就退学了,之后得到纽约一家生物化学研究公司——萧尔研究有限公司(D. E. Shaw Research)的工作。该公司当时正创建蛋白质的基本模拟,希望通过了解蛋白质如何移动和变化,更深刻揭示肺癌等各种疾病的机制。

这是江珀第一次意识到自己工作的潜在意义。在接下来的三年里,江珀在公司的超级计算机上模拟蛋白质运动,这些计算机专为更快速模拟分子而打造。“我在某个工作日的模拟量比我读博期间所做的全加一块儿都要多。”

2011年,他再次尝试读研,进入芝加哥大学学习理论化学。他仍对蛋白质结构和运动感兴趣,同时也为学术界缓慢的进展而沮丧。他想知道能否借助人工智能——“当时我们称之为统计物理学”——达到快速模拟的程度。他开始涉足机器学习和神经网络。

在此期间,他思索着蛋白质折叠问题并猜测,来自蛋白质数据库的训练数据可用于解决这个问题。至2012年,该数据库已包含超过76 000种蛋白质结构。“我相信数据足够了,但想法不够。”

2017年,江珀听闻DeepMind将进军蛋白质结构预测领域。当时他刚刚完成博士学位——正利用机器学习模拟蛋白质折叠和动力学。他申请了研究科学家的职位。当时“该项目仍处于保密状态”。

2017年10月,他来到DeepMind位于伦敦的办公室。在顾问琼斯帮助下,团队深入开发AlphaFold。琼斯回忆道:“那是段非常有趣的时光。我们把能想到的各种想法都摆出来讨论。最终,一个很棒的核心思路出现了,接下来就是付诸实践。”

为训练算法,DeepMind团队使用了来自蛋白质数据库的14多万个结构。他们将这些信息输入卷积网络,但未对AI架构本身做太多改变。江珀表示这是“标准的机器学习”。

2018年春天,AlphaFold已为参加CASP做好准备,欲与真正的蛋白质科学家较量。不过DeepMind团队曾争论是否匿名参赛,因为他们怕丢面子。

团队后来决定以谷歌 DeepMind之名提交成果。在12月会议召开的几个月前,琼斯收到CASP组织者的来信。后者建议DeepMind团队参加会议,因为AlphaFold确实表现优异。

最终,AlphaFold以2.5倍于第二名团队的成绩斩获佳绩。这次华丽登场给众人留下了深刻印象。

重启算法

DeepMind团队很清楚,他们离解决蛋白质折叠问题还差很远。哈萨比斯几个月前就召集了他们,并向各位发问:“我们到底要不要解决这个问题?”江珀回忆他当时说的话:如果不行,那就让我们找到可以产生真正巨大影响的问题吧。

凭借在物理、化学、生物和计算方面的多学科背景,江珀为头脑风暴会议带来独到见解。很快,他就领导了团队。

后来创立AI驱动生物技术公司Atomic AI的拉斐尔·汤森(Raphael Townshend)曾于2019年在DeepMind实习。学术界的专家们往往缺少合作交流,自顾自开展科研项目。而在DeepMind,统计学、结构生物学、计算化学、软件工程等领域的专家共同研究蛋白质折叠问题,他们背后还有谷歌庞大的财务和计算资源。汤森还表示,伦敦的DeepMind办公室充满活力,而大部分活力都来自江珀。计算科学家艾伦·钟(Ellen Zhong)2021年时在DeepMind实习,现为普林斯顿大学的助理教授。她也认为:“江珀是个真正的天才,也是一个很谦虚的人。他深受团队爱戴。”

在江珀的领导下,AlphaFold得以重建。汤森表示,DeepMind设计了一种新型的转换器架构——这种深度学习“为过去五年间发生的每一项机器学习突破提供了动力”。该神经网络调整了连接强度,以创建更准确的数据(关于蛋白质进化和结构的数据)。它通过另一个转换器运行该数据,从而预测蛋白质三维结构。然后,算法通过将其与一些修订后的数据一起通过转换器运行多次,进一步完善结构。

当江珀团队刚开始研究AlphaFold2时,他们的算法“很糟糕”,但通过进一步完善,算法预测的效率和准确性有了飞跃。

团队决定进行内部实验,看看他们打造的系统是否有助于生物学家。实验结果转化为大约50篇刊载于《科学》《自然》和《细胞》等顶尖刊物的论文——不仅描述了新的蛋白质结构,还从结构中获得了有关蛋白质功能的见解。江珀等人想确定,AlphaFold2是否真能经得起实验派工作的检验。

2.1.6

约翰·江珀认为生物学家已经研究了足够多的蛋白质结构用于解决蛋白质折叠问题

一个绿色荧光蛋白的结构模型,绿色荧光蛋白在生物科技中有着广泛应用

他们向系统输入氨基酸序列,AlphaFold2运行其预测引擎。对于每个序列,它都能给出接近论文提出的实验结构的预测。但团队认为它还不够准确,这些结构缺少实验人员了解的有关蛋白质的关键细节。

在接下来6个月里,团队小步快跑地不断优化系统。到2020年CASP竞赛的蛋白质候选物发布的几周前,他们进行了另一次实用性测试。江珀对结果很满意。DeepMind于2020年春季向CASP提交了预测结果,然后等待回复。

行业巨震

初夏时节,莫尔特收到了一封CASP评估员发来的邮件。邮件附有DeepMind解析的蛋白质结构,并指出:“看看这个,太厉害了。”莫尔特也赞叹不已,但他认为自己眼前的只是个例。

后来他又收到第二封邮件,以及第三封、第四封……一大堆近乎完美的蛋白质预测全部来自DeepMind。到了夏末,“我们很快意识到……行业正经历大变革。”

CASP评估员将预测的蛋白质结构与已证实的实验结构进行比较,从而对参赛者提交每份的论文做出评分。满分为100分,代表模型与现实是逐个原子相匹配的。莫尔特一直认为,任何超过90分的评估结果都表明算法已有效解决蛋白质结构问题。AlphaFold的大多数结构都达到或超过了90分。

从某种意义上说,DeepMind确实解决了蛋白质折叠问题的预测部分。AlphaFold2能根据蛋白质的氨基酸序列准确给出蛋白质结构。琼斯感慨道:“我最喜欢的项目死了,DeepMind终结了它。”

多年来,佩拉基斯一直向CASP竞赛贡献未发表的实验结果。当他看到自己团队辛苦实验得来的结构被AlphaFold2完美预测时,他属实有点心情复杂。

=============第 3 部分=============

震撼与敬畏

结构生物学领域的结构突然凌乱了。

帕多瓦大学生物信息学教授西尔维奥·托萨托(Silvio Tosatto)自CASP成立之初就一直参赛。用托萨托的话说,面对颠覆行业的AlphaFold2,“我们进行了大量自我反省”,一些结构生物学家担心自己的工作会被淘汰,另一些人则声称AlphaFold2并不准确。

计算生物学家一直在努力解决蛋白质折叠问题,有些人甚至已为此奋斗几十年。AlphaFold2的登场让他们心中五味杂陈。CASP大赛结束后,艾尔库莱希发表感慨:“就像在面对自己孩子第一次离家。”

许多科学家因AlphaFold2欣喜若狂。那些不做结构研究的学者过去必须与结构生物学家合作才能确定蛋白质结构。现在,只需动动手指按按键,理想结构就摆在眼前。

媒体报道中的AlphaFold2是无与伦比的AI新突破,不过科学家倒是花费数月甚至数年时间才弄清楚AlphaFold2究竟能做什么,不能做什么。佩拉基斯回忆道:“AlphaFold2发布后的第二天,我们就试图安装使用它。”生物学家开始行动。

很多情况下,结构生物学家以发现蛋白质的功能为目标。借助 AlphaFold2,他们能于几分钟内提出假设,而不必等待数月甚至数年直至实验确定结构。然而,AlphaFold2并未如某些人预期那样立即产出各种新药——研究人员很快发现其局限性。AlphaFold2的预测并不完美,结果仍然需要实验验证,但可以帮助研究人员更快地转向实际的结构研究。

这种转变已经开始。2022年6月,《科学》杂志的一期特刊揭示了人类核孔复合体的近原子结构。过去几十年间,这种由30种不同蛋白质构成、巨大而复杂的结构一直是生物学难题。科学家利用AlphaFold2预测填补了冷冻电镜难以解构蛋白质结构的缺口。

江珀表示,看到那篇关于AlphaFold2助力其他学者取得生物学突破的论文后,“我意识到AlphaFold真的非常重要”。

一些生物学家已经开始研究 AlphaFold2的用途,而不仅仅是辨别已知蛋白质的结构和功能,甚至设计自然界中不存在的蛋白质——这是帮助设计新型药物的关键技术。

下一个前沿

2020年CASP大赛上看过江珀演讲后,贝克几乎立刻重启他的Rosetta算法研究。当时谷歌尚未分享AlphaFold2的底层源代码。尽管如此,“我们还是开始尝试他们提出的一些想法”。谷歌DeepMind于《自然》杂志发表AlphaFold2的同一天,贝克团队也宣布RoseTTAFold的到来。

作为同样高度精准的AlphaFold挑战者,RoseTTAFold也使用深度学习预测蛋白质结构,但其底层架构与AlphaFold2截然不同。

托萨托指出:“某个科学理念被提出后,人们可能对其做逆向工程并尝试以它为基础进行构建。”

RoseTTAFold并非孤军奋战。其他AlphaFold的竞争对手,包括Meta,都设计了自己的算法以求解决蛋白质结构预测及相关问题。包括汤森的Atomic AI在内的一些公司已将研究范围扩展到蛋白质之外,利用深度学习理解RNA结构。

不过在单一结构预测领域,用桑顿的话说,“迄今仍无人能与AlphaFold比肩准确性”。

贝克和江珀延续了CASP建立的富有科学生产力的竞争传统。贝克表示:“他们可能觉得我在与他们竞争,但我觉得他们激励了我们前行。”江珀也欢迎这样的竞争。

继续前进的贝克现在重点关注蛋白质科学的一个新领域:蛋白质设计。根据他的设想,生物学家不应受限于大自然已经发明的蛋白质列表,人类要自己设计新型蛋白质——能分解塑料的,能利用阳光的,能作为药物或疫苗基础的……

担任华盛顿大学蛋白质设计研究所主任的贝克表示,蛋白质设计本质上是“逆蛋白质折叠问题”。蛋白质设计师不再将氨基酸序列输入深度学习算法,等待其输出蛋白质结构,而是反向操作:向系统输入结构,要求它输出序列。反向操作完成后,设计师使用该氨基酸序列在实验室里构建蛋白质。

贝克还更新了前文介绍蛋白质折叠游戏Foldit,将他的痴迷融入其中:玩家不再构建蛋白质结构,而是设计蛋白质。改版带来惊喜,贝克的实验室已围绕几种出自玩家手笔的蛋白质撰写论文。全球顶尖的Foldit玩家之一现已是研究生,与贝克的一位同事在华盛顿大学共事。

信任练习

AlphaFold2的成功无疑改变了生物学家对人工智能的态度。推动卷积网络发展的计算生物学家许锦波说道:“生物学家现在相信我们的东西了,以前他们总怀疑预测结果的可靠性。”

AlphaFold2平台的一个功能就是发挥这种信任的作用:不仅生成蛋白质3D模型,还可根据从0到100的置信度来给结构的不同部分评分,完成对预测准确性的自我评估。

2022 年7月,DeepMind发布2.18亿种蛋白质的结构预测(几乎涵盖了世界上所有已知蛋白质)后,保罗·亚当斯决定分析AlphaFold2的自我报告。他将这些预测与已有结构进行比较,并独立评估其准确性。

亚当斯表示:“好消息是,当AlphaFold认为它正确时,它通常就相当正确;机器不信任时,结果往往就错。”当然,当AlphaFold2对预测“非常有信心”时(置信度量表上的得分至少达到90分),仍存在约10%的意外情况,即预测与实验结果不符。

大多数生物学家认为AlphaFold2只是预测工具,但有些人把这工具用过头了——这可能导致人们过度依赖其结论。一部分曾与结构生物学家合作的细胞生物学家和生物化学家选择用AlphaFold2取代老同事,并将机器预测视作真理。佩拉基斯指出,一些论文介绍的新蛋白质结构在任何结构生物学家看来都错得明显。但作者会说:“好吧,这就是AlphaFold提供的结构。”美国国立卫生研究院研究员劳伦·波特(Lauren Porter)表示:“有些人过于相信(甚至可谓迷信)这类深度学习模型的能力了。我们应尽可能多地使用深度学习模型,但也要谨慎地对待它们。

琼斯听说:“现在大家普遍的看法是,DeepMind都大功告成了,你们为什么还搞蛋白质结构预测?”但他认为这方面工作仍是必要的,因为AlphaFold2会出错。

非常擅长预测小型、简单的蛋白质结构,但在预测包含多个部分的蛋白质结构时不够准确,也无法解释蛋白质的环境或与其他分子的结合情况,这些因素会改变蛋白质在自然状态下的形状。有时蛋白质需要被某些离子、盐或金属包围才能正确折叠。

海伦·沃尔登指出:“目前AlphaFold距离确定蛋白质所处环境还有一段路要走。”沃尔登团队通过实验确定了AlphaFold2无法预测的几种结构。

此外,AlphaFold2对几种动态蛋白质的预测并不理想,而它们的功能也很重要。变形蛋白,又称折叠转换蛋白,并不是静态的,其形状会随着与其他分子的相互作用而改变。有的蛋白质可能具备相同氨基酸序列,却折叠成截然不同的形状。波特表示,折叠转换蛋白“挑战了一种氨基酸序列只编码一种蛋白质结构的范式”。

还有一些蛋白质爱“蹦跶”。内在无序的蛋白质(或蛋白质的部分区域)缺乏稳定结构,不断地摆动和重塑。哥本哈根大学计算蛋白质生物物理学教授克雷斯滕·林多夫-拉森(Kresten Lindorff-Larsen)说道:“这些蛋白质的很多方面都被忽视了,因为它们有点烦人。”大约44%的人类蛋白质都有一个由至少30个氨基酸组成的无序区域。AlphaFold2可以预测某个区域何时可能出现内在无序,但无法告诉你这种无序是怎样的。

对江珀而言,他最大的挫败感在于AlphaFold2 识别不出只存在一处氨基酸不同,即所谓点突变的蛋白质。江珀认为点突变“可能产生相当显著的影响,有时影响蛋白质结构,但通常都会影响蛋白质功能”。

2023年9月,DeepMind发布AlphaMissense。这是一种能预测上述突变影响的深度学习算法。它无法显示结构变化,但会根据已知致病蛋白质中的类似突变,告知用户突变会否令蛋白质致病或异常。

然而,即使AlphaFold2完美预测所有蛋白质,也远远达不到模拟生物现实的水平,因为细胞内的蛋白质不是孤立的存在。

细胞太复杂

细胞内部复杂而混乱。细胞外膜包裹着一个生化环境,其中充满各种分子成分——蛋白质、信号分子、信使RNA、细胞器等等。蛋白质彼此结合,也与其他分子结合,从而改变形态和功能。AlphaFold2能预测单个蛋白质的结构,但无法帮助生物学家真正理解复杂原生环境下的蛋白质。这一缺口也指引着该领域现阶段的发展方向。

蛋白质科学界当前的AI巨人DeepMind以及大卫·贝克领衔的蛋白质设计研究所正改进深度学习算法,力求预测蛋白质在与其他分子相互作用时呈现的结构。

2024年春季,他们都各自发表论文,介绍了步调一致的新进展。算法升级了,名字当然也更新了——AlphaFold3和RoseTTAFold All-Atom。它们都能预测彼此结合的蛋白质、DNA、RNA以及其他小分子的结构。

生物学家才刚开始测试这些新版神器。根据艾尔库莱希说法,目前AlphaFold3比RoseTTAFold All-Atom准确得多,但它的飞跃并不像AlphaFold2之于一代那么夸张。对于某些大分子,例如RNA结构,AlphaFold3的准确性仍低于其他基于物理的系统和实验。

无论如何,新算法朝着正确方向迈出了一大步。蛋白质与其他分子间的相互作用是它们在细胞内的功能的关键。为了开发能停靠于蛋白质上并根据需要改变自身活性的药物,研究人员需要了解这些复合物的造型。当然,亚当斯指出,上述两大算法都不太可能在短期内用于新药研发。

DeepMind的新产品还有另一重大变化。AlphaFold2的底层代码是开源的,因此其他研究者可将其应用于自己的项目。但AlphaFold3的源代码至今仍是商业机密。至少现阶段,还没人能像用AlphaFold2那样用AlphaFold3。

艾尔库莱希期待着,到2040年,深度学习将能模拟整个细胞及其内部所有结构和动态。而要实现此目标,实验和计算两方面都需要飞跃式进步。

新世界

70年前,人们认为蛋白质是一种胶状物质。现在,蛋白质世界的新结构一个接一个——可以是大自然所造,也可以由人类设计。

佩拉基斯表示,蛋白质生物学领域“现在比AlphaFold出现前更令人兴奋”,因为学界看见了再度基于分子结构研发药物发现的希望,更加快节奏地创建假设的前景,以及理解细胞内复杂相互作用的可能。

艾尔库莱希表示,“这感觉就像是基因组学革命”,数据太多了,无论是身处实验室还是坐在电脑前的生物学家,都才刚开始弄清楚怎样处理这些数据。

但就像其他任何领域的AI突破一样,蛋白质科学里AI应用也有其上限。

AlphaFold2的成功建立在训练数据的可用性之上——数十万种蛋白质结构由耐心的实验人员精心确定。虽然AlphaFold3和其他相关算法在确定分子化合物结构方面取得了一些成功,但准确性落后于专攻蛋白质的前辈,部分原因就是可用的训练数据少很多。

桑顿表示,蛋白质折叠问题“几乎是AI解决方案的完美范例”,算法对以统一方式收集的数十万种蛋白质结构进行训练。不过蛋白质数据库可能也是生物学中组织数据共享的一个特例。如果没有高质量的数据来训练算法,它们就无法做出准确预测。

没人知道深度学习在解决蛋白质折叠问题上的成功会否延伸至其他科学领域。一些人对此持乐观态度。艾尔库莱希表示:“蛋白质折叠实际上只是冰山一角。化学家需要执行工作量很大的计算。借助深度学习,这些计算的速度比从前快了一百万倍。”

人工智能毫无疑问可以推进特定类型的科学问题。但它或许只能推进知识的发展。从历史上看,科学的目的一直是理解自然,理解生命和宇宙的“过程”。如果科学依靠深度学习的工具向前发展,只提供解决方案,却不揭示其中过程,那它还是真正的科学吗?

另一方面,CASP组织者正努力解决另一个问题:如何继续他们的比赛和会议。CASP成就了AlphaFold2,AlphaFold2则解决了CASP的主要问题。那么接下来,CASP的主要问题是什么?2022年,CASP会议在土耳其安塔利亚举行。谷歌DeepMind没有参赛,但人们仍感受着它的存在。用琼斯的话说,因为 “大家或多或少都在使用 AlphaFold”。

资料来源 Quanta Magazine

————————

本文作者亚瑟明·萨普拉克奥卢(Yasemin Saplakoglu)是《量子杂志》的生物学专栏作家,广泛报道神经科学、健康相关主题,曾为《科学美国人》(Scientific American)、《圣荷西水星报》(San Jose Mercury News)等报刊撰稿