微信图片_20241019093137

01 蛋白质结构预测的历史回顾

蛋白设计也好,蛋白质结构预测也好,它归根到底跟一个问题有关系,就是叫蛋白质折叠。

我先来简单解释一下什么叫蛋白质折叠。

我们知道,蛋白质首先是有空间结构的,而且有很多蛋白的空间结构是唯一的。蛋白质的氨基酸序列,是由遗传密码来决定的。遗传密码是一维的,所以它这里有个问题,就是如何由一维的蛋白质序列记住这个三维的结构,这就是所谓的蛋白质折叠问题。  

微信图片_20241019093143

那么,为什么这个问题那么重要?有人说这个问题是太阳底下最难的一个科学问题之一,也是20世纪末生物学里面所谓的一个皇冠上的珍珠。谁能解决这个问题,就肯定能获得诺贝尔奖,所以很多人都在为之努力。

这里有个关键部分,组成蛋白质的氨基酸主要有20种,氨基酸残基是线性连接的。大家可以从科普的角度上想象,它是一个氨基酸的链,就像一串珠子,一串念佛珠。如果这个珠子一共有20种不同的颜色,所谓的20种不同氨基酸的系列,把这串珠子往水里一放,它每次都会很快折叠成一样的三维结构。

微信图片_20241019093148

问题是,如果这个链的折叠过程是一个穷举的过程,要把这条链从展开的构型折叠成最后一个三维唯一的结构,这需要的时间可能会比宇宙的寿命还长。但事实上,蛋白质链在细胞里面被合成的一瞬间就折叠起来了,折叠的速度远远比1秒钟要快。  

这就来了一个问题,它怎么折的?它没有“脑子”,但蛋白折叠会非常快。这便出现了一个悖论,到底是怎么折叠起来的?这就是著名的蛋白质折叠问题和著名的利文索尔悖论(Levinthal's paradox)。

微信图片_20241019093152

从20世纪中叶到现在,无数的前辈一直在孜孜不倦地研究这个问题,包括我们研究院的荣誉院长、2013年诺贝尔化学奖得主迈克尔 · 莱维特(Michael Levitt)教授等人。

随着时间的推移,这个问题慢慢地就分化成了两个问题:一个是蛋白质为什么会这样,或者它是怎么折叠的;另一个问题相对比较实用一点,即蛋白质结构预测问题。

关于第一个问题到现在还没有完全回答好,而第二个问题就是给你一个蛋白质的序列,提供最后的折叠结构就行——只关心终点,不关心路径。

关于路径这个事情是个基础科学问题,也是个物理学问题,很多人还在搞这个东西。

但第二个问题,随着时间的推移,一开始做物理的人更起劲地在回答,由于实用性的结构预测是非常困难的,所以几十年来有人孜孜不倦地在做,进步不是很大,但是有那么些人在做,包括2024年化学奖得主贝克(David Baker),他这么多年一直在这个行当里面,是一个领军人物,做得比较好,但是他在很长时间内预测精度也只有40%。

这个精度是指一个非常著名的国际比赛——关于蛋白质结构预测关键评估(CASP)的比赛。我们团队也参加这个比赛,做了很多努力。莱维特50年前开设了这么一个行当,就是因为他一直是做计算的,他企图用计算机来预测这个问题,但精度一塌糊涂。由于这个问题非常重要,所以大家一直在做,但我说的精度一塌糊涂,就是说当年用计算机来预测出来的蛋白结构,就算达到40%的精度,也不足以让生物学家或者做实验的工作者觉得这是有用的。  

然而,2018年,出了个Alphafold。这个Alphafold第一次把这个精度从40%提高到60%,已经让人很震惊了。再过了两年,到CASP14的时候(2020年),它一下子达到了88%,88%这个数字很重要,因为实验的测定精度也只有90%。大家觉得这个问题几乎解决了,全世界都为之震惊。

微信图片_20241019093158

这里要强调一点,像莱维特,包括我,就做这个行当的,大家孜孜不倦地在做,但我们都清楚,一路走来,这个问题靠计算机预测是不可能在我们有生之年得到解决的。但没想到Alphafold 1、Alphafold 2一下就到了80%多,现在又有Alphafold 3了。  

这个就是历史,非常简单的AI预测蛋白质结构的发展历史。

02 AI变革蛋白结构预测、蛋白设计

微信图片_20241019093201

现在来讲讲这个Alphafold是怎么突然间两步就几乎做成了蛋白质结构预测,也就是AI框架。在Alphafold 1出来以前,包括贝克都是在用计算机模拟的。

绝大部分人都不是用AI在做这件事,因为AI在这方面的展示结果并不好,很多是用物理学的方法,尤其是贝克。

贝克以前不是用AI,我也不是,迈克尔也不是,但就是因为深度学习方法的介入,这个精度有了突飞猛进的进步。

那么,这就要说到AI技术,这是两条不同的路径。

2024年诺贝尔物理学奖给了AI领域,而化学奖则给了在蛋白质预测上有突出贡献的AI技术。在不久以前,大家都记得AI曾经打败过国际象棋顶尖棋手,当时大家觉得不得了,国际象棋已经被AI打败了,但是后来什么事情都没实质性改变,因为你要打败国际象棋,拿个计算机就可以穷举。而计算机肯定比想得快,它把所有的路都走完了,把你打败也就不奇怪了。

DeepMind公司的这帮人,尤其是2024年诺贝尔奖的第二个得主哈萨比斯,他是一个计算机工作者,他不仅挖掘出了一个科学问题,还找了个太阳底下最难的科学问题,即蛋白质结构预测问题。

这个问题不是个新问题,它早就存在了,贝克包括我们一直在做。他把这个问题朝前推了一大步,于是就有了Alphafold 1和Alphafold 2。

这下全世界整个变过来了,科学家也开始注意,原来AI这么厉害。这就是为什么现在有一个非常热门的词,叫AI for Science。

以前从来没听说过,AI for Science里面,AI不是什么新词,AI存在很多年了,Science更是有悠久的历史。为什么现在才想起来叫AI for Science?原来这两个东西关联性不是太大,就是说AI本身是一个算法,或者是个工程技术,传统的做AI的人都是做视觉、人脸识别、无人机操控、自动驾驶之类工程问题上的应用,它的难度跟蛋白质折叠是根本没法比的。蛋白质的确是非常非常难

那么,居然在这么难的问题上朝前跨了一大步。现在它直接促成AI for Science的出现,而且现在是无处不AI。原因很简单,就是全世界无论是做Science的人,还是从事其他领域的人,都注意到深度学习这个东西,它居然把这么难的一个科学问题往前推这么一大步,那稍微简单点的科学问题就更容易了,这就广泛应用开了。  

03 2024年物理学奖和化学奖的相互成就

2024年诺贝尔化学奖,其实分两拨人。第一个就是贝克,后来是哈萨比斯和江珀,哈萨比斯和江珀是一个团队的,他们就是做Alphafold的那两个人。贝克跟Alphafold理论上没有关系,这不是他发展的,但他后来包括现在也在用。那为什么得这个奖?

所谓蛋白质结构预测,无非就是蛋白质结构建模,只不过是这个模型不是用实验数据来检测的,是用计算机来建的。有了这个能力以后,这个行当就可以大致分为两大问题:一个就是大家孜孜不倦追求的蛋白质折叠问题,我给你一个序列,你把它对应的结构给我弄准,这就是折叠问题,也是Alphafold最大的贡献之一,它可以把蛋白折叠弄得比别的工具好得多得多。贝克也是致力于解决这个科学问题,Alphafold 2那两个人也是在这个时候做出巨大的贡献。

微信图片_20241019093205

诺奖委员会专门点了“蛋白设计”。蛋白设计和蛋白质折叠两个问题的关联度是极大的,但也不完全是一回事。这两个东西的本质要求是必须得有一个蛋白质序列,把它的结构查一查。但是以前,我们连自然界已知的蛋白质序列也未必搞得清楚,何来谈设计?  

纯粹的折叠,就是把一个已知的序列的结构弄准了就行了。但是“蛋白质设计”是指你要设计一个自然界不存在的蛋白,至少序列是经过修改的,所以设计更难——你不会折叠,你设计什么?但是会折叠不等于说一定能设计。

微信图片_20241019093208

世界上研究蛋白质折叠的团队是非常多的,贝克当然是领军人物,后来他设计的工作被Alphafold给取代了。但是贝克在Alphafold设计出来以后,他也踉跄了几步,因为他的折叠精度一下子被Alphafold给碾压了。但是他又很快崛起了,他最近几年主要致力于蛋白质设计。所以诺奖委员会要强调蛋白设计这个事。  

我一直认为,蛋白质的折叠是个基础科学问题,但蛋白质设计是一个艺术,就是你到底设计什么,选项是非常多的。那么这个时候,不得不强调一下,为什么把诺奖颁给贝克。

诺奖委员会说贝克主要以设计为主(其实他也是从做蛋白质折叠开始的),在Alphafold以前,他在折叠方面是做得最好的。但是蛋白质设计方向,他在全世界几乎就是一个望尘莫及的存在,很多团队都企图做设计,但是做不过贝克。

而研究蛋白质折叠还是有很多人的,而且还有几个人不见得比贝克做得差,甚至做得更早。但是蛋白质设计方面,怎么也做不过他。这里面当然有很多的原因,但是我认为有个很主要的原因,就是贝克的团队除了很有钱,可以招到很多优秀的人才以外,他擅长做实验。贝克本人是做实验出身的,他后来改行做计算蛋白结构预测,这就充分说明了在蛋白质建模,尤其在蛋白质设计这个行当里面,不仅要有预测(设计也是先有预测),还要用实验去验证,就是设计出来的东西很难继续用计算来判别“设计的是对还是错”,以及判断设计的合理性。虽然有一部分可以通过计算实现,但不可能100%的准,最后还是要通过实验来验证。  

当然,做设计的人也可以去找一个实验团队跟你合作,但是合作一般比较难。贝克组的强项就在于此,他自己的团队就有很强大的实验验证能力,所以他的蛋白质设计一下子就“冒”出来了,这就是关键。

所以诺奖这3个人里面,贝克拿走一半奖金,就因为这个贡献。如果这个奖是给蛋白质结构预测的话,不应该光给贝克,肯定还有别的人。但是要强调设计的话,那他确实独树一帜。

另外两位——Alphafold发明人——获奖,那是因为他们把蛋白质结构预测的精度给猛推了一把。

Alphafold主要是基于深度学习这个方法,DeepMind公司做出来的,是很了不起的,它的成功带动了一系列的应用。但我必须要强调一下,Alphafold到今天为止,它对AI这个领域的贡献或者它产生的影响力,其实远远大于对蛋白质结构研究本身的影响。  

Alphafold,包括现在Alphafold 3,虽然蛋白质结构预测的功能已经很强大,但蛋白质建模这个问题并没有被解决。Alphafold的伟大之处在于,不仅把这个问题往前推进了一大步(它没有完全解决问题),还向全世界展示:你看,我在这么难的问题上也能往前爬一大步,那其他问题就更容易了。这促使整个AI被全世界彻底接受,而且每个人都在用AI。

这也是为什么2024年的物理学奖给了AI。应该说,如果没有化学奖这几个人的成功(虽然化学奖在物理奖后面揭晓),2024年的物理奖是不会给AI的。

那未来AI应该做什么?其中有一个使命,就是两端——数据驱动和逻辑驱动——能不能统一起来。这也是AI界的一个前沿问题。

04 Alphafold预测蛋白结构的短板

AlphaFold对AI行业的冲击要比对蛋白质结构预测方向的要大。怎么来理解?

首先一点,蛋白质有主链和侧链。无论AlphaFold 2还是AlphaFold 3,它预测结果精度很高,但业内有一个非常聚焦的问题,预测的主要误差就在侧链上。  

微信图片_20241019093211

微信图片_20241019093215

我这么说,是有数据的。

我并不是否认AlphaFold的贡献,它的贡献无穷大,但是它并没有解决这个问题,我觉得就因为它的侧链不够准。

而侧链非常关键,如果从药物设计的角度来讲,药物设计、药物分子,大部分都是跟侧链相互作用的。而纯依靠AlphaFold来预测结构,绝大部分情况下是不够的。

微信图片_20241019093219

但是这不等于说AI在新药创新上就无能为力了,相反它很有用。从序列开始,它把结构搭起来(虽然不是100%准确),那么小分子筛选,或者肿瘤诊断、制药,它几乎可以用在每个环节。你不能把AI赋能新药创新,就等价为是AlphaFold预测结构本身。

05 计算生物学未来的发展潜力

微信图片_20241019093222

为什么“深度学习”在蛋白质结构问题上取得了巨大成功?原因很简单,因为蛋白质结构已经有几十年的发展史,很多代的科学家做实验积累了很多的数据。有个数据库叫PDB(protein database bank)提供了很多蛋白质结构的准确信息,才有可能让AI去学一把。所以这个蛋白质结构数据就建得比较好,这是数据驱动(data driven)的科学问题。

但世界上还有别的东西,它就没有那么多现成的结构信息让AI去学。这个时候怎么办?AI还能起作用吗?

这个时候,AI就做不到了。你看Alphafold 2,不要说其他的生物材料,哪怕是蛋白质和核酸相互作用,或者蛋白质和小分子作用,它也做不好。

这个方向朝前迈了不小的一步,但没有解决这个问题,不过这个方向是非常有潜力的。所以,未来我相信,凡是生物学,哪怕化学,都会受到它巨大的影响。

06 获得d诺奖对行业而言意味着什么?

微信图片_20241019093225

某一个领域得了诺贝尔奖,这肯定是好事。为什么?意味着这个领域受到诺贝尔奖的肯定,这会带动一个领域的繁荣发展。

我给你举个例子。2013年,迈克尔 · 莱维特和我的博士生导师马丁 · 卡普拉斯,他们获得诺贝尔奖的时候,我们这个领域的人是非常振奋的。

微信图片_20241019093228

在这个以前,计算生物学,尤其像我们这种搞蛋白质结构计算的人,是不受待见的,做实验的人不把我们当回事,认为你这个东西没用——只是我们在自娱自乐。确实是这么回事,它是一个辅助性的学科。但他们2013年获得诺奖,一下子把计算生物学的重要性凸显出来,但是还不够。

微信图片_20241019093231

前几年,计算生物学不太受人待见——所谓的辅助性学科,而且它也比较难,因为它是个交叉学科,传统学生物的人做不了,传统学物理、数学的人又不懂生物。Alphafold的成功已经让计算生物学从一个所谓的辅助性学科变成了一个引领性科学。在2024年诺贝尔两类科学奖的肯定下,计算生物学前景将十分广阔。

END