在其迄今为止最伟大的生物学壮举中,人工智能解析了保护我们DNA的复杂蛋白质结构。
继解决蛋白质结构预测这一生物学领域大难题后,人工智能(AI)又揭示了蛋白质相互作用连接形成复合物的过程,还构想出新的蛋白质结构——它们有望被转化为药物,在我们的科学、健康和生活方面扮演关键角色。
不过面对庞杂的蛋白质复合物结构,人工智能的预测工作进展缓慢。直到2022年6月,一项刊载于《科学》的研究宣告对复合谜团的成功破解。研究团队设计的新算法破译了一个由大约1 000种蛋白质组成的巨大复合体——此庞然大物把守着生物遗传的核心要道,能帮助将DNA指令引导至细胞其他部分。新一代AI模型在人工智能公司DeepMind的AlphaFold和华盛顿大学教授戴维 · 贝克(David Baker)的实验室研发的RoseTTAfold基础上构建得到,而这两项模型此前已开源,供科研工作者免费使用。
细胞核之于DNA就如同城堡之于堡主。城堡构造周密,戒备森严,只允许特定分子进出城门,以传递堡内主人合成的遗传指令至外界。这里的“外界”可以是细胞内的蛋白质制造工厂,即核糖体,在接收到RNA指令后便将其翻译为蛋白质。
核孔是开在核膜上的微小孔口。每个核孔都被一个八重对称、呈篮状结构的核孔复合体包围。核孔复合体主要由胞质环、核质环、核篮等结构组成。核孔与核孔复合体的组合是细胞核、细胞质间交流的重要通道
城门的核心守卫是核孔复合体(NPC),镶嵌于内外核膜上,严格把控核孔的开与关,监管分子信使往来。(你可以将分界细胞核、细胞质的核膜比作城墙,开在核膜上的核孔比作城门。)
生物学教材图示中的NPC看着像球体表面的数千坑洼。实际上,每个核孔复合体都是一个极其复杂的环形建筑奇观,也是人体内最大蛋白质复合物之一。
由于核孔复合体是DNA信息传递的管控者,因此解析NPC结构之于基因治疗、mRNA疫苗、CRISPR技术以及其他我们仍难想象的潜在基因相关疗法,可谓至关重要。
《科学》杂志高级编辑江涤博士表示:“核孔复合体是疾病相关突变和宿主-病原体相互作用的热点,新报道的NPC结构预测工作标志着实验结构生物学的胜利。”
在此之前,细胞生物学家眼中的NPC是一个“历史悠久却又意义重大的谜团”。
结构之谜
如前文所述,身为一堡之主的DNA必须得到周全保护。这些携带遗传信息的核苷酸长链缠绕于组蛋白轴上,形成核小体,并被核膜包裹在细胞核内,从而免受潜在有害化学物质、病毒或其他废物的侵害。
另一方面,堡主也需要发号施令,做好细胞遗传控制的工作。细胞通过将来自核中央的DNA编码翻译成蛋白质,以构建物理组织,或控制基本生物学功能——告诉细胞何时分裂或死亡、平衡新陈代谢以及抵御病原体入侵。
在转录和翻译的过程中,大量蛋白质信使需要通过核孔进入核区,将DNA指令转录成mRNA,之后又护送mRNA离开城堡回到细胞质,并交付于核糖体,后者开展翻译工作。每次往来都必须经过NPC守卫。
长期以来,科学界一直试图破译核孔复合体的结构,施展生化魔法来修改其正常功能,或使用X射线扫描其晶体结构,但这些工作进行得异常艰难。通过分析大量数据,专家们发现了组成NPC的两类主要蛋白质。
第一类被称为核孔蛋白(NUP),负责搭建门禁系统——严格来说,进出核孔的本质就是穿过这些蛋白质门禁的“中心孔道”。第二种类型则类似服务人员,它们沿门禁系统分布并延伸至中心孔道,能够抓住往来的分子以帮助其移动。
核孔复合体由近1 000种蛋白质组成,可形成大约30种不同的门禁系统——其结构会动态变化,形成近30类核孔蛋白结构,因此解析NPC的工作难度极大。例如,多种相互连接的蛋白质能像铰链装置那样运动,从而改变孔道的构型或大小。
新算法的设计团队由德国马克斯 · 普朗克生物物理研究所(MPIB)的格哈德 · 哈姆尔(Gerhard Hummer)和马丁 · 贝克(Martin Beck),以及欧洲分子生物学实验室(EMBL)的扬 · 科辛斯基(Jan Kosinski)领导。根据他们的解释,由于整个结构“紧密地包围”核膜,因此不能孤立研究核孔复合体。到目前为止,科学家即便采用最先进的生化手段,也只解析了46%的NPC结构。
科辛斯基说道:“这就像拆卸和重装电子设备一样。总会有一些螺丝剩下来,你不知道该把它们安在哪里,不过多亏了人工智能,我们终于能让大多数零件都各归其位,现在我们确切知道NPC的身份信息、所作所为以及行事方法。”
遇见人工智能
哈姆尔等人首先对时下流行的一种NPC分析方法,即低温电子断层扫描术分析(cryo-ET)进行了挖掘和改造。该方法于2015年声名鹊起,因为它将细胞结构解析至近原子尺度。研究团队解释称,解决NPC结构的难点之一在于过往数据集的分辨率很不理想。在这里,他们收集了比之前“大了差不多4倍的数据集”,并使用一种新计算方法来分析数据。
通过查看新绘制的地图,他们能够区分核膜(或者说“DNA包裹”)处于紧缩还是相对放松的状态。此外,研究团队利用AlphaFold和RoseTTAfold来预测了一套全面的NPC蛋白质模型,结果喜人——这两柄AI神器能以高可信度模拟大多数核蛋白,并匹配来自传统微观分析方法的数据。
当然,项目进展并非一帆风顺。NPC与蛋白质运输方式密切相关,而这些运输方式通常很难进行三维建模。针对此难题,哈姆尔等人利用自己的模型,将蛋白接头的“锚点”映射至NPC主孔道,之后进一步的建模构建了一幅关于接头连接方式的“谷歌地图”。
破解遗传的核心
使用人工智能解决蛋白质结构,被夸赞为近十年的科学大突破。而此项研究是首个证明算法能在凌乱而复杂的现实世界中发挥强大功能的成果。
贝克表示:“此项成果展示了未来结构生物学将如何融合细胞生物学,从而创建在细胞不同部分发挥不同功能的更大分子组装的原子模型。”
变革已经开始。与哈姆尔等人的论文同期发表的,还有哈佛医学院吴皓博士团队的新作。他们结合显微镜成像与AlphaFold,利用非洲爪蟾卵解析了部分NPC结构。(非洲爪蟾算是生化研究的宠儿了。)
不过人工智能还算不上学科救世主。正如麻省理工学院生物学教授托马斯 · 施瓦茨(Thomas Schwartz,未参与研究)所指出的,核孔复合体是可以改变自身构型的活系统。例如,当它们开心依偎于核膜内时,中心孔道往往更宽敞;而在被拉到显微镜下观察后,通道就没那么敞亮了。换言之,蛋白质复合物很难被破译和控制。当然了,AI始终站在我们这边。
施瓦茨说道:“我们现在可以考虑建立一个完整的NPC动态模型,并以原子级别的分辨率模拟核转运过程。”基于AI的蛋白质预测的未来,令人无比期待!
资料来源 singularityhub.com