许多奇异的病毒生活在盐湖、水热通道和其他极端环境中。

研究人员利用人工智能(AI)发现了70 500种科学界此前未知的病毒,其中许多奇异的病毒与已知物种完全不同。科学家使用宏基因组学方法鉴定出了这些RNA病毒,通过这种方法,他们可以采集环境中所有的基因组样本,而不需要培养单个病毒。该方法展示了AI在探索RNA病毒“暗物质”方面的潜力。

病毒是一种能够感染动物、植物甚至细菌的微生物,它无处不在,但科学家已经鉴定并描述过的病毒只占一小部分。加拿大多伦多大学的计算病毒学家阿提姆 · 巴巴扬(Artem Babaian)说:“实际上,还有无尽的病毒等待被发现。”他指出,其中一些病毒会让人生病,因此了解它们有利于破解某些神秘的疾病。

过去一些研究利用机器学习在测序数据中发现了新病毒。最新发表在《细胞》(Cell)杂志上的研究则迈出了新的一步,将其应用于预测蛋白质的结构。该AI模型集成了一种名为ESMFold的蛋白质结构预测工具,它由元公司(Meta公司,前身为总部位于美国加利福尼亚门洛帕克的Facebook)的研究人员开发。类似的AI系统还有谷歌DeepMind(位于伦敦)的研究人员开发的AlphaFold,它令其开发者荣获了2024年的诺贝尔化学奖。

被遗漏的病毒

2022年,巴巴扬和其同事对公开可获取数据库中的570万个基因组样本展开研究,鉴定出将近132 000种全新的RNA病毒。其他研究团队也开展了类似的工作。

RNA病毒进化迅速,因此用现有方法在基因组序列数据中识别RNA病毒时可能会有许多遗漏。一种常用的方法是寻找编码RNA复制时使用的关键蛋白的基因组序列,这种关键蛋白被称作依赖于RNA的RNA聚合酶(RdRp)。但如果病毒中编码这种蛋白的序列与已知序列差别很大,研究人员就无法识别它。

中山大学深圳校区的进化生物学家施莽是上述《细胞》杂志相关研究的合著者,他和同事尝试在公开可获取的基因组样本中寻找未被识别的病毒。

他们用支撑ChatGPT的“trans-former”架构开发了名为LucaProt的模型,并为该模型提供了测序数据和ESMFold预测的蛋白质结构数据。然后他们训练模型识别病毒的RdRps,并利用它在大量的基因组数据中寻找编码这些酶的序列,而这些序列是病毒存在的证据。他们利用这种方法鉴定出约16万种RNA病毒,包括一些在温泉、盐湖和空气等极端环境中发现的。其中还有近一半的病毒以前未被描述过。巴巴扬说:“他们发现了RNA病毒生物多样性的微小区域,这些区域处在进化空间的边缘地带。”澳大利亚疾病防范中心的进化病毒学家杰基 · 马哈尔(Jackie Mahar)则表示,“这是拓展病毒圈相当有前景的方法”,鉴定病毒能够帮助研究人员理解这些微生物的起源以及它们在不同宿主中的进化方式。

“拓展已知病毒库有利于寻找更多相似的病毒,”巴巴扬说,“你会突然发现过去看不见的东西。”

马哈尔表示,该团队还没能确定他们所鉴定的病毒的宿主,这一点应进一步研究。另外,研究人员特别感兴趣的是,是否会有任何新病毒感染古细菌,这是生命之树上一个完整的分支,至今没有证据明确表明RNA病毒会感染它们。

施莽如今在开发一个模型,用以预测这些新鉴定出的RNA病毒的宿主。他希望这能帮助研究人员理解病毒在其环境生态位中的作用。

资料来源 Nature