人类基因组计划早在2003年就已完成测序,成功绘制约92%的人类基因组图谱,也明确了其中大约2万个蛋白质编码基因。到2022年,端粒到端粒联盟(T2T)又发布首个无间隙人类基因组序列,填补上那8%的空白。
但时至今日,我们对绝大部分DNA的功能仍知之甚少——负责编码蛋白质的基因只占基因组的大约2%,其余98%的DNA都属于非编码区,如同基因组的暗物质,其作用成谜。
过去科学界将这部分序列称为“垃圾DNA”。但人们逐渐认识到,这些所谓的非编码区实际上在调控基因表达方面发挥着关键作用。
解析其中极为复杂的相互作用机制是艰巨任务。
眼下,谷歌DeepMind计划通过新推出的深度学习模型AlphaGenome来开展“从序列到功能”的预测任务:针对长链DNA片段,预测各种不同的基因序列可能怎样影响基因表达及其他重要特性。
在DeepMind领衔科研工作的副总裁普什米特·科利(Pushmeet Kohli)表示:“这是首次创建出一个能统一解决诸多基因组相关难题的模型。”
以 ChatGPT 和DeepSeek为代表的大语言模型都采用Transformer架构,AlphaGenome模型亦然。其接受的训练数据是关于“DNA序列对基因调控的影响”的实验结果,收录于公开数据库。
AlphaGenome开发团队介绍称,可以向模型输入长达100万个碱基对的DNA序列,然后它就会预测能影响这段序列的基因调控活性的一系列分子特性。
预测内容包括:基因的起始与终止位点;DNA链的哪些区段开放可及,能被转录因子等调控因子有效接触,哪些区段会被特定蛋白质封闭;RNA的生成量。(RNA作为信使分子,既负责将DNA的指令传递至细胞的蛋白质工厂核糖体,又参与基因表达的调控。)
AlphaGenome还能通过比对特定基因序列的各种变体,评估基因突变的影响,并预测RNA的“剪接”过程——这是RNA分子在抵达核糖体前被切割重组的关键步骤,若出错会导致罕见遗传病,例如脊髓性肌萎缩症或某些类型的囊性纤维化。
预测基因变异对性状的影响,这件事无疑极具应用价值。DeepMind方面的专家表示,他们曾利用AlphaGenome预测了其他科学家在白血病患者身上发现的突变,这些突变很可能激活了附近一个已知与癌症相关的基因。
纪念斯隆-凯特琳癌症中心的计算生物学家卡莱布·拉里奥(Caleb Lareau)评价称:“这套系统让我们在观测人类基因变异时,能更接近对其功能的初步准确判断。”
AlphaGenome将免费开放用于非商业用途,DeepMind承诺未来会公布其构建细节的完整信息,不过他们也声明模型仍存在局限:无法对个体基因组进行预测,且预测结果不能完全解释基因变异如何导致复杂性状或疾病。此外,对于非编码DNA如何影响基因组中相隔超过10万个碱基对的基因,模型也难以做出准确预测。
斯坦福大学计算基因组学家安舒尔·昆达杰(Anshul Kundaje)指出:“新模型的进展令人振奋且显著优于过往的工具,但它并非完美方案,仍无法像AlphaFold之于蛋白质三维结构预测那样真正解决基因调控问题。”
当然,目前看来AlphaGenome是最有望破解基因组暗物质谜团的重要突破,或将彻底改变我们对疾病的理解,助推合成生物学家的DNA“改编”工作。
资料来源:
New Google AI Will Work Out What 98% of Our DNA Actually Does for the Body
END












