不寻常的细胞系帮助测序设备读取过往难以辨认的DNA片段。

人类基因组测序工作一直在完善,却始终不完整。第一版序列诞生于20年前,破译了大部分编码蛋白质的区域,却也留下8%,也就是大约2亿碱基对的空白,它由高度重复、复杂的DNA片段组成,其中包含功能基因以及位于染色体中间和末端的着丝粒和端粒。在很长一段时间内,由于测序技术所限,要填上这8%的空隙看起来是一项遥不可及的任务。

现在,一支国际科研团队成功破译剩下的难解碱基,于2022年3月底在《科学》(Science)杂志发表6篇论文,公布历史首个完整无间隙的人类基因组序列。

该团队名为“端粒到端粒”(T2T)联盟,由来自数十个研究机构的近百名科学家组成。他们所填上的近2亿碱基对包括99个可能编码蛋白质的基因和其中近2 000个还需进一步研究的候选基因(还剩下1 000万碱基待解)。此外,新序列也纠正了老版本里的数千个结构错误。

欧洲分子生物学实验室副主任、曾经的人类基因组计划成员、生物信息学家伊万 · 伯尼(Ewan Birney)表示:“我认为我们在10年前甚至5年前都无法想象此壮举。”T2T联盟的研究人员表示,新测序的片段揭示了基因组中遗传进化的热点,并强调了人类基因组的混乱历史。基因编辑公司Inscripta的基因组学家迪安娜 · 丘奇(Deanna Church)指出:“它确实让我们对基因组内不可见的区域有了新的了解。”

过往难辨真颜的基因组序列现已清晰可见:5个染色体短臂几乎被完全揭示,众所周知,这些短臂含有大量编码核糖体骨架的基因,而核糖体是细胞的蛋白质工厂;包括端粒和着丝粒在内的高度重复序列也被摘下面纱,着丝粒肩负着协调染色体复制分离的关键任务。

当伯尼、丘奇和同事在2001年介绍初版人类基因组,甚至于2004年正式发布该序列以后,测序设备和基因组组装软件没能力涉足高度重复的序列区域。随着测序技术进步及其成本下降,科学家减少了序列的间隙和错误组装,最终于2017年发布人类基因组GRCh38。由于不到1 000个间隙,它成为许多人用来比较其他人类基因组的参考序列。

但凯伦 · 米加(Karen Miga)和亚当 · 菲利普(Adam Phillippy)希望更上一层楼。米加是加州大学圣克鲁斯分校的遗传学家,长期致力于探究卫星DNA的准确序列,这些独特的卫星片段能帮助形成着丝粒。与此同时,美国国家人类基因组研究所的生物信息学家菲利普专注利用新型测序技术读取很长的DNA片段,从而减少拼合较短序列的需要。他们在一次会议上相遇,并建立合作。到2019年,菲利普报告称,他们成功完成X染色体的端到端测序。数十位学者受此鼓舞,也加入了这项研究事业。

5.1

新破译的人类染色体的短臂(绿色)和着丝粒(玫红色)带来惊喜

为简化任务,他们决定使用一种匿名化细胞系。该细胞系源于20多年前某女性子宫的异常生长——精子进入缺乏染色体的卵子,由于只有精子的遗传物质,故“受精卵”无法发育成胚胎,却仍能复制,尤其是在精子带去X染色体而非Y染色体的情况下。选择此匿名化细胞系的一个优点是,它的23对染色体,每对里的两条都相同。

人类基因组计划先驱之一、西雅图华盛顿大学遗传学家罗伯特 · 沃特斯顿(Robert Waterston)表示,这对消除基因组间隙“产生了很大影响”,因为测序设备无需解决父母染色体差异的问题。

T2T团队结合使用了两种先进技术,一种能一次读取10万碱基的纳米孔测序技术,另一种则精确度极高,能处理差别极小的片段。此外,他们还改进后一种技术,从而进一步提高了准确性。最后,除了5个终极难点,他们解决了能够解决的所有问题。沃特斯顿表示:“你只要看到他们采用的方法,就知道他们解决的都是高难度问题。”

大约2亿碱基对最终以正确的顺序和位置公诸于世,包含着1 900多个基因,其中大部分是已知基因的拷贝。研究人员对重复区域和可移动元素进行了编目——来自病毒的遗传物质被整合至基因组中。在对每个着丝粒进行测序时,他们了解到重复区域的大小差异很大,这相当出乎意料,因为着丝粒之于每条染色体的作用都相同。

关于染色体短臂的工作带来了另一个惊喜。正如预期的那样,它们包含了共计400个编码用于制造核糖体的RNA的基因拷贝。

美国斯托瓦斯医学研究所(SIMR)的染色体生物学家詹妮弗 · 格顿(Jennifer Gerton)指出,染色体短臂也充满了可移动元素、重复片段和其他类型的重复DNA序列,以及来自基因组其他部分的许多基因拷贝。用丘奇的话说:“人类基因组的动态变化令人惊讶。”格顿表示,这5个染色体短臂信息不明确造成了极为复杂混乱的情况,使得研究人员纵已粗略了解序列,却终难明确碱基顺序。

菲利普认为,染色体短臂很可能是基因进化的热点,因为那里的基因拷贝能够自由变异,产生新功能。研究小组所做的重复区域编目还可揭示与特定序列拷贝数变化有关的神经和发育障碍。复杂重复区域内DNA的化学修饰似乎也与疾病相关(这些变化已被绘制出来)。

虽然取得里程碑式突破,但人类基因组测序工作并未就此止步。人类基因组计划联合负责人、美国贝勒医学院的遗传学家理查德 · 吉布斯(Richard Gibbs)强调,该领域现需获取来自更多样化人群的完整基因组序列,以寻找可能在疾病或性状中发挥作用的短臂及其他难以阅读区域的变异。

T2T团队再启征程,并取得开门红——他们的目标是破译来自不同族群的350位个体和基因序列,现已完成70多位基因组的测序。新项目作为人类泛基因组参考联盟(HPRC)的一部分,可谓极具挑战性,因为这些待测基因组的来源不再是前文提到的匿名化细胞系,而是互不相同的正常染色体对。

资料来源 Science

——————

本文作者伊丽莎白·彭尼西(Elizabeth Pennisi)是《科学》杂志的特约撰稿人,主要关注基因组学、演化、微生物学和有机体生物学,也涉猎生态学和行为学