(复旦大学遗传学研究所教授)
人类基因组DNA测序已经完成大约一半,不要很久就可全部完成。但对这些序列的生物学含意我们又能了解多少呢?人们期望着从这些DNA序列中找到有关疾病和治疗疾病的方法的信息。科学家们还有哪些事要做呢?
人类所有的生命过程,生老病死,无不受控于分布在23对染色体和线粒体上的大约8万个基因。这些基因由约30亿个核苷酸编码。科学家们希望通过认识所有正常的和致疾病的基因,找到治疗疾病和保健的方法。
使人生病的原因不外有内因和外因。由于基因结构的“错误”造成的疾病属于内因;而由于外界环境因素如外伤、感染等引起的疾病属于外因,“内因是基础,外因是条件,外因通过内因而起作用”。基因参与所有生理和病理的全过程。因此,基因组结构对健康和疾病都起着重要“基础”作用,与基因完全不相干的疾病是没有的。直接由于基因结构所致的疾病有两类:一种是“单基因病”,另一类叫“多基因病”。前者由单个基因“突变”所致,如基因中一个核苷酸的缺失、重复、或替换造成的相应蛋白的氨基酸改变,以致该蛋白功能的丧失或改变,造成疾病;如苯丙酮尿症、血友病、假肥大型肌营养不良症等,这类疾病受环境的影响小。现在世界各国严重威胁人类健康的重大疾病,占第一位的心脑血管病,依次是癌症、糖尿病、老年痴呆症等,它们均与多个基因位点相关,叫做“多基因病”;由于这类疾病的发病率高,对人类健康影响大,各国政府和科学家都付出了极大的努力,但尚未找到确定的“致病基因";尽管各国科学家发现的相关基因位点愈来愈多,但只有部分相关,还无法清楚地了解疾病的本质。现在科学家倾向于认为这些疾病不是由于那些结构基因的突变所致,而可能是由一些非编码区DNA序列中单个核苷酸的多态性改变对一些基因的表达起作用,即对某些生化过程起调控影响所致。这类疾病的发生有明显的“家族性”,且与环境因素有密切关系。
人类基因组研究的“第一期工程”是DNA测序。“测序”可以比作是把这部“天书”“读”出来了,但并不等于已经“读懂”了。在全部DNA顺序中只有约2%的DNA顺序是编码酶或其他蛋白的基因,另外的部分可能参与基因活动的调节控制,对这部分基因组DNA尚研究不多,认识很少,但它对整体生命活动可能起着相当重要的作用。把这些ATCG字母的生物学含意,即其编码或调控区顺序的功能都弄明白了,才能说基因组被“读懂”了,或说被“破译"了。到目前为止,人类基因组DNA测序已经完成大约30亿核苷酸对的一半,即1,525,139 kb,占总数30亿核苷酸对的47. 4%,这是初步“草测”(Draft Sequence)的数据,即其准确性和完整性都尚未达到标准。已完成的“精确”测序( Finished Sequence) 是536, 133 kb,相当于全基因组的16. 7%。 第22号染色体DNA已经完成精确测序,即其错误率小于五万分之一。DNA测序超过30%的染色体还有第21染色体,全长39,000 kb,已测序24,965 kb,占64%;第7染色体全长171 ,000 kb,已测序81 ,476 kb,占47. 6%; X染色体全长164,000 kb,已测序65,012 kb, 占39. 6%;第20染色体全长72,000 kb,已测序25,511 kb,占35. 4%;第17染色体全长92000 kb,已测序28,861 kb,占31. 4%。我们期待着从DNA顺序认识基因,特别是与疾病相关的基因,并进而找到克服疾病的有效办法。
科学家们现正在进行和已经测得的染色体DNA序列只能看作是一个“模式序列”,因为任何一种序列只是代表着某一个个人的具体序列,而任何无关的两个人之间通常不会完全一致的; 平均的说,任意两个不同个体间大约每任何1,000个核苷酸序列中就会有一个不相同,这叫做“单核苷酸多态性”(SNPs)。SNPs在人类群体中非常普遍,在全部DNA序列差异中SNP占85%。这种单核苷酸的差异通常并不导致蛋白质氨基酸编码的改变。我们每个人都有很多SNP,每人自己的一套SNP有着“个性”特有的综合作用。英国的SNP协会正致力于在人类群体中发现300,000个SNP作为遗传标志,它将被用来对各种人群进行调查分析,我们将有可能识别出哪些SNP是好的,哪些是“坏的";怎样的多态性“配置”能起好作用,如何的“配置”起坏作用。所谓好作用,就是对人的生理、心理健康好起的影响,促进身体素质和心理素质的良好发育,抗病力强、心理承受能力大、学习能力强、反应快等;而如果有不好的“配置”,则可能影响到人的体质或易患某种疾病,如心脏病、肿瘤、癌症等,亦可能影响到智力发育或精神健康等。人的各种体能、智能或疾病的表现当然都是基因与环境,包括学习与训练等相互作用的结果。DNA顺序的差异广泛地存在于每个人的基因组内,各人互不相同,但在一个家族内则有更多的相似处。对于单基因病,已经有了大量证据表明其相关基因的编码顺序有“错误”;而对于多基因病,可能应该更多地考虑非编码区顺序的“错误”,而只着眼于编码区可能是不够。
我们每个人都是基因的产物。基因的相互差异与个人的生活、教育经历(外界环境)相结合,决定着我们个人特有的性格、特点、能力强弱。如果我们知道哪些基因结构能够与相应的优越环境相结合,我们将会找到对付那些致命的或使人遭受痛苦的疾病的方法。
为了认识各种特异基因顺序对个人的生理、心理及健康的意义,或为了发现新药,或为了制定适合个人遗传特点和生活特点的治疗方案,或为了对个人未来健康的了解,并为避免不良后果而提供必要的建议。已经并将更大规模地进行遗传流行病学调查,将采用新的DNA分析技术和新的统计学方法,对大规模的人群进行有关基因、遗传多样性与环境相互作用的分析,此间也将充分注意保护个人隐私。医学和药学将会是有“个性”的,不再是一张处方用于千万人;也将有可能将医学的重点从“治疗”转向“预防”。但是与个人健康、行为和个性有关的基因顺序差异的信息的揭示和利用,也将会是一个需要研究的伦理学问题,它将会涉及到人们有关就业和医疗保险,以及婚配问题。
用遗传学的方法,已经得到符合孟德尔遗传规律的位点有11,279个,其中可以被确定为基因的有8001个,有5,926个基因已被定位于相应的染色体上。这些基因中有1,416个被认为是与疾病相关的,包括致病基因、易感基因和抗病基因。近十几年来用定位克隆的方法克隆的疾病基因已经有108个。
第22号染色体是人类基因组23对染色体中第二个最小的(第21染色体是最小的),是5个近端着丝点染色体中的一个。这些染色体的共同特点是其短臂由相似的DNA顺序构成,即编码串联重复的核糖体RNA基因,和一系列其他的串联重复顺序,尚没有证据显示在短臂有任何蛋白编码基因存在。直接或间接的基因定位结果显示其长臂与其他染色体相比是基因富含染色体。其常染色质DNA分子总长度约为34,491 kb,已被精确测定的为33,464 kb,即已完成测序占全长的97%。共包括12个克隆重叠群,也就是说还存在11个空隙尚待用其他方法予以填补;但是据测定,这些空隙的任何一个均不大于150 kb,有些只有几个 kb。根据已有编码基因结构的知识和计算机程序,从第22染色体已测序DNA中已识别出编码基因545个,其中与已知基因或蛋白序列相同的有247个,叫做“已知基因”;另有一些是其核苷酸序列与某人类基因或其他物种基因或蛋白序列有同源或有相似区域,被称为“相关基因”;还有一部分是其核苷酸序列目前只知与某ESTs同源,还没有任何进一步信息,称之为“预期基因”。还发现有134个假基因,它们的核苷酸顺序与已知基因或蛋白同源,但是“读框”不完整,这类基因没有产物和功能。还有一些目前尚未被识别出来,估计在第22染色体上可能会有约1,000个基因。
基因组顺序的测定,以及从顺序结构上识别编码顺序只是第一步,或者说只是提供了基因存在的线索,要进一步确认其为基因,则还需要用生物化学、生理学、细胞学及遗传学的实验加以证明,了解它的功能以及其与疾病的相关性,这是更重要的也是更困难的。在第22染色体上已经发现的疾病基因有:猫眼综合征、DiGeorge 综合征、内皮细胞性骨髓瘤、多发性神经纤维瘤2型、腭心面综合等。依据OMIM数据库记录,已有136个基因被定位在染色体22上面,只是目前还没有把这些基因与相应的DNA序列联系起来。
从识别发现基因、了解其功能到确认其疾病的相关性,以及发现对该疾病的治疗方法,还有一段相当长的路要走。或许现在可以说测序已经不是太难,但基因功能的研究确实不容易,认识它可能至少还要几十年时间。但路是人走出来的,毕竟我们已经走出了很长的一段路,自然总是可以被认识的。