(复旦大学遗传学研究所)

人体基因组研究分两个阶段。第一个阶段是以1990年美国正式启动的“人体基因组计划”[1]为标志,预定在15年内主要完成人体基因组的遗传连锁图、物理图、转录图和核苷酸序列图等四张图谱。这是弄清楚基因组内所有核苷酸的物理位置。2005年以后则开始了“基因组后”阶段的研究[2],也就是进入所谓的“蛋白质组”时期,其目标是阐明由基因组内的基因编码产生的蛋白质的功能,揭示基因组的核苷酸序列所蕴含的生物学功能和意义,在此基础上,使人类得以认识自身的遗传本性。

两个阶段在时间上是可以明确划分的,但在工作内容上却是连贯延续的。我认为,当今以后主要的研究将侧重如下方面。

一、基因组核苷酸序列的分类和划界[3]

人体基因组30亿个核苷酸组成了基因和非基因序列,编码与非编码序列,单一和重复序列。在生命活动以及过去和今后的进化过程中,不同类别的序列各有其自身的功能,鉴别核苷酸序列的类别是认识基因组的第一步。其中最重要也最有意义的莫过于鉴别与分离基因。

由于不能以人作为实验材料;同时又由于人与其它生物在生命活动的基本过程方面,在进化上有共同的起源,许多具重要功能的基因是相似或相同的。因此,在研究人体基因组的同时,平行地测定了许多种模式生物的基因组序列,这大大有助于研究人体基因。

6.1

已完成基因组测序的支原体(. Mycoplasma genitalium)是生物界中能独立生活的最小生物体,基因组全长580 kb,鉴别出482个基因。这被认为是营独立生活的生物所需基因的最低数目[9]。从已知的生物体基因组和基因数目的资料,可看出一个基本趋势,即生物进化程度高,基因数目多,基因组内基因分布的密度低。(见表2)

6.2

这里值得指出的是人线粒体的基因密度很高,16549bp编码13个mRNA,2个rRNA和22个tRNA,平均0. 43 kb就有一个基因。这可能是反映了线粒体是生物进化早期与细胞营共生的原生生物的一种特征。人体基因组里究竟有多少个基因呢?如果按照原核生物和低等真核生物平均2 kb到8 kb有一个基因作推算,则人有40万个到150万个基因。这不符合进化发展的趋势,显然是一个过高估计数。确切的数目当然有待基因组测序完成后的基因鉴别,但目前也还是有不少估算的方法和依据(见表3)

6.3

基因组内基因的高密度区和低密度区,相当于染色体R显带的浅染和深染区,各占一半左右。至于低密度区中的基因数,也有人估计只有高密度区的十分之一。这样,估计人体基因在71 000个左右。当然,还可以有其它一些估算的方法。但是,从模式生物基因组测序后鉴别的基因数,都是多于原先基于各种方法作出的估计数。因此,人体基因有10万个,也许是一个最低估计数。

二、基因的分离克隆和功能研究

鉴别基因序列后,首要的工作是分离克隆基因,验证其生物学功能。这在“人体基因组计划”时期内已取得进展,但主要将在“基因组后”时期完成。

分离克隆基因的方法基本上有两大类。功能克隆(functional cloning)和定位克隆(Positional cloning)[21]后者又发展了定位候选基因克隆(Positional candidate cloning)。今以克隆疾病相关基因为例。功能克隆法是先确定导致异常生理状态功能有缺陷的蛋白质,或找出正常组织与异常组织中基因差别表达的产物——mRNA,再克隆与这些蛋白质或m R-NA有关的基因并进行染色体定位,定位克隆则循相反的途径。先寻找健康人和病人在基因组(染色体)结构上的差别,从出现差别的位置上分离克隆基因,然后验证这些基因的功能。更多的情况是染色体上没有明显的结构差别,但遗传学研究的资料表明某些基因位于染色体的某个区段,就可定位于这个染色体区段着手分离基因,这就是“定位候选基因克隆”法。

迄今为止,实际已分离克隆的基因还不足5000个,可是生物信息学(Bioinformatics)的发展,利用数据库中已收集到的450 000个人体CDNA的表达序列片段(EST,expressed sequence tag)数据,拼装成接近全长的CDNA已有49,625个。这也许可认为是已收集到全部或大部分编码序列的基因数。

一个基因在EST数据库里可以有许多个EST,如人血清白蛋白基因在基因库中有1300个EST,因此,目前用可有效地转换成基因专一的位置标定序列(STS,site tagged sequence)的mRNA 3'端非翻译区(3'-UTR,3'-untranslated region)作为代表序列,在比较了163 215个3'-EST和8516个已知基因的3'端序列后,按同一性不低于97%的标准把EST集装成49 625个CDNA片段簇。这为分离克隆占人体基因半数的基因奠定了坚实基础。

比较基因组是克隆和研究人体基因的一条有效途径。由于在生命活动中具重要功能的基因在进化上是很保守的,所以从果蝇、线虫、酵母和小鼠等模式生物中分离的基因,往往可在人体基因组中找到其同源或相似的基因。有报道说,66个会使果蝇出现突变表现的基因与人体CDNA高度同源;其中,7个与肿瘤有关,20个参与眼与神经系统的发育,4个涉及离子通道[22]。在已知与人类遗传病有关的缺陷蛋白质中,有一半与酵母的蛋白质相似;大部分酵母蛋白质有人源的同源物。现在酿酒酵母基因组中已鉴别出6000多个基因,在不同程度上已获悉其功能信息的占65%,剩下2000个左右基因尚不明其功能[23]。欧洲14个国家的144个实验室通力合作,将着手制成2000个突变型,逐个研究其功能。其研究结果必将促进人体基因的分离和功能研究。[24]

三、重复序列、非编码序列和多态性研究

非编码序列包括基因的内含子和基因之间的间隔序列;重复序列可以是编码序列,也可以是非编码序列;多态现象可出现在基因内或基因外。人基因组内非编码序列约占95%。根据人βTCR基因座测序分析,非编码序列中基因座专一的重复序列占47%,遍布基因组的重复序列占30%[17]。很难设想生物在严峻的选择压力下长期进化过程中,会耗费能量保持占基因组绝大部分却又毫无生物学功能的非编码序列。事实上,在非编码序列中确已发现有各种基因表达的调控元件。已发现爪蟾、小鼠和人的一类小核仁RNA(snoRNAs)是由基因的内含子编码,这些基因编码的蛋白质则是与核仁和核糖体相关的蛋白质[25a]。在果蝇中也证实有一种“自私元件”(selfish element)只整合在基因组中时,可使果蝇产生的野生型精子全部死亡,只让卵子被带有“分离异常”(segregation distorder)基因的精子受精。因此,这种有害序列的传播可导致群体灭绝,但同时又创造条件使一些突变基因得以存在。据推测,这种序列的功能将是进化过程中重大转折的启动者。[25b]

非编码序列是核苷酸变异的“蓄积池”,这些序列发生变异不会立即产生有害效应,但却可储存在基因组内,积累到一定程度有可能转化成新的基因,获得在新的选择压力下生存的优势。人体基因组内非编码序列占这么高的比例,也许正是反映了人类有更强的适应环境变化的潜能,并且是自然选择的结果。

重复序列生物学功能的意义有待进一步揭示。己知的如染色体端粒是(TTAGGG)n的串联重复序列,着丝粒也是重复序列组成。一些神经系统疾病的致病基因中有三核苷酸重复序列,重复的拷贝数与基因的功能有关,即当拷贝数增加超过一个阈值后将导致疾病的发生。[26]目前已提出三种假说来阐明其机制,(1)脊髓和延髓性肌肉萎缩症、I型脊髄和小脑型共济失调的致病基因中有编码谷氯酰胺的CAG重复序列,当拷贝数増加到一定数目时就引起疾病。其原因可能在于神经细胞里有一种以富含谷氨酰胺的蛋白质为作用底物的转谷氨酰胺酶,反应后的产物与其它蛋白质交联成不溶性的包膜,从而使神经细胞失去功能。[27] [2]亨廷顿舞蹈症的致病基因中的CAG拷贝数超过42份后,将引起疾病。这是由于致病基因编码的蛋白质,可通过具富集谷氨酰胺的区段与磷酸甘油醛脱氢酶(GAPDH)结合使之失去活性,GAPDH却是供应脑组织以能量的糖酵介代谢途径中的一个关键酶,于是脑组织得不到足够的能量供应而受损伤。[28] [3]在脆性智力低下症(FMR,fragile mental retardation)的致病基因3'端非翻译区为CGG从正常的30份拷贝増加超过230份后,就出现症状。经研究发现,致病基因的mRNA水平在病人中是正常的,但翻译产生的蛋白质量骤减。原因在于基因转录正常,但当CGG増多后转录成的mRNA不能与完整的核糖体结合,而与40S-80S的核糖体亚基结合。CGG拷贝数越多,不能与完整核糖体结合的mRNA所占比例就越高。不能有足够量的蛋白质,成为发病的原因。[29]这种被称为“动态突变”的三联体重复序列増多的现象,丰富了对遗传传递规律的认识。

基因组内有二个或更多个基因编码同一种或具有十分相似的蛋白质。这种基因组冗余性也可说是重复序列的一种类型。基因组冗余现象可能是进化过程中基因重复的结果,重复多半出现在染色体臂的中间部位和着丝粒两侧区域内,由于这些部位经常发生交换,所以冗余序列主要出现在染色体端部区域内。模式生物基因组测序结果表明情况确是如此。酵母染色体的亚端区内有23个PAU基因都编码丝氨酸含量极少、功能不明的一种蛋白质分子;PMT和KRE2家族的15个基因则编码参与细胞壁蛋白质甘露糖苷化反应的一种酶。可以认为,基因组冗余性在基因进化中起重要作用,同时可为出现新功能的基因提供基本原料。

基因组DNA序列的多态性是十分常见的,不同个体间几乎每隔几百个核苷酸就有一个差别。差别如出现在基因编码序列里,就产生点突变;但绝大部分差别出现在非编码序列,其生物学意义和功能是值得探究的。近年来研究乳腺癌基因BRCA1和BRCA2后发现,正常功能还未搞清的BRCA1编码1863个氨基酸,有235种核苷酸变异;BRCA2编码1867个氨基酸,有100多种点突变。可是,乳腺癌患者中只有2/3的人是BRCA1或BRCA2有突变;此外,并不是所有带有突变基因的人都患乳腺癌。换言之,基因突变不一定会致癌,患癌的不一定全是由于基因突变。因而,有人设想这可能是基因组内DNA序列的多态性影响一些基因的活性,使不同个体有不同的疾病易感性[30]这实质上是反映了基因与环境相互作用决定表型的遗传学基本原理。这里,基因外的核苷酸序列是基因的一种外部环境;因此,要从整个遗传背景下来考察基因的作用。

四、从基因到基因组的研究[31]

从基因研究到基因组研究是科学发展的趋势。所谓基因组研究包括二重含义,一是发展新技术,成批地分离克隆基因以及同时研究许多个基因的信息和转录表达。[33,34]另一则是指上面提到的在各个基因相互作用或基因组的背景下来研究基因的功能。当然,归根到底还是以弄清每个基因的功能为目的,而且也只有这样,才能全面认识基因组的功能。

生物信息学(bioinformatics)的发展将极大地提高基因和基因组研究工作的效率,同时也将更有利于及时利用已获得的信息资料。这个新学科在近期内将有飞速的发展。

当在认识基因组的整体或部分功能后,就有可能着手研究把不同生物体的基因组分割后拼装成一个嵌合基因组或小基因组(mini-genome),从而构建出自然界中原先不存在的全新生物体。

这时,由基因组研究引发的有关伦理、法律和社会等问题,必将激起全社会各阶层更加密切的关注。[35,36]

基因组研究是耗巨资的项目。西方各国政府资助连同商业公司投入的财力,我们是难望其项背的。可是,基因组的研究成果不仅可阐明生命科学领域中的重大理论问题。而且有应用和商业开发价值,将产生不可估量的社会效益和经济效益,极大地造福于人类,为此,我们当然不能无所作为,坐待他人恩赐。但我们又不能全面出击,要有所为和有所不为。全面了解基因组研究的过去、目前和未来后,可以看到分离基因是一切工作的基础和出发点。只有自己克隆了基因,方能不受制于人。独立自主地作深入的研究和进行开发。否则,皮之不存,毛将焉附。 从今往后,当倾全力于分离克隆基因,并采取相应对策防止我国遗传资源——分离有重要功能的基因资源——的外流,使我们在剧烈的国际竞争中占有一席之地。时不吾待。莫失良机。

6.5

人类基因组计划现在进入更为复杂的测序阶段

参考文献

1. 朱景德等译,人类基因组的作图和测序(美国国家科学研究委员会),上海科学技术出版社,1990

2. Nowak. R., Science 270:368. 1995

Kehn. P. Science 270:359,1995

3. 赵寿元 人类基因组 上海科技教育出版社1993

4. Schuler. G. D.,et al. Science 274:540,1996

5. Frezer. C. M. et al. Science 270:397, 1995

6. Fleischmann. R. D.,et al, Science 269; 496. 1995

7. Bult. C. J.,et al,Science 273: 1058. 1996

8. Goffeau. A.,et al,Science 274: 546, 1996

9. Goffeau. A., Science 270: 445, 1995

10. Senkevich, T. G.,et al,Science 273: 813,1996

11. Oliver. S. G.,et al,Nature 357: 38, 1992

12. Johnston. M.,et al, Science 265; 2077, 1994

13. Galibert. F.,et al, EMBO Journa 15: 2031,1996

14. Hodgkin, J. et al, Science 270:410,1995

15. McCombie, N. R.,et al, Nature Genetics, 1: 348,1992

16. Martin-Gallardo,A .,et al, Nature Genetics, 1:34,1992

17. Rowen. L.,et al, Science 272: 1755, 1996

18. Xu,G., et al, Cell 62: 899, 1990

19. Marchuk, D. A.,et al, Genomics 11: 931. 1991

20. Fields. C.,et al, Nature Genetics. 7: 345,1994

21. Collins, F. S., Nature Genetics, 1: 3,1992

22. Smith, G, R.,et al, Science 274: 1371. 1996

23. Casari, G.,et al, Trends in Genetics 12; 244,1996

24. Oliver,S.,Trends in Genetics 12: 241,1996

25a. Sollner-Webb, Cell-75:403, 1993

25b. Hurst, L. D., et al, Nature 384: 317,1996

26. Morell, V.,Science 260: 1422,1993

27. Richards, L. R.,et al, Cell 70:709. 1992

Green, H., Cell 74: 956,1993

28. Barinaga, M., Science 271:1233. 1996

29. Feng. Y.,et al,Science 268:731. 1995

30. Friend, S. H.,Nature Genetics 13:16,1996

31. Penmisi, E.,Science 272: 1730, 1996

32. Schena, M., et al, Science 270: 467. 1995

33. Velculescu,V. E., et al. Science 270: 610,1996

34. Chee. M., el al, Science 274: 610,1996

35. Knoppers, B. M.,et al, Science 265:2035,1994

36. Lapham, E. V.,et al, Science 274: 621,1996