国际人类基因组计划组织和美国塞莱拉基因组公司今年2月分别在《自然》与《科学》杂志上发表了各自绘制的人类基因组图谱,尽管两者之间团队合作存有争议,但使人们朝着正确理解人类生命机制前进了一大步——
兽类的基因数可能是666,而人类的基因数是26,588。至少根据塞莱拉基因组数据公司的计算,这是在人类基因组中发现的数值。而根据人类基因组计划联合体的报告,人类的基因数大约是31,000个。虽然人类基因的精确数量仍需进一步的试验和计算机分析,但从发表的人类基因组的序列草图和初步分析结果,有一件事是明确的,即组成一个人的基因数比人们曾经以为的要少得多。
这项研究结果的发表可能使那些认为这场关于人类基因组的竞赛已于去年6月结束的人感到迷惑。想当初,在克林顿总统的撮合下,两派竞争者在电视上发表了联合公告,宣布他们同时完成了人类基因组的“工作框架图”。但是那大部分只是一个政治姿态。虽然人类基因组的所有序列在那时已经或者基本上测定完毕——换句话说,拼写遗传信息的基因“字母”已经定位好了——但是这一结果还不能说明什么。今年2月中旬发表的工作就是从中挖掘有益信息的一种努力。
尽管去年6月共同发表了电视宣言,美国塞莱拉公司和国际人类基因组计划之间仍时有龃龉。前者是一个商业机构希冀从它的发现中盈利,后者是一个公共资金支持的国际实验室联合体,由美英日法德中等6国的科学家共同参与。双方采取了不同的方法解读基因,即霰弹对克隆。启动于1990年的人类基因组计划采用了“克隆法”,先从相对大块的DNA出发,一步一步将其分解成越来越小的片段。而组建于1998年的塞莱拉公司是一个新来者,在人类基因组图谱解析的过程中,它的核心分析方法被称为“霰弹法”,即把整个基因组粉碎为碎片,再依靠复杂的计算机程序将其还原。“霰弹法”战略,去年使塞莱拉公司以99.998%的准确度完成了果蝇的基因组。人类基因组计划在早期集中了较多的时间和精力在克隆和绘制草图上,而塞莱拉的方法在后期需要大量的计算。
内在的生命
一个令人激动的发现是,几乎只需要人类基因组的一半就能构筑自己的生命,而与人类生存的需要毫无关系。换句话说,这就是寄生。大部分情况下,这些基因寄生物处于静止状态,允许身体的DNA-复制机制把它们随同基因组的其他部分一起复制。然而,少数情况下,它们会突然苏醒然后在基因组的其它地方复制他们自己,从而逐渐增加数目。
这是一个谜。创造DNA需要化合物和能量,因此淘汰这些免费搭乘者,即技术上称作的可转位元素应该具有进化意义。其他物种似乎更擅长这种进化。人类负载的这种寄生物据目前所知道的最大值是占了其DNA的45%。但是在它会产生不良后果的地方,可转位元素就能被清除出人类基因组。例如,在称作同源异形盒基因簇的关键区域几乎没有发现可转位元素。这些基因簇含有控制胚胎发育成型的主要基因,而基因簇自己又被DNA调控序列的复合物所控制,响应细胞其他部分的化学信号发生开或关。任何中断这种调控的因素都会被自然选择迅速移走。因此在基因组的这些部位,只有2%的DNA含有可转位元素。
另一方面,我们很容易推断在可转位元素确实存留的地方,它肯定产生了一些益处。一种可能,例如对一类称作SINE(短距离散布元素)的寄生物来说,当细胞处于压力下时它有助于促进蛋白质的生成。SINE以及其他可转位元素不是由细胞机制正常转录以产生分子信使来指导基因的行动。但是对于SINE有一个例外,它们在应激细胞中被转录,由此产生的分子信使用来阻断一种放慢蛋白质生成的物质。因此,幸亏有SINE,受激细胞才能对外来的威胁产生更加迅速的反应。
其他种类的可转位元素的持续存在也会有相似的优势,只是需要人们的深入研究得以显现。而且在有些情形下,宿主已增添了新的可转位元素以达到更好的效果。看起来好像至少有20个对人体极其有用的基因是来源于可转位元素。这一点也不奇怪。基因组在它们能获得有用物质的地方一点也不挑剔,而且可转位元素也不是唯一的战利品。大约超过200种“人类”基因实际上是从细菌中“掠夺”来的。
计数出局
在20世纪80年代,基因组学的先锋之一——沃尔特 · 吉尔伯特(Walter Gilbert)曾估计人类基因数大约为100,000——他是基于对人类细胞核中染色体的DNA含有的基因字母数(这可从它们的重量计算出)的了解而猜测在任何一条给定的DNA上会有多少基因潜伏着。
更近期的估测变动非常大。克雷格 · 文特尔(Craig Venter)、塞莱拉公司的老板,推断出了一个数值介于50,000和80,000之间。因塞特药业(Incyte Pharmaceuticals)和人类基因组科学(Human Genome Sciences)是另外两家美国公司,它们致力于创造私有的但不太完整的人类基因组版本,据它们的估计,人类基因数在120,000和150,000之间。由此可以看到你可以错得有多远。(虽然一些愤世嫉俗者评论道,基因数估测得越多,药业公司才愿意花越多的钱登录由这些公司掌握的基因组数据库。)
另一个惊奇是人类和其他物种之间的基因差异似乎比预料的要小,塞莱拉公司本周宣布它完成了老鼠的基因组测序工作。据文特尔博士介绍,他们公司的科学家发现只有300个基因是人类独有而老鼠没有的。
人类基因组计划虽然没有命名这样精确的数值,但他们根据公众共享的老鼠基因组数据得到了一个类似的一般性结论。对于一个合理的近似,人类的基因组按照老鼠的基因组一样的方法被劈成碎片然后重组织。可以看到,共享基因的精确基因序列在两个物种之间是不同的,因此产生于这些基因的蛋白质也不是彼此完美的复制。但是它们是相近的。因此,看起来好像老鼠和人类的差异主要来源于它们的基因怎样被调控,而与基因实际上产生什么样的蛋白质关系不大。
然而,人类的自我重要性能从老鼠和人类比无脊椎动物复杂得多的事实中抢救出一些尊严。人类拥有的基因数是线虫和蠕虫的1.5倍,是果蝇的2倍(这两种动物的基因组已完全完成了序列测定)。共享基因的巨大核心是处理诸如由葡萄糖释放能量这样的共享过程。但是除了这个核心,人类基因(以及老鼠基因)的各个小组还有大量的扩展来控制其他种类的功能。
其他扩展领域包括调控神经系统,尤其是那些负责称作神经递质的信息分子的系统以及血液系统的基因。但是,也许最令人感兴趣的是帮助产生复杂性的两个基因组。其中一个基因组产生的蛋白质与DNA结合从而调节诸如同源异形盒基因簇中基因的表达。另一个基因组产生的蛋白质控制细胞自杀过程,这一过程又称作细胞凋亡(Apoptosis)。
细胞凋亡是一个必需的而非偶然的行动。它最初是在癌症研究中被发现的:身体处理癌变细胞的一个方法是命令它们自我毁灭。但是细胞凋亡在胚胎发育过程中也至关重要。有些发育过程如同用粘土进行雕塑,涉及到在从前什么也不存在的地方添加组织。其他过程像用石头进行雕塑,牵涉到把已经存在的组织琢掉。细胞凋亡可帮助你成为你所希望的那种人。
历史的经验
就如同细胞在发育过程中变得不需要就死亡一样,基因在进化过程中变得多余也会消亡。人类基因组对这一过程也显示了证据。各种零乱的基因称作假基因,它们初看好像真的基因,但是缺乏必需的附加技术条件,所以不能为细胞所转录。
假基因的存在是为什么很难精确定义人类基因组的基因数的一个原因,仅仅在DNA上找到像基因的序列并不够。一条独立的证据,例如对应的蛋白质,是需要得到确证。
一个很好的例子是嗅感。它依赖于巨大数量的不同的受体蛋白质,每一个受体又对应于一个不同种类的化学刺激。反过来,这些蛋白质的产生又要求巨大数量的基因。在人类基因组中,有900多条DNA乍一看好像是这些气味——受体蛋白的基因。但是,嗅感,虽然对人们非常重要,但绝不会像远古时候人类还不能爬上树而主要依赖视力时对人类祖先那么至关重要。DNA也反映了这一变迁。对这900多条“基因”的深入审查显示其中60%的基因破损,破损的方式使得不可能有蛋白质从中复制。
然而,即使破损的基因对生物学家也是有用的。很大量的DNA偶尔复制它们自己然后一代一代往下传,而对包含它们的生物没有任何明显的危害,这样的事实加上可转位元素就形成了一种化石记录,记载了一个物种的过去。现在还为时尚早......来自其他物种以进行有益比较的数据还太少.....但是,现在已经有可能开始审视基因组自己的历史。
真正的财源?
讲了这么多,它们到底有什么用呢?当然,主要希望的用处是医学——尤其是新药的开发。一个显而易见的途径是寻找这样的基因,它能产生与现存药物靶蛋白类似的蛋白质。这类基因称作貌似物,而且公众媒体引用了三个正在研究中的例子来阐述其应用前景。
一个是大脑中受体蛋白的基因,称作5-HT3B,它与5-羟色胺的神经递质相互作用。该神经递质影响人的情绪状态(抗抑郁药Prozac就是通过促进5-羟色胺的功效发挥作用的),而且这个新发现的受体可解释5-羟色胺功能的许多方面,这些方面在过去完全是神秘不可知的。5-HT3B基因就是一个经典的例子说明拥有整个人类基因组的价值。通过搜寻基因组,最终确定了与一个已知的5-羟色胺受体,即5-HT3B看起来相似的DNA的序列。
另一个医学意义重大的基因是负责蛋白质CysLT2的生成,CysLT2在通向肺的气管肌肉中很活跃,因此和哮喘的生成有关。它的发现不是通过与一个已知的人类基因类推得到的,而是比较人类基因组和老鼠的部分测序的基因组——在老鼠的基因组中有一个相似的基因已被发现。
第三个基因是负责BACE2蛋白质的生成。它是由于与淀粉样斑块沉积涉及到的一个基因相似而被发现,而淀粉样斑块沉积发生在患有老年痴呆症病人的大脑中。但是,这个基因位于染色体上与唐氏综合症有关的区域(当被复制时)。这非常有趣,因为唐氏综合症也具有淀粉样沉积的特征。
这三个基因的每一个都正在被制药公司研究,而且机会在于当每一个基因的序列被充分解读时很多的潜在靶蛋白将会出现。确实,发表的论文列举了常用药物靶点的18种进一步的貌似物,文章的作者在他们的研究过程中已经鉴定了这些貌似物的结构。目前,不到500种人类基因(或者他们的产物)已经知道是现存药物的进攻目标。即使人类基因组中只有10%证明为对成为好的药物靶点的蛋白质负责,那也将使我们目前的药物靶蛋白数目翻6番。
单核苷酸多态性SNP,它们的重要性很可能出于两方面原因。首先,它们可以用作路标。每一个SNP被假定具有一个独立的进化起源,因此如果两个人共享一个SNP,成功的机遇就是他们将享有同样版本的基因与那个SNP很相近。因而单核苷酸多态性可作为特殊版本基因的标记物,包括那些使人们易于罹染疾病的版本。单核苷酸多态性具有医学重要性的第二个原因是它们中的一些(即发现于基因内部的SNP)导致了基因的不同版本。
在这样的背景下,塞莱拉公司的一个发现特别令人感兴趣。公司的研究人员已经发现不足1%的单核苷酸多态性就能改变蛋白质的组成。这表明人类遗传的变异只是蛋白质之间几千个微小差异的结果。
冲过终点线
虽然塞莱拉的研究者们是富有尊严的科学家,但他们最终要对他们的股东作出交代。他们的序列并不需要没有实际意义的纯净,它只要正确就行——足够精确和足够详细以构成基因信息包裹的基础,而公司正从这增值的基因信息包裹中大赚其钱。对这样的要求,他们的序列毫无疑问是达到了。
因此,真正的赢家是科学。当文特尔博士和塞莱拉公司于1998年开始进行这场大胆的赌博时,公共研究计划作出的反应是显著加快了他们的研究进程。没有这个刺激,也许今天你就不可能读到这篇文章。
[The Economist,2001年2月14日]