对一种植物全基因组的顺序测定现已完成,这对认识开花植物的进化和作物的遗传学,提供了极珍贵的信息——

开花植物是晚近进化史上最为成功的。它出现在两亿年前,现在大约已有250000种之多,是陆地、水域和港湾生态系统的主力军,几乎遍布于地球的每个角落。人类依靠开花植物提供热量,必需氨基酸、维生素和数以千计的化学物质和药品。这些植物的形式和化学多样性令人吃惊。但已知它们的分异时间较近,因此一个种内的大多数基因可望在其他所有的种内出现相似者。玫瑰有别于野百合,棕榈树不同于李树,可由基因调节或蛋白质活性的改变来解释。拟南芥(Arabidopsis thaliana)是一种很小的植物,有5条染色体,其中最后3条的序列,刊于2000年12月的《自然》杂志;另外两条序列,一年前就公布了。这将使所有植物生物学家直接受益。

如今所实现的目标是1996年确定的。拟南芥联合测序小组测出了这种植物核基因组内1.187亿个碱基对的序列。由于技术的进步,这是迄今为止所获得的最精确的真核细胞的基因组序列。另外被测定序列的还有酿酒酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)和黑腹果蝇(Drosophila melanogaste)。拟南芥的序列中也是在富含基因片段的染色体内“缺口”(空白)最少的。5个着丝粒的基本序列也已获得,着丝粒是细胞分裂期间染色体配对和运动所必需的基因贫乏的结构DNA。

也许会有人认为,对于研究工作而言,作物会比拟南芥这种小草更有用途。岂不知作物本身较大,基因组往往也大,并难于操作。拟南芥被迅速地用作典型的实验开花植物是基于这样一种理由,认为它的每个基因仅有一个复本,重复DNA少于10%。然而,令人吃惊的是,测定了拟南芥的全部基因组序列后发现,它的多余基因不少、被识别的基因约有26000个,但基因组至少有70%是重复的。不同的基因总共不超过15000个;而且随着研究人员对重复基因的进一步认识,这个数字还会缩小。

在其他开花植物中,导致基因重复有两个因素:多倍性化(全套染色体重复)和局部基因重复(染色体内的个别基因重复)。在拟南芥的进化史上,两种过程都出现过。两次多倍性化发生的时间分别是1.8亿年前和1.12亿年前,这可以解释在一条或多条染色体上有重复的整套基因这种现象。而重复基因中局部重复约占17%。基因的丢失和染色体的重组,造成了如今的拟南芥仅有较小的基因组和5条染色体。相比之下,它的各种芸苔属亲缘作物——甘蓝和花椰菜等在约1900万~1200万年前虽和拟南芥具有同一个祖先,但由于进一步的多倍性化,这些作物的基因组增大了。

拟南芥的基因是致密的,一般包含几个编码区(外显子),每个编码区由约250个碱基对组成,中间被短的非编码区(内含子)隔断。基因之间靠得很近,相距约4.6个千碱基,说明它们的调节区也很短。相反,许多动物基因,包含几十个外显子,并有10个千碱基或更大的调节区。拟南芥的基因小,有助于耐受广泛的基因组的重组;基因越小,越不易破坏。具有更大基因组的植物,也有致密基因的,但这些植物中基因之间的距离要比拟南芥大一至两个数量级。

虽有基因的重复很明显,但遗传学家们还是识别了数千个突变基因(在玉米、西红柿、拟南芥和小麦中)在植物中造成了显而易见的缺点。但这些缺点只在重复基因中之一上出现。如果重复基因具有相同的功能,那么可以预料,发生突变的那个基因将由另一个补偿。因此这些物种内的许多重复基因有着独特的作用。调节区内的突变能导致重复基因在发育过程或在应答环境的变化时会有不同的表述。编码区中的突变,能产生微有变化的蛋白质。从基因重复提供的原料开始,开花植物的进化依靠这两种突变,产生新的、具有种的特异性的植物结构和化学。

拟南芥的外显子,含44%的鸟苷和胞嘧啶碱基,比内含子内这两种碱基的含量(32%)多。这是植物基因的一个显著特征。当基因进行转录时,首先形成一种信使RNA的前体,然后把内含子除去,产生功能性信使RNA。碱基组成的差异,是由于每日和季节性的温度波动影响了上述过程的精确度。

拟南芥的不同基因的数量(不足15000个),只比预计黑腹果蝇的13601个稍多,比线虫的18424个要少。在这些动物种内,有拟南芥多数基因的相应成份,说明了植物和动物具有共同祖先。在所有这三种基因组内,基因数类似于一部通用词典的单词数;以不同方式把这些单词连到一起,就可写出大量的书。因此生命的多样性就在一定程度上取决于基因是如何连结进入各自的发展进化路线的。在植物和动物16亿年的分歧过程中,保守的生物化学成份,例如转录因子和蛋白质激酶等,发生实质性的分歧。

例如,在拟南芥中有几类基因特别丰富。有许多基因编码输送水份的管道;基因组编码的肽激素运输器要比动物基因组中多10倍。据推测受体样的蛋白质激酶有上百种;但动物信号转导的许多成分却并不存在。在拟南芥中,有420多种基因涉及细胞壁的合成和修饰,这在动物中是不存在的。核基因的约25%包含信号序列,是指导编码蛋白质形成叶绿体或线粒体等细胞器的标示基因;可在动物的细胞核内,含有信号序列的蛋白质以形成线粒体的不足5%。这一点不足为奇,因为植物细胞器之间进行的代谢活动比动物和真菌的细胞器要多得多。

有机和无机世界之间的这些代谢交易,使动物和真菌的生命成为可能。植物利用太阳能,转化二氧化碳为糖、碳水化合物和脂肪。它们还原硝酸盐和硫酸盐离子,合成氨基酸。它们生产每种维生素和酶的辅助因子,并且是浓集和制造动物饮食中的有效磷、铁、锌、镁、钾和其他矿物营养的主渠道。这些代谢能力是植物和光合细菌共有的,而拟南芥和蓝细菌集胞菌(Synechocystis)的确有许多相同的基因。所以并不奇怪,在拟南芥中,代谢和生物合成基因要比其他现有真核细胞的基因组多,至少占基因组的10%。

开花植物合成的次级化合物,估计不少于10万种,这些是在动物细胞中见不到的,对植物的生命也不是必需的,但许多具有种或属的特异性。化学上的多样性给我们提供了染料、鲜味香料以及治疗药物。虽然没有一种开花植物能合成所有的多得惊人的不同产物,但在拟南芥的基因中却包括了合成次级产物原型前体的信息。植物种之间的化学差异,主要是由对这些核心分子的修饰来反映的。

在对拟南芥基因组已有认识的基础上,今后的任务是研究其个别蛋白质的作用。而对其他开花植物的研究将确定那些负责种间的结构和生化多样性的基因;以及导致这种多样性的基因的进化途径。美国国家科学基金会,在最初3年内向植物基因组奖励项目投资1.5亿美元,并宣布了到2010年完成的“功能基因组计划”(Program in functional Genomes)。在欧洲和亚洲也有类似的巨额投资。所有这一切,必将加速我们认识植物界这一极其成功的进化分支的进程。

[Nature,2000年12月14日]