生命物质的主要成分是可视作生物机构的蛋白质。它是由氨基酸连接构成的长链分子。蛋白质由20种具有诸如酸性、碱性、疏水性等各种化学特性的不同的氨基酸组成。这些氨基酸沿长链的排列顺序,决定了蛋白质的物理学与生物学特性,及调控生命物质过程的酶与激素的活性。

生物体是怎样产生的?换句话说,正确的氨基酸链是如何在病毒,细菌、植物或动物等生物体发育过程中以正确时间及正确位置与其他氨基酸链相关联的答案是关键在于DNA。作为基因的载体,DNA携带着通常称为A,T,G与C的四种核苷酸或碱基排列顺序所必需的信息。

1953年间,J. 华生(Jim Watson)与克里克(Francis Criek)在剑桥大学物理学实验室的麦克斯 · 佩鲁兹医学研究委员会(MRC)研究室从事了有关研究。该小组成为分子生物学实验室的核心,并发现了DNA的双螺旋结构。他们证明,构成DNA分子的两条链朝相反方向延伸形成了一种螺旋构型,且一条链上的各核苷酸与另一条链上的核苷酸互补。它们结合成A-T(或T-A),G-C(或C-G)型,即为众所周知的碱基配对。这一发现是生物学领域的一项重大突破。同时亦可解释遗传物质是怎样携带与复制并由上一代传递给下一代的。

一个重要问题是遗传密码——即两种序列间的通讯。克利克(Crick)在一种极精致的实验中证明,由其他实验室从事的具独创性的实验所“破译”的遗传密码实质上是一种三联体密码。上述四种化学字母能组成64种不同的三联体,且其中大多数三联体代表着二十种氨基酸中的任何一种。大多数氨基酸则由一个以上的三联体来代表。

故氨基酸在蛋白质中的顺序及核苷酸在DNA中的顺序,在生物学方面起着极为重要的作用。首先,我对如何获得氨基酸在蛋白质中顺序的问题,特别是对探索可达到目标的方法很感兴趣。那时,我正与I. 哈里斯(Ieuan Harris)和L · 斯密斯(Leslie Smith)等同事一起在剑桥大学生化系工作过。

我们通过使用一些可在精确位点上打开氨基酸链的酶而把蛋白质分解为较短片段的方法,分析了氨基酸的顺序。我们把长顺序分解为较短的顺序,并用各种方法将它们分离。一种称为电泳的方法,可根据它们分子量的大小及其携带的电荷大小进行分离。随后,我们将这些片段分解为更短的片段,并重复这一程序直至获得单个氨基酸时为止。接着,我们从事反向工作以推断其原来顺序。尽管这是相当费力的,但我们仍坚持从事了这项工作,并以这种途径获得了胰岛素完整的氨基酸顺序。幸好胰岛素是一种仅具有约50个氨基酸的小分子物质。

我们在1962年迁至医学研究委员会新建的分子生物学实验室四楼。我们先后与B. 哈特莱(Brian Hartley)及C. 米尔斯坦(Cesar Milstein)合作。我们通常研究的对象是蛋白质,并由此使我们的研究室成为蛋白质化学研究室。后期又改名为蛋白质与核酸化学研究室。

我们最初认为测定核酸的核苷酸顺序是很困难的。实验室在研究初期就无纯化的小分子核酸可供使用。此外,由于一个核酸分子仅具有四种不同的核苷酸而使核酸顺序的测定工作显得更令人单调无味,故我们始终使用大量分子量相同的片段从事研究。这是在蛋白质顺序测定中所遇到过的问题,但在核酸顺序测定中则显得更为严重。另一方面,我们在测定蛋白质顺序时,曾于程序结束阶段为确定单个氨基酸和如何大量生产各种氨基酸而花费了大量的时间。对于核酸来说,其最后阶段较易达到——即要选定的仅四种核苷酸而不是二十种氨基酸。最终,我们实际上完全排除了核酸的最后阶段。

最先测定顺序的核酸不是DNA,而是氨基酸一一丙氨酸的转移RNA。这种“转接分子”使该氨基酸——丙氨酸与其在RNA上的三联体密码相配。该分子具有分子量较小的优点。上述研究是由R. 豪利(Robert Holley)在康奈尔大学而不是在分子生物学实验室里进行的。他使用了与蛋白质顺序测定相似的方法。我们认为,上述方法太费力,需要某些较简便的方法。于是,我们发明了一种能在层析纸上分离经分解核酸获得的较小分子。结果,由两个或三个核苷酸构成的小分子片段以二维模型在层析纸上占据了独特位置。它能推断其组成情况,且有时可推断处于上述模型中特定位置的那些片段的核苷酸实际顺序。这将避免从事这些核苷酸最后化学分析的需要。该方法用于核苷酸研究只是因核苷酸种类很少。一对核苷酸仅能形成16(4×4)个不同组合,而不是氨基酸的400(20×20)个组分。

我们需要有想象诸片段在层析纸上的位置和测定显示于各位置的大量的各种分子的能力。各核苷酸皆具有一个可用放射性同位素32磷标记容易检测的磷原子。目前,几乎所有用于测定核酸顺序的方法皆使用同位素标记。

在开始考虑测定DNA而不是RNA的顺序时,我们认为,由于DNA的分子过大故其测定可能十分困难。在随后的研究中,可利用的最小DNA分子来自病毒且具有约5000个核苷酸。我们还遇到第二个问题。RNA的顺序测定关键在于一种酶——即核糖核酸酶T1,该酶在特别是鸟嘌呤处打开碱基顺序。这种酶可在平均仅为四个碱基的长度和右侧末端始终具有鸟嘌呤的基础上,把较长的碱基顺序切成较短的片段。但我们缺乏以相似方式切开DNA的酶。

开始时,我们仿效已发明用于RNA的战略来处理DNA。但这些方法的速度以较慢且令人厌烦。我们必须有一种从事DNA庞大碱基顺序研究的新方法。我们采用的上述方法无法由完整的链开始并把它们分解成片段,但可代之以生长片段。由于DNA分子两条链的每条皆为另一条的模板,故我们能把该方法用于DNA。一条链上的各核苷酸与另一条链上相对的核苷酸互补。一种称为DNA聚合酶的酶可从DNA的一条单链开始,产生该单链的一种互补样板。

对于我们的DNA实验,则由一个环形单链开始。与其结合的是起引物作用并在实验初期提供该酶的上述单链较短长度的互补样板。该聚合酶并未由上述途径增加四种核苷酸含量。而是代之以利用它们的高能三磷酸酯。该酶裂解其中两种磷酸酯,为留作生长链的核苷酸结合提供能量。我们用32磷标记核苷酸三磷酸酯,以获得较短长度的放射性DNA。

在某些初步实验中,我们保持较低的单一三磷酸核苷酸浓度。当该酶将特定的核苷酸作用完了时则将中止,各新链终止的位置取决于低浓度三磷酸酯的种类。这揭示了在DNA顺序测定方面的全新途径。在利用DNA聚合酶以获得所有终止于特定核苷酸的诸顺序混合物的过程中,使用了所有四种低浓度的三磷酸核苷酸。在各个实验中,我们经比较该酶产生的所有链的长度的方法,获悉了每个核苷酸的相应位置。这种信息使我们能测定上述互补样板的完整顺序。

为获得这种信息,我们需要有一种分级分离的方法,即简单地依据其长度分离具有不同长度的链。我们发现了一种比在任何时候所可能想象的要有效得多的方法。这就是在丙烯酰胺凝胶上进行的电泳。短链移动的速度比长链更迅速,且它们皆显示以精确的长度次序排列。尽管各链长度仅相差一个核苷酸,但它们显然可与其毗邻链相分离。这是一项极侥幸的突破。我们至今仍无法真正了解其过程。

我们经上述方法发明了一种目前最好的方法。我们发现了一种把该酶插入最末核苷酸并随后中止,而不是经该酶跳过四种核苷酸之一随后中止的生化特技。在两个实例中,链中未增添任何东西。在该新方法中,我们使用了双脱氧三磷酸核苷酸及四种三磷酸核苷酸(NTP),DNA聚合酶可把上述分子结合进生长链,但一旦这些链与其结合,则将无法进一步生长。故倘单一双脱氧NTP——例如T(双脱氧TTP)——与四种正常NTP一起参试,则经DNA聚合酶合成的所有链将在双脱氧T位置中止。此外,还可依次使用各种双脱氧NTP进行上述实验。来自所有四次实验的链混合物在丙烯酰胺凝胶上一起分离。随后的自动射线照相可显示所有链的位置,并直接读出自动射线照相的DNA顺序。

上述方法目前为绝大多数研究人员所采用。但在我们发明上述新方法前不久的一个时期里,另一种分解而不是复制DNA的方法看来极有前途,这种由哈佛大学的W. 吉尔伯特(Walter Gilbert)等发明的方法亦广泛为研究人员所采用。1980年,我与Gilbert因以事核酸顺序测定研究而分享诺贝尔化学奖。

我们在研究初期使用了由作引物的限制酶产生的DNI片段。鉴于我们的方法较好且较灵敏,故目前上述片段的制备已成为一种限制因素。对于分子极大的DNA,将难以获得纯净片段。再则,我们面临分级分离的问题——即生产纯净分子制剂。这一问题几乎始终限制了顺序测定方法的发展。但还有一种完全有效的新方法可利用。这种细胞内重组DNA的克隆繁殖法,是分级分离的最终方法。研究人员将能获得完全纯净的分子,且其数量原则上可大到所期望的程度。

继双脱氧法之后的克隆繁殖法,是目前测定大分子DNA顺序的最快速的方法。其顺序测定能以每天数千个核苷酸的速率进行。而在十年前倘我们能每年测定50个核苷酸的顺序,就已属相当幸运了。

目前已在分子生物学实验室及其他实验室中推断了许多完整DNA的顺序。这些顺序贮存于拥有总计数百万核苷酸顺序的中心数据库内。迄今所作顺序测定的最大的单DNA分子为约含172,000个核苷酸的埃 - 巴二氏病毒。分子生物学实验室的B. 巴莱尔(Bart Barrell)及其研究小组测定了,上述病毒DNA的顺序。

人们可能认为上述分子看上去很大,但考虑到人类基因组具有数十亿个核苷酸则不足为奇了。令人惊异的是,正在进行与上述相同的顺序测定计划。

[New Scientist 1987年5月21日]

——————

* F. 桑格(Fred Sanger)由于在生物化学领域中作出了重要贡献,于1958年和1880年两度获诺贝尔化学奖。