生物学真正是21世纪科学。科学家在2001年宣布,在花费了10年和24亿英镑之后,一项国际性的努力已经在产生一幅人类基因组草图方面获得成功。现正在制订一项有关更大规模的倡议——创建人类蛋白质组组织(HUPO),以协调人类蛋白质组的破译——即充分认识人体每个蛋白质的结构和功能。

蛋白质领域中的这个与人类基因组计划相当的计划对在分子水平上认识疾病和加快药物的发现速度是至关重要的。没有它,人类基因组计划产生的一切数据就没有什么实际用途。虽然基因可能提供了生命的蓝图,但是根据这些信息产生行为并推动人体发挥功能的却是蛋白质。正如一位研究人员所说:“仅仅盯着脱氧核糖核酸,我们所了解的东西几乎为零。我们需要认识发动机本身而不是发动机的蓝图。”

人类蛋白质组计划的完成其复杂性起码是人类基因组计划的100倍。人类拥有大约3万个基因,但却被认为拥有起码是这一数字10倍的蛋白质。这些蛋白质能够以不同方式表达自己,具体情况要看它们是独自活动还是与其他蛋白质合作。

破译人类蛋白质组所带来的实际应用将十分了不起,以致每个星期都有一家新的蛋白质组技术公司出现。HUPO的宗旨就是协调这一不断兴旺发展的产生,它注重合作的必要性,而不是自身利益。如果它获得成功,我们在今后20年内可能会看到生物学新的伟大科学突破的到来。

我们为什么需要认识蛋白质才能了解人类基因组计划的意义?我们距离做到这一点有多么接近?

生命的物质

什么在先,是蛋白质还是基因?正如英格兰作家萨缪尔 · 巴特勒所说:“蛋白质就是基因制造另一个基因的方式;基因就是蛋白质制造另一个蛋白质的方式。”基因包含生命的原始资料,但没有蛋白质来提供这条生命的一个结构和发动机,基因怎么能复制和生存?同样道理,如果没有基因供一种生命形式传宗接代,拥有一个从蛋白质中构筑的生命形式又有什么用处呢?

人们曾经以为,基因是由蛋白质构成的。但在1953年,克里克和沃森弄清了脱氧核糖核酸的双螺旋结构以及如何携带遗传信息。同年,佩鲁茨和肯德鲁在经过20年的研究后宣布了两种蛋白质的三维结构:一种是血液中携带氧气的血红蛋白,另一种是肌肉中储存氧气的肌红蛋白。他们是利用X射线晶体学技术做到这一点的。

由于这些突破性成果,克里克和沃森获得了1962年的诺贝尔医学奖,佩鲁茨和肯德鲁获得了同年的诺贝尔化学奖。

在接下来的半个世纪里,科学家们构筑了一个由大约8000个人类蛋白质结构组成的知识基础,其中每个都代表了几个月或者几年的研究成果。

仅仅是开始

然而还有几十万个结构需要弄清。此外,了解蛋白质在三维上如何定向仅仅是这生命攸关的化合物的部分情况。我们要想充分利用人类基因组计划所产生的数据,就需要了解驱动我们身体的三维蛋白质结构如何从这些数据中产生。只有到那时,我们才能真正把握疾病的分子基础和治疗所需的药物。

在与克里克一起发现双螺旋结构之后,沃森一心致力于基因及蛋白质的研究,即他所说的“生命领域中像古埃及罗塞塔石碑发现一样具有揭示意义的事件”。由于猜测一种与脱氧核糖核酸(DNA)关系密切的分子——核糖核酸(RNA)对这一过程具有重要性,他与同时代的其他几位著名科学家一起成立了一个俱乐部,称为“RNA领带俱乐部”,只吸收了20名成员参加,每人负责构成蛋白质的氨基酸当中的一种。到1966年,俱乐部和另外一些科学家,尤其是克里克在知识上的孜孜以求,蛋白质如何从基因中产生得到了充分认识。

现在认为RNA的历史比基因和蛋白质还要悠久,它是参与蛋白质合成的关键材料。DNA由4个化学基——腺嘌呤(A)、鸟螵呤(G)、胞嘧啶(C)、胸腺嘧啶(T)——构成,而RNA则是由上述前3个化学基和称为尿嘧啶(U)的第4个构成。RNA的一种形式,称为信使核糖核酸(mRNA),能够进入细胞核(一种生命形式的DNA存在其中)并将自己制造成基因组任何部分的一个副本,然后离开细胞核并附着在一个核糖核蛋白体上。

在RNA中的4个化学字母当中的第3个字母的组合代表20个氨基酸之一。一个或更多的多肽包含组成一个蛋白体所需的所有氨基酸。但这些线性的排序仅仅标志着一个蛋白体的“初级结构”。蛋白体要想实现自己的功能和发挥作用,就必须采取其最终的三维形状。这种“折叠”可能会花费几微秒到几秒,这在生物化学世界里是很长时间。然后蛋白体被储存在内质网中供以后使用,被携带到戈尔吉体中以添加糖,或者被立即输送到其功能场所,不管是在细胞内还是在细胞外。

从表面上看,我们似乎知道有关基因如何被转变成蛋白质的一切。诚然,多亏了克里克和沃森等20世纪的伟大生物学家,我们对生命的罗塞塔石碑有了足够好的了解。但不幸的是,蛋白体折叠成其三维形状的方式继续跟科学家们捉迷藏。这一过程半个多世纪以来一直使生物学家们感到困惑。

生物学最大的问题

古希腊传说描述一个叫做普罗透斯的古老海神,蛋白质(普罗蒂恩)一词就是从其中派生的。他生活在埃及近海的法罗斯岛上,像其他海神一样,通晓过去、现在和未来。人们经常前来求助于他的预言,但他厌恶合作。来访者为了获得答案,不得不在他午睡时把他捆绑起来,获得了答案。

普罗透斯在古希腊被看作从中缔造了人类的所有物质的象征。今天,他的故事反映了生物学家们在寻求认识蛋白质的过程中所面临的核心问题。由于蛋白质储存着有关我们遥远过去的信息并且具有揭示我们未来健康状况详情的潜力,所以它们像普罗透斯一样,掌握着科学家们急于打开的有关我们生命的知识宝库的钥匙。但如果没有对人体几十万种蛋白质中的每一个是如何根据氨基酸的线性排序呈现为其最终形状的认识,基本上是无法获得这一知识的。

蛋白质的折叠问题已经有50多年历史。化学家莱纳斯 · 波林演绎出了氨基酸自我折叠的两种简单但惯常的方式,称为阿尔法螺旋和贝塔薄片,从而获得了1954年诺贝尔化学奖,。它们只是蛋白质结构的两个基本要素,仅仅标志着这一折叠过程的第一阶段。

为了达到其最后的造型——称为天然状态——一个蛋白体会多次地自我扭曲,以扭转、旋转、结状和环状将自己包裹成一团,然后逐渐以三维形状静止。这一形状将决定其功能,复杂的折叠中的裂缝与沟纹使它得以附着在其他分子上面。

蛋白质的折叠对生命具有重要的意义,被一些人称“遗传密码的下半部分”。无怪乎当它出毛病时,生命会受到威胁。最近的发现表明,一系列的彼此不相关的疾病都是由某些蛋白质的折叠失误所造成的,这些疾病包括早老性痴呆、囊肿性纤维化、遗传性肺气肿和许多癌症等。

在寻找治疗这些疾病的刺激下,科学家们正加紧努力,以求解决蛋白质折叠问题。但预测一条悬摆着的氨基酸链最终会呈现为何种三维形状绝非易事。它能够自我扭结几亿种方式,但它最终所呈现的却是一种精确的、事先决定好的形状,这一形状是通过千百万年的进化所选择的最佳形式。来自许多不同学科的科学家们正在利用不同方法,从X射线驱散到原子力显微镜来攻克这一课题——一个一维的排序如何决定着一个三维的形状?

解决这一问题的一项普通做法涉及高速电脑的使用。加利福尼亚大学的一个研究小组利用一台格雷T3D和T3E超级电脑在水中用了一微秒追踪一个蛋白体的折叠过程。听起来可能不像是很大的成就,但这是超级电脑花费了100天、动用了256台处理器,才弄清了在这一微妙时间里,所有该蛋白体的12000个原子与其周围环境之间的相互作用。

电脑的威力

这是在蛋白质折叠模拟方面向前迈出了一大步,但它仍然仅仅是管窥了这一折叠过程。蛋白质完成折叠所花费的时间从10微秒到几秒钟都有,因此全程追踪一个蛋白体直到天然状态,所耗用的电脑能量是惊人的。

需要功率更大的计算设备来模拟蛋白体折叠过程。1999年IBM公司宣布开发“蓝色基因”——一台每秒钟能够进行10的24次方运算的新电脑。这台电脑到2004年制成时将被用于解决蛋白体折叠问题。

如果“蓝色基因”或任何其他科学工具能够帮助解决这一问题,则它对医学的贡献是巨大的。不必再花费许多年时间试验新的药物以使之完善,而是将有可能在一台电脑上对其进行虚拟设计,生物化学家们将能够认识和了解与病毒作斗争的抗体的形状,并就其未来的健康状况做出预测。

从蛋白质中获利

2001年10月7日,大约100位科学家在弗吉尼亚州里斯堡开会讨论制订一项与人类基因组计划相当的蛋白质组破译计划,会议组织者——人类蛋白质组组织(HUPO)第一任主席密歇根大学的哈纳什告诫参与会议的私营公司与公立机构在破译人类蛋白质过程中要保持耐心:“HUPO知道循序渐进是重要的。”

这种谨慎的调子并不出人意料。据估计,与从人类基因组中所获得的信息相比,人类蛋白质组中所包含的信息是其100倍。从概念上讲,人类基因组计划是相当直截了当的,它所涉及的是从头到尾读出组成人类基因组的30亿个化学字母。而一项人类蛋白质组工程则会复杂得多,它将涉及建立有关人体的几十万个蛋白体当中每一个的氨基酸排序、行为和功能的数据库。

人类蛋白质组破译计划并非第一次提出。1980年美国曾提出一项启动人类蛋白质索引(HPI)计划,但它输给了1985年倡议的人类基因组计划。既然人类基因组计划的初步草案已经完成,科学家们一致认为自己现在牵肠挂肚的问题是“下一步怎么走?”尽管一项蛋白质组计划将会带来的研究与合作的规模令人难以承受,但是人们的普遍共识是,它的时机已经到来。

蛋白体数据库

自从佩鲁茨和肯德鲁破译血红蛋白和肌红蛋白的结构以来,已经弄清了大约8000个其他蛋白体。但还有千万个结构尚未查明。确定一个蛋白体的基本形式在佩鲁茨和肯德鲁的时代花费了许多年,而现在,一位生物化学家给现有的各种蛋白体数据库增添了一个结构却仅用了几个月,有时是几天。然而努力通常集中在被认为具有生物或医学价值的蛋白体上面,“令人烦闷的”蛋白体往往被撇在一边。

由于认识到进行有组织的努力和建立一个比较全面的蛋白体中央数据库的必要性,2000年底在美国启动了一项政府资助的公共计划。在国家普通医学研究院(NIGMS)协调下,耗资1.1亿英镑的蛋白质结构计划(PSI)在创建蛋白质结构和功能的充分库存方面采取了一项新颖的做法。PSI研究人员不是去分辨单一的蛋白质的结构,而是正在辨别蛋白质结构家族,通过按照蛋白质的“折叠”来将蛋白质分组。大多数生物学家都认为,大概有不到一万种不同的“折叠”类型,几乎所有的蛋白体都将属于这些折叠家族。该计划定于2010年完成。

令人欣慰的是我们看到了蛋白质组学正吸引着公共资助。关于蛋白质的信息像有关我们基因的信息一样,应当在获得后立刻免费提供,而公共投入乃是确保这一点的最佳途径。尽管二维凝胶电泳和质谱分析法等蛋白质组技术达到了精湛并实现了自动化,但是我们要想真正认识成千上万个蛋白体如何同一时刻在细胞的各个部门中合作的复杂性,却需要更加先进的技术。这些技术通过私营部门的竞争优势而产生的可能性最大。

由于认识到未来的挑战和成功将会带来商机。生物药品公司认识到,蛋白质组科学同基因组科学相比,与疾病过程的距离要近得多,它是发现新的神奇药物的钥匙。一位市场评论家说:“在蛋白质组技术市场开发的早期阶段,没有明显的赢家。

人类蛋白质组计划要想成功,必须有耐心和做好规划。在1985年构思人类基因组计划后,一项试验工作花了6年时间方才开始,又花了9年时间才全面展开。蛋白质组技术必须经历同样谨慎筹划的过程。只有到那时,生物学下一项重大的科学倡议才有机会成功。