尽管人类基因组计划正受到媒体的广泛关注,但有些企业家已经将目光转向下一个热点——蛋白质的三维结构;研究的热点是快速开发基因药物——

4

  图为克林顿总统在庆祝“基因工作草图”绘制完成时发表讲话

  吉 · 诺利斯现在指导普“结构基因组学”(Structural GenomiXSGX)公司的商业运作。SGX成立一年来,已筹集近4000万美元的风险资金,诺利斯说:“鉴于基因组产业的下一个高潮将是蛋自质的三维结构,所以人们趋之若鹜地给我们足够多的资金。几个大药厂很想购买SGX的产品:即具有三维构像的蛋白质。这些带有环状和卷曲结构的蛋白质结构,非常奇妙,(科学》和《自然》等科技期刊都有文章谈到此种结构。现在我们已拥有大量蛋白质的三维结构。”

  分子医学

  SGK的目标是可以自动获得蛋白质结构信息,并且将产品出售给大的制药厂。这是带有明显预见性的商业计划。

  诺利斯相信:蛋白质的结构的大量获得是DNA序列的必然产物。毕竟10万个左右的基因仅仅是合成蛋白质的基础,而各种各样的蛋白质分子则在体内行使各自的重要功能。大多数蛋白质的功能目前仍不清楚。因此,当前急需的工作是弄清楚蛋白质到底起什么作用以及它们如何作用的。没有比从蛋白质的三雏形态着手研究更好的了。但是直到现在解决这些蛋白质的结构仍然是一项非常棘手的难题。

  自动化分析不仅对基础科学,而且对竞争激烈的新药开发产业,均会有很大的收获。随着获得蛋白质结构的数量的急剧增多,工作重点应转向如何合成药物上来。

  今天,绝大多数药物很大程度上还是通过漫无目的的方法发现的。世界顶级的药业公司已投资数十亿美元用于购置自动化仪器,从而可以在一周内合成、检测数万种化合物,以发现几种对蛋白质有特异作用的成分(大多数药物真正投入使用主要归因于蛋白质的活化或失活)。

  结构基因组学认为可以很容易地改变传统的药物开发方法,首先应清楚蛋白质的结构,并根据其结构重新进行新药设计,该过程称为“合理药物设计”或“结构药物设计"。不是凭运气,而是从蛋白质的三维结构人手,化学家根据蛋白质形态结构的具体参数合成完全相符化合物。从理论上讲,这种药物应该是非常特异的,无副作用,否则该化合物将一钱不值。

  大胆目标

  尽管根据结构设计药物,在医学上已经取得一些突破,例如HIV蛋白酶抑制剂(包括Vertex公司生产的Agenerase)和葛兰素公司生产的用于治疗流感的Relenza,但从此以后,类似的突破便迅速减少。制药公司大多数还是依赖大规模的筛选方式,部分原因是蛋白质的结构非常难搞清楚。

  蛋白质结构的大量获得可能会彻底改变这种状况。如今,即使是最大的制药公司,一年也只能获得20种新蛋白质结构。到2003年,SGX计划每周就可以搞清楚许多蛋白质结构。这是一个难以置信的大胆计划,但是SGX的董事长哈利斯非常自信。他说:“我深知,如果我们不这样做的话,其他人也会这样做,因为这些工作必须有人来完成。这是很自然的事。”事实上,哈利斯已经具备了这种能力。尽管看似离目标只有一步之遥,但是要达到这一目标还困难重重。“基因组学研究所”是由Novartis研究基金资助的一个非盈利的机构,并与瑞士的一家大型制药厂Novartis关系密切。该所的科学家们将要成立一个全新的Syrrx公司,计划借助于自动化和机器人技术在今后几年里,以不可思议的速度预测蛋白质的结构。

  其他的竞争者包括英国剑桥的Astex和美国普林斯顿的“结构功能基因组学”公司。将来还会有更多的公司参与竞争。“竞争将会更加激烈,”AstexCEO哈林 · 邹替说。

  不仅私立研究结构对此感兴趣,而美国国立卫生研究院(NIH)最近也启动了蛋白质结构原创性研究”计划,打算在头5年里投资1. 25亿美元。加拿大、德国和日本等国政府也计划启动重要的结构基因组学的研究,所有经费几乎与耗资数十亿美元的人类基因组计划相当。NIH希望到2010年独自弄清楚1万种蛋白质的结构。

  这些启动蛋白质结构研究的公司更是雄心勃勃。到2003年,Syrrx计划一年就可弄清楚约1000种蛋白质的结构。按计划,SGX每年将要完成1350种蛋白质结构。此后,每年获得蛋白质结构的数量还会增加。尽管这些数字非常惊人,但在开始的几年里,如果蛋白质的三维结构一直没有搞清楚的话,那么就不得不放慢研究的进度。从长远的角度上来看,从1957年第一个蛋白质的结构(肌肉中的肌红蛋白)被弄清楚以来,到现在已近半个世纪,而国际“蛋白质数据库”里却只有大约2000种蛋白质结构。

  确实,有些科学家根据以往的经验认为,SGXSyrrx要想实现各自的承诺几乎是天方夜谭。这是绝对不切合实际的,加州大学伊文分校的著名结构生物学家阿莱科斯 · 麦克佛森说。“实现这一目标不仅仅是技术问题,而且在相当长的一段时间内也难以实现。我不清楚他们会从哪里得到这么多的数据。”

  巨大挑战

  麦克佛森的疑虑是有道理的。大量蛋白质结构的获得将是一件比DNA测序更为棘手的事。DNA是由四种化学符号组成的一条简单的线性密码,而蛋白质则是由20种不同的氨基酸组成,并且折叠成复杂的结构,由许多未知的片层和环状结构排列组成。尽管科学家借助计算机进行了长期的试验,试图直接从DNA序列预测蛋白质的结构,但是他们还有很长的路要走,即使最简单的蛋白质亦是如此。

  相反,SyrrxSGX将试图采用最为常用的经典方法,如X线晶体衍射技术进行自动检测。应用这种方法,首先纯化蛋白,然后使蛋白质结晶。再用强射线射入晶体,探测射线散射的方式,最后推测在晶体状态下蛋白质的原子排列模式。

  这一过程听起来简单易行,其实不然。例如,许多蛋白质很难进行分离,并且结晶过程本身也无规律可循。温度、酸碱度和盐离子强度也必须进行仔细调整,使微细的结晶从溶液中析出。最后,将X线数据转换成蛋白质的三维空间模型的过程通常是一件“令人倍感苦恼的事情”,加州大学圣 · 迭戈分校的晶体学家林田谔科说。“目前有许多蛋白质的三维结构的数据有待于人们处理、鉴定,他说。而且是很费时的。

  过去,晶体学家花很多时间,有时是几年时间执著地对一种蛋白质的结构进行探索。由于困难重重,晶体学享有很高的盛誉,因为作为一门职业,只有那些最专注的和受过严格培养的科学家才能掌握这门技术。

  SGX和竞争对手正以数以百万美元的资金打赌:他们能够将这种昂贵的(每种蛋白质约20万美元)!乏味的产业转变为一种廉价的快速的可靠的产业。

  “这完全能够做到,”哈利斯说。他过去10年一直在英国葛兰素制药公司和美国加州一家名叫“Sequana疗法”的生物技术公司从事自动化科学研究。哈利斯认为生产效率可以提高“一个或两个数量级——也就是说比现在提高100倍。

  投入生产

  SGX的共同发起人、哥伦比亚大学的生物物理学家巴里 · 洪尼戈和维恩 · 亨利克森创造了“结构基因组学"这一术语。亨利克森是一位著名的晶体学家,他独创性地建立了一种方法,能够解决那些非常难溶解的蛋白质。洪尼戈是一位计算机专家,他编写了大量的应用广泛的程序,用于分析和预测蛋白质结构。

  在技术方面,至今还没有任何一项技术能够使结构基因组学变得切实可行。但把更详细的DNA序列数据、高强度的X线和高速计算机结合起来,从而加快了整个计划的进程,并且使其结构更加准确可靠。洪尼戈说,到20世纪90年代后期,他与亨利克森一致认为:是对蛋白质领域联合发起进攻的时候了”。

  晶体产业化的理念还激发了瑞 · 史蒂文的想象力,他是一位化学家,发明了一种全新的“显微结晶”系统,可以从微滴甚至比通常使用的Syrrx系统的关键成分小数百倍的物质中获得蛋白质结晶。在Novartis研究所里,史蒂文与一个工程师研究小组一道热火朝天地大干着,他们已经建了一个标准系统,用于全自动X线晶体衍射。各种玻璃器皿、塑料试管和电器,包括结晶用的机器人,就像变戏法似的每天可以处理13. 9万份标本,以及上百万幅不同时间间隔的晶体形成”图像。“如果一次只测定一种蛋白,那么你无法完成这么大的工作量,史蒂文说。

  史蒂文承认,“开始我们可能失败的次数非常高。”2002年,即Syrrx大规模生产的第一年,预计只有不到2%的蛋白质三维结构被弄清楚。由于该公司计划获得6万种蛋白质,这意味着2002年将搞清1000多种蛋白质的结构。

  按Syrrx公司奈得 · 戴维的话说,每年可以搞清楚1000种新的蛋白质结构,以基因组学的研究速度开发药物。”SGX正在建立蛋白质的结构数据库,并打算向制药公司出售,Syrrx利用计算机合理设计药物,开发出先进药物。为了做到这一点,必须从现有的化学物质文库里,模拟完全相符的蛋白质结构。“我们一天能够排除20万种化合物(对某种蛋白质而言),戴维说。“这主要是为了合成药物,并能加快药物的开发。”这仅仅是愿望。但近期内这两家新的制药公司进行竞争,看谁获得的蛋白质结构多。商业上的成功是属于获得蛋白质结构最早、最多的公司。“我们有能力并占有先机,”哈利斯说,他的公司在最初的半年里已发现了十多个蛋白质的结构。“请相信我,我们将竭尽全力地进行开发。

  大势所趋

  最先启动的公司有一定的优势,而政府支持的一些研究计划打算收集大量众所周知的信息,以帮助所有研究人员(包括公立的和私立的)有机会使用蛋白质结构。在4月中旬,英国的一家大型的生物医学研究机构“Wellcome托拉斯,在英国的剑桥组织召开了由公立的科学家和科研机构参加的会议,制订了规则,以协调全世界在发现全部蛋白质结构时所做的努力。NH希望1万种经过慎重挑选出的蛋白质,能够约有1000种不同的蛋白质折叠,即所有蛋白质常见的环状结构和扭曲等基本类型。

  一旦蛋白质文库里有全部蛋白质折叠,科学家就能够直接根据DNA的序列,利用计算机比较准确地预测出剩余的9万种左右的人类蛋白质的结构。人类基因组计划DNA的原始数据所提供的信息是至关重要的。“在过去,我们是在发现一种蛋白质的功能后,才清楚其结构的,”NH的约翰 · 诺维尔说。现在,我们是在发现一种结构后,再去探索这种蛋白质有什么功能。”

  在公立和私立的研究机构共同进行结构基因组学研究时,有人担心会发生不正当的竞争。一个明显的例子是:人类基因组计划塞莱拉基因组学"公司之间的竞争,似乎二者势均力敌,完成了人类:DNA的全部序列。企图联手合作的打算被搁浅,因为塞莱拉拒绝与公立机构共享数据。

  结构基因组学是否还会发生类似的情况呢?我怀疑会发生一些摩擦,主管蛋白质数据库的菲尔 · 鲍恩说。公开数据将可能再一次引起争端。NH(及其国际合作伙伴)在剑桥会议上同意尽快将信息公布于众。

  SGX的负责人说,他们不得不通过保密和专利来保护他们的蛋白质结构。但史蒂文说Syrrx为了防止争端,正打算采取特殊措施将大量的数据保存在蛋白质数据库里。“我们从塞莱拉和人类基因组计划的争端中汲取了很多经验教训,史蒂文说。我们不打算再犯类似的错误,数据应当共享。”

  这并不是说Syrrx将全部数据公布于世。该公司;仍将秘密保持一定数量的对药物开发至关重要的蛋白质的详细资料,同时将借助于机器人的设计申请专利。但是史蒂文已经答应Syrrx将允许政府有偿使用这些数据。他坚信:我们与公立组织就像一条双行线。”不管公立与私立机构之间发生冲突是否能够避免,但显而易见,结构基因组学以不可阻挡之势向前发展。对晶体学家而言,这意味着将会发生巨大的变化。林田博科已在这一寂寞的领城中干了30年,并成为该领域的著名人士,他说:自动化系统将以不可阻挡之势,把墨守成规者碾于车轮之下。这与工业革命时期的情况非常相似。”林田谔克并不打算违背这一原则。事实上,他已经加入了由NH资助的研究小组,从事于结构基因组学的研究。正如林田谔克所言,大量蛋白质结构的获得是当今生物学由基础科学快速向“工程学科”转化的必由之路。研究热点不仅包括蛋白质类的药物,还包括优化的诊断技术,以及可能逆转出生缺陷等方面。“如果你对生物学已足够了解的话,你有很多工作要做,林田谔克说。

  [Technology Review200078]