对基因组测序的一项高投入风险

发布时间：99年09月25日

Eliot Marshall 编译李伟

Celera公司对人类和其他几种复杂生物体的基因组测序的商业冒险，震动了国际人类基因组计划界；但是它能够赚钱吗？

在美国华盛顿北郊的一栋不起眼的办公楼里，一家10个月前刚搬来的Celera Genomics公司，准备成为世界上最大的基因组数据生产商。今年，它计划开始以一种真正的工业化规模生产出原初生物学数据并向世界销售。

尽管Celera公司试图将他们得到的基本生物学知识转化为一种商业，公司总裁克雷格·文特尔（J. Craig Venter）承诺他将“公开”这项3亿美元以上的投资的第一项也是最重要的一项产品——人类基因组的DNA序列。非盈利性的国际性的对人类基因组（开始已有10年）和其他至少3种复杂生物体的测序计划将在18个月内完成。Celera公司如何能够实现其承诺并赚钱呢？

文特尔承认他听到这个问题很多次了。商人们询问Celera公司的利润从哪来，而满腹狐疑的研究人员则询问商业计划与数据的学术共享是否矛盾。文特尔毫不客气地称那些疑虑者全都“不明就里”。在最近的一次谈话中，他说Celera公司必须在学术和商业两个世界里获得成功：“科学界认为这只是一个商业计划，而商业界则认为它只是一个科学计划。事实是，它都是。”文特尔解释说：“商业模式的成功完全取决于我们做的是绝对世界水准的科学，而科学模式的成功则完全取决于它是世界水准的商业。”按照他的观点，他正在实现生物学的“根本性的变化”，这是一种享有“两个世界之最佳者”——私有投资和学术自由的途径。结果，他将比大多数公司或学术性实验室工作得更加开放，因为科学和经费都将公开以便研究和监督：“每一件事和物都将公开，与保密无缘。”

一个基础生物学的工厂

引起人们对文特尔的实验研究意见不同的是它的规模和承诺的速度。当Celera公司在今年建立起全套流水线后，它将是全球最大的DNA测序中心。该计划将用230台新制造的机器人来确定遗传密码DNA中碱基的精确排列位置。获得DNA序列到目前为止一直是一个单调乏味的劳动力密集的过程。

Celera公司将它的希望寄托在一种新型的机器——康涅迪格州诺沃克的PE（Perkin-Elmer）生物系统公司生产的PRISM 3700上，这已经大大地降低了技术支持的需要。它不采用96孔板凝胶电泳，而采用96孔毛细管电泳。在稍旧一点的机器PRISM 377或者PRISM 373中，必须将凝胶洗掉并且不断地重新上样，从而打断了测序过程。而PRISM 3700则不，它们的机器人通过不断移动毛细管而移动DNA和试剂，只需要一天更换一次。该系统得到的是稳定的数据流，这些符号分别代表DNA碱基腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在Celera公司，这些机器挤满了实验室，由一个光纤网络连接着，在冷冷的静默中工作着。

3700仪还以另一种方式对计划产生至关重要的作用：其制造者Perkin-Elmer公司提出了该主意并且对该计划进行投资。文特尔说在1998年早期，开发出3700仪的PE公司总裁找到了他。PE乐于提供足够的3700仪并且“使对人类基因组测序的投资成为可能。”文特尔感兴趣了。他想他可以使用一种简捷的办法——一种“全基因组鸟枪测序”战略——他用此方法在1995年以惊人的速度完成了微生物嗜血流感菌（Haemophilus influenzae）的基因组测序。文特尔要求一个许诺：“一旦我们完成了基因组测序，我们将不使之成为保密的东西。”PE总裁同意，“但是它们必须对我有所回报。”文特尔又说“如果你要使用两亿美元对人类基因组测序并把结果公开，必须使用一种商业模式使你能够达此目的。”从那时起，文特尔就一直对这个问题进行着努力。

在达成协议后，PE公司和文特尔在1998年5月宣布，他们正在建立一个新的公司旨在2001年前对整个人类基因组进行测序。该目标比主要由美国政府和英国威尔康姆托拉斯资助的国际人类基因组计划的完成时间提前了几年，引起了人类基因组科学界的极大震动。

数据来源：NCBI

这个新闻在纽约冷泉港（CSH）的年度学术基因组科学家会议前夕提出来。有人认为这个时间是精心策划好的。他们怀疑曾经被基因组研究的著名人物斥责过的文特尔想给前者以好看。一年后这种不和仍然存在：1999年5月举行的年度CSH会议与会者们警告Celera公司正在计划使用公共的资源而将大部分功劳据为己有。一个实验室主任抱怨Celera公司将把填补缺口的“低级的工作”留给了其他人。有记录的对文特尔计划提出的最尖锐批评来自华盛顿大学西雅图分校的生物学家梅纳德 ·奥尔森（Maynard Olson），他从基因组计划开始就是一位理智的领导者，在1998年6月17日举行的白宫科学委员会听证会上，斥责PE公司搞“新闻科学”。他反对匆促的“生物技术模式”，竞争和强权充斥这个领域。他预测在文特尔的人类基因组测序产品中将有“超过10万个严重的缺口”，并表达了他对公共投资的人类基因组计划将降低标准以便与之并驾齐驱的关注。被关注的这种事物已经发生了：在1999年5月的CSH会议上，国际人类基因组计划的领导者们资助了一项计划在2000年春天之前制作一份初步的人类基因组的“工作草图”，比Celera公司目标中的发布数据日期提前了大约一年，然后在2003年前完成一个精确完整的版本。

文特尔对他的批评者们进行了广泛的批驳，他说他们担忧的是旧的“学术投资秩序”。正如他在1998年对一个记者所说的，“如果我站在这件事的另一面，我也会感到不安和震惊。”他说，为人类基因组计划提供了大部分投资的美国国立人类基因组研究所（NHGRI）可能会因为花费了数以亿计的美元来用现在已经被废弃了的策略制作基因组的“序列图”而遭到反对。他还指出，NHGRI不能占有两个关键的测序工具的荣誉：细菌人工染色体（BAC），主要由美国能源部投资和由产业界开发的毛细管测序仪。他提到“在全球98%的测序是由Perkin-Elmer公司的仪器进行的，”即使是“国立卫生研究院的实验室也在购买。”

数据来源：CELERA

面对公众，NHGRI所长弗兰西斯 ·柯林斯（Francis Collins）对所有这一切置之一笑，他说他欢迎私有投资作为政府工作的“补充”（而私下里柯林斯就没有这么快乐了。例如，他警告Celera公司向公众发表数据的主张是“令人不安的和不确定的”）。但是一些研究者一直欢迎Celera公司的到来，华盛顿大学圣路易斯分校的生物信息学家盖博 ·马什（Gabor Marth）说，科学中的竞争是“健康的”，该领域将得益于Celera公司的快速前进。休斯敦贝勒医学院的基因组中心主任理查德·吉布斯（Richard Gibbs）说：“自从有了Craig的活动，我们手上就有了一支枪了，工作进展得好多了，也激动多了……人们将更快地得到他们所要的数据。因此，谁会抱怨呢？”

世界级的机器人

Celera公司的第一个任务是完成从办公楼到数据工厂的转变并且生产数据。庞大的冷却管大得足以从中走过，测序和PCR仪器产生大量热量，而3700仪则需要一个冷却的环境，搭起了新的屋顶支架以支持冷却器。为了防止即使是片刻的停电，文特尔安装了—个庞大的发电机并且租用了一辆柴油车。计划要求在6月底完成230台3700仪的安装，到本文发稿时有大约213台安装完毕。

一个巨大的挑战是使那些机器如愿以偿地正常运行。第一批3700仪在2月份仅通过些许测试和调整后就匆匆运到了各个购买者手中，在5月的CSH会议中，华盛顿大学的研究者伊莱恩 · 马迪斯（Elaine Mardis）报告说，3700仪的性能“有点令人泄气”，它们难以安装，有些部件过于庞大，PE公司许诺它每天能够运行8轮（假定每轮能够使用所有的96孔毛细管，并且每管产生一段“读出长度”为500以上个碱基）。但是在5月份，华盛顿大学的机器平均仅达到每天5轮，读出长度为500个碱基。文特尔说Celera公司达到了每天6轮，读出长度为500-750个碱基。他说他意料这些机器“在几个月后”将达到每天9到10轮。如果这样，Celera公司将每天生产出超过1亿个碱基对。在不到一年的时间里，它的能力已经增长到了每天7千万个碱基对，世界之最。

与生产原始序列数据同样大强度的是基于计算机的研究工作，容纳Celera公司主机的空间光缆连接着数百台机器。为了进入，你必须通过一个警卫的检查，荧光打卡，在一个键盘上敲入一个代码，把手放入一个生物计量扫描仪，然后进入一个由电视摄像仪不间断监视的玻璃门。在这儿数据汇集入一个由Celera公司的一个合作商休斯敦的Compaq公司制作的数据系统。

Compaq公司为文特尔建立了世界上最强大的民用计算机。据Celera公司的计算机主任马歇尔 · 彼德森（Marshall Peterson）称，尽管Celera公司得到了巨大的折扣，它的零售价还是超过了8千万美元。主机系统是64位机，由1200个一流的Compaq阿尔法处理器并行连接而成，能够以每秒1.3万亿次浮点运算的速度处理数据。Compaq公司总经理泰 · 拉伯（Ty Rabe）说，唯一可以比得上它的是美国政府用于机密工作的计算机，特别是一台由Intel公司制造来模拟核爆炸的称为“ASCI Red”巨型机。

最后，Celera公司将应用它的计算机能力分析许多它计划测序的生物体。通过全基因组水平的匹配和比较，Celera公司希望得到小鼠和果蝇的遗传学数据，从而找到新的人类基因并且揭示它们的功能。但是首先这些计算机一起工作将DNA片断连接在一起成为全基因组。这还是次要的任务，困难在于几年前舆论认为这种方法不能用来完成人类基因组测序。有些人还认为Celera公司可能在这个障碍面前摔倒。

Celera公司正在扭转人类基因组计划的航向。NHGRI已经资助了一项多中心计划，投入了巨大的资金于基因组图谱，来获取基因组上容易识别的界标。其思路是这些图谱可以用来指导不久后的具体的测序工作。根据Celera公司的声明，该战略被废弃了，代之以更快的指导方法：使用插入了人类DNA的BAC克隆。每个BAC将有一个独特的DNA指纹，将被另—个识别标志锚定在基因组的一个位置上。5个大型的非盈利实验室已经分摊了基因组界标，每周协商谁在哪个区域工作。现在的挑战是使BAC得到处理和机器运行起来。

与之相反，Celera公司正在跳过作图而采用全基因组鸟枪法（但是，它将得益于指纹化BAC，因为它们给数据增加了结构信息）。Celera公司将整个基因组打碎成随机克隆并对每个克隆进行测序。克隆之间相互重叠，所以对每端进行测序，使之成为锯齿状，就可以与另一个克隆的末端形成一个独特的匹配。利用新的模式识别软件，Celera公司计划将数十万个克隆拼接成一个完整的基因组。并不是Celera公司首先建议用这种方法进行人类基因组测序的。事实上，威斯康星州马西费尔德医学研究基金会的医学遗传学主任詹姆斯 ·韦伯（James Weber）在几年前就向NHGRI提出了这种战略。在当时担任亚利桑纳大学生物信息学教授尤金· 迈尔斯（Eugene Myers）的帮助下，韦伯建议NHGRI投资一项试验性计划对人类基因组进行鸟枪法测序。但是专家们认为它将是“昂贵而有风险的”，韦伯因而收回了建议，而NHGRI也没有同意。韦伯和迈尔斯最终于1997年12月将他们的建议发表在《基因组研究》杂志上。西雅图华盛顿大学的生物计算专家菲利普· 格林（Philip Green）提出了同样的问题进行反驳，他认为该主意“极其无效率”，并且其成本是NHGRI测序方法的两倍。

尽管NHGRI拒绝了韦伯、迈尔斯的人类基因组测序方法，文特尔却在小规模地对该方法进行试验。基因组研究所（TIGR）是文特尔创办的一个非赢利研究所，现在由他妻子克莱尔 ·弗雷泽（Claire Fraser）管理，该研究所使用该方法对一些200万碱基长的微生物基因组进行测序。这些试验给了文特尔以信心，他相信可以用这种方法对30亿碱基对的人类基因组进行测序。

而格林则仍然有疑虑。他认为即使Celera公司训练有素的信息学队伍也将在测序缺口的问题上遇到麻烦。人类基因组包含许多“重复”序列，它们可能缺乏独特的标志。Celera公司可能在对重复序列定位上遇到“非常大的麻烦”，他说。

但是，迈尔斯对Celera公司的数据计算能力有信心，有了新的软件，Celera公司将证明那些批评是错误的。迈尔斯说：“事实上，我们已经做过测序表明可以在不到3个月内完成人类基因组的拼接工作，”尽管他承认，“我们仍在工作以解决那些重复序列问题。”

在今后几个月内Celera公司的战略将接受一次关键性的考验。作为一种训练性计划，该公司与加州大学伯克利分校的由杰拉尔德 · 鲁宾（Gerald Rubin）领导的学术小组合作拼接黑腹果蝇的基因组。根据今年2月发表的一份备忘录，Celera公司应该“大约于1999年7月1日”开始向公众同时也向伯克利的鲁宾小组发布原始数据。第一批数据预期于7月份后期发表。此工作将在2000年1月完成。

文特尔说，Celera公司将同时开始对人类基因组、水稻基因组进行测序，如果有可能的话也对小鼠基因组进行测序。他希望“尽快”开始小鼠的工作，因为它将“对解释人类基因组的数据十分重要”。Celera公司计划对这些基因组进行逐一比较和详细分析。文特尔自豪地说：“我们将要在这项工作中发现生物学线路。”

出售什么？

如果这些信息的大部分都将公开，Celera公司怎么能从销售它们中获利呢？文特尔从几个方面回答了这个问题。首先，他提到了Celera公司对早期客户的支持。他说他们付出的500万美元的费用表明，尽管基因组数据已经公开提供了几年了，重要的顾客将为Celera公司的工作提供一笔额外的费用。其次，Celera公司打算对几百个人类基因和用于个体化医学的一大批人类单核苷酸多态性申请专利。文特尔还未敲定4个最初的基因组计划中的3个，或者其它一系列可能的农业上的目标，例如奶牛、玉米、小麦、大豆和苹果的数据发布日期。最后，文特尔说他并不对排他性感兴趣，因为他并不想四处兜售知识产权。他想建立“一个庞大的信息公司”，不仅仅是为了序列数据，而且也为了他的计算机中的分析结果.就像通过一个封闭的网络发布金融数据的布鲁默堡新闻一样。文特尔喜欢说，他未来的客户不仅仅是公司和大学，而且是“任何有一个基因组的人”。

但是，Celera公司的第一批客户是出类拔萃的：他们包括制药公司加州橡树岭的Amgen公司；瑞士贝瑟尔的Novartis制药公司和新泽西州布里奇瓦特的普强 · 发玛西亚（P & U）公司。领导Amgen公司细胞生物学实验室的威廉 · 博伊尔（William Boyle）说，解释他对Celera公司的兴趣是很容易的：“并不仅仅是为了这些信息，而是为了它们将带来的时间和速度，它们将使我们对整个人类基因组先睹为快。”博伊尔还说，除了时间以外，Amgen公司希望与Celera公司在比较基因组计划上合作以解释基因的层次、组织和功能。

P & U公司全球研究部主任莱斯 ·赫德森（Les Hudson）说，他的公司并不对原始数据感兴趣，而是对建立分析疾病的工具感兴趣。与其他两家早期客户不同，P & U公司在Celera公司有她自己具有火墙系统的计算机服务器以提供远程查询。赫德莱希望位于斯德哥尔摩的卡洛林斯卡研究所的该公司生物信息学小组将使用该系统在各种基因组中搜寻“制药靶”。而Novartis公司的研究部主任保罗· 赫林（Paul Herding）说“关键问题在于速度”。他说，Novartis将通过合作建立“新的高效能计算机工具来分析和注释”基因组数据。

文特尔将他的公司看作一种由加州帕洛·阿尔托的Incyte制药公司“证实”了的模式的精制品。其意思是说你可以通过提供对基因组数据的不排他的检索，来销售信息服务而不是信息拥有权。他说他计划向每个人以“一种合理的价格”提供数据，包括大学的科学家和想了解他们健康状况的公民们。但是Celera公司还没有确定日期。

因为Celera公司发布人类基因组数据的计划还尚未明朗，一些研究者怀疑文特尔在寻找满足公司的商业计划的方案上有麻烦。某--基因组中心的负责人预测，文特尔将不得不抑制他的学术野心来保护公司在数据上的投资。他预测说，Celera公司可能准许查索，但只限于那些签署了承诺不散发信息或者将信息用于商业用途的合同的人或单位。事实上，尽管Celera公司最初谈过要将他们的人类基因组放入NIH的公共数据库GenBank中，NIH的官员报告争议仍然存在。NIH于上个月发表的不带上述约束地分享研究工具的要求，可能使得很难达成一项协议。

永不休止的对数据公开发布的争论令文特尔十分厌烦。文特尔说：“这对我们现在和GenBank面对面讨论人类基因组数据的问题不合适，我们将如同我们一直承诺的那样，在我们的网址上向科技界公开这些数据。”同时他说，“我们的目标是使果蝇项目如此。我们将用自己的成果说话。”他补充说：“那就是基因组学的美丽：迟早你将拿出数据。如果你做到了，你就赢了；如果你做不到，你就输了。”

Celera公司计划在一个月内开始发布果蝇基因组序列数据，3个月内开始将人类基因组数据放在自己的网址上。很快，每个人都将能够自己判断谁赢了。

[Science，1999年6月18日]

期刊目录 contents

物理百年研究启示录

美哉物理（一）反物质何处觅

物理学

空中的重像

化学

从煤焦油进展到一个丰富多样的大工业 ──75年化学工业进展的回顾（下）

生物学

人类将掌握自身的进化

“男性同性恋基因”的发现被质疑