从黑洞到生物学 ──计算机在2010年的影响

发布时间：00年04月28日

Declan Butler 编译陶涵

　　到了2010年，单击你桌上的个人电脑将足以迅速地从那时世界上最大的超级计算机——因特网本身调动你所需要的全部计算能力。广泛存在的超级计算力将引发问题复杂性的一次革命；所有的学科都将数字化，而科学家也将围绕共享的数据组织各自的工作。

　　“PAL，我准备好了，我们开始吧。”乔治在芝加哥实验室里的teraflop (每秒10¹²次浮点运算)个人电脑遵从了。探测器和投影仪开始工作，天花板、墙壁和地板闪烁着蓝光，虚拟现实的洞穴准备好以后，PAL以每秒10GB的速度与因特网连接，产生着巴黎的朱利特和慕尼黑的根瑟的三维影像。三者握手之后，实验正式开始了。

　　因特网上另外一个地方，PAL正忙于翻译和收集全球各个研究中心的数据集；同时，它还在向新墨西哥州一台超级计算机和伦敦、布拉格的Pataflop (每秒10¹⁵次浮点运算) PC 机群征求处理器时间。操作成功之后，数以百万计的不断变化和闪烁的映像点突然在实验室中心接合，形成了两个流动的黑洞，缓慢地围绕着对方转动着。

　　研究员小市控制参数的输入，通过他东京卧室中的手握屏幕操纵黑洞发生碰撞。宇宙中最剧烈的场面之一便以快进的形式显现在科学家面前。黑洞不断旋转，最后撞击、融合，升起蘑菇云。

　　几分钟内，PAL已完成了几TB (1TB=2⁴⁰字节)的输出。“在20世纪90年代，这要花好几个月的时间，”乔治感慨地说。结果在高清晰度显示墙上滚动而下。这是个毫不含糊的开端，撞击最后几毫秒重力波的强烈爆炸与爱因斯坦相对论中所预言的完全相符。

　　兴奋已产生了。PAL 把更好的消息——爆炸还具有一种特殊的波形——传给它在VIRCO (太阳光变化性和振动)的对等机器，意大利Cascina的欧洲重力波检测器。VIRGO将于2008年联网，它数千米长的激光干涉仪聚集了浩如烟海的数据，但要找到其中的针——相当于原子核一小部分在大千世界中所占比例的说明问题的振动——曾被证明难以做到。VIRCO 现在已有了关于寻找什么的必不可少的线索。

黑洞模拟

　　黑洞模拟显示出由两个小黑洞撞击形成的一个稍大的黑洞，在中央可以看到显彩色的新黑洞表面。表面半透明，能看到里面原先的两个黑洞。撞击导致了重力波的爆发，这些波显红黄色，由中心区域扩散开来。

　　这是新闻的创作？当然。纯粹虚构？可能不是。黑洞撞击的核心科学以及因特网技术的很多部分已经在1999年6月被证实了。当时，由波茨坦的阿尔伯特 · 爱因斯坦研究所的塞达尔及圣路易斯的华盛顿大学的孙万莫(Wai-Mo Suen)率领的研究人员用美国国家超级计算应用中心(NCSA) 256处理器的“Origin2000”创造了CPU运行140，000小时、产生将近1TB数据的超级计算新记录。

　　由当今世界上最先进的计算机网络试验台产生的原型系统表明，这类高级虚拟现实技术，包括模型制作及显像在未来的因特网上将是家常便饭。由芝加哥伊利诺斯大学的电子显像实验室开发的一个专有的虚拟现实剧场CAVE已建立并开始运作的几个远程合作或“远程浸入”系统之一。运用这样的技术不需要将仅有的运行时间预先用在超级计算机上，单击你桌面的个人电脑将足以从那时世界上最大的超级计算机——因特网本身调动你所需要的全部计算力。

　　到了2000年，今天高级的计算技术将成为大多数人的日常事物，而不再只是少数特权人士的消遣。我们可以预见一个全球化的计算网格，在这里，各种不同形状、不同规模的计算机通过因特网互相连接形成巨大而分散的超级计算机。任何学科的科学家都能直接从自己的桌面上取得今天最先进的超级计算机所无法匹敌的计算能力。

　　塞达尔承认，黑洞碰撞模拟还远未成熟到能为计划中的欧洲VIRGO和美国LGO (激光干涉仪重力波观察所)的重力波观察提供现实的帮助；但他预言，由于计算能力和算法的进步已首次实现了复杂的现实模拟，这些帮助很快就将实现。

CAVE虚拟现实剧院

　　协助处理复杂系统的强大计算力的广泛存在将激发科学本身的一次深远变化——美国国家科学基金会(NSF)计算机和信息工程董事会助理董事鲁泽 · 巴耶克斯(Ruzena Bajcsy)作了这样的预言。她相信这将结束以笛卡尔的简化论为主导的研究，将科学研究引入一个全新的时代。在这个时代，研究者将更多地致力于复杂的动力系统，诸如完整细胞或是地球的理解。为了促进全球计算网格的发展，NSF 在科学研究方面通过国家高级计算基础设施合作体——一个由圣地亚哥超级计算中心领导的国际联盟资助原型；其它则通过国家计算科学联盟——一个由NCSA领导的50个研究机构和大学的联盟。

　　至少在开始时，传统的超级计算机仍将是网格上主要的结点，而只要连上其中几台就能显著增加解决个人问题可用的资源。速度千倍于约为现今最高级的teraflop计算机的petaflop超级计算机将在2010年后不久出现。

　　然而超级计算机是昂贵的。世界上最强大的超级计算机，新墨西哥州桑地亚国家实验室的Asci Red由一组约 10，000个奔腾Pro芯片来完成各种任务，而它的造价接近6000万美元。10年前，在加州理工学院和NASA的喷气推进实验室工作的汤姆 · 斯特林(Tom Sterling)认为一种较省钱的发展方法是将许多台PC机简单连接。通过Linux，这个在那时才刚崭露头角的开放式操作系统，并在其中加上网络驱动器，斯特林制造了他的第一台“Beowulf" 集群超级计算机。它的造价仅是传统超级计算机的十分之一，而且它高度灵活——增加PC机数即可扩大计算能力。“Avalon”，洛斯 · 阿拉莫斯国家实验室的一台Beowulf 连接了140 台PC机，每秒可进行500亿浮点的运算，而它的造价仅为30万美元。智利La Silla的欧洲南方天文台及LIGO都选择Beowulf来应付数据处理的需要。

64位问题

　　很多科学应用和高分辨率图像要求64位浮点精确度——现在的 32位运算结果对于许多任务来说远不够精确。英特尔最新的64位芯片的问世使得Beowulf和传统超级计算机的差别无几。将廉价的64位PC机连接用于科学用途的实现，加之每秒10亿位的以太局域网的诞生，更多的天文台将开始使用集群超级计算。

　　拉里 · 斯马尔(Larry Smar)预见超级计算机将被一个庞大而不确定的计算组织取代。未来因特网的设计者们认为他们能扩展这个想法。如果你能通过一个局域网联合PC机的计算能力，未来的因特网这个高速网络为什么不行呢？“Asci Red有10000个奔腾Pro；而连接因特网上的PC机，获得的是数以千万计的，”美国国家计算科学联盟董事说道，“我们将以PC机的价格获得那些大而复杂的模拟所必需的精确性。”

　　“展望未来的10年，”斯马尔说，“你将看到超级计算机或多或少地溶入这个巨大而不确定的计算组织，因为所有的(计算机技术)都将建立在相同的大规模生产的处理器、操作系统和互联设备上。”“寻找外星人情报机构”屏幕保护程序， SETI@ home，证实了使用因特网上PC机的原理。这是一个供下载的屏幕保护程序，并且是历史上最大的分布式计算项目。超过100万的用户，(包括笔者)花费了PC或是Mac有限的处理器时间在每天由波多黎各Maracaibo无线电望远镜记录的35 G的数据中寻找外星人的信号。于是地球上最大的虚拟超级计算机产生了，它的运行速度是7 teraflop。

　　戴维 · 安德森(David Anderson)，领导该项目的加州大学伯克利分校计算机科学家表示他现打算运用同样的途径来处理包括药品开发、蛋白质折叠和高清晰度图像在内的各种超级计算工作。一个网上的团体，"distibuter. net” 也是通过运用PC机群上的分布式计算破解密钥而成名的。

　　等待时间是计算上的一个广泛问题。比方说，从一台Cray超级计算机的存储器上获取一些数据所需的时间是300毫微秒，不比20年前快多少。归根结底，这说明在一个芯片上加人更多的晶体管未必能带来速度的显著提高。在很多计算机科学家看来，将中央处理器放入存储器是唯一可行的途径。

　　很明显，一旦有了高速因特网，一定形式的分布式计算也就成熟了。它可能涉及一系列的超级计算机、PC机和工作站的集群以及个人的PC机。美国科研网络的主干以每秒2. 5GB (1GB=2³⁰字节)运行。但负责开发因特网II的“高级Internet 开发大学联合体”的主席预言，到2010年网络的运行速度会达到TB的数量级，并能提供的桌面连接速度。

　　计算将会是未来生物学家的首选工具——克雷格文特(Craig Venter)预言。

计算力需求

　　计算力需求量很大。“在600个库中每天都有100，000个新涌现的序列需要筛选。仅仅是排序，就能轻易用掉现在10倍的计算能力。”Celera基因组有限公司首席执行官克雷格 · 文特指出，“在未来的生物学领域，如果你没有这样(强大)的计算能力，你将会落后。”在NSF，对超级计算力的需求正以指数形式增长，并将在2005年超过10 teraflop，——而这之中的大多数来自于新用户。

　　现在，注意力已经转向了如何能最好地使用户得到这些分散的资源，可能性是巨大的。想像你坐在屏幕前，面对着简单的、类似于雅虎的、根据你的研究需要定制的界面。单击一下电脑，你所需要的数据，比方说某几类天体的光谱线，就会在世界各地的数据库里被搜索。这些图像数据以何种格式出现并不重要；界面使用一个标准格式并自动完成从其它格式的转化。数据被收集和综合后，再一次单击，界面就会和世界各地的计算机联络，实时预订你所需要的处理器时间。需要一次快速傅里叶变换？一次按键就能做到。如果你想要结果以三维图像或虚拟现实形式出现，或是想旋转它们，点击提供高级成像技术的菜单即可。当然，以上这些均被译成你的母语。

　　这样的界面用到的一系列工具是专为利用因特网上分散的数据库而编写的。这类用户看不见的工具，或称“中间件”，是包括因特网II在内的许多高级互联网工程项目发展的中心。在阿贡国家实验室数学和计算科学分支负责人瑞克(Rick) 看来，到2010年它们将是科学家的基础设备中的一个普通部分。

即插即用超级计算

　　在这个方向上迈出一大步是近期“仙人掌”的开发。这是一个由波茨坦的马普研究院引力物理研究所的琼 · 马斯(Joan Mass)和保罗 · 沃克(Paul walker) 开发的novel软件工具箱，它允许科学家不用懂得高级计算技巧就能通过一个高速网络联合计算能力，它的即插即用使得用户只要拿自己的应用软件(也就是“刺”)——它可以是Fortran、 C或是任何其它语言编写的——并把它插入“仙人掌”程序的“肉”中即可。“仙人掌”自动将这些程序并行化，使它们能在差不多任何系统上运行，从便携式PC到分布式PC机群或是超级计算机。“仙人掌” 的模块还具有在远程中心预订处理器时间及处理以TB计的数据输出的功能，并提供一套最新三维成像工具。NSF 已拨款220万美元用于“仙人掌”在美国的发展。它的源代码已在http：//cactuscode. org 公开。

　　这是一个显著的变化，在过去，超级计算的算法多是为特定问题而开发的，不能移作它用。而“仙人掌”允许生物学家利用物理学家的知识。“随着网络和网络软件的发展，我认为桌上的PC机和网络提供的资产间的区分将越来越不明显，”范霍韦林(Van Houweling)预测，“现在，科学家主要用网络来寻找信息。而将来，通过网络获取大规模的计算资源将是主要的用途。

　　类似的“中间件”已开始在生物学中出现，即便是最基本的基因组分析常常要求用户运用大量不同的软件和数据格式。NCSA的“生物工作台”和贝勒医学院的“ 搜索发射器”是为用用户友好的软件包来替代它们而设计的两个原型系统。界面后的软件能将要求转化成众多现有基因组分析工具的格式，并允许用户筛选网上的众多数据库。

　　美国国家健康研究院下属国家人类基因组研究所也将推出类似系统。但该所的计算基因组主管安迪 · 巴克埃文斯(Andy Baxevanis)告诫用户不要过于依赖这些“ 黑箱一般的界面。巴克埃文斯主张“无论以单一的或是工作台形式使用，都必须懂得其中每一个确切的方法。’

在赛博空间中合作

　　“到2010年，科学家与计算机间的关系将发生变化。他们将把它视作为自己工作所定制的信息和计算的组织，以及面向同事的一个窗口，”范霍韦林指出。随着电话、影像及虚拟现实在因特网上普及，更大规模的合作将自然而然地出现。斯马尔预见到“一个固定的赛博咖啡馆”，在那里，“你能和远在天涯的同事一同走进一间房间。

　　但合作指的不仅仅是与地球另一半的同事一起喝虚拟的下午茶。10 年前，研究大气圈上层的科学家大多围绕自己特定的设备、卫星或是雷达安排自己的研究日程。而这在群体研究中意义不大。密歇根大学的丹 · 阿特金斯(Dan Akins)领导了一个基于因特网的计划，叫作“大气圈上层合作研究”。它联合了研究群体中全部的设备以及寻常研究项目的所有数据。

　　“科学的特性正在变化，”莱克说道，“直到现在，天文学一直在忙于获取望远镜观测时间，观察天空中某一点，获得数据，加以处理，保持所有权及发表一个小的结果。但很快，所有的这类信息将都可以数字化形式获得。”同时，他断言学科将组织更大规模的计算资源。这些资源能从你的PC机或工作站上自由调用，科学家们相互站在肩膀上的概念开始复兴了。科学家不必再将大部分时间用在收集自己的数据上，所有的数据都将是共享的。

迎接巨大的挑战

　　如果到2010年科学家能从桌面通过因特网取得超级计算能力，这将允许他们去迎接规模更大的挑战。“我认为我们会有建立完整的细胞和组织模型所需要的计算能力和工具，”范霍韦林说，“但是我们所说的新型工具才刚刚走向普通科学家。”

　　现今，大多数科学家满足于考察自己感兴趣的单一基因或蛋白质序列。但运用了更强大的计算机后，考察基因组信息的全部成为可能。“ 如果我们希望弄懂生物学，我们需要理解在一个动态变化的环境中数千个蛋白质的整体，而不是像现在生物学家做的那样，每次只考察一个小小的蛋白质。”文特说道。这就是Celera公司在明年完成人类和老鼠基因组测序后将努力的方向。为此，公司正在建造世界上最大的生物学超级计算机台1200处理器的机器。“计算机将是生物学家的首选工具，”文特预言，“其数据集在人脑的容量之上。”

　　计算生物发展方向的一个指针是一个叫做E-cell的软件包，它由日本庆应大学的胜富田开发。这个能在http：//www. c-cell. org网站下载的软件包可以模拟细胞的各种基本过程。胜富田刚刚完成的红血球的模型，正在建立的模型包括人类线粒体，大肠杆菌趋药性的信号转换，以及大肠杆菌乳糖操纵子的基因表现网络。获得了适当的营养之后。"Tamagotchi"红血球达到稳定的状态，其代谢物浓度与真正哺乳动物的红血球相当。胜富田现正通过抑制糖分解过程中的酶，诸如己糖激酶，葡萄糖-6-磷酸脱氢酶，磷酸果糖激酶和丙酮酸盐激酶，试图弄清先天性贫血患者细胞的新陈代谢情况。这种疾病正是这些酶的缺乏而引起的。很多人预计果蝇将会是发展中的生物学中复杂计算模型制作的主要目标。它的基因组很快就能得到，很多人正为此努力。果蝇研究者大约有6000多名。

　　研究生物学中高级计算发展的最大限制在于缺少懂得该如何做的生物学家。物理学家和天文学家已有几十年的用数学语言表达复杂问题及编写软件加以执行的经验，而计算生物学却还处在婴儿阶段。因此物理学家将能更快地运用Petaflop 级别上的硬件发展成果来迎接更大的挑战。这种挑战之一是不用建造真的原型，在计算机上设计一个虚拟维持的热核聚变反应堆。这估计需要1到10 Petaflop。但即使是物理学家也碰到了由于建造系统模型需使用的软件过于复杂而造成的困难。美国副总统戈尔最近推出了一项计划，要求各联邦机构开展一项名为“数字地球”的研究，旨在创建一个“让人能察看世界各地积累的大量自然及文化信息并与之互动的地球的虚拟表示"。建立地球各部分诸如海洋、大气的模型已经足够困难了；而将它们合成一个地球的工作模型的想法将软件工程师们又打发回他们的画图板前。

　　[Nature， 1999年12月2日]