科学家目前正以空前的速度对我们所见的宇宙进行数字化处理——正在实施中的Sloan数字化太空测量项目,其使命是对整个天穹的四分之一进行图像处理,对其中一亿多颗天体确定其位置和绝对亮度。这一项工程最终将汇集十几太(即兆兆)字节具有不同格式、不同波长的结果数据,构成丰富多彩的天文学数据源之一。

通常,这些不同来源的数据相互间仍缺少联系,而已为大家广为接受的共识是:只有对这些数据进行认真的开发,才能发掘出隐藏于数据之中的真正潜力。随着观测手段的提高,数据集的规模不断突破,特别是由大型设备如ESO超大型望远镜所发回的数据量更是达到了惊人的程度。因此,天文学家目前已把他们的关注重点从计算能力转移到了对数据集的存取上——即如何对付汹涌而来的数据洪流。

解决天文学家这一困难处境的方案是:首先将以各种文档格式存放的数据转为同一种格式;然后将现有的数据和未来将产生的数据以统一的格式收集在一起;最后,将所有这些数据转换为能为世界各地的天文学家用不同的计算机都能使用的数据。这个方案看上去似乎有点异乎寻常地雄心勃勃,但它已由一个由天文学家和计算机科学家所组成的国际性小组实施。他们的目标——构建一个无缝的、全球化的天文学资源:“虚拟天文台(VO)”一一将成为学术界大协作的典范。

这一全球规模项目的实现是一项漫长的过程。与此同时,作为Vo组成部分及前期准备的一些区域性虚拟天文台正在紧锣密鼓地实施当中。一个由约翰 · 霍普金斯大学和加利福尼亚技术学院牵头的组织打算到2010年建成全国虚拟天文台(NVO)——它已收到了五年期的1000万美元的启动拨款(相当于总预算成本的六分之一)。

在欧洲,天文学家从欧洲委员会接受了400万欧元——打算在三年多时间里建造欧洲的NVO-天文学虚拟天文台(AVO)。他们指望AVO能帮助天文学家提高直接存取得自于地面和太空望远镜数据的能力——这些数据覆盖了从伽玛射线到可见光,再到无线电波的整个波长段——然后用任意计算机上的通用界面将它们无缝地组合起来,从而实现对多波段数据文档的挖掘。

类似的计划在世界其他地方也引起了人们的兴趣,比如印度、澳大利亚和日本。一个共识是:所有这一切努力,最终要达到建立真正意义上的全球虚拟天文台。

正在领导AVO项目的德国欧洲南方天文台(ESO)的彼得 · 奎因(Peter Quinn)对项目的重要性进行解释,他说:“AVO和国际VO项目的目标是彻底改变天文学研究的方式,这一目标的实现有多方面的途径。首先,对来自太空和地面的观测资料多波段数据实现互操作性,并在指定的频谱段内展现宇宙图景;接着,将分布在世界各地的数据文档通过链接,形成强有力的统一的计算资源,以支持对诸如Sloan数字化太空测量这样的大型测量数据库的数据挖掘;最后,通过将网格技术这样的并行计算引入到天文学的数据处理中,以应付日益增大的数据流并进而解决对互操作资源的挖掘。”

这样一个项目的规模显然是十分惊人的,但它面对两项主要的挑战:

挑战之一是要形成数据的互操作性,即解决对不同质的数据如何共用的问题,以及对这些数据的存贮和传送寻找理想的解决方案。目前,倾向性的意见是采用XML作为在ASCII级别上数据互操作性的首选技术。这一技术将充分满足包括天文学目录、观察记录、数据质量描述和综合报告等各种形式数据的需求。但如果要包括二进制数据的话,还需要在技术上添加某些功能。

挑战之二是有关网络带宽、可升级的存贮和计算能力,以及可重用的网格中间件等问题。预计网格计算将是解决这些问题的关键。由6所英国的大学和一所政府实验室组成的AstroGrid项目组正在建立一个基于下一代网格技术的分布式计算网格。它将控制数据的处理、存贮,并传送由访问和挖掘大型天文学文档而形成的数据源。它与AVO项目并行推动,既有分工又有合作。

目前AstroGrid已选择了一种高速商业网方案来作为设计中的网络结构。研究者们正在定义问题、确定案例及细化体系结构,采用的工具是“统一处理”方法及通用建模语言(UML)工具。这一设计过程是闭环的,需要经过多次反复修改。

另一方面,Web服务的构想与虚拟天文台的思想也很合拍(Web上广泛使用XML技术)。Web服务软件将能自动对比来自不同地点的红外X-射线数据,并使这些结果能在天文学家的计算机上显示。人们希望能找到一条应对技术挑战并使这两部分设想相互靠拢的路径。

虚拟天文台的实现将是长期的,初步估计大约需要6年后人们才能看到一个国际性的VO出现。但这项成果将是意义深远的。对来自不同波长、不同地点用不同手段获取的海量数据的对比、研究将打开对宇宙的全新视野。

[Scientific - computing. com]