随着科学出版向数据开放的转型,图书馆和研究人员们也正努力紧随其后,跟上时代的步伐。如果说错综庞杂的数据环境是预报器的话,那么图书馆终将会成为处理信息管理这个生态系统中的一部分。

 

计算机专家乔杜里在约翰·霍普金斯大学图书馆演示可视化操作界面。这是该大学为促进研究人员转变数据处理方式所作的努力

 

  当赛义德·乔杜里(Sayeed Choudhury)挥动着右臂时,几个路过的学生忍不住多看了两眼:其架势看似像在练习慢动作舞蹈,但实际上,他却在与天文数据“玩耍”。
 
  在这个去年建成的耗资3 200万美元的约翰·霍普金斯大学图书馆内,乔杜里面对着一个2米×4米、由电视屏幕组成的可视化墙面。随着手臂的指点,他从哈勃太空望远镜拍摄的40张图片中选出了一张环状星云图片。随后,乔杜里摊开双手做了一个欢迎手势(见上图),该环状星云图边缘发光的橙色气体逐渐填满了整个墙面。
 
  这面可视化墙正是计算机专家格雷格·海格(Greg Hager)和乔杜里的杰作。他们花费了30 000美元,将监视器、处理器和能够识别肢体语言的微软Kinect系统组装在一起。去年10月,他们实验性地将这块可视化墙面放在图书馆中,便于学生和研究人员检索该校的数据资料(从恒星系统到中世纪的插画手稿)。
 
  “随着数字内容的日益增多,如何让人们拥有以及有效地利用这些文字内容便成为我们需要面对的一个问题。”乔杜里说道。他认为这面可视墙便是解答这个问题的钥匙:化学工程师可以用它来显现和操纵分子,天文学家通过它能给学生讲解星系分类。通过多种方式来实现资料的检索和共享,乔杜里称这面墙便是“一种新的出版形式”。
 

新数据之争

  为了适应21世纪知识更新的变化,世界各地的大学图书馆都在重塑自身:一方面忙着为老师开发课程提供技术支撑,另一方面忙着为师生采购课本、获取学术期刊的访问权,以及为学生提供更多学习和训练的空间。但是,对于那些不离开书桌便能在线浏览科学文献的科学家而言,图书馆的这些变化并不明显。对许多人来说,图书馆似乎不能满足他们的需求,开始变成历史的纪念。
 
  这一现状可能很快就会改变。包括约翰·霍普金斯大学在内的许多顶尖大学图书馆,希望从改变科学家管理和出版自己研究成果的方式入手,积极参与到相关的研究中,为收集、探索、可视化和信息共享提供指导和工具。“我们正在向科学研究的顶端迈进,成为创造新知识的贡献者。”英国牛津大学图书馆馆长莎拉·托马斯(Sarah Thomas)说。
 
  随着数据管理趋势的发展,图书馆正进入到一个由商业出版社、信息存储公司以及诸如GENBANK(对DNA序列进行存档)等特定学科数据库的拥挤市场中。尤其在当前图书馆和研究人员都面临预算紧缩的情况下,图书馆的自我重塑能否成功目前尚不明朗。但是,依然有许多人认为,图书馆是数据世界中一个不可或缺的角色,其重要性只能随着研究成果的开放度的提高而增强。
 
  今年二月,美国总统奥巴马要求向公众开放由联邦政府资助的研究成果。阿尔伯克基新墨西哥大学的信息科学家威廉·米切纳(William Michener)认为,这将为数据保护和科学应用赢得更多的支持。而图书馆与之利益相关,当教职工在管理数据方面遇到问题时,图书馆将是他们的第一道防线。
 
  在图书馆的转型上,约翰·霍普金斯大学谢里登图书馆的研究小组率先进行了尝试。这部分要归功于其十多年斯隆数字巡天数据(已绘制了近一百万个星云图)的管理经验。乔杜里同时也是一项美国科学基金会(NSF)9.4亿美元项目的主要研究人员(该项目旨在促进数据保护、研究和开发数据管理工具)。2011年,该大学推出了一项数据和资料管理的收费服务。
 

固定标识符号

  在2011年该项目的成果描述讨论会上,包括约翰·霍普金斯大学生物力学家在内的诺亚·考恩(Noah Cowan)等人认为,这种强制性的数据管理费用――跟税收提案有些相似,当时并不被看好。“对研究者而言,数据和资料的保存并不是一个大卖点,一些人只是缺少意识。”大学数据管理顾问贝琪·古尼亚(Betsy Gunia)指出。
 

 

  作为首批客户之一的考恩认为,这项服务有助于对他的原有实验进行改进:用刀鱼模拟电流中游泳的高速视频来验证其获得的数据。在这项试验中,他的研究团队通过记录鱼鳍的运动以及测量其神经信号,对动物如何控制其在水中的位置进行了研究。
 
  尽管考恩的研究属前沿性的,但其处理数据的方法就相对老派了。研究完成后,他把视频和分析数据存储在硬盘中。像其他研究人员一样,对成果的分享是在他人请求下单独进行回应。去年夏天,一名研究生对七年前的一项研究再分析时花了好几个月的时间,就是因为数据是分开存放的且有多个版本。考恩指出,在使用这些低质量的元数据(数据的描述信息)时,就如在进行寻宝游戏那般困难。
 
  所以,当考恩开始起草一项由NSF发起的探索鸟鸣神经活动的预案时,他与古尼亚等人设计了一项便于其他研究人员成果共享的项目数据管理计划。如果项目计划获得NSF认可,学校图书馆会与之签订合同,将为考恩研究组提供5年的数据和资料管理及储存服务。
 
  数据管理过程并非简单的通过诸如Dropbox存储数据开展在线数据存储服务。考恩将提供元数据“自述”文件,以及其他用于收集或处理数据的预印本。这项服务可以帮助他将数据进行唯一且永久性的标记。例如,在出版业广泛应用的数字对象标识符(DOI)――通过Web链接一个数据集,可以破解那些导致大家极为熟悉的“404错误”。通过固定标识符的使用,数据就可以为他人直接引用。
 
  如果项目得到资助,就意味着这项服务将花费约2%左右的直接成本,但考恩并不介意。他说:“有了这项服务,我的时间可以被更好地用于指导学生以及收集和分析数据,这远比被用在处理长期数据归档有意义得多。”
 

关注数据管理

  很多科学家由于太过忙禄或缺乏相关知识,可能难以亲自管理数据。2010年对1 300名科学家一项的调查显示:超过80%表示如果别人的研究数据很容易获取,他们会选择利用,但只有36%的人表示愿意对他人开放自己的数据。
 
  然而,科学家本人做数据管理时也可以有一些新的选择,如DataONE,一个由米切纳领导、NSF资助的国际数据保护和共享网站;另一个是Dryad,可以帮助研究人员识别数据集,并将之存储和链接出版物。目前,很多公司都开展了这方面的数据服务业务,包括伦敦figshare(隶属于《自然》前身麦克米伦出版社)和去年由汤姆森路透集团在纽约发起的数据引文索引。
 
  2010年,诺克斯维尔田纳西大学的信息科学家卡罗尔·特诺皮尔(Carol Tenopir)对科学家数据利用习惯做了一项调查,范围涉及美国100多个研究性高校图书馆。次年12月,一项尚未发表的研究结果显示:只有不到20%的图书馆提供数据管理服务,接近40%的图书馆计划在两年内向科学家提供数据管理和存储服务。
 
  牛津大学博德利图书馆开发了一种新的收费方法,计算方法以存储层级的不同为基础,从完全封闭的敏感信息层(如病人的数据)到可以公开访问的数据及元数据层。去年针对牛津大学研究人员的一项调查表明,第一年,他们共有约3 PB级(300万GB)的数据存放量――是目前保存在牛津大学中央文件系统中数据的两倍。博德利图书馆开发数字服务的沃尔弗拉曼·霍斯特曼(Wolfram Horstmann)指出,他们不会存入全部的数据,调查也没有提到研究人员必须支付数据存档费。
 
  其他大学也在尝试探索不同的数据管理方法。例如,加州斯坦福大学正在试行一个对数据库管理和储存的服务,研究人员可以存入自己的数据,小项目是免费的。许多高校由于缺乏资源充实他们数据库,只能暂时选择帮助研究人员寻找合适且已存在的数据库。特诺皮尔指出:“只有顶级的研究机构才拥有自己的数据库。”
 
  与此同时,一些国家也在加速推动数据共享计划。例如,澳大利亚政府投入7 550万澳元在墨尔本莫纳什大学建立的澳大利亚国家数据服务项目,旨在帮助澳大利亚大学识别和发布各种信息提供服务。对于约翰·霍普金斯等大学尝试推出的数据管理服务新模式,有人认为这是科学出版界掀起的一场革命,它改变了过去以叙事和基于文本为主的成果产出模式。即过去300年来的传统学术出版模式已经达到了极限,到了非改不可的地步。
 

从论文到产品

  今年以来,NSF修改了其项目申请指南,即在项目申请书中允许研究人员列出他们所创造的“产品”,如数据集和软件,而不仅仅是出版物,这意味着朝数据共享的方向又迈进了一步。在二月的国会听证会上,乔杜里等人提出,公众获取科学数据的能力是一个国家竞争力的体现。一些开放数据的支持者认为,数据共享将有助于揭露学术造假和研究中存在的错误。
 
  荷兰阿姆斯特丹技术及医学出版社负责人伊弗基·斯密特(Eefke Smit)指出:“现在判定图书馆在数字时代转型是否成功还为时过早,但其中肯定不乏一些成功的新事物。”
 
  如果错综庞杂的数据环境是预报器的话,那么图书馆终将会成为处理信息管理这个生态系统中的一部分。但是,我们希望数据库之间的边界是无缝连接的,这样研究人员就可以足不出户地提取来自世界各地的数据。
 
  托马斯指出:“许多人将聚焦数据描述为图书馆未来的一个亮点,但这并没有背离过去几个世纪以来以组织、保护信息并使之为学者所用的宗旨。”科学数据集比较复杂,但在某些方面,他们与中世纪手稿中的纸张并没有什么不同。
 
 

 资料来源 Nature

责任编辑 则 鸣