http://spectrum.ieee.org/img/1914GordonMooreJonathanSpragueRedux13330298-1389294659542.jpg

 

  戈登·摩尔(Gordon Moore,上图)有一个新的信念,他认为大数据终将造就大科学。戈登-贝蒂·摩尔基金会计划对15位科学家给予150万美元的津贴(每年20万美元至30万美元分期发放)。基金会对这15位科学家的期望是有能力对新算法、机器学习的方法,以及其他数据密集型科学技巧进行跨学科的开发和使用,能把巨大数据量变成惊人的科学发现。根据基金会的说法,这“可能是对那些推动数据驱动以及用统计和计算机科学等多学科交叉的新方法,研究自然科学前沿的科学家的最大私人投资了”。
 
  摩尔的基金会似乎认为,现如今已经有足够多的数据了,或者正在产生足够多的数据,这些数据足以取得重大的发现。所以他们觉得,这笔新注入的津贴不应用于构建大型设备或运行实验获得新的数据组,而是应该花费在新的分析方式的研究上。
 
  基金会的想法可能是正确的。像美国的“脑计划”这样的大项目或是欧洲的大型强子对撞机这样的大仪器已经生成了超出科学家可以运用的更多数据。最能说明问题的例子就是在遗传学里,基因组测序的成本下降了如此之多,下降得如此之快,而分析的进度却远远落后于数据的生成,所谓科学被淹没在了大数据里。
 
  海量数据泛滥问题在十年前已经很明显了。那时网络先锋John Hopfield就告诉《IEEE综览》,他已经感觉到了尽管科学家们追求新数据是解决问题相对简单的方式,但深入探究现有数据的内在信息才会避免数据泛滥的问题。他向神经网络的爱好者们发起了挑战,他和一个同事联合起来,只用一个小数据集去弄清楚虚拟鼠标的作业区(事实上是一个模拟神经元的集合)。虽然比赛是赢了,但这也不能消减人们对单纯收集更多数据的热情。
 
  当然有趣新鲜的科学数据源也是非常重要的,而且这些数据的生成甚至可能不需要先进的新仪器。所谓公众科学,也就是我们普通人作为环境、地理空间、医疗的传感器,或远程科研设备的访问终端,它已经发展了许多年。公众科学也造就了一些了不起的成果,比如做出日本福岛核泄漏事故后辐射地图这样的的事情。
 
  但摩尔对那些善于采集大量数据的科学家慷慨资助也可能是非常有益的事,他们甚至能够促生比收集器期望还要多的数据。数据密集型科学总有其生存之道。此外,《哈佛商业评论》认为数据科学家们是性感的,所以获得基金会资助的科学家们将会兼具性感和财富。
 
 

资料来源 IEEE Spectrum

责任编辑 粒 灰