编者按:“数据即金矿”,这是大数据时代人们耳熟能详的一句话。为了帮助非洲农民摆脱贫穷,八国集团正在考虑开放农业数据来提高非洲的生产力。不过,开放与私有、公共与个人之间,永远都存在难以调和的矛盾。《时代》杂志的前摄影师说,“眼下主要是企业和政府在考虑有关大数据的用途,我们每个人也应当考虑大数据是如何影响我们的生活的。”欧盟正在讨论如何保护大数据时代的个人隐私,正在修改中的《欧盟个人数据保护指令》要求科学家在利用个人数据时必须经过每个数据持有者的同意――但这几乎是不可能实际操作的。于是希望通过大数据来获得下一个大的突破的科学家们开始寻求特殊条款。科学家们与出版商之间也在激烈交锋。前者希望通过计算机程序下载和阅读论文,并以此获得新的发现。然而出版商则认为无限制的文本挖掘会使他们的服务器疲劳过度。既然是金矿,就一定存在利益分配的问题。本组本章,将带领我们进入这一热点领域,一探究竟。
农业专家提出,数据共享将提高非洲的生产力
现今,农民的食物产出量是50年前的3倍,而使用的土地仅仅比50年前多了12%,这都要归功于新技术以及更优良的耕作方式的应用。但全球各地的水平参差不齐。非洲农业研究论坛研究表明,非洲农民的个人实际产出量仅占全球平均个人产出量的一小部分,大部分人都在与土壤贫瘠和气候干旱的斗争中勉强度日。
帮助非洲和其他地区的农民生产出更多的食物,将会是数百万人摆脱贫困以及养活2050年的90亿世界人口的关键。食品政策专家认为,实现这一目标的关键在于,给农民、科学家和企业家自由访问农业数据的权力。在为期2天的关于开放农业数据问题的国际会议上,八国集团――即世界上最富裕的八个国家――的领导人们集体讨论出了取消数据限制的最佳途径,而且这些数据也很容易被人和机器所分析。
“农业数据非常有趣,因为它分好几种类型,”詹姆斯·亨德勒(James Hendler)说,他是纽约特洛伊市伦斯勒理工学院的计算机科学教授,负责美国政府网站Data.gov的建设。该网站上有关于诸如植物基因组学和当地天气情况的详尽数据库。还有一些比如特定土壤条件下最好的作物研究、降水量的变化、害虫和疾病的迹象,以及当地市场作物的期望价格等数据库。
来自法国蒙彼利埃国际农业研究中心的皮尔斯博科克在国际农业研究组织联合会上说,如果这些数据集都能做到免费提供,那么他们将会派上大用场。在这次会议上,来自大学及研究机构的专家们介绍了他们开发的数据应用程序,这些程序已经可以公开使用。其中包括MyFarm,一款基于安卓的多语言应用程序,能够为小农户提供相应的农业咨询;Aqueduct是一款互动工具,能提供与水相关的风险问题的高分辨率地图。
在非洲,即使最贫穷的农民都会携带手机,享受开放式数据带来的福利,这仅是一个设想――令人难以置信――但也不是完全不可能实现。“想象一下”,博科克说,“一个站在马拉维农田里的女人,用刚刚借来的钱创办了自己的农场,如果我们在她的手机上进行地理定位设置,然后通过运用数据生态系统知识库,系统能够识别土壤类型和特定土层的需求,告诉她应该买什么样的种子、何时种植、收获等等。”
想要让这些“假设”的方案成为现实,就需要更多免费的农业科研资料挖掘平台入口――不仅人类能自主使用,机器也能自主挖掘辨认。一些大学和研究中心的科学家们对于自己收集的大部分数据,明确表示,出于安全或隐私原因,这些数据不能公开。“现在流行一种说法,‘我不想分享,这是我的私人财产’,或‘这是政府财产’”,博科克说道。
即便有些资料是免费的,也不一定很容易被搜索到并投入使用。例如,亨德勒说,目前存在这样一个日益增长的趋势,政府及机构提供原始形式的数据,或通过应用程序的数据操作软件,或者创建移动应用程序来公开一些数据。然而,这样的数据集很难在互联网上被搜索到。同时也可能由于缺少标注或其他原因难以被识别和应用。
亨德勒因研究语义网而出名,他将目前的情况比作前网络时代的超文本时期,既没有共享信息的标准,也没有任何能找到信息的搜索引擎。他说,目前亟需新的方法和技术,这样发现数据并进行数据交互,才能变得更便捷。
八国集团开放数据会议标志着文本共享的开始。在这次会议上,一些国家公布了关于农业数据库公开的政策方案。其中加拿大、印度、美国,正在推动建设一个开放性的数据共享平台。例如美国农业部,宣布在Data.gov上建立一个门户网站,该网站能链接到348个农业数据集。
不过,要真正做到大规模的资料开放,仍需要八国集团和合作国、国际组织,以及私营部门之间长久的努力。“本质上说来,这属于文化变化”,博科克说,“老派的研究作风认为,我所收集的资料是自己的私人财产:‘为什么我要把它给别人?’而公开数据的行为将会改变整个世界。”
资料来源 IEEE Spectrum
责任编辑 粒 灰
大数据:难以想象的巨大规模
二十年前,当电子健康记录还是新生产物时,数字音乐主要还在构想阶段,Twitter还只表示鸟叫声,谷歌创始人谢尔盖·布林还只是沃尔夫勒姆研发公司(Wolfram Research)的一个暑期实习生。过去的二十年见证了收集和储存数位资讯的核爆炸式发展。根据国际数据公司的研究,在2012年,互联网共传播了2.8泽字节,即1百万的六次方字节,或者相当于创建或复制了2 400万的三次方的微博。今天,我们有数百千万千兆字节级数据库,如果和二十年前比较大小,我们会发现每次比较的基础都是零。下面我们来看看一些世界上最大最有趣的数据集。(资料来源:欧洲核子研究中心,谷歌、Facebook、科罗拉多州凯撒医疗集团、纳斯达克、国家顶级数据中心,拉迪卡蒂集团,微博,美国人口普查局,国会图书馆,有线的研究)
单位:兆兆字节(terabytes)
每年发送的业务电子邮件:2 986 100
每年上传到Facebook的内容:182 500
谷歌的搜索索引:97 656
科罗拉多州凯撒医疗集团的数字健康记录:30 720
大型强子对撞机的年度数据输出:15360
每年上传到YouTube的视频:15000
国家顶级数据中心数据库:6144
美国国会图书馆的数字档案:5120
美国人口普查局数据:3789
纳斯达克股票市场数据库:3072
2012年通过Twitter发出的消息:19
《连线》杂志的所有内容:1.26
资料来源 Wired
责任编辑 粒 灰