2009年2月,美国哈佛大学大卫·拉泽(David Lazer)等15位美国学者在Science上联合发表了一篇具有里程碑意义的文章“计算社会学”(Computational Social Science),该文指出:“计算社会学”这一学科正在兴起,人们将在前所未有的深度和广度上收集和利用数据,为社会科学的研究服务。在过去的三年多时间里,“计算社会学”正如这些宣言者所认为的那样,表现出了很大的能量。本文,是Nature杂志今年8月刊发的关于这一领域最新进展的综述文章。

 

从电子邮件到社会网络,当代社会生活所遗留的数字印记正在变革着社会科学

 

  乔恩·克莱因伯格(Jon Kleinberg)的早期工作并不适合心脏不好的人。他于1992年发表的第一篇文章是计算机科学的论文,其内容就像它的标题一样紧凑。这篇论文的题目是《基于动态Voronoi图和最小Hausdorff距离的点集欧氏平面运动研究》。
 
  在万维网席卷全球之后,成千上万的个体用户自主决定和谁联系以及联系什么。克莱因伯格开始研究当代生活所产生的大量数字副产品,比如电子邮件、移动电话、信用卡购物、网络搜索以及社会网络。
 
  今天,作为位于纽约州伊萨卡的康奈尔大学的计算机科学家,克莱因伯格利用这些数据来撰写论文,比如《形成你自己的观点有多糟糕?》以及《你一开口就征服了我:措辞如何影响记忆力》――这些标题非常适合出现在社会科学杂志上。
 
  “我觉得计算机科学并不仅仅是技术,”他说,“同时也是一个人性的话题。”
 
  克莱因伯格并不孤单。计算社会科学这个领域的出现正在吸引对数学感兴趣的科学家蜂拥而至。而且,这也促进了学术部门的成立,并激励像位于加州门洛帕克的社会网络公司Facebook(脸谱)这样的巨头成立研究团队来研究社会网络的结构以及信息在社会网络之间是如何传递的。
 
  “这真是革命性的。”康奈尔大学的社会科学家米歇尔·梅西(Michael Macy)说,她也是2009年联合签署增加这个新学科影响力宣言的15位作者之一。“之前我们一直受限于综述性文章,文章通常是回顾性的,实验室研究的对象也一直是为数不多的大二学生。”现在,数字化数据流使得我们以前所未有的规模和层次来描绘个体和群体的行为。这些数据还带来了大量的挑战――特别是隐私问题,以及数据集合未必如实反应人群整体状况的问题。
 
  虽然如此,“我把大数据给社会学带来的机遇,等同于粒子加速器给物理学带来的机遇,以及功能磁共振成像给神经系统科学带来的机遇。”梅西说。
 

社会需求

  最早大规模利用数字化数据在社会科学问题上进行研究的例子是2002年克莱因伯格和明尼苏达州卡尔顿学院的计算机科学家大卫·立本诺埃尔(David Liben·Nowell)开展的一项研究。他们考察了社会科学家认为有助于推动人际关系形成的机制:即人们倾向于和朋友的朋友成为朋友。虽然这个观点很完美,但是却从来没有在几十甚至几百人的人际网络中进行过检验。
 
  克莱因伯格和立本诺埃尔研究了科研合作中形成的关系网络。他们考察了在1994年至1996年间向电子打印存档(arXiv)上传论文的数以千计的物理学家。通过编写软件来自动提取作者的姓名,他们所建立的合作伙伴数字网络的数量级要远远大过以前测试过的数字网络,新网络的每个连接都代表着两个曾经合作过的研究人员。通过跟踪这些网络如何随着时间的推移而发生变化,他们发现一些研究人员之间亲近程度的度量指标可以用来预测未来合作的可能性。
 
  正如期望的那样,研究结果表明新的合作关系倾向于出现在那些同自己的现存研究伙伴有合作关系的人群中,用研究人员自己的话说就是“朋友的朋友”。但是这种预测在数学上的精确性可以使得它在更大的网络中得以运用。曾师从克莱因伯格的拉斯·巴克斯托姆(Lars Backstrom)博士也在研究关联-预测的问题――他现在就职于脸谱,在这里他可以尽情发挥自己的学识,而他的工作就是设计社会网络中的当前朋友推荐系统。
 

 

  另外一个已经被计算机研究人员证实的经久不衰的社会科学理念就是”弱连接”的重要性――它是指相隔较远且很少碰面的熟人间的关系。如今就职于斯坦福大学的社会科学家马克·格兰诺维特(Mark Granovetter)在1973年提出弱连接在社会派系中发挥着桥梁的作用,因而弱连接对于信息的传播以及经济的流动都是重要的。在前数字化时代,大规模地证实他的这种想法几乎是不可能的。但是,美国哈佛大学网络科学家的尤卡·佩卡翁内拉(Jukka Pekka Onnela)在2007年带领的一个团队利用四百万手机用户的数据证实了弱连接确实发挥了社会桥梁的作用(见“弱连接的能量”图)。
 
  2010年,包括梅西在内的另外一个团队证实了格兰诺维特关于经济流动性和弱连接存在关联性的理论也是正确的。利用英国六千五百万有线通讯和移动电话采集的数据,以及全国普查的数据,他们揭示了个体关系多元性和经济发展之间存在很大的相关性:人们越富裕且他们的联系越多元化,则他们的社区越富裕。“在20世纪70年代,我们不敢想象可以大规模地利用这些数据进行研究,”格兰诺维特说。
 

传染性观念

  在某些情况下,大数据也可以证明某些经久不衰的观念是错误的。今年,克莱因伯格和他的同事利用脸谱网的大约9亿用户数据来研究社会网络中的传染性――它指观念传播的一种过程,这些观念可能是时尚、政治观点、新技术和财政决定。几乎所有的理论都假设这个传播过程类似于病毒的传播:一个人接受一个新观念的几率同他接触到的对该观念采信的人的数目成正比。
 
  克莱因伯格的学生约翰·乌甘德(Johan Ugander)发现情况肯定比那还要复杂:人们决定加入脸谱的原因不取决于他们已经加入该网络的朋友数目,而取决于隶属于不同社会群体的朋友加入该网站的数目。换句话说,如果加入脸谱网站的有你的同事,体育俱乐部的朋友以及你的密友,那么该网站给你留下的印象要比你在上面只发现了来自一个社会群体的朋友要深。所以“观念的传播取决于让他们坚守该观念的人的多样化”这一结论对于营销和公共健康活动来说可能是重要的。
 
  随着计算社会学研究的扩展,社会科学研究的应用也在不断发展。就职于麻省理工学院的计算机科学家亚历克斯·彭特兰(Alex Pentland)的研究团队利用智能手机应用程序和便携式录音设备采集研究对象每日活动和交际的精准数据。通过把这些数据和身心健康调查相结合,该团队得知了如何识别包括抑郁在内的健康问题的出现。“我们发现这些群体从来不会进行表达,”彭特兰说,“当涉及到关照那些需要关照的人的时候,能够感知到他们的孤独是十分重要的。”由彭特兰的学生安默尔马丹成立的位于马萨诸塞州的分拆上市公司Ginger.io现在研发了一个智能手机程序,如果数据显示某种健康问题的存在,那么这个程序就会通知卫生保健部门。
 
  其他一些公司正在研究推特(Twitter)上每天发布的超过4亿条信息。一些研究团队开发出了一款软件,利用这款软件可以通过对推特使用者网上情绪的分析来预测实际情况,比如电影的票房收益或者选举结果。虽然这种预测的精准性还一直备受争议,但是推特基于这个方法于今年8月开始推出了美国总统竞选的每日政治指数。同时,就职于布卢明顿印第安纳大学的约翰·博伦(Johan Bollen)和他的同事也采用类似的软件来研究推特上表达的社会情绪与股票市场波动之间的关联。他们研究的结果已经足以震撼位于伦敦的投资公司-德温特资本市场,并得到该公司的认可。
 

信息接收

  当这些基于推特的调查在大约2年前出现的时候,对于这种服务在特定人口群体中(例如年轻人中)的流行性是否会扭曲其研究结果的质疑就一直存在。围绕着这些新数据的类似辩论也不断出现。举个例子来说,脸谱网现在的用户接近10亿人,然而在这些用户中年轻人的数量大大超过其他群体。同时网络交流和现实的交流也存在着差别,对于一个领域的结论是否也适用于其他领域还不清晰。“我们通常从一个群体如何使用一种技术入手来推测该技术通用的使用情况,”哈佛大学网络科学家萨缪尔·阿贝斯曼(Samuel Arbesman)说,“这也可能未必是合理的。”
 
  支持者认为这些都不是新的问题。几乎所有的调查数据都包含一些人口变量方面的偏差,社会科学家已经研发出一些加权方法来纠正这种偏差。如果能够计算出特定数据集合中的偏差,比如脸谱网上某个群体的权重过大,那么这个研究结果就可以随之而进行调整。
 
  “在20世纪70年代,我们不敢想象可以大规模地利用这些数据进行研究。”
 
  脸谱和推特等公司所提供的减少偏差的服务也越来越广泛地被应用。即使还存在偏差,那么这种偏差也比用来研究心理学和人类行为的数据集中存在的偏差要小得多,这些研究的数据大多数来自于西方世界中那些高度工业化,富裕且民主的社会中的大学生。
 
  格兰诺维特对大数据进入其研究领域持一种更加哲学的保留意见。他说他对这种新的方法“十分感兴趣,”但是他也担心对数据的关注会减弱获得更好社会系统理论的需求。他说,“即使绝大多数计算社会学论文都聚焦于现存的理论,当然这是很有研究价值的,但是只有其中一小部分做了为当今所需的研究。”比如说,格兰诺维特有关弱连接的论文在发表了40年后还有很高的引用率。虽然这篇文章“多少利用了开放的数据”,他说,“但是其研究结果并不是来源于数据分析,而是对其他研究的反思。这是一个单独的活动,我们需要人们来进行这样的研究活动。”
 
  社会科学家这个新职业的出现也与数据处理的话题纠缠在一起。就职于位于帕罗奥多市的惠普实验室的计算机科学家贝尔纳多·休伯曼(Bernardo Huberman)在今年2月写到,“很多新出现的‘大数据’都来源于私人领域,而其他研究人员是无法获得这些数据的。这些数据源有可能被隐藏起来,不但存在验证问题,还涉及这些研究结果普适性的问题。”
 
  一个典型的案例就是脸谱网内部的研究团队利用其网站上9亿用户的交互数据来开展自己的研究,这些研究包括对地球上任意两个人之间的关系不超过六个人的小世界理论的再评估。(他们认为地球上任意两个人之间的关系不超过五个人)。由于部分涉及到个人隐私问题,所以这个研究团队只发表了其研究结果,而不是原始数据。在今年7月,脸谱网宣布说它正在制定一个计划,这个计划让其他研究者有机会对其内部团队用来得出结论的汇总匿名数据进行复核,但是该计划不仅有时间限制,还仅限于首次进入脸谱总部的外来研究者。
 
  就眼前来说,计算社会学家更关注他们学科领域的文化问题。包括哈佛大学在内的一些研究机构都在这个领域设立了研究项目,但是不同研究部门之间的学术领域几乎没有交叉。邓肯·瓦茨(Duncan Watts)是纽约的哥伦比亚大学的社会科学家和网络理论家,他回想起了近期的一个调研错误,该错误使他把计算科学和社会学的研究生召集到一起同时开会。他说到,“有足够的证据表明这两个群体可以互有裨益:计算科学专业的学生比社会学专业的学生有更多的方法论知识,但是社会学专业的学生能提出更多有意思的问题。虽然他们从不认识对方,也没有机会走进对方的办公室。”
 
  作为2009年宣言第一作者的哈佛大学社会科学家戴维·拉泽(David Lazar)认为很多研究人员还没有意识到这些新数据的能量。没有数据分析的文章也可以发表在顶级社会科学杂志中。而参加探讨社会议题的计算科学会议的社会科学家的人数却少的可怜,这样的会议包括今年6月在都柏林举办的博客和社会媒体的会议。
 
  尽管如此,拉泽认为,随着具有里程碑意义的研究论文发表在顶尖学术期刊以及社会行为数据集的首次可用,这些障碍正在被打破。他说,“这些变革正出现在我们面前,而不是身后。”
 
  当然这也是克莱因伯格的观点。他说,“我把自己看作是一个对社会问题感兴趣的计算机科学家,但是严格地限定研究的边界是很难的。”
 
 

资料来源 Nature

责任编辑 粒 灰

?相关链接?

“社会计算”有望增为我国新的交叉学科

  2012年1月7日,中国科学院学位评定委员会在京召开会议,同意在中科院研究生院设立“社会计算”交叉学科,并上报国务院学位委员会批准。根据中科院学位评定委员会的建议,此次拟新设立的“社会计算”学科是跨“控制科学与工程”、“计算机科学与技术”和“管理科学与工程”三个一级学科的交叉学科,学科代码定为“99J2”,拥有博士和硕士学位授予权,学位培养工作将依托中科院自动化所。
 
  按照国务院学位委员会的相关规定,中科院自动化所有望在今年成为我国首个“社会计算”研究生培养点,同时具备博士和硕士学位授予权。目前,国际上只有卡耐基梅隆大学(Carnegie Mellon University)和乔治梅森大学(George Mason University)开设了跟社会计算相关的博士培养点,密西根大学(University of Michigan)开设了类似的硕士培养点。中科院自动化所在社会计算领域的研究工作起步较早,研究实力和水平与国际同步,具备了设置社会计算这一新兴交叉学科的基础和实力。自动化所王飞跃研究员率先使用“社会计算”这一术语命名面向计算社会科学研究领域,并提出了基于ACP(人工社会Artificial Societies+计算实验Computational Experiments+平行执行Parallel Execution)理论方法的社会计算研究和应用框架。
 
  据悉,中科院自动化所已经开始“社会计算”交叉学科的建设工作,拟聘请王飞跃研究员为该学科的首席科学家,刘德荣研究员和曾大军研究员为该学科的学术带头人。今年,自动化所将依托下属的“复杂系统管理与控制国家重点实验室”,支持该新兴学科三部核心教材:《社会计算》、《社会信息处理》和《社会行为建模与管理》的编撰工作。

――摘自王飞跃博客http://bbs.sciencenet.cn/blog-2374-530620.html