如果社会个体之间的相互作用可以描述,那么社会集体行为就可以建模和分析。

 

  24年前,2008年诺贝尔经济学奖得主保罗·克鲁格曼(PaulKrugman)写道:“经济学比物理学更难;幸运的是,不如社会学难。”13年前,多因·法默(DoyneFarmer,圣塔菲研究所金融经济学家)、马丁·舒彼克(MartinShubik,耶鲁大学数理制度经济学家)和埃里克·史密斯(EricSmith,圣塔菲研究所自组织研究专家)提出了这样一个问题:经济学是一门新的物理科学吗?如果你过去对社会学是一门新的物理科学表示怀疑,那么现在你可能会更加怀疑。
 
  对这两个学科的正常怀疑可能确实比今天一些物理学论文中的过度乐观要好。但是,在物理学和社会科学交叉地带有取得丰硕成果的迹象,其中大部分与计算社会科学这一新兴领域有关。这种趋势是由工程师和计算机科学家提供的新的社会数据驱动的,工程师制造了记录我们日常生活数据的传感器,计算机科学家研发了收集这些数据的专门软件。为了阐明社会学、经济学与物理学之间发展中的关系,我们不妨回到历史。
 
  苏格兰哲学家休谟(DavidHume,1711―1767)在著作《人性论》(ATreatiseofHumanNature)中提出以数学和物理的精神建立人类的新科学。在19世纪,新的物理理论出现。电磁学表明,电和磁两种看似不同的现象其实可以从共同角度理解。热力学引入了一个新的抽象概念:“系统”。法国哲学家奥古斯特·孔德(1798―1857)提出,社会遵循一般规律,就像物理世界一样。为了确定法律的经验基础,比利时统计学家阿道夫·凯特勒(AdolpheQuetelet,1796―1874)将概率论应用于有关人类的数据。在他的著作《论社会物理学》(EssaysonSocialPhysics,1835年)中,他根据正态分布导出了普通人的统计规律。例如,他定义了体重指数来量化肥胖,他还分析了犯罪和公共卫生。凯特勒用“社会物理学”这个术语称呼自己的统计方法,孔德知晓之后,造了“社会学”一词来称呼他的人类和社会新科学。
 
  20世纪,在设计新的基础理论时,物理学再次成为模板。相对论修正了空间和时间的概念,量子力学引入了不确定性原理,二者为观察者的角色和观察过程带来新的认识。现代物理学对哲学和社会科学有着广泛的影响,其影响程度似乎令人惊叹。20世纪后半叶,这种影响不再是通过一般理论,而是通过通用和抽象的建模方法。早在20世纪40年代,晶格模型(latticemodels,后来被广泛称为元胞自动机)就被用于研究社会隔离(socialsegregation)。这些模型具有可调参数,如迁移距离、街区内可容忍居民与不可容忍居民的比例。
 
  元胞自动机的价值明显在于其模拟和可视化社会动力学的能力。然而,一些元胞自动机也可以进行正式分析。恩斯特·伊辛(ErnstIsing)在1924年提出了伊辛模型,作为解释铁磁性的抽象自旋系统。具有+1或-1值的旋转位于一维或二维晶格上。根据相邻自旋之间的成对耦合常数的强度,从伊辛模型中可得到铁磁相(各格点的自旋值都相同,称为自旋平行)或反铁磁相(相邻自旋值都不同,也称自旋反平行)。通用模型后来成为观点动力学的典范,正面和反面的旋转代表不同观点。但是,伊辛模型在社会现象方面获得的洞察力是相当有限的。在观点动力学中,我们比较感兴趣的是两个问题,一是达成共识的条件(对应于铁磁相),二是不同观点如何稳定共存。选民模型和其他简化模型形式化了此类的分析,并且把这类分析扩展到各种的拓扑结构,包括网络。但选民们并不在这些模式中投票。相反,他们复制了随机选择的自旋的“观点”。
 
  这些模型令社会物理学家兴致盎然,但并没有给社会学家带来什么影响。复制物理见解(如相变和标度定律)的一般建模方法可能会揭示很多关于统计物理的知识,但很少揭示关于社会动力学的知识。仅仅使用物理隐喻和类比并不能使物理获得应用,物理学家注意到现有的社会理论属于极少数情况下的明显例外。其中一个例子就是社会影响理论(socialimpacttheory),社会心理学家在20世纪80年代提出了这一理论,用以描述个人如何成为社会影响的来源和目标。这个理论的基础是社会力的概念,与物理力的概念类似。个人可以说服与自己意见相左的人,支持与自己意见相同的人,但是他们的影响力与社交距离呈比例关系。将这种相互作用进行计算机模拟时,能观察到志同道合的个体形成团体,但是这种现象比伊辛模型之类的模型要丰富得多。
 
  社会理论应用于社会物理学并取得丰硕成果的另一个例子是文化传播模型。文化传播模型是美国政治学家罗伯特·阿克塞尔罗德(RobertAxelrod)于1997年最早提出的(见图1)。其社会物理学版本可以看作是波次(Potts)模型中的意见动力学的一般化。Potts模型是伊辛模型的推广,其自旋可以具有两个以上的值。文化传播模型旨在结合社会机制,如同化(个体通过互动变得更加相似)、同质(相似的人互动更频繁)。
 
  20世纪70年代,自组织(现在复杂系统理论的前身)等概念形成,不同的社会物理模型遍地开花。自组织被看作是一个普遍的概念:系统动力学的关键不是系统的元素,而是它们的动态交互。因此,对贝洛索夫-扎鲍廷斯基(Belousov-Zhabotinsky)反应和其他物理化学系统的结构形成原理的洞察可以推广到生物或社会系统。自组织理论确实在社会物理学中找到了应用,主要是作为社会动力学的正式方法。它的应用包括迁移和观点动力学。但是,正如其时代的典型,它缺乏与社会数据的联系。
 
 

1 文化动力学。二维正则点阵上每个个体(agent)为代表其文化的特征向量,特征可以是饮食、宗教等,其不同的可能性(如粤语、佛教等)称为特质。图上不同的深浅表示不同的文化。一个个体与近邻个体相互作用的概率随特质 重叠程度而增大。因此相似的个体会变得更加相似。模拟初始时刻,给各个体随机赋予特质(见左图),大部分情况导致共享相同文化的个体的共存(见右图),其他模拟则形成单一文化

 
  1995―2005年的10年间,随着小规模模拟的便宜计算能力成为可能,社会物理学话题在物理学界开始兴起,几乎所有社会问题都被建模和模拟,意见动力学、婚外情、有性生殖、语言演化、等级出现等,所有这些现象都引起了社会物理学家的注意。这些模型的优点和缺点在于其简单化。比如,在模拟儿童如何学会说话时,生成机制(产生某种效应的过程)是未经证实的先验假设。对系统动力学的生成机制的影响和某些反馈机制的作用进行研究,并不需要将问题的所有细节都考虑进去。
 

计算社会科学

  最近,物理学家对社会经济问题的兴趣一定程度上是所谓大数据的驱动。在20世纪90年代中期,物理学家开始分析金融市场的大数据,其热情不亚于20世纪80年代中期分析高能物理实验的大数据,导致了经济物理学的大发展。在2005年左右,物理学家开始对互联网上,尤其是在线社交网络上的大数据感兴趣,最关注是搜索数据中的特征模式和普遍的统计规律,与经济物理学的情况很类似。
 
  经济物理学的探索很好地呼应了凯特勒早期总结统计规律的工作,并得到很多有意思的发现。比如,人际交流中,两紧邻消息之间的时间间隔满足幂律分布(见图2),并且指数普遍适用于各种交流媒介。发现的其他普适分布还有比例代表制中的选举投票、学术论文引用次数等。
 

2 人际交流似乎是无标度现象。同一人发出的两个连续消息之间的时间间隔,也称为交互时间间隔:τ,遵循幂律分布P(τ)∝τ^(-α),其中α≈3/2。不管是何种媒介(信件、email、在线聊天)的分析,结果都很可靠(图中所示)。曲线在103分钟处的轻微鼓包表明的是以天为周期的节律性

 

  这些发现恰说明了英国经济学家尼古拉斯·卡尔多(Nicholas Kaldor)提出的“程式化事实”(stylized facts):即社会世界的规律性在不同的观察中都是可靠的。物理学家发现了可以重现这种规律性的动态机制,但并不声称这些机制能捕捉到社会互动的要点。尽管如此,物理学家强调的普遍性也激起了经济学家和社会学家的关注,并对其重要性和起源提出了质疑。如果社会现象属于物理普遍性的范畴,这对人类意味着什么呢?如果社会现象不属于物理普遍性的范畴,这对人类又意味着什么?

 

https://images-na.ssl-images-amazon.com/images/I/41Jbti73xkL._SX325_BO1,204,203,200_.jpg

亚历克斯·彭特兰的著作《社会物理学》

 

  社会物理学当前的趋势与现在所谓的“计算社会科学”密切相关,计算社会科学以数据驱动的方式研究社会现象。这些数据显示了人类在使用手机、在线社交网络、搜索引擎、网上银行等方面的电子化。社会学既没有要求使用也没有准备好使用这样的数据库,尽管数据库将以往经验分析的范围扩大了若干数量级。这样就产生了数据空洞,这个空洞由工程师和计算机科学家填充,即工程师建造和安装更多的传感器,计算机科学家收集和处理巨量的数据。
 
  亚历克斯·彭特兰(AlexPentland)的著作《社会物理学》(SocialPhysics)和最近其他有关社会物理学的论著与物理学几乎无关,更多是关于大数据的分析。在这方面,他们与孔德哲学的初衷是共通的,即将知识建立在观察和实验的基础上。但是,大数据分析不去理解现象背后的一般机制,而是聚焦于以下方面:监管过程(如交通流量)、开发应用程序(如利用大数据的优步)、实际问题(如预测热门网购产品)。
 
  尽管大数据分析不注重对现象的理解,但大数据的新趋势为创建完全基于数据处理的新社会科学带来了希望。2008年,《连线》杂志主编、物理学家克里斯·安德森(ChrisAnderson)在文章中写道:“面对巨量数据,假说、模型、验证的科学方法已经过时。”《连线》杂志要报道的是千兆时代:“传感器无处不在、无限存储空间、云端处理器。我们捕获、存储、理解巨量数据的能力正在改变科学……随着我们收集的事实和数字的增长,我们找到基本问题的答案的机会也在增大。因为在大数据时代,多不仅是多,多是不同。
 
  安德森声称:新科学由数据和技术驱动,这没有什么错。但是,科学最重要的成分是(且一直是)研究的问题。数据科学可能有助于回答一些基础的研究问题,但是本身却不会提出问题。首先收集数据,然后查看可以提取哪些模式的做法将识别新的和主要是假的相关性,但这不会使我们理解因果关系。在社会学中,问题不仅仅在于如何,还在于为什么。因此,我们需要新类型的模型来体现社会系统动态背后的“推理”。

 

数据驱动建模

 

  开发这样的模型是物理学面临的技术挑战和概念挑战。物理学家依赖对复杂系统的一般理解,而复杂系统是物理学家与其他学科的研究人员合作开发的。复杂系统由大量强相互作用的元素组成,这些元素一般称为个体(agent)。在统计物理学的传统中,复杂系统的研究目的是预测个体相互作用的集体效应。复杂系统研究主要有两种形式化的方法:导出系统宏观动力学的随机方程、建立系统模型的数值方法。事实上,基于粒子的模拟方法与基于个体的模型方法有颇多共同之处,前者应用于计算物理学,后者存在于社会学、经济学以及计算机科学。
 
  如前所述,过去的大多数社会物理学模型旨在揭示一般观点,这些模型的有限复杂性不能反映任何特定社会系统的复杂性。因此,这些模型不能根据实际数据进行校准和验证,大数据也无法解决验证问题。我们需要的模型是可以根据实际数据进行校准和验证的模型。
 
  以前的大多数社会物理学模型所忽视的另一个问题是个体本身的复杂性。表示人的个体几乎不可能仅用向上和向下的自旋表示。人的决定反映了个人偏好、社会规范、他人影响等。把这些因素都考虑进去不仅仅是增加自由度的问题。在社会经济系统里,个体还是异质的,即在类似情形下,个体却有大为不同的相互作用方式。个体还具有适应性,能通过从经验中学习而对系统的激励和变化做出响应。同时,个体还会通过消耗资源、创新等活动改变系统。异质性和适应性使得对社会经济系统的预测变得非常困难。
 
  成功的社会物理学模型往往与经验数据和社会理论都有联系。如果不联系社会理论,人们也依然可以发现有趣的现象和新的结果;但是,在这样的情况下,这些现象和结果如何与现有的学科知识进行联系并不清楚,发现的影响也比较低。与经验数据的联系有助于定义模型要解决的问题,通常是在需要解释或甚至创建的新数据方面。尽管机器学习方法本身也可以对数据进行分类和做出预测,但不能创建生成机制背后的模型。
 
  成功的社会物理学模型也可以将微观和宏观联系起来,即将局域小尺度上的相互作用的个体与整个系统层面的大尺度上的动力学联系起来,并且所建立的联系是具体和可检验的。理想情况下,这样的社会物理学模型遵循数据驱动建模的原则:根据相关学科(如语言学、人类学)的标准对个体进行建模,基于个体的模型允许用经验数据校准相互作用机制,模型将通过模拟的系统动态与观测的定量对比进行验证。
 
  该方法的一个应用是行人动力学。个体模型考虑到了行人间的社会力、优先行进方向、障碍。结果是行人集体动态的实际模拟,可应用于模拟恐怖袭击或其他恐慌情形下的逃生动态,也可用于优化建筑和街道的设计。类似的模型可描述各种动物的群行现象。
 
  成功数据模型的另一个例子是预测流行病的扩散,比如:通过全球航空运输,根据校准后的模型提出控制流行病的策略。第三个例子是模拟集体情绪动态,个体之间的情绪互动的假说已经用数据进行检验。校准后的模型可以正确重复多个在线平台上的大尺度情绪影响。

 

情绪影响

 

  人们在亚马逊网站上阅读书籍和其他产品的评论时,可以对评论进行评级,如有帮助或无帮助。人们也可能受到启发,撰写并提交自己的评论,除了对产品进行0至5星的评分外,还可以体现评论者的情绪,从恶语相加到热情洋溢等。亚马逊网购客户在情绪上相互影响的程度如何?
 
  为解决这个问题,我和同事大卫·加西亚(DavidGarcia)分析了亚马逊网上16 670件产品的180万条匿名评论。我们用文本情感检测器自动对评论进行打分[10分制、最低-5分(高度负面)、满分5分(高度正面)、0分不计]。我们利用布朗个体框架(Brownian agent framework)得到了集体情绪分布。
 
 
 

复杂网络

 

  行人、流行病、情绪动态的模型似乎与电磁学、热力学以及物理其他分支相距甚远。但是,与传统物理一样,这些模型使我们对真实世界的现象(这里是社会现象)理解更深刻。尽管物理学的概念不可以推广至其他学科,但物理学方法可以对社会科学的系统建模作出大有裨益的贡献,尤其在一般方法方面。方法方面的贡献不限于相互作用的系统,还可延伸至统计模型,前者主要处理基于个体的模型,后者主要是检验数据生成过程中的假设。
 
  这些模型属于机器学习的领域,因为有巨量数据可资利用。机器学习现在非常重要。高效处理TB级数据在技术上很有挑战;另外,因为数据包含的关系信息,处理结构复杂、中等数量的数据在科学上也很有挑战。结构复杂数据的例子有:朋友和家庭成员的在线社交网络、学术论文引用网络、专利数据库和其他知识库的搜索模式等。物理学家发展的信息提取方法超越了计算机科学或社会科学的方法。该方法属于社会物理学的另一个领域:复杂网络。我们下面详细谈谈。
 
  复杂网络是复杂系统的一种表示方法。个体用节点表示,个体之间的相互作用用网络的链接表示。系统的特征取决于相互作用的结构,即网络的拓扑结构。和基于个体的模型相比,网络模型有不同的强项和弱点。网络节点(即个体)的内部动态没有明确的模型。另外,所有类型的相互作用都分解为个体之间的两两相互作用。如果个体之间有多个相互作用,复杂网络方法的适用性就很受限制。
 
  另一方面,利用拓扑模型对复杂系统进行建模,在社会科学中产生了可应用的、有影响力的见解。一个例子是小世界网络:当节点与其本地邻居之间的某些链接重新连接到遥远的节点时,这样的网络就会出现在正则晶格结构中。重新布线会产生短路径长度(任何两个节点之间的连接)和高聚类系数(三相邻节点之间的链接形成三角形)。社会科学家已经独立讨论过类似性质,因此他们可以把社会学的理论基础与明确的生成机制联系起来。
 
  另一个利用拓扑结构的例子是谷歌的佩奇排名(PageRank)。PageRank算法根据链接到某网页的其他网页的数目和重要性来定量确定该网页的重要性。从数学上讲,PageRank算法包含了一个本征值问题的解;本征值问题在物理学中是众所周知的,其重要性度量与特征向量中心度有关。由于特征值问题的一般性质,网页排名根据其互连性而不是内容来评估网站的相关性。
 
  这种拓扑分析需要网络的知识,而网络知识必须从数据中重建。默认情况下,网络是时间积累的,不考虑用户到达一个给定的网页前访问其他网页的顺序。然而,如果把时间相关性也包括进去,重要性排序将发生非常大的变化,可以获得与内容相关的信息(如图3所示)。利用高阶马尔可夫模型可计算时间条件,在这种情况下,阶表示浏览路径中记忆的持久性。从马尔可夫模型我们还可以确定:在什么条件下,重构网络时可以忽略时间相关性。

https://physicstoday.scitation.org/na101/home/literatum/publisher/aip/journals/content/pto/2018/pto.2018.71.issue-2/pt.3.3845/20180125/images/large/pt.3.3845.figures.online.f4.jpeg

左图 为框架示意图,里面包含一个得到公认的情绪影响心理模型:环形模型。个体的情绪状态用效价vvalence)定量,效价表示情绪的愉悦度,取值范围从-5(高度负面)到满分5(高度正面)。唤醒度a(Arousal)表示情绪引起的活动,比如购买或评价。当a超过某阈值时,个体就会表达某种情绪,情绪水平用s表示。个体通过社交媒体和其他方式传播和接受情绪信息h,信息媒介受制于外部情绪影响I,比如主流媒体对产品的报道

右图 为将模型应用于图书《哈利波特与死亡圣器》所得模拟结果。浅条是评论的真实情感值,深条是对应的模拟结果。研究表明,个人确实会受到其他人影响

 

 
  社会学家早已使用社会网络分析来刻画静态网络中节点的结构位置。物理学家的主要贡献是提供了集成方法。与统计热力学一样,复杂网络中的整体决定何种拓扑结构能够兼容:具体约束、各种可能的结构、网络的预期特性等。比如:利用集成方法,我们可以确定个体的特性,如性别、共同朋友、爱好、影响链接的形成。这样的结果可用于形成关于因果机制的假说,社会学家可以在相关领域检验该假说。
 

http://physicstoday.scitation.org/na101/home/literatum/publisher/aip/journals/content/pto/2018/pto.2018.71.issue-2/pt.3.3845/20180125/images/large/pt.3.3845.figures.online.f3.jpeg

3 高阶网络模型可以改善网站的信息排名,这可以通过分析用户浏览维基百科的点击数据加以说明。两图展示了用PageRank算法获得的排名前30位的维基百科条目。两图由相同的数据获得,但有两种网络模型。一阶模型只考虑维基百科条目的图的结构,排名结果是含糊的。二阶模型添加了隐藏于用户访问顺序的时间信息,排名结果更好匹配用户认为的最重要条目和更准确的语义环境

 

超越学科界限

  物理、社会科学、计算机科学和工程在内的所有学科都能从社会物理学和计算社会科学的研究中受益。在社会物理学和计算社会科学中,进一步推进研究的挑战和障碍是什么?
 
  无疑,制度方面要改革。大学教育应该要开设社会物理学所需相关知识的课程和学位,网络科学和复杂系统领域的现有课程可以作为起点。社会物理学还需要高质量的学术期刊,期刊以课题和问题为中心而不是以方法和学科为中心;相关科研成果可以集中展示在这样的期刊上,这样就不会散落于各学科的边缘,得不到广泛关注。教职招聘和评定委员会也应该认识到多学科背景的科学家额外努力的价值。
 
  必须鼓励不同学科的人互相尊重彼此对学科的贡献。互相尊重的起点可以是承认:在当下,没有一个学科具备真正理解人类社会的所有工具、方法、理论、知识。数据挖掘、自然语言处理、机器学习以及人工智能的其他应用目前还不是物理学的核心方法,但是,物理学家应该欢迎这些方法,因为这些方法可以使物理学家接触到通常没有的数据和分析方法。
 
  对社会现象真正感兴趣的物理学家也应该深入了解社会科学所积累的巨量知识。事实上,缺乏对社会科学家工作的意识和理解,正是社会科学家对社会物理学论文的主要批评之一。对于社会学家来说,他们应该认识到,将计算科学应用到社会领域,他们需要与其他学科的研究者进行前所未有的合作。社会学家对程序化事实和普适分布的厌恶可以通过形成模型而克服,这样的模型可以解释基于学科理论的发现。
 
  在合作开始之前,合作方对多学科协作的期望要现实一些。认为不同学科的科学家凑在一起就能填补彼此的知识欠缺,然后就能共同创造出合作领域最新水平的结果,这是天真的想法。许多合作最终归于失败的原因如下:不同学科之间的科学语言障碍、科学文化的差异、哪里发表结果的争议等。
 
  科学家个人还应该对自己的期望现实一些。虽然面临从方法驱动转向问题驱动的挑战,许多社会物理学家最终发现,他们的真正兴趣在于基于物理的方法,而不是社会现象或数据处理。因此,潜在的社会物理学家可能会放弃前期的投入,搜集社会科学和计算机科学的必要知识。这么做有相当大的风险,可能不会得到社会科学家、物理学家或机构的认可。
 
  然而,那些愿意付出努力的人可以受到越来越多的社会物理学成功应用的激励和指导。他们可以从迷人的发现、复杂的方法和现实世界的问题中汲取灵感。他们可以为正在发展中的计算社会科学奠定基础。
 

资料来源 Physics Today

任编辑 岳峰

____________________

本文作者弗兰克·施魏策尔(Frank Schweitzer)是瑞士苏黎世联邦理工学院系统设计教授。