经济学家斯蒂法诺 • 德拉维尼亚(Stefano Dellavigna)、德文 波普(Devin Pope)和伊娃 维瓦尔特(Eva Vivalt)倡导将研究发现同科学界、政策制定者和普罗大众的观点联系起来,用预测的方法改善社会科学研究,他们推出了收集社会科学研究结果预期的在线平台。

在经济学、心理学、政治学、医学等诸多研究领域,人们对那些能够提高研究严谨度和可信度的研究新设计——比如自然实验、实验室实验、随机对照实验——越来越感兴趣了。同样令人们越发感兴趣的还有那些能够提升学术透明度的方法,比如各项假说和方法的预登记制度。这些方法旨在缓解人们对改进研究方法自身无法解决的问题的担忧,比如“发表偏见”和“p值操控”。不过,虽然这些努力的确提升了研究结果的信息性和解释性,但人们却对同样可以达成这个目标的另一种手段不怎么关注,即将研究发现同科学界、政策制定者和普罗大众的观点联系起来。我们认为:研究结果预期的系统收集在如下的三种主要方法中应该是有用的:提升研究结果的解释性、削弱对无效结果的偏见、改进可预期的准确性和实验设计。

截至目前,只有一小部分研究收集了对研究结果的预期,包括预计原始研究结果的最近工作和学术研究的重复性。人们对学术研究成果预期的关注相当有限,这点和社会科学领域浩如烟海的相关文献形成了鲜明对比。这些文献既探索了人们对一般事务的预测能力,也探索了对宏观经济、地缘政治、体育赛事、政治决策等的预测能力。

在这里,我们要强调更加系统性收集研究结果预期的三大主要动因。第一条关系到科学进步的本质。某个领域新研究成果有时建立在共识之上有时却没有共识,而人们则是通过它的结论令人惊讶或平淡无奇来评判。反过来,新奇的研究成果又会促使人们更新自己的观点。然而,我们目前还没有形成系统程序在研究前捕捉对其预期结果的科学观点,也没有能在前期预期基础上更新观点。人们对这项研究发现的预期是什么?知道这个结果会如何影响对未来相关研究结果的预期?

当然,从非正式的角度上说,人们会根据已知事物按常规评估科研成果的新颖性。然而,他们通常是在事后做这种分析,也就是在已经了解新研究的成果之后。遗憾的是,一旦知道了结果,后见之明(“我早就知道了!”)的偏差会让研究人员难以准确掌握人们对结果的期待究竟是什么。这就凸显了事先系统收集结果预期的重要性。

举个例子,大家现在对各种行为因素和动作的激励效果争议很大。如果想推动别人做某件事,礼物的激励效果会比适度的金钱刺激更好还是更差?为了回答这类问题,研究人员开展了一项实验,测试了18种不同的行为和刺激手段(比如礼物、社会规范、金钱刺激)对被试者产生的激励效果。值得注意的是,研究人员在开始实验之前就获取了学术专家、大学学生等群体对每种手段的效果预期。

平均来说,专家的预期还是很准的。此外,借助这些丰富的数据资料,研究人员还能探索各类预期结果的各种特点,比如:“集体智慧”现象的强度、不同专业背景预测者的相对准确度差别。例如,在上面的例子中,高被引的教师的表现并不比其他教师好,而博士生的表现最好。

另一项研究则提供了一个示例:如何将预期应用于审视和改善研究结果基础上的信念更新。在与政策制定有关的例子中,一组政策制定者对“有条件扶贫”(conditional cash transfer,即不仅根据被资助家庭的贫困情况,而且还考虑其投资教育等等情况给与帮助的计划)和“学校餐饮项目”(school meals programs,一个针对公共和非营利学校的联邦校餐资助计划)的效果作了预期。他们的观点非常重要,不仅因为他们是提出和监管这些干预手段的人,还因为他们很可能要学习和运用这些干预结果。政策制定者比研究者和实践者更乐观,但更不确定。此外,政策制定者、实践者和研究者都更愿意依据正面的意外新闻而非负面的新闻,对于较大置信区间的结果和较小置信区间的结果,三者的反应没有大的差别,尽管有研究表明应该有差别存在。

收集预期的第二个好处是,它们不仅可以揭示研究结果何时与研究界同行们的期望有大的背离,并改进对研究成果的解释,而且还可能有助于减少“发表偏见”。声称研究发现不新奇的例子并不罕见。当研究人员发现无效结果时,情况尤其如此,即使作者使用的方法严谨、回答的问题重要,这些结果也很少发表。不过,如果在开展研究之前就收集到了预期,那么研究结果肯定会与专家事先的平均预期比较,而不会认为那是没有结果的无效假设。这样,研究人员就能确认其结果是在某些意料之外的,而这些结果也可能更加有趣、更有信息量,因为它们与研究界的事前预期不一致。这就有助于减少对无效结果的出版偏见。

系统收集预期的第三个好处是,它提高了预期的准确性。反过来,这可能有助于实验设计。例如,设想一个行为研究小组,帮助一个城市招募更加多元化的警察部门。该团队有十几个想法来接触少数族裔申请人,但由于样本数量少要达到足够的统计功效只能用三阶段测试方法。幸运的是,该团队已经记录了几年的预期,跟踪预期的准确性,他们了解到,他们在整合团队成员的预期可以给“超级预测者”更高权重。根据预期的纵向数据,该团队可以得出每个潜在项目的预期,并排除那些被认为成功概率较低的干预措施,或侧重于信息价值较高的干预措施。此外,如果与根据常识能够更好解释研究结果的预期配合,那么那些研究结果将进一步具有更大影响力。

上述三种预期的广泛使用突出了两个重要内容。其一,要想得出具有普遍意义的结论,系统收集预期数据是十分关键的一步。例如,既然在任务绩效激励的研究和预期中高级研究员的专业技能对没有帮助,那么,什么时候高级研究员的预期比初级研究员更准确?在何种情况下,政策制定者会在过去经验的基础上,以类似贝叶斯式的方法更新自己的预期?我们需要一定范围的预期,包括同一预测者群体随时间的纵向预期,以确定可能的超级预测者,并检查对以往预期提供反馈是否有助于提高预期准确性。

其二,与事前分析计划类似,要在知晓研究结果之前建立预期集,以避免事后偏见的影响。考虑到这些特点,收集未来研究成果预期的集中平台可以发挥重要作用。为了实现这一目标,我们同伯克利社会科学开放倡议(Berkeley Initiative for Transparency in the Social Sciences,BITSS)合作,建立了收集社会科学研究结果预期的在线平台(www.socialscienceprediction.org)。借助这个平台,个人也能追踪各项干预的预期结果,研究影响预期准确性的决定因素(比如预测者和干预措施的特征),确认超级预测者。

集中平台还有一个优点。由于收集预期越来越受欢迎,一小部分研究者可能会收到大量预期请求。而集中平台可以杜绝这种情况,这就类似于编辑在期刊内追踪审稿申请的方式。只不过集中平台做得更好,因为编辑不能在不同期刊间追踪审稿申请。集中平台的另一项好处是它能提供第三方认证:即预期如何收集及如何与研究人员分享(和用于预登记的平台类似)。

这个平台的宗旨是整合从其他预期工作中吸取的经验教训,例如:心理学和经济学领域的重复实验、“优秀判断计划”中对地缘政治事件的预期、“专业预测者调查”中对宏观经济指标的预期等。“开放研究和证据系统化信心”(Systematizing Confidence in Open Research and Evidence,SCORE)计划的目标是开发专业工具,用来预期社会-行为科学研究结果的可重复性和可再现性。

这个平台的细节还有很多值得推敲的地方。例如,参与项目的预期者是否应该得到报酬(就像某些期刊会给予审稿人酬劳一样)?我们期望后续的工作和实验能够为这类设计问题提供更清晰的答案。

虽然在本文中,我们把重点放在了事前预期对改善研究结果解释性的益处,但这类预期在研究和政策中还有许多其他潜在作用。有些研究人员会运用它们探索:何时的预期可以信赖,如何提高预期的准确性。还有一些研究人员则把重点放在了贝叶斯解释或者研究预期更新上。这类预期对政策制定者可能还有实际价值,他们需要在缺少学术研究可靠证据的情况下做出决策。如此之多的潜在用途很好诠释了这个工具的使用价值。

资料来源 Science