科学研究中的统计危机

发布时间：15年02月28日

编译方陵生

201410720165410613-2014-11GelmanF1

依赖于数据的统计分析，一个“小径分岔花园”的问题解释了为何许多具有统计学意义的比较并不是那么地靠谱。

　　现今，人们越来越多的意识到，一些科技出版物中的所谓“具有统计学意义”的宣称，往往可能是不太靠谱的。研究人员通常对p值数据很有信心，p值（概率）是一种随机变化的观察结果，即对数据集提供的证据与零假设进行比较的一种统计测量方法。按照惯例，p值低于0.05被认为是对零假设的一个有意义的否定，然而，这样的结论可能并不如表面上看起来的那么可靠。

　　p值概念最初是由英国统计学家罗纳德·费舍尔（Ronald Fisher）于上世纪20年提出的，其本意是保护研究人员不受嘈杂数据，即无意义数据信息模式的影响。具有讽刺意味的是，p值如今常被用来作为基于小量样本嘈杂数据信息得出某个结论的佐证。

　　举例来说，假设对美国民主党和共和党在医疗保健等方面进行测试，测试题可能不涉及具体调查内容，如派系与数学解题之间的联系。而零假设是，具体背景条件与测试任务无关或相关，即双方测试成绩差异与其在医疗领域的具体背景条件相关。

　　此时可进行大量符合研究人员推论的比较。例如，男性群体的零假设可以否决（指具有统计学意义的零假设），其依据是，男人比女人的意识形态更强。还有一种模式在女性群体中比男性群体更为明显，即女性对于背景条件比男性更为敏感，或者说这种模式在男女群体中都具有统计学意义。

　　目前医疗保健是一个高度政治化的问题。独立人士和无党派人士如何处理这些问题，取决于他们在数据样本中所占数量的比例，有可能完全被排除在外。于是，一个首要的假设就是，问题的背景条件与党派之间的交互是否会对问题的解决产生影响，即对决策变量存在多重选择的可能。

　　而多重比较问题是一个众所周知的概念，在统计学中被称为“p值黑客”，是由心理学家约瑟夫·西蒙斯（Joseph Simmons）等人在2011年提出的。

　　本文的主要观点是，如果数据分析人员没有有意识地对数据进行筛选排查，或明确进行多种数据比较的话，可能会存有潜在的多种比较。也就是说，数据分析的具体细节与数据高度相关，并往往有可能导致p值无效。

如何对某个假设测试

　　一般来说，我们对假设的测试可以分成四类：（1）基于单一统计数据T值的简单的经典测试，产生的数据结果为T（y），y代表数据；（2）从可能的几种测试方法中预选某个统计值的经典测试，产生的数据结果为T（y，φ），式中φ为预定值（例如，φ可能对应于一些起主要作用或相关作用的控制变量）；（3）研究人员单纯对数据信息进行统计分析，对不同的数据集进行不同的测试，产生的数据结果为T（y，φ（y）），式中φ为观察数据；（4）直接对数据进行“钓鱼”，即指非法数据调查，在j=1，……J时，计算T（y；φj），在进行J测试时得出最佳结果数据T（y，φbest（y））。

　　考虑到以上所述的各种选择，以及实际研究中的各种可能性，要寻找统计学上有意义的结果（几乎可以肯定在0.05甚至0.01之间寻找），其难度是难以想象的。在这种情况下，研究人员只需进行基于这些数据的一种测试，得出结果为T（y,φ（y）），这种方法似乎是有意为之的“钓鱼”，为的就是要得出这样的结果。正如政治科学家玛卡尔坦·汉弗莱斯（Macartan Humphreys）等人于2013年所写的那样，一位研究人员在面对多个合理结果时可能会想，其中较少嘈杂数据的测量结果很可能是对的，并据此得出推论，这时他很可能就是错的。在之前提出的一些假设例子中，医疗背景条件的不同，可能会导致不同的结果，就是一个例证。

　　在小尺度效应背景下，这样的错误有特别的风险，样本规模越小，测量误差越大，变量差异也越高。而样本规模较大，测量误差较小，变量差异也较低。用贝叶斯计算理论来解释（即p值是指给定数据的假设合理性，而不是相反），任何基于数据的结论，如果在先验上更有可能，那就更为可信，如果估计有更多错误，那就不太可信。

　　要想获得具有统计学意义的结果，如果在数据收集时不抱偏见，即使从相当嘈杂的数据中，也可以通过反复比较、数据排除、分析不同相关关系和控制不同预测因子等方法，得到具有统计学意义的结果。但在现实中，研究人员会带着很强的实质性假设进入某项研究，在某种程度上对于任何给定的数据集，合适的分析似乎是显而易见的。即使选择的数据是用于分析其的一个确定性函数，也无益于消除多重比较带来的问题。

手臂力量与经济地位

　　2013年，丹麦奥尔胡斯大学的迈克尔·彼得森（Michael Petersen）团队发表了一项研究报告，声称发现男性上身力量与其社会经济地位之间，以及他们对经济再分配态度之间的联系。文章以手臂力量为代表，认为社会经济地位（SES）较高的男性反对财富的再分配，而社会经济地位较低的男性则支持财富的重新分配。

　　值得注意的是，作者报告了有统计学意义的交互关系，但没有统计学意义上的主效应，即他们没有发现较大臂围男性对经济再分配持更保守的立场，只是发现较高社会经济地位的男性其臂围与反对再分配财富之间的关系。如果发现了主效应（两个方向的效应），理论上他们可以得出一个合理的解释。如果没有主效应，也就没有交互影响，他们或会去寻找其他的交互影响。例如，学生有或没有年长兄姐进行比较的交互影响关系。

　　我们在2013年的一份报告中表明，“p值黑客”可能意味着对统计学意义的积极追求。当然，对于统计学家来说，在数据的基础上完善他们的假设是合理的。当所需模式没有作为主效应出现时，再观察其交互关系也是有道理的。例如年长兄姐的交互关系，这种家庭关系在进化心理学上的解释通常被认为是很关键的。

　　当然，在一些统计调查中也存有一定的自由度，例如在不同国家进行的调查问卷，研究人员会发现，丹麦的一些问卷内容如果由美国人来回答，答案会是完全不同的。之后进一步的解释是，“当这些不可靠的问卷项目被删除之后……交互效应就有意义了……。”

　　2013年，心理学家布雷恩·诺塞克（Brian Nosek）等人公布了他们复制的实验案例――一个认知判断和政治态度的实验。在这项他们称为50灰度的研究中，诺塞克等人发现了政治极端主义与黑色或白色图像而非灰度中间色感知能力之间的一个具有统计学意义的交互关系。最初估计分析，复制实验有99%的机会达到统计学的意义，p值<0.05。但事实上，复制尝试是不成功的，p值为0.59。

　　虽然没有达到预期结果，但重要的是这项实验所表明的具有统计学意义的p值不能从表面值取得，即使某种比较与现有的理论一致。

超感知觉（ESP）研究

201410720181410614-2014-11GelmanF2

英国统计学家罗纳德·费舍尔定义的统计学意义应小于0.05p值

　　2011年，一个可能是虚假统计学意义的案例引起了争议。康奈尔大学社会心理学教授达里尔·贝姆（Daryl Bem）声称找到了超感知觉（ESP）的证据。在他的第一次实验中，100名学生参加了可视化图像的测试，在情色图片测试中他发现了具有统计学意义的结果，而在非情色图片中则没有什么发现。随后在一些失败的复制实验尝试后，由此引起的争议逐渐消退。但是，它作为一个案例仍然为人们感兴趣，它表明在任何领域内，调查人员可以利用普遍接受的研究实践去发现统计学上的意义。

　　贝姆在论文中提出了九种不同的实验方法和许多具有统计学意义的结果，即多样化的自由度让他可以继续寻找，直到他找到自己想要的东西。但考虑到与他能获得的其他许多比较，如果受试者能够识别的所有图片高于统计学意义上的概率，那么肯定会被作为ESP的证据。但如果非情色图片测试成绩更高呢？人们可以很容易地辩驳，情色图片容易分散注意力，只有非情色图片才是ESP现象的一个好的测试对象。如果受试者在统计学意义上的表现明显好于前半段，显然是通过学习获得提高的证据，但如果上半段成绩更好，那显然是因为后半段注意力疲劳的缘故。

　　贝姆等人在论文中反驳了这些批评意见，称他的假设是一种试探性研究。“这个假设的特异性源于早期的几个‘预感’实验，如1997年或之前的研究表明，参与者显示异常的‘预知’能力，在看到情色图片几秒钟之前便产生了生理冲动，但在看到让人心情平静或非情色图片之前则未出现这种情况。”他们也将情色图片与非情色图片混杂展示，以观察参与者是否能够预测这些图片出现的左右位置，结果发现他们不能。贝姆等人认为，这一发现“与预感实验的结果一致。”

　　我们没有理由怀疑上述对动机的描述，但似乎很清楚的是，每一个科学假设都对应于多个统计学上的假设。例如，关于“生理冲动的异常预知能力”的描述，假设实验受试者对于情色图片在统计学意义上的表现较差，这个结果同样也符合这一理论。理由是，异常冲动可能干扰有效的预知过程。

　　贝姆坚称他的假设“不是通过事后数据探查形成的”，而是以数据为依据的分析结果。例如，如果男性在情色图片测试中或女性在浪漫图片测试中表现更好，那么就没有理由认为这样的模式看起来会像是“钓鱼”或“p值黑客”，相反，它将很自然地被视为与研究假设相符。因为有大量文献表明男女对视觉性刺激反应的性别差异。

月经周期与选举投票

　　2013年，心理学家克丽丝蒂娜·杜兰特（Kristina Durante）等人在《心理科学》杂志上发现了一篇基于调查数据的论文，该论文声称“排卵让单身女性产生更多自由倾向，更少宗教信仰，且更可能投票给奥巴马。论文还称，在已婚和排卵期的女性中，有40%的人支持罗姆尼，而非排卵期的女性中，支持者只占23%。相比之下，排卵让已婚妇女更保守，更多宗教信仰，更可能投票支持罗姆尼。总之，排卵周期会影响女性的政治倾向。

　　对于报道中的具有统计学上的意义，是否意味着我们要义不容辞的相信，或者至少考虑数据是支持他们假设的有力证据呢？非也，理由还是那个“小径分岔花园”的比喻，即使杜兰特等人只对看到的某个特定的数据集进行分析，他们也可以进行其他分析，从中得到与他们理论一致的结果。

　　事实上，论文中关于交互作用的描述（已婚女性和单身女性的不同模式）与作者的理论视角（排卵引导妇女优先保护拥有遗传适应性指标的基因利益)相符。正如作者所指出的那样，他们的假设“符合这一想法，即女性应该会支持更具自由倾向的候选人。”或者假设数据遵循相反的模式，随着排卵期的到来，持保守或自由态度的女性的投票倾向性也随之发生改变。其他需要考虑的自然交互影响，还包括年龄或社会经济地位等（如前文提到的臂围因素）。

　　初一看，这些描述可能显得微不足道，或者研究人员从中发现了与他们理论相一致的大的影响因素。那么为什么我们还要如此挑剔呢？我们认为，呼吁人们关注这些缺陷是出于两个原因。首先，声称月经周期导致20%的投票意向差异，实质上是难以置信的。有证据表明，很少有人会在总统大选活动期间改变他们的投票意向；其二，所发表的统计学意义的比较结果是作者论文的中心部分（如果没有p<0.05的结果，是不会被发表在顶级期刊上的），所有潜在相关性的高度多样性也与此有关。

　　除了主要效应和交互作用的选择之外，杜兰特和她的合作者还有几个政治相关问题需要处理（政治态度及投票意向)，其他人口统计学变量（年龄、种族、生育状况）以及婚姻关系的弹性（例如，曾经的“单身”与“已婚”选择栏，后来就变成了,“单身”与“一段恋情”选择栏）。

数据处理与数据分析

　　2013年，心理学家亚历克·比埃尔（Alec Beall）和杰西卡·特蕾西（Jessica Tracy）在《心理科学》杂志上刊文说，生育高峰期的女性在月经周期爱穿红色或粉红色衬衫的比例是其他女性的三倍。他们的理论认为，这可能基于这样一种理念，红色或粉红色对异性更有吸引力，脸色看上去也更健康。

　　特蕾西和比埃尔在网站上称，他们进行研究的“唯一目的是对一个特定的假设进行测试：怀孕风险会增加女性对红色或粉红色穿着的倾向性。”他们是引用了大量研究成果得出这一假设的。

　　似乎很明显的是，他们的分析是依数据而定。在他们特定理论的框架内对于数据的筛选和分析可以有许多的选择。最重要的是，他们的实验报告和分析是没有预定的。尽管比埃尔和特蕾西所作的分析符合他们的整体研究假设。我们也相信他们所说的，他们没有进行“钓鱼”（即指非法数据调查），他们的特定决策仍然有许多的自由度，包括如何严格设定被调查女性的年龄标准、色调标准，以及潜在交互作用的查验和将不同比较结果进行综合还是对比，等等。

　　在上述这个例子中，比埃尔和特蕾西是一方，杜兰特和她的合作者是另一方，他们在类似事件的启发下，同年在同一份杂志上发表了各自的论文。但在细节上他们则有所不同，都在自己选择关注的比较数据分析中发现了具有统计学意义的结果。这两项研究对女性的生育年龄进行了调查，但一项研究描述的是其主要影响，而另一项研究描述的则是单身女性和已婚女性之间的区别。但无论哪种情况，规则和数据分析选择都不是事先预定好的。

　　在小径分岔的花园里，无论你采取什么样的路线，道路似乎都是预定好的。而在实际研究中，研究人员并不通过多个测试来确定哪个才能获得最佳p值。相反，他们使用自己的科学常识，考虑所拥有的数据资料，以认为合理的方式来制定某个假设。但如果认为，是选定的特定路径产生了具有统计学意义的结果，就是支持他们假设的强有力证据，这么想就错了。

我们能够做些什么？

　　任何看起来相对比较难的研究，总可能会找到缺陷的。我们有很多取决于数据的分析工作，我们一直在宣称一些具有统计学意义的结果，而忽略了数据选择的偏向性或多重比较引起的一些问题。所以我们也要谈谈积极的方面，以避免只是扮演一个被责难的统计员的角色。

　　根据我们的经验，以数据为依据来完善自己的研究假设是一种良好的科学实践，进行这类实践的科学家也敏锐地意识到数据挖掘的风险，他们使用置信区间（置信区间在广义上即区间估计，在各式各样的量化研究中有广泛的应用――译注）和p值作为工具来避免被无用信息干扰。遗憾的是，这一切的努力还是产生了某种副产品，即当统计学上有意义的模式出现时，人们自然会感到兴奋，并相信它是真的。事实上，科学家一般不会作弊，也不会通过“钓鱼”去寻求具有统计学意义的结果，于是，当他们遇到某个能越过p<0.05阈值而足够强大的模式时，很容易会得出坚信不疑的结论。

　　对于使用p值来证明某个科学主张，或者指出某个多重比较令p值无效的宣称，我们不是第一个对此表示担忧的。我们的目的只在于提请注意，p值的有效性需要在多个数据集中得到检验。与此相关的考虑是，数据依赖的分析和解释选择，如果用了其他可能的数据库是否就会不同？如果是这样的话，即使对给定数据只进行一项分析，由于对变量组合、数据包含和数据排除、变量转换等的选择在缺少主效应情况下的交互影响的测试，多重比较的问题也会出现。

　　在这一点上也许人们会有异议，因为任何研究都要涉及到与数据相关的决策，从某种意义上来说，是的。但是我们已经讨论了一些例子，从中发现了一种倾向，即过度依赖p值来支持某个强大的推理。例如ESP实验，这是一个没有真正理论基础的现象，研究的目的只是揭示一系列小的影响而已。而对女性投票行为的研究、男性对财富分配的态度，以及女性排卵期倾向于穿红色衣服，大致是符合进化理论的，通常会产生一些难以置信的影响。

统计学的未来之路

　　在政治领域内，汉弗莱斯等人建议对整个数据收集和分析报告提前定义（预定义）。然而，这对于我们自己的大多数研究项目而言，这一做法几乎是没有意义的。最重要的是假设不可能提前制定。例如，较为成功的盖尔曼模式，即富裕国家和贫穷国家中穷人选民和富人选民态度比较的研究项目，只是在对数据进行多角度研究后才开始变得明显起来（其他选举分析也证实了这一模式）。

　　而在心理学等领域，要获得更多的数据通常并没有这么困难，预定义是有意义的。与此同时，我们不希望对统计学的“纯度”成为约束科学研究的“紧身衣”，无论是在心理、营养，还是在教育领域，最有价值的统计分析通常只出现在涉及数据的迭代过程之后。预定义在某些领域可能实用，但在政治领域，想以此作为通用的解决方案是不现实的。

　　我们想要强调的一点是，研究人员应该对他们进行数据分析的选择要有更清醒的认识，意识到p值公布可能会产生的问题。最终，他们可以参考已发表的开放式分析，以对自己的想法进行外部验证，这种做法在统计科学和计算机科学领域很流行。具体可以进行两个实验，一是对仍然处于理论阶段的想法进行探索，二是对预先的实验目的进行确认。

　　在很大程度上，统计学的一些观测领域，如政治科学、经济学、社会学，复制实验是困难的或不可行的。我们无法轻易通过战争或金融危机等来收集数据，唯一的建议就是对现有数据进行更全面的分析，起点是对所有相关比较进行分析，而不仅仅关注于具有统计学意义的东西。我们曾说过，多层次建模可以解决多重比较的问题，但这种方法的实际困难可能也不小。

　　我们必须意识到，没有预先定义或没有真实复制的机会，我们对数据分析的选择将只能是数据依赖性的，即使研究动机是理论性的。当预定义的复制很困难或者不可能时（如社会科学和公共卫生研究领域），我们相信最好的策略是对所有数据进行的全面分析，而不只是集中于某项比较或较少的多重比较。

　　没有一个统计质量控制委员会来强制进行这种更大规模的分析，而且我们也不认为这样的强制措施是恰当的。随着越来越多的科学家们效仿诺塞克，公开表示p值对自己研究的不良影响时，我们希望提升对全面数据分析的动机，以减少这些问题的困扰。必要时必须退后一步，到一个更能清晰区分探索性和验证性数据分析的区间，以识别各自的优点和局限性。

　　在一些数据容易收集的领域，也许诺塞克两部走的方法，即在正式公布结果之前进行一次复制实验，可为未来的研究设置一个标准，以代替目前的通常做法，即每项研究都有自己取决于数据分析的统计学意义。科学家们必须意识到，p值不一定从表面值获得，这并不意味着科学家们不能选择有效的统计推断。

　　我们强烈的意识到，越来越接近真相是科学家最感兴趣的。用伟大的统计教育家弗雷德里克·穆斯特勒（Frederick Mosteller）的话来说，统计数据很容易让我们受骗，但没有统计数据我们更容易被骗。

资料来源 American Scientist

责任编辑则鸣

______________________

本文作者：安德鲁·格尔曼（Andrew Gelman）教授，哥伦比亚大学统计学家兼政治科学家，埃里克·洛肯（Eric Loken），宾夕法尼亚大学人类发展学助理教授。