第21章直觉判断与公式运算，孰优孰劣？ · 1

关灯小中大繁直达底部

保罗·米尔（Paul Meehl）是个性格奇特而又超凡脱俗的人，是20世纪最有才华的心理学家之一。他曾在明尼苏达大学的心理学系、法学系、精神病学系、神经病学系以及哲学系任教，同时写了宗教、政治科学方面的文章，还曾经研究过老鼠。米尔习惯用统计数字说话，经验丰富，曾对临床心理学的空洞言论大加批评，在精神分析方面有过实践。他写过一些论述心理学研究的哲学基础的文章，这些文章很有思想，我在读研究生时几乎能把它们全部背下来。我从来没见过米尔，但自从我读了他的那本《临床与统计的预测：理论分析与事实回顾》（Clinical vs. Statistical Prediction：A Theoretical Analysis and a Review of the Evidence）后，他便成了我心目中的一位英雄。

在这本他后来称为“让我烦恼的小书”的薄册子里，米尔回顾了20项研究结果，这些结果分析了以经过训练的专业人士主观印象为基础的“临床预测”，是否比按某种规则将一些分数或等级评定结合在一起作出的“统计”预测更准确。在一项典型的研究中，经过训练的辅导员预测了新生在学年末的成绩。他们与每个学生进行了45分钟的谈话，还参考了他们高中时的成绩、几次能力测试加上一份4页长的学生的个人陈述。数据统计的方法则只采用了其中的一小部分信息，即高中成绩和能力测试。然而，应用数据统计方法得出的结果要比14名辅导员中11个的预测都准确。米尔综合其他多种预测结果得出了相似的结论，这些预测包括违反假释程序、飞行员的成功训练以及刑事累犯情况等。

不出所料，米尔的著作在临床心理学家中引起了震惊和质疑，这一争议引发了一股研究大潮，自该书出版至今50余载，这股大潮还在继续。将临床预测和统计预测进行对比的研究报告大约已有200篇，然而两者的对峙依然没有分出胜负。大约60%的研究指出，运算手法更准确。其余的比较研究认为两者准确性相近，但似乎数据统计方法更胜一筹，因为它比人工判断的成本低。至今还没有令人信服的例外情况记录在案。

预测结果的范围已经延伸到了医学的可变因素，比如癌症病人的寿命、住院时间、心脏病的诊断以及婴儿对猝死综合征的敏感性；经济措施，比如新企业的成功前景、银行对信用危机的评估、员工对未来职业的满意度；政府机构所关心的问题，比如收养人的适合条件评估、少年累犯的可能性以及其他暴力行为发生的可能性；还有一些混合结果评估，比如科学报告的评估、橄榄球比赛的胜负预测以及波尔多酒的价格预测。这些领域都有很强的不确定性和不可预见性。我们将其称为“有效性低的环境”。在这些情况下，专家预测的准确性与简单的运算得到的结果相当，甚至还要低于简单运算的结果。

在该书出版30年后，米尔自信而骄傲地说：“在社会科学中，还没有哪一项研究像这项一样，众多研究虽定性不同，结果却都一致地指向同一个方向，这一点是毫无争议的。”

专家预测比不上简单运算准确

奥利·阿申菲尔特（Orley Ashenfelter）是普林斯顿大学的经济学家，爱喝葡萄酒。对于简单的统计学方法的力量可以胜过世界著名学者的观点，阿申菲尔特曾经作过一个引人注目的论证。他想通过波尔多酒生产年所提供的相关信息来预测该酒的未来价值。这个问题之所以重要，是因为优质葡萄酒要想达到质量的顶峰需要很多年。出自同一个酒窖的酒，因其年份不同，在价格上有很大差异。生产时间相差12个月的酒，其价值会相差10倍或更多。预测未来价格的一项因素是它的本质价值，因为投资者买酒就像买艺术品一样，都希望它能够增值。

人们通常认为葡萄酒酿造期之所以能够决定酒的好坏是受生长期间天气多样性的影响，温暖干燥的夏季会酿就最好的葡萄酒，因此全球变暖貌似会惠及葡萄酒产业。湿润的春天也会使这一产业受益，这样的天气会在不影响质量的情况下增产。阿申菲尔特通过天气的三个特征—夏季生长期的平均温度、丰收期的降水量以及上一个冬季的总降水量—来估测出葡萄酒的特质及特定的年份，再将这些常识性知识转化成数据公式来预测葡萄酒的价格。他的公式给出了未来几年甚至几十年后的准确价格预测。事实上，他的公式所预测的葡萄酒期货价格比新酒的市价更准确。这个新的“米尔模式”向那些为前期价格定位提供建议的专家的估价能力发起了挑战。它还对经济理论发起了挑战，根据这些理论，价格应该能够反映出所有有用信息，包括天气因素。阿申菲尔特的公式非常精确，预测价格与真实价格的相关系数超过了0.9。

为什么专家预测不如简单运算准确？米尔猜测其中一个原因是这些专家试图变得聪明，总想跳出思维的框框，在预测时会考虑将不同特征进行复杂的结合。复杂化对稀奇古怪的事情是有影响的，但十有八九会降低其正确性，将这些特征简单地整合在一起反而会更好。有几项研究已经表明，即使人们知道公式给出的建议分数，人类决策制定者在面对预测公式时也会自叹弗如。他们认为自己比公式强大，因为人们拥有关于这一问题的其他信息，但他们往往是错的。在米尔看来，在极少数情况下，我们可以利用主观判断，其他时候用判断替代公式并不是个好主意。在一个著名的思维实验中，他描述了一个能够预测某人今晚会不会去看电影的公式，他指出，如果知道此人今天摔断了腿，不用这个公式也罢。于是就有了“断腿原则”。当然，关键问题是断腿的概率太小了，但一旦腿断了，结论也就很明确了。

专家判断不可取的另一个原因，是人们对复杂信息的最终判断很难达成一致。如果有人要求这些专家对同一信息进行两次评估，他们通常会给出不同的答案。这些不一致之处往往正是真正令人关切的地方。一个经验丰富的放射科医师在两个不同的场合看到同一张片子，这两次检查结果在“正常”与“异常”之间会有20%的偏差。一项让101名审计员独立评价企业内部审计业务可靠性的实验也反映出类似的不一致程度。此前曾有过对不同专业人士判断可靠性的41项研究，研究要求审计员、病理学家、心理学家、组织管理者等专业人士回顾自己原来的判断。尽管他们对每个案例的再次评估在几分钟内就完成了，但实验结果还是说明了判断的不一致性非常典型。不可靠的判断使人们对任何事物都不可能作出有效预测。

这种普遍的不一致性很有可能是由于系统1对极端条件的依赖所致。我们从那个主要实验可以得知，在我们的环境中有一种不被注意的刺激物在本质上影响着我们的思想和行为。这种影响会从这一时刻波及下一时刻。在炎热的天气里，短暂的凉风会使你感到心情舒畅，这个时刻无论评估什么都会相对更积极一些。对于一个将要获得假释的犯人来说，在假释审核期间的每一顿饭之间，他都会有很大的变化。由于我们对我们思想中的东西没有一个清晰的认识，我们永远不会知道在周围环境有微小的变化时，我们会作出不一样的判断。公式却不会有这样的问题，输入不变，输出也不会改变。可预见性很差—这是米尔和他的后继者们在研究中得出的—不一致性会破坏任何预测的有效性。

这项研究得出了一个惊人的结论：要提升预测的准确度，最终的结果应由公式给出，在低效的情况下尤其如此。例如，在医学院的学生录取工作中，最终决定一般由面试候选人的老师来做。这一依据是片面的，但他们的推测也有可靠的证据：如果面试官也参与最终的录取工作，面试的过程很可能会降低选拔过程的准确性。这是因为面试官过于相信自己的直觉，他们会很重视个人的喜好而忽略很多其他信息，从而降低了有效性。同样，专家在评估新酒的价格时会品尝酒，这种信息的反面作用大于正面。当然，即使清楚天气对酒质的影响，专家们也无法保证公式那样的一致性。

继米尔的最初研究之后，促进该领域最重要发展的要数罗宾。道斯所发表的著名论文《决定中非正当线性模型的稳定之美》了。社会科学中常用的数据统计分析是按照某一运算法则评估不同的预测因素，这叫做多次回归，且已经被运用于常用软件中。多次回归中体现的逻辑很有说服力：它找到了将各种预测因素权衡后再整合到一起的最理想公式。然而，道斯发现，这种复杂的数据运算没什么用处，人们也可以通过选取一组对于预测结果以及提升价值都很有效的数据作出类似的判断（使用标准数据或者是等级）。一个公式与这些预测因素以同样的权重结合起来预测新事物才有可能像使用多次回归处理原始样本一样取得理想的预测效果。更新研究则更深入地指出：均衡考虑各项预测因素的公式更有优势，因为它们不受样本突变的影响。

+落-霞+读-书 🍏-lu o xi a d u sh u . com-·