「大数据应用案例解析」从“失踪的弹孔”看“幸存者偏差”

浏览: 3487

第二次世界大战期间,哥伦比亚大学成立了一个秘密研究小组,它的任务是组织美国的统计学家为“二战”服务。统计研究小组是一个秘密计划的产物,它的任务是组织美国的统计学家为“二战”服务。

这个秘密计划与曼哈顿计划(Manhattan Project)有点儿相似,不过所研发的武器不是炸药而是各种方程式。事实上,统计研究小组的工作地点就在曼哈顿晨边高地西118街401号,距离哥伦比亚大学仅―个街区。如今,这栋建筑是哥伦比亚大学的教工公寓,另外还有一些医生在大楼中办公,但是在1943年,它是“二张”时期高速运行的数学中枢神经。在哥伦比亚大学应用数学小组的办公室里,很多年轻的女士正低着头,利用“马前特”桌面计算器计算最有利于战斗机瞄准具锁定敌机的飞行曲线公式。在另一间办公室里,来自普林斯顿大学的几名研究人员正在研究战略轰炸规程,与其―墙之隔的就是哥伦比亚大学统计研究小组的办公室。

打开百度App,看更多图片

这个小组里牛人无数,比如我们熟悉的控制论的创始人诺伯特·维纳(Norbert Wiener),还有后来得过诺贝尔经济学奖的米尔顿·弗里德曼。不过,在这个牛人无数的小组中,天赋最高一位叫亚伯拉罕·瓦尔德(Abraham Wald)的数学家。

二战后期,美国B17轰炸机经常成百上千的空袭德国,返航的时候往往都会带着不少弹孔回来。为了避免飞机被击落,就需要在飞机上加装装甲,但装甲安装多了,又会降低飞机的机动性,消耗更多的燃料。装多装少都不行,军方希望把装甲安装在飞机最容易受到攻击、最需要防护的地方,这样就可减少装甲的安装量,而不会降低防护效率。

美国军方为统计研究小组提供了一些可能用得上的数据。美军飞机在欧洲上空与敌机交火后返回基地时,飞机上会留有弹孔。但是,这些弹孔分布得并不均匀,飞机上弹孔分布的数据,如下图:

通过数据分析,发现大部分的弹孔出现在机翼和机腹,而引擎几乎没有弹孔,所以军方就认为应该对机翼和机腹披上装甲。于是准备给轰炸机的机翼、机腹加装更厚的装甲。

美国军方希望瓦尔德给出在这些部位应该加的装甲的重量。但是,瓦尔德给出的回答并不是他们预期的答案。

瓦尔德说,需要加装装甲的地方不应该是留有弹孔的部位,而应该是没有弹孔的地方,也就是飞机的引擎。瓦尔德的独到见解可以概括为一个问题:飞机各部位受到损坏的概率应该是均等的,但是引擎罩上的弹孔却比其余部位少,那些失踪的弹孔在哪儿呢?瓦尔德深信,这些弹孔应该都在那些未能返航的飞机上。胜利返航的飞机引擎上的弹孔比较少,其原因是引擎被击中的飞机未能返航。大量飞机在机身被打得千疮百孔的情况下仍能返回基地,这个事实充分说明机身可以经受住打击(因此无须加装装甲)。如果去医院的病房看看,就会发现腿部受创的病人比胸部中弹的病人多,其原因不在于胸部中弹的人少,而是胸部中弹后难以存活。

数学上经常假设某些变量的值为0,这个方法可以清楚地解释我们讨论的这个问题。在这个问题中,相关的变量就是飞机在引擎被击中后不会坠落的概率。假设这个概率为零,表明只要引擎被击中一次,飞机就会坠落。那么,我们会得到什么样的数据呢?我们会发现,在胜利返航的飞机中,机翼、机身与机头都留有弹孔,但是引擎上却一个弹孔也找不到。对于这个现象,军方有可能得出两种分析结果:要么德军的子弹打中了飞机的各个部位,却没有打到引擎;要么引擎就是飞机的死穴。这两种分析都可以解释这些数据,而第二种更有道理。因此,需要加装装甲的是没有弹孔的那些部位。

美军将瓦尔德的建议迅速付诸实施,我无法准确地说出这条建议到底挽救了多少架美军战机,但是数据统计小组在军方的继任者们精于数据统计,一定很清楚这方面的情况。美国国防部一直认为,打赢战争不能仅靠更勇敢、更自由和受到上帝更多的青睐。如果被击落的飞机比对方少5% ,消耗的油料低5% ,步兵的给养多5% ,而所付出的成本仅为对方的95% ,往往就会成为胜利方。这个理念不是战争题材的电影要表现的主题,而是战争的真实写照,其中的每一个环节都要用到数学知识。

瓦尔德拥有的空战知识、对空战的理解都远不及美军军官,但他却能看到军官们无法看到的问题,这是为什么呢?根本原因是瓦尔德在数学研究过程中养成的思维习惯。从事数学研究的人经常会询问:“你的假设是什么?这些假设合理吗?”这样的问题令人厌烦,但有时却富有成效。在这个例子中,军官们在不经意间做出了一个假设:返航飞机是所有飞机的随机样本。如果这个假设真的成立,我们仅依据幸存飞机上的弹孔分布情况就可以得出结论。但是,一旦认识到自己做出了这样的假设,我们立刻就会知道这个假设根本不成立,因为我们没有理由认为,无论飞机的哪个部位被击中,幸存的可能性是一样的。用数学语言来说,飞机幸存的概率与弹孔的位置具有相关性。

瓦尔德的另一个长处在于他对抽象问题研究的钟爱。曾经在哥伦比亚大学师从瓦尔德的沃尔福威茨说,瓦尔德最喜欢钻研的“都是那些极为抽象的问题”,“对于数学他总是津津乐道,但却对数学的推广及特殊应用不感兴趣”。的确,瓦尔德的性格决定了他不大可能关注应用方面的问题。在他的眼中,飞机与枪炮的具体细节都是花里胡哨的表象,不值得过分关注。他所关心的是,透过这些表象看清搭建这些实体的一个个数学原理与概念。这种方法有时会导致我们对问题的重要特征视而不见,却有助于我们透过纷繁复杂的表象,看到所有问题共有的基本框架。因此,即使在你几乎一无所知的领域,它也会给你带来极有价值的体验。

幸存者偏差现象

对于数学家而言,导致弹孔问题的是一种叫作“幸存者偏差”(survivorship bias )的现象。这种现象几乎在所有的环境条件下都存在,一旦我们像瓦尔德那样熟悉它,在我们的眼中它就无所遁形。以共同基金为例。在判断基金的收益率时,我们都会小心谨慎,唯恐有一丝一毫的错误。年均增长率发生1% 的变化,甚至就可以决定该基金到底是有价值的金融资产还是疲软产品。晨星公司大盘混合型基金的投资对象是可以大致决定标准普尔500 指数走势的大公司,似乎都是有价值的金融资产。这类基金1995~2004 年增长了178.4% ,年均增长率为10.8% ,这是一个令人满意的增长速度。如果手头有钱,投资这类基金的前景似乎不错,不是吗?事实并非如此。博学资本管理公司于2006 年完成的一项研究,对上述数字进行了更加冷静、客观的分析。我们回过头来,看看晨星公司是如何得到这些数字的。2004 年,他们把所有的基金都归为大盘混合型,然后分析过去10 年间这些基金的增长情况。

但是,当时还不存在的基金并没有被统计进去。共同基金不会一直存在,有的会蓬勃发展,有的则走向消亡。总体来说,消亡的都是不赚钱的基金。因此,根据10 年后仍然存在的共同基金判断10 年间共同基金的价值,这样的做法就如同通过计算成功返航飞机上的弹孔数来判断飞行员躲避攻击操作的有效性,都是不合理的。如果我们在每架飞机上找到的弹孔数都不超过一个,这意味着什么呢?这并不表明美军飞行员都是躲避敌军攻击的高手,而说明飞机中弹两次就会着火坠落。博学资本的研究表明,如果在计算收益率时把那些已经消亡的基金包含在内,总收益率就会降到134.5% ,年均收益率就是非常一般的8.9% 。《金融评论》(Review of Finance )于2011 年针对近5 000 只基金进行的一项综合性研究表明,与将已经消亡的基金包括在内的所有基金相比,仍然存在的2 641 只基金的收益率要高出20% 。幸存者效应的影响力可能令投资者大为吃惊,但是亚伯拉罕·瓦尔德对此已经习以为常了。

推荐 0
本文由 企业数据化管理 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册