统计学历史上的经典数据挖掘案例

浏览: 1764

一、格朗特与死亡公报

         英国商人、自然哲学家格朗特(John Graunt,1620—1674)被誉为“统计学之父”,由国王查理二世举荐,进入当时英国最具名望的科学组织——皇家学会,其成就在于1662年出版的《关于死亡公报的自然和政治观察》,这是格朗特一生唯一的著作,主要分析了1604—1661年各教区每周公布的受洗礼和死亡名单公告。虽然格朗特主要使用的算术工具是与现代分析领域相距甚远的三分法——由三个已知数a、b、c即可根据比例关系a∶b=c∶d求解未知数d,但他成功地推算出男女出生率之比总是稳定在14∶13左右,并用数据进一步说明,男性更容易在战争、公海和处以死刑中丧命,所以成年男女的数量基本相等;格朗特调查分析了死亡的所有原因,并初步推算了不同年龄段儿童和成人的死亡比率:儿童死亡发生在4、5岁以下的比例约为1/3,发生在6岁以下的比例约为1/2,仅有7%的死亡属于寿终正寝,在此基础上,格朗特首次提出和计算了目前已知的第一个生命表,并估计出伦敦16—56岁的成年男性约占总人口的34%,有7万人左右可作为战争士兵;格朗特还证明了谋杀不是死亡的主要原因,并首次利用死亡公报中的历史积累数据,批判了当时普遍流传的谬论——瘟疫总是伴随着新王朝的开始,类似结论在格朗特的著作中颇多。格朗特坦言着魔于研究死亡公报的理由之一是,喜欢从死亡公报——即当前所称谓的“原始数据”中提炼出新结论,其伟大见解在于对死亡公报上数据、隐含信息的挖掘和系统分析,并用数学知识揭示数字之间的关系,其思想和现代数据挖掘技术有一定程度的相通之处。

二、斯诺对霍乱的研究二、斯诺对霍乱的研究

       较为现代的霍乱历史被描述为世界性传染病,前两次世界性爆发分别发生于1817—1823年和1826—1837年,最初在印度边界爆发,后来逐渐蔓延到阿拉伯、中国、日本乃至欧洲各地,引起全球的极度恐惧。直到1846—1863年第三次世界性爆发,对霍乱的认识和预防才取得突破性进展,其中做出重大贡献的是英国医生斯诺(John Snow,1813—1858)。斯诺认真访问了有霍乱患者的家庭,详细登记患者的姓名、年龄、疾病发作时间、卫生条件以及是否喝过疑似污染水源的百老汇街区的水,并和百老汇街区的怀特黑德神父(Reverend Henry Whitehead,1825—1896)对相关信息进行分门别类的整理,对数据表格进行统计分析,最终得到结论:霍乱是通过饮用水进行传播的。虽然斯诺的研究无法从医学角度解释霍乱的发病机理,但他通过对霍乱爆发时原始累积数据的挖掘和分析,探究了霍乱患者和污染水源的相关性,为控制疫情指明了科学方向。1866年第四次世界性霍乱爆发时,政府官员和统计学家法尔(William Farr,1807—1883)正是根据斯诺的研究成果,检查水源并及时阻止被污染池塘的使用,疫情得以迅速结束。

    来源:《中国统计》2014年第十期

推荐 0
本文由 大数据人 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册