传统的统计学是数据挖掘的基础,那么统计、数据挖掘之间有什么区别呢?首先,提一个问题:有一个硬币,抛了十次,都是正面,那么,请问,第十一次抛硬币,正面的概率是多少?
从传统统计学的角度看这个问题,一个硬币,有正反两面,每一面出现的概率都是1/2,第十一次正面的概率当然就是1/2了。从数据挖掘来看,我们建立一个模型,然后进行预测分析,可以肯定,预测的结果第十一次肯定是正面,而且概率几乎是1。这个就是传统统计学与数据挖掘的区别了,传统概率更多的是根据古典概率来判断一个事情,而数据挖掘,则是根据之前的历史数据,得出结果。
那么,这里为什么还要提一个“数据挖掘技术”与“数据挖掘应用呢”,这两者有什么区别。预测出第十一次是正面,且概率是1,这是通过数据挖掘技术得到的结论。那么,这个结论正不正确,分析其中出现的原因,以及可能涉及到的有价值的结论,这就过渡到“数据挖掘应用”了。
抛硬币十次,出现了十次正面,那么我们就有理由提出一个假设:这个硬币两个面都是正面,相信这一点应该是很容易理解的。这是数据挖掘应用的第一步,分析数据,得到假设结论。那接下来,我们要做的,就是验证这个假设,查看这个硬币是否真的是两个面都是正面。如果是,那么这就得到了一个重要信息:这个硬币两个面都是正面,这就是数据挖掘应用了。如果不是,那么,好了,我们从硬币的密度、形状、抛硬币的手法,等各个方面进行分析,看是不是这些因素影响导致连续出现十次正面,如果发现有这些因素的影响,那么这就是我们的有价值信息了。但还是有可能,所有因素都没有,那么好了,我们必须承认,连续十次正面,这样一个几乎不可能事件真的发生了,那么就可以得到结论:这个硬币是正常的,第十一次出现正面的概率是1/2,通过数据挖掘技术得到的结论是错的。
这就是传统统计、数据挖掘技术和数据挖掘应用的区别,要真正做好数据挖掘,必须从技术层面过渡到应用层面,通俗的说,就是必须具备分析数据、解释数据、提取数据价值的业务能力,这个是数据挖掘应用的核心,也是数据挖掘的核心。