从抛硬币的正反面问题看传统统计、数据挖掘技术与数据挖掘应用

浏览: 2642

  传统的统计学是数据挖掘的基础,那么统计、数据挖掘之间有什么区别呢?首先,提一个问题:有一个硬币,抛了十次,都是正面,那么,请问,第十一次抛硬币,正面的概率是多少?

  从传统统计学的角度看这个问题,一个硬币,有正反两面,每一面出现的概率都是1/2,第十一次正面的概率当然就是1/2了。从数据挖掘来看,我们建立一个模型,然后进行预测分析,可以肯定,预测的结果第十一次肯定是正面,而且概率几乎是1。这个就是传统统计学与数据挖掘的区别了,传统概率更多的是根据古典概率来判断一个事情,而数据挖掘,则是根据之前的历史数据,得出结果。

  那么,这里为什么还要提一个“数据挖掘技术”与“数据挖掘应用呢”,这两者有什么区别。预测出第十一次是正面,且概率是1,这是通过数据挖掘技术得到的结论。那么,这个结论正不正确,分析其中出现的原因,以及可能涉及到的有价值的结论,这就过渡到“数据挖掘应用”了。

  抛硬币十次,出现了十次正面,那么我们就有理由提出一个假设:这个硬币两个面都是正面,相信这一点应该是很容易理解的。这是数据挖掘应用的第一步,分析数据,得到假设结论。那接下来,我们要做的,就是验证这个假设,查看这个硬币是否真的是两个面都是正面。如果是,那么这就得到了一个重要信息:这个硬币两个面都是正面,这就是数据挖掘应用了。如果不是,那么,好了,我们从硬币的密度、形状、抛硬币的手法,等各个方面进行分析,看是不是这些因素影响导致连续出现十次正面,如果发现有这些因素的影响,那么这就是我们的有价值信息了。但还是有可能,所有因素都没有,那么好了,我们必须承认,连续十次正面,这样一个几乎不可能事件真的发生了,那么就可以得到结论:这个硬币是正常的,第十一次出现正面的概率是1/2,通过数据挖掘技术得到的结论是错的。

  这就是传统统计、数据挖掘技术和数据挖掘应用的区别,要真正做好数据挖掘,必须从技术层面过渡到应用层面,通俗的说,就是必须具备分析数据、解释数据、提取数据价值的业务能力,这个是数据挖掘应用的核心,也是数据挖掘的核心。

推荐 1
本文由 Elationguy 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册