从抛硬币的正反面问题看传统统计、数据挖掘技术与数据挖掘应用

发表: 2015-11-14 浏览: 2642

数据挖掘

　　传统的统计学是数据挖掘的基础，那么统计、数据挖掘之间有什么区别呢？首先，提一个问题：有一个硬币，抛了十次，都是正面，那么，请问，第十一次抛硬币，正面的概率是多少？

　　从传统统计学的角度看这个问题，一个硬币，有正反两面，每一面出现的概率都是1/2，第十一次正面的概率当然就是1/2了。从数据挖掘来看，我们建立一个模型，然后进行预测分析，可以肯定，预测的结果第十一次肯定是正面，而且概率几乎是1。这个就是传统统计学与数据挖掘的区别了，传统概率更多的是根据古典概率来判断一个事情，而数据挖掘，则是根据之前的历史数据，得出结果。

　　那么，这里为什么还要提一个“数据挖掘技术”与“数据挖掘应用呢”，这两者有什么区别。预测出第十一次是正面，且概率是1，这是通过数据挖掘技术得到的结论。那么，这个结论正不正确，分析其中出现的原因，以及可能涉及到的有价值的结论，这就过渡到“数据挖掘应用”了。

　　抛硬币十次，出现了十次正面，那么我们就有理由提出一个假设：这个硬币两个面都是正面，相信这一点应该是很容易理解的。这是数据挖掘应用的第一步，分析数据，得到假设结论。那接下来，我们要做的，就是验证这个假设，查看这个硬币是否真的是两个面都是正面。如果是，那么这就得到了一个重要信息：这个硬币两个面都是正面，这就是数据挖掘应用了。如果不是，那么，好了，我们从硬币的密度、形状、抛硬币的手法，等各个方面进行分析，看是不是这些因素影响导致连续出现十次正面，如果发现有这些因素的影响，那么这就是我们的有价值信息了。但还是有可能，所有因素都没有，那么好了，我们必须承认，连续十次正面，这样一个几乎不可能事件真的发生了，那么就可以得到结论：这个硬币是正常的，第十一次出现正面的概率是1/2，通过数据挖掘技术得到的结论是错的。

　　这就是传统统计、数据挖掘技术和数据挖掘应用的区别，要真正做好数据挖掘，必须从技术层面过渡到应用层面，通俗的说，就是必须具备分析数据、解释数据、提取数据价值的业务能力，这个是数据挖掘应用的核心，也是数据挖掘的核心。

0 个评论

要回复文章请先登录或注册