数据挖掘——初学篇（一）

发表: 2015-11-11 浏览: 2054

数据挖掘

当今的数据行业日益成熟，大数据行业更是如日中天，数据挖掘自然也是耳熟能详了，但是其中有些地方容易对初学者或门外人产生一些误解，主要是三个部分：

一、什么是挖掘

首先，先介绍一个概念KDD（knowledge discovery in database）知识发现，知识发现是从信息中得到知识，从数据中找到价值。它包含数据挖掘、信息收集、数据探索、数据分析等模块。当然也有人认为KDD就是数据挖掘，这是不严谨的，从概念上来说数据挖掘只是KDD的一部分，数据挖掘是非常核心的一个部分。例如：WEB的层应用有可能应用到一些复杂算法，比如搜索使用贝叶斯分类、神经网络等，但是这仅仅是一些信息的分类检索，并不是数据挖掘。数据挖掘是从大量的数据中通过算法挖掘出其中价值的过程。

二、挖掘主要做什么

其次，另外有个误区就是数据挖掘就是很牛X的算法，其实不然，要做数据挖掘有大量的准备工作要做，撇开业务(挖掘的先决场景)和目的(挖掘要达成的效果)不谈，数据预处理是一个繁重的过程，占了整个过程的60%-70%的工作量，预处理步骤中数据清洗比重60-80%。数据清洗工作是特别复杂的，有可能也会特别枯燥，比如某个人员信息表数据缺失，你甚至可能要找合适的方法去填充数据，找相应的途径去补充完整。等数据清洗完成了，这时候有算法的用武之地了，这时候别以为我会几个算法就无法无天了，你还需要学会抽样做训练集，你还得会各种检验，有时候你会一种算法都不行，你需要算法嵌套算法，你还需要验证模型等等，最终算法模型敲定了,你需要验证实际效果，调试各种参数等等，大多都很繁琐，并没有想象中的那么easy。

三、挖掘要掌握什么

再次，数据挖掘除了算法本身，你需要一定的理论作为支撑，如果你认为挖掘仅仅是算法，那你也是机械化的复制了，你需要统计学的理论知识来解释为什么那么做，什么样的情况下选择什么样的算法，怎么样去做更好。

最后，你需要会一门语言或者会一种工具，只要是可以做挖掘即可：

软件：SAS EM、SPSS Clementine、WEKA、RapidMiner、Orange、Excel……

语言：Python、R、SAS、JAVA、C、SQL、Matlab……

0 个评论

要回复文章请先登录或注册