数据挖掘——初学篇(一)

浏览: 2054

当今的数据行业日益成熟,大数据行业更是如日中天,数据挖掘自然也是耳熟能详了,但是其中有些地方容易对初学者或门外人产生一些误解,主要是三个部分:

一、什么是挖掘

首先,先介绍一个概念KDD(knowledge discovery in database)知识发现,知识发现是从信息中得到知识,从数据中找到价值。它包含数据挖掘、信息收集、数据探索、数据分析等模块。当然也有人认为KDD就是数据挖掘,这是不严谨的,从概念上来说数据挖掘只是KDD的一部分,数据挖掘是非常核心的一个部分。例如:WEB的层应用有可能应用到一些复杂算法,比如搜索使用贝叶斯分类、神经网络等,但是这仅仅是一些信息的分类检索,并不是数据挖掘。数据挖掘是从大量的数据中通过算法挖掘出其中价值的过程。

二、挖掘主要做什么

其次,另外有个误区就是数据挖掘就是很牛X的算法,其实不然,要做数据挖掘有大量的准备工作要做,撇开业务(挖掘的先决场景)和目的(挖掘要达成的效果)不谈,数据预处理是一个繁重的过程,占了整个过程的60%-70%的工作量,预处理步骤中数据清洗比重60-80%。数据清洗工作是特别复杂的,有可能也会特别枯燥,比如某个人员信息表数据缺失,你甚至可能要找合适的方法去填充数据,找相应的途径去补充完整。等数据清洗完成了,这时候有算法的用武之地了,这时候别以为我会几个算法就无法无天了,你还需要学会抽样做训练集,你还得会各种检验,有时候你会一种算法都不行,你需要算法嵌套算法,你还需要验证模型等等,最终算法模型敲定了,你需要验证实际效果,调试各种参数等等,大多都很繁琐,并没有想象中的那么easy。

三、挖掘要掌握什么

再次,数据挖掘除了算法本身,你需要一定的理论作为支撑,如果你认为挖掘仅仅是算法,那你也是机械化的复制了,你需要统计学的理论知识来解释为什么那么做,什么样的情况下选择什么样的算法,怎么样去做更好。

最后,你需要会一门语言或者会一种工具,只要是可以做挖掘即可:

软件:SAS EM、SPSS Clementine、WEKA、RapidMiner、Orange、Excel……

语言:Python、R、SAS、JAVA、C、SQL、Matlab……

推荐 1
本文由 brucelu 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册