基于数据挖掘的异常诊断或欺诈分析

浏览: 2735

通过这个案例,我们要掌握数据挖掘在异常分析方面应用的基本思路,大家都知道,企业里面经常会有类似这样的需求,而这也是数据挖掘的一个重点的应用方向。今天,我们主要围绕这个主题进行讲解,结合这个主题,我们主要探讨以下几个知识点:

 第一,如何结合业务理解,通过业务规则来进行异常分析,当然这是一个典型的以业务为驱动的数据挖掘项目;

第二,围绕如何通过数据挖掘的手段派生一个参考变量指标,来评估与实际值的偏差是否有异常,来进行异常分析。在这个案例里面,主要讲解两种派生参考变量的方法,一个是通过变量的相关性进行参考变量的派生,另一个是通过分类预测,尤其是分类目标变量为数值型的分类预测来派生参考变量;

第三,我们来重点讲解一下,如何通过可视化的方式,来探索一个数值型字段和一个字符型字段的相关性。这是大家需要掌握的,很有效,很好用,也很简单的一个方法;

第四,我们通过这个案例,讲一下,通过聚类分析算法来进行异常诊断的方法。该案例介绍的是聚类算法的另外一种灵活运用。采用的是聚类的思想对异常对象进行判断,主要思想是这样的:首先,我们使用聚类算法将对象(每条记录为一个对象)分成两类,其次,计算每一个对象到类中心的距离,距离类中小较远的点即为异常点;

第五个,通过这个案例,再学习一下分类预测的另外一种应用场景。

推荐 6
本文由 SmartMining 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

4 个评论

我比较关心在线系统的实时异常发现的问题。在线的流式数据用kmeans效果就不好了吧,实时流数据的异常发现有啥好的方法不?
实时异常和事后分析有着共性,其实都是需要先通过历史数据或者业务规则指定好判断的模型,只是应用场景不同,一个是批量判断,一个是基于事先得到的异常模型流式计算来判断。当然,得到的异常模型越复杂做流式计算的挑战越大,要求更高的计算能力。
这用的啥工具?
SmartMing. https://ask.hellobi.com/blog/SmartMining/2382

要回复文章请先登录注册