基于数据挖掘的异常诊断或欺诈分析

发表: 2015-11-10 浏览: 2735

数据挖掘与人工智能

通过这个案例，我们要掌握数据挖掘在异常分析方面应用的基本思路，大家都知道，企业里面经常会有类似这样的需求，而这也是数据挖掘的一个重点的应用方向。今天，我们主要围绕这个主题进行讲解，结合这个主题，我们主要探讨以下几个知识点：

第一，如何结合业务理解，通过业务规则来进行异常分析，当然这是一个典型的以业务为驱动的数据挖掘项目;

第二，围绕如何通过数据挖掘的手段派生一个参考变量指标，来评估与实际值的偏差是否有异常，来进行异常分析。在这个案例里面，主要讲解两种派生参考变量的方法，一个是通过变量的相关性进行参考变量的派生，另一个是通过分类预测，尤其是分类目标变量为数值型的分类预测来派生参考变量;

第三，我们来重点讲解一下，如何通过可视化的方式，来探索一个数值型字段和一个字符型字段的相关性。这是大家需要掌握的，很有效，很好用，也很简单的一个方法;

第四，我们通过这个案例，讲一下，通过聚类分析算法来进行异常诊断的方法。该案例介绍的是聚类算法的另外一种灵活运用。采用的是聚类的思想对异常对象进行判断，主要思想是这样的：首先，我们使用聚类算法将对象（每条记录为一个对象）分成两类，其次，计算每一个对象到类中心的距离，距离类中小较远的点即为异常点;

第五个，通过这个案例，再学习一下分类预测的另外一种应用场景。

4 个评论

我比较关心在线系统的实时异常发现的问题。在线的流式数据用kmeans效果就不好了吧，实时流数据的异常发现有啥好的方法不？

实时异常和事后分析有着共性，其实都是需要先通过历史数据或者业务规则指定好判断的模型，只是应用场景不同，一个是批量判断，一个是基于事先得到的异常模型流式计算来判断。当然，得到的异常模型越复杂做流式计算的挑战越大，要求更高的计算能力。

这用的啥工具？

SmartMing. https://ask.hellobi.com/blog/SmartMining/2382

要回复文章请先登录或注册