IBM SPSS Modeler最强工具书手册——数据挖掘方法论体系

发表: 2016-05-22 浏览: 4649

数据挖掘在线答疑数据科学数据挖掘 SPSS

上周为大家介绍简单地系统介绍了IBMSPSS Modeler基本信息，包括发展历史，产品家族，数据挖掘方法导论，基本操作等，受到了大家的支持，浩彬老撕希望能把这个系列写成SPSS Modeler的超级工具手册，方便大家收藏，以后更好地使用Modeler。

那么在本期，将结合一电信行业客户流失分析的例子，为大家全面介绍Modeler的数据挖掘方法论，CRISP-DM。

一个典型数据挖掘项目不但周期长，常常会跨数据源，甚至跨部协助进行，稍不留神就会陷入复杂的数据迷宫当中，因此在为了能够在整个项目阶段能够保持研究重点，能够持续跟踪，一个有效的数据挖掘方法论（明确的流程模型）是非常有必要的。

这不仅仅体现在商业项目当中，浩彬老撕当年在写论文的时候，由于没有明确的路线图（整个过程当中牵涉到反复的数据处理以及模型优化），导致浪费了大量的时间在问题定义、阶段进展、优化方向上，真是一个血的教训。

一般我们认为数据挖掘会是一个持续性的项目过程，尤其是在商业数据挖掘当中。在这个过程中，毫无疑问的是数据挖掘的各种算法是数据挖掘过程的核心步骤，但我们也要明白算法并不是整个项目的全部决定性因素。而为了使得整个数据挖掘过程更加标准化，也就催生出很多指数数据挖掘过程的方法论，其中IBM SPSS Modeler使用的就是CRISP-DM（CRoss IndustryStandard Process- for Data Mining，跨行业数据挖掘标准流程），其中一共分为6个步骤：商业理解，数据理解，数据准备，建模，评估，发布。

SAS使用的是SEEMA方法论

S:Sample数据取样；

E：Explore数据特征探索、分析和预处理；

M：Modify问题明确化，数据调整和技术选择；

M：Model模型的开发、知识的发现；

A：Assess模型和知识的综合解释和评价

CRISP-DM方法论每个阶段任务总览（下面会针对每个阶段详细介绍）

1、商业理解

这可能是整个数据挖掘过程的最重要阶段，例如在研究电信客户流失的案例中，我们首先就需要理解：预测哪些客户会发生流失？更进一步我们可能需要知道，哪些是影响客户流失的重要因素？

同时，我们需要把商业问题转化为技术问题：如何定义流失？是销户为标志还是选择多个月欠费为标志？另外是否需要定义濒临流失阶段（如多个月没有发生通话/只维持基本套餐费用）？

进一步地在资源（人力，物力，时间）限制的情况下，我们需要进一步界定：哪些高价值的客户在流失？如果对流失的客户（或部分客户）进行挽留，投入是多少？收益是多少？

2、数据理解

数据提供了数据挖掘的“原材料”。该阶段需要理解您的数据资源是什么，以及这些资源有何特征。

首先我们需要与业务部门以及数据管理员确定：（1）哪些数据可以用来预测客户流失？（2）哪些数据是已经在咱们的系统当中？（3）是否有一些重要的影响因素还没记录或者需要一定代价才能获取？

在确定好分析的数据源后，我们还需要确定这些数据当中每个指标的业务含义是？例如“高峰时期电话数”这个指标，设置这个指标的业务根据是？高峰时期的定义是？这个指标是按天统计，按周统计还是按月统计？

最后，我们还需要对数据进行一定的探索性分析，简单的如指标极值，中位数，数据的图形分布情况，缺失值情况等等，同时也可以辅助做一些统计分析，如相关系数。并且把这些探索结果并与业务部门确认是否与业务一致。

另外值得注意的是，当数据分布与业务认知存在一定冲突的时候，也不一定是数据质量存在问题，相反应该细心求证出现偏差的原因，这些不一致的情况往往代表了一个好的切入点。

3、数据准备

在对数据进行充分理解的基础上，我们就要生成能够满足数据挖掘需要的数据宽表。

在此阶段，我们需要集中精力在数据清洗上，往往一个项目超过50%的时间都放在数据理解和数据清洗上面。

通常，我们在做好数据清洗后，我们要对数据进行一系列的加工，数据转换（如连续变量转变化离散变量），生成一系列的衍生指标（例如高峰通话时长占总体通话时长的比例，长途话费占总体话费的比例，话费变动趋势）等等

4、建立模型

在第一次准备好数据后，就可以开始尝试建模了。

在模型的选择上，我们一般可以从业务思路，模型准确性以及应用方式考虑。

（1）业务思路：针对客户流失例子一个直观的想法我们可以通过分类算法把流失客户以及留存客户进行划分；当然，咱们也可以尝试通过聚类算法将整体客户群组进行市场细分，尝试能否得出具有高流失可能性的群组；

（2）模型准确性：针对同样的问题甚至同类型的场景，现在往往有多种算法都能够实现。具体到不同的应用场景，不同模型结果的准确性往往存在较大差异，因此我们应该结合数据特征，算法优势，针对性地选择合适的建模技术，一个数据挖掘项目往往需要通过多次尝试，才能选择出适合的算法；

（3）应用方式：正如前文所说，数据挖掘任务一般分为预测任务和控制任务。在有的时候，我们可能希望用神经网络模型，尽管它更像一个黑盒子，预测结构难以解释，但是预测效果一般比较精确；而在有的时候，我们可能希望使用决策树模型，因为它它以规则的方式来展现结果，非常易于分析人员进行解读。

在本例中，因为我们不但要关心客户的流失评分，也同样关心客户的流失特征，那么我们在这里可以选择决策树模型作为考虑。

5、模型评价

通过一系列的数据挖掘工作，咱们现在已经得到一个精确率较高并且有一定业务解释能力的模型（一个决策树C5.0模型）

从技术上，我们可以通过一系列的模型评估手段，如：指标法（测试集模型精确率，命中率，查全率等）以及图形法（增益图、提升图）进行技术评估；

进一步地从业务上，我们可以导出规则特征以及流失名单与业务人员进行分析探讨，验证模型可靠性；

另外，在此阶段，我们也应该重新回顾整个数据挖掘过程，确保中途没有出现技术偏差；

6、结果部署

经过前面一系列的努力，我们已经得到一个经过初步验证认为有效的数据挖掘模型，我们要开始设计策略进行模型应用及预演。

1.生成客户流失名单，并结合市场细分以及业务经验，选择重点关注客户；

2.选择并识别当中的流失比例最高的规则以及高价值客户的流失规则，针对该规则设计针对性的改善措施以及营销措施；

3.根据分析结果以及挽留成本设计具体计划，并计算预期收益；

4.设计监测和模型维护计划，用于后续模型优化。

嗯，CRISP-DM方法论暂且到这里结束，浩彬老撕会在系统地把IBM SPSS Modeler介绍完毕后，结合CRSIP-DM方法论和一个实际的数据例子为大家一步一步演示，敬请期待！

浩彬老撕正在努力做一些事情，希望能够以比较轻松的方式为大家讲述一些统计学，数据挖掘的知识，包括算法，包括工具使用问题，也包括一些科技八卦，同时也会举办一些送书活动，希望大家能够喜欢。另外如果你想联系我，欢迎在公众号中直接发送你想说的话与浩彬老撕直接交流~

长按二维码即可关注！如果你觉得浩彬老撕的内容还不错，希望你可以推荐给其他小伙伴↓↓↓

8 个评论

汪汪汪WZP

分享了，关注了，谢谢，期待老师持续更新

与天翱翔

挺实用的，还有modeler 做好的案例没有，学习下，谢谢。

Greatlr