在系列(5)中,我们给大家介绍了如何借助数据审核节点帮助我们快速生成数据探索报告,那么在本期,我们将继续深入分析,如何利用SPSS开展字段间的数据探索关系。关于数据审核节点的介绍可以参考:
IBM SPSS Modeler最强工具书(5)——一键生成数据探索报告
按照性质的区分,字段之间的关系可以区分为:(1)分类字段与分类字段间的关系;(2)连续字段与连续字段之间的关系;(3)连续字段与分类字段之间的关系。上期已经介绍了如何利用Modeler中的矩阵节点以及网络节点来分析分类字段与分类字段间的关系,具体可以参考:
IBM SPSS Modeler最强工具书(7)——探索分类字段间的关系
本期将会介绍,我们该如何利用Modeler中的Statistics节点来分析连续字段间的关系
关于本次所使用的第一份数据文件为如下样例,相关数据样例可以通过如下链接下载:http://pan.baidu.com/s/1kVOzi5L 密码: srbb
以上是本次教程所使用的数据示例:经济发展基本信息.xls
关于本次所使用的第二份数据文件为如下样例,相关数据样例可以通过如下链接下载:http://pan.baidu.com/s/1gfg6LVH密码: 2qme
以上是本次教程所使用的数据示例:customer.xls
探索连续字段之间的关系,我们一般实用Statistics节点。
Statistics节点(统计节点)位于“输出”选项卡下,主要用于连续变量,帮助我们快速计算多个连续变量的一系列统计指标,包括:计数,平均值,最小值,最大值,方差,中位数,众数等等,同时也可以计算这些连续变量之间的相关关系
我们先使用第一份数据文件:“经济发展基本信息”来进行实验。
当然,每个字段的统计指标在前面我们已经介绍过可以使用‘数据审核’节点计算,这里的‘统计’节点为我们提供了更加深入的分析,提供了相关性计算。
在研究两个连续字段间的关系时,普遍使用相关系数。相关系数度量两个连续字段的线性关联度。关联数值范围为–1 至+1,其中+1 代表完全正线性关系(一个字段随另一个字段的增加以固定倍率增加),–1代表完全负线性关系(一个字段随另一个字段的减少以固定倍率增加)。数值零代表两个字段间没有线性关系。
这里再次强调,相关系数仅仅是关注于连续变量之间的线性关系,但变量之间存在非线性关系的话,这样的分析就不太合适。
‘相关设置’对话框有两个选项“按重要性(1-p)定义相关强度”,以及“按绝对值定义相关强度”。这个设定主要是用来最后相关性强度的标签。
此处,选择标签“按重要性(1-p)定义相关强度”,Modeler提供的评价方法是:通过从1 中减去相关系数的显著性值计算得出,得到的值越接近1,两个字段的关联可能性越大(即非独立),这不会告诉您该关系的强弱程度,而是告诉我们这两个字段是否有关系。
而第二种评价方法是基于Pearson(皮尔逊)相关性的绝对值,即相关系数绝对值越接近于1,相关性越大;简单来说,前者高武我们变量之间是否有关系,后者告诉我们关系有多强。
默认设置下,第一种评价方法,重要性不超过0.9,被定义为弱;在.9 和.95 之间时,被定义为中等;超过.95 时,被定义为强;而第二种评价方法,相关性在不超过.33(绝对值)时,被定义为弱;在.33 和.66 之间时,被定义为中等;超过.66 时,被定义为强。这些默认值可在各自的文本框内更改。
Modeler的官方说明文档中建议分析人员根据重要性而非绝对值来为相关性附上标签,因为相关性的第一决定因素是其是否显著(重要)。比如,.66的相关性可能在一个数据集内高度显著,而在另一个数据集内并不显著。
但是另一方面,在数据挖掘项目中,我们常常使用数千、甚至数百万条记录。在此情况下,几乎所有相关性都将为显著,并且显示重要性为1。因此,样本越大,您就越依赖于相关性的实际值。样本越小,则先看重要性,然后再看相关性。
在实际应用中,“按重要性(1-p)定义相关强度”这种方式是相对比较少用的
左边是选择以“按重要性”的标签结果,右边是“按绝对值”的评价结果,可以看到无论选择哪种评价手段,输出的统计量都是一样的,只是后面的评价标签不太一样;
我们选择“按绝对值”的结果来看,可以发现职工的平均工资和居民消费水平存在较强的正相关关系,而商品零售价格指数则与居民消费水平存在中等强度的负相关关系,这些结论应该都是和我们认知是一致的。
使用相关性的一个限制是它们只能表示连续字段间的线性关系。两个字段间可能不存在线性关系,但可能有另一种函数关系。比如,年龄和收入间的相关性非常弱,但根据经验,这两个字段间存在抛物线关系。收入随年龄的增长而增加,但最后在接近退休年龄时下降。数据挖掘常常包含开发模型时发现此类非线性关系,另外也有可能尽管直接的线性关系不显著,但是存在一定的交叉效应。
最后,我们要明白两个字段间的低相关性不是放弃将一个字段作为预测变量的理由。一般来说,我们会从业务含义以及统计技术手段两方面评价是否弃用一个指标。
近期热门文章精选:
1.数据人也要懂的“装逼利器”,数据驱动下的“增长黑客”
2.浩彬老撕奇妙实验室第一弹:炸裂三观的原汁机
3.IBM SPSS Modeler最强工具书(7)——探索分类字段间的关系
4.R的极客理想:R语言知识体系概览
5.R语言,超级英雄云词图,你们要的自定义形状来了(附完整教程)
作者简介:浩彬老撕
好玩的IBM数据工程师,
立志做数据科学界的段子手,
致力知识分享,每月至少一次送书活动