在系列(五)中,我们给大家介绍了如何借助数据审核节点帮助我们快速生成数据探索报告,那么在本期,我们将继续深入分析,如何利用SPSS开展字段间的数据探索关系。关于数据审核节点的介绍可以参考:
IBM SPSS Modeler最强工具书(5)——一键生成数据探索报告
按照性质的区分,字段之间的关系可以区分为:(1)分类字段与分类字段间的关系;(2)连续字段与连续字段之间的关系;(3)连续字段与分类字段之间的关系。本期将会介绍,我们该如何利用Modeler中的矩阵节点以及网络节点来分析分类字段与分类字段间的关系;
关于本次所使用的数据文件为如下样例,相关数据样例可以通过如下链接下载:http://pan.baidu.com/s/1gfg6LVH密码: 2qme
以上是本次教程所使用的数据示例:customer.xls
矩阵节点位于“输出”选项卡下,主要通过矩阵/列联表的方式帮助我们进行数据分析,一般用于研究分类变量字段之间的关系。
在本次的主题当中,我们首先想要分析,性别与客户流失这两个分类之间的关系,因此我们在行中选择“CHURN”(流失),在列中选择“Sex”(性别)
另外,在上方有一个不常用的功能,“所有标志”选项,选择后将创建一个对称矩阵。矩阵中的每个标志字段对应一行和一列,并且单元格数值包含该标记字段之True(真)值的同现计数。
最后,更少被使用的所有数值选项将产生一个表格,其中每个连续字段对应一行和一列,并且单元格包含各字段对的乘积总值(交叉乘积表)。
单元格内容的默认选项是交叉表。供替代的选择是一项应用于第三个选定的叠加连续字段的功能;可显示矩阵中各单元格内该字段的Sum(总值)、Mean(平均值)、Min(最小值)、Max(最大值)或Sdev(标准差)。
矩阵节点将通过卡方检验来判定两个分类变量之间是否独立。
关于卡方检验的内容,浩彬老撕将在以后的“统计分析系列”中专门介绍。
关于卡方检验,因为我们认为上图中的概率(即平时所说的P值/Sig)小于0.05的话,我们可以认为两个字段之间非独立。
值得注意的是,尽管模型提示我们两者之间的差异不能忽略,但是具体模型在商业运作中是否能够显著运用,还需要与业务人员进一步讨论。
最佳模型无法由分析人士独立开发,而是需要与那些能从实践和经营角度理解数据和正在解决的业务问题的人进行持续互动。
网络节点节点位于“图形”选项卡下,主要通过绘制网络图为我们直观展示变量属性之间的强弱程度,一般用于关联分析以及分类变量之间的关系呈现
进一步地,我们也可以借助网络节点分析这些变量之间的关联程度。
细线条代表关联程度低,而粗实线则表示关联程度高。中等程度的关联用普通线条表示。
‘网络’节点显示具有互动性,并且可以改变阈值设置(定义关联程度高低)、隐藏无关字段、修改布局和生成节点。
存在两种类型的网络图:
在“网络:中,显示所有选择的分类字段间的关系,而在”导向网络“图中,仅显示涉及具体目标字段的关系。
‘’导向网络仅显示 true 标记’’复选框可在网络图中只显示标记字段(在Type(类型)节点或源节点的Types(类型)选项卡中定义)的True 反馈。正如我们将在之后的课程中看到的那样,这项功能在显示多个产品(购买产品或非购买产品)间的关系时非常实用。
线值为可以选择以下定义:
绝对值选项将根据带有成对值的记录数设置阈值。
总体百分比选项将链接所代表的观测值数的绝对值显示为相对于Web 图形全部对值的出现次数的比例。
较小字段/值的百分比和较大字段/值的百分比说明要使用哪个字段/值来估计百分比。例如,字段 Drug 中有100 条记录值为 drugY ,但字段 BP 中只有10 条记录值为 LOW 。有七条记录同时具有值 drugY 和 LOW ,因此,根据您用来参考的字段不同(较小: BP 或较大: Drug ),百分比分别为70% 或7%。
网络图中的链接数量通过以下方式控制:(1)可显示的最大链接数;(2)仅显示高于下值的链接;(3)显示所有链接。Discard(丢弃)选项允许您忽略受过少记录支持的关联。
Link Size(链接大小)选项控制链接大小。
“Link size varies continuously”(链接大小连续变化)选项将显示一系列的链接大小,以实际数据值来反应关联强度的变化(值得注意的是,选择了此项,可能会有一些弱连接看不清楚)。
“Link size shows strong/normal/weak categories”(链接大小显示强/普通/弱类别)将显示三种连接强度,即强、普通和弱。这些类别的分界点可在上面的图表和最终图形中规定。
考虑到我们有2070个记录,我们将最初的阈值不妨设为,150(最多只显示150条连接),200(弱连接的上限)和300(强链接下限)
当然以上三个阈值都可以在生成图形后,随意更改。
接下来,我们开始探索。根据连接摘要,我们把网络显示改为“大小显示为强/正常/弱”,把强链接下限设定为500,弱连接上限设定为200
一般情况下,我们默认处于探索模式,在该模式下,我们使用鼠标点击任意一个节点选中,可以随意移动它的位置;
另外这时候,我们发现婚姻状态为‘D’的点与其他点之间都是弱连接,为了显示简洁,我们不妨将它隐藏,要隐藏节点,我们需要把探索模式切换为编辑模式;
要将点隐藏,我们需要切换为编辑模式:视图->编辑模式;
之后在点‘D’点击右键,选择‘隐藏’,即可把点隐藏;“选择隐藏并重新规划”的话,Modeler会根据新的点重新布局;如果希望取消隐藏,可以在面板空白处,点击右键,选择‘全部显示’或‘全部显示并重新规划’即可
同理,我们在网络节点在选定我们需要的链接后也能自动生成‘选择节点’或‘导出节点’;
首先我们需要切换回‘探索模式’,之后我们需要选中‘魔棒’;只需要点击或划线选中我们需要导出的链接,那么对应链接会被选中并变为红色,如果我们需要选中多个链接,只需要按住‘Ctrl’键,再选择其他链接即可。选中所有我们需要的链接后,只需要点击上方工具栏的生成,再选择需要生成的节点即可。
另外,如果你只需要导出一个链接,只需要把鼠标放在giant链接的位置,右键,选择‘导出节点’或‘选择节点’即可。
近期热门文章精选:
1.数据人也要懂的“装逼利器”,数据驱动下的“增长黑客”
2.浩彬老撕奇妙实验室第一弹:炸裂三观的原汁机
3.IBM SPSS Modeler最强工具书(6)——强大的数据操作功能(附数据及练习)
作者简介:浩彬老撕
好玩的IBM数据工程师,
立志做数据科学界的段子手,
致力知识分享,每月至少一次送书活动