IBM SPSS Modeler最强工具书(9)——分类与连续字段间的关系

浏览: 2756



在系列(5)中,我们给大家介绍了如何借助数据审核节点帮助我们快速生成数据探索报告,那么在本期,我们将继续深入分析,如何利用SPSS开展字段间的数据探索关系。关于数据审核节点的介绍可以参考:

IBM SPSS Modeler最强工具书(5)——一键生成数据探索报告


按照性质的区分,字段之间的关系可以区分为:(1)分类字段与分类字段间的关系;(2)连续字段与连续字段之间的关系;(3)连续字段与分类字段之间的关系。之前已经介绍了如何利用Modeler中(1)和(2)的关系探索问题,具体可以参考:

IBM SPSS Modeler最强工具书(7)——探索分类字段间的关系

IBM SPSS Modeler最强工具书(8)——探索连续字段间的关系


关于本次所使用的数据文件为如下样例,相关数据样例可以通过如下链接下载:http://pan.baidu.com/s/1gfg6LVH密码: 2qme

以上是本次教程所使用的数据示例:customer.xls


本期主要为大家介绍如何利用平均值节点与图形板节点对分类字段与连续字段间的关系进行探索


“平均值”节点同样位于“输出”选项卡下,主要帮助我们分析分类字段与连续字段之间的关系,即来自两个总体的样本均值是否相等。

简单的一个例子,假如我们现在开发出一种新型减肥药物,分为两组试验。一组50人,服用常规药物,3个月后记录降低的体重;另外一组同样是50人,服用新型药物,3个月后记录降低的体重。那么现在,我们希望解决的问题就是分析常规药物组和新型药物组两组对于减肥的效果是否一致?


‘平均值’节点,用于研究对比独立组之间或相关组之间的平均差。例如,在对该节点建模前,基于收入、子女数量、本地通话时长等因素,去调查流失客户与留存客户类别间是否存在显著差异非常有用。

选择“在字段的组之间”对应的是独立样本T检验:例如,我们需要比较留存客户与流失客户的使用电话的平均情况,比较的是两组独立客户,属于独立样本T检验;

选择“在字段对之间”对应的是成对样本T检验:例如,我们需要比较同一客户在减价前后使用电话的平均情况,比较的是同一客户的前后情况就属于成对样本T检验;

关于T检验的知识,浩彬老撕将会在后续的“统计分析”系列中详细介绍原理,此处主要介绍实际应用和Modeler当中的操作。



第一列为测试字段名,第二列为流失客户在该字段下的平均值,第三列为留存客户在该字段下的平均值。比如流失客户的年收入平均值为47144.991,留存客户的年收入平均值为54207.307。‘重要性’列表明了除年龄外,所有字段上的组平均值具有重大差异。(统计上来说,即P值小于0.05,拒绝原假设,认为存在差异)

‘排序依据’选项使您能够通过列标题对结果进行排序。View(视图)选项使您能够规定您希望在结果中显示的细节程度。“简单”视图仅在输出中显示单元格平均值和重要性值。“高级”视图还包括 Standard Deviation(标准差)、Standard Error(标准误差)、Count(计数)、F-Test(F-检验)值以及自由度。


“图形板”节点位于“图形”选项卡下,“图形板”节点一般是我们最常用的功能之一。


通过图形板节点,可在一个节点中选择不同类型的图形(条形图、饼图、柱状图、散点图、热点图、泡泡图等)。

该节点可帮助您选择正确的图形,并且包含多种Modeler 独立图表节点中不提供的图形。

分析人员选择希望研究的字段,然后该节点将自动为您提供研究数据所需的图形类型选择。该节点自动过滤任何不适用于所选字段的图形类型。

您还可以在“详细”选项卡中定义详细的或更高级的图形选项,或使用该选项卡重新创建图形。

幻灯片41.JPG

在本次中,我们将使用分类字段“Sex”与连续字段“Est_Income”来研究“Churn”的关系来展示该节点的功能。

首选是一个 3-D 条形图,该图计算连续字段的汇总统计并显示两个分类字段的联合类别结果。默认设置下,汇总统计为Sum(总值)(参见左下方的 Summary(汇总)下拉菜单)。我们会将 Sum(总值)改为 Mean(平均值)。

幻灯片42.JPG

从图中还是可以看到这些字段之间存在比较明显的关系,尤其是在男性的流失客户中,平均收入非常的低;与此同时,我们可以可以看到似乎性别与收入是存在一定的交互作用去影响客户流失(还需要具体验证)

如果您将鼠标光标停在条柱上,弹出窗口会显示该条柱对应的所有三个字段的数值。您可以转动图形,使查看条柱和条柱高度更方便。为此,点击图形任何一处。光标变成符号,您可以拖拽鼠标使该图形在任何轴上旋转。

幻灯片43.JPG

当然,我们只需要返回编辑“图形版”节点,我们可以可以非常简单地对图形进行切换,这次选择的是热图。

特别地,“图形版”也可以切换到编辑模式,我们可以对生产的图形进行多种操作:

(1)格式文本

(2)更改填充颜色以及文本框和图形元素样式

(3)更改边框和线条的颜色及虚实线

(4)更改图形元素的大小(比如条柱和点)

(5)更改轴和比例设置

(6)在分类轴上对类别进行排序、排除和折叠

幻灯片44.JPG


近期热门文章精选:

1.数据人也要懂的“装逼利器”,数据驱动下的“增长黑客”

2.王宝强离婚事件中的碰瓷营销

3.一个蛇精病的R语言包,每天给你一个花式自动赞~

4.IBM SPSS Modeler最强工具书(8)——探索连续字段间的关系

5.R语言,超级英雄云词图,你们要的自定义形状来了(附完整教程)

二维码4缩小.jpg

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 2
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

3 个评论

跟着系列走,老师视频教程也需要同步了
说得是。最近事情比较多,争取尽快更新上去!谢谢支持!
老师的文章很受益,望继续!

要回复文章请先登录注册