IBM SPSS Modeler最强工具书(6)——强大的数据操作功能(附数据及练习)

浏览: 3619

幻灯片1.JPG幻灯片2.JPG

在前面,我们已经学会了读取数据,并且也介绍了一部分数据理解的内容。

下一步,在CRISP-DM 流程的数据准备阶段,数据分析师可构建用于建模的最终数据集。在这里,可能涉及一系列的操作,包括创建新字段或改造现有字段,选择记录组或从更大的数据文件中采样,以及根据数据质量检查情况来清理数据。但是,正如CRISP-DM方法论所强调的,这些任务通常要执行多次,并且没有任何特定的执行顺序。也就是说,我们先可以做一些数据研究,接下来进行一些数据准备,然后再对您创建的新字段做一些数据研究,再进行一些更多的数据准备。即便在开始建模之后,如果模型没有充分发挥作用,或者,如果建模输出提供了一些线索,表明可对数据进行变更,那么重新回到数据准备阶段也很常见。

按照这一逻辑,我们将在本次中学习一些数据准备的知识,但随后会在下一步学习更多的数据理解工作。


关于本次所使用的数据文件为如下样例,相关数据样例可以通过如下链接下载: http://pan.baidu.com/s/1gfg6LVH 密码: 2qme

幻灯片32.jpg

以上是本次教程所使用的数据示例:customer.xls


幻灯片3.JPG

一般说来,修改和准备数据的方法可在“记录选项”选用板(包含用于处理记录的工具)或“字段选项”选用板(包含处理字段的工具)中找到。

在本周的内容中,浩彬老撕将介绍几个字段操作节点,包括Filter(过滤)节点,用于从分析中除去不需要的字段;Reorder(重新排序)节点,用于对数据流和对话框中的字段进行重新排序;Derive(导出)节点,用于在数据流中创建新字段;以及Reclassify(重新分类)节点,用于变更分类字段的编码或折叠分类。

我们还将演示如何使用在前几课介绍的节点的输出窗口中提供的Generate(生成)菜单,自动创建Derive(派生)和Reclassify(重新分类)节点。

在讨论节点本身之前,我们先来介绍一下CLEM (注意:SPSS Modeler前身即为Clementine)语言。



注意,CLEM表达式(包括字段名称在内)区分大小写!



例如:若我们要计算字段income(收入)与字段 famincome(家庭收入)的绝对差的平方根,则可以:Sqrt(abs (famincome- income))

幻灯片8.JPG

值得注意的是,我们可以一次过拖动多个字段,再点击中间的过滤器,即可实现多字段过滤,十分的方便。

幻灯片9.JPG

幻灯片11.JPG

幻灯片12.JPG

幻灯片13.JPG

幻灯片14.JPG

在最常见的情况下,Count(计数)和State(状态)派生类型与时间序列或序列数据一起使用。

当选定了派生类型后,该对话框会发生相应的变化。要派生的字段的度量级别可以使用Field type(字段类型)选项进行明确设置。

幻灯片15.JPG

幻灯片16.JPG

幻灯片17.JPG

幻灯片18.JPG

幻灯片19.JPG

幻灯片20.JPG

幻灯片21.JPG

幻灯片22.JPG

幻灯片23.JPG


幻灯片24.JPG

重新分类节点支持对分类字段的数据值重新分类或重新编码。例如,一个用于存储客户具体工作职位的字段,对于预测是否将其重新分类到更广泛的工作类别中,可能更有用。重新分类值可以替换原来的字段值,但更安全的方法是创建一个新字段,并保留原来的字段。

在重新分类节点中,Get(获取)按钮可将从上游Type(类型)节点或Type(类型)选项卡中获取的值填充到Originalvalue(原始值)列中。或者,您可以直接输入原始值。Copy(复制)按钮可将当前Originalvalue(原始值)列中的值复制到 New Value(新值)列。如果您想保留大部分原始值,仅重新分类少数现有值,这将非常有用。如果存在错误,可使用Clear new(清除新值)按钮从 Newvalue(新值)列中清除值,Auto(自动)按钮将向 Original value(原始值)列中的每个值分配一个唯一的整数代码。此选项有助于使用替代标识符替换敏感信息(客户ID、客户姓名、产品名称),或者将字符串数据重新分类为数字。

当在数据流中遇到未在Newvalue(新值)列中指定的值时,您可以选择使用Original value(原始值)或DefaultValue(默认值)。

切忌不要在S(单身)下的空行内单击,因为这将创建另一个空值,并且在运行此节点时会导致错误。

幻灯片25.JPG

幻灯片26.JPG

幻灯片27.JPG

本次教程练习题目

幻灯片28.JPG

幻灯片29.JPG

关于浩彬老撕

浩彬老撕正在努力做一些事情,希望能够以比较轻松的方式为大家讲述一些统计学,数据挖掘的知识,包括算法,包括工具使用问题,也包括一些科技八卦,同时也会举办一些送书活动,希望大家能够喜欢。另外如果你想联系我,欢迎在公众号中直接发送你想说的话与浩彬老撕直接交流~

长按二维码即可关注!如果你觉得浩彬老撕的内容还不错,希望你可以推荐给其他小伙伴↓↓↓

qrcode_for_gh_f5dbff7c7d2b_258.jpg

更多书籍更多数据挖掘知识,敬请期待



推荐 5
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

4 个评论

浩彬老师很给力啊
必须的,哈哈
非常详细,关注了
非常详细。

要回复文章请先登录注册