数据审核节点的重要性——准备分析数据

浏览: 2284

数据审核节点将首先全面检查用户导入到 IBM SPSS Modeler 的数据。在初始数据探究过程中经常会使用数据审核报告,该报告显示了摘要统计以及每个数据字段的直方图和分布图,并且它使您可以指定缺失值、离群值和极值的处理。

本例使用 telco.sav 数据文件

1.读入数据

image.png

2. 添加"类型"节点以定义字段,并将 churn 指定为目标字段(角色为目标)。为了使此字段成为唯一目标字段,应将所有其他字段的角色设置为输入。

image.png

3. 确认已正确定义字段的测量级别。例如,大多数值为 0 和 1 的字段都可以用作标志字段,但某些字段,比如性别,作为包含两个值的名义字段会更加准确。

image.png

提示:要更改多个具有相似值(例如 0/1)的字段的属性,请单击值列标题以按照该列对字段进行排序,然后使用 Shift 键选择所有要更改的字段。然后可以右键单击选定项,更改所有选定字段的测量级别或其他属性。

4. 将"数据审核"节点附加到流。在"设置"选项卡上,保留缺省设置以便在报告中包含所有字段。由于 churn 是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。在"质量"选项卡上,保留检测缺失值、离群值和极值的所有缺省设置,然后单击运行。

将显示"数据审核"浏览器,其中包含每个字段的缩略图和描述统计。

使用工具栏显示字段和值标签,并将图表从水平对齐切换为垂直对齐(仅适用于分类字段)。

1. 也可以使用工具栏或"编辑"菜单选择要显示的统计量。

image.png

双击审核报告中的任意缩略图可以查看该图表的全尺寸版本。由于 churn 是流中的唯一目标字段,系统会将其自动用作交叠字段。可以使用图形窗口工具栏来切换字段标签和值标签的显示,也可以单击"编辑方式"按钮对该图表进行进一步定制。

image.png

另外,您也可以选择一个或多个缩略图并为每个缩略图生成"图形"节点。生成的节点将放在流画布中,您可以将其添加到流中以重新创建该特定的图形。

image.png

处理离群值和缺失值

审核报告中的"质量"选项卡显示有关离群值、极值和缺失值的信息。

image.png

也可以指定处理这些值的方法并生成超节点,以自动应用各种变换。例如,您可以使用多种方法(包括 C&RT算法)来选择一个或多个字段并选择插补或替换这些字段的缺失值。

image.png

指定用于一个或多个字段的归因方法后,要生成缺失值超节点,请从菜单中选择:

生成 > 缺失值超节点

另外,也可以生成"选择"节点或"过滤"节点,以除去具有缺失值的字段或记录。例如,您可以过滤掉质量百分比低于指定阈值的任何字段。

image.png

也可以用类似的方法来处理离群值和极值。指定要对每个字段执行的操作(强制、废弃或取消)并生成超节点,以应用各种变换。

完成审核并将生成的节点添加到流中之后,您可以继续进行分析。您可能会选择使用"异常检测"、"特征选择"或其他多种方法来进一步筛选数据。


文末转一个超节点的知识:https://www.sohu.com/a/152105778_99910245

推荐 0
本文由 DDlucky 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册