数据审核节点的重要性——准备分析数据

发表: 2018-11-29 浏览: 2284

数据挖掘

数据审核节点将首先全面检查用户导入到 IBM SPSS Modeler 的数据。在初始数据探究过程中经常会使用数据审核报告，该报告显示了摘要统计以及每个数据字段的直方图和分布图，并且它使您可以指定缺失值、离群值和极值的处理。

本例使用 telco.sav 数据文件

1.读入数据

2. 添加"类型"节点以定义字段，并将 churn 指定为目标字段（角色为目标）。为了使此字段成为唯一目标字段，应将所有其他字段的角色设置为输入。

3. 确认已正确定义字段的测量级别。例如，大多数值为 0 和 1 的字段都可以用作标志字段，但某些字段，比如性别，作为包含两个值的名义字段会更加准确。

提示：要更改多个具有相似值（例如 0/1）的字段的属性，请单击值列标题以按照该列对字段进行排序，然后使用 Shift 键选择所有要更改的字段。然后可以右键单击选定项，更改所有选定字段的测量级别或其他属性。

4. 将"数据审核"节点附加到流。在"设置"选项卡上，保留缺省设置以便在报告中包含所有字段。由于 churn 是类型节点中定义的唯一目标字段，系统会自动将其用作交叠字段。在"质量"选项卡上，保留检测缺失值、离群值和极值的所有缺省设置，然后单击运行。

将显示"数据审核"浏览器，其中包含每个字段的缩略图和描述统计。

使用工具栏显示字段和值标签，并将图表从水平对齐切换为垂直对齐（仅适用于分类字段）。

1. 也可以使用工具栏或"编辑"菜单选择要显示的统计量。

双击审核报告中的任意缩略图可以查看该图表的全尺寸版本。由于 churn 是流中的唯一目标字段，系统会将其自动用作交叠字段。可以使用图形窗口工具栏来切换字段标签和值标签的显示，也可以单击"编辑方式"按钮对该图表进行进一步定制。

另外，您也可以选择一个或多个缩略图并为每个缩略图生成"图形"节点。生成的节点将放在流画布中，您可以将其添加到流中以重新创建该特定的图形。

处理离群值和缺失值

审核报告中的"质量"选项卡显示有关离群值、极值和缺失值的信息。

也可以指定处理这些值的方法并生成超节点，以自动应用各种变换。例如，您可以使用多种方法（包括 C&RT算法）来选择一个或多个字段并选择插补或替换这些字段的缺失值。

指定用于一个或多个字段的归因方法后，要生成缺失值超节点，请从菜单中选择:

生成 > 缺失值超节点

另外，也可以生成"选择"节点或"过滤"节点，以除去具有缺失值的字段或记录。例如，您可以过滤掉质量百分比低于指定阈值的任何字段。

也可以用类似的方法来处理离群值和极值。指定要对每个字段执行的操作（强制、废弃或取消）并生成超节点，以应用各种变换。

完成审核并将生成的节点添加到流中之后，您可以继续进行分析。您可能会选择使用"异常检测"、"特征选择"或其他多种方法来进一步筛选数据。

0 个评论

要回复文章请先登录或注册