基础准备
数据可以通过手工录入SPSS或将存储为其它格式的数据导入SPSS,具体的操作过程在下面两篇文章中已经介绍:
SPSS原始资料的数据录入;
SPSS外部数据的录入;
有了数据以后,还需要对数据进行必要的加工处理。对同一个数据可以采取多种统计方法,从不同的侧面进行研究,不同的统计方法对数据文件结构的要求不尽相同,需要对数据文件的结构进行重新调整或转换,以适合相应的统计方法,这项工作称为数据管理。
SPSS数据管理功能基本上都集中在“转换”和“数据”菜单,其中前者主要实现变量级别的数据管理,如计算新变量、变量取值重编码等,而后者的功能主要是实现文件级别的数据管理,如变量排序、文件合并、拆分等。下面介绍变量水平的数据管理。
变量水平数据管理
如上图,SPSS的转换菜单的项目可以分为以下三类:
计算新变量:就是右图的“计算变量”选项,这是菜单中最常用和重要的功能。由旧变量通过不同的计算过程,生成新变量。
变量转换:包括“对个案内的值计数”、“重新编码为相同变量”、“重新编码为不同变量”、“自动重新编码”、“可视分箱化”、“最优分箱化”和“个案等级排序”。能够对原有变量的数值进行转换。
专用过程:包括“时间和时间向导”、“创建时间序列”、“替换缺失值”和“随机数字生成器”。专用过程的功能,在今后介绍具体分析过程中会具体介绍。
计算新变量
计算新变量就是在原有变量数据的基础上,根据用户的需要,使用算术表达式及函数,得到新的变量数据。下图是编者随机编写的数据:
选择“转换”菜单中的“计算变量”,创建一个新变量“十年预期总收入”,并在数学表达式中输入计算计算公式,如下图:
最后得到新的数据表中新增了十年预期总收入的变量,如下图:
计算公式除了可以手动输入意外,SPSS还提供了函数组框(与Excel函数相似)和函数注释框,方便使用。
变量转换
“重新编码为相同变量”就是将符合条件的数据替换成新数据,新数据的类型与旧数据相同,新数值将覆盖原有数据,例如,将赵六替换成他的妻子童九。“重新编码为不同变量”更为常用,它能够将符合条件的数据替换成新类型的数据,并存入新变量中,例如,将年收入在30000到50000的数据定义为中等收入。重新编码比较简单,这里就不举例说明了。
“可视化分箱”能够将数据型数据进行分组并以直方图的形式输出,将上述例题的家庭年收入作可视化分箱,结果如下:
我们可以在“生成分割点”中设置固定步长的分组区间,也可以在“网格”中手动设置分组区间。同时可以设置是否包含上端点。
“自动重新编码”能够将数值型或字符新数据进行排序,字符型数据排序依据首字母顺序。如下图所示,是数值型的出生日期和字符型的姓名进行排序的结果:
“个案等级排序”也可以返回排序的结果,但是与“自动重新编码”不同的是它只能对数值型数据进行排序。它除了能够返回排名,还能够返回百分位等其他类型,如下图所示:
“对个案内的值计数”用来表示某个变量的取值中是否出现某个值。可以是单个数值,也可以是某个区间。
“随机数字生成器”用于设定伪随机函数的随机种子。默认情况下随机种子随着时间在不停改变,这样所计算出的随机数值无法重复。此时可用随机数字生成器可以人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子开始计算,即结果可重现。
专用过程
专用过程模块将会在以后的具体统计分析实例中介绍,这里就不凭空介绍,混淆视听了。