变量水平的数据管理

浏览: 1953

基础准备

数据可以通过手工录入SPSS或将存储为其它格式的数据导入SPSS,具体的操作过程在下面两篇文章中已经介绍:

SPSS原始资料的数据录入

SPSS外部数据的录入

有了数据以后,还需要对数据进行必要的加工处理。对同一个数据可以采取多种统计方法,从不同的侧面进行研究,不同的统计方法对数据文件结构的要求不尽相同,需要对数据文件的结构进行重新调整或转换,以适合相应的统计方法,这项工作称为数据管理。

SPSS数据管理功能基本上都集中在“转换”和“数据”菜单,其中前者主要实现变量级别的数据管理,如计算新变量、变量取值重编码等,而后者的功能主要是实现文件级别的数据管理,如变量排序、文件合并、拆分等。下面介绍变量水平的数据管理。


变量水平数据管理


如上图,SPSS的转换菜单的项目可以分为以下三类:

  • 计算新变量:就是右图的“计算变量”选项,这是菜单中最常用和重要的功能。由旧变量通过不同的计算过程,生成新变量。

  • 变量转换:包括“对个案内的值计数”、“重新编码为相同变量”、“重新编码为不同变量”、“自动重新编码”、“可视分箱化”、“最优分箱化”和“个案等级排序”。能够对原有变量的数值进行转换。

  • 专用过程:包括“时间和时间向导”、“创建时间序列”、“替换缺失值”和“随机数字生成器”。专用过程的功能,在今后介绍具体分析过程中会具体介绍。 


计算新变量

计算新变量就是在原有变量数据的基础上,根据用户的需要,使用算术表达式及函数,得到新的变量数据。下图是编者随机编写的数据:


选择“转换”菜单中的“计算变量”,创建一个新变量“十年预期总收入”,并在数学表达式中输入计算计算公式,如下图:


最后得到新的数据表中新增了十年预期总收入的变量,如下图:



计算公式除了可以手动输入意外,SPSS还提供了函数组框(与Excel函数相似)和函数注释框,方便使用。

变量转换

“重新编码为相同变量”就是将符合条件的数据替换成新数据,新数据的类型与旧数据相同,新数值将覆盖原有数据,例如,将赵六替换成他的妻子童九。“重新编码为不同变量”更为常用,它能够将符合条件的数据替换成新类型的数据,并存入新变量中,例如,将年收入在30000到50000的数据定义为中等收入。重新编码比较简单,这里就不举例说明了。

“可视化分箱”能够将数据型数据进行分组并以直方图的形式输出,将上述例题的家庭年收入作可视化分箱,结果如下:


我们可以在“生成分割点”中设置固定步长的分组区间,也可以在“网格”中手动设置分组区间。同时可以设置是否包含上端点。

“自动重新编码”能够将数值型或字符新数据进行排序,字符型数据排序依据首字母顺序。如下图所示,是数值型的出生日期和字符型的姓名进行排序的结果:


“个案等级排序”也可以返回排序的结果,但是与“自动重新编码”不同的是它只能对数值型数据进行排序。它除了能够返回排名,还能够返回百分位等其他类型,如下图所示:


“对个案内的值计数”用来表示某个变量的取值中是否出现某个值。可以是单个数值,也可以是某个区间。

“随机数字生成器”用于设定伪随机函数的随机种子。默认情况下随机种子随着时间在不停改变,这样所计算出的随机数值无法重复。此时可用随机数字生成器可以人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子开始计算,即结果可重现。

专用过程

专用过程模块将会在以后的具体统计分析实例中介绍,这里就不凭空介绍,混淆视听了。

推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册