背景介绍
近几年,各种媒体都在宣传“大数据”,听起来大数据是万能的神器,离普通人的距离是很远的,其实大数据就是来源于生活的七零八碎,不要把它想成高大上门槛很高的知识领域。“数据”这个名词大家都很熟悉了,但是如果要问“数据”具体是什么,有哪些类型?相信也能难倒一大批人。
了解数据,学习数据分析方法,利用数据分析结果解决具体的问题是现在这个信息时代每个人都应该和迫切需要掌握的一项基本技能。掌握这项基本技能的第一步就是了解什么是数据,数据分为哪些类型,因为不同的数据类型,需要用到不同的数据分析方法。编者在教学的过程中就发现很多学习者对数据没有充分的了解和认识,导致后期学习数据分析方法时,出现各种方法混用和滥用的情况,得到错误的分析结果,甚至付出很多的成本代价。下面我们介绍数据分析最终要的数据分类方法。
数据分类
我们在运用很多专业的统计数据分析软件时,都会要求对数据进行分类,分为定类数据,定序数据,定距数据和定比数据。
定类数据
在将问卷获得的数据输入SPSS后,一个问卷项目就是一个变量,变量名称可以由研究者自定,如性别。性别这个变量共有两个答案,分别表示不同的性别类别,如1表示男,2表示女;或者用0表示男,1表示女。这些数字没有数学意义上的大小之分,而只是一种编码,代表研究对象分属不同的类别或范畴。这类数据称为定类数据。与之相对应的变量称为定类变量。区分定类数据很重要,因为在SPSS数据处理时要求对每个变量的种类进行定义,否则就无法进行分析。因为定类变量代表对象类别和范畴,因而数据分析时它们往往被当做分组变量或因素变量来处理,定类数据之间的关系是“是”和“否”或者“等于”或“不等于”的关系。
定序数据
定序数据就是对变量从高到低或从大到小进行排列的次序。所以,定序数据不仅具有分类的作用,还有大小之分,存在量的关系。也就是说,定序数据之间不仅有“等于”和不等于的关系,还有大于或小于的关系。比如,受教育程度就是一个定序变量,可以分为小学、初中、高中、大学、研究生五个等级。分别用1~5五个数值表示,这些编码不仅表示受教育程度的不同,还表示受教育程度的高低。同样,学习成绩也可以分“好、中、差”三个等级,分别用3,2,1表示而构成定序数据。
定距数据
当我们使用每个等级之间的数据距离相等的量表来评价问卷项目时,所获得的数据就是定距数据。如,利克特量表和语义区分量表所取得的都是典型的定距数据。定距数据不仅像定类数据一样可以表示类别,也可以像定序数据一样表示大小高低,还可以表示类别之间的距离。因而,除了具有等于和不等于、大于和小于的关系外,等距数据还具有加和减的特质。所以,可以对定距数据进行大小比较,或求其总和、平均值和标准差。又如,实际考试分数也是典型的定距数据,但如果我们按照某种标准将考试成绩分为好、中、差三个等级,那它就变成了定序数据,而此时的考试分数则变成了定序变量。可见,定序数据可以用来简化分布水平较多的定距数据。
定比数据
定必数据实际是一种特别的定距数据,是最高级别的测量数据。不同的是,定比数据除了定距数据的三种特质外,还具有乘和除的数学特质。定比数据还有零值,而且有意义,表示一个固定的起点。距离之间的差距测量总是从零开始的。比如,甲同学的英语成绩为40分,而乙同学的英语成绩为80分,那么后者就是前者的两倍。在SPSS数据分析中,常常将高级数据类型转换为低级数据进行处理。