SPSS分析技术:最优尺度回归;无论做人还是做数据分析,请用同一把尺子测量事物!

浏览: 5220

基础准备

前面我们介绍的回归分析包括线性回归分析和曲线直线化的回归分析,曲线直线化的回归分析其实也是线性回归分析的一种。

在线性回归模型中,要求因变量和自变量都要是定距数据,这是由回归模型的分析原理决定的。我们可以随意设定一个二元线性回归模型:


数是a,x2的回归系数为b,表示自变量x1和x2的取值从1上升到2和从100上升到101,对因变量y数值的影响分别是a和b,这实际上也就要求自变量是定距数据。在上面这个模型中,年龄是明显的定距数据,以岁为单位;而学历水平则不然,如果定义的学历水平1代表初中,2代表高中、3代表本科、4代表硕士、5代表博士,显然这里的数值12345只是定序数据(初中与高中的学历水平差距VS高中与大学的学历水平差距),而非定距数据。因此,在这个模型中,如果将上述学历水平的量化数据放入模型显然是不合适的,很可能导致错误的分析结论。上面学历水平数据属于定序数据,还有一类数据属于定类数据,例如不同民族,同样的,如果将民族这个自变量纳入到线性回归模型中,同样存在测量尺度不统一的问题(汉族与维吾尔族,傣族与朝鲜族的平均工资收入不一样)。定序数据变量也称为有序多分类变量,定类数据变量可以称为无序多分类变量。

最优尺度变换

针对以上两种自变量类型,如果想要纳入到线性回归模型中,那我们首先需要对它们的测量尺度进行统一。通常采用以下两种方法:

  • 第一种做法是采用哑变量拟合,然后根据分析结果考虑对结果进行简化。这种解决方案会在后面的Logistic回归内容中介绍。

  • 第二种方案是今天重点介绍的内容,也就是最优尺度变换。它的分析思路是通过某种方法,对分类变量进行变换,为每个类别给予一个适当的量化评分,该评分的高低能够反映不同类别之间的真实差距。例如,对企业绩效考核,“优”为2分,“良”为1分,“中”为0. 5分,这就说明等级从良(1分)变为优(2分)时,对因变量数值的影响大约是从中(0.5分)变为良(1分)的2倍。

最优尺度变换的基本思路是分析各级别对因变量影响的强弱变化情况,采用一定的非线性变换方法进行反复迭代,从而为原始分类变量的每一个类别找到最佳的量化评分,随后在相应模型中使用量化评分代替原始变量进行后续分析。这样就能够将过去不能放入各种回归模型的分类变量加入到线性回归模型、因子分析等模型中。下面我们介绍如何使用SPSS将分类变量进行最优尺度变换,然后用于线性回归分析模型。SPSS特意设置了最优尺度变换用于线性回归的模块,在【分析】-【回归】-【最优标度】中实现。


案例分析

我们国家在建国以后和没有实行计划生育这段时间,人口出现了极其快速的增长。从1949年的5.4亿增长到1981年的10亿人,人口数将近翻了一倍;实行计划生育以后,到2014年,人口数量为13.6亿,说明计划生育有效的控制了人口的增长速度。某研究机构收集了一批妇女的生育子女数、年龄、居住地类别、受教育程度,想通过这些数据建立年龄、居住地和受教育程度三个自变量对生育子女数的线性回归模型。居住地类型分为两类:1-城市,2-农村;受教育程度分为六类:1-文盲,2-半文盲、3-小学、4-初中、5-高中、6-大学及以上。


(例题数据文件已经上传到QQ群,群号请见文章底部温馨提示)

分析思路

案例总共有三个自变量,我们对它们逐个进行分析。年龄为连续性变量,可以直接纳入线性回归模型;居住地为两分类变量,不存在不同类别之间尺度不一的问题,也可以直接纳入模型;受教育程度是典型的有序分类变量,如果直接纳入模型,实际上就认定不同教育程度之间的距离相同,这显然是不符合实际情况的。综上情况,需要用到最优尺度回归。

 

分析步骤

选择菜单【分析】-【回归】-【最优标度】,打开分类回归对话框。将生育孩子数选入因变量,定义标度类型为数字。居住地、年龄和教育程度选为自变量,前两个定义为数字,教育程度定义为有序。点击确定,输出结果。


结果解释

1、模型拟合结果描述


R方结果为0.956,非常接近于1,说明整个模型的拟合结果是很好的。对模型的方差分析结果,其检验概率值等于0.000,小于0.01,说明模型是有效的,也就是说至少有一个变量的回归系数是有效的。


2、回归系数表格


上表是模型中各系数的检验结果,由于分类回归过程对所有变量的数据进行了量化评分,因此这里给出的结果是标准化回归系数及其检验结果,所以结论为三个变量的量化评分和子女数的量化评分间的联系是有统计学意义的。


3、相关性和容差


  • 相关分析:给出各自变量对因变量的相关性分析,共给出三种结果,其中偏相关是控制了其他变量对因变量和该自变量的影响后的估计,部分相关则只控制其他变量对因变量的影响。

  • 重要性:是根据标化系数和相关系数计算出的自变量在模型中的重要程度百分比,所有变量的重要性加起来等于100%,数值越大表明该变量对因变量的预测越重要。从中可见,年龄和受教育程度对生育子女数的影响最大,而在考虑了以上变量后,居住地的影响实际上是最小的。

  • 容忍度:表示该变量对因变量的影响中不能够被其他自变量所解释的比例,越大越好,反映了自变量共线性的情况,如果有变量的容忍度太小,则最优尺度回归的分析结果可能不正确。

以上就是全部的分析结果,从中发现最优尺度回归的效果尚可,结果也易于理解。但是,这些结果反映的都是变换后评分的拟合效果,变换前后的数值究竟是如何对应的呢?可以使用保存子对话框将变换评分存为新变量、用输出子对话框列表输出、或者使用图子对话框绘制变换前后的数值对应图。这里使用作图的方法对比,如下图所示:



最后来考察受教育程度变换前后的分值对应,可见高中、大学两个等级被给予了相同的量化评分,显然在后续分析中,这两个级别实际上是被合并分析了;小学、初中、高中三个等级的评分逐渐上升,但差别不大;文盲半文盲和小学相比,评分差距非常大。由于随后的回归分析是用变换后分值进行的,相当于评分间为等距变化。



推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册