我们上周对Logistic回归已经有了初步的认识,Logistic回归就是在因变量不是连续型变量,而是分类变量的情况下来考虑的解释变量和被解释变量之间的关系的一个模型。
下面我们来讨论Logistic回归的几种特殊情况。
一、哑变量设置
在Logistic回归中,如果自变量是只有两个水平的分类变量,我们就可以只用前面提到的Logistic回归来进行分析即可。如果自变量有多个水平,比如高、中、低,我们不能用简单的0、1、2来进行描述,这样等距的刻画会使得我们的分析会出现很大的问题。
在这里,我们可以将原来的多分类变量转化为哑变量,哑变量的作用是反映两个级别或者若干级别之间的差异。假如一个变量有n个水平,那么我们可以以第n个水平为基准,来构造n-1个哑变量。
例:低出生体重儿影响因素研究
针对低出生体重儿的研究,我们从产妇年龄、产妇体重、种族、产妇在妊娠期间是否吸烟等因素来进行考虑,其中因变量是个二分类变量,即是否是低出生体重儿,自变量有连续型变量、二分类变量、无序多分类变量,由种族这一变量无序多分类变量,我们来考虑这一变量对低出生体重儿的影响。(数据见SPSS高级统计教程)
下面我们对分析结果来进行相应的描述。
图1:模型整体检验
由图1的部分结果我们可以得到一些结论,首先整个模型的检验的P值为0.082,大于0.05,表明种族这一无序多分类变量对因变量是没有影响的。(但是我们主要是为了说明后续的问题,先不考虑这件事情)
下面的Cox& Snell R方和Nagelkerke R方值是反映当前模型中自变量解释的因变量的变异占因变量总变异的比例,也就是说种族这一变量所能对低出生体重儿影响的解释程度。
图2:方程中的变量
首先要指出的是种族这个变量的参考变量是其他种族,race(1)和race(2)分别表示白种人和黑种人,从优势比OR值我们可以清楚地看到,相对于其他种族,白种人低出生体重儿的影响较低,黑种人低出生体重儿的影响较高。
如果我们想要对白种人和黑种人进行比较,则是exp(-6.363-0.209)=0.43,这表明在低出生体重儿中白种人比黑种人的几率要小很多。
下面有一个大家要考虑的问题:
通过图2,我们可以看到两个哑变量之间是没有统计差异的,但是假如我们遇到某一个哑变量有统计差异,某一个哑变量没有统计差异,出现这种情况我们如何考虑。首先,我们要从模型整体来进行考虑,先看这个变量对因变量有无影响,如果没有影响我们就不用考虑这个变量,如果有差异我们来继续进行后续哑变量的分析,当遇到有一些哑变量有显著性差异、有一些哑变量没有显著性差异时,我们为了保证分析的合理性,我们也应该要纳入所有的哑变量。
二、有序多分类Logistic回归
前面我们考虑的都是因变量是二分类变量的情况。但是在实际情况中,有时候会处理多分类的情况,比如城市的综合竞争能力等级分为低、中、高,学生的考试成绩分为优秀、良好、中等和及格等。所以我们有必要对其进行分析。
对于这种类型的资料,我们可以拟合因变量水平数目-1的Logistic回归模型,称为累计Logistic回归模型,我们现在以3个水平的因变量为例。
注:在这里,我们发现①偏回归系数保持不变,改变的只是常数项;②常数项前面都有一个负号。这是累计Logistic回归模型的前提条件,我们可以用平行线检验的方法来对其进行分析。
例:对某地人群从事工作的满意度来进行分析,可能的影响因素为:文化程度education(1:初中及以下,2:高中,3:大专,4:大学,5:研究生)和年收入水平income(1:25k以下,2:25k-50k,3:50k-75k,4:75k以上),下面我们来进行有序多分类Logistic回归。(数据见SPSS高级统计教程)
注:在这里我们在SPSS点击顺序为:分析—回归—有序。
图3:参数解释
我们来对上面的结果来进行分析:
首先,我们可以看到在收入水平income这个变量中,相对于年薪75k以上的,随着年薪的下降,人们对各自工作的不满意程度是上升的,工资少肯定对工作把满意也是符合常识情况。
在文化程度education这个变量中,相对于研究生而言,我们发现随着文化程度的下降,他们对各自工作的不满意程度是下降的,从分析的角度来说,一个人的文化程度越高,他对自己的期望越高,那么越对自己的工作有更高的期望!但是,如果一个人只有小学水平,他对自己的工作的不满意程度会很低,认为自己水平有限,也不会有那么多的不满意,所以,想说的就是,小伙子你还得加油哦!
图4:平行线检验
平行线检验:检验不同Logistic回归方程中的偏回归系数是否相同,实质是拟合不限定系数相等的模型,如果P值大于0.05,则说明各个回归方程互相平行,可以使用有序多分类Logistic回归;如果P值小于0.05,则说明各个回归方程不互相平行,不可以使用有序多分类Logistic回归。因此,平行线检验是一个可否用有序多分类Logistic回归模型的判断方法,位置:分析—回归—有序—输出—平行线检验。
由图4可以看出,P值大于0.05,因此通过平行线检验我们可以知道可以通过有序多分类Logistic回归来分析问题。
注:我们这个模型的自变量仅仅是考虑了两个分类变量,如果在模型中有连续型变量,我们在SPSS操作的过程中需要把连续型变量放在协变量那一栏中。
三、无序多分类Logistic回归
在前面我们分析了因变量是有序多分类变量的情形,根据我们的思维,自然而来会思考到因变量是无序多分类变量的情况,下面我们就来考虑一下因变量是无序多分类变量的情形。
1、无序多分类Logistic回归适用条件
⑴分析因变量是无序多分类情况。比如因变量是选择的旅游地点:香港、澳门、三亚。
⑵分析因变量是有序多分类情况,但是没有通过前面所述的平行线检验。
2、无序多分类Logistic回归模型的建立
与有序多分类情况不同,无序多分类Logistic回归模型首先定义因变量的某一个水平为参照水平(SPSS默认水平最大值),其余的水平来和它进行相比,建立水平输-1的Logistic回归模型。以3个为例:
例:美国有三个人进行,分别是布什、克林顿和佩罗,对当时进行了民意调查,自变量分别为age(年龄),education(受教育年数)和degree(最高学历),其中degree是分类变量(0:初中,1:高中,2:大专,3:学士,4:研究生),现在我们考虑对其拟合因变量为无序多分类的Logistic回归模型,分析不同背景人群的倾向。(数据见SPSS高级统计教程)
图5:显著性检验
由上图可以看出,age和degree这两个变量是显著的,但是education这个变量是不显著的。
图6:参数估计
现在我们仅以布什和克林顿为例,来进行分析:
则我们发现,在选择布什而不是选择克林顿中,学历是高中的是学历为研究生的1.465倍。等等这样的分析。
上面的分析比较片面,因为education这一指标不显著,我们可以考虑剔除这一变量或者再增加样本的方法来进一步的分析。