SPSS分析技术:回归模型的自变量筛选方法;全军出击OR稳扎稳打步步为营

浏览: 6103

基础回顾

上篇文章,我们以两个自变量的分析案例为例,介绍了如果使用SPSS进行多重线性分析,如果是新朋友,可以点击下面的链接回顾:数据分析技术:多重线性模型;也难也不难的建模从这里开始吧!

回归模型的种类是非常多的,可以是线性,也可以非线性的,所以用多重线性回归模型作为建模知识介绍的开始是简单和易于理解的。今天我们要介绍的是在多重线性回归模型中,自变量进入模型的方法。我们以上篇文章的案例背景为例,娱乐公司在某个城市投资新的KTV连锁店之前,只考虑到影响营业额的因素有年轻人口数量和该城市的人均收入水平两个自变量,如果考虑的影响因素更多,比如店址的人流量,入店消费的平均值等因素,那么如何判断所有的自变量是否适合加入模型呢?这就需要用到自变量筛选方法。

研究者在收集资料时,常常害怕遗漏信息,所以总是尽可能多的收集各种与研究有关的资料,这样的做法虽然能够避免信息的丢失,但是也带来了调查成本居高不下,建立回归模型无所适从,不知哪些自变量需要引入,哪些自变量应该舍弃等问题。以上这些问题可以在一定程度上用变量筛选的方法解决。此外,需要强调的是,一个好的回归模型的产生一定是建立在分析者十分熟悉研究背景的基础之上的,如果得到的回归模型在专业和研究环境内无法解释和应用,那这样的模型就是“乐色”了。


自变量筛选方法

常用的自变量筛选方法有两种:1、残差平方和(预测值与真实值的差值平方)准则;2、回归系数的显著性检验。前者是从整个回归模型角度出发,考虑引进一个新的自变量前后,残差的变化情况,从而确定该自变量的效率;后者是对每个自变量的回归系数做显著性检验,通过则说明自变量有意义。它们的考虑角度不同,作用确实殊途同归的。

SPSS提供的自变量进入回归方程的方法有以下几种:输入、步进、除去、后退和前进。


  • 输入法,在英文版本里称为Enter,是SPSS默认的自变量进入回归模型的方式。它将自变量框中所有的自变量都纳入到回归模型中,不涉及自变量筛选问题。

  • 前进法(Forward),它是一种观前不顾后的自变量筛选方法。首先分析N个自变量与因变量的相关关系,假设只有n个自变量与因变量的相关关系是显著的;那么首先将显著性最大的自变量纳入到回归模型中。第二步是在已经引入自变量X1的基础上,分别检验自变量组合(X1+X2),(X1+X3),……,(X1+Xn)的n-1个回归模型,将检验概率值最小且有统计学意义的那个自变量引入模型,如果没有自变量组合有统计学意义,则运算过程终止。反复执行这个过程,直至模型外的自变量均无统计学意义为止。

  • 除去法(Remove),规定为Remove的自变量被强制剔除出模型。但SPSS会给出如果将其引入模型的参数估计及检验结果。

  • 后退法(Backward),它与前进法的过程相反。首先对因变量拟合包含全部N个自变量的线性回归模型,考察其中无统计学意义的n个自变量,将其中检验概率值最大者首先剔出模型,如果所有的自变量均有统计学意义,则运算过程终止。第二步,对因变量拟合包含剩下的n-1个自变量的线性回归模型,同样剔除检验概率值最大且无统计学意义的变量。如此反复进行,直至模型中剩余的所有自变量均有统计学意义为止。

  • 步进法(Stepwise),也称逐步回归法,它是前进法和后退法的结合。步进法的前两步与前进法的前两步相同,得到X1+Xi的,包含两个自变量的回归模型。第三步是考察第一步引入模型的自变量X1是否仍有统计学意义,若没有统计学意义,则将其剔出模型,拟合包含第二步引入模型的自变量Xi与其它n -2个自变量的模型,将其中检验概率值最小且有统计学意义的自变量引入模型,若n-2个模型都没有统计学意义,则运算过程终止。如果第一步引入的自变量X1有意义,那么拟合的是X1+Xi+Xj的n-2个模型,将其中检验概率值最小且有统计学意义的自变量引入模型,若n-2个模型都没有统计学意义,则运算过程终止。如此反复,直到模型外的自变量都没有统计学意义,而模型内的自变量都有统计学意义。从步进法的过程来看,该方法是一种观前顾后的“谨慎”方法,每向模型中引入新自变量,还要考察之前引入的自变量是否依旧有意义,它是我们最常用的自变量筛选方法。


案例分析

本案例来自外国某篇研究不同种类土地使用面积(英亩)与固体垃圾排放量(吨)之间的关系。纳入考虑的土地使用类型有:工业区土地面积的大小,钢铁制造企业用地面积,运输及批发商业用地面积,零售业用地面积以及餐馆与宾馆用地面积这五种。用回归分析模型来研究这五种土地使用面积与固体垃圾排放量之间的关系。


(例题数据文件已经上传到QQ群,群号请见文章底部温馨提示)


分析步骤

1、选择菜单【分析】-【回归】-【线性】。因为需要建立的是固体垃圾产生量与各种用途的土地面积之间的多重线性模型,所以将固体垃圾产生量选为因变量,将各种用途的土地面积选为自变量。

2、在自变量筛选方法里选择最为稳妥的步进法。然后点击选项按钮,可以看到在步进法的条件里,自变量进入和除去的概率值分别是0.05和0.1,也就是说自变量进入的条件比删除的条件更为严格。然后点击确定,输出结果。

Clipboard Image.png

结果解释

1、模型摘要。从分析结果可知,采用步进法,最后拟合出了四个多重线性模型。在表格下方列出了四种模型的自变量数量和类型。通过比较调整后的R方(排除了自变量的影响),可知,最后一种模型的R方值是最高的。接下来,我们需要再参考对模型和回归系数的显著性检验结果,从而确定那种模型是最好的。


2、下表是四种模型的方差检验解雇,从结果可知,四种模型的显著性都小于0.01,达到显著性水平,说明四种模型都是有意义的。


3、下表是对每种模型的回归系数的显著性检验结果。从结果可知,所有回归系数的显著性检验结果都小于0.01,是有意义的。


4、下表是每个模型中,被排除在外的自变量的偏回归系数,偏相关系数和共线性统计容差的结果,这些结果可以帮助我们判断自变量之间是否存在共线性关系。


以上分析过程只是建立多重线性模型的第一步,下面对这些模型进行修正和共线性判断,才能最终得到最合理的多重线性回归模型,由于回归模型的修正工作内容较多,将放在下一篇文章中具体介绍。大家需要注意,无论是什么回归模型的建立不是一蹴而就的工作,而是一个不断尝试建立-检验-修正-检验-确定的复杂过程,只有经过这样过程建立的回归模型才是合理而可用的。此外,生活和工作检验在模型的建立过程中同样发挥了重要的作用,只有对因变量的影响因素(自变量)十分的了解,才有建立模型的素材。


推荐 2
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

请问数据在哪儿?

要回复文章请先登录注册