数据分析方法:路径分析入门;数据分析需要剥丝抽茧的耐心!

浏览: 3097

基础回顾

前面我们介绍了如何利用两次线性回归(两阶段最小二乘法)解决自变量与因变量之间的相互影响对最终的线性回归模型造成的错误结论:

认真学习和理解该方法的人都会有这样的感觉,两阶段最小二乘法只能解决少量的自变量与因变量的互相影响,但是遇到更为复杂的交错影响情况就无能为力了,特别是在社会实证研究中,因素(变量)之间的联系是错综复杂的。面对这样的情况,路径分析是一种有效的分析手段,因为路径分析不是纯粹的数理方法,而是将研究者的社会生活经验加入到分析当中,这样能够避免很多无效的分析过程,同时对数据中蕴含的信息进行更为精确的刻画。路径分析(Path Analysis)将人的理性逻辑优势与计算机的快速运算能力很好的结合在一起,是很能代表数据分析真谛的一种分析方法。

路径分析

多重线性回归反映的是自变量与因变量之间的直接作用,但是变量间的关系往往错综复杂,有的是单向影响关系,有的是互相影响关系,分析者只用一个回归模型往往是很难把所有的关系表达清楚的。我们可以举一个最简单的生活例子来说明情况的复杂性。如下图所示,这是一个经过简化的关于住院费用的分析模型:

image.png

该模型仅包含四个因素,我们可以从自身的生活经验出发考虑它们之间的相互关系:住院天数是影响住院费用的最主要因素;年龄和入院时状况对住院费用也有影响;年龄和入院时状况同时又对住院天数有影响,然后再通过住院天数对住院费用产生间接的作用。该模型显然不能仅用一个简单的多元线性回归方程就解释清楚。面对这样错综复杂的变量关系,路径分析能对模型进行剥丝抽茧逐步解析。上图就是路径分析的重要工具—路径图。

细心的朋友可能会想到,路径分析其实就是多重线性回归模型的扩展。路径分析首先需要根据专业知识,初步假设出模型中各变量的相互关系,这种关系可以被绘制成一张清晰的路径分析图,随后按照路径分析图假定的因变量数量拟合出多个多重线性回归方程,所以路径分析模型是由一组线性方程构成的。路径分析模型描述的变量间相互关系不仅包括直接的,还包括间接的关联。上方路径图可以拟合出两个多重线性回归方程:

image.png

从整理得到的两个多重线性回归模型可以发现,在路径分析图中,有的变量不受其余变量的影响,只影响其他变量;而有的变量既受其他变量的影响,又能够影响其它变量。其中,住院天数在第一个方程中是因变量,但在第二个方程中是因变量。通过这两个方程可以知道,年龄对住院费用的作用是由两部分构成的,第一部分是对住院费用的直接影响,第二部分是通过先影响住院天数,然后再通过住院天数的作用间接影响住院费用。如果在制作路径分析图时只考虑到第二个方程而忽视第一个方程,那么就会因为只反映直接影响导致相应的回归系数估计值不够准确,甚至难以解释。联系前面介绍的自变量共线性问题,年龄和住院天数在第二个方程里的关系就是共线性关系,所以路径分析模型可以从根本上对存在共线性的变量给出彻底的解决方法。

名词解释

在路径分析中,为了区分具有不同特点的变量,统计学家们分别给它们安上了能够反映它们特点的名字:外生变量、内生变量和最终结果变量。外生变量指的是模型中那些只影响其它变量,而不受其它变量影响的变量。内生变量与外生变量正好相反,指的是在模型中既能影响其它变量又会受到其它变量影响的变量。如果内生变量只受其它变量影响,而完全不受其它变量影响,这样的内生变量称为最终结果变量,在上面的例子中,住院费用就是一个最终结果变量,最终结果变量往往是研究的真正目的,而其余内生变量的出现是为更加深入和细致的对最终结果变量进行研究。

递归模型和非递归模型

路径分析中任意两个变量A和B之间可能存在的关系包括以下4种方式:

  • A可能对B有影响,但B不会影响A。(A→B)

  • B可能对A有影响,但A不会影响B。(A←B)

  • A与B之间存在着双向的影响关系。(A←→B)

  • AB之间的具体影响方式不明,但是存在相关。

显然,如果模型中只存在前两种相关方式,则整个路径分析模型全部为单向链条关系,不会出现循环嵌套的路径,从而可以被写成若干个标准的多重线性回归方程所构成的方程组,这种模型就被称为递归模型;如果模型中存在后两种关系,那么模型被称为非递归模型。上面列举的关于住院费用的例子就是典型的递归模型,所有的变量间联系均为单向,不存在循环、自反馈、双向联系等复杂情况。

路径分析的基本步骤

作为一个比较复杂的模型,路径分析的建模工作往往不会一蹦而就,而应当是一个循序渐进的过程。

  • 模型设定。研究者应该根据前期研究的结果和专业背景知识来设定初始的理论模型,该模型应当包括各种可能的路径,可以通过路径图的形式将模型中的各种关系描述清楚,以便帮助研究者较好地理清各种关系。

  • 模型识别与模型估计。该步骤应当尝试对模型中的参数加以估计,如果模型设定有误,则可能会导致整个模型无法被估计,此时应当对模型加以修正,直至得到初步的估计值。

  • 模型评价。评价各路径的关联是否具有统计学意义,并且是否能够很好的与专业知识相吻合。如果无统计学意义,则可以考虑将该路径删除;如果拟合结果不符合专业知识,则需要考虑是否整个模型框架存在较大问题。

  • 模型修正。根据模型评价的结果对模型进行简化和改进,最终得到一个既符合专业知识,又与数据的特征相吻合,并非常简洁的路径分析模型。显然,一个最终的模型时需要经过多次尝试和修正才能够得到的。

路径分析的检验方法

如果路径分析模型中各系数都有统计学意义,那么问题会简单的多,这也许就是最终的结果了,但是当模型中存在无统计学意义的系数,需要对模型进行简化,那么该如何评价简化后模型的效果呢?在路径分析中,一个内生变量对应了一个回归方程,每个回归方程都会有一个决定系数R2,它表示相应内生变量的方差中能够被该方程所解释的比例,(1–R2)就表示剩余的方程无法解释的部分。对于包括多个内生变量的路径分析模型,它的决定系数是一个综合性的指标,计算公式如下:

image.png

前面曾提到路径分析模型可被分为递归模型和非递归模型两大类,由于前者可以被分解为多重回归方程组,因此分析要简单得多,可以从原理上采用多重线性回归方法来拟合。具体做法为按路径分析图中存在的因变量数分别拟合各自的多重线性回归方程。而非递归模型则不然,往往需要采用更为专业的算法和软件才能加以拟合。如SPSS公司专门用于求解路径分析模型和更复杂的结构方程模型的软件AMOS就可以完成这一任务。后面我们也将介绍AMOS的使用方法。

案例分析

我们沿用上面介绍的案例。现有一份从医院获得的包括1700个病人住院信息的数据,包括以下信息变量:性别、年龄、婚姻状况(两分类)、入院情况(三级评分,分值越高代表情况越好)、住院天数和住院总费用。

image.png

数据处理

我们对定距数据进行描述统计时发现年龄、住院天数和总费用三项数据的分布形态是偏态分布的,因此我们首先对这三项数据进行对数转换。我们以年龄为例,观察转换前后的数据分布情况如下图所示。这里强调一下,对数转换是处理偏态数据的常用方法,但是不能保证处理后的数据一定服从正态分布。

image.png

分析思路

根据前面的介绍,该案例的路径分析属于递归模型,路径分析图和拆解的两个多重回归模型如下所示:

image.png

分析步骤

选择菜单【分析】-【回归】-【线性】,在跳出的线性回归对话框中进行变量选择和设置,如下图所示。第一次线性回归模型的因变量是对数转换后的住院天数,第二次线性回归模型的因变量是对数转换后的住院总费用。两次自变量进入方式都是输入,全部纳入考虑,根据结果筛选。

image.png

结果解释

1、两个模型结果解释。模型1的结果如下所示,从结果可知:年龄、婚姻状况和入院情况均对住院天数有影响,它们的显著性p<0.05;而性别变量的显著性p=0.676,大于0.05,所以无统计学意义。该模型的分析结果表示男性、年龄越大、未婚,入院情况较好者住院时间较长。

image.png

模型2的结果如下所示。分析结果显示除婚姻状况以外,其余变量均对住院费用有影响。男性、年龄较大、入院情况较差者费用较高,住院天数越长,住院费用也更高。通过对自变量间复杂关系的刻画,路径分析模型可以很精细地估计出每一个自变量究竟是通过何种方式来作用于最终因变量的,从而使得研究者对问题的理解更为深入和全面。

image.png

2、无意义自变量处理。从模型结果可以看到性别、婚姻状况分别在一个多重线性方程中无统计学意义,因此将没有统计学意义的自变量删除后再加以拟合,分析结果如下:

image.png

可见两个方程的决定系数基本未变,现在所有的自变量均有统计学意义。可见性别对住院天数没有影响,它直接作用于住院费用;而婚姻状况不直接作用于住院费用,它直接对住院天数有影响,然后再间接作用于住院费用。

image.png

3、标准化与非标准化的路径系数。前面介绍路径分析模型的结果时,给出的方程都含有常数项,也就是使用原始变量的普通回归方程结果。路径分析中往往会使用标准化变量进行建模,此时所有的方程均无常数项,而求解出的系数也均为标准化路径系数。在统计文献中,对于究竟采用何种为优尚无定论,标化系数建立的路径分析模型没有常数项,更为简洁,而且由于没有量纲,不同的路径系数可以直接比较。

image.png


推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册