因子分析的回顾总结

发表: 2016-07-01 浏览: 3151

统计学数据分析数据挖掘

因子分析

(factor analysis)

完成本篇博文，作者前期阅读的数目有：

张文彤老师的《SPSS统计分析高级教程》

高桥老师的《漫画统计学之因子分析》

何晓群老师的《多元统计分析》

1.前期需要掌握的知识点及其相关课程：

⑴高等代数/线性代数：线性方程组、特征值和特征向量

⑵统计学：方差分析等

2.因子分析思想：

因子分析就是以原始变量的相关系数矩阵为出发点，将这些变量融合为几个综合指标，这里简称为因子，和主成分分析不同的是，因子分析是用综合变量(因子)的线性组合来表示原始变量，用少数的几个因子代替原始变量来分析整个问题，达到降维的效果。

对于这里面的因子，其实就是一些虚构的、隐藏在这些变量后面的一些变量，我们现在的目的就是用这些抽象的变量来表示原始的变量，这些抽象的变量的实际含义只能由我们做完因子分析之后分析者主观来确定。比如我们原始的变量是语文、数学、英语、社会和理科，那么我们用因子分析分析结束之后用两个因子来表示，分别为文科能力和理科能力。

3.因子分析的理论框架

由于公式较多，见附件。

4.主成分分析和因子分析的不同之处

⑴.主成分分析是把主成分表示为原始变量的线性组合，因子分析是原始变量为各个因子的线性组合。

⑵.在主成分分析中，按照方差贡献率分为第一主成分、第二主成分，其中第一主成分表示为其综合指标、综合实力的体现；在因子分析中，各个因子的地位是一样的。

⑶.在因子分析中，有很多的假设，比如：公共因子和公共因子之间、公共因子和特殊因子之间、特殊因子和特殊因子之间都需要相互独立。

⑷.因子分析中，我们可以通过因子旋转的方法来使得各个因子的含义更加明确和清晰。

5.因子分析案例

案例1：下面我们来对一个实际的顾客的调查问卷的问题来进行因子分析的案例分析。为了满足有一些通过调查问卷来进行因子分析的朋友。调查问卷如下：

下面15名同学的调查数据如下表所示：

软件出来结果：

在提取因子的时候，我们一般保留特征根大于1的主成分。在这个案例中，我们只保留前两个主成分，由上图我们可以看到，当没有旋转的时候，两个因子的贡献率分别为45.727%和38.670%(注：因子之间没有第一第二之分)，经过旋转之后，两个因子的贡献率分别为42.788%和41.609%，这就印证了公共因子贡献的总值是不会变化的，但是由于因子旋转的原因，单个的公共因子的贡献率很会变化的。

下面我着重说一下KMO检验和Bartlett 检验，这两个检验是用来检验因子分析效果的。(当然，小弟也是拜读了张文彤老师的书籍)

首先，当KMO统计量越接近于1，说明变量的偏相关性越好(当然，偏相关性是回归分析里面涉及到的)，那么因子分析的效果是很好的；如果KMO统计量大于0.7，因子分析分析一般会比较好，KMO统计量小于0.5，一般就不适合进行因子分析了。当然，这些只是理论数据的说辞，假如KMO统计量为0.499，因子分析还是可以一试的。

Bartlett 球形检验的原假设是变量之间相互独立，这里按照传统的假设检验的思想进行分析，由于球形检验的p值小于0.05，那么我们拒绝原假设，认为变量不是相互独立的，我们可以进行因子分析。

上图是还没有旋转的因子载荷矩阵，我们将因子载荷矩阵看作坐标，画出散点图。在这里，我们发现不能清晰的表示因子的信息，因为两组变量不正交，这样我们利用因子旋转的方法，简言之，如下图所示，我们可以旋转坐标轴，这样变量就可以垂直，因子的解释会变得更加清晰。(如下图手绘)

通过因子旋转，我们使得一些因子载荷系数很接近于0，一些因子载荷系数很远离0，这样可以清晰的对每一个因子包含具体包含哪些原始变量有一个更为清晰的认识。如下图所示：

第一个因子主要解释店面设计、店内氛围以及女服务生的态度，我们可以命名这一因子为“本店的就餐环境”，第二个因子主要解释红茶的味道、红茶的价格以及茶杯的美感，我们可以命名这一因子为“茶因子”。

案例2：分析全国35个城市的综合发展水平，有着重要的意义。下面再运用因子分析的方式对问题进行进一步的研究，对这些城市的发展水平进行综合分析。

我们将案例的数据在是SPSS软件中进行分析，前面的思路大致大致和前面的案例相同，有方差贡献率，因子载荷矩阵等。我们在这里不在重复，我们从旋转载荷矩阵来进行分析。

如上图所示，第一因子中非农业人口数、工业生产值、货运总量、批发零售住宿餐饮业从业人数、地方政府预算内收入、城乡居民年底储蓄余额、在岗职工人数、在岗职工工资总额的系数值比较大，因此该因子可以表示为城市发展规模以及经济发展水平，这个因子得分越高，说明经济发展水平越高，而且城市的规模越大。第二因子每万人拥有公共汽车数、人均拥有铺装道路面积、人均公共绿地面积的的系数值比较大，该因子反映一个城市的基础设施水平。第三个因子为人均居住面积，该因子反映住房条件。

下面我们通过计算出三个因子的因子得分(SPSS软件可以操作)，然后以第一因子得分为X轴，以第二因子得分为Y轴，画出四象限图