PCA,不得不提的降维手段

浏览: 1816

主成分分析(principal components analysis)

1.前期需要掌握的知识点及其相关课程:

⑴高等代数/线性代数:线性方程组、特征值和特征向量

⑵统计学:方差分析等

2.主成分分析思想:

主成分分析是利用降维的思想,在损失较少信息的前提下,用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分,其中每一个主成分是原来变量的线性组合[1]。并且各个主成分之间互不相关[2]。

image.png

3.主成分分析的几点要求

⑴每一个主成分都是原始变量的线性组合。

⑵主成分的数目要求远远小于原始变量的数目。

⑶主成分保留了原始变量绝大多数的信息。

⑷各个主成分之间互不相关。

4.主成分分析的理论框架

image.png

image.png

选取主成分的几点选择方法

⑴累积贡献率达到85%。

⑵观察碎石图,当趋势变的平稳,则说明选取该主成分的数量比较合适。

⑶选取特征值大于1的主成分。

主成分的几条重要的理论性质

image.png

 5.主成分的几个很重要的用途

进行分类

我们可以通过主成分分析得到主成分得分,通过计算出总得分来进行分类,或者将前两个主成分得分放到四象限图中来进行分类。

进行排名

通过主成分分析得到主成分得分,通过一定的手段计算出总得分来进行对样本的排名。

主成分回归

由于在实际问题中,我们尽可能多的选取变量,这样会导致多重共线性问题的出现。主成分分析可以用少数几个综合变量来代替原始的变量,很有效的消除多重共线性。

实际例子(分类、排名)

    在企业经济效益的评价中,设计的指标往往很多。为了可以简化系统结构,抓住经济效益评价的主要问题,我们用百元固定资产原值实现值、百元固定资产原值实现利税、百元资产实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值,涉及到9项指标,28个样本数。

image.png

图1:相关矩阵

应该有这个意识,变量之间的存在着较强的相关性,主成分分析才会更加适用。而且如果原始大部分变量间的相关系数都小于0.3,运用主成分分析不会得到的很好的效果。经过图1,我们可以看到这9个变量之间的相关系数矩阵,我们发现变量间的相关性较强,适合运用主成分

image.png

 图2:信息提取率

上图是在主成分分析过程中从每一个变量中提取的信息。例如:百元固定资产原值实现值(96.7%)、百元固定资产原值实现利税(97.8%)、百元资产实现利税(97%)、百元工业总产值实现利税(79.9%)、百元销售收入实现利税(54.3%)、每吨标准煤实现工业产值(89.2%)、每千瓦时电力实现工业产值(87.9%)、全员劳动生产率(76.3%)、百元流动资金实现产值(83.2%)。

 我们可以看到,除了百元销售收入实现利税(54.3%)信息损失的较多外,在其余变量提取的信息还是可以的。

image.png

图3:方差贡献率

在提取主成分的时候,我们一般保留特征根大于1的主成分。在这个案例中,我们只保留前两个主成分,这样我们就可以在损失较少信息的前提下,用两个综合指标(主成分)来代替原始的9个变量,达到降维的效果。

(96.7%+97.8%+97%+79.9%+54.3%+89.2%+87.9%+76.3%+83.2%)/9=84.7%

 我们也可以通过下图的碎石图来进行主成分数量的选取。

image.png

图4:碎石图

观察碎石图,我们发现第二个和第三个特征值的变化已经趋于平稳,则说明只提取两个或者三个主成分即可。

image.png

5:载荷矩阵

image.png

表1:主成分列表

image.png

我们用上面的公式可以得到第一主成分和第二主成分的得分。

表2:主成分得分

image.png

我们利用以第一主成分为x轴,第二主成分为y轴,建立平面直角坐标系。并且用象限图来进行表示。

image.png

 图6:四象限分布图

首先,分布在第一象限的是上海、北京、天津和广西四个省,这四个省的效益在全国属于比较好的(个人觉得不好,广西觉得不在这个范围里面)。第四象限的是湖北、山东、福建、安徽、广东、江苏、浙江7个省区,由于第四象限的主要特征第一主成分,第一主成分所占的信息较大,效益也不错。分布在第二三象限的为一类,效益不好。

下面我们来计算总得分并且来对上面28个省区进行排名。

image.png

由于第一主成分占用的信息量很大,因此我们可以第一主成分来进行排名,前提是第一主成分的系数必须全部为正数

image.png

我们从上面的排名其实可可以进行聚类,以分数的形式呈现

当然,主成分回归也是主成分分析的一个很大用处。等到小弟梳理多重共线性知识的时候再给予详细说明。谢谢大家。

推荐 0
本文由 数据取经团 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册