主成分分析的理论以及在聚类、排名和主成分回归方面的应用

浏览: 2638

1.前期需要掌握的知识点及其相关课程:

⑴高等代数/线性代数:线性方程组、特征值和特征向量

⑵统计学:方差分析等

2.主成分分析思想:

主成分分析是利用降维的思想,在损失较少信息的前提下,用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分,其中每一个主成分是原来变量的线性组合 ,并且各个主成分之间互不相关 。

捕获1.PNG

3.主成分分析的几点要求

⑴每一个主成分都是原始变量的线性组合。

⑵主成分的数目要求远远小于原始变量的数目。

⑶主成分保留了原始变量绝大多数的信息。

⑷各个主成分之间互不相关。

4.主成分分析的理论框架

捕获2.PNG

选取主成分的几点选择方法

⑴累积贡献率达到85%。

⑵观察碎石图,当趋势变的平稳,则说明选取该主成分的数量比较合适。

⑶选取特征值大于1的主成分。

主成分的几条重要的理论性质

⑴第 k个主成分 Y(k)与原始变量 的相关系数 称为因子负荷量,这个因子负荷量在软件操作中可以显示出来。如果我们用协方差矩阵来求解主成分,那么1.PNG ,因此,我们在解释主成分和某个变量的重要性的时候,要根据因子负荷量而不是简单的变换系数 ;我们用相关矩阵来求解主成分,则3.PNG (一般当变量的数据数量级差别比较大,我们要进行标准化处理,就会用到用相关矩阵来求解主成分)。

2.PNG

性质23在附件例子来讲述。

5.主成分的几个很重要的用途

进行分类

我们可以通过主成分分析得到主成分得分,通过计算出总得分来进行分类,或者将前两个主成分得分放到四象限图中来进行分类。

进行排名

通过主成分分析得到主成分得分,通过一定的手段计算出总得分来进行对样本的排名。

主成分回归

由于在实际问题中,我们尽可能多的选取变量,这样会导致多重共线性问题的出现。主成分分析可以用少数几个综合变量来代替原始的变量,很有效的消除多重共线性。






推荐 4
本文由 张小胖 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

案例非常经典,下载了。等了很久呀
谢谢勇哥,今天继续

要回复文章请先登录注册