1.前期需要掌握的知识点及其相关课程:
⑴高等代数/线性代数:线性方程组、特征值和特征向量
⑵统计学:方差分析等
2.主成分分析思想:
主成分分析是利用降维的思想,在损失较少信息的前提下,用几个综合指标来代替之前多个指标的一种多元统计方法。我们把这些综合指标称为主成分,其中每一个主成分是原来变量的线性组合 ,并且各个主成分之间互不相关 。
3.主成分分析的几点要求
⑴每一个主成分都是原始变量的线性组合。
⑵主成分的数目要求远远小于原始变量的数目。
⑶主成分保留了原始变量绝大多数的信息。
⑷各个主成分之间互不相关。
4.主成分分析的理论框架
选取主成分的几点选择方法
⑴累积贡献率达到85%。
⑵观察碎石图,当趋势变的平稳,则说明选取该主成分的数量比较合适。
⑶选取特征值大于1的主成分。
主成分的几条重要的理论性质
⑴第 k个主成分 Y(k)与原始变量 的相关系数 称为因子负荷量,这个因子负荷量在软件操作中可以显示出来。如果我们用协方差矩阵来求解主成分,那么 ,因此,我们在解释主成分和某个变量的重要性的时候,要根据因子负荷量而不是简单的变换系数 ;我们用相关矩阵来求解主成分,则 (一般当变量的数据数量级差别比较大,我们要进行标准化处理,就会用到用相关矩阵来求解主成分)。
性质2和3在附件例子来讲述。
5.主成分的几个很重要的用途
⑴进行分类
我们可以通过主成分分析得到主成分得分,通过计算出总得分来进行分类,或者将前两个主成分得分放到四象限图中来进行分类。
⑵进行排名
通过主成分分析得到主成分得分,通过一定的手段计算出总得分来进行对样本的排名。
⑶ 主成分回归
由于在实际问题中,我们尽可能多的选取变量,这样会导致多重共线性问题的出现。主成分分析可以用少数几个综合变量来代替原始的变量,很有效的消除多重共线性。