主成分分析-案例

浏览: 1924
  • 1,案例

数据集为R语言自数据集USJudgeRatings包含了律师对美国高等法院法官的分。数据框包含43个观测,12个变量。在《R语言实战》这本书里也有介绍,但是我的分享要更详尽。

我们的目标是简化数据,尽量用较少的变量来总结这12个变量评估的信息!

(1)如果可以,需要多少个变量?主成分分析解释。

(2)如何对它们进行定义?联系业务解释验证。

  • 2,主成分分析准备

解读:需要加载Hmisc包,首次需要安install.packages(“Hmisc”) 。数据集包含12个变量,43个观测记录。数值型CONT变量是0个缺失值,24个唯一值,均值、各个主要分位数,5个最小值及5个最大值,其他变量类似。因为数据集比较规范,不用做数据处理(缺失值处理,数据标准化等),可以直接进行主成分分析。

  • 3,主成分分析操作-判断主成分分个数


fa=“pc”:  主成分分析(PCA);n.iter=100:数据模拟100次;legend:图例;

可以看到:主成分个数为1。

基于特征值的碎石图检验(折线-山上滚落的石块,重量越大,滚落的坡度月陡峭);根据100次数据模拟的平行分析导出的特征值均值(红色虚线);大于1的特征值准则(y=1的水平黑色线)

  • 4,主成分分析操作-提取主成分以及获取主成分得分




得出:PC1=ORAL+WRIT+RTEN+PREP+FAMI+DILG+CFMG+DECI+0.9*INTG+0.9*DMNR+PHYS

  • 5,主成分分析操作-后记

因为案例选取的原因,关于主成分分析的操作,有遗漏的地方,下面予以补充:

principal(数据集,nfactor= ,rotate= ,scores= ,)

rotate:指定旋转的方法,默认最大方差旋转(varimax)。使得成分载荷更容易理解。因为他尽可能对成分进行清晰呈现(去噪) ;

 主成分分析隶属于因子分析,因子分析是需要旋转的;所以现在很多文献都是进行旋转分析,其实主成分分析初步分析是不旋转的,深入分析才需要旋转。

scores:设定是否需要计算主成分得分(主要用于排序)

综合得分= ∑(各得分*所在主成分的方差贡献率)

发现:主成分分析除了分类的作用外,还有排名的作用。






推荐 4
本文由 结实 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册