聚类分析——你必须知道的事

发表: 2018-11-25 浏览: 1929

数据分析工具

聚类分析包括R型聚类（对变量指标聚类）和Q型聚类（对个案观测聚类）

数据：

有 20 种 12 盎司啤酒成分和价格的数据，变量包括啤酒名称、热量、钠含量、酒精含量、价格。数据来自《SPSS for Windows 统计分析》data11-03。

一.如何对变量进行聚类（即选择哪些主要的变量）——R型聚类

1、如何筛选聚类变量？现在我们有 4 个变量用来对啤酒分类，是否有必要将 4 个变量都纳入作为分类变量呢？热量、钠含量、酒精含量这 3 个指标是要通过化验员的辛苦努力来测定，而且还需要花费不少成本，如果都纳入分析的话，岂不太麻烦太浪费？所以，有必要对 4 个变量进行降维处理，这里采用 R 型聚类（变量聚类），对 4 个变量进行降维处理。输出“相似性矩阵”有助于我们理解降维的过程。

2、4 个分类变量量纲各不相同，我们先确定用相似性来测度，度量标准选用 pearson 系数，聚类方法选最远元素，此时，涉及到相关，4 个变量可不用标准化处理，将来的相似性矩阵里的数字为相关系数。若果有某两个变量的相关系数接近 1 或-1，说明两个变量可互相替代。

3、只输出“树状图”就可以了，从 proximity matrix 表中可以看出热量和酒精含量两个变量相关系数 0.903，最大，二者选其一即可，没有必要都作为聚类变量，导致成本增加。至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量，可以根据专业知识或测定的难易程度决定。（与因子分析不同，是完全踢掉其中一个变量以达到降维的目的。）这里选用酒精含量，至此，确定出用于聚类的变量为：酒精含量，钠含量，价格。