一、聚类分析的基本思想
• 聚类分析(又称数字分类学)是新近发展起来的一种研究分类问题的多元统计分析方法。
•样品聚类是对事件进行聚类,或是说对观测量进行聚类,是对反映被观测对象的特征的变量值进行分类。
•变量聚类则是当反映事物特点的变量很多时,根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。
二、距离与相似系数
(一)常用的距离指标有
•1、欧式距离
•2、欧式距离的平方
•3、曼哈顿距离
•4、切比雪夫距离
(二)常用的相似系数指标主要有
1、余弦系数
2、皮尔逊相关系数
(三)定类数据的距离
1、卡方距离
2、法方距离
三、聚类方法
1.层次聚类法
2.迭代聚类法
四、聚类分析的主要步骤
五、实例分析
•某家具公司为了对市场进行的细分,对购买家具的顾客进行
一次市场调查。这次调查的指标有:喜爱的款式(老式为1,新式为2),图案(素式为1,格字为2,花纹为3);颜色(蓝色为1,黄色为2,红色为3,绿色为4)。调查样本为30人。
根据聚类结果,这30名顾客分为3类,可以较好的反映这些顾客对家具的偏好类型:
•第一类: 1,9,13,17,24
•第二类:2,3,4,5, 6,7,8,11,12,15,16,18,20,21,22,23,26,28,29,30
•第三类: 10,14,19,25,27