从0开始，教你做数据分析10篇

发表: 2017-08-07 浏览: 1613

数据分析

大家好，我是零一。这一篇给大家介绍聚类/分类。

我们先讲一讲聚类。

上一篇的探索关系，很多朋友反映说非常有趣，这一篇，聚类分析也是相当有趣的。

聚类分析简称聚类，俗话说物以类聚，人以群分，聚类就是划分子类的过程。算法上面多用k-means和k-medoids，当然，大家可以跳过这些算法的过程，用程序来完成即可。

说简单一点，通过聚类，可以将我们的数据进行分类，并且描述每个类的特征。

聚类应用非常广泛，包括在电商领域的应用也是多不胜数。比如

（1）对客户数据进行聚类分析得到多个客户群组，并且得到各个群组的特征，这可以帮助我们发现客户的共性和差异性；

（2）竞争对手数据进行聚类分析得到多个对手群组和各自的特征，这一样可以让我们找到对手们的共性和差异性；

（3）对行业数据进行聚类分析得到多个行业群组和各自的特征，这个可以来发现不同行业之间的共性和差异性

（4）对销售数据进行聚类分析（比如以其中的地域聚类），可以告诉我们那些地域之间的共性和差异性

不难发现，我举的4个例子都是在发现共性和差异性。对的！我们了解了这些信息，可以指导我们的运营决策，对不同群组制定不同的策略。

下图是对地域数据做的聚类分析，得到的一个谱系图，我们从上往下看，首先是分成两大类

广东，天津，浙江，北京和上海这五个省市为一类，其余的多省为一类。

再往下看又分成了四大类，西藏作为单独一个分类，广东也作为单独的一个分类，天津和浙江为一类，北京和上海为一类。

从上往下，越分越细。红色的边框把多个省市划分成5个分类。一般没必要分得太细，这个数据目测是分成了20个细分的分类，除非是确实是需要细分到很细的时候，才需要看最低层的分类。

当我们知道天津和浙江聚为一类的时候，他们必然存在共性，才会聚在一起。当我们知道天津-浙江类和北京-上海类，作为两个不同的群组聚集，它们之间肯定是存在某种差异。

=======================================

下面，我们用上篇共享的数据，跟大家一起探讨聚类，和寻找他们的共性和差异性。

先处理下缺失值，选择清除数据里面的离群值

中间要选择需要处理的字段，选择好后，进入以下界面，也一样下一步即可

选择删除包含离群点的行（因为这里数据量不少，可以删了）

一般情况下，我们都避免直接修改源数据，需要新建一个变量或者空间或者工作表来存放处理过后的数据。这里选择复制到新的工作表就可以了。

数据处理好后，就可以进行聚类分析了。在数据挖掘套件里面直接选择聚类分析即可。

选择需要的数据进入模型里面

点击参数，然后就会看到下图这个对话框，可以手动输入数字来更改聚类算法，可以看到微软提供的聚类算法有4种，分别是可变的EM，固定的EM，可变的K-means跟固定K-means（EM是最大期望算法，K-means是K平均值算法，可变的是可以伸缩调整的，固定的就是固定不可调整的）

这里我输入4，选择固定的K-means算法

下图是选择测试集的比例，默认是30%。【测试集】是数据挖掘特有的名词，数据挖掘里头将数据集一分为二，大头的部分用来训练建立模型，称之为【训练集】，小的部分就用来测试模型，称之为【测试集】。这是数据挖掘和统计学最大的差异之一。统计学是通过统计方法来验证模型是否可靠，而数据挖掘技术是利用测试集来验证模型的可靠性。一般用于预测模型，聚类分析其实可以不用测试集，可以把数值改为0。但我就不改了。就用随机抽取出来的70%的数据来建立模型。