[原创连载]从0开始教你做数据分析-04

浏览: 1386

序言:《从0开始教你做数据分析》这套文章自2013年开始我共写了20篇,后面出版的《电商数据分析淘宝实战》以及《淘宝、天猫电商数据分析与挖掘实战》均从这套文章中采集素材,这套文章的在线阅读量达数百万,出版的书也已经成为了高校电子商务数据分析课程的教材。

今天是第四篇,给大家介绍下描述性统计。

所谓描述性统计,就是在描述数据。上一篇我们讲了数据可视化,将数字转变成图表,其实图表也是对数据的一种表述。

一组数据基本的描述指标有:最小值1/4位数中位数3/4位数最大值,这就是所谓的五数总括。

最小值很简单了,直接在excel里面敲入=min(),就能算最小值。有时候我们需要找出我们最低的销量是多少件,最低的转化率是多少?

最大值也是一样的道理,在excel里面是=max(),就能算出最大值。

接着是1/4位数丶中位数和3/4位数。如果没有接触过统计学的朋友会比较晕,不知道这个是什么来的。这三个数将数据切成4个等分的小数据集。

大家看下面的数列

1,50,10,100,2

最小值是1,最大值是100,1/4位数是50,中位数是10,3/4位数是100。

下面我们再看个例子,假如是8个人的业绩数据

1,2,3,4,5,6,7,8

最小值是1,最大值是8,1/4位数是2.25,中位数是4.5,3/4位数是6.75

而我们用得最多的是均值6.5,这里刚好跟中位数一样。

image.png

但是,我们再看下面另一组数据

1,2,3,4,5,6,7,100

最小值是1,最大值是100,1/4位数是2.25,中位数是4.5,3/4位数是6.75

除了最大值不一样,其他跟前面是一样的。我们看下均值,这里的均值是16,跟前面的不同了,这个100这么大的值可能是活动的效果,那这个时候,如果我拿均值来作为指标衡量前面8个人的业绩,就只有最后一个数据达标。当数据整体平稳,但前后有很大的异常值的时候,我们用均值来做指标参考就不靠谱了,这种情况更适合的是用中位数来作为指标。

image.png

在Excel里面,用MIN、QUARTILE.EXC、MAX,就可以得到这5个数。数据放在A1:A8 8个单元格中,利用下图的函数计算结果。

image.png

另一个指标,众数。

大家看下面这个数列,假如是客服的业绩

1,3,5,5,5,5,5,5,5,5,10,20

我们先算一下平均值,是6.167,如果用这个指标,这里12个数据里面,只有10和20这两个人达标。那么,这个时候,就要用众数了。所谓众数,就是出现的最多的一个数字,毋庸置疑,这里的众数是5,那么,就会有10个人达标了。

众数在excel里面是MODE.MULT。

image.png

非常简单就能算出来,特别是数据量大的时候,不用目测。

以上的指标是根据数据的分布情况来选用的,一般用散点图看一下,然后就能判断要使用哪个指标来作为参考。用散点图可以非常直观地发现离群点。将我们上面的一组数据画出散点图,如下图就会发现一个异常值。

image.png

当数据存在离群点的时候,可以避免采用均值来作为分析指标,也可以将离群点剔除后再用均值来分析。


版权说明:零一公众号内容均为原创,如需转载请联系。

image.png

推荐 0
本文由 零一老师 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册