第六周：统计学

发表: 2017-12-14 浏览: 1207

数据分析师

这章对于我这个应用数学专业的人来说会相对容易一些，不过毕业也有好几年了，差不多都给忘了，刚好可以好好复习一下。

一、分类数据描述

分类数据是描述事物类别的，这些类别的个数是有限个并且没有顺序先后之分，一般用来计数而不能进行数值计算。例如性别分为男、女；商品类别可以分为家电、食品、衣服等类别。在统计这类数据时用count()函数即可。

二、数值数据描述

1.平均数

平均数是指在一组数据中所有数据之和再除以这组数据的个数，可以反映数据集中趋势。在excel中用函数average()。

2.中位数

中位数是指一组数据最中间的值，它可以将数据划分为个数相等的上下两部分。

求中位数时需要把数据按顺序排列，如果一组数据的个数为n：

当n是奇数时，中位数就是第(n+1)/2个数。

当n是偶数时，中位数就是第n/2和n/2+1个数的平均数。

在excel中用函数median()。

3.众数

众数是指这组数出现次数最多的数，当次数最多的时候数有多个时这几个都是众数。另外的，如果所有数据出现次数一样多则没有众数。

在excel中用函数mode()。

4.分位数

常用的分位数是四分位数和十分位数，这里主要介绍四分位数。

四分位数是指把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。

第一分位数 (Q1)，又称“较小四分位数”，等于所有数值由小到大排列后第25%的数字。

第二分位数 (Q2)，又称“中位数”，等于所有数值由小到大排列后第50%的数字。

第三分位数 (Q3)，又称“较大四分位数”，等于所有数值由小到大排列后第75%的数字。

在excel中用函数quartile()，一般用来做箱线图。

5.方差与标准差

方差是每个数与全部数据平均数之差的平方值的平均数，标准差是方差的平方根。这两个都是反应数据的离散程度，一般情况下用标准差表示即可。

方差在excel中用函数VAR.P()，标准差在excel中用函数STDEV.P()。

用公式表示如下：其中σ²表示方差，σ表示标准差，μ表示平均值，n表示数据总个数，Xi表示某个数据。

方差.png

三、数据标准化——Z-score法（正规化方法）

在数据分析过程中常常遇到多组数据对比分析，然而这些数据的量纲和数量级会不同，无法直接进行分析，所以就有必要对数据进行标准化处理。这里介绍了一种常用的标准化方法：Z-score法，也叫正规化方法。公式为：新数据=（原数据-均值）÷标准差。若用σ表示标准差，μ表示平均值，可以写成：

Z—score法.png

四、切比雪夫定理

任意一个数据集中，位于其平均数m个标准差范围内的部分至少为1-1/m²，其中m为大于1的任意正数。

对于m=2，m=3和m=5有如下结果：

所有数据中，至少有3/4（或75%）的数据位于平均数2个标准差范围内。

所有数据中，至少有8/9（或89%）的数据位于平均数3个标准差范围内。

所有数据中，至少有24/25（或96%)的数据位于平均数5个标准差范围内。

五、统计图形

1.箱线图

箱线图是用来显示一组数据分散情况的统计图，是根据四分位数作出此图。箱线图包含一个矩形箱体和上下两条竖线，箱体表示数据集中范围，竖线表示数据延伸范围。箱体上边界是上四分位数，一般用Q3表示；下边界是下四分位数，一般用Q1表示；箱体内部横线是中位数，一般用Q2表示。箱体上下之间的高度距离叫做四分位间距框，在数值上等于Q3-Q1，一般用IQR表示。上边缘=Q3+1.5IQR，下边缘=Q1-1.5IQR，实际情况中在上下边缘内取最靠近边缘的值画横线来作为实际的上下边缘。而在上下边缘横线之外的数据则是异常值。

箱线图.jpg