关于偏度与峰度的一些探索

浏览: 4803

        毫无疑问,数据的集中趋势和离散趋势是数据分布的最主要两个特征。因此,我们常常会借助算术平均数,中位数,方差,四分位数等指标进行描述性的统计分析,就正如我们经常讨论的正态分布,两个参数均值和标准差正是对应了集中趋势指标和离散趋势指标。但实际上,数据的分布形态各异,很可能偏离于我们原有的假设分布,例如可能数据分布并不对称,例如数据分布较为“陡峭”,而为了研究这些特征以及与正态分布的偏离程度,我们还需要其他的判定指标,偏度和峰度。

        

一些预备知识

对于随机变量X,假若Clipboard Image.png存在,则称它为随机变量X的k阶原点矩;若Clipboard Image.png存在,则称它为随机变量X的k阶中心矩;一般,我们使用矩来描述随机变量的特征,例如随机变量的数学期望就是一阶原点矩Clipboard Image.png ,方差则是二阶中心矩Clipboard Image.png


1.  偏度

偏度,Skewness,是研究数据分布对称的统计量。通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。

具体来说,对于随机变量X,我们定义偏度为其的三阶标准中心矩:

Clipboard Image.png


而对于样本的偏度,我们一般简记为SK,我们可以基于矩估计,得到有:

Clipboard Image.png


但考虑到,上式的分子分母都不是无偏估计量,因此也有计算公式为:

Clipboard Image.png


值得注意的是,上述两种样本偏度的最后计算结果都属于有偏估计。


偏度的衡量是相对于正态分布来说,正态分布的偏度为0。因此我们说,若数据分布是对称的,偏度为0.若偏度>0,则可认为分布为右偏,即分布有一条长尾在右;若偏度<0,则可认为分布为左偏,即分布有一条长尾在左,同时偏度的绝对值越大,说明分布的偏移程度越严重。

Clipboard Image.png

另外,偏度>0,分布右偏,长尾在右,高峰在左,这似乎与一般认知不太一致。但其实我们可以发现偏度实际上是三阶标准中心矩,而一个数据距离“中心”越远,对中心矩的计算影响越大。而当数据长尾在右,即有更多正偏的离群值,因此偏度>0; 


2.峰度

峰度,Kurtosis,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。

具体来说,对于随机变量X,我们定峰度为其的四阶标准中心矩:

Clipboard Image.png


而对于样本的峰度,我们一般简记为K,可通过如下公式计算样本的峰度系数:

Clipboard Image.png


同样考虑到,上式的分子分母都不是无偏估计量,因此也有计算公式为:

Clipboard Image.png


特别需要注意的是,峰度其实也是一个相对于正态分布的对比量,正态分布的峰度系数为0,而均匀分布的峰度为-1.2,指数分布的峰度为6。

当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。

从下图可以看到,拉帕拉斯,双曲正割,逻辑斯底分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦分布,半圆形分布,以及均匀分布则是峰度系数<0,同时也可以看到他们更加的平缓。





3.峰度的影响实验

为了进一步验证分布中各处的值如何影响峰度变化,浩彬老撕构造了如下实验:


(1)新增数据加在尾部:原有总体分布:N(0,3^2),1000000样本+新增数据N(9,3^2),1000个样本。新增比例为原有的0.001,峰度从0增加为0.073;

Clipboard Image.png


(2)新增数据加在尾部:原有总体分布:N(0,3^2),1000000样本+新增数据N(9,3^2),20000个样本。新增比例为原有的0.02,峰度从0增加为0.996;

Clipboard Image.png


(3)新增数据加在峰部(高峰更高):原有总体分布:N(0,3^2),1000000样本+新增数据N(0,1),1000个样本。新增比例为原有的0.001,峰度从0增加为0.004;

Clipboard Image.png

(4)新增数据加在峰部:原有总体分布:N(0,3^2),1000000样本+新增数据N(0,1),20000个样本。新增比例为原有的0.02,峰度从0增加为0.049;

Clipboard Image.png


(5)新增数据加在山腰中部位置:原有总体分布:N(0,3^2),1000000样本+新增数据N(4.5,1),1000个样本。新增比例为原有的0.001,峰度从0降低为-0.003;

Clipboard Image.png

(6)新增数据加在山腰中部位置:原有总体分布:N(0,3^2),1000000样本+新增数据N(4.5,1),20000个样本。新增比例为原有的0.02,峰度从0降低为-0.084;

Clipboard Image.png

从上述实验可知,尾部或离群点对峰度影响为正向,且影响程度最大。而高概率区对峰度影响也为正向,但是比较少;而山腰位置,中等概率区域则影响为负向。


近期热门文章精选(点击标题即可阅读):

1.R vs Python:R是现在最好的数据科学语言吗?

2.干货教程|可能是最方便好用的文字云工具

3.可视化干货|可能是最好玩的像素地图

4.(理论+案例)如何通俗地理解极大似然估计?

5.XGBoost 与 Boosted Tree

Clipboard Image.png

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 3
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

高难度

要回复文章请先登录注册