跟小S学统计:描述统计学Ⅲ

浏览: 2186

异常值的检测

定义:数据集中有一个或者多个数值异常大或者异常小的观测值,这样的极端值简称异常值

检验方法(一)

原理:依据经验法则,具有钟形分布的数据,99.7%的数据值与平均数的距离在3个标准差之内。

方法:z-分数小于-3或大于+3的数值称为异常值

方法(二)

原理:利用Q1 Q3和IQR计算上限  下限确定异常值

方法:下限=Q1-1.5*IQR   上限=Q3+1.5*IQR  (Q1:第一四分位  Q3:第三四分位   IQR(四分位间距)=Q3-Q1



五数概括法

组成:(1)最小值 (2) 第一四分位数 (3) 中位数 (4)第三四分位数 (5) 最大值

最容易的实施方式:数据按升序排序,从而确定相关值

例子:·12个商学院毕业生起始月薪数据,按升序排列如下

3310 3355 3450 | 3480 3480 3490 | 3520 3540 3550 | 3650 3730 3925 

Q1=3465  Q2=3505  Q3=3600   最小=3310  最大=2925



箱形图

数据源:五数概括法

绘制步骤如下:

(1)画一个箱体,其边界分别是第一四分位和第三四分位.

(2)在箱体上中位数的位置画一条垂线.

(3)利用四分位间距IQR=Q3-Q1,设定界限的位置.

(4)触须线从箱体边界线画到最大值和最小值处.

(5)异常值用*表示

Clipboard Image.png



两变量间关系的度量

原因:前边是对一个变量汇总数据的数值方法,实际当中有时需要度量两个变量之间的关系,以解决业务需求.

协方差:

Clipboard Image.png


协方差的解释:

  1. 存在Ⅰ Ⅱ Ⅲ Ⅳ象限.
  2. 当s(xy)为正:X和Y之间存在正的线性关系
  3. 当s(xy)为负:X和Y之间存在负的线性关系
  4. 当s(xy)接近零:X和Y之间无线性关系

补充:以上划分的是依据x(均值)y(均值)作为坐标轴

Clipboard Image.png



相关系数(皮尔逊积矩)

样本相关系数:

Clipboard Image.png

式中,r(x,y)-样本相关系数   s(x,y)-样本协方差  s(x)-x的样本标准差  s(y)-y的样本标准差

皮尔逊积矩相关系数:

Clipboard Image.png

相关系数的介绍

  1. 当r(x,y)为+1:x和y之间存在完全正线性关系
  2. r(x,y)为-1:x和y之间存在完全负线性关系
  3. 当r(x,y)接近0:x和y之间存在弱线性关系
  4. 当r(x,y)为0:x和y之间不存在线性关系

例子:

Clipboard Image.png



推荐 3
本文由 求知不才 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

加个目录,PC端看起来舒服一些。

要回复文章请先登录注册