异常值的检测
定义:数据集中有一个或者多个数值异常大或者异常小的观测值,这样的极端值简称异常值
检验方法(一)
原理:依据经验法则,具有钟形分布的数据,99.7%的数据值与平均数的距离在3个标准差之内。
方法:z-分数小于-3或大于+3的数值称为异常值
方法(二)
原理:利用Q1 Q3和IQR计算上限 下限确定异常值
方法:下限=Q1-1.5*IQR 上限=Q3+1.5*IQR (Q1:第一四分位 Q3:第三四分位 IQR(四分位间距)=Q3-Q1
五数概括法
组成:(1)最小值 (2) 第一四分位数 (3) 中位数 (4)第三四分位数 (5) 最大值
最容易的实施方式:数据按升序排序,从而确定相关值
例子:·12个商学院毕业生起始月薪数据,按升序排列如下
3310 3355 3450 | 3480 3480 3490 | 3520 3540 3550 | 3650 3730 3925
Q1=3465 Q2=3505 Q3=3600 最小=3310 最大=2925
箱形图
数据源:五数概括法
绘制步骤如下:
(1)画一个箱体,其边界分别是第一四分位和第三四分位.
(2)在箱体上中位数的位置画一条垂线.
(3)利用四分位间距IQR=Q3-Q1,设定界限的位置.
(4)触须线从箱体边界线画到最大值和最小值处.
(5)异常值用*表示
两变量间关系的度量
原因:前边是对一个变量汇总数据的数值方法,实际当中有时需要度量两个变量之间的关系,以解决业务需求.
协方差:
协方差的解释:
- 存在Ⅰ Ⅱ Ⅲ Ⅳ象限.
- 当s(xy)为正:X和Y之间存在正的线性关系
- 当s(xy)为负:X和Y之间存在负的线性关系
- 当s(xy)接近零:X和Y之间无线性关系
补充:以上划分的是依据x(均值)y(均值)作为坐标轴
相关系数(皮尔逊积矩)
样本相关系数:
式中,r(x,y)-样本相关系数 s(x,y)-样本协方差 s(x)-x的样本标准差 s(y)-y的样本标准差
皮尔逊积矩相关系数:
相关系数的介绍
- 当r(x,y)为+1:x和y之间存在完全正线性关系
- 当r(x,y)为-1:x和y之间存在完全负线性关系
- 当r(x,y)接近0:x和y之间存在弱线性关系
- 当r(x,y)为0:x和y之间不存在线性关系
例子: