6.第六周统计学(基础)笔记

浏览: 2682

当拿到一份数据的时候,首先会怎么做?----描述性统计学,概率推断统计。

【描述性统计学】

数值数据:计算

分类数据:不能进行计算,例如,男1 女0 代表一个类别

数值数据和分类数据可以进行互相转换


一般描述统计的方式方法:

1.分类数据的描述性统计:单纯计数就可以

2.数据描述统计:

3.统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)

4.图形:

5.权重预估(分位数)

6.数据分布(波动情况,标准差,方差)

7.数据标准化:

image.png

在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较

用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。

xi:数据的具体值

u:平均值

σ:标准差

标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。

实例演示:时间趋势下订单的变化

单纯的时间只是一种属性,隐含的一种关系。很多销量是跟时间有关系,但是时间的背后是根据用户行为或者一系列因素相关。而不是单纯连续日期几号的简单关系。所以将案例数据需要进行初步整理(坦诚讲~这个细节是比较吸引我的,因为在此之前一直是像上面所说,对日期进行简单连续日期进行趋势分析,得到的结果的确不尽人意)添加周数和星期,将其转化成日历形式进行观察。

image.png

显然,标准化之后的趋势显得更加明显清晰了,将趋势扩张到肉眼辨识度提高的形态。

在后期处理的时候,建议用标准化的数据进行预估,因为标准化后已经将正负收敛到0的附近,并且可以方便增加其他关系参加预估。

image.png

切比雪夫定理,可以帮助在知道标准差和平均数的情况下,基本就知道数据的分布情况。

另一种作用则通常用于异常值的检测。

在数据越多的情况下,数据越收敛,推算的能力就会越精准。


描述统计的可视化:

1.箱线图:描述一组数据的分布,同时反应分位数

image.png

用2016版本以上的Excel可以直接利用数据作图,如低版本的则需要利用辅助线来进行(之前可视化内容的标靶图方法)绘制。

箱线图相对比其他柱形图更有对数据的分析解读性。

操作举例:

image.png

上下边缘线外部分散的点,可视分析情况视为异常值处理,如果想要分析的结果更精准,可视情况将这部分异常值数据剔除。

image.png

可添加类别进行细致分析。


2.直方图:特殊的柱形图,把条形图下面的类别换成数据的柱形图。

直方图一般的是等距划分,每一个等距的距离不能重复。

直方图的形状有以下几种:

image.png

标准型:分布均匀较理想

陡壁型:比较容易出现在收费领域

锯齿型:说明数据不够稳定

孤岛型:要研究分析孤岛产生的原因

偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)

双峰型:两者数据混合一般会形成双峰


由直方图引出一个统计学指标-

-偏度

image.png

---正太分布

image.png

正太分布的特殊应用:

image.png

描述性统计的计算值,可通过Excel里面的数据--数据分析---描述性统计直接通过界面勾选需要内容进行计算。


【概率推断统计】

推断统计,描述一件事情发生的可能性

例如:抛硬币的游戏

事件:正面、反面

概率:50%

image.png

image.png

image.png

在B发生的概率下,A发生的概率是多少

当A与B之间无关联的时候,则P(A|B)=P(A)

条件概率的关键点


【贝叶斯定理】

image.png

image.png

看到题目的时候与最后分析的结果相差巨大的原因是因为上题目中,有多重诱因所导致。

事件发生会有很多原因,我们单纯只知道结果的情况下去反推原因是不太好的。

贝叶斯公式:

image.png

P(A1):真实患者的概率

P(A2):实际为健康人群的概率

P(B):代表试纸查出患者的概率

P(B|A1):为真实患者条件下试纸查出患者的概率,即99%

P(B|A2):为健康人群的条件下试纸查出患者的概率,即5%


P(A1)为真实患者的概率0.1%,P(A2)为健康率99.9%


image.png

i:为特定场景下

贝叶斯特点:知道结果A已经发生了,想要推导出各种原因发生的可能性有多大。(结果----->发生因素的概率)


对于贝叶斯多倾向用于机器算法。网络上也有很多关于贝叶斯的解释可供参考学习。

推荐 2
本文由 订车宝 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

好棒
o(* ̄︶ ̄*)o谢谢支持

要回复文章请先登录注册