6.第六周统计学（基础）笔记-- 新增87~91课时补充

发表: 2018-04-03 浏览: 2264

七周成为数据分析师

对更新87~91课时的笔记补充~~

【概率分布】

离散分布

连续变量分布

1.二项分布：

是一种离散型的概率分布。二项代表他有两种可能的结果，把一种称为成功，另外一种称为失败。

每次成功和失败的概率都是相同的，每次实验相互独立（抛硬币是一个典型的二项分布）

Excel计算概率示例：

概率密度=BINOM.DIST(3，10，0，1，FALSE)

抽3次以上，限制10次，中间概率是10%（示例需求详见见课程）

2.泊松分布：

主要用于预估某事件在特定的事件或者空间中发生的次数。比如一天内中奖的个数，一个月内机器损坏的次数等。

在任意一个单位区间、时间内发生的概率是相同的（知道平均发生的概率）。

每次事件相互独立

x:想要知道具体发生的概率值

μ：平均概率值平均期望值

e:自然对数、常数

Excel计算概率示例：

=POISSON.DIST(x事件出现的次数，Mean期望值，逻辑值)

需求：想要知道在之前平均几天中奖5次（前几天每天中奖5次），下一时间段中奖概率是7次的概率是多少？

方法：=POISSON.DIST(7，5，TRUE)

TRUE是计算统计公式的概率累加值，同二项分布公式中的FALSE一样，FALSE是指单次，就是说刚好恰好发生7次的概率。

现实场景中，不能满足任意一个特定事件内或者空间内发生的次数概率是相同的，所以应用于现实场景中需要考虑实际条件。

一般现实生活中二项分布会比较常用。

3.正态分布

连续变量分布是一个随机变量在其区间内能够取任何数值所具有的分布。正态分布是一种连续型的随机变量分布。

世界上绝大多数分布都属于正态分布。正态分布的形状是一条钟型曲线。以均值为中心左右对称，形状和均值μ以及方差有关。

切比雪夫定义，可以帮助快速的估约数据。

正态分布公式：

标准正态分布：

均值为0，方差为1的正态分布。

概率密度函数和累计分布函数（在更多的应用场景中，更多的看累计分布函数）

应用示例：

要求：标准正态分布中，z小于等于1的概率？z在区间-1~1.25的概率？z大于2的概率？

方法：Excel计算概率示例

=NORM.DIST(X函数值的区间点1，算数平均数0，分布的标准方差1，逻辑值TRUE累计分布值)

求出的是小于等于某一个值

在一定区间的，求解方法相当于两个区间的概率相减求面积。

求解大于的，1-前一段的面积。

用Excel可不用转成标准正态分布进行运算，可直接进行运算。

现实工作场景中，很少会遇见满足正态分布的情况，更多的是密率分布，某个奖品随机积分，质量检测等满足正态分布的情况下使用。

【假设检验】

思想是反正法，如果一件事情发生的概率很小，但是它发生了，我们就把这件事情的原始结论推翻。

个案的发生，不能去证明某一个结论，但是可以去否定它。

例如：某个工厂的产品合格率是99.9999%，但我们拿出100个样本的时候，发现有2个不合格，这个时候就能去否定这个合格率了。

原假设H0：为了验证某一个假设是否发生，而去检验它。

备选假设H1：原假设不成立，则选择备选假设，包含一切让原假设不成立的概率。

原假设一般是小概率的事件，如果它发生了，我们就要怀疑并拒绝它。如果没发生，则接受它。

一般在做假设检验的时候，一般都是为了把它否定掉。所以在设立原假设的时候一般设立的场景是比较宽泛，或是看上去比较常规正常个，看上去更像是可能发生的，然后用小概率把它否定掉。

1.A&B测试：原理就是假设检验

通常采用抽样方式将数据划分成两组，通过一组控制一组对照的方式进行观察。

原假设为测试没有效果，分析师的目的是去否定它，当B组的数据和A组的数据有显著差异时，则能否定它。

2.Z检验

因为AB测试的数据都比较大（较大的数据基础容易把一些误差淡化掉，波动不明显），所以常用Z检验的方式进行验证，核心方法是当标准差已知时，验证A组合B组分均值是否相等。

Z检验公式：

示范案例：（具体详见课程91课时）

用Excel可计算Z值：=SDTR

根号=SQRT()

算出z值后转成正态分布，利用正态分布公式，把z值带入因为是标准正态分布，取值为均值为0，方差为1带入

得出概率是1%，可以把原始假设拒绝掉

当基础数据变小的时候（基础数据变小，波动则明显）概率会发生变化（变大），这样得出结论则发生变化。

样本量、阈值（转化率标准差），决定假设概率的变化。

3.置信区间

它的作用是不轻易拒绝原假设，而是给一个可靠的范围。一般来说用95%作为可靠度。

在A&B测试中，我们可以定义为，用户购买转化率，有95%的可能性是在23%~27%之间，另外5%是小概率了。

在实际业务中，当样本量足够时，转化率的计算可以越过Z检验的计算过程，直接看转化结果，因为样本量越大，对置信区间会越严格。

转化率在数据类型上是0和1的集合。除此，还有数值型的计算，比如消费额度、消费频次等。

A&B测试用于产品设计和运营是比较好的方法，对于数据分析来讲，是一个很好的思维。

2 个评论

梁勇

好久好久没更新了

订车宝回复梁勇

哈哈是啊~对我这种小白越学越有点困难了呢~就改道看几本书~还得继续啊哈哈

要回复文章请先登录或注册