你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

成为数据分析师要掌握的统计知识（进阶版）

发表: 2019-08-28 浏览: 1449

统计学数据分析

阅读指南：

总体均值和比例的统计推断
总体方差的统计推断

总体均值和比例的统计推断

其实数据分析更多情况是两个总体的比较，譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏，所以接下来对两个总体比较的情况进行学习。

接下来讨论的内容为：

σ1,σ2已知，u1-u2的区间估计和假设检验
σ1,σ2未知，u1-u2的区间估计和假设检验

两个总体均值之差的推断：σ1,σ2已知

区间估计

如果总体1中抽取容量为n1的简单随机样本，随机样本均值(x1拔)服从正态分布或者样本容量大于30；从总体2中抽取容量为n2的简单随机样本，样本均值(x2拔)服从正态分布或者样本容量大于30，并且n1与n2相互独立。那么随机变量(x1拔)-(x2拔)也服从正态分布。于是对两总体均值之差为u1-u2进行区间估计（总体1的均值为u1,总体2的均值u2）情况如下：

举个例子，理解下知识点：
我们考虑的问题是：百货公司市区商场与郊区商场顾客平均年龄的差异是怎么样的？

已知：u1=总体1的均值(市区商场顾客的平均年龄)，u2=总体2的均值(郊区商场顾客的平均年龄)
(x1拔)=n1名市区顾客的简单随机样本的样本平均年龄，n1=36,(x1拔)=40
(x2拔)=n2名市区顾客的简单随机样本的样本平均年龄，n2=49,(x1拔)=35
因为n1,n2都是大于30的，所以我们可以认为两个总体的抽样样本均值分布服从正态分布，并且两个总体的抽样样本均值之差也服从正态分布。
并且历史数据表明：σ1=9,σ2=10，置信水平1-α=95%
所以两地顾客平均年龄差异的区间估计为：

假设检验

假设共有的情况是：下侧检验、上侧检验、双侧检验

检验统计量

采用的方法还是P值法或者临界值法

P值法：
如果p值<=α，则拒绝H0(α:显著性水平)
临界值法
如果z<=-zα,则拒绝H0 (-zα：是临界值，对于下侧检验和双侧检验适用)如果z>=zα,则拒绝H0 (zα：是临界值，对于上侧检验适用)

老规矩，来一个例子：
分析两个销售团队考核成绩的差异，已知u1=A团队人员的平均成绩，u2=B团队人员的平均成绩。样本平均成绩(x1拔)=82,n1=30;(x2拔)=78，n2=40;σ1=10,σ2=10,α=0.05。

想一下，我们想要得出的结论是：两个销售团队考核成绩有差异。所以使用双侧检验，原假设和备选假设如下：H0:u1-u2=0 H1:u1-u2不等于0。把各个参数值带入上面的公式得出检验统计量z=1.66。

z=1.66 时，右侧曲线下的面积为1-0.9515=0.0485，p值=2X0.0485=0.0970>α。
临界值=z(α/2)=z(0.025)=1.96;z<z(α/2)。所以，没有足够的证据拒绝H0，两个销售团队的考核结果没有质量上的不同。

两个总体均值之差的推断：σ1,σ2未知

当σ1,σ2未知时，通过样本标准差s1,s2来估计总体标准差的，区间估计和假设检验的程序建立在t分布上。

区间估计

自由度：两个独立随机样本的t分布(下面的公式了解即可，实际操作中都是借助工具)，并且非整的自由度向下取整。

假设检验
假设检验共有的情况是：下侧检验、上侧检验、双侧检验

检验统计量

采用的方法还是P值法或者临界值法

总体方差的总体推断

因为实际生活中，比如工厂生产一批产品，即使判断了总体均值符合我们的要求，但是不能保证过每一个都是符合我们的要求，但估计的总体方差在我们的接受范围之内，我们也是认为产品是合格的，可以继续生产。

一个总体的方差的统计推断

自由度为1，4，10，20的卡方分布图如下

下面用一道例题来详细的说明一下：
抽取一个样本，样本容量为20，得到样本的方差=0.0025,且总体服正态分布。求总体方差的区间估计
n=20，自由度=19，所以

选择置信水平选择95%，就有如图所示的内容

所以总体方差95%的置信区间为：

假设检验

原假设和备选假设，有如下的情况

检验统计量如下：

还是利用p值法和临界值法

两个总体方差的统计推断

从两个方差相等的正态总体中分别抽取容量为n1和n2的两个独立简单随机样本，则(s1)^2^/(s2)^2^的抽样分布服从自由度为分子n1-1和分母n2-1的F分布。

假设检验：
原假设和备选假设如下：

检验统计量：F=(s1)^2^/(s2)^2^

注意的是：

将方差较大的总体记为总体1，F检验统计量服从分子自由度为n1-1,分母自由度为n2-1的F分布；因为(s1)^2^为较大分子，检验统计量在F分布上侧
校车服务质量的检测。

举例子：一个学校想从A、B两家校车公司选择一家合作。该校将两公司校车到达时间的方差作为衡量服务质量稳定性的标准。

A家：n1=26;(s1)^2^=48;B家：n2=16;(s2)^2^=20;α=0.10
假设检验：
原假设和备选假设如下：

检验统计量：F=(s1)^2^/(s2)^2^=48/20=2.40；分子自由度=n1-1=25;分母自由度=n2-1=15

所以：F 分布的上侧面积介于0.025~0.05之间，
双侧检验：p值介于0.05~0.10之间

P值<α，有足够的证据拒绝H0，两家公司的服务质量稳定性不同。
因此，学校可以通过进一步验证做出选择。

统计知识的学习先告一段落了，后面还有独立性及拟合检验、方差分析、线性回归和多元回归、时间序列分析及预测，这些打算结合R语言或者Python语言来进行学习，到时间再总结文章和大家一起学习。

推荐 0

本文由 DataFrog 创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录或注册

文章目录