两样本估计和假设检验范例分析

发表: 2016-04-15 浏览: 2451

数据分析

基础准备

两样本推断性统计基础：两样本估计和假设检验基础。

均值差

通过对比单样本估计和假设检验的学习，可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式，有以下总结：

Clipboard Image.png

两样本的t分布

t分布在单样本估计和假设检验要求：正态总体，可以使用t分布进行两样本估计和假设检验；两样本估计和假设检验要求：除了正态总体外，还要假设两总体方差相等（方差齐性）才能使用t分布，原因是两总体方差相等，才能得到自由度为n1+n2-2的均值差抽样分布的方差，推导公式如下：

Clipboard Image.png

均值差的置信区间：标准差已知的正态分布总体的独立样本；

参照上表，标准差已知的正态分布总体均值差抽样分布为正态分布，可以得到独立样本均值差的置信区间，置信区间公式推导过程如下：

Clipboard Image.png

范例1：一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度（总体1，标准差已知为30英尺），高度均值为320英尺；海拔3000英尺的73棵成树的高度（总体2，标准差已知为45英尺），高度均值为255英尺；问：两总体均值差的95%置信区间是多少？

解：不同海拔的红杉树的高度可以认为是正态分布的，总体方差已知，而且不同海拔的红杉树是独立样本，可以直接用上面置信区间公式计算，过程如下：

Clipboard Image.png

均值差的假设检验：标准差已知的正态分布总体的独立样本；

和单样本假设检验一样（单样本的假设检验），两样本假设检验问题也有一对统计假设：零假设和对立假设；同样也存在两侧和单侧假设检验，而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中，一般把零假设为两均值差为0，对立假设根据题意选择双侧假设或是单侧假设；两样本假设检验的步骤和单样本假设检验一样。

从上表可知：标准差已知的正态总体均值差的抽样分布为正态分布，进行标准正态变换后可以假设检验，过程见下方范例。

范例2：独立随机样本取自均值未知，标准差已知的两个正态分布总体，第一个总体，标准差为0.73，样本容量为25，样本均值为7.3；第二个总体，标准差为0.89，样本容量为20，样本均值为6.7；在显著水平为0.01下作两总体均值差等于0的右尾检验。

Clipboard Image.png

均值差的置信区间：标准差未知，但假定相等的正态分布总体的独立小样本(小于30)

如上表所示，标准差未知，但假定相等的正态分布总体小样本，均值差的抽样分布符合t分布，可用表中置信区间计算公式，计算过程见范例。

范例3：为研究睡眠对记忆力的影响，一位心理学家在两种条件下对人群进行试验，内容是有关北极野外生活的纪实电影的细节回忆，这两种条件是：(1)电影在早上7点反映，被测人晚上睡眠正常，第二天晚上给他们50个有关电影的多项选择题；(2)电影早7点反映，被测人白天情况如常，未睡觉，同一天晚上7点给他们50个问题，样本是独立的，每组为15人，结果为：第1组，均值为37.2个正确，方差为3.33；第2组，均值为35.6个正确，方差为3.24。假定两种条件下的总体都是正态分布，且方差相等，计算总体均值差95%的置信区间。

Clipboard Image.png

均值差的假设检验：标准差未知，但假定相等的正态分布总体的独立小样本(小于30)

同上（置信区间），该条件下的假设检验适用t分布。

范例4：为检测某种激素对失眠的影响，一个医生给两组临睡前的病人服用不同剂量的激素，然后测量他们从服药到入睡的时间，第一组服用的是5mg的剂量，第二组服用的是15mg的剂量，样本是独立的，结果为：第一组，样本容量为10人，均值为14.8min，方差为4.36；第二组，样本容量为12人，均值为10.2min，方差为4.66。假定两个条件下的总体是正态分布，并且有同方差，在显著水平0.02下，用临界决策规则作零假设：两总体均值差为0的双侧检验。

Clipboard Image.png

均值差的置信区间：标准差未知的任何总体分布的独立大样本(大于等于30)

对于独立大样本（样本容量大于等于30），均值差的抽样分布是正态分布，可以转为标准正态分布，进而使用Z分布进行均值差区间估计；当然，如果是正态总体且方差是齐性的，也可以使用t分布。

范例5：一位机场管理人员让你估计一下，两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布，或是方差齐性的，独立样本结果：航线1，平均时间差12.4min，标准差3.72；航线2，平均时间差11.7min，标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么？

Clipboard Image.png

均值差的假设检验：标准差未知的任何总体分布的独立大样本(大于等于30)

同上的解释：对于独立大样本（样本容量大于等于30），均值差的抽样分布是正态分布，可以转为标准正态分布，进而使用Z分布进行均值差区间估计；当然，如果是正态总体且方差是齐性的，也可以使用t分布。

范例6：一位机场管理人员让你估计一下，两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布，或是方差齐性的，独立样本结果：航线1，平均时间差12.4min，标准差3.72；航线2，平均时间差11.7min，标准差3.6。在0.01显著水平下，用临界值决策规则作零假设：两条航线延误时间的差等于0的双侧检验。

Clipboard Image.png

均值差的置信区间：成对样本

对于成对样本，需要用到不同于上面描述的独立两样本的估计方法，而应该用成对样本模型，模型推导如下：

Clipboard Image.png

范例7：某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性（例如用15mg的病人比5mg的年轻）对试验结果的影响，于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人，然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间，然后计算每对的时间差，结果是：4.9，4.6，5.1，4.5，7.1，3.2，5.4，3.9，5.9，4.6，2.9，4.7。由这些数据计算5mg组合15mg组的95%置信区间，假定差值的总体是正态分布。

Clipboard Image.png

均值差的假设检验：成对样本

同上，成对样本均值差的假设检验也用t分布。

范例8：某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性（例如用15mg的病人比5mg的年轻）对试验结果的影响，于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人，然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间，然后计算每对的时间差，结果是：4.9，4.6，5.1，4.5，7.1，3.2，5.4，3.9，5.9，4.6，2.9，4.7。在显著水平0.05下，用临界值决策桂策做零假设：两总体均值差为0的右侧检验，假设差值总体是正态分布。

Clipboard Image.png

方差比

上一篇两样本估计和假设检验基础讲过，两样本均值估计和假设检验用均值差表示，而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布（F分布回顾：两样本估计和假设检验基础）。

方差比的置信区间：参数未知的正态分布总体的独立样本

Clipboard Image.png

范例9：为检测某种激素对失眠的影响，一个医生给两组临睡前的病人服用不同剂量的激素，然后测量他们从服药到入睡的时间，第一组服用的是5mg的剂量，第二组服用的是15mg的剂量，样本是独立的，结果为：第一组，样本容量为10人，均值为14.8min，方差为4.36；第二组，样本容量为12人，均值为10.2min，方差为4.66。假定两种条件下的总体都是正态分布，计算量总体方差比的90%置信区间。

Clipboard Image.png

方差比的假设检验：参数未知的正态分布总体的独立样本

同上，用F分布进行假设检验；

范例10：为检测某种激素对失眠的影响，一个医生给两组临睡前的病人服用不同剂量的激素，然后测量他们从服药到入睡的时间，第一组服用的是5mg的剂量，第二组服用的是15mg的剂量，样本是独立的，结果为：第一组，样本容量为10人，均值为14.8min，方差为4.36；第二组，样本容量为12人，均值为10.2min，方差为4.66。假定两总体方差齐性，在0.01显著水平下，用临界值决策规则作这个假定的双侧检验。

Clipboard Image.png

1 个评论

jalu

您好！麻烦咨询一下，做检验（AB测试）可能存在的一个问题是3天内积累的数据是显著的，但是可能积累了7天甚至更长的数据之后做检验就不显著了，这个问题一般怎么解决？积累多长时间的数据可以认为数据显著或者不显著？

要回复文章请先登录或注册