【实例】Excel数据分析之假设检验中的t-检验应用

浏览: 3546

前言

你的假设可信吗?在我们实际工作中,事物的个体差异总是客观存在的,抽样的误差也就无可避免。当一些样本均数与已知的总体均数有很大的差别时,一般来说有两点主要原因:一是抽样误差的偶然性,二是样本来自不同的总体,而使试验因素不同。这个时候,我们运用假设检验方法就能够排除误差的影响,区分差别在统计上是否成立,并了解误差时间发生的概率。

参数估计和假设检验

统计推断是由样本的信息来推测母体性能的一种方法,它又可以分为两类问题,即参数估计假设检验

参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。人们常常需要根据手中的数据,分析或推断数据反映的本质规律。即根据样本数据如何选择统计量去推断总体的分布或数字特征等。统计推断是数理统计研究的核心问题。所谓统计推断是指根据样本对总体分布或分布的数字特征等作出合理的推断。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。

在数据分析工具中,假设检验也被称为显著性检验,是统计推断中的一种重要的数据统计方法。它首先对研究总体的参数做出某种假设,然后从总体中抽取样本进行观察,用样本提供的信息对假设的正确性进行判断,从而决定是否成立。若观察结果与理论不符,则假设不成立,若观察结果与理论相符,则认为没有充分的证据表明假设错误。假设检验一般有如下三个步骤:

1、建立假设,确定检验水平。

2、选定检验方法,计算统计量大小。

3、根据统计量确定P值,做出推断统计。

在这三个步骤中,第2个步骤中的检验方法是十分重要的、因为检验的样本类型、自变量的分布情况、研究的目的都不同,所以只有选择合适的检验方法才能计算出来统计量。

假设检验的主要方法

假设检验的方法主要可分为:t-检验、z-检验和F-检验。(建议查看统计学相关知识)

t-检验:T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。

z-检验:Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。

当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。

z检验又叫u检验

F-检验:F检验又叫方差齐性检验。在两样本t检验中要用到F检验。

从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t检验或变量变换或秩和检验等方法。

其中要判断两总体方差是否相等,就可以用F检验。

实例应用

实例应用:应用t-检验分析新药的有效性

1、案例描述

某药厂研发了一种能够降低血压的新药,现在为了了解该药的疗效,随机抽取了15名高血压患者,并得到他么在使用该药治疗前后的舒张压数据,如下图所示,现在需要判断:该药是否有效?如果有效,是否能够让高血压患者的舒张压平均降低6.5mmHg?

2、案例分析

根据上面的数据,我们可以使用Excel中的假设检验方法来判断(以前我用手算过,好累呀,有了Excel等工具,很简单方便,省时省力)。分析工具中的假设检验方法有多种,使用不同的方法,观察值在检验前后的关系就不同,所以需要先选择合适的方案。

3、操作分析

由于样本量较小,且样本值中的观察值存在治疗前后的配对关系,所以可先使用“t-检验:平均值的成对二样本分析”方法判断该药的有效性,我们首先假设该药无效(一般先否定,然后计算检验否定原假设(如果正确的话)),然后进行假设检验。

第1步:选择分析工具(老朋友了)。“数据分析”——“分析工具”——“t-检验:平均值的成对二样本分析”,确定即可。如下图所示:

第2步:设置相关参数。在“t-检验:平均值的成对二样本分析”对话框中,设置“输入”组中“变量1的区域”为“$B$2:$B$17”,“变量2的区域”为“$C$2:$C$17”,选择“标志”复选框,设置“α”值为“0.05”,在“输出选项”下单击“输出区域”,设置为“$E$2”,最后确定。如下图所示:

第3步:设置假设平均差。重复上一步骤,其他参数不变,这次设置“假设平均差”为“6.5”,“输出区域”为“$I$2”。这一步,“假设平均差”为期望中的样本均值的差值,如果该值设为0,即假设样本均值相同。

第4步:显示分析结果。做完之后,我们就可以看到t-检验的结果:H列左侧为第2步中检验该药是否有效的数据结果,H列右侧为第3步中检验该药是否能让舒张压降低6.5mmHg的检验结果。如下图所示:


4、决策分析

上面的案例中,由于没有充分的理由判断该药治疗后的总体均数会大于或小于治疗前的舒张压均值,所以在检验过程中,前面的t-检验我们采用的是双侧检验。

从分析结果看到:H列左侧的检验结果中,tStat= 4.211,P双尾=0.00087,t双尾临界=2.145,当 t双尾临界时,假设成立,而这个案例中,检验结果tStat >t双尾临界,说明该结果拒绝原假设,也就是说该药有效,此外,我们还能看到P双尾=0.00087<α=0.05,这一比较结果也说明该结果拒绝原假设,同样说明该药有效。

由于已经确定该药有效,那么再判断该药能否将舒张压平均值降低6.5mmHg,所以,后面的t-检验采用的是单侧检验,这里我们设置了假设平均差,上图中红框内,检验结果tStat=0.205< t单尾临界=1.761,说明该假设成立,即该药能够让高血压患者的舒张压平均降低6.5mmHg。结果P单尾=0.42>α=0.05也说明了该假设成立。

小结

今天学习一下Excel中如何进行t-检验,数据分析更进一步。希望通过上面的操作能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。

欢迎关注微信公众号,访问更多精彩:AiryData。

推荐 1
本文由 Airy 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册