R语言实现基本统计分析之t检验

浏览: 1563

作者:曹毛毛  R语言中文社区专栏作者   北京协和医学院在读硕士   


前言

在本章开始之前请思考几个问题,年龄、体重、性别在统计学中属于同一种数据形式吗?如果不是则分别是哪种?搞清楚数据类型是数据分析的第一步,当然在此之前你已经有了一份已经清洗干净的数据库。

在统计领域内数据可简单以下几类:

  • 计量资料

  • 计数资料

  • 等级资料

根据研究目的还可以将资料进行计量——等级——计数资料转化。不过要记住不能相互转化,只能由高级像低级转化,其实很好理解,因为计数资料信息量较少,转化能力自然较弱。

以人群身高为例,按照某个标准规定160以下为较矮,高于160则为高,这样可以将身高计量资料转化为计数资料高矮。

下面简单的回答一下章节开头的小问题:

年龄和体重如29岁,80kg是可以由一些测量工具准确得到的值,因此为计量资料。

性别不可以用工具测量其值,它是一种类别,反映事物的某种属性,因此是分类资料也可称为计数资料。

在调查公司员工对经理的满意程度,分为非常满意、满意、一般、不满意四类,这样收集到的数据则是反应某种等级,称为等级资料。相信你也不敢说不满意~

了解基本数据类型后,赶紧开启你的统计之旅吧~本章仅涉及计量资料统计方法应用:

t检验用于判断两个总体均值是否具有差异,来源于正态分布

t检验的应用条件是:样本含量较小且满足正态、方差齐

单样本t检验:用于样本均数和已知总体均数之间的比较

例1. 研究表明,汉族足月正常生产男婴双顶径均数为9.3cm,某医生记录某山区12名汉族足月正常生产男婴双顶径资料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27(数据来源于医学统计学第二版,刘桂芬主编)

试问该山区男婴的双顶径是否大于一般男婴双顶径?

解决的问题:该山区男婴的双顶径是否大于一般男婴双顶径,换句话说即判断该山区男孩是否和已知总体是同一总体。

基本概念

先来理解一下基本概念

12名男婴是该山区的一个有代表性的小样本,一个山区不可能只有12名足月正常生产的男婴,当然如果对该山区的所有男婴进行测量,任务量未免过重。实际应用中不可能把总体全部均进行检测。这种从总体(该山区所有足月正常生产男婴)中抽取一部分(12名足月正常生产男婴)具有代表性的集合叫做样本,而这个搜集样本的过程叫做抽样。理解了样本与总体的区别,再来体会一下假设检验的概念。依托于小概率反证法的思想,对总体的统计学特征做出两种对立的假设以此题为例,假设:该山区男婴和已知总体是同一个总体,据此计算出样本的某个统计量的概率,若这个概率特别小,小到这件事情不可能发生,则拒绝原假设。若这个概率较大,说明发生的可能性还是很大的,则没有足够把握拒绝原假设,该山区男孩和已知总体可能就是来自于同一个总体。

无效假设(nullhypothesis)H0:该山区男婴双顶径和一般男婴双顶径没有区别

备择假设(alternativehypothesis)H1:该山区男婴双顶径大于一般男婴双顶径

均数,标准差,t值

均数反应一组符合正态分布或者近似正态分布资料的平均水平

标准差:反应一组符合正态分布或者近似正态分布资料的离散趋势,即变异程度

例如体重,一般人群体重在50kg左右,而有的人过重达到70kg,而有的人过轻40kg,距离平均值越远,离散值就越大,标准差越大

用R实现以上手工过程~~毕竟足够大的样本量会让你计算到怀疑人生

代码实现

T检验的第一种变身:


#构建数据集合mydata<-c(9.95,9.33,9.49,9.00,10.09,9.15,9.52,9.33,9.16,9.37,9.11,9.27)#判断样本是否满足正态shapiro.test(mydata)

结果得:

#单样本t检验t.test(mydata, alternative = "greater", mu = 9.3

结果得:

结果显示t=1.0257p=0.1635>0.05 说明在此假设的基础上还是很有可能发生此事情,因此不能拒绝原假设,还不能认为该山区正常产男婴双顶径大于一般男孩双顶径

T检验的第二种变身:配对t检验

适用于配对资料的计量资料

主要有三种应用情形:

  1. 同质受试对象分别接受两种不同的处理

  2. 同一受试对象分别接受两种不同的处理

  3. 同一受试对象自身前后比对

着重理解配对的含义同一个受试者接受两种不同的处理。无论哪种配对情形,均有共同点,就像一根树枝在同一点分叉,再比较两个小岔之间的区别,实在想像不出分叉的树枝可以低头看看自己分叉的发尾~

判断简便法和常规法测定胆碱酯酶活性有无统计意义,对8人同时用两种方法进行测定,所得结果如下表所示,试分析简便法测量胆碱酯酶活性是否优于常规法。

#构造数据集合c1<-c(3.28,2.60,3.32,2.72,2.38,3.64,2.98,4.40)c2<-c(2.36,2.40,2.40,2.52,3.04,2.64,2.56,2.40)t.test(c1,c2,alternative = "greater",paired=T)

结果得:

第三种变形:完全随机两样本比较t检验

推论两样本均数所代表的两总体均数是否相等,其设计原理是将受试对象完全随机分为两组,分别接受两种不同的处理

分为两种情况:

1.方差齐

试比较南北身高是否有差异

c1<-c(152,176,159,165,166,155,178,160,166,150)c2<-c(165,158,166,168,160,180,169,180,174,170)data<-c(c1,c2)a <-factor(c(rep(1,10),rep(2,10)))bartlett.test(data~a)

结果得:

t.test(high,low,paired = FALSE)

结果得:

2.方差不齐

 (这个情况大家可以自己举例,用代码探索如何实现,欢迎你将自己的成果分享在评论区

总结:

相信到这里,t检验你已经可以应用自如啦,其实三种t检验的变形之间是互通的,均是以样本的均数和总体的均数做比较,总体均数可以是一个已知的某个值也可以是0。


公众号后台回复关键字即可学习

回复 爬虫             爬虫三大案例实战  
回复 Python        1小时破冰入门

回复 数据挖掘      R语言入门及数据挖掘
回复 人工智能      三个月入门人工智能
回复 数据分析师   数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册