R语言实现基本统计分析之t检验

发表: 2019-01-09 浏览: 1563

数据分析 R语言

作者：曹毛毛 R语言中文社区专栏作者北京协和医学院在读硕士

前言

在本章开始之前请思考几个问题，年龄、体重、性别在统计学中属于同一种数据形式吗？如果不是则分别是哪种？搞清楚数据类型是数据分析的第一步，当然在此之前你已经有了一份已经清洗干净的数据库。

在统计领域内数据可简单以下几类：

计量资料
计数资料
等级资料

根据研究目的还可以将资料进行计量——等级——计数资料转化。不过要记住不能相互转化，只能由高级像低级转化，其实很好理解，因为计数资料信息量较少，转化能力自然较弱。

以人群身高为例，按照某个标准规定160以下为较矮，高于160则为高，这样可以将身高计量资料转化为计数资料高矮。

下面简单的回答一下章节开头的小问题：

年龄和体重如29岁，80kg是可以由一些测量工具准确得到的值，因此为计量资料。

性别不可以用工具测量其值，它是一种类别，反映事物的某种属性，因此是分类资料也可称为计数资料。

在调查公司员工对经理的满意程度，分为非常满意、满意、一般、不满意四类，这样收集到的数据则是反应某种等级，称为等级资料。相信你也不敢说不满意~

了解基本数据类型后，赶紧开启你的统计之旅吧~本章仅涉及计量资料统计方法应用：

t检验用于判断两个总体均值是否具有差异，来源于正态分布

t检验的应用条件是：样本含量较小且满足正态、方差齐

单样本t检验：用于样本均数和已知总体均数之间的比较

例1. 研究表明，汉族足月正常生产男婴双顶径均数为9.3cm，某医生记录某山区12名汉族足月正常生产男婴双顶径资料如下：9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27（数据来源于医学统计学第二版，刘桂芬主编）

试问该山区男婴的双顶径是否大于一般男婴双顶径？

解决的问题：该山区男婴的双顶径是否大于一般男婴双顶径，换句话说即判断该山区男孩是否和已知总体是同一总体。

基本概念

先来理解一下基本概念

12名男婴是该山区的一个有代表性的小样本，一个山区不可能只有12名足月正常生产的男婴，当然如果对该山区的所有男婴进行测量，任务量未免过重。实际应用中不可能把总体全部均进行检测。这种从总体（该山区所有足月正常生产男婴）中抽取一部分（12名足月正常生产男婴）具有代表性的集合叫做样本，而这个搜集样本的过程叫做抽样。理解了样本与总体的区别，再来体会一下假设检验的概念。依托于小概率反证法的思想，对总体的统计学特征做出两种对立的假设以此题为例，假设：该山区男婴和已知总体是同一个总体，据此计算出样本的某个统计量的概率，若这个概率特别小，小到这件事情不可能发生，则拒绝原假设。若这个概率较大，说明发生的可能性还是很大的，则没有足够把握拒绝原假设，该山区男孩和已知总体可能就是来自于同一个总体。

无效假设（nullhypothesis）H0：该山区男婴双顶径和一般男婴双顶径没有区别

备择假设（alternativehypothesis）H1：该山区男婴双顶径大于一般男婴双顶径

均数，标准差，t值

均数反应一组符合正态分布或者近似正态分布资料的平均水平

标准差：反应一组符合正态分布或者近似正态分布资料的离散趋势，即变异程度

例如体重，一般人群体重在50kg左右，而有的人过重达到70kg，而有的人过轻40kg，距离平均值越远，离散值就越大，标准差越大

用R实现以上手工过程~~毕竟足够大的样本量会让你计算到怀疑人生

代码实现

T检验的第一种变身：

#构建数据集合mydata<-c(9.95,9.33,9.49,9.00,10.09,9.15,9.52,9.33,9.16,9.37,9.11,9.27)#判断样本是否满足正态shapiro.test(mydata)

结果得：

#单样本t检验t.test(mydata, alternative = "greater", mu = 9.3

结果得：

结果显示t=1.0257p=0.1635>0.05 说明在此假设的基础上还是很有可能发生此事情，因此不能拒绝原假设，还不能认为该山区正常产男婴双顶径大于一般男孩双顶径

T检验的第二种变身：配对t检验

适用于配对资料的计量资料

主要有三种应用情形：

同质受试对象分别接受两种不同的处理
同一受试对象分别接受两种不同的处理
同一受试对象自身前后比对

着重理解配对的含义同一个受试者接受两种不同的处理。无论哪种配对情形，均有共同点，就像一根树枝在同一点分叉，再比较两个小岔之间的区别，实在想像不出分叉的树枝可以低头看看自己分叉的发尾~

判断简便法和常规法测定胆碱酯酶活性有无统计意义，对8人同时用两种方法进行测定，所得结果如下表所示，试分析简便法测量胆碱酯酶活性是否优于常规法。

#构造数据集合c1<-c(3.28,2.60,3.32,2.72,2.38,3.64,2.98,4.40)c2<-c(2.36,2.40,2.40,2.52,3.04,2.64,2.56,2.40)t.test(c1,c2,alternative = "greater",paired=T)

结果得：

第三种变形：完全随机两样本比较t检验

推论两样本均数所代表的两总体均数是否相等，其设计原理是将受试对象完全随机分为两组，分别接受两种不同的处理

分为两种情况：

1.方差齐

试比较南北身高是否有差异

c1<-c(152,176,159,165,166,155,178,160,166,150)c2<-c(165,158,166,168,160,180,169,180,174,170)data<-c(c1,c2)a <-factor(c(rep(1,10),rep(2,10)))bartlett.test(data~a)

结果得:

t.test(high,low,paired = FALSE)

结果得：

2.方差不齐

（这个情况大家可以自己举例，用代码探索如何实现，欢迎你将自己的成果分享在评论区）

总结：

相信到这里，t检验你已经可以应用自如啦，其实三种t检验的变形之间是互通的，均是以样本的均数和总体的均数做比较，总体均数可以是一个已知的某个值也可以是0。

公众号后台回复关键字即可学习

回复爬虫         爬虫三大案例实战
回复 Python 1小时破冰入门
回复数据挖掘   R语言入门及数据挖掘
回复人工智能   三个月入门人工智能
回复数据分析师   数据分析师成长之路
回复机器学习      机器学习的商业应用
回复数据科学      数据科学实战
回复常用算法      常用数据挖掘算法

0 个评论

要回复文章请先登录或注册