作者:曹毛毛 R语言中文社区专栏作者 北京协和医学院在读硕士
前言
在本章开始之前请思考几个问题,年龄、体重、性别在统计学中属于同一种数据形式吗?如果不是则分别是哪种?搞清楚数据类型是数据分析的第一步,当然在此之前你已经有了一份已经清洗干净的数据库。
在统计领域内数据可简单以下几类:
根据研究目的还可以将资料进行计量——等级——计数资料转化。不过要记住不能相互转化,只能由高级像低级转化,其实很好理解,因为计数资料信息量较少,转化能力自然较弱。
以人群身高为例,按照某个标准规定160以下为较矮,高于160则为高,这样可以将身高计量资料转化为计数资料高矮。
下面简单的回答一下章节开头的小问题:
年龄和体重如29岁,80kg是可以由一些测量工具准确得到的值,因此为计量资料。
性别不可以用工具测量其值,它是一种类别,反映事物的某种属性,因此是分类资料也可称为计数资料。
在调查公司员工对经理的满意程度,分为非常满意、满意、一般、不满意四类,这样收集到的数据则是反应某种等级,称为等级资料。相信你也不敢说不满意~
了解基本数据类型后,赶紧开启你的统计之旅吧~本章仅涉及计量资料统计方法应用:
t检验用于判断两个总体均值是否具有差异,来源于正态分布
t检验的应用条件是:样本含量较小且满足正态、方差齐
单样本t检验:用于样本均数和已知总体均数之间的比较
例1. 研究表明,汉族足月正常生产男婴双顶径均数为9.3cm,某医生记录某山区12名汉族足月正常生产男婴双顶径资料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27(数据来源于医学统计学第二版,刘桂芬主编)
试问该山区男婴的双顶径是否大于一般男婴双顶径?
解决的问题:该山区男婴的双顶径是否大于一般男婴双顶径,换句话说即判断该山区男孩是否和已知总体是同一总体。
基本概念
先来理解一下基本概念
12名男婴是该山区的一个有代表性的小样本,一个山区不可能只有12名足月正常生产的男婴,当然如果对该山区的所有男婴进行测量,任务量未免过重。实际应用中不可能把总体全部均进行检测。这种从总体(该山区所有足月正常生产男婴)中抽取一部分(12名足月正常生产男婴)具有代表性的集合叫做样本,而这个搜集样本的过程叫做抽样。理解了样本与总体的区别,再来体会一下假设检验的概念。依托于小概率反证法的思想,对总体的统计学特征做出两种对立的假设以此题为例,假设:该山区男婴和已知总体是同一个总体,据此计算出样本的某个统计量的概率,若这个概率特别小,小到这件事情不可能发生,则拒绝原假设。若这个概率较大,说明发生的可能性还是很大的,则没有足够把握拒绝原假设,该山区男孩和已知总体可能就是来自于同一个总体。
无效假设(nullhypothesis)H0:该山区男婴双顶径和一般男婴双顶径没有区别
备择假设(alternativehypothesis)H1:该山区男婴双顶径大于一般男婴双顶径
均数,标准差,t值
均数反应一组符合正态分布或者近似正态分布资料的平均水平
标准差:反应一组符合正态分布或者近似正态分布资料的离散趋势,即变异程度
例如体重,一般人群体重在50kg左右,而有的人过重达到70kg,而有的人过轻40kg,距离平均值越远,离散值就越大,标准差越大
用R实现以上手工过程~~毕竟足够大的样本量会让你计算到怀疑人生
代码实现
T检验的第一种变身:
#构建数据集合mydata<-c(9.95,9.33,9.49,9.00,10.09,9.15,9.52,9.33,9.16,9.37,9.11,9.27)#判断样本是否满足正态shapiro.test(mydata)
结果得:
#单样本t检验t.test(mydata, alternative = "greater", mu = 9.3
结果得:
结果显示t=1.0257p=0.1635>0.05 说明在此假设的基础上还是很有可能发生此事情,因此不能拒绝原假设,还不能认为该山区正常产男婴双顶径大于一般男孩双顶径
T检验的第二种变身:配对t检验
适用于配对资料的计量资料
主要有三种应用情形:
同质受试对象分别接受两种不同的处理
同一受试对象分别接受两种不同的处理
同一受试对象自身前后比对
着重理解配对的含义同一个受试者接受两种不同的处理。无论哪种配对情形,均有共同点,就像一根树枝在同一点分叉,再比较两个小岔之间的区别,实在想像不出分叉的树枝可以低头看看自己分叉的发尾~
判断简便法和常规法测定胆碱酯酶活性有无统计意义,对8人同时用两种方法进行测定,所得结果如下表所示,试分析简便法测量胆碱酯酶活性是否优于常规法。
#构造数据集合c1<-c(3.28,2.60,3.32,2.72,2.38,3.64,2.98,4.40)c2<-c(2.36,2.40,2.40,2.52,3.04,2.64,2.56,2.40)t.test(c1,c2,alternative = "greater",paired=T)
结果得:
第三种变形:完全随机两样本比较t检验
推论两样本均数所代表的两总体均数是否相等,其设计原理是将受试对象完全随机分为两组,分别接受两种不同的处理
分为两种情况:
1.方差齐
试比较南北身高是否有差异
c1<-c(152,176,159,165,166,155,178,160,166,150)c2<-c(165,158,166,168,160,180,169,180,174,170)data<-c(c1,c2)a <-factor(c(rep(1,10),rep(2,10)))bartlett.test(data~a)
结果得:
t.test(high,low,paired = FALSE)
结果得:
2.方差不齐
(这个情况大家可以自己举例,用代码探索如何实现,欢迎你将自己的成果分享在评论区)
总结:
相信到这里,t检验你已经可以应用自如啦,其实三种t检验的变形之间是互通的,均是以样本的均数和总体的均数做比较,总体均数可以是一个已知的某个值也可以是0。
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门
回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法 常用数据挖掘算法