行列表卡方检验;剥丝抽茧复杂局面是数据分析师的重要技能

浏览: 2043

基础准备

前面草堂君推送了卡方检验的理论基础和四格表卡方检验的内容,从这两篇文章,大家应该可以发现,卡方检验的原理虽然很简单,但是其背后需要注意的点有很多。可以点击下方的文字链接进行内容回顾:

前面的文章介绍过,卡方检验适用于分类变量的频数分析。对于包含两个水平的两分类变量(例如男女),因为不涉及类别递增或递减信息,所以定类型和定序型的变量的卡方检验过程基本类似,这也是草堂君将2*2四格表的内容单独拿出来讲的原因。

对于多分类变量的卡方检验,区分到底是定类型分类变量还是定序型分类变量是非常必要的,因为定序型分类变量(例如:大一、大二、大三和大四)包含了水平间的递增或递减信息,如果依旧按照传统的卡方检验进行,这部分递进信息就会丧失,对于分析者来说是非常可惜的。因此,多分类变量的卡方检验,需要区分的情况是更多更复杂的。

卡方检验根据涉及变量的不同,可以分为单个分类变量的拟合优度检验和两个分类变量的卡方检验。拟合优度检验主要用于分析某个分类变量的频数分布是否服从某种概率分布形态;两个分类变量的卡方检验,根据分析目的的不同可以分为比率差异检验和构成比差异检验等等。下面介绍的就是两个多分类变量的卡方检验,称为行列表卡方检验,注意与2*2四格表卡方检验区分开来。

行列表卡方检验

当两个分类型变量中的任何一个的水平数多于两个,草堂君在这里都把它们归为行列表卡方检验(R*C行列表卡方检验),因此行列表卡方检验就有以下几种情况:

R*2行列表

行分类变量为多水平,列分类变量为两水平,称为R*2行列表。对于R*2行列表的卡方检验,其目的通常是研究不同组之间的比率问题,例如下面的医学案例:

image.png

在案例中,行变量是三分类的定类变量,列变量是两分类变量,分析的目的是研究不同疗法的有效率是否存在差异。这个分析直接使用卡方检验的基本公式计算卡方值和p值即可。

如果通过卡方检验,p值小于0.05,那么结论就是三种疗法的治疗有效率存在显著性差异,然后再结合三种疗法的有效率,说明哪种疗法最好就行了。以上结论在三组的有效率差异很大的时候是没有问题的,但是如果差异不是那么大,那么这个结论很可能是谬误的。这是因为忽视了“一类错误”,也就是“弃真”错误。

比较严谨的杂志会要求继续进行不同疗法有效率的两两比较,看到底是物理疗法与内服药疗法之间有差异,还是内服药疗法与外用膏药疗法有差异。可以采用的方法有卡方分割法、Scheffe置信区间法和SNK法进行分析。其中卡方分割法用得最多,原理就是将表格分成多个2*2的四格表进行分析,然后再与校正后的显著性α进行比较就可以。具体的校正过程本篇不进行介绍,需要的朋友可以联系草堂君了解(微信号:possitive2)。

2*C行列表

列变量为多水平,行变量为两水平,称为2*C行列表;对于2*C行列表的卡方检验,其目的通常是研究两组之间的构成比差异。例如下面的收入案例:

image.png

该案例随机从不同城市采访路上行人,询问收入情况制成表格。该案例卡方检验的目的研究大城市和中小城市的人群收入结构,因此直接使用卡方检验的基本公式分析即可,如果显著性小于0.05,那么说明两个城市类型的收入人群结构上有显著性差异。

两定类变量的R*C行列表

两个定类型变量,水平数都大于2,那么对它们进行卡方检验的目的往往是两个分类型变量的相关性分析,以及它们之间的相关强度如何。下面,草堂君用个案例来说明。先科普个常识,大家应该都知道血型可以分成O、A、B、AB等类型,其实这只是血型分类最常见的“ABO血型系统”,除此之外,还有现在比较规范的“RH血型系统”,最后就是“MN血型系统”。现在对某地的5801人进行血型检验,结果如下表,看看两种血型系统之间是否有相关性?

image.png

这个案例的分析直接使用卡方检验的基本公式进行计算即可,卡方检验的p值小于0.05,表明两种血型系统之间存在相关性。除了得到两个分类变量是否相关的结果,还能通过计算列联系数C知道两个分类变量之间的相关强度如何,列联系数C的计算公式为:

image.png

该案例的列联系数C等于0.188,比较小,说明虽然两者有相关性,但是相关性不强。

单个定序变量的R*C行列表

如果两个分类变量中,只有一个是存在等级次序关系的定序变量,那么称这种情况为单个定序型变量的R*C卡方检验。这种卡方检验根据定序型变量在分析中的作用不同,又可以分成以下两种情况:

  • 如果定序型变量用作分组变量,那么卡方检验的目的就是分析不同分组之间构成比是否存在显著性差异,此时直接使用卡方检验基本公式即可。例如,下面这个例题,年龄变量是定序变量,用于分组,而疾病类型为定类型变量,是指标变量:

image.png

定序型变量为指标变量,而定类型变量用于分组,那么应该用秩和检验更为合适。例如下面这个案例,不同的药物类型用于分组,而不同的疗效等级用作指标。秩和检验将在卡方检验之后进行介绍。

image.png

两个定序变量的R*C行列表

这个情况的卡方检验,根据研究目的不同,两个定序变量的R*C列联表数据应该采用不同的分析方法。我们用一个具体的案例来说明,下表是一个眼球晶状体与年龄相关性调查的人数统计表:

image.png

该案例的分析目的可以有以下几种:

  • 如果研究的是不同年龄段的眼球晶状体浑浊度是否存在差异,应该采用秩和检验。

  • 如果分析的是年龄与浑浊度之间是否有相关性,那么应该使用皮尔森、肯达尔或斯皮尔曼相关分析,也就是将这些数据作为定距型或定序型数据处理。

  • 如果分析的目的是两个定序型变量间是否存在线性相关趋势,那么应该使用线性趋势检验。这部分内容将在后面推送。

总结一下

本篇文章根据行列表所有数据类型的配对情况,以及不同数据类型配对情况的不同分析目的,详细阐述了每种情况的数据分析方法。从数据分析方法来说,包括卡方检验和秩和检验,而这两种分析方法又会因为分析要求的不同,需要做进一步处理或校正处理。虽然数据情况复杂多样,但是不应该强行记忆,而应该在理解分析方法理论基础的前提下去理解为什么选择特定的分析方法。这也是草堂君一直希望教会大家的数据分析学习方式。


温馨提示:

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

  • 数据分析课程私人定制,一对一辅导,添加微信(possitive2)咨询!

推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册