聊聊非参数检验

浏览: 1672

在数据分析中,了解数据是分析者首先需要做的事情,这里的数据指的是总体数据,而非样本数据,因为了解总体才有普遍性和意义。如何了解总体数据呢?推断性数据分析理论能够解决这个问题,用样本数据来推断总体数据。

 

参数(均值、中位数、方差、标准差、峰度和偏度等等)是了解数据的窗口,因为这些参数能够将数据的特征量化。数据的特征可以分成三个维度来描述:集中趋势、离散程度和分布形态,每个维度都有相应的参数来表示它们。推断性统计分析理论的任务就是用样本数据的参数来推断出总体数据的参数。这就是参数方法的分析逻辑。

 

参数方法其实有很多限制,往往假设数据总体服从某些特定分布,例如正态分布,这是因为用样本参数推断总体参数,这个推断过程的桥梁是各种抽样分布,而基本上所有的抽样分布都是基于总体数据服从正态分布这个前提条件得出的。因此,如果数据总体的概率分布情况未知或不服从正态分布,要通过两个样本数据比较它们两个数据总体的差异,参数方法(比较总体参数间差异,例如均值)是缺乏理论假设基础的,分析结果可想而知是不准确的。此时,可以通过非参数检验的方法,比较数据总体间的概率分布差异或秩次差异来说明数据总体之间的差异情况。

非参数方法可以分成两大类:卡方检验和秩次检验。它们适用于不同的数据总体情况,卡方检验用于分类型数据(定类或定序)的频数分析,而秩次检验用于定序数据集合或不服从正态分布的定距数据集合的差异比较。接下来的一段时间,草堂君将会用几篇文章,详细的介绍非参数检验的分析原理和SPSS的分析操作过程。

由此可见,非参数检验其实是无奈之举,往往是在数据类型测度不高(定类或定序),或者数据集合聚集度很低,波动很大,离散得没有规律性(不服从已知概率分布形态)的情况下才会使用。即使得到分析结果,也需要结合具体研究背景,数据情况进行解读。

草堂君首先介绍卡方检验的基础内容:卡方检验的三个主要作用。

卡方检验

卡方检验适用于分类型数据的频数(比率)分析。从功能上来说,可以分为拟合优度(一致性)检验、关联性(独立性)检验和构成比(构成比率)检验。卡方检验的统计量可以表示为:

image.png

拟合优度检验,又可以称为一致性检验。它的目的是判断单个分类变量的k个水平的频数分布是否与理论分布相同和一致。由此可见,拟合优度这个名字所要表达的含义是观察频数拟合期望频数的程度有多好。例如,根据遗传学理论,某两种粉色花杂交后,后代的花朵颜色比例应该为白:粉:红=1:2:1,在进行杂交实验后,获得了100株后代,结果发现花朵的颜色结果为白:粉:红=21:61:18,那么可以用卡方检验来验证遗传学理论是否正确,也就是验证实验结果是否与遗传学理论结果有显著性差异。

image.png

查卡方分布表,显著性0.05,自由度3-1=2的临界值为5.99,;5.02<5.99,所以可以认为期望频数与观测频数之间没有显著性差异,即遗传学理论可以被实验结果验证。

关联性(独立性)检验,又称为独立性检验。它的目的是考察两个分类变量之间是否相关(独立),如果它们之间不相关,那么由两个分类变量组成的列联表,列联表内每个单元格中的频数分布是随机而没有规律的,反之,则是服从一定比率的存在。例如,某大型餐饮连锁店想要考察员工薪资与服务质量之间是否存在相关性,公司随机抽取了100名顾客对服务他们的服务员的服务质量进行打分,打分结果分成三类:服务极佳,服务较好,服务差,然后与这些员工的薪资情况做成下面的列联表:

image.png

括号内的是期望频数,期望频数的计算公式如下,以第一个单元格的期望频数为例说明:

image.png

当显著性定为0.05,自由度为(3-1)*(3-1)=4时,卡方界限值等于9.49,因为18.658>9.49,所以认为期望频数与观测频数之间有显著性差异,也就是说服务质量与薪资高低这两个分类变量之间是存在相关性的。

构成比检验,考察的是多个总体在某个分类变量的各个水平上,它们的频数分布是否有显著性性差异。例如,考察不同年龄层人群对信用卡使用态度的差异,某次问卷调查的数据结果如下图所示:

image.png

括号内的是期望频数,期望频数的计算公式如下,以第一个单元格的期望频数为例说明:

image.png

当显著性定为0.05,自由度为(3-1)*(3-1)=4时,卡方界限值等于9.49,因为18.658>9.49,所以认为期望频数与观测频数之间有显著性差异,也就是说不同年龄层的人群对于信用卡消费的态度构成比是有显著性差异的。

从计算过程可以知道,其实关联性检验和构成比率检验的计算过程是完全相同的,差异在于结果的解释侧重点不同。关联性分析的两个分类变量都为表示指标的变量,因此考察的是两个指标变量是否相关;而构成比率检验的两个分类变量,一个是用于群体分类的分组变量,一个为指标分类变量,因此,结果应该解释为不同群体类别在指标变量上的构成比率是否存在差异。


推荐 0
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册