基础准备
在实践中,有许多情况要对总体比率进行估计。例如,生产制造业的品控部门需要通过样本合格率估计整批产品的总体合格率;在大选之前,民意调查机构采用抽样调查的方式采集选民样本,通过选民样本的支持率估计全国选民的支持率;以上两个例子都属于总体比率的估计。
利用样本对总体进行估计有两种形式:点估计和区间估计。总体比率的点估计就是样本比率;总体比率的区间估计则是利用样本数据计算总体比率在某个置信度下的置信区间。
总体比率的区间估计
我们知道,在某个事件的发生概率已知的情况下,继续进行N次实验,其中有n次事件发生的概率服从二项分布。二项分布还有一个性质,当抽取的样本为大样本,使得np和nq的值都大于5,此时,关于事件发生概率p的二项分布近似为正态分布。总体比率其实就是某个事件发生的概率,它的概率分布服从二项分布。当总体比率的二项分布近似为正态分布时,可以进行总体比率的区间估计,推导过程如下:
在对总体成数估计时,总体单位数是否有限也会影响估计的精度。如果从一个有限总体中抽样,则区间估计公式需要用修正因子进行修正,这时公式可以改为:
范例分析
随着移动互联网的发展,人们在购物时越来越多的使用手机移动支付。某移动支付公司在向西部某县推广他们公司的手机支付方式前,对该县的手机支付比例进行调查估计。调查人员选取该县最大的商场作为调查地点,随机抽取200名进入该商场并购物的顾客,发现使用手机支付的顾客有6人。在90%的置信度下,求该县习惯使用手机支付的居民比例的置信区间。
案例分析
本案例涉及的是总体比例的区间估计。依据案例提供的信息,样本量n=200;样本中使用手机支付的顾客比例为p=6/200=0.03;总体比率未知,在大样本下,可用样本比率代替总体比率;同时有np=200*0.03=6>5,n(1-p)=200*(1-0.03)=194>5,总体比率的二项分布近似于正态分布,可以用标准正态分布进行总体比率的区间估计。
计算过程
已知置信度为90%,所以显著性水平等于0.1,查标准正态分布表,Z0.1/2=1.64。将以上信息带入总体比率的区间估计公式,得到该县习惯使用手机支付的居民比例的置信区间为:
从计算结果可知,有90%的可信度,该县习惯使用手机支付的居民比例在1.02%到4.98%之间。由此可见,该县的手机支付普及率还很低,该支付公司应该迅速在该县开展业务,强占市场。