SPSS分析技术:加权最小二乘法;各种衣物的拉伸缩水变形是由什么因素决定的?

浏览: 2580

基础准备

前面介绍了线性回顾模型的几种类型,介绍了什么是线性回归模型、如何处理极端值和共线性问题、如何将分类变量引入到线性回归模型等内容:

回顾线性回归模型的公式:


线性回归模型假设因变量的变异(随机误差)不随预测值以及其它自变量的变化而增大或减小,也就是说随机误差是服从均值为零的正态分布的。非常可惜,世界并不总是如此美好,在有些研究问题中,因变量的变异会明显随着某些指标的改变而改变,有的因变量变异随自身数值变化而变化,有的因变量变异随着其它自变量值改变而改变。例如在金融股票市场,股票价格在高价位置时波动明显比低价位置来得大,这是因为高价股价有足够的波动空间,而且炒作的股民较多,因此股价的波动于股价自身所处的价格区间有关;又比如通过抽样调查分析某个地区的某种疾病的发生率,抽取的样本量越大,所得到的发生率就会越稳定,即变异度越低,在这里因变量的变异与样本量有关。以上这些情况,如果依旧采用普通的最小二乘法(Ordinary Least Square)分析,结果会受到变异较大的数据区间影响,从而发生拟合偏差。加权最小二乘法能够有效的解决此类问题,它能根据因变量变异大小对相应数据给予不同的权重,在拟合时对变异较小(即测量更精确)的测量值赋予较大的权重,则能够提高模型的精度,达到更好的预测效果。

加权最小二乘法

加权最小二乘法除了能应用于以上这类数据情况以外,数据分析者根据实际数据情况有选择的对相应数据进行加权也是常见的用法。例如,分析化学的标准曲线的绘制,由于待测定溶液的浓度范围往往较宽,低浓度区域的相对误差要比高浓度区域的高得多,例如浓度在100ng/ml时,5ng/ml的误差仅使其相对误差达到5%;而当浓度为1ng/ml时,相对误差则达到500%,若以普通的最小二乘法加以拟合,必然会导致标准曲线在高浓度区域内精度较高,而低浓度区域准确性明显下降,为了保证曲线精度,必须要拟合时对低浓度数据给予较高的权重。

为了解决上述数据分析的问题,SPSS专门提供了加权最小二乘法,它可根据用户提供的权重变量的大小为不同的数据不同权重。需要指出的是,加权最小二乘法是一种带有倾向性的数据拟合方法,如果因变量方差实际并无波动,或选择了错误的变量用于权重,那么它的拟合结果不如普通最小二乘法准确。


案例分析

纺织纤维在加工和使用过程中不可避免的会受到各种外力的拉伸作用而产生变形甚至破坏,因此纤维的拉伸性能与其加工性能和使用性能有密切的关系。例如,生活中经常出现衣物在洗涤晾晒后变形的情况,特别是一些含棉量高的毛衣等服装。人们为了防止衣物变形,可以将衣物装入网袋后再用洗衣机洗涤。


纺织纤维的拉伸性能测试是纤维品质检验的重要内容,其中单纤维强力又是纤维拉伸性能的重要指标之一,但是单纤维强力的测定过程比较麻烦。某棉纺厂为减轻试验工作量,想利用较易测定的每毫克纤维中包含的纤维根数(X)来估计测定工作量较大的原棉单纤维强力(Y)。为此,对不同产地的原棉进行了大量的实际测定工作,以寻求Y关于X的经验公式。该工厂共采集了171份样本进行测定,为了减少误差,对不同的原棉进行分组,每组进行多次测定,取其平均值作为观察值,数据整理如下:


(例题数据文件已经上传到QQ群,群号请见文章底部温馨提示)


分析思路

本案例中,棉纺厂采集了171份样本并测定每份样本的纤维根数,然后再对每份样本的单纤维强力进行测量,然后计算单纤维强力的平均值。由于每对测量数据都是将数份样品混合后测得结果,显然混合的样品数越多,测得的结果应当越稳定,即变异越小。如果直接拟合回归方程,则是将所有测量值均一视同仁,1分样品的测量结果和15份样品混合后的测量结果等价对待,明显不合理。因此考虑在分析中将样品数n作为权重变量,n越大的测量值在计算中给予的权重越高,对方程的影响越大,即按照加权最小二乘法来拟合回归方程。下面我们将对比加权与未加权线性回归分析的结果,进一步介绍它们的联系与区别。

分析步骤

选择菜单【分析】-【回归】-【线性】,如果不考虑将样本数量作为权重代入线性模型中,那么直接将单纤维强力选为因变量,将纤维根数选为自变量。如果考虑样本数量对模型的影响,那么就将样本数量选为WLS权重。


结果解释

1、简单线性回归模型与加权线性回归模型质量对比;



对比两个表的模型摘要,决定系数则由原先的0.975降低为0.965。由于决定系数等是按照普通最小二乘法进行计算,因此加权后的方程决定系数必然会小于普通最小二乘法,即此时不能使用决定系数等来判断模型的优劣。同时从两个回归模型的方差检验结果显示,两个模型都是有统计学意义的(p小于0.01)。

2、回归系数对比



从回归系数来看,两者的线性回归系数和截距同样存在很大的区别,那么到低是简单线性回归模型的效果更好还是加权最小回归模型的效果更好呢?这个可以通过比较两者的回归曲线加以比较。


3、回归曲线对比



从上图可知,加权方法的直线更靠近中部那些混合样品数n较大的测量值,而对两端n较小的测量值则比简单线性回归的拟合直线更远一些,显然这些测量值在计算时对方程影响程度是不同的。根据题意和回归直线,加权线性回归模型更为合理一些。


推荐 1
本文由 老谢 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册