SPSS分析技术：逻辑回归模型效果判断（包括ROC曲线）；综合考虑多种逻辑回归模型的拟合效果指标！

发表: 2017-06-13 浏览: 7014

数据分析 SPSS

基础准备

前面我们介绍了二元逻辑回归的基础理论、哑变量设置、自变量筛选以及分析中涉及的三种检验方法（似然比检验、比分检验和Wald检验）：

今天我们介绍二元逻辑回归的最后一部分内容，如何对分析结果进行解读？得到的回归模型是否还有改进余地？如何改进？这篇文章，我们继续沿用上面这些文章的案例数据的分析结果来说明。

逻辑回归模型的判断指标

无论是线性回归模型、曲线回归模型还是下面介绍的逻辑回归模型，所有的回归模型在拟合出来之后，都需要一些指标来评定它们的效果。回归模型的作用其实可以简单归结为两个：检验过去和预测未来，预测未来这个需要时间，因此回归模型的判断指标通常是围绕检验过去展开的。

因为二元逻辑回归模型的参数拟合采用的是极大似然法，所以模型的判定指标与最小二乘法的完全不同。逻辑回归模型的判定指标主要有三种：对数似然值与伪决定系数、预测正确率和ROC曲线。

对数似然值和伪决定系数

逻辑回归模型是通过极大似然法拟合得到的，模型的极大似然值实际上是一个概率，取值在0到1之间。当模型的极大似然值取值等于1，代表模型达到完美，此时其对数值等于0；模型的极大似然值越小，其对数值也就负的越多；

因此SPSS的模型描述结果中，以负2倍的对数似然值（-2 Log likelihood）来表示模型的拟合效果，其值越小，越接近于0，说明模型拟合效果越好。对于同一个数据的不同逻辑回归模型，如果所有自变量都不存在缺失值，那么这个指标可以用于模型之间拟合效果的比较。此外，从对数似然值出发还可以计算出两个伪决定系数，它们的作用与线性回归模型的决定系数相同，取值区间都是0到1：

因为逻辑回归模型的因变量是概率，采用的拟合方法是极大似然法，所以一般情况下，拟合的模型效果是完全不能和线性回归模型相提并论的，因此两个伪决定系数的值通常很小，参考意义不是非常大。下图是上面基础准备文章中案例数据的逻辑回归分析结果，可以发现，迭代计算产生了两个模型，第二个模型的负2对数似然值稍稍小于第一个模型，而且它们的两个伪决定系数的值也相差不大。

逻辑回归模型预测表格

这个表格是利用回归模型对样本数据进行检验判断的结果。会列出因变量每种类别有多少被模型预测准确，又有多少被误判，这个指标是非常直观的模型判断指标。上面提高的案例中两个模型的预测表格如下：

从预测结果来看，两个模型的综合预测准确率相差不大，第一个模型的准确率甚至会比第二个模型更好，虽然在上面的-2 log likelihood中，第二个模型稍稍由于第一个模型。由此可见，模型优劣指标需要综合考虑。

ROC曲线

通过预测正确率对模型拟合效果进行判断还是存在一定缺陷。因此模型判定结果是正常还是低出生体重的标准是模型计算得到的估计概率，SPSS软件模型概率大于0.5的结果为阳性，在我们这个案例中阳性结果就是低出生体重。显而易见，划分阳性的概率临界值被设定为0.5和0.9的含义是完全不同的，但最终的预测表格结果仅显示划定完类别的结果，损失大量的信息。能否直接用模型计算得到的预测概率进行结果判断呢？ROC曲线能够达到做到。我们先回顾上面例题中的数据：

ROC曲线中文名称叫受试者工作特征曲线（Receiver Operating Characteristic Curve）。如下图所示，ROC曲线的纵轴为真阳性概率（灵敏度），横轴为假阳性概率（1-特异性）。最优模型的ROC曲线应该是红色那条，最优的点应该是左上角，真阳性概率100%，假阳性概率0%。无效模型的ROC曲线是绿色线，也就是真阳性概率和假阳性概率都只有50%，是随机分布的。实际模型的ROC曲线会在红色和绿色线之间。上文案例的模型ROC曲线是蓝色线。实际模型的ROC曲线越接近红色线，模型效果越好。

ROC曲线除了可以用来判断模型效果，还能够用来选择合适的分类临界概率。在上图的案例中，我们设置的分类概率为0.5，也就是当模型计算得到的孕妇生出低体重婴儿的概率（阳性概率）大于0.5时，将会把该名孕妇划入低出生体重类别中。模型最终的分类预测结果：只有30.5%的生出低体重婴儿的孕妇被成功预测；于此同时，生出正常体重婴儿的孕妇中有8.5%被错误判断会生出低体重婴儿。

观察ROC曲线可以发现，提高真阳性概率的代价是假阳性的概率也会增大，因此分析者需要根据自己的实际预测情况，在增加真阳性概率或减少假阳性概率两个果实中有倾向性的保证一个，然后根据ROC曲线选择有利于预测的分类概率。

0 个评论

要回复文章请先登录或注册