统计挖掘那些事——婀娜多姿的非线性回归(理论+案例)

浏览: 2971

幻灯片1.jpg

幻灯片2.jpg

在现实环境中,我们需要研究的问题有满足线性回归形式的,但是也有很大的一部分并不满足线性关系。例如,我们能够利用自变量x构建回归方程,那么能否利用x的衍生物,x^2构建回归方程?又如,我们能够因变量y构建线性回归方程,那我们能否对y的衍生物,ln(y),构建回归方程?答案显然都是肯定的。

幻灯片3.jpg

事实上,以上婀娜多姿的身形,啊不,婀娜多姿的曲线,是可以针对当中的变量进行转化,使之转化为线性形式的方程,那么我们就可以重新使用线性回归的形式进行估计。

例如针对于图形(1)y=ln(ax+b),我们可以针对y的衍生物进行回归,令y’=e^y,于是又可以重新得到线性表达形式:y’=ax+b;又例如,针对于图(4)y=ax^2+bx+c的形式,我们则可以利用x的衍生物进行回归,令x1=x,x2=x^2,于是就可以重新得到线性表达形式:y=ax1+bx2+c,一般地,我们也称该式为多项式回归(值得注意的是,该式原本只有一个自变量x,经过变形后,就变为两个自变量)

有兴趣的读者可以再进行尝试针对y=a/x+b,以及y=1/(1+e(-ax+b))转化为线性回归形式。特别地,针对图图(3),我们称之为logit函数,我们将在下一期为大家详细探讨。

既然能够针对以上的非线性形式进行回归,接下来问题就得到了简化,让我们以一个例子进行探讨:

幻灯片4.jpg

该数据样例是我国1995年-2014年国内生产总值相关数据,具体字段见下图

其中标量字段代表时间顺序,我们以1995年作为基准开始,我们考虑拟合关于国内生产总值与时间x的趋势曲线

链接: http://pan.baidu.com/s/1slpLY0X

密码: 5nsk

幻灯片5.jpg

实际上,我们针对GDP数据进行散点图观察的话,似乎并不单纯是直线形式,考虑到散点图的形状,不妨考虑二次项的形式,即假定回归方程形式为:y=ax^2+bx+c;

(注:此处只做案例拟合使用,并不意味着实际GDP增长形式为时间的二次项增长形式)

幻灯片6.jpg

模型流如下所示:

幻灯片7.jpg

利用Excel阶段读取数据后,接入过滤节点,并把变量“时间x”重命名为x1

幻灯片8.jpg

之后,利用导出节点,利用x1求平方(公式:’x1** 2’),得到新的字段,并将其命名为x2;

幻灯片9.jpg

类型节点中:

(1)把年份设为记录表示,表示该属性只作为标识用而不参与建模;

(2)把国内生产总值设为目标;

(3)剩下的x1,x2设为输入;

幻灯片10.jpg

上述介绍的内容在Modeler中主要都在回归节点实现,因此我们在下方建模选项板中,选中回归节点,并把回归节点添加到流。

在回归节点中,模型选项卡下,我们选择步进法建立回归模型

幻灯片11.jpg

运行模型后,点开模型块查看模型结果。

首先看到的是变量重要性,经过分析,模型把二次项以及一次项都纳入模型,并且认为二次项相对更加重要;

幻灯片12.jpg

在模型块中的高级选项卡下,可以进一步查看模型结果。

可以看到经过两步构建了最终模型。

查看拟合优度检验,可以看到R方值为0.998,调整R方值为0.997,说明我们所选择的二次项形式能够很好地对因变量进行解释。

幻灯片13.jpg

查看F检验结果,可以看到最模型果的F统计量为2433.809,对应P值<0.05,因此,我们认为回归方程整体显著,方程的自变量整体上对国内生产总值有显著的线性影响

幻灯片14.jpg

接下来查看系数检验的结果,从表中我们可以写出对应的回归方程式:

国内生产总值=-12802.539x1+2055.851x2+91824.824.进一步地,我们也可以看到所有系数的t检验结果都是显著的。

特别地,只针对一次项做进行回归分析,得到回归方程为:国内生产总值=-30370.03x1-66475.7,虽然通过对应的显著性检验,但对应的R方只有0.889.因此可以看出,二项式的拟合效果要明显优于一次项的线性回归,证明我们的选择是正确的。

幻灯片15.jpg

最后,不妨添加散点图观察拟合效果。选择“图形”选项卡的“多重散点图”节点添加进流:

在“X字段”中选择“年份”,在“Y字段”中选择“国内生产总值(亿元)”以及“$E-国内生产总值(亿元)”,确认后,选择‘运行’。注:在Modeler中回归分析的预测结果,默认在预测字段名前加上前缀‘$E-’

幻灯片16.jpg

最后,我们通过散点图,也确认发现,借助于二次项回归,我们的拟合确实非常符合现实增长情况。

幻灯片17.jpg

幻灯片18.jpg


近期热门文章精选:

1.干货教程|可能是最方便好用的文字云工具

2.(理论+案例)如何通俗地理解极大似然估计?

3.从前,有一位统计学家,他在趟过一条平均水位不足1米深的河流时......

4.统计挖掘那些事-9个相关R先生的故事(理论+动手案例)

5.重磅|李飞飞担任谷歌云机器学习最新负责人(附最全报道)

二维码4缩小.jpg

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 1
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

图文并茂,转了
哈哈,多谢~

要回复文章请先登录注册