统计挖掘那些事那些情(2)-回归分析

浏览: 2890

幻灯片1.JPG


前文:统计挖掘的一些事一些情(一)

实际上,无论是日常的统计学习还是挖掘学习中,回归分析都可以算是大家最早接触,也是整个体系当中相当重要的一个内容了,所以咱们这期就从回归分析说起吧。

一般来说,借助回归分析,我们希望可以量化描述预测变量与响应变量的关系,同时帮助我们进行预测。其他的例子还有:广告的投入与市场销售的关系,受教育程度与收入的关系等。而在整个回归体系当中,最基础的莫过于普通最小二乘回归(Ordinary Least Square,简称OLS)

实际上,对于回归分析来说,我们需要有两件事情需要确认:(1)参数估计;(2)假设检验。


1:参数估计



实际上,上述的回归分析损失函数是一个凸函数;在机器学习中,我们一般会构造关于所求变量的凸函数,这更容易帮助我们取得最优解

从上面的式子中,我们可以得知,在其他因素固定的情况下,身高每增加1cm,体重就平均增加2.085kg


2:假设检验

(1)t检验



(2)相关系数r

实际上,以我们考试为例。参数估计,有点像我们回答问题的过程;而假设检验,则是像检验我们刚刚回答是否达到标准的过程;


接下来,我们简单谈谈利用SPSS Modeler的实现过程

直接回复公众号“回归分析”,将给你提供本次回归分析所使用的数据和建模文件的网盘链接


从上述分析结果中,我们可以看到系数检验表(Coefficients),无论是常数项还是身高的系数项对应的P值都是小于0.05,认为系数显著,可以写出回归方程:体重=2.085 ∗ 身高 − 290.4。另外我们通过ModelSummary可以看到,该回归方程的相关系数r=0.997,说明体重与身高有非常强的线性相关。至于中间的ANOVA表格,则是F检验的结果,我们留待下节介绍。


近期热门文章精选:

1.SPSS与R的集成(1)(附详细教程及完整代码)

2.数据人也要懂的“装逼利器”,数据驱动下的“增长黑客”

3.菜鸟数据岛采访:数据分析工作的一些思考

4.一个蛇精病的R语言包,每天给你一个花式自动赞~

5.SPSS Modeler 18.0新功能权威解读(文末试用指南)

作者简介:浩彬老撕

好玩的IBM数据工程师,

立志做数据科学界的段子手,

致力知识分享,每月至少一次送书活动

推荐 4
本文由 浩彬老撕 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

很不错

要回复文章请先登录注册