基于R语言进行Box-Cox变换

浏览: 5220

作者:吴健 中国科学院大学 R语言、统计学爱好者,尤其擅长R语言和Arcgis在生态领域的应用分享

个人公众号:统计与编程语言 


Q:为什么要进行Box-Cox转换?A:

Box-Cox是一种广义幂变换,统计建模中常用的变换,用于连续响应变量不满足正态时的情况。Box-Cox的一个显著的有点是通过求变参数λ来确定变换形式,而这个过程完全基于数据本身而无需任何先导信息,这比凭经验的对数,平方根变换更客观。

Box-Cox变换公式如下:

y必须取正值,y值为负,首先y+a,对不同的λ所做的变换不同。λ=0对数变换;λ=-1倒数变换;λ=0.5平方根变换。


下面本文将介绍基于R语言进行Box-Cox转换:

STEP1:加载程序包并读取数据

library(readxl)#此包可以读取电子表格数据
library(moments)#此包可进行偏度锋度计算
library(MASS)#基于此包进行box-cox转换
data<-read_excel(file.choose())#读取特定文件夹中的数据
STEP2:构建线性模型并检查残差是否满足正态分布
r1<-lm(y~x1+x2+x3+x4, data=data)#构建多元线性回归模型
hist(r1$residuals)#绘制残差频率分布图
skewness(r1$residuals)#计算偏度              结果1.89

通过残差频率分布图和偏度值可以发现残差并不满足正态分布。

STEP3:进行Box-Cox转换,确定λ值

b <- boxcox(y ~ x1 + x2 + x3 + x4, data=data)
b
lambda <- b$x
lik <- b$y
bc <- cbind(lambda, lik)
bc[order(-lik),]#结果λ=-0.3时lik值最大,因此λ取值-0.3

STEP4:依据步骤3确定的λ值进行转换,并检查残差的正态性

r2 <- lm(1/y^(1/3) ~ x1 + x2 + x3 + x4, data=data)
hist(r2$residuals)
skewness(r2$residuals)#结果-0.89

通过上述转换,可以看出残差分布已经近似正态了。

文中数据

链接:

https://pan.baidu.com/s/123pM4Z3rXeGKI1DSOtgTPQ 
提取码:fj8h 
复制这段内容后打开百度网盘手机App,操作更方便哦

往期回顾:

R语言绘制流程图(一)

R语言绘制流程图(二)

R语言绘制双坐标轴的方法初探

大家都在看

2017年R语言发展报告(国内)

精心整理 | R语言中文社区历史文章合集(作者篇)

精心整理 | R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战  
回复 Python       1小时破冰入门

回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册