使用R语言实现数据分段

浏览: 2102

今天跟大家讲讲我工作中用到的数据分段,数据分段一般在什么地方会使用到呢?评分。之前写过一篇实战: RFM模型使用,那篇文章就详细介绍了CRM(客户关系管理)分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段,形成三种得分指标,最后根据得分指标计算出每个用户的总得分,从而可以计算用户的价值高低

本文与之前提到的文章不同之处在于脚本的更改,使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环,而且需要对每一个指标做循环,如果某个数据框的字段非常多,这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作:


#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))

#使用《实战: RFM模型使用》的分段方法,这里分成10段,尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分,即1:10分

M_score <- 0

for(i in 1:10) {

  M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

  #由于范围Money < M_X[i+1]不包含最后一个值,故另外计算

  M_score[Money == M_X[11]] = 10

}

table(M_score)


通过上面的方法,可以将连续型数据分成n段,从案例返回的结果可知,10段中的样本量基本相当,可以视作分段成功。下面再看看自定义函数实现的分段:


#自定义得分函数,x为目标向量,g为所需分段数量

Score_function <- function(x,g = 10){

  require(Hmisc)

  #计算分段的切割点

  cuts <- cut2(x,g = g, onlycuts = TRUE)

  #将所需结果存放在res数据框中

  res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

  #这里返回res数据框中的评分字段

  return(res[,'score'])

}

M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)


同样,分段的结果与《实战: RFM模型使用》脚本的结果一致,这里说一下自定义函数的优势

1)可以灵活的更改分组数量,即g参数

2)不需要循环,速度得到提升

3)可以结合sapply()函数,应用于大型数据框(高维数据),从而避免对每个字段都计算一次for循环

下面创建一个数据框,来验收一下自定义函数的效果:

set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)

#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)

table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)



如果使用《实战: RFM模型使用》的方法,4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环,这样就可以不用单独4次for循环了,问题是这样做会大大降低计算效率,影响速度。

推荐 1
本文由 每天进步一点点2015 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册