请教一下怎么处理数据的偏斜问题?比如我要统计用户的活跃度(一段时间内有几天有行为),可有些用户刚加入,这样统计的时候就不准确了,请问这样应该如何处理?

0
已邀请:
0

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-04-13 回答

两种方案:
1.重新确定样本,样本可以选择1周以前的数据,这样就避免了,用户刚加入的情况。
2.可以参考配额抽样,但是配额抽样属于非概率抽样,带有一定的主观性。
 
优先考虑第一种情况。

要回复问题请先登录注册