线下的数据质量肯定比线上要差,对于质量差的数据,有什么经验的处理方法呢?

0
已邀请:
0

天善小编 - 微信直播问题收集 2015-11-22 回答

汪尚:其实数据质量差是普遍现象,我们应该更关心基于现有的数据如何把预测效果做的更好。数据质量的处理一般通过数据探索发现清除数据质量差的记录的规则,而很多时候数据的异常恰恰可以通过调研获取背后的业务原因,进而找到过滤和处理办法。
比如说我们做百货会员分析的时候,遇到这样的情况,有的人退货次数特别异常,也有的消费金额特别异常。比如有个会员,一年内退货金额达到19万多,还有的9个月内退货次数达到135次,我们细一分析,才明白这种情况是伪会员导致的。比如咱们去大多数商场购物没有会员卡也肯定可以打折,为什么呢?因为绝对有人愿意你使用他们的会员卡,这样可以帮他积分,也可以帮你打折、互惠,但是如果一个会员卡这种事情做多了。比如销售员的,那个这个会员卡代表的已经不是一个真正的会员了。所以在研究会员的时候必须剔除,那如果商场指定自己员工的会员卡排除掉这些是不是就可以了?遗憾的是商场并不掌握这个信息,也无法获取这个信息,怎么办?只有根据这种伪会员的使用特征,如一天消费次数达到多少以上,或者是否大量购买同一品牌等。但是这样肯定不能把伪会员去除干净,但是好在关系不大,只要剩下的对分析结果影响不大就好了,也就是挖掘的推断估计。
以上就说的是去伪的问题,其他的数据质量问题也大多如此解决。
C_:如果数据分析结果比如关联分析结果与实际不符,那么该怎么办?
汪尚:那就要想一个问题,为什么不符?其实这种情况出现正常,出现在应用的时候就不正常。模型或者规则获得后,一定要做重新分的模型测试和评估。如果测试结果不理想,就要反推原因,这是咱们深入业务分析的重点。我们的业务能力也正是在这样反复的纠正和反思中得到不断提升的。之所以分析和实际不符,有个很大的原因就是数据会骗人。而且你被骗了,我们很多时候在初始分析的时候,忽略的数据产生的背景,一切数据已经过时了,但是我们没有注意到还是把它放到了分析数据中,结果就干扰了我们的分析结果。
C_:比如说之前做的电器的关联。业务人员会认为空调跟厨卫关联性最大。但数据并不是这样。
汪尚:会员购买金额、购买频次、退货频次、退货金额、购物品牌数、退货品牌数与最近购物时间。但是这并不唯一,也不绝对,在不同的商场里还是有差异的。
内心召唤:伪会员数量应该不会有很多吧?会影响分析结果吗,是否可以不用考虑剔除这些数据呢,只要多数数据是正确的应该就可以吧,我们看的是大体的趋势啊,不知道我这种观点对否?
汪尚:不会很多,但是影响很大
内心召唤:能说说影响是什么吗?
汪尚:因为他们的消费频次和消费金额普遍的大,显得普遍的“重要”。如果你验证出来和业务认识不一样,恭喜你,这就是你的成果。数据挖掘本来就有做数据验证的作用。
狗狗:去伪的时候有可能也会去掉真实的数据,所以这只是一个分析的方法,看的是趋势,而不见得是百分百的准确数据吧。
陈斌:关键还要能解释不一样 不然只会被怀疑呢
汪尚:如果您能再深入一下为什么如之前的认识不符时,恭喜你你又有了更大的成果,帮助业务也帮住自己更懂业务了。

要回复问题请先登录注册