第二节是数据分析的思维技巧,主要讲了7种:象限法、多维法、假设法、指数法、二八法、对比法、漏斗法
1.2 数据分析的思维技巧
1.2.1 象限法
下图的RFM模型就是经典的象限法:
象限划分可以按照中位数、平均数,或者是经验。
1.2.2 多维法
多维法即从多个维度进行考虑分析。
利用多维法,我们可以看到有一些表面看上去正确的数据实质上是错误的。
比较上面两个表格,我们可以看到,将商学院和法学院的统计数据合并起来的时候,女生录取率远高于男生;然而,当我们拆解数据看每个学院的男女生录取率时,却发现事实上,无论是商学院还是法学院,男生录取率都要高于女生录取率,这是为什么呢?
事实上,我们可以看到,法学院的录取率要远低于商学院,总录取率仅为9.2%,而商学院总录取率却高达53.3%;而申请商学院的女生人数远超男生人数(申请法学院则是男生多于女生),这就导致了将两学院人数合并再算录取率会出现女生录取率远高于男生录取率的结果。这其实就是著名的”辛普森悖论“(为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论)。
1.2.3 假设法
很多时候,数据分析是没有数据可供明确参考的:例如进入一个新市场,或者开拓某种新产品。这时候就需要用到假设法。例如下面这个案例:
你是自营电商的数据分析师,现在预测商品提价后,收入会不会有变化?该怎么做呢? (这时候我们就可以采用假设法)
- 假设商品提价后,销量会下跌——会下跌多少?
- 首先假设流量不变——流量与渠道营销正相关——商品提价,转化率会降低——确定转化率的波动
- 找出平时的转化率,预估提价后的转化率变化;假设各类型用户对价格的敏感度不同——将用户分为忠诚用户、普通用户、游客等等
- 不同的用户层次数量不同,反应也不同——忠诚用户转化率的变化极低,游客几乎不会转化
1.2.4 指数法
指数法解决的是衡量问题,也就是说制定统一的衡量标准,这个标准也就是指数。
例如NBA比赛数据贡献值: (得分+篮板+助攻+抢断—+封盖)-(出手次数-命中次数)-(罚球次数——罚球命中次数)-(失误次数/球员上场比赛的场次)
简单归纳起来,指数法有三种:线性加权、反比例、log
例如,现在提供了用户忠诚度、用户贡献金额、用户社交推广指数,要来计算用户价值,那么可以怎么做呢?
首先可能会考虑线性加权,即 用户价值=用户忠诚度+用户贡献金额+用户社交推广指数
也可能会考虑三者有轻重之分,例如用户贡献金额>用户忠诚度>用户社交推广指数,可能是:用户价值=用户忠诚度*2+用户贡献金额*4+用户社交推广指数
那问题又来了,这里的用户忠诚度是怎么计算出来的呢?这里就要用到反比例法:
反比例可达到收敛的效果。
至于log法也可以达到数字收敛的效果,反比例法是将数字收敛到0-1,而log法纯粹将数字缩小。
看上表关于文章热度的例子,一般可能会简单以 uv+评论 来计算。
然而,随着时间推移,一篇1年前很火的文章可能放到现在,热度会下降,所以我们也要考虑这个公式:热度=uv+评论+时间热度衰减
而时间热度怎么计算呢?这里我们可以先设定一个初始时间,例如2017/1/1,然后(文章发布时间-初始时间)/10,除以10的目的是将数值收敛一些。
而评论值会比UV值重要,我们可以将评论和UV的比值设为10:1,再由于数值较大,我们可以用log对其收敛,即可得到表中的log(UV+评论*10,2),这里2表示底数,如果想要更加收敛,可以将底数加大。最后我们就可以得到公式:热度=log(UV+评论*10,2)+(文章发布时间-初始时间)/10
1.2.5 二八法
二八法则,正如我们常说的,社会80%的财富在20%的人手上,数据分析也一样,80%的数据产生不了有用的价值,只有剩下20%的数据真正有用。
1.2.6 对比法
数据分析大佬说过:好的数据指标,一定是比例或者比率;好的数据分析,一定会用到对比
因此,我们可以看出对比法的重要性。
例如上面这个案例,我们可以发现,当我们不采用对比法,而是孤立地去看数据的时候,很多数据往往是没有价值的!
对比法可以发现很多数据间的规律,它可以与任何思维技巧结合,比如多维对比,象限对比,假设对比等。
1.2.7 漏斗法
漏斗法是一种流程化思考方式,涉及到变化和流程的都可以用,单一的转化率则不行。