数据图表是件花衣裳1——不要小看散点图

浏览: 1509

Clipboard Image.png

(此篇理应命名为数据产品开发前的必修课(二),但如此中二的命题还是罢了!如前篇所提,今起,针对数据图表略表浅见。图表是件花衣裳,你得懂得怎么穿!)

初阶的饼图、环形图、折线图、柱形图、条形图等就不多说了,因为他们直观到无需解释。但需要提一下做这些图的时候的细节:

(可跳过不看)

首先,告别excel默认的样式和配色,因为那样会使你的报告逼格很低。

在我平时工作中,许多伙伴会问“你这图表用什么软件做的?感觉好高级?”,我说“excel啊”,他们吃惊不已。如何达到这些效果?

先仔细摸索图表布局选项卡下的坐标轴、网格线、趋势线、图例,标签等功能细节;其次是熟悉绘图区格式里面的细节,如调整图表区域的配色,合理使用阴影等;最后是选择合适的图表来反映问题,这一点其实相当复杂,在后续的文章中会循序渐进地提及(结合一些场景),一股脑地说,我写得辛苦你读的累,划不来。

推荐一本刘万祥的《Excel图表之道》,它会让你惊叹于excel作图功能是如此的强大。

  • 进入主题:强大的散点图

  • 首先,散点图确实能很直观的反应两个变量之间的关系。


  • 案例一:利用散点图观察不同来源流量与网站总流量的关系。

  • Clipboard Image.png

    上图展示了某公司主站的新访客各来源渠道与总新访客量。

    结论很直观:

    direct(直接访问来源)、organic(自然搜索来源)和总的新访客有明显的正相关关系(direct与newuv相关系数达到0.89,direct来源的占比达到60%)。因此,我们知道这个公司大部分访客来源于口碑,而且其潜力还相当大,因为direct和organic图显示新访客对direct的弹性比较高,没有出现像sem(蓝色)图那样的边际效益递减的情况。

    (一些名词解释我会在文章最后列出)

    通过组合型散点图,我们已经得到了一些有价值的信息。我个人对sem来源的变化趋势非常感兴趣。针对这点我们继续挖掘信息。

  • 案例二:在散点图上用颜色增加一个分析维度,并添加平滑趋势线。

  • Clipboard Image.png

    图中,我将sem来源的访问量按四分位数进行了分层,配合局部加权多项式拟合线。

    似乎又有了新的收获:

    1.sem来源流量较少时(红色和绿色,后50%),与总流量的正相关关系是比较明显的。

    2.sem来源流量在75%到50%分位数(绿色)之间非常集中。我猜测,使sem流量维持在这个水平的投放策略,看来是有一种粘性的,即便加大投放,在一定幅度内,sem的流量增长也不明显,直到突破某个临界值,进入蓝色和紫色区域后,才会松开。

    3.较高sem流量(蓝色和紫色,前50%),与总流量的关系非常弱,拟合线几乎平了。

    到这里,您可能会这么问:sem流量在什么程度才是最优?

    要衡量这个问题,我选取了sem投放总成本,sem单位点击成本(cpc),和sem来源的注册转化率三个指标。让可爱的散点图升级!

  • 案例三:点的大小衡量一个新的指标,散点图进化为气泡图

  • Clipboard Image.png

    气泡图,就是除了横纵坐标轴,点的大小还能衡量一个变量的散点图。上图不仅衡量了sem投放总成本(semCOST)和sem来源流量(semUV),还用点的大小衡量注册转化率(regRate)。结论比较直观,注册转化率高的点,在右上方,且预测线显示,投放力度越大,流量越大,且注册转化率至少不变。

    得到这个结论有点振奋了,有没有?

    还能不能再增加点信息?可以,我们将单位点击成本进一步放到散点图中。

  • 案例四:气泡的颜色再衡量一个变量,升级为彩色气泡图

  • Clipboard Image.png

    如图,点的大小是注册转化率,点的颜色是单位点击成本,从暖色调到冷色调,由低到高。转化率高且cpc低的点,在右上角。

    我们可以说,sem投放成本越高,sem流量越多,且转化率越高,更可喜的是cpc还更低。对于一个sem投放部门来说,没有比这更完美的结论了。

    但是,散点图只是反映了相关关系,并不是因果关系。我们不能说,增加sem投放是注册转化率升高且cpc降低的原因。但是,有这么显著的相关关系,我们就有足够的理由去增加投放,然后再去观察数据。

    数据分析再精确,如果缩手缩脚,是依然办不成事情的

    当然,投放策略分析是可以做得非常复杂的,我们这里只是为了介绍散点图而引入了这个场景,初步地做个分析。但在中小企业,我觉得做到这一步就可以了。(这几张图估计可以把老板搞晕了,然后给你一大笔预算!)


    注释:

    1.文中图表是使用R软件的gglot2包实现的,很遗憾不是excel。感兴趣的读者可以关注“川术”公众号并给我留言,留下邮箱。我将无偿分享代码。

    Clipboard Image.png

    2.直接访问来源(directUV)是指直接在地址栏输入URL或者将主站URL添加收藏夹后,访问来到主页的流量。

    3.自然搜索来源(organic)是指搜索引擎上,由非付费词搜索点击进入网站的流量。而semUV就是有付费搜索词进来的。

    4.四分位数,指将一个数列排序后,处在排名第25%、50%、75%的位置的数。可以查查百分位数的概念,你会理解更透彻。

    5.局部加权回归,有点难描述。如果你懂回归,就去谷歌一下,如果不懂回归就算了。

    推荐 0
    本文由 胡晨川 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
    转载、引用前需联系作者,并署名作者且注明文章出处。
    本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

    0 个评论

    要回复文章请先登录注册