快速认知数据的详细步骤(五)

浏览: 2072

“多维分析”是什么?许多许多年前,初次听到这么高大尚的名字,我确实不明觉厉。后来才发现,这是一种使用“数据透视表”就能实现的方法后,略感失望。但用多了之后,发现它真的非常强大。

  • 通过多维交叉来深入认知数据

用大白话来举例子,你的体重,是一维数据;你过去30天每天的体重,是二维数据,因为增加了时间维度;你过去30天每天早、中、晚的体重,是三维数据,因为又加上了一天中的时间段这个维度;你过去30天每天早、中、晚在穿衣和脱光情况下的体重,就是多维数据了,因为在三维数据的基础上又增加了穿衣与否这个维度。多维分析就是通过多个维度的相互组合,来发现数据内深层次的信息。

多维分析的施行方式非常灵活,100个人会有300种用法。我不求涵盖所有的功能和使用场景,尽量以一个模拟的例子来阐述清楚基本的功能点和分析原则。你又成为了川术公司的CEO,这一天你拿到了下面这样一个数据集。


你找来你们的BI,问他取这个数据集的目的是什么,BI回答你,他想从用户使用量的角度,看看用户群体按维度细分后,具体呈现怎样的使用特征。你觉得这是个不错的探索方向,于是你也着手开始行动,利用数据透视表来快速地做一些信息的挖掘。

如下图,你选择“插入”选项卡下的“插入数据透视表”按钮后,在弹窗中不做任何操作,直接点击确定,Excel就会默认新建一个sheet然后展现出数据透视表。在数据透视表中,我认为值得讲的功能至少有如下几点:1.字段列表;2.字段值设置;3.分组和切片器;4.数据透视图。我们基于上图中的数据集,通过提问和回答的方式,来展示数据透视表的基本用法。


如何知道各地区中不同等级用户的使用量?

要回答这个问题,我们首先说明字段列表功能。在字段列表面板中,我们会看到“筛选”、“行”、“列”、“值”四个容器,我们只要将左边的“选择要添加到报表的字段:”中的字段勾选上,该字段就会出现在右边的四个容器中。当然,为了选择的字段进入正确的容器,我建议大家用拖动的方式,毕竟Excel还没有聪明到能够猜准你想选择的容器。“筛选”这个容器是优先级最高的,放入这里的字段,字段的内容就会成为整个报表的筛选条件;字段放入“行”中,字段内容就会成为报表的“行标签”,而放入“列”中的字段的内容就成为“列标签”;放入“值”中的字段内容会作为汇总的依据,如果是数字,就会默认执行求和操作,如果是非数字型,就会默认进行计数,当然还有均值、方差、最大最小值等多种汇总计算方式。
那么如何知道各地区中不同等级用户的使用量呢?如下图,将地区字段拖入“行”,将等级字段拖入“列”,将使用量拖入“值”,这样报表中呈现出的就是一个交叉汇总的结果。北京L1等级的使用量是207,所有L1等级的使用量是1023,所有北京的用户的使用量是1925。


如何实现各地区不同等级中男女用户使用量的对比?

承接上一部分的例子,你只需将性别字段拖入“行”或者“列”中。这样就实现了3个维度的交叉对比,是不是很方便?


我们甚至可以继续添加维度组合,比如再将是否有过邀请行为添加到行中。这里出现了许多有趣的信息,这也是多维分析带来的价值。杭州的用户全都是男性,这是为什么?上海的数据更为可笑,有过邀请行为的全是女性,男性用户都没有邀请过小伙伴,这又是为什么?当然,现实情况不太可能出现如此极端的情况。这主要是因为我们取样太小造成的。


如何知道上海地区在8月1日至8月5日不同来源渠道的不同等级的用户数量?

这个问题复杂起来了,首先是有上海地区和8月1日这两个限制条件,应付限制条件,我们需要使用“筛选”功能。然后是要对来源渠道和用户等级进行交叉。最后是要汇总用户数量。注意,每天的用户有相同的也有不同的,因此需要去除重复用户id。这么复杂的汇总规则,用数据透视表却可以轻松实现。如下图,我们将地区和日期放入筛选项,并在筛选的下拉列表框中选择好上海和8月1日至8月5日,然后左键点击在“值”容器中的用户ID,选择“值字段设置”,在下拉列表中选择“非重复计数”,这样就完成了这个问题的统计。



如何知道在21-25、26-30、31-35及35以上4个年龄层的用户数量和他们的平均使用量?


我们的目的是要得到上图中的表格,那么怎么开始操作呢?

该问题涉及到了数据透视表中的分组功能,即我们需要把用户年龄进行分组。在现实当中,这种需求是经常会遇到的,许多伙伴都在手动分组,耗时耗力还容易出错。我们先把年龄字段放入行中,然后将用户ID和使用量放入“值”中,并设置好使用量的“值汇总方式”为平均值。这样形成了基本的数据透视表。接下来我们点击上方控制栏当中的“组选择”按钮,或者右键点击行标签,选择弹出框中的“组合”按钮,就会进入组设计的界面。为了能将年龄分为21-25、26-30等,我们设置起点为21,终点为35,步长为5,这样就完成了。制作过程如下图中所展示。


如何让报表的观察者方便地设置筛选条件?


承接上面的例子,对年龄分组后,我们如何方便地查看不同性别和不同等级的用户,在年龄分组情况下的人数和使用量对比?第一种方案,我们可以将性别和等级放在“筛选”中。但这样的方式对于观察者来说并不直观,操作比较麻烦。因此我们采用切片器功能,将筛选需求变成一个可以点击选择的面板。这样报表的观察者可以更方便地组织自己所需的筛选条件。过程如下图展示,点击“插入切片器”,然后在弹窗中选择好字段。


如何直观地呈现不同地区的用户平均使用量的对比?

说到“直观”这两个字,大家的第一反应是什么?我觉得,既然你本书已经读到了这里,那么第一反应必须是图表。那么如何将数据透视表中的内容以图表的方式呈现出来呢?答案简单得出奇,只要设置好数据透视表后,点击一个键“数据透视图”,就会弹出与插入数据图表时一样的图表选择框。需要注意的是,数据透视图并不能适用于所有的Excel中的图表形式,诸如散点图、频率分布图、树形图、旭日图、漏斗图等,暂时都不能应用在透视图中。但也不造成多大影响,毕竟折线图和柱形图家族中的图表就足够用了。应用数据透视图还有一个优势,那就是筛选项可以直接在图中设置,图表会随着筛选项的变动而自动变化。所以,应用数据透视图可以做一些半自动化的报表。


至此,我们将快速认知数据的内容分成5个部分,一一讲解完毕了。在未来,拿到一个数据集后,你应该能有条理地开始工作了。



推荐 2
本文由 胡晨川 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册