当百度统计遇到数据观|数据洗一洗分析更健康

浏览: 4161

  文:数据观

  [摘要]:

  来自:数据观

  https://www.shujuguan.cn/?from=tszn

  数据清洗在数据分析中的重要性毋庸置疑。就像日料一样,“食材”质量越高,“食物”的口感就越好。然而这个过程并不简单,令很多有分析愿望的业务人员都望“洗”生畏。其实,数据观的ETL工具就可以帮助你快速地完成一些主要的清洗工作,而且非常简单。快跟小观练起来吧!

  [主文]:

  料理菜式:

  找出最近30天内,访问量最高的7个入口页面(不含首页),并能下钻查看网页的累计访问次数和平均访问时长。

  所需食材:

  1、一份Down自百度统计的实时访客CSV文件。

  

  2、一个数据观免费使用账号。

  料理前的准备工作:

  1、连接数据

  

  点击“数据连接”,选择“文件”,选择“上传CSV”,上传您的实时访客数据即可。

  2、新建ETL

  

  点击“创建数据”,选择“ETL”,进入到这张画布,激动人心的时刻就要开始啦!

  食材处理难关之——

  [日子每天都在过,表格每天都得做?]

  描述:我每天都想知道最近30天访问量最高的入口页面,但是我并不想每天调数据。有自动跟着变的方案吗?

  答案:有!

  秘密武器:[日期计算]+[过滤]

  

  [日期计算]顾名思义,就是对日期进行计算。您可以对日期、月份、年份、季度等不同时间段动手脚。而我们这次要用的叫做“日期差”,可以很轻松地计算出每一次访问的“距今时间”。

  

  将新列命名为“距今天数”,将操作方式选择为“日期差”,用“当前日期”减去“访问时间”,您的原始表格上就会出现一个名为“距今天数”的新列,并且里面是算好的天数啦!

  

  接下来,我们用一手[过滤],直接解决“30天内”这个需求。

  

  将需要过滤的列选为“距今天数”,比较类型为“小于等于”,因为天数是我们自己设定的,所以选成“与指定值比较”,并输入“30”。

  PS:如果您希望得到的7天或者15天,那么输入“7”或“15”就可以了。

  

  我们会得到“距今天数”小于等于30的数据,也就是在30天内的访问数据。

  食材处理难关之——

  [时长构成太混乱,不是整数怎么算?]

  描述:我要计算访问时长的平均值,但默认格式是文本,里面有空值、未知、正在访问等等,时长数值后面还有个单位‘s’,完全不具备把它转换为“整数”的条件。有什么功能能批量把单位去掉,并把空值、未知、正在访问都转换为空值吗?

  答案:有!

  秘密武器:[替换文本]+[修改列类型]

  

  第一次[替换文本],解决的是单位问题。

  

  我们需要处理的列是“访问时长”,所以选择该列,输入要去掉的字符“s”,将之替换为“空字符串”即可。

  第二次[替换文本],解决的是将“未知”转成空值的问题。

  

  第三次[替换文本],解决的是将“正在访问”转成空值的问题。

  最终,“访问时长”只剩下数值及空值,此时再来一招[修改列类型],将“文本”转换成“整数”即可。

  

  此时,“访问时长”已经变成“整数”类型了。

  

  是数字就好办——计数、平均、最大值、最小值……想怎么算就怎么算!

  食材处理难关之——

  [入口页面一大批 偏偏只想看前七]

  描述:访客从各个页面来访,但我们最关注的是前七个页面,能实现只看TOPN,而不看其它吗?

  答案:能!

  秘密武器:[排序和累计]

  

  首先扪心自问——我要对什么排序?在空白框中写下你的答案——“访问量排序”。

  接下来选择排序的方法——“排序值(连续)”。

  然后找到右上方那个“应用”按钮,点击,即可进入下一步设置了。

  

  选择要排序的列——“访问入口页面”

  然后选择排序方式——“降序”

  所有访问入口页面的名次就出来啦!不过,这还不是前七啊?别着急,前七的问题,“摆盘”的时候就给您解决!

  摆盘:

  

  首先,将图表类型选择为“条图”——最适合展示TopN的图表类型。

  然后,将“纵轴”选为“访问入口页面”,横轴选为“访问IP”(统计方式为“计数”),所有访问入口页面就按照访问量排列出来了。

  

  此时,我们添加“过滤”,将过滤字段选为“访问量排序”,将数值设为“1~7”,前七位就出来啦!当然,如果您想看前10,前20,也可以随时调整,非常方便。

  

  最后,点击“数据下钻”,添加想要查看的列,就可以看到该页面的详情。是不是很方便呢?

  最方便的是,这些处理您只做一次就行。以后,更新数据,结果自动出图哦~

  

  手动处理这些数据,台前1分钟,台后一天功。

  交给数据观ETL工具的话,台前1分钟,台后也就10分钟。

  [结语]:

  百度统计后台设计的已经足够好,但如果能把百度统计的数据按照自己的需求进行分析,甚至和产品数据、其它推广渠道的数据结合起来共同分析,那就更好。

  当很多运营都止步于那份看起来密密麻麻的CSV文件时,你手起刀落,干净利索地将之变成一份有价值的数据洞察,是多么有成就感的事。

  大家的原始字段虽然都是流水线出品,但有些字段的待遇却是萨维尔街的,这就是运营与运营之间的不同。

  当普通运营把后台当作一切,而你把后台当作一切的开始时,你就赢了。

  让我们都具备让数据说话、让商业智能的魔力吧!

  更多ETL知识,请阅读:数据观数据处理手册

  亲手做过才是自己的哦!

推荐 1
本文由 数据观 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

请教,用的什么etl工具
使用的是数据观~注册链接是https://app.shujuguan.cn/apply/?from=hellobi

要回复文章请先登录注册