基于COOKIE的点击流数据仓库构建思路(二)

发表: 2017-03-29 浏览: 2668

数据仓库

网站数据是企业数据的重要组成部分，在大型企业中，数据通常以关系型数据仓库进行存储。当然，部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变，但这仍只是少数。大部分公司仍然是关系型数据仓库（RDB）居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第二篇，基于开源的Piwik底层数据的数据仓库作为原型。

Piwik的底层数据表包括piwik_log_visit、piwik_log_conversion、piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action共6个基础表，当然除了这些表以外还有归档表、系统运维表等。

Piwik底层仓库以piwik_log_visit和piwik_log_conversion为事实核心，以piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action为纬度表形成的。

下面是对各个表的基本介绍

piwik_log_visit是网站中的行为数据，每次触发Server Call（简单的理解为页面请求）都会触发一条记录。
piwik_log_conversion是网站中的转化数据（转化包括电子商务转化和目标转化）。
piwik_log_conversion_item是对电子商务转化数据的拓展，包含商品分类、SKU、价格、数量等记录。
piwik_log_link_visit_action是对访问用户的信息拓展，包括自定义变量、服务器请求时间、各种来源页面的ID等。
piwik_goal是对转化目标的拓展，包括匹配类型、目标名称、是否大小写敏感、价值等变量。
piwik_log_action是对页面内容的扩展，每个页面在该表中都对应一条记录，包含页面ID、名称、哈希值、类型等变量。

Piwik数据仓库的模型如下：

这种模型的好处是把一张大表进行查词拆分，并以访问和转化为拆分依据，形成两个事实核心的数据仓库。当然，piwik的数据仓库还是比较简单，由于该工具本身的功能性一般，没有特别多的特色功能，因此也没有很多纬度。不过它的优势在于本地化安装和数据处理，且部署简单，加上其开源性可以节省网站系统费用，底层的数据已经经过一轮清洗，开发难度小，比较容易在初创型公司使用。当然，由于是开源的，该工具没有很好的服务支持，专业并且了解底层的网站分析师是必须的。

我相信，它的基本功能已经可以满足大多数企业的日常需求，很多商用网站分析工具比它好的地方也不过是服务支持较好（看国内服务商情况）、正负向路径的无限扩展（Piwik本身有路径，虽然还不是很强大）、强大的自定义功能（虽然没有太多变量，但piwik的5个自定义群体和虚拟事件基本上可以满足一般需求）、实时数据（Piwik是本地化的，实时性根据系统硬件和定时JOB完成）。因此其开源性、结构化数据、本地化是比较吸引我的地方，我知道有的公司已经基于piwik在做数据仓库开发和上层报表的应用，中小企业百万级的流量处理能力还是没有问题的。

0 个评论

要回复文章请先登录或注册