以好奇心日报为业务原型,说说大数据平台的数据建模过程

浏览: 2674

​数据模型是数据平台的基石,是平台搭建过程中最最基础、也是最最重要的环节,为后续数据清洗(ETL)、开发数据报表等工作保驾护航。数据建模做的好,后面工作也会更容易,模型做的不到位,一些报表做起来耗时耗力又吃资源,甚至无法实现。

数据建模一般要经历主题和主题域分析、概念模型、维度设计、指标整理、逻辑模型、物理模型。今天我们以好奇心日报为业务原型,探讨下数据模型建设过程(本人非好奇心员工,好奇心老板看见如果觉得对数据化运营有所帮助记得给我加鸡腿)。

好奇心是内容型产品,有NEWS、LABS两个频道,有不同新闻分类和独立的栏目,商业模式以在线广告为主。为什么选好奇心日报呢,一方面它确实是目前鱼龙混杂的内容产业中的一股清流,新媒体的一个标杆,以好奇心驱动坚持做有品质的内容、筛选最有价值信息、全球最新动态; 更主要的是它的产品线全面,有APP、PC网站、移动网站、订阅号、小程序,同时也运营着今日头条、网易、微博等各大媒体公号,且成绩有目共睹。产品线全面、业务规模适中,作为业务原型讨论数据建模最合适不过了。

了解数据仓库的,都知道数据仓库是面向主题,也就是其中的数据是按主题进行组织的。 首先从分析主题入手,主题是在较高层次上对业务数据进行梳理、归类,一个主题基本对应一个宏观的分析面。主题域是确定主题中包括的数据分析范围及边界。确定了主题及主题域,数据平台对外输出能力也基本确定了。好奇心业务来说可以分为内容生产运营、营销、用户、广告收入四个方面。再对主题进一步细化出子主题,例如广告主题可以拆除订单分析、营收分析、广告位分析、品牌主分析、业绩分析,子主题也就是主题的边界。

下面我们分别展开说说四个主题的内容:

用户分析分基本信息、行为分析、商业兴趣三个子主题,基本信息就是常见的人口属性包括性别、年龄、地域、职业、职务、月收入等;行为分析包括用户触点(用户访问好奇心的入口,是App,还是订阅号,还是同时使用多个)、习惯时段、访问轨迹、评论、参与投票等互动行为;商业兴趣是指用户对那些新闻分类、栏目、或者内容主题的喜好程度,可以用于指导内容生产和个性化推荐。

内容运营可以分为流量分析、内容分析、作者分析、第三方平台分析,流量分析就是常规的网站、App的各频道、栏目的PV、UV、日活数等等指标,同时还要按媒介来源细化到Organic、Syndication、Socail等不同维度和维层;内容分析可以从单篇文章、单个分类进行分析,例如获取某一篇文章在不同平台的阅读量、点赞数、互动数,也可以分析某篇热点文章从发布、预热、引爆、衰退的过程;作者分析是从生产者角度进行汇总分析,作者的文章产量、文章阅读数、互动数、用户喜好程度等等分析,如果每个编辑记者都制定了KPI就可以很快捷的知道KPI达成情况。第三方平台分析是指分析分发到订阅号、小程序、今日头条号、网易号上的阅读、互动、分析、回流情况。

营销推广分为推广分析、渠道分析、活动分析,推广分析是指付费广告推广,汇总投放目标、曝光展示、点击、下载激活,进行推广效果评估,获客成本分析;渠道分析是从渠道角度分析用户留存、活跃、互动,以评估渠道质量,渠道和推广还是有区别的,例如在今日头条这个媒体渠道,会做多次推广。活动分析一般是市场、运营组织的用户参与的营销活动分析、接触人数、参与人数、转化人数等等。

广告收入分为营收分析、广告订单分析、广告位分析、品牌主分析,从总收入、订单、单个广告位、品牌主、销售经理、销售大区不同维度分析收入贡献,挖掘销售潜力,降低广告库存,提高售卖率和广告单价。

概念模型是主题的基础上,识别出主题中的对象,以及建立对象之间的关系,列出对象的较核心的属性。例如我们为好奇心日报提炼出产品(App、PC网站、小程序等)、用户、用户行为、文章、编辑等对象,并描述了对象之间的关系以及表述对象的核心属性。

逻辑模型是将概念模型具象化,为对象增加必要的属性。下图是使用一款在线工具ProcessOn画的部分逻辑模型,还可以使用更专业的建模工具ERWin和PowerDesigner。

物理模型是把上述逻辑模型的内容,在具体的物理介质上实现出来,确定字段类型、取值范围、采用MySQL、Oracle等建立数据库表,这里就不详细展开介绍。

最后对业务涉及的维度和度量进行梳理,维度越丰富,粒度越细,做数据分析时就可以挖地越深入。正如数据仓库权威专家Kimball所说,数据仓库的能力直接与维度属性的质量和深度成正比。比如时间维度可以分为季度、月、周、日四个层次,但周和日还可以还可以细化出周天、日时段两个子维度,汇总一段时间内的周一到周日的启动次数(日然运营,排除推广干扰),可以看出用户从周一到周日的使用规律,同时还可以组合地域,看某一地方用户周一到周日的使用规律,日时间段同理。当然粒度越细,对数据收集和处理的要求越高。维度建模有专门的方法论,需要根据业务规模、最终需求设计合理的维度模型。

下面是根据业务梳理的维度和度量指标,大家可以尝试组合下,是否能够满足日常运营的需要,如果觉得不够可以考虑下怎么扩展。

维度

  • 用户

    • 基本信息:性别、年龄、职业、职务、月收入、教育、婚姻状况、子女数、地域

    • 兴趣标签,标签可分大类、小类

  • 时间

    • 月、周、日、时

    • 日时段

    • 周天

  • 地域

    • 一级、二级、三级城市

    • 北上广深

  • 流量来源

    • Syndication

      • Toutiao、网易、一点等

    • Organic

      • Search、Referral、Direct

    • Socail

      • Weixin、Weibo、QQ

  • 营销渠道

    • 应用分发渠道

      • 应用市场(AppStore、应用宝、华为市场等)、官方网站

    • 广告推广

      • 媒体品牌:腾讯、百度、网易......

      • 广告位名称

      • 广告位类型

      • 广告位平台:PC、移动

      • 投放创意

    • Socail

      • Weixin、Weibo、QQ

    • SM

    • Newsletter

  • 活动

    • Campain List

  • 产品及版本

    • iOS、Android、小程序、PC、Mobile、微信订阅号、头条号、网易号、微博头条

    • 4.1、4.2

  • 设备

    • 操作系统、设备品牌、服务提供商、联网方式、屏幕分辨率

  • 业务

    • 内容分类:频道(News 、Labs)、新闻分类、栏目

    • 作者、编辑

  • 广告

    • 广告平台:移动平台、PC平台

    • 广告位名称(App焦点图、App信息流、PC)

    • 广告位类型(移动开屏、移动原生、移动banner、移动插屏、PC顶通、PC焦点图)

    • 创意形式(640x100单图、240x180多图、640x360视频、14字文字链)

    • 订单

    • 广告主

    • 广告主所属行业


指标体系

  • 用户指标

    • 新增注册数、活跃用户数、流失用户数、登录用户数、分发平台粉丝数

  • 流量指标

    • 累计下载量、新增下载量、激活量、日活数、启动次数、屏幕浏览量、使用时长、留存率、计划推送数、推送达到数、推送到达率、推送唤醒数、推送唤醒率

  • 行为指标

    • 阅读数、点赞数、分享数、评论数、订阅数、参与投票数、发布我说、点击广告、推送点击、推送打开率

  • 广告指标

    • 曝光量、点击量、点击率、销售额、订单数、订单单价、库存量

  • 模型指标

    • 用户构成(用户地域、年龄段)、商业兴趣

历史文章


数据产品

互联网+企业 数据化运营所需要的数据产品体系

数据产品的第一性原理

DMP除了用于精准广告投放还能干些什么?

品牌究竟需要怎样的DMP?

数据可视化

图表分类及常用图表汇总

数据可视化难在哪里?又怎么入门

数据可视化系列 | 占比类图表饼图、环图、复合饼图、条形图、百分比堆积面积图

数据可视化系列 | 比较关系的漏斗图、雷达图、花瓣图、堆积面积图

数据可视化系列 | 比较关系之柱状图

用户画像

用户画像建设过程简析 | 连载一

建立用户画像的标签体系 | 连载二

时尚全媒体用户画像建模 | 连载三

其它

如何成为一名大数据人?传授两则心法以共勉

新零售从业者必读书--数据化管理(洞悉零售及电子商务运营)

Hadoop、Spark、Hive、HBase都是干什么的,看完此文让你从此不再迷惑

荐书 | 《大数据之路,阿里巴巴大数据实践》值得慢慢品读

推荐 0
本文由 百川 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册