关于今晚胡老师分享的话题,有一些疑问

0
1.业务逻辑和数据模型的问题:如果分开业务逻辑和数据模型,那么建立数据模型,其实就是对各类原始数据进行简单的合并到一张大宽表,那这其实是少了一步汇总,多了一步大合并?可否这样,在平台的容量足够大的情况下,可以同时建立CUBE和大宽表的保存方式,如果需求可以直接通过CUBE实现,那么就可以避免通过大宽表来进行汇总加工?
2.HADOOP平台的实时处理问题:HADOOP平台的实时处理能力在数据获取这一块如何做到快速提取数据?我之前项目碰到过过HADOOP里的HIVE库虽然存储量很大,但是数据的提取速度要远远慢于mysql这类数据库。
3.在用户精准营销这一块,用户画像跟传统的用户画像有什么不同呢?看上去两者似乎差不多啊,包括人口属性、兴趣属性等等
4.在线平台对数据的处理这一块,业务是如何做到避免在数据的处理方面投入过多的精力的呢?能否将以前和现在做一个简单的对比呢?
已邀请:
1

Bob - 同程旅游大数据+BI 架构师 2016-05-04 回答

1.其实是可以将cube和大表同时建立。例如你可以选择使用kylin来完成cube的建设,同时在hive上保留一个大表。kylin本身也是读取hive的仓库表结构来完成cube建设。
2.hadoop的实时处理问题:从你的字面意思来理解,你是想获得即席查询的效果。这点可以在hadoop集群上部署impala来得到此效果。类似的还可以选择drill、prestodb来完成
3.用户画像方面与传统的相比,个人觉得没什么太大的差异,主要是借助于大数据技术,很多之前不能计算的属性都可以得到了
4.在线平台对数据的处理方面。这点可以从一个点去考虑,如果分析人员原来是用sql访问数据库,现在是用sql访问hadoop,这样的环境可让用户投入比较少的精力。
更多具体的内容可私聊加我的微信号

要回复问题请先登录注册