数据仓库从MySQL向大数据平台迁移的方案

0
最近公司的大数据平台已经初步搭建完成,因此准备将原来部署在MySQL上的数据仓库迁移到大数据平台。因为没有经验,所以向大家请教下,在迁移过程中需要注意哪些问题?一般需要遵循哪些原则?有没有迁移成功的案例可以分享下。
比较关注的问题有:
1.迁移后的数据仓库是部署在Hbase还是Hive比较合适?因为有很多UPDATE和DELETE的逻辑
2.原来都是通过存储过程和函数实现功能,那么在大数据平台适合用什么语言,JAVA还是Python?或者有其他更好的推荐?
3.因为迁移不可能一蹴而就,因此打算按照优先级来迁移,那么优先级的设置有什么标准吗?
 
已邀请:
0

Bob - 同程旅游大数据+BI 架构师 2017-03-14 回答

数据仓库建议选择使用hive,用hql语句也能完成update delete的操作。
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
 
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后搬DW数据。
在搬迁底层数据时建议你hive原始表与mysql的原始表保持结构一致。

要回复问题请先登录注册