数据仓库从MySQL向大数据平台迁移的方案
0
最近公司的大数据平台已经初步搭建完成,因此准备将原来部署在MySQL上的数据仓库迁移到大数据平台。因为没有经验,所以向大家请教下,在迁移过程中需要注意哪些问题?一般需要遵循哪些原则?有没有迁移成功的案例可以分享下。
比较关注的问题有:
1.迁移后的数据仓库是部署在Hbase还是Hive比较合适?因为有很多UPDATE和DELETE的逻辑
2.原来都是通过存储过程和函数实现功能,那么在大数据平台适合用什么语言,JAVA还是Python?或者有其他更好的推荐?
3.因为迁移不可能一蹴而就,因此打算按照优先级来迁移,那么优先级的设置有什么标准吗?
比较关注的问题有:
1.迁移后的数据仓库是部署在Hbase还是Hive比较合适?因为有很多UPDATE和DELETE的逻辑
2.原来都是通过存储过程和函数实现功能,那么在大数据平台适合用什么语言,JAVA还是Python?或者有其他更好的推荐?
3.因为迁移不可能一蹴而就,因此打算按照优先级来迁移,那么优先级的设置有什么标准吗?
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
1 个回复
Bob - 同程旅游大数据+BI 架构师 2017-03-14 回答
赞同来自:
如果仓库是在hive上,那原来的ETL操作 都改为使用hql脚本吧。这个查询语言是类似mysql的语法。
迁移的优先级建议先搬迁底层原始数据、然后建立ETL清洗规则,最后搬DW数据。
在搬迁底层数据时建议你hive原始表与mysql的原始表保持结构一致。