请教多个表导入一个hbase大表中的一个rowkey问题,如果这几个表中有字段是重复的,如何解决这种问题? 因为rowkey根据业务来设计,肯定会涉及到表的字段,出现几个表导入的时候rowkey重复了是很有可能的

0
已邀请:
0

zhanmsl - 就一技术男 2016-01-22 回答

如果有多张表导入到HBase中的某张表组成大表的话,只要rowkey不冲突,那么几张表的数据汇总到一起是不会有问题的
例如:
mysql数据库(测试没有问题):
A表:ID-自增,name,age         ID范围:1-10000
B表:ID-自增,name,sex,job      ID范围:1-20000
C表:ID-自增,name,age,sex,job   ID范围:1-10000
 
如果通过常规导入的方式,那么最终的数据量也只会有20000条,因为ID出现重复了,导入过程会被自动覆盖。
 
处理实际上也很简单,关闭B、C表的ID自增长,使用语句把B表的ID进行批量UPDATE
UPDATE B SET ID = ID + 10000   结果B表的ID从10001开始不会和A冲突
那么C表也是同理。

要回复问题请先登录注册