spark定时增量加载的问题?

0
从hbase定时读取新的数据加载到内存里,之前采用的是新老rdd之间做union操作,由于每次union之后rdd对应的partition数量会不断增加,然后做coalesce减少partition数量,但是多次coalesce 之后发现partition数量发生了倾斜,个别几个数据量特别大,请教下coalesce内部处理机制,还有增量加载还有哪些方案?
已邀请:

要回复问题请先登录注册