请教下高手,我用的是kettle6.01,hive版本是1.01,我想把运行结果写入hive,使用kettle表输出或者插入更新功能,速度只有30s一条,有没有更加高效的方式?

0
已邀请:
0

Bob - 同程旅游大数据+BI 架构师 2016-01-28 回答

数据写入时建议先写入文本中。
如果你的kettle服务器与hadoop集群不在同一个机器,那建议在kettle机器上挂一个hadoop机器的网络盘。文本先写入到此节点的磁盘中。
然后使用kettle运行shell脚本任务。此脚本大概包含几个部分:
1.将文本文件加载到hadoop的目录中。
2.执行hive的脚本语句,修改表的映射分区到新的目录中。
 
以上步骤能帮你节省很多时间。
 

要回复问题请先登录注册