kettle+hive使用心得之Hadoop File Output

发表: 2017-04-09 浏览: 10880

Kettle Hive

kettle作为etl工具同步数据到hive，直接使用表输出或者插入更新组件出现速度秒级一条的尴尬，为了解决这种输出端数据同步瓶颈及缓解给领导交代的窘态，在项目中使用了Hadoop File Output组件，流程如下：

一、连接hadoop配置

1、点击kettle big data 配置文件

Clipboard Image.png

2、修改active.hadoop.configuration值为hdp47（对应与下一步hadoop配置文件）

Clipboard Image.png

3、修改hadoop-configurations下一个文件名字为上述active.hadoop.configuration对应名字

Clipboard Image.png

4、copy集群的配置文件到hdp47下，并覆盖

需要的文件：core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml

5、copy集群夹包inceptor-driver.jar（本集群使用星环）到hdp47/lib下

二、Hadoop File Output的使用

1、编辑连接：选择主对象树种 Hadoop clusters 右击新建

Clipboard Image.png

其中：Cluster Name 自定义集群名字；Hdfs Hostname为集群active Namenode ip，端口默认为8020；JobTracker为集群运用resource manager 权限的节点ip，端口默认为8032；ZooKeeper Hostname为对应节点ip，默认端口为2181；Oozie可不填。

点击测试：

Clipboard Image.png