利用Datastage 对 Hadoop HDFS 文件 执行读写(内含实现作业)

浏览: 2474

版本:IBM InfoSphere DataStage V11.5.1

操作系统:linux redhat 6.4

平台:Apache Hadoop 2.6.0-cdh5.9.0

介绍:

在DataStage中,可通过File Connector组件或Big Data File组件来连接Hadoop平台,从而将传统RDBMS数据库或本地文件中的数据加载到HDFS。比较而言,Big Data File组件支持IBM BigInsights,提供更佳的读写性能;而File Connector组件则通过WebHDFS接口或HttpFS接口访问HDFS,不依赖于Hadoop的品牌和版本,提供更广泛的兼容性。

控件介绍:

FileConnector是DataStage v11.3面向Hadoop的全新组件,提供以下功能:

  • 可用于读/写Hadoop文件系统(HDFS)
  • 支持并行处理和线性扩展
  • 不需要安装其他Hadoop客户端软件包
  • 支持Kerberos认证
  • 支持SSL安全访问协议
  • 支持Knox gateway
  • 支持通过WebHDFS,HttpFS方式访问Hadoop
  • 支持访问本地的Hadoop节点
  • 更全面的支持Hadoop(不依赖于其版本变更)

样例1:

将Oracle 数据源的数据写入下HDFS 中,作业开发:

Clipboard Image.png

其中FileConnector 控件配置:

Clipboard Image.png

写入模式:可以选择单个文件,也可以选择多个文件。

写入文件格式:可以选择CSV格式,也可以选用界定符

对于Date 类型和 TimeStamp格式需要统一:

DATE FORMATE:%yyyy-%mm-%dd

TIME FORMAT:%hh:%nn:%ss

TIMESTAMP FORMATE:%yyyy-%mm-%dd %hh:%nn:%ss

可以在Administrator --Parallel---Format defaults 中查看如下:

Clipboard Image.png


Clipboard Image.png


写入方式可以选择多个文件存储可以在HDFS 下查看结果如下:

Clipboard Image.png

推荐 2
本文由 我是最优雅的杀手,不杀人专杀狗 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

可以

要回复文章请先登录注册