Datastage 记一次编码转换问题

浏览: 3182

版本:IBM InfoSphere DataStage V11.3.1

操作系统:linux redhat 6.4

数据库:Oracle 11.2.0.4.0

问题描述

前台反馈在加载表数据之后,出现乱码。截图如下:

Clipboard Image.png

问题分析

前台调用Java程序,字符串在java内存中总是按unicode编码存储的,比如"中文",正常情况下(即没有错误的时候)存储为"4e2d 6587",如果charset为"gbk",则被编码为"d6d0 cec4",然后返回字节"d6 d0 ce c4"。如果charset为"utf8"则最后是"e4 b8 ad e6 96 87"。如果是"iso8859-1",则由于无法编码,最后返回 "3f 3f"(两个问号)。 

而经过分析该表数据编码为iso8859-1,所以需要将iso8859-1转成UTF-8 。因为UTF-8是unicode的8位编码方式,是一种变长多字节编码,这种编码可以用1、2、3个字节表示一个unicode字符。



GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换: 

GBK、GB2312--Unicode--UTF8 

UTF8--Unicode--GBK、GB2312

GBK,GB2312以及Unicode都既是字符集,也是编码方式,而UTF-8只是编码方式,并不是字符集

GBK编码中英文字符只占一个字节

问题验证 

1.数据库服务器字符集 :AL32UTF8 (AL32UTF8,UTF8、UTFE是UTF-8编码字符集 

Clipboard Image.png

2.DS作业字符编码为GB2312 未通过Unicode编码转码,在服务端查看对应数据为乱码。


Clipboard Image.png

3修改DS 作业将字符编码通过Unicode编码转换为UTF8

1:

Clipboard Image.png

2:

Clipboard Image.png

再次查看Oracle 服务端 字符正常

Clipboard Image.png

问题解决

A 将文件NLS映射为GB2312

Clipboard Image.png


B 在Sequential File 中对字符类型字段做Unicode 映射转换即可

Clipboard Image.png


问题总结

分析问题的过程,往往要比解决问题难一些。对于细节一定要多留意。

推荐 3
本文由 我是最优雅的杀手,不杀人专杀狗 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册