利用sqoop导入orcale数据到hdfs

发表: 2015-09-19 浏览: 3440

大数据

Transwarp Inceptor可以提高大数据查询分析速度。从下往上分三层架构，最底层是分布式缓存（ Transwarp Holodesk），可建在内存或者SSD上；中间层是ApacheSpark计算引擎层；最上层包括SQL’99 和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。

利用sqoop把oracle中数据倒入到hdfs具体步骤：

1.在hdfs中创建存放需要导入数据的目录，例如创建一个名为ceshi 的目录文件夹：sudo–u hdfs hdfs dfs –mkdir /ceshi （sudo –u hdfs 表示以hdfs 用户的身份执行操作，root用户执行hdfsdfs –mkdir /ceshi操作会出现权限不足问题）

2.创建ceshi文件夹后执行hdfsdfs –ls / 来查看是否创建成功

3.修改测试文件夹权限：sudo–u hdfs hdfs dfs –chmod –R 777 /ceshi（在执行导库语句时会出现权限不足的情况，即使是root用户也会出现权限不足问题，要用HDFS用户去做权限修改）

4.执行导库语句，例如倒入10库中违法数据(vio_surveil_bak)：

sqoop import --connectjdbc:oracle:thin:@//<ip>:<port>/<sid> --username <username> --password <password> --query "select substr(dzzb,1,6) as yfbm,dzzb asrqbm,zsxxdz,jtfs,wfxw,1 as byl from table1 where dzzb>0 and \$CONDITIONS"--target-dir /ceshi/tt --outdir /tmp/tt -m 1

（sqoop import--connect jdbc:oracle:thin:@//<ip>:<port>/<sid> –username <username> --password <password>表示利用sqoop链接数据库，需要根据实际情况修改数据库ip、端口、SID、用户名、密码）（--query" select substr(dzzb,1,6) as yfbm,dzzb as rqbm,zsxxdz,jtfs,wfxw,1 as bylfrom table1 where dzzb>0 and\$CONDITIONS "表示选择从oracle表中拿出那些列的数据，以及做数据清洗。）

5.执行成功后进入文件夹下查看导入是否正确：

hdfs dfs –ls/ceshi/tt/

hdfsdfs –tail –f /ceshi/tt/part-m-00000

（--target-dir /ceshi/tt表示在hdfs内的数据存储路径，最底层的vio目录是不能存在的，上层目录ceshi是需要提前建好或已经存在的目录）

（--outdir /tmp/tt-m 1 表示临时输出目录，sqoop语句执行结束后会被删除）

0 个评论

要回复文章请先登录或注册