日常点滴-Etl 文章分类日常点滴 - 天善智能：专注于商业智能BI和数据分析、大数据领域的垂直社区平台

4

推荐

3646

阅读

Kettle实现循环增量抽取数据

数据量数以千万计时，初次一次性抽取历史数据容易出现卡死，针对这种情况可以使用循环年份抽取，并且加入增量程序使得后续抽取增量化！整体流程：1、获取年份极值（获取历史有数据的年份最大最小值）获取日期：select min(to_char(jyrq,'yyyy')) || '~' || max(to_char(jyrq,'yyyy')) YearRange from veh_is_warning whe...

发表了文章 • 2016-09-22 18:29 • 3 条评论

2

推荐

1664

阅读

Kettle循环DB表数据到FTP实例（Extract）续

整体流程参考：https://ask.hellobi.com/blog/hql15/4622此部分内容加入了自动生成所需目录、十分钟所有表数据分别增量同步便于部署。1、运行整体流程的目录初始化，generateLocalDirect.batREM ************************************************** REM ** 初始化文件主目录 ...

发表了文章 • 2016-08-16 19:32 • 0 条评论

2

推荐

3214

阅读

Kettle循环DB表数据到FTP实例（Extract）

ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。本实例是第一步：抽取。因网段不同，需要将DB数据库中的表抽取到ftp上面，并且新增表数据是按照时间生成新的文件数据，便于网络原因引起的数据获取不及时误删的情况，然后删除数...

发表了文章 • 2016-08-09 12:01 • 2 条评论

6

推荐

3854

阅读

Kettle实现循环控制分批次抽取数据

数据量成百上千万，使用kettle同步数据经常出现挂掉的情况，所以生成分段同步数据程序，便于同步数据以及同步进程跟踪，因数据量较大时一次性同步数据很慢，并且同步数据出错时不容易定位，使得重新抽取。具体实现如下：一、整体流程二、Generate the time span，本实例是以当前时间三年内，分月同步数据，流程如下：1、...

发表了文章 • 2016-07-06 10:46 • 3 条评论

2

推荐

2434

阅读

Kettle日常记录(一)

1、错误代码：Error connecting to database:(using class oracle.jdbc.driver.oracleDriver) ORA-28040: No matching authentication protocol问题分析：kettle连接oracle12C时出现问题解决办法：在$ORACLE_HOME/network/admin/sqlnet.ora文件中，如果没有可以创建一个新的，加入下面的参数SQ...

发表了文章 • 2016-06-20 10:07 • 2 条评论

5

推荐

4403

阅读

Kettle数据清洗（案例一）

一、整体流程图（去除重复记录，脏记录）：二、各个步骤如下:1、VEH_FACT_VEHICLEwith veh_zc_zr_gh as ( select v.xh, v.GLBM as glbmbm, v.XZQH as xzqhbm ,HPZL as hpzlbm, FZJG as fz...

发表了文章 • 2016-05-09 16:27 • 2 条评论

1

推荐

2696

阅读

KETTLE访问HDFS数据

通过Hadoop File Input，可以通过kettle操作hdfs上文件，语尽，具体操作如下：1、选择控件hadoop file input2、点击浏览输入server 和port，点击connect-〉ok3、选中内容点击增加注意：hdfs的默认端口是9000附：1）查看文件/etc/yarn1/conf/core-site.xml中fs.defaultFs，查看是否安装了HA(High Available), 高可用性群...

发表了文章 • 2016-04-03 18:39 • 3 条评论

2

推荐

8465

阅读

KETTLE访问HIVE表数据

通过连接，可以访问hive中表数据，和访问关系型数据库中数据表一样，语尽，详细操作如下：1、修改E:\kettle5.1.0\data-integration\plugins\pentaho-big-data-plugin下的plugin.properties修改active.hadoop.configuration=hdp202、修改E:\kettle5.1.0\data-integration\plugins\pentaho-big-data-plugin\hadoop-c...

发表了文章 • 2016-04-03 18:30 • 0 条评论

3

推荐

2259

阅读

kettle生成多层级维度表

头脑发热，想跳过sql用kettle生成多层级维度结构整体流程图1、源数据表结构包含字段表名：code_dept字段： dwdm：代码 dwmc：代码名称 sjdwdm ：父级代码2、拼接所有层级，其中最上级的sjdwdm 字段值为空值步骤：管理部门字段拼接select SYS_CONNECT_BY_PATH(dwdm||'m'||dwmc, '|') dwdmpas...

发表了文章 • 2016-03-18 17:31 • 2 条评论

1

推荐

6293

阅读

Windows下的kettle安装配置

1、安装Java环境下载并安装JDK，http://www.oracle.com/technetwork/java/javase/downloads/index.html一路默认即可。2、配置环境变量增加Windows系统变量 KETTLE_HOME D:\pdi-ce-4.1.0-stable\data-integrationPENTAHO_JAVA_HOME C:\Program File...

发表了文章 • 2015-09-19 17:28 • 0 条评论