ETL 数据增量抽取方案

浏览: 4908

一、 ETL 简介

数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而提供全

面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL 是企业数据集成的

主要解决方案。

随着信息化建设的发展,巨大的投资为公安行业建立了众多的信息系统,以帮助公安进

行内外部业务的处理和管理工作,但是随着信息系统的增加,各自孤立工作的信息系统将会

造成大量的冗余数据和业务人员的重复劳动。数据集成是公安应用集成的重要环节,实现数

据集成,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动

和相应费用。

但是,在实施数据集成的过程中,由于不同用户提供的数据可能来自不同的途径,其数

据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式

后丢失信息等棘手问题,严重阻碍了数据在各部门和各应用系统中的流动与共享。因此,如

何对数据进行有效的集成管理已成为增强公安战斗力的必然选择。ETL 是实现数据集成的

主要技术。

ETL 中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。

(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从

源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数

据进行清洗和加工;(3)数据加载:将转换后的数据装载到目的数据源。

ETL 作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、

平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集

市中,成为联机分析处理、数据挖掘的基础。现在越来越多地将ETL 应用于一般信息系统

数据的迁移、交换和同步。一个简单的ETL 体系结构如图1.1 所示。

神盾技术文档,【ETL 数据增量抽取方案】


二、 ETL 抽取方案

ETL 过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功

能,ETL 工具会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、

统计信息等。

2.1 数据抽取

数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。

从数据库中抽取数据一般有以下几种方式:

2.1.1 全量抽取

全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数

据库中抽取出来,并转换成自己的ETL 工具可以识别的格式。全量抽取比较简单。

2.1.2 增量抽取

增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使

用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获

方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;

性能,不能对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变

化数据的方法有:


2.1.2.1 触发器方式(又称快照式):

在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源

表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表

中抽取数据,临时表中抽取过的数据被标记或删除。

优点:数据抽取的性能高,ETL 加载规则简单,速度快,不需要修改业务系统表结构,

可以实现数据的递增加载。

缺点:要求业务表建立触发器,对业务系统有一定的影响。

2.1.2.2 时间戳方式:

它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更

新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与

时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段

的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就

要求业务系统在更新业务数据时,手工更新时间戳字段。

优点:同触发器方式一样,时间戳方式的性能也比较好,ETL 系统设计清晰,源数据抽

取相对清楚简单,可以实现数据的递增加载。

缺点:时间戳维护需要由业务系统完成,对业务系统也有很大的倾入性(加入额外的时

间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新


时间戳操作,工作量大,改动面大,风险大;另外,无法捕获对时间戳以前数据的delete

和update 操作,在数据准确性上受到了一定的限制。

2.1.2.3 全表删除插入方式

每次ETL 操作均删除目标表数据,由ETL 全新加载数据。

优点:ETL 加载规则简单,速度快。

缺点:对于维表加代理键不适应,当业务系统产生删除数据操作时,综合数据库将不会

记录到所删除的历史数据,不可以实现数据的递增加载;同时对于目标表所建立的关联关系,

需要重新进行创建。

2.1.2.4 全表比对方式:

全表比对的方式是采用MD5 校验码,ETL 工具事先为要抽取的表建立一个结构类似的

MD5 临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5 校验码,

每次进行数据抽取时,对源表和MD5 临时表进行MD5 校验码的比对,如有不同,进行

Update 操作,如目标表没有存在该主键值,表示该记录还没有,即进行Insert 操作。

优点:对已有系统表结构不产生影响,不需要修改业务操作程序,所有抽取规则由ETL

完成,管理维护统一,可以实现数据的递增加载,没有风险。。

缺点:ETL 比对较复杂,设计较为复杂,速度较慢。与触发器和时间戳方式中的主动通

知不同,全表比对方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列

且含有重复记录时,全表比对方式的准确性较差。

2.1.2.5 日志表方式

在业务系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容,当作

ETL 加载时,通过读日志表数据决定加载那些数据及如何加载。

优点:不需要修改业务系统表结构,源数据抽取清楚,速度较快。可以实现数据的递增

加载。



缺点:日志表维护需要由业务系统完成,需要对业务系统业务操作程序作修改,记录日

志信息。日志表维护较为麻烦,对原有系统有较大影响。工作量较大,改动较大,有一定风

险。

2.1.2.6 Oracle 变化数据捕捉(CDC 方式):

通过分析数据库自身的日志来判断变化的数据。Oracle 的改变数据捕获(CDC,

Changed Data Capture)技术是这方面的代表。CDC 特性是在Oracle9i 数据库中引入

的。CDC 能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行

insert、update 或 delete 等操作的同时就可以提取数据,并且变化的数据被保存在数据

库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提

供给目标系统。CDC 体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅

者。订阅者使用从发布者那里获得的变化数据。通常,CDC 系统拥有一个发布者和多个订

阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存

在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感

兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需

要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC 分为同步模式和异

步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库

中;异步模式则是基于Oracle 的流复制技术。

优点:提供了易于使用的API 来设置CDC 环境,缩短ETL 的时间。不需要修改业务系统

表结构,可以实现数据的递增加载。

缺点:业务系统数据库版本与产品不统一,难以统一实现,实现过程相对复杂,并且需

深入研究方能实现,CDC 产品推出时间短,难免存在BUG。

2.2 数据转换和加工

从数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输

入错误、数据不完整等等,因此有必要对抽取出的数据进行数据转换和加工。

数据的转换和加工可以在 ETL 引擎中进行,也可以在数据抽取过程中利用关系数据库

的特性同时进行。


2.2.1 ETL 引擎中的数据转换和加工

ETL 引擎中一般以组件化的方式实现数据转换。常用的数据转换组件有字段映射、数据

过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。

这些组件如同一条流水线上的一道道工序,它们是可插拔的,且可以任意组装,各组件之间

通过数据总线共享数据。同时ETL 工具还提供了脚本支持,使得用户可以以一种编程的方

式定制数据的转换和加工行为。

2.2.2 在数据库中进行数据加工

关系数据库本身已经提供了强大的SQL、函数来支持数据的加工,如在SQL 查询语句

中添加where 条件进行过滤,查询中重命名字段名与目的表进行映射,substr 函数,case

条件判断等等。

相比在 ETL 引擎中进行数据转换和加工,直接在SQL 语句中进行转换和加工更加简单

清晰,性能更高;对于SQL 语句无法处理的可以交由ETL 引擎处理。

2.3 数据装载

将转换和加工后的数据装载到目的库中通常是ETL 过程的最后步骤。装载数据的最佳

方法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,一般来说

有两种装载方式:

1) 直接 SQL 语句进行insert、update、delete 操作。

2) 采用批量装载方法,如 bcp、bulk、关系数据库特有的批量装载工具或api。

大多数情况下使用第一种方法,因为它们进行了日志记录并且是可恢复的。但是,批量

装载操作易于使用,并且在装入大量数据时效率较高。使用哪种数据装载方法取决于业务系

统的需要。

三、 ETL 数据抽取所采用的方案

通过以上对ETL 数据抽取方案的描述和研究,针对公安各个业务系统的实际情况,数据

需要包含即时抽取和定时抽取,并且通过调研各个系统所采用的数据库版本有的为Oracle8i,


有的为Oracle9i,有的为SQL Server2000 等,为保证数据高质量、高性能的进行抽取,经项

目成员共同讨论决定采用快照方式,即触发器方式,实现过程如下:

3.1 对业务系统改造

1. 在业务系统数据库中建立快照表 SUNDUN_TRUNS,用来记录业务系统数据的改变。

附录:在业务系统中运行快照表创建脚本:

传输快照表创建脚

本.sql

2. 在业务系统数据库的相关表上创建触发器,把改变的记录放入快照表。

附录:在业务系统中运行触发器创建脚本:

增量快照表触发器

创建脚本.sql

触发器在业务数据插入后执行,同时增加错误处理,保证了原有业务不受影响。

3. 由于需要对业务系统的数据库进行改造,提供的接口抽取用户需要具有一定的权

限,如果客户不予提供创建表和触发器的权限,需要数据库管理方给创建快照表和

触发器,我公司配合完成。


四、文档下载

推荐 0
本文由 请叫我老爷 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册