ETL之前,如何实现数据质量的检测?

0
在ETL抽数之前,数据质量参差不齐,有的缺少必填项,有的长度不合适,有的类型不一致,有没有什么好大方法能在ETL前对数据进行一次质量检测。 目前我的方法是,写个存储过程把质量问题分类进行筛选然后根据问题描述进行统计插入到一张表中,但是指标多了以后这种方法感觉不是很适用。
已邀请:
1

seng - 从事BI、大数据、数据分析工作 2016-02-18 回答

数据质量问题,我建议分2类数据看
1.事实数据
  事实数据出问题,感觉比较好处理,源头质量出什么问题了,看看可不可以加强源头质量就可以了。
2.主数据
 主数据就比较讨厌了,数据来源可能是多系统,相互不一致怎么办,都是问题,流程梳理更是麻烦事。
 数据质量探索你是要做一次还是持续监控,这个是不一样的。
 持续的话可以考虑使用工具,传统ETL厂商都有配套产品Inforamtica、DataStage,DataCleaner也是个选择(不过这个我没用过)。
1

BAO胖子 - 15年BI经验,涉足电力,快消品,医药,信息服务等行业的BI老兵。 2016-02-18 回答

这个东西叫data profiling,informatica, Datastage这种的应该都有。Informatica我没用过,Datastage套系有俩产品,一个叫
infosphere information analyzer, 一个叫data discovery,这俩有点类似,都是查询数据库的数据,去按照一定的规则扫描数据当前基本状况,比如字段为空的比例,column的data pattern模式,两个表之间的关联关系是否有问题(主要指逻辑上有主从关系的表,但物理上没建referential integrity关系)之类的。也有一些开源的巩固,datacleaner应该就是,但是我也没用过。
在查看完数据的基本现状以后,再根据实际情况定义data cleansing的规则,这个也有一些工具,但其实和store procedure也差不多了,无非就是规则的设定和转换,比如infosphere data quality stage,这个是集成在datastage里面的,informatica应该也有类似的东西。
1

BIWORK - 热衷于微软BI技术,技术架构和解决方案! 2016-02-19 回答

可以参考一下微软BI ETL 中这个工具,可以对数据源做一定的数据质量检查。http://www.flybi.net/blog/biwork/530
212206054332042.png

212201408083853.png

 
0

我是最优雅的杀手,不杀人专杀狗 - 日光之下并无新事 2016-02-19 回答

建议在数据补录平台,对数据录入的时候对数据做校验,在源头对数据做处理。
对重要的数据来源的数据,可以建立一个反馈机制,对没有通过数据质量的数据,做标记,并将其存储到一个临时区,发邮件给数据管理员,让其做处理,处理完毕后,再进行总结,并从源头进行治理,避免问题再次发生。
数据加载报错处理,这个还是没有建立元数据管理造成的。建立元数据管理后,如果源系统发生变更,并且的确需要发生这种变更,则需要对涉及的系统进行统一调整。

以下是从IBM文档库 获取的一个关于提供了数据理解,清洗,转换,提交四大功能的产品 。 Information server
地址连接:
http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0909zhendd/

有疑问可以及时沟通。

要回复问题请先登录注册