如何监控数据仓库中数据质量问题的?监控到垃圾的数据,该如何处理

0
已邀请:
2

我是最优雅的杀手,不杀人专杀狗 - 日光之下并无新事 2016-02-19 回答

涉及到数据清洗,和数据校验。
监控是按照业务规则来执行程序,进行监控。
数据清洗,主要是对录入数据按照业务规则,比如对数据缺失值做清洗,对数据范围值域做清洗,非数值清洗,非日期值做清洗,包括空格清洗,等 使数据标准化。
垃圾数据也就是脏数据的处理:
对于录入错误的数据,如果有数据补录平台,则对错误数据进行界面跳出窗口提示具体哪些数据错误。业务会根据错误信息,进行数据修正,重新导入。
具体实现方案:

地址连接 http://f.dataguru.cn/thread-587409-1-1.html  是目前做的一个清洗存储过程实现案例可参照。

如有疑问可及时沟通。
0

逆光 - BI爱好者 关注:数据学习社区 公众号获取更多资料 2015-12-04 回答

ETL程序的规则都是自己定义的,所以在前期进行测试的时候必须严格测试,保证规则的准确性,因为后期数据抽取到数据仓库里之后,好像就无法再进行监控了,或者可以通过系统界面的数据,与应用系统进行核对,看看是否正确。

要回复问题请先登录注册