开篇介绍
开发设计ETL之前,用数据事件探查任务来分析源数据质量是否参差不齐,数据丢失或者数据是否输入有错误的等。分析数据的目的是了解数据源的数据,方便ETL开发以及维度结构的设计。下面以AdventureWorks2014数据库中的[Sales].[SalesOrderDetail]表为例作说明。示例数据库下载地址 提取密码 je6p
实现步骤
1.在控制流中,拖入“数据事件探查任务”控件,双击,Destination新建文件管理器test_profile.xml,OverWriteDestiantion选择True,每次覆盖文件内容。 如图所示配置
2.在连接管理器栏或者在快速配置文件选项中新建Ado.net连接管理器,配置如图所示。然后执行
执行结果
3.打开执行后的XML文件。双击“数据事件探查任务”,单击“打开配置文件查看器”或者打开应用程序指定创建xml文件路径。
打开后的界面。
各项作用说明
1 函数依赖关系配置文件
对于对“决定列”中的每个唯一值,在“依赖列”中是否只有唯一值与之关联吗?此处以CarrierTracingNumber与SpecialOfferID为例,依赖关系没有达到100%,说明并不是唯一值与之关联。双击对应行可以细看数据哪里冲突。图中标明很明显了。
2 候选简配置文件
确定唯一性的列或者列的组合,当加载维度和事实的时候,需要知道如何识别一个新的或已有的源数据。
3 列NULL比率配置文件
用来验证表中数据完整性,比如在ETL设计中对null值得处理或者主外键关系来联系维度和事实的时候,可以对你引用的数据完整性有个初步了解。
4 列模式配置文件
使用正则表达式语法显示列中数据所包含的模式,如图:
CarrierTracingNumber列值的方式是按照正则表达式\w\w\w\w-4\w\w\w-\w\w模式。
5 列统计信息配置文件
该分析使用于数字和日期有关的数据类型,对于事实表源评价是很有价值的,一般事实表的度量值几乎都是基于数字的。
6 列长度分布配置文件
对合理的定义事实表中的数据类型长度很有意义
7 列值分布配置文件
可以观察某列值有多少唯一值,有多少值只被使用一次
总结
数据分析是ETL设计开发前期任务之一,可以避免日后出现出乎意料的情况,当然这种出乎意料是指不好的结果。
------------------------------------------------------------------------蠢萌分割线------------------------------------------------------------------------
推荐个公众号“IT海贼船”(点击进入),以动漫海贼王为主题。内容:职业规划,工作,面试经验分享,多方向实战案例分享的文章,视频资源等等。
黑胡子:“ 人的梦想,永远不会结束!”