SSIS2012数据事件探查任务用法以及分析数据事件探查任务的结果

浏览: 2365

开篇介绍

开发设计ETL之前,用数据事件探查任务来分析源数据质量是否参差不齐,数据丢失或者数据是否输入有错误的等。分析数据的目的是了解数据源的数据,方便ETL开发以及维度结构的设计。下面以AdventureWorks2014数据库中的[Sales].[SalesOrderDetail]表为例作说明。示例数据库下载地址 提取密码 je6p


实现步骤

1.在控制流中,拖入“数据事件探查任务”控件,双击,Destination新建文件管理器test_profile.xml,OverWriteDestiantion选择True,每次覆盖文件内容。 如图所示配置

Clipboard Image.png

2.在连接管理器栏或者在快速配置文件选项中新建Ado.net连接管理器,配置如图所示。然后执行

Clipboard Image.png

执行结果

Clipboard Image.png

3.打开执行后的XML文件。双击“数据事件探查任务”,单击“打开配置文件查看器”或者打开应用程序Clipboard Image.png指定创建xml文件路径。

  打开后的界面。

Clipboard Image.png

各项作用说明

1 函数依赖关系配置文件

对于对“决定列”中的每个唯一值,在“依赖列”中是否只有唯一值与之关联吗?此处以CarrierTracingNumber与SpecialOfferID为例,依赖关系没有达到100%,说明并不是唯一值与之关联。双击对应行可以细看数据哪里冲突。图中标明很明显了。

Clipboard Image.png



2 候选简配置文件

确定唯一性的列或者列的组合,当加载维度和事实的时候,需要知道如何识别一个新的或已有的源数据。

Clipboard Image.png


3 列NULL比率配置文件

用来验证表中数据完整性,比如在ETL设计中对null值得处理或者主外键关系来联系维度和事实的时候,可以对你引用的数据完整性有个初步了解。

Clipboard Image.png


4 列模式配置文件

使用正则表达式语法显示列中数据所包含的模式,如图:

CarrierTracingNumber列值的方式是按照正则表达式\w\w\w\w-4\w\w\w-\w\w模式。

Clipboard Image.png


5 列统计信息配置文件

该分析使用于数字和日期有关的数据类型,对于事实表源评价是很有价值的,一般事实表的度量值几乎都是基于数字的。

Clipboard Image.png


6 列长度分布配置文件

对合理的定义事实表中的数据类型长度很有意义


Clipboard Image.png


7 列值分布配置文件

可以观察某列值有多少唯一值,有多少值只被使用一次

Clipboard Image.png


总结

数据分析是ETL设计开发前期任务之一,可以避免日后出现出乎意料的情况,当然这种出乎意料是指不好的结果。

------------------------------------------------------------------------蠢萌分割线------------------------------------------------------------------------

推荐个公众号“IT海贼船”(点击进入),以动漫海贼王为主题。内容:职业规划,工作,面试经验分享,多方向实战案例分享的文章,视频资源等等。



黑胡子: 人的梦想,永远不会结束!

推荐 2
本文由 粽子job 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册