关于SSIS实际中需要使用的相关技术和控件

0
小弟正在自学微软BI中,目前在看SSIS,想问下实际工作中SSIS用到的相关技术
1.你们会使用数据事件探查任务确定源中值的质量和范围吗?
2.会用到SCD来处理维度ETL吗?
3.级联查找操作时会使用帕累托原则吗?第一个查找转换使用完全缓存,存储了 20%的参考行,并有希望成功应答80%的查找应求。如果查询到了错误数据(剩下20%的失败查询),那么可以将它们重定向到部分缓存查找转换中,该操作针对其他的80%的数据来进行。
4.数据清洗的时候会使用查找转换和模糊查找转换以及有条件查找结合的方式吗?
5.会使用DQS数据质量服务吗?
6.对变更数据的捕获,你们通常会使用什么解决方案呢?会用CDC吗?
7.数据库快照和Merge运算符常用吗?
8.可靠性和可扩展性方面,使用检查点和包事务吗?
9.关于数据流重新启动,大家会将数据流划分成多个独立任务,并通过原始文件链接每个任务,使其获取重新
启动合并流的能力吗?




希望大神们解答我的疑惑!多谢啦
0评估数据源.png 1.png 2.png 4.jpg CDC.png 事实表抽取.png
已邀请:
1

梁勇 - 天道酬勤、上善若水。爱好商业智能 2014-03-25 回答

1.你们会使用数据事件探查任务确定源中值的质量和范围吗?
答:这个数据事件探查任务用的不多,最多的就是用的 日志记录来捕获各个控件的日志记录。 源的质量和范围这个应该是这需求分析中确认而来的。
2.会用到SCD来处理维度ETL吗?
答: 这个SCD主要来处理缓慢变化维度的,还是比较常用的控件。如果数据仓库中有一些随时间变化的粒度,比如 员工的职位、员工的入职时间等都会用到。

3.级联查找操作时会使用帕累托原则吗?第一个查找转换使用完全缓存,存储了 20%的参考行,并有希望成功应答80%的查找应求。如果查询到了错误数据(剩下20%的失败查询),那么可以将它们重定向到部分缓存查找转换中,该操作针对其他的80%的数据来进行。
答: 帕累托原则 这个貌似不懂了。

4.数据清洗的时候会使用查找转换和模糊查找转换以及有条件查找结合的方式吗?
答: 数据清洗的时候查找控件还是比较查用的,一般都是跟条件查找结合的方式来实现,但 这种查找及模糊查找的方式会产生很大的性能问题,最好不要用。。能够通过普通SQL实现的话,就直接通过SQL去实现。

5.会使用DQS数据质量服务吗?
答:DQS不常用

6.对变更数据的捕获,你们通常会使用什么解决方案呢?会用CDC吗?
答:对数据变量的捕获,一般采用 时间戳或者CDC的方式或者全表比对。。时间戳是最常用的变更数据捕获的方式了。。CDC我们在项目开发中也用到了,但是如果用了CDC是非常不利于项目的迁移和拓展的。

7.数据库快照和Merge运算符常用吗?
答:数据库快照是管理方面的知识。Merge运算符一些简单的逻辑可以在SSIS使用。

8.可靠性和可扩展性方面,使用检查点和包事务吗?
答:可靠性和可扩展性方面,使用脚本任务和变量的方式结合用的比较多。

9.关于数据流重新启动,大家会将数据流划分成多个独立任务,并通过原始文件链接每个任务,使其获取重新
启动合并流的能力吗?
答:这个要开业务需求了,比如一个数据流我要实现到往多个表插入数据库,那就需要将数据流拆分成多个任务。。
1

天桥下的郑成功 - Hadoop大数据开发工程师、数仓架构师、熟悉数据仓库设计、Hadoop、Spark、HBase、Hive、SSIS等开发 2014-03-25 回答

哥们你顶上发的这些图 基本已经说明了很多东西。
如果是你自己做过的东西,我觉得这些问题你应该不会问。

DQS 是2012的新功能,借助它可以实现更好的数据质量。

在进行模糊查找匹配之前,因为模糊查找相对比较耗费资源 而且它是一个全阻塞控件,对服务器的性能要求很高。
所以建议在进行模糊查找匹配之前先使用一般查找匹配,然后。。。你懂得。

CDC这个东西是微软为你分装好的SCD, 增量更新解决方案,为了灵活很多地方都是自己开发。
Merge对于增量更新用的也非常多,或者 CheckSum.

要回复问题请先登录注册