The+Data+Warehouse+ETL+Toolkit中文版 (资料下载)

浏览: 3260

目录

前言及致谢....................................................................................................................................... 1

致谢........................................................................................................................................... 1

作者简介 ................................................................................................................................... 2

1 介绍 .............................................................................................................................................. 3

1.1全书概览:两条并存的主线 ............................................................................................. 5

1.2规划与设计主线 ................................................................................................................. 6

1.3数据流主线 ......................................................................................................................... 8

1.4本书如何组织 ................................................................................................................... 10

1.5谁将阅读本书 ................................................................................................................... 16

1.6总结 .................................................................................................................................. 16

第一部分 需求、现状和架构 ..................................................................................................... 18

2一切围绕需求 .............................................................................................................................. 18

2.1需求 .................................................................................................................................. 18

2.2架构 .................................................................................................................................. 23

2.3数据仓库的任务 ............................................................................................................... 35

2.4 ETL小组的任务 ................................................................................................................ 40

3 ETL数据结构 ............................................................................................................................... 41

3.1是否集结数据 ................................................................................................................... 41

3.2设计集结区 ....................................................................................................................... 43

3.3 ETL系统中的数据结构 .................................................................................................... 47

3.4规划和设计标准 ............................................................................................................... 59

3.5总结 .................................................................................................................................. 62

第二部分 数据流 ......................................................................................................................... 64

4抽取 ............................................................................................................................................. 64

4.1第1部分:逻辑数据映射 ............................................................................................... 65

4.2逻辑数据映射内部 ........................................................................................................... 67

4.3创建逻辑数据映射 ........................................................................................................... 70

4.4集成异构数据源 ............................................................................................................... 80

4.5第2部分:从不同平台进行抽取的挑战 ....................................................................... 82

4.6主机数据源 ....................................................................................................................... 83

4.7平面文件........................................................................................................................... 97

4.8 XML数据源 .................................................................................................................... 100

4.9 Web日志数据源 ............................................................................................................ 104

4.10 ERP系统数据源 ........................................................................................................... 108

4.11第3部分:抽取变化数据 ........................................................................................... 111

4.12总结 .............................................................................................................................. 117

II

5清洗和规范化 ............................................................................................................................ 118

5.1定义数据质量 ................................................................................................................. 120

5.2假设 ................................................................................................................................ 120

5.3第1部分:设计目标 ..................................................................................................... 122

5.4第2部份:清洗提交报告 ............................................................................................. 129

5.5第3部份:过滤器及其度量 ......................................................................................... 136

5.6第4部分:规范化报表 ................................................................................................. 154

5.7小结 ................................................................................................................................ 165

6提交维表.................................................................................................................................... 167

6.1维度的基础框架 ............................................................................................................. 167

6.2维度的粒度 ..................................................................................................................... 171

6.3维度的基本加载计划 ..................................................................................................... 171

6.4扁平(Flat)维度和雪花(Snowflaked)维度 ............................................................ 172

6.5日期与时间维 ................................................................................................................. 174

6.6大维度............................................................................................................................. 177

6.7小维度............................................................................................................................. 178

6.8一个维表还是多个 ......................................................................................................... 180

6.9角色维度......................................................................................................................... 181

6.10其他维度的子维杜 ....................................................................................................... 182

6.11退化维 .......................................................................................................................... 184

6.12缓慢变化维................................................................................................................... 185

6.13类型1缓慢变化维(覆盖) ....................................................................................... 185

6.14类型2缓慢变化维(分区历史) ............................................................................... 187

6.15第二种缓慢变化维的精确时间戳 ............................................................................... 191

6.16类型3缓慢变化维(交替实体) ............................................................................... 193

6.17混合缓慢变化维 ........................................................................................................... 195

6.18滞后到达的维度记录和更正劣质数据 ....................................................................... 195

6.19层次维和桥接表 ........................................................................................................... 197

6.20不规则层次和桥接表 ................................................................................................... 200

6.21技术关键点:生成层次桥接表 ................................................................................... 202

6.22采用维度中的位置属性展现文本事实 ....................................................................... 207

6.23小结 .............................................................................................................................. 209

7提交事实表................................................................................................................................ 211

7.1事实表基本结构 ............................................................................................................. 211

7.2确保参照完整性 ............................................................................................................. 213

7.3代理键管道 ..................................................................................................................... 215

7.4基础粒度......................................................................................................................... 218

7.5准备装载事实表 ............................................................................................................. 225

7.6无事实的事实表 ............................................................................................................. 233

7.7用类型2历史数据补充类型1事实表 ......................................................................... 234

7.8优化更正......................................................................................................................... 235

7.9事实表中多个度量单位 ................................................................................................. 237

7.10在多币种中收集收入 ................................................................................................... 239

7.11迟到的事实................................................................................................................... 240

III

7.12聚合 .............................................................................................................................. 241

7.13提交维度数据到OLAP立方体 .................................................................................... 248

7.14总结 .............................................................................................................................. 253

第三部分 实施与运行 ................................................................................................................. 255

8开发 ........................................................................................................................................... 255

8.1当前市场上提供的ETL工具包 ..................................................................................... 256

8.2当前脚本语言 ................................................................................................................. 258

8.3时间是本质 ..................................................................................................................... 259

8.4使用数据库的块加载工具加速数据插入 ..................................................................... 277

8.5管理数据库特性来提高性能 ......................................................................................... 282

8.6性能问题纠错 ................................................................................................................. 292

8.7增长的ETL吞吐量 ......................................................................................................... 294

8.8总结 ................................................................................................................................ 300

9操作 ........................................................................................................................................... 302

9.1调度和支持 ..................................................................................................................... 302

9.2迁移到生产系统 ............................................................................................................. 315

9.3清除历史数据 ................................................................................................................. 329

9.4监控ETL系统 ................................................................................................................. 330

9.5ETL过程调优 ................................................................................................................... 338

9.6ETL系统安全 ................................................................................................................... 341

9.7短期归档和恢复 ............................................................................................................. 343

9.8长期归档和恢复 ............................................................................................................. 344

9.9总结 ................................................................................................................................ 347

10元数据 ..................................................................................................................................... 348

10.1定义元数据................................................................................................................... 348

10.2业务元数据................................................................................................................... 357

10.3技术元数据................................................................................................................... 360

10.4 ETL生成的元数据 ........................................................................................................ 364

10.5元数据标准和实践 ....................................................................................................... 374

10.6效果分析....................................................................................................................... 376

10.7总结 .............................................................................................................................. 376

11.职责 ......................................................................................................................................... 378

11.1计划和领导................................................................................................................... 378

11.2管理项目....................................................................................................................... 385

11.3总结 .............................................................................................................................. 409

第4部分 实时流ETL系统 ....................................................................................................... 411

12实时ETL系统 .......................................................................................................................... 411

12.1为什么要有实时ETL .................................................................................................... 412

12.2实时ETL的定义 ........................................................................................................... 413

12.3实时数据仓库化的挑战和机遇 ................................................................................... 414

12.4实时数据仓库的回顾 ................................................................................................... 414

12.5需求分类....................................................................................................................... 419

12.6实时ETL过程 ............................................................................................................... 426

13结论 ......................................................................................................................................... 446

IV

13.1深化ETL的定义 ........................................................................................................... 446

13.2数据仓库和ETL的未来 ............................................................................................... 448


资料下载

推荐 4
本文由 biee新手 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册