目录
前言及致谢....................................................................................................................................... 1
致谢........................................................................................................................................... 1
作者简介 ................................................................................................................................... 2
1 介绍 .............................................................................................................................................. 3
1.1全书概览:两条并存的主线 ............................................................................................. 5
1.2规划与设计主线 ................................................................................................................. 6
1.3数据流主线 ......................................................................................................................... 8
1.4本书如何组织 ................................................................................................................... 10
1.5谁将阅读本书 ................................................................................................................... 16
1.6总结 .................................................................................................................................. 16
第一部分 需求、现状和架构 ..................................................................................................... 18
2一切围绕需求 .............................................................................................................................. 18
2.1需求 .................................................................................................................................. 18
2.2架构 .................................................................................................................................. 23
2.3数据仓库的任务 ............................................................................................................... 35
2.4 ETL小组的任务 ................................................................................................................ 40
3 ETL数据结构 ............................................................................................................................... 41
3.1是否集结数据 ................................................................................................................... 41
3.2设计集结区 ....................................................................................................................... 43
3.3 ETL系统中的数据结构 .................................................................................................... 47
3.4规划和设计标准 ............................................................................................................... 59
3.5总结 .................................................................................................................................. 62
第二部分 数据流 ......................................................................................................................... 64
4抽取 ............................................................................................................................................. 64
4.1第1部分:逻辑数据映射 ............................................................................................... 65
4.2逻辑数据映射内部 ........................................................................................................... 67
4.3创建逻辑数据映射 ........................................................................................................... 70
4.4集成异构数据源 ............................................................................................................... 80
4.5第2部分:从不同平台进行抽取的挑战 ....................................................................... 82
4.6主机数据源 ....................................................................................................................... 83
4.7平面文件........................................................................................................................... 97
4.8 XML数据源 .................................................................................................................... 100
4.9 Web日志数据源 ............................................................................................................ 104
4.10 ERP系统数据源 ........................................................................................................... 108
4.11第3部分:抽取变化数据 ........................................................................................... 111
4.12总结 .............................................................................................................................. 117
II
5清洗和规范化 ............................................................................................................................ 118
5.1定义数据质量 ................................................................................................................. 120
5.2假设 ................................................................................................................................ 120
5.3第1部分:设计目标 ..................................................................................................... 122
5.4第2部份:清洗提交报告 ............................................................................................. 129
5.5第3部份:过滤器及其度量 ......................................................................................... 136
5.6第4部分:规范化报表 ................................................................................................. 154
5.7小结 ................................................................................................................................ 165
6提交维表.................................................................................................................................... 167
6.1维度的基础框架 ............................................................................................................. 167
6.2维度的粒度 ..................................................................................................................... 171
6.3维度的基本加载计划 ..................................................................................................... 171
6.4扁平(Flat)维度和雪花(Snowflaked)维度 ............................................................ 172
6.5日期与时间维 ................................................................................................................. 174
6.6大维度............................................................................................................................. 177
6.7小维度............................................................................................................................. 178
6.8一个维表还是多个 ......................................................................................................... 180
6.9角色维度......................................................................................................................... 181
6.10其他维度的子维杜 ....................................................................................................... 182
6.11退化维 .......................................................................................................................... 184
6.12缓慢变化维................................................................................................................... 185
6.13类型1缓慢变化维(覆盖) ....................................................................................... 185
6.14类型2缓慢变化维(分区历史) ............................................................................... 187
6.15第二种缓慢变化维的精确时间戳 ............................................................................... 191
6.16类型3缓慢变化维(交替实体) ............................................................................... 193
6.17混合缓慢变化维 ........................................................................................................... 195
6.18滞后到达的维度记录和更正劣质数据 ....................................................................... 195
6.19层次维和桥接表 ........................................................................................................... 197
6.20不规则层次和桥接表 ................................................................................................... 200
6.21技术关键点:生成层次桥接表 ................................................................................... 202
6.22采用维度中的位置属性展现文本事实 ....................................................................... 207
6.23小结 .............................................................................................................................. 209
7提交事实表................................................................................................................................ 211
7.1事实表基本结构 ............................................................................................................. 211
7.2确保参照完整性 ............................................................................................................. 213
7.3代理键管道 ..................................................................................................................... 215
7.4基础粒度......................................................................................................................... 218
7.5准备装载事实表 ............................................................................................................. 225
7.6无事实的事实表 ............................................................................................................. 233
7.7用类型2历史数据补充类型1事实表 ......................................................................... 234
7.8优化更正......................................................................................................................... 235
7.9事实表中多个度量单位 ................................................................................................. 237
7.10在多币种中收集收入 ................................................................................................... 239
7.11迟到的事实................................................................................................................... 240
III
7.12聚合 .............................................................................................................................. 241
7.13提交维度数据到OLAP立方体 .................................................................................... 248
7.14总结 .............................................................................................................................. 253
第三部分 实施与运行 ................................................................................................................. 255
8开发 ........................................................................................................................................... 255
8.1当前市场上提供的ETL工具包 ..................................................................................... 256
8.2当前脚本语言 ................................................................................................................. 258
8.3时间是本质 ..................................................................................................................... 259
8.4使用数据库的块加载工具加速数据插入 ..................................................................... 277
8.5管理数据库特性来提高性能 ......................................................................................... 282
8.6性能问题纠错 ................................................................................................................. 292
8.7增长的ETL吞吐量 ......................................................................................................... 294
8.8总结 ................................................................................................................................ 300
9操作 ........................................................................................................................................... 302
9.1调度和支持 ..................................................................................................................... 302
9.2迁移到生产系统 ............................................................................................................. 315
9.3清除历史数据 ................................................................................................................. 329
9.4监控ETL系统 ................................................................................................................. 330
9.5ETL过程调优 ................................................................................................................... 338
9.6ETL系统安全 ................................................................................................................... 341
9.7短期归档和恢复 ............................................................................................................. 343
9.8长期归档和恢复 ............................................................................................................. 344
9.9总结 ................................................................................................................................ 347
10元数据 ..................................................................................................................................... 348
10.1定义元数据................................................................................................................... 348
10.2业务元数据................................................................................................................... 357
10.3技术元数据................................................................................................................... 360
10.4 ETL生成的元数据 ........................................................................................................ 364
10.5元数据标准和实践 ....................................................................................................... 374
10.6效果分析....................................................................................................................... 376
10.7总结 .............................................................................................................................. 376
11.职责 ......................................................................................................................................... 378
11.1计划和领导................................................................................................................... 378
11.2管理项目....................................................................................................................... 385
11.3总结 .............................................................................................................................. 409
第4部分 实时流ETL系统 ....................................................................................................... 411
12实时ETL系统 .......................................................................................................................... 411
12.1为什么要有实时ETL .................................................................................................... 412
12.2实时ETL的定义 ........................................................................................................... 413
12.3实时数据仓库化的挑战和机遇 ................................................................................... 414
12.4实时数据仓库的回顾 ................................................................................................... 414
12.5需求分类....................................................................................................................... 419
12.6实时ETL过程 ............................................................................................................... 426
13结论 ......................................................................................................................................... 446
IV
13.1深化ETL的定义 ........................................................................................................... 446
13.2数据仓库和ETL的未来 ............................................................................................... 448