文章内容来源于视频的内容,大家可以去看视频:https://edu.hellobi.com/course/9/play/lesson/116
本文自己作者的笔记内容。
本文大概罗列了数据仓库的一些概念:
1)数据仓库建设的条件,数据仓库的特点,实现数据仓库的目的,建设数据仓库的思想
2)数据仓库数据的实现手段,ETL的构建,管理及不同数据的加载策略
3)数据仓库的管理: 元数据
4)数据仓库的建模:这里说的是维度建模,了解维度和度量值的概念;指标表和事实表的概念;星型模型和雪花模型;powerdesigner 数据模型。
5) 数据的展示: 了解这些概念切片,切块,钻取,旋转,转轴; OLAP
1.建立数据仓库的基本条件
1)有较为成熟的OLTP,为数仓数据分析提供数据来源。这是数仓建设的客观条件。
2)面临市场的竞争压力,通过数据分析服务业务。这是数仓建设的外在功力。
3)该行业为数据密集型行业,数据量比较大。
2. 数仓的特点
数仓是一个面向主题的、集成的、随时间变化的、信息相对、稳定的数据集合。
用于对企业管理和决策提供支持。
2.1 面向主题的
主题:用户使用数仓进行决策时所关心的重点方面,如:客户、产品、账务、事件、资源、地域等等;
面向主题:根据用户在进行决策时所关心的主题进行组织。业务西宫是按照
业务功能进行组织的。分析和明确企业所涵盖的业务范围,并且对企业业务今次那个高度概括性的描述,
把密切相关的业务对象进行归类。不同行业会有不同的主题域划分。
2.2 数据集成
数仓的数据来源于企业各个业务系统中的数据。需要对数据进行抽取,清洗,转换,加载。
目的消除源数据中的不一致性。 因此数据仓库中的信息是关于整个企业的一致的全局信息。
(集成的转换规则,一般需要用户提供转换规则,不要自己设想)
2.3 随时间变化而变化的
数仓可以反应一个用户的状态变化过程以及分析变化的原因。数仓中记录的是从过去某一时点到当前各个阶段的信息。
2.4 数据相对稳定
数据仓库中主要是对信息进行查询操作。 通常只对进入数仓中的数据进行定期的加载和刷新。 很少进行修改。
(对于审核情况的数据,需要和客户进行确认对数据的加载方式,比如:发生日期,审核日期,生效日期等等,以及数据的回退方案)
3.数据仓库构建的思想
3.1 自上而下
要建立这样的数据仓库,并不从他需要支持那些应用入手,从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性。
即一个企业建立唯一的数据中心。
3.2 自下而上
建设数据仓库应该按照实际的应用需求, 加载需要的数据,不需要的数据不必要加载到数据仓库中。
这种方式建设周期较短,客户能很快看到结果
(比如: 通过客户现有的报表进行入手,分析数据仓库所需要的内容。这种方式最简单,但是这只是数仓建设的切入点,因为用户建立
数据仓库的目的,并不仅仅是实现现有的报表。
4.ETL
从数据源抽取出所需要的数据,经过清洗,转换,最终按照预先定义好的数据仓库模型,加载到数据仓库中去。
4.1 ETl调度目标
(相当于:接口文件的设计)
数据来源:数据库、数据库文件、文本文件、程序生成
系统数目:单个系统/多个系统
数据库类型:同种数据库、多种数据库
4.2ETL调度JOB设计
文本文件加载
sql在程序汇总调用
存储过程
ETL工具的workflow
4.3 ETl调度参数设计
调度优先级 :
调度次序:原始库--》临时库--》仓库的ods层=》数据仓库dw层
中断标志:
回滚标志:一旦数据有异常,怎么回滚
成功标志:
调度开始结束时间等
4.4 ETl调度日志管理
文件记录或数据库记录
作业分类,作业名称,作业执行开始时间、作业执行结束时间,异常信息补货等等
5.ETL调度策略设计
5.1全量加载
1)初始化的时候全量加载
2)对维度信息类数据,只要求显示最新数据的情况下,采用全量加载
5.2增量加载
1)流水分批调度设计
2)按周期抽取,按日,按月
3)在生产系统闲暇时进行抽取
4)分批进行
5)实时同步(oracle dsg,ogg,实时同步)
5.3调度并发设计
1)并发设计
2)冲突设计
3)异常处理
4)成功、错误退出方式
6.数据仓库的概念-元数据
元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便的找到
他们所关心的数据;
元数据是描述数据仓库内数据的结构和建立方法的数据,
可将其按用途的不同分为两类:技术元数据和业务元数据。
6.1技术元数据
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。
数据仓库结构的描述: 仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。
业务系统、数据仓库和数据集市的体系结构和模式;
汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;
由操作环境到数据仓库环境的映射,包括源数据和他们的内容、数据分割、
数据存取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。
7 .数据仓库的概念-联机处理分析OLAP
8. 数据仓库的概念-维度和度量概念
分析的指标及分析的维度
每一个分析的角度都可以叫做一个维。
关于维度要考虑下面几个概念
1)维度表有层级
2)维度表的属性
3)维度表的缓慢变化
一般相对比较难的就是维度表的缓慢变化处理。
9.维度表和事实表的设计
10. 模型:雪花模型和星型模型
11.powerdesigner基本使用
物理模型,sql,逆向工程
12. 数据仓库的概念-切片,切块,钻取,旋转,转轴
多维分析,可以理解为立方体的概念,对立方体的操作,分为下面几个操作
切片和切块 :在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。
每次都是沿其中一维进行分割称为分片,每次沿多维进行的分片称为分块。
钻取:向下钻取和向上钻取,钻取的深度与维度划分的层次相对应。(日,月,季,年)
旋转和转轴: 通过旋转可以得到不同视角的数据。(分组的前后顺序)