有关数据仓库的一大堆问题,麻烦大家了,非常感谢

0
1.数据仓库我的理解就是存放很多张经过ETL处理之后的表的地方,而数据仓库的设计我的理解是根据前端用户的业务需求来设计多张表结构,然后这些表结构设计好之后就可以用前面存放在数据仓库中的表进行填充了,不知道我这样理解是否正确。
2.书上说的星型模型和雪花型模型我能够理解,就是事实表和维度表进行关联,那么这些模型我能不能理解为就是事实表和维度表进行关联的一个图形化表示形式也就是一张图来表示事实表和维度表之间的主外键关系?但是如果是这样的话,我觉得数仓和数据库都是用命令来实现查询的,那这样一来数仓不就支持图形表示了吗?不懂不懂...........还是把这个模型理解为多表之间的关系?
3.正真在设计数据仓库的时候我们是利用类似于数据库设计使用的工具powerdesigner设计还是用笔在纸上写出表结构的来进行设计?
4.我们可以直接使用经过ETL之后的表当作事实表或者维度表吗?
5.如果数据仓库设计之后得到的是多张空数据的表结构的话,那么在填充事实表的时候,里面的包含各维度表中的主键作为事实表中的外键,还有事实表自身的度量,我想问如果一张空事实表的话,里面包含这两部分,是通过SQL语句FROM各个维度表进行选择出各维度表的主键,然后用聚集函数得到度量吗?这样的话FROM后面的表不就是笛卡尔基吗?数量岂不是很大?因为没用过数仓,不知道是不是还有其他简单的方法进行填充?
6.如果像我所说的话,一个设计好的数据仓库里面就存放的是用户所需的各种用于决策的完整的表,然后通过报表工具或者OLAP进行简单查询就得到用户想要的报表吗?
7.因为事实表已经是维度表的一个总结,那么为什么还需要维度表和事实表构成星型或雪花型模型呢?这两种模型在整个决策系统中又有哪些作用呢?
因为是在校大学生,没有机会使用到付费的一些工具,只能看书凭空理解,所以问题有点多,希望老师能够帮忙解答,十分感谢!
已邀请:
2

逆光 - BI爱好者 关注:数据学习社区 公众号获取更多资料 2015-09-09 回答

第一个问题:数据仓库你可以理解为一个系统,一般我们理解为BI的数据库,他是面向对象的,所以通常分为三个层级,ODS缓冲区,DW数据仓库层,DM数据集市层三个层级,数据仓库的设计是根据需求主题而设计的最后通过展现工具来对数据进行展示.
第二个问题,前面理解都对,但是最后事实表和维度表都是存放数据的,不是多张维度表的总和
第三个问题,肯定不是用笔啊。。。用excel设计出来也可以,但是最后建模都是用工具设计
第四个问题什么叫直接使用经过ETL之后的表?
ETL是根据我们需要来设计和抽取数据的,先设计好表,再开发ETL的,维度表和事实表都是设计好的
还有,不建议添加什么主键和外键,你设计数据库的时候不强制添加主键和外键,也不用关联
因为展示工具会进行关联
第五个问题:如果吧所有数据都放进一个表,肯定会出现笛卡尔乘积的现象,所以数据库分了三个层次就是为了避免这个情况的发生。
DW和DM层的数据粒度是不同的。
第六个问题:基本可以这么理解。
第七个问题:事实表已经是维度表的一个总结?不是总结他们存放的数据是不同的。另外这个模型是根据实际情况来设计的,多个星型结构连接在一起就是雪花了,有些是公共维度表,这样可能关联了几个事实表,可以理解为雪花模型了,有时唯独表只用于某一个事实表,可以理解为星型,所以很多都是根据实际情况来设计。

要回复问题请先登录注册