【老贝伏枥】Kimball多维模型的四大误解

浏览: 1532

  很久没看模型方面的理论知识,最近3年在互联网公司琢磨前行,遇到了很多坑和自我否定或迷惑的状态。就多维模型来说,被传统行业洗礼,还有误人子弟的网上文章和CUBE工具,把kimball带入了一个万劫不复的误区。我是幸运的,而且逃离了这个误区。接下来讲解一下我亲身经历的(Raph总结的)四大误区:

一、维度模型只包含汇总数据

    原因:完全是被某些cube工具带偏了kimball的本质。如kylin, 只能选择5~10个维度构建cuboid。

    事实上,多维模型首先是把某个业务过程,基于最细粒度的维度化模型。互联网数仓常用的大宽表,一般采用这个方式构建维度模型。

    怎么能说只包含汇总数据呢?

二、维度模型是部门级,不是企业级模型

    原因:很多项目采用Inmon构架基础数据层,然后构建多维数据集市。导致很多码农以为,维度模型仅仅适用于某个部门的产品需求。

    事实上,多维模型是围绕业务过程来构建,构建星型或雪花型维度化模型。比如轻度汇总层、主题宽表层,就是面向企业级的模型。

三、维度模型不可扩展,或扩展性差

    原因:维度模型只能装有限少量维度的汇总数据,一旦迭代维度,模型就需要重构和预计算数据。

    事实上,给终端用户报表的汇总数据,属于聚集事实表,这很不容易扩展。聚集事实表,必须衍生于最细粒度构建的维度模型。如果说模型不可扩展,或数据量必须有限,那就是设计者的建模理论缺乏导致。

四、维度模型仅用于预测或无法适应迭代

    原因:很多算法工程师,总是基于汇总的数据做模型演练和机器学习。一旦迭代,他们就得重新去取数,构建数据集。

    事实上,构建最细粒度的、高内聚低耦合的维度模型,非常容易扩展,并且主动拥抱迭代。


  希望此文,对迷途中的你有所帮助。

推荐 1
本文由 贝克汉姆 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册