【老贝伏枥】Kimball多维模型的四大误解

发表: 2020-07-21 浏览: 1532

维度化模型 kimball

很久没看模型方面的理论知识，最近3年在互联网公司琢磨前行，遇到了很多坑和自我否定或迷惑的状态。就多维模型来说，被传统行业洗礼，还有误人子弟的网上文章和CUBE工具，把kimball带入了一个万劫不复的误区。我是幸运的，而且逃离了这个误区。接下来讲解一下我亲身经历的(Raph总结的)四大误区：

一、维度模型只包含汇总数据

原因：完全是被某些cube工具带偏了kimball的本质。如kylin, 只能选择5~10个维度构建cuboid。

事实上，多维模型首先是把某个业务过程，基于最细粒度的维度化模型。互联网数仓常用的大宽表，一般采用这个方式构建维度模型。

怎么能说只包含汇总数据呢？

原因：很多项目采用Inmon构架基础数据层，然后构建多维数据集市。导致很多码农以为，维度模型仅仅适用于某个部门的产品需求。

事实上，多维模型是围绕业务过程来构建，构建星型或雪花型维度化模型。比如轻度汇总层、主题宽表层，就是面向企业级的模型。

原因：维度模型只能装有限少量维度的汇总数据，一旦迭代维度，模型就需要重构和预计算数据。

事实上，给终端用户报表的汇总数据，属于聚集事实表，这很不容易扩展。聚集事实表，必须衍生于最细粒度构建的维度模型。如果说模型不可扩展，或数据量必须有限，那就是设计者的建模理论缺乏导致。

原因：很多算法工程师，总是基于汇总的数据做模型演练和机器学习。一旦迭代，他们就得重新去取数，构建数据集。

事实上，构建最细粒度的、高内聚低耦合的维度模型，非常容易扩展，并且主动拥抱迭代。

希望此文，对迷途中的你有所帮助。

要回复文章请先登录或注册