数仓模型设计六大准则

浏览: 1407

模型准则

1.高内聚和低耦合

    一个逻辑或者物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法论的高内聚和低藕合原则。主要从数据业务特性和访问特点2个来考虑 :

  • 将业务相近或者相 关、粒度相同的数据设计为一个逻辑或者物理模型
  • 将高概率同 时访问的数据放 一起 ,将低概率同时访问的数据分开存储。 

2.核心模型与扩展模型分离

    建立核心模型与扩展模型体系,核心模型包括 的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要 。不能让扩展模型的宇段过度侵人核心模型,以免破坏核 心模型的架构简洁性与可维护性。 

3.公共处理逻辑下沉及单一

    越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实 现。不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑多处同时存在。 

4.成本与性能平衡制。

    适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。

5.一致性、完整性

    具有相同含义的字段在不同表中的命名必须相同,必须使用规范定义中的名称。 

6.命名清晰、可理解

    表命名需清晰、一致,表名需易于消费者理解和使用。 

模型的好处

  • 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。
  • 成本 : 良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
  • 效率 :良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
  • 质量 : 良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

    因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。 

推荐 0
本文由 贝克汉姆 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册