模型准则
1.高内聚和低耦合
一个逻辑或者物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法论的高内聚和低藕合原则。主要从数据业务特性和访问特点2个来考虑 :
- 将业务相近或者相 关、粒度相同的数据设计为一个逻辑或者物理模型
- 将高概率同 时访问的数据放 一起 ,将低概率同时访问的数据分开存储。
2.核心模型与扩展模型分离
建立核心模型与扩展模型体系,核心模型包括 的宇段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应用的需要 。不能让扩展模型的宇段过度侵人核心模型,以免破坏核 心模型的架构简洁性与可维护性。
3.公共处理逻辑下沉及单一
越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实 现。不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑多处同时存在。
4.成本与性能平衡制。
适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。
5.一致性、完整性
具有相同含义的字段在不同表中的命名必须相同,必须使用规范定义中的名称。
6.命名清晰、可理解
表命名需清晰、一致,表名需易于消费者理解和使用。
模型的好处
- 性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐。
- 成本 : 良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
- 效率 :良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
- 质量 : 良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
因此,毋庸置疑,大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。