这是一篇流水账总结,在维度设计上有困惑的可以看看,完全不了解的也请忽略。
维度的设计过程就是确定维度属性的过程,维度属性的优劣,决定了维度使用的方便性,成为数据仓库易用性的关键。正如Kimball所说的,数据仓库的能力直接与维度属性的质量和深度成正比。
维度的基本概念
在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。
维度包含的维度列,称为维度属性,维度属性是查询约束条件、分组和报表标签的基本来源,是数据易用性的关键。
维度的作用一般是查询约束、分类汇总以及排序。
维度和维度属性的来源
维度使用主键标识,确保与之相连的任何事实表的引用完整性
维度设计的目标
尽可能生成丰富的维度属性,为下游的数据统计、分析、探查提供良好的基础
尽可能多底给出包括一些富有意义的文字性描述
区分数值型属性和事实
尽量沉淀出通用的维度属性,构建企业范围内一致性维度来构建总线架构
易用性: 模型可理解性高、访问复杂度低。用户能够方便地从模型中找到对应的数据表,并能够方便的查询和分析
维度的基本设计方法
维度的层次结构
维度整合与拆分
整合
为什么整合
整合内容
命名规范的统一,表名、字段名统一
字段类型统一,相同和相似字段类型一致
公共代码及代码值的统一
业务含义相同的表统一
表整合方式
水平拆分
垂直拆分
为什么拆分
设计主从维度
主维表存放稳定、产出时间早、热度高的属性
从维表存放变化较快、产出时间晚、热度低的属性
维度变化
缓慢变化维
目的:反映维度的历史变化
处理方式
一: 重写维度值,适合不需要历史数据、始终取最新数据情况
二:插入新的维度行,维度变化前的事实和旧的维度值关联,维度变化后的事实和当前的维度值关联; 不能讲变化前后的记录事实归一为变化前的维度或者变化后的维度
三:插入维度列,例如:维表有两个类目字段 所属新类目、所属旧类目
快照维表
历史拉链存储
特殊维度
维度设计平衡的技术因素
历史文章
数据产品
互联网+企业 数据化运营所需要的数据产品体系
数据产品的第一性原理
DMP除了用于精准广告投放还能干些什么?
品牌究竟需要怎样的DMP?
数据可视化
图表分类及常用图表汇总
数据可视化难在哪里?又怎么入门
数据可视化系列 | 占比类图表饼图、环图、复合饼图、条形图、百分比堆积面积图
数据可视化系列 | 比较关系的漏斗图、雷达图、花瓣图、堆积面积图
数据可视化系列 | 比较关系之柱状图
用户画像
用户画像建设过程简析 | 连载一
建立用户画像的标签体系 | 连载二
时尚全媒体用户画像建模 | 连载三
其它
算法实例 | 人人都能看懂的逻辑回归
算法实例 | 补充逻辑回归的数据处理细节
以好奇心日报为业务原型,说说大数据平台的数据建模过程
如何成为一名大数据人?传授两则心法以共勉
新零售从业者必读书--数据化管理(洞悉零售及电子商务运营)
Hadoop、Spark、Hive、HBase都是干什么的,看完此文让你从此不再迷惑
荐书 | 《大数据之路,阿里巴巴大数据实践》值得慢慢品读
读书笔记 | 阿里巴巴数据整合及管理体系详细说明
作者:百川,微信公众号:修炼大数据(studybigdata)