盲人摸象-数据架构学习笔记-Build data insight

浏览: 5105

 对于一个Data Architect(后简称DA) 而言,项目初始阶段会有大量的工作要做源数据的探查分析,以期建立对整个系统数据状况的理解以及对数据全貌的洞察。Data Insight这种东西很难描述,可能就是对数据的直觉。

     不管用何种物理实现模式,传统的DW构筑也好,时髦的基于Hadoop, Spark的新一代BIGDATA平台也好,概念和逻辑模型的构筑均是不可或缺。在不同平台上构建DW系统更多偏重的是物理化的实现,认识数据本质过程是无论何种实现手段均必不可少的重要环节。一个DA,假如刚刚加入公司,刚刚加入项目,对公司源系统一无所知的情况下,如何快速的进入角色建立起对整个数据系统全貌的认识呢?通常,刚一入场的DA会陷入两种截然相反的困境,而这两种困境都很让人头疼,此时是考验以及锻炼DA能力的绝好时机,而这两种难题是什么?该如何应对?下面的文章会一一描述。

     困境一:信息太少,不知从何处入手去分析

     通常DA刚刚入场,而又没有了解全局的人去介绍整个系统的概况以及未来的需求时,完全漫无目的期待利用信息指导决策,或者仅仅有一个非常笼统的前进的方向,这些都会让DA不知从何处入手去快速抓住企业需求的重点。而DA需要做哪些工作去获取信息以便于快速的展开工作呢?   

     困境二:信息太多,但凌乱异常,不知如何去厘清

     又或者,DA没有目的性的提出如此类的要求:“尽可能把你们的文档都给我”,此时会有各类文档席卷而来,而信息太多,根本无从看起,或者做了非常多的功课却抓不住重点。

     

     如上,笔者也曾有过一些如上面的境遇,经历一些痛苦的学习同时也依靠高手的指点,形成一套方法,能够让DA快速进入角色,采集自己最为需要的资料进行有效的数据理解,其过程中难免见招拆招,灵活变通,本文主要是提供一种厘清问题的思路。


注:本文是从整个企业的信息系统诊断视角出发,很多项目在立项之初即有明确需求和此场景不同,如下文章仅作为参考。各个项目均有不同,要非常注意项目的范围,根据具体情况做裁剪,切不可简单照搬。

详情请参阅下图:



 如上图所示,首先业务和数据的了解,本身即是并行,前后并继而相辅相成,本身由业务驱动数据的了解,同时通过对数据的了解亦逐步澄清业务。如下,对上图略作描述以期看官能更容易理解。

 

   一、业务视角

   1.1 首先了解的是体制,也就是整个企业是怎么组织的?第一要务是要来清晰完备的组织架构图,关注企业有哪些分公司,哪些部门。然后各个部门,分公司的职责是什么?各个组织的负责人是什么Titlle,以及他们的具体责任又是什么。了解这些有几个好处:

   1)对企业有一个整体的认识。

   2)对未来的沟通很有意义,你会按照企业的习惯语言和相关人进行沟通,也会了解各层级组织的关系以及他们的沟通方式。

   3)各个组织的责任紧紧与他们的需求紧紧关联,为进一步了解需求做好铺垫。

   4)谁未来会使用你所设计的系统,这和设计良好的用户体验,未来的权限控制息息相关

   

   1.2 继了解企业的组织架构,明确每个组织的责任以后,下一步就是了解整个企业关心的KPI

    KPI有两种,一是反映整个企业的现状的信息,比如销售收入、销售数量、生产成本、营销费用等等,这一系列指标标注着企业经营的状况以及状态。有的企业是按照KPI拆解落实到各个责任人的方式进行管理的,也就是每个人的绩效KPI与奖金,工资之类息息相关。这类KPI也是需要考察的重点。

    需要记录的内容主要是对于企业经营状况的KPI,记录其相关的计算公式以及对应的维度,所需要统计能够达到的深度,以及这些数据平时都是怎么计算得来的,用于计算的基础数据又是从哪里得到的。

    对于绩效考核类的KPI,需要了解除以上内容以外,还要记录相关的角色是谁,以及KPI占其业绩的比例。对于不用KPI考核业绩的企业,其也一定有相关考核的办法,通常与绩效KPI也很类似。

     另外,通常在了解KPI的过程中,DA会获得很多和KPI相关的信息,比如PI,其实也是未来需要关心的内容。

 

     通过了解KPI以及KPI体系,DA会有如下的收获:

     1)哪些是企业的晴雨表,哪些指标对于企业来讲至关重要

     2)KPI都是怎么算出来的,能否通过系统自动计算出来?

     3)KPI对应的责任人,他们观察各KPI的优先级如何?

     4)企业其他报表重要的组成部分,通常KPI的计算公式中包含丰富的度量信息

     5)通过KPI,DA可以开始了解到很多维度信息

 

     可以说,KPI体系是了解企业核心数据的一条重要的线索,当DA不知道如何入手数据研究时,这无疑打开了一扇门

 

     1.3 KPI的展开,通常就是核心报表。

     继了解KPI体系之后,DA需要更多企业最关心的数据,即核心报表。此报表为广义之报表,包含所有表格、图形、以及文字报告。

     从哪里入手去了解企业核心报表呢?通常,企业定期会有各类会议,总结年/半年/季度/乃至月份的业绩,从企业重要的经营分析会议(或名称不是经营分析会议,但讨论的内容相关)可以获得相关信息。比如很多企业喜欢从财务损益表去分析整个企业的经营状况,而损益表外延有很多报表是为了解释损益表中异常现象的细节,此类报表均是分析之对象。此外,还有一些跨部门的定期协商会议需要的报表,比如产销协调之类,均列为分析对象。

     相信,在获取这些报表的同时,一定会有大批其他报表涌来,照单全收但分清主次。

 

     1.4 企业核心流程

     1.2 和 1.3其实本质类似,均是搜集企业重要度量的线索,由线索外延,会搜集到相当多的信息。通常在前面的几个步骤中,你已经能够获得整个企业核心业务的概况,但仍需更深入了解企业核心流程,更依靠的是DA的行业经验。然后分主题,如CRM,SCM,HR等角度通过Step 1.1中的业务专家帮助获取足够清晰的企业核心流程,并通过数据专家了解各个核心流程的数据存放情况以及当前DW系统建设状况。CRM,SCM等经典知识,需DA课外阅读书籍以期进一步深入了解,以便需求之分析。

     

   二、数据视角

    2.1 转向数据端,其实2.1的过程即在搜集KPI过程之中亦然获得。

    2.2 望闻问切,有人帮DA联络,有人帮你解答问题,有人帮你澄清疑惑,这些均必不可少。起步时,没有问题是愚蠢问题,但你也别期待太多;中段时,不做功课的问题不会有好的反馈;终段时,记住要时刻记住用真实数据验证你理解的逻辑,即使业务专家和数据专家也不可能洞察一切,唯有数据是最真实的。对于不能使用真实数据做数据理解的客户,你的DW系统未来定然问题重重。

    金科玉律:做Framework,做笔记,你不可能记住所有一切。


     2.3
获取尽可能多的元数据文档,但千万别想当然的认为它们是正确的,如果能有80%正确你就可以谢天谢地了。此处,获取数据访问权是重中之重,你很难基于一些过时的蓝图去构筑真的有用的蓝图。

     2.4 每个企业都有其自己的规范,当然如果没有规范,就需要DA去制定一套规范。

     好了,下面将进入本章重点: 如何逐步建立Data Insight的细节,仍采用思维导向图的模式做详细描述。



由各项Input,我们将得出Output结果,也就是我们最终的设计。由此,让我们开启Data Modeling的篇章,且听下回分解,如何设计Data Model。


以下附件为思维导向图源文件:



对BAO胖子原创文章感兴趣的朋友,请关注我的公众号。

推荐 5
本文由 BAO胖子 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

10 个评论

@BIWORK 是不是最后一段只用思维导向图而不加描述,读起来太空了?
这内容的深度和广度可以慢慢写好一本书了,每一个节点我觉得都是一篇文章,牛!
我画完mindmap就懒得写了,太多了,写少了也是蜻蜓点水,写多了还不如分篇,而且有的我也写不出来
可以当讲师了!
梁勇

梁勇 回复 joe

必须是讲师,深度够高。
一直收藏者您分享的文章,今天得空好好拜读一下,对于菜鸟的我真是受益匪浅,脑洞大开。
多谢,写的太概要,信息量看起来很大,但缺乏实际的指导意义,我后面也会增加更多贴地气的内容。
期待下一篇盲人摸象系列。
做为前期的信息收集准备阶段,这些信息还是非常有用的。如果能再深入讲讲就更好了。赞一个!!!
非常棒!总结能力特别好。
有的东西自己能想到,但是真的串起来、总结出来又比较难。
期待更深入的探讨~

要回复文章请先登录注册