数据治理实战应用

浏览: 2979

贾岩

很高兴参与今天的微信直播,今天主要和大家分享一些个人的经验和看法。

首先谈一下数据治理,数据治理话题比较大,因为往大了说这是一个系统性的工程,往小了说就是数据质量。所以理论性的东西比较多,但是理论很多都是没有严格执行,所以导致很多企业数据质量并不是很好。

多数大型企业都会有数据治理,但是很多都只是为了完成任务而做,所以还是出现了很多问题。

通常随着公司信息化建设不断推进,公司各应用系统数据日益丰富,数据已成为公司重要资源,数据利用水平不断提高,为公司领导及各业务部门及时全面掌握生产经营情况以及科学分析决策提供了重要依据。

数据治理:以数据梳理、数据管理、 数据质量、数据应用四方面为主线,实现公司各单位数据管理更集中、数据服务更全面、 数据利用更高效、数据质量更可靠。

但是在实际操作中,需要一些有业务经验的人员,整理出所需要的数据信息,这也是一项量大而且繁琐的工作。其实这也类似于我们的需求整理,我给大家截2个图,大家看看

 Clipboard Image.png

Clipboard Image.png


其实在数据治理之前,我们要梳理我们的数据,前期工作量大而繁琐:

1.梳理并建立公司数据资源库,为企业级数据资源的共享利用奠定良好基础,也就是要建立自己的数据中心;

2. 其次我们也要有健全数据管理机制,从制度与流程、组织与人员、技术与工具等方面支撑数据资源的统一管理,确保企业级数据资源集中融合、规范有序;

3.建立数据质量持续提升的管理机制,按照“业务部门负责数据质量考核,信息部门提供技术支撑”的原则,有效促进公司数据质量提升;

4.完善数据应用体系,加强各业务系统数据共享开放,深化数据查询分析及辅助决策功能,实现公司数据资源全方位、大范围、深层次的分析与利用。

其实每一项要求或者说规定,我们看着很简单,但是执行起来也存在一定难度,很多时候业务部门人员责任心不够,数据质量把关不严格,就会导致产生很多质量很差的数据。

上面每一条我们乍一看说的都很好,但是执行起来,效果就不一样了。

所以数据的质量,是需要多方面配合完成的,也需要每一个人能够认真负责。在数据源头就保证数据质量。

例如:时间:2016-1-1,2016-1--1, 2016-1-1--

类似于这样没有规律的数据,虽然不多,但是却会造成大量的转换工作。

所以我们要:

1、制定数据中心职责分工、数据使用、数据源变更、数据质量、安全管理、运维管理等方面的管理办法,并颁布执行;

2、数据中心管理办法有效执行,并留有佐证材料(管理办法正式发文文档、按管理规范产生的各类流程单据或其他举证材料)

不管管理如何严密,其实都是有漏洞的,更多的是要靠每一个人的责任心。

之间我参与过大型企业数据中心的的数据治理工作,设立了很多的机制,也设定了

1、  综合查询指标覆盖率

2、  综合查询指标完整率

3、  明细数据接入率

4、  历史数据接入率

5、  日数据接入及时率

等等考核的内容,并且把这些内容涵盖到了数据资源管理系统里。每周,或者每个月都会生成一个数据质量的评分表。但是系统只能考核数据的完整性,及时性,但是对于伪造数据,人为修改的,是分辨不出来的。考核到最后有的也变成了一个造假的工作。

数据治理没有一个很明确的定义,或者说一个很有体系的工作,所以个人建议,很多事情也要落实到个人。

1.        确定需要梳理的业务应用系统,明确负责人;

2.        召开业务应用数据梳理工作会议,各业务应用负责人制定详细的数据梳理工作计划;
数据治理是一个比较头疼的问题,尤其是数据质量,以上也只是个人的一些经验和感想,以及一些建议的处理办法。

好的,今天有关数据治理的分享,我就讲到这里,一会儿我们会有Q&A环节,希望大家踊跃参加,谢谢大家。

春宇

大家好, 今天我们简单聊一下数据治理. 数据治理这个话题非常大,我们不可能通过短短的两个小时把所有内容都涵盖,我今天讲的重点是如果一个企业要启动一个数据治理的进程,都需要做什么事。

那么什么是数据治理呢?

首先有一个大前提,就是企业对于数据的战略态度是什么。企业把数据作为一种特殊的重要的资产来看待,并由此希望能有效的管理这种特有的资产时,就需要配备的专门的人员、制定相应的流程、规章制度以及采用一些数据相关的技术去辅助管理,这种组织和安排就是数据治理。数据治理通常是长期的过程。

那么一般什么情况下会去启动数据治理这种项目呢?都是哪些需求促使企业要做数据治理呢?

1.      在满足法规的要求上存在一定困难, 不得不去做数据治理。

这个最典型的例子SOX法案,因为当年安然和环球电信的财务丑闻促使国家颁布一些强制的法规去约束上市公司。在各个行业还有不同的行业规范,尤其金融保险这种领域。比如银行的新资本协议等等,对管理数据的广度、深度和时间长度以及数据准确性完整性等等都有很明确和严格要求。

2.      管理高层关注用于决策的信息的质量。

这个也非常重要了,如果你弄个报告数据都不准,那管理层也没法依据提供的报告做决策。

3.      管理层需要的信息需要大量人工处理才能做出回应。

这个在很多企业里面也是很常见的,经常是领导打个电话,要个数,结果那边吭哧吭哧弄好几天才弄出来,然后数还不见得准。

4.      单一事实存在多个版本,然后各有各的统计口径,也没法区分谁对谁错,也没法做对比。

5.      信息可信度缺失,弄一堆报表,数据不准。用户对数据失去信任,然后还是自己想办法算。

6.      没有数据负责人,这种做BI的感触最深,源系统数据不准,你也不知道找谁负责。出了问题也没人想办法解决。

7.      对信息的理解和使用缺失,这个很多都是元数据管理的锅,国内短平快类型的项目尤其严重,设计一堆表过几个月没人知道各个表各个字段都什么含义,没有文档,没有数据字典,也不遵循命名规则,只能瞎猜。这种情况数据质量非常容易出问题,而且出了问题也很难解决。

8.      内部审计,数据安全管理缺失。这个我真有个故事可说,早年在国内某著名消费品公司做咨询服务的时候,有几张可以说是绝对是商业机密的报表一年被人查看下载1000多次,这个查看的ID是他们企划总监的,而这个企划总监自己表示,几乎从来没登陆过。这个其实就是内部安全审计的严重问题。

以上林林总总,都可以是数据治理项目启动的起因。那么数据治理项目实施的时候是怎样的过程呢?

各家咨询公司有各家的套路,但基本上都差不多。

第一步:检查,定位业务问题

这个就类似去医院体检一样,按照各个检查的项目检查一遍,检视企业当前数据各个方面的状况,定位数据相关问题以及对业务带来的影响。

我们也知道,去医院体检的时候我们也有很多检查的项目,比如血常规,X光,心电图,血压,B超等等。那么我们做数据治理的评估都评估什么啊?

 因此啊,我们得有个数据治理的框架,如下图所示,这个是IBM的数据治理框架。其实这种框架也是大同小异,DAMA也有,Teradata也有,埃森哲肯定也有,基本内容都差不多。

Clipboard Image.png

也就是说,我们要去调查研究框架里面各个单元的内容,然后来给企业打分。

那么通过哪些方式呢?主要是通过直接访谈,问卷调查,文件分析,系统探索这么几个方面。通常来说直接访谈占的比重最大,一般要访谈的人物就是各个级别的业务负责人,计算机专家等等,访谈有的时候要分好几轮,先是直接访谈问问概况,然后获取相关的联系人信息以及文件,系统访问权等等,再去做一些homework,脉络清楚了再进行更深入的访谈。此外还有问卷调查,包括访谈式的问卷,会问一些比较开放式的问题,也包括一些评估类的问卷比如优先级,自我评估打分之类的内容。文件分析就要看一些技术文档,包括设计文档,数据字典等东西,还有一些规章制度的文件之类的东西。此外,有的时候还得花时间去看看系统。这种咨询项目通常都是多人协作的方式进行,大家在开始之初都有明确的分工,以及每天都要内部开会去对齐,出的报告要一致,很早就有template可以去遵循。

然后随着调查的深入,去慢慢总结发现的问题,比如出下面样子的报告:

Clipboard Image.png

第二步:评估

当搜集够了足够的内容以后,需要对整个企业的数据治理现状进行评估打分,这个怎么弄呢?有一套成熟度模型去参照。

Clipboard Image.png

然后按照成熟度模型对各个单元进行打分,比如下面的例子:

Clipboard Image.png

按各个单元模块,数据架构,数据治理,元数据管理等等分别打分,然后和企业的预期进行对比。

Clipboard Image.png

同时也可以和先进企业进行对标,比如去找一些行业标杆参照。

Clipboard Image.png

第三步,路线图,提出行动建议

搞清楚差距了,就需要做规划怎么来奋起直追。一般就是根据前面找出的各类问题,寻找相应的解决方案,并且按照重要性和紧迫程度进行排序,分短期计划,中期计划,长期计划进行规划,届时启动相应的项目。

Clipboard Image.png

通常来说,对于咨询项目而言,到这里就基本结束了,而对于企业而言,数据治理的活动仅仅是刚刚开始。

 如果确定开展数据治理工作,那么后续要做的事情主要包括:

1.      首先一定要获得高层的全力支持

因为数据治理是自顶向下的运动,是管理“数据管理者”的活动,如果没有高层的支持以及充分授权,是根本没有办法开展下去的。所以经常会有高级领导会名义上的挂帅以强调对数据治理的重视。

2.      构建数据治理团队

数据治理组织需要建立一种章程来治理其操作,确保它拥有足够的成熟度来在关键形势下担当决胜者。数据治理组织最好在一种 3 层格式下操作。顶层是数据治理委员会,它由依靠数据作为企业资产的关键职能和业务领导组成。中间层是数据治理工作组,它由经常会面的中层经理组成。最后一层由数据照管社区组成,它负责每天的数据质量。

3.      创建数据字典 并理解关键数据

业务词汇的有效管理可帮助确保相同的描述性语言适用于整个组织。数据字典或业务术语库是一个存储库,包含关键词汇的定义。它用于在组织的技术和业务端之间实现一致性和达成一致。例如,“客户”的定义是什么?客户是某个进行购买的人还是某个考虑购买的人?前员工是否仍然分类为“员工”?词汇“合作伙伴”和“经销商”是否同义?这些问题可通过创建一个通用的数据字典来回答。一旦实现,数据字典可应用到整个组织,确保业务词汇通过元数据与技术词汇相关联,而且组织拥有单一、共同的理解。如今很少有应用程序是独立存在的。它们由系统和“系统的系统”组成,包含散落在企业各个角落但整合或至少相互关联的应用程序和数据库。关系数据库模型实际上使情况更糟了,它使业务实体的存储分散化。但是所有一切是如何关联的?数据治理团队需要发现整个企业中关键的数据关系。而关系型数据库的产品的多样性,再加上NOSQL等各种非关系型数据库的发展,造成当下数据更难管理。而如果一个企业里面有非常多的数据库,指望数据治理团队去创建所有数据字典是不现实的,因此也就需要数据治理团队去制定规章制度,以及定义数据字典的标准,去要求各个系统的开发设计团队,按照标准创建数据字典。

这个时候,其实是需要画企业信息蓝图的,对于整个企业的系统、应用所产生的数据,以及数据的流转能够有整体的描述。

4. 创建元数据库

元数据是关于数据的数据。它是有关任何数据工件(比如其技术名称、业务名称、位置、被认为的重要性和与企业中其他数据工件的关系)的特征的信息。在查询阶段,数据治理计划将从数据字典生成大量业务元数据和大量技术元数据。此元数据需要存储在一个存储库中,所以它可以在多个项目之间共享和利用。

5. 定义度量指标

数据治理需要拥有可靠的度量指标来度量和跟踪进度。数据治理团队必须认识到当您度量某个东西时,性能就会改进。因此,数据治理团队必须挑选一些关键性能指标 (KPI) 来度量计划的持续性能。例如,一家银行将希望评估行业的整体信贷风险。在这种情况下,数据治理计划可以选择空的标准行业分类代码的百分比作为 KPI,跟踪风险管理信息的质量。

除了上面的内容,数据治理还包括更深入的内容,包括:

主数据治理、分析治理、安全和隐私,以及信息生命周期治理等等。

数据治理是非常庞大的课题,今天我们暂时只讲这么多。

推荐 2
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册