政府大数据是不是一个伪命题?面临的问题和阻力在哪里?

浏览: 3782

背景 

2015年经李克强总理签批,国务院印发《促进大数据发展行动纲要》,中国政府已经开始系统部署大数据发展工作。

《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态...

政府大数据从狭义的角度理解就是政府所拥有和管理的数据,如典型的公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计、气象等数据。

大数据项目中很多问题出现在数据源头

笔者在前段时间受邀参加了某省会公安部门的大数据项目规划调研,在阅读完《纲要》和了解完相关政府对大数据项目的规划和设计背景后,认为从项目的规划和设计完整且严谨,看似无可挑剔。但在实际的调研过程中发现了很多与大数据项目规划和执行不相符合的情况,这些问题切实存在不可避免,执行过程又困难重重。

大数据项目落地的第一步核心在数据源头,所有的数据项目从数据最终的出口来看,本质上来讲都是要将不规范、非格式化的的或者规范的不可分析的数据变成规范的、格式化的可分析的数据。还有一点特别要注意的是,大数据并不是片面追求数据越多越好、越全越好,最重要的是数据质量,业务场景。大数据的业务场景在哪些地方,需要补充到哪些数据,质量如何都是需要特别考虑的。我们在国内看到的几乎所有大数据公司从来不会声称自己的大数据业务能够跨全行业,大数据有大数据落地的业务场景,这是它的特殊性。每个大数据公司都有自己的行业重心,在某一个细分或者多个细分领域里面深耕细作比如金融、电信、政务、公安、制造业等等。

摘选笔者所撰写的有关数据采集体系和可行性方案分析部分内容,分享给读者朋友们,仅供参考和探讨。(原内容有删减,以下涉及到相关的政府单位或部门略作处理)

关于某部大数据采集体系调研与可行性方案分析

项目背景简介 

某市公安局作为公安部数据建设的试点单位,推进市局与社会化数据资源整合的标准化建设,和实现数据资源共享推进市局和相关单位的信息共享为目标,对数据化项目建设进行立项。 

项目需求 

项目旨在解决以下两个方面的问题: 

1. 实现社会化数据资源整合 

1) 某市公安局以及下属分局、各支队的各个应用系统数据作为市局的基础核心数据资源,例如基础的人口管理、信访、犯罪信息、情报等,以及作为数据监控所涉及到的铁路、网吧、民航购票、民航进出港、ETC 卡口、住宿等基本数据信息。 

2) 在此基础上,为了纳入更多的社会化数据资源,实现全行业的数据覆盖,拟接入交通、服务、科技信息化、教育、社保、民政、户政、工商、网络通讯等各个行业的 数据。 

 

2. 数据统一接口和规范化建设 

1) 公安部下发了有关公安数据标准化建设的数据规范格式,各级部门需要按照标准化格式规范建设数据资产。对数据字段的描述、格式和录入规范定义都有一定的详细描述和定义。 

 

在相关可以直接管控的领域和下属单位,数据资产需要按照这些数据格式进行管理, 需要建设统一的数据接口以确保各下属单位数据上传质量。 

2) 在涉及到第三方的社会化数据资源,需要制定标准的可执行的数据标准,包括:数据接口的定义、格式的约束、数据交换的方式和渠道等。 

3) 以上所有的数据接口定义都有据可行,能够形成统一和清晰的数据管理规范。 

在未来旨在规划以下两个方面的数据建设方向 

1. 数据资产整合、数据分发和应用平台建设 

1) 打通市局内部数据和社会化数据资源,形成统一的可管理、可追溯的数据资产管理中心。 

2) 基于市局的数据资产中心,对平台上的数据使用者提供统一的数据接口,形成数据分发,各数据用户可以基于自己的业务需求对数据进行使用,包括:数据分析与挖掘、业务系统和应用平台建设等。 

2. 大数据 

1) 基于大量的内部数据和社会化数据资源,推进大数据项目的建设和发展,增强数据标签属性、用户画像,可广泛的应用于人口管理、犯罪管理、社会化信息管理等。

 

项目现状调研与存在的问题 

1. 业务系统现状 

1) 业务系统数量多、系统复杂。目前市局各个单位以及下属的分局、支队等各个业务系统、数据源系统共计近 200 多个,覆盖范围广,业务系统复杂。 

2) 业务系统管理和维护缺失。大多数业务系统由不同的第三方 IT 公司开发和维护, 历史周期长、服务更迭和系统维护断档,造成业务系统数据字典信息缺失和不全。

 3) 旧的业务系统对同样的数据信息描述不一致。不同的业务系统对同样的数据描述、 定义、数据录入规范不一致,造成在数据抽取和基本清洗阶段无法追溯实际数据字段的业务含义。长期以来的无人维护,部分数据的理解无法从业务系统管理方得到有力的支持。 

2. 业务系统管理方 IT 支持力量不够 

1) 大多数业务系统由第三方 IT 公司建设,分局和支队 IT 人员缺失,在整个数据项目建设的推进过程中沟通成本比较高。 

2) 对由分局、支队提供的数据,由于缺乏专业的 IT 经验,在数据的录入和采集过程中无法做到高质量的数据录入,数据规范意识不强。 

3) 前端数据采集质量不高也对现有的数据管理体系建设增加了很大的数据处理负担, 目前很多的数据基础验证工作都是在数据处理后方完成。 

3. 部分上报渠道缺失、数据来源和数据质量参差不齐  

1) 数据采集和上报渠道缺失。特别是对于一些基层单位,由于在工作中缺乏相应的数据收集上报终端,造成数据收集困难、数据收集质量不高。比如在派出所级别,一 方面比较缺乏对数据建设意识,另外一方面缺乏配套的数据采集终端,不能够很好 的完成采集相应的业务数据的任务和工作。 

2) 数据来源格式繁多,数据渠道不规范不统一。 在已有的数据来源中,涉及到了 FTP、 EXCEL、DMP 文件、Oracle 数据库、XML 文件、CSV 文件、SQL SERVER 数据库等,需要不同的处理方案和接入方式处理。目前已经逐步在推进数据接口和上报渠道规范化建设,但是仍然需要比较长的周期。 

3) 上报的数据质量参次不齐。有大量未经验证和规范化处理的数据上报到数据处理中 心,包括大量需要手工检查和处理的数据,极大的降低了数据中心对数据处理的效 率。 

4. 社会化数据资源采集方式不合理、难度大 。 

1) 部分数据资源采集分配方式重复和单一。例如各个辖区采集辖区内的教育单位的数据,这些数据实质上会进入市级的数据系统。市级单位和下属单位的数据采集形成 重复,各单位数据上报方式和途径各异,增加各级辖区下属单位数据采集的成本, 同时也增加数据处理团队的数据处理成本。 

2) 社会化数据资产单位的配合程度不积极。对社会化数据资产管理方,例如教育、银行、金融等单位对于与市公安局的数据上报标准、数据定义、传送方式理解不一, 配合程度不一,也造成了对社会化数据抽取和管理的难度比较高。 

需解决的问题和方案 

数据采集是一个庞大的项目工程,涉及到已有和以后规划的业务系统的方方面面,需要站在整个数据体系建设的高度去考虑这个问题。同时,数据质量的保证也为以后的数据采集、 数据治理、数据中心建设、数据分析与挖掘、大数据平台的建设起到非常重要的作用。根据上述的问题,我们需要从以下这些方面入手来考虑。 

 

1. 内部已有业务系统的字段梳理 

1) 由于历史原因,内部已有业务系统的字段梳理目前已经没有非常合适的可行方案。 这是由于旧系统的相关维护人员缺失,没有规范的数据文档管理造成的,因此特别 需要注意在新系统的建设上加强交付标准建设,和形成项目报备机制避免类似问题 出现。 

2) 唯一可尝试的方式就是熟悉业务系统,通过试用业务系统观察数据流向来理解数据 含义。但缺点是投入大、产出小,建议考虑只抓业务系统的核心业务流程和核心数 据。 

 

2. 新的业务系统建设遵循现有数据规范和标准 

1) 已有业务系统保持现状,在遵守已制定的数据接口定义规范通过技术手段完善数据 字段的转换与定义。 

2) 在市局领导范围内的业务系统,对于新规划和新建设的项目应该主动向市局数据中 心建设部门进行项目报备。对业务系统中所涉及到的数据库设计、字段设计规范应 该遵循市局数据中心所提供的标准数据定义和规范进行开发。 

3) 新规划和新建设的项目应该包括:WEB 端应用开发、移动端应用开发、CS 应用开 发等一切需要录入数据的项目。 

 

3. 梳理和明确数据采集的范围、数据边界、对象和目标 

1) 数据采集的范围包括内部数据和外部数据。 

2) 内部数据涵盖市局以及市局领导下的所有事业单位的各个大小业务系统和子系统, 需要对这些业务系统进行梳理。确定业务系统中所涉及到的数据构成,例如:人口 基本信息、户政信息、犯罪管理等,对以上信息进行分类,明确在内部系统中拥有 哪些或者哪一类的数据资源。 

3) 外部数据包括两个方面:

第一,市局因当前工作需要所要监控的社会化数据资源, 例如:住宿、出入境记录、网吧、交通管理等。

第二,市局所需要打通的非重点当 前需要和非监控管理的社会化数据资源,例如:教育行业、金融行业、通讯行业、 工商等。这些数据需要有一个明确的采集范围定义,不能片面求全求大,而应该先 明确所需要采集的行业范围,采集边界。同时,对主管这些数据资源的事业单位进行梳理和明确,以及需要明确数据采集的目标,例如数据字段的构成。 

4) 对于外部数据中涉及到的社会化资源需要从上往下推进。在目前的社会化数据收集的过程中,部分行业的子事业单位向他们的上级主管单位进行数据上报。数据采集的对象应该集中在这些上级主管单位,而不应该由市局所领导的辖区单位与这些行业的子事业单位进行数据采集再集中上报给市局。这样可以避免市局所领导的辖区单位重复采集数据,同时可以避免各子事业单位采集的数据不规范而导致的重复数据清洗工作。 

 

4. 确定数据上报的渠道、数据接口定义和数据交换方式。 

1) 对于目前已有的市局范围内各业务系统继续保留已有的数据采集方式。通过源数据库向标准数据库的数据验证、审核和加载,确保标准数据库的数据接口定义。 

2) 对于市局目前所要求的各辖区分局、支队等数据采集,需要明确数据采集的范围、 数据采集的渠道、数据采集的方式和数据接口定义。通过对数据采集范围和数据采集渠道分析,可以针对性提供数据采集的方案。例如移动端数据采集所需要的移动设备、相关的硬件和软件设施。如果没有明确的数据采集范围和采集渠道定义,将无法明确数据采集的方案和相关采集软硬件设施的构成。 

3) 对于社会化数据采集资源,在梳理和明确数据采集的范围、数据边界、对象和目标之后,应该对相关数据的主管单位进行洽谈合作: 

i. 合作中需要明确双方对于数据资源合作的数据接口定义,需要对方确定可以提供的数据资源。 

ii. 数据上报的渠道建议使用 FTP 文件传送形式,在明确的数据接口定义下确定数据文件传输的网络目标地址,传送周期。例如在央行与各个银行、美国保险行业与相关协会组织、某汽车金融公司与国外总部的数据传统都是通过这种文件传输形式进行数据上报。 

iii. 在前期需要对上报的数据进行数据准确性、数据传达邮件通知等验证,验证测试通过后可正式形成数据上报机制。 

iv. 考虑对等的、互惠互利的数据共享合作。由于涉及到数据合作双方的利益,需要双方建立数据共享机制来形成数据开放的互惠互利。对于合作不积极的数据主管的单位建议由市局上一级单位协助推进和协调。 

 

5. 内部数据采集所涉及到的工具和技术应建立培训体系 

1) 内部数据采集所涉及到的数据验证、工具使用和相应的技术使用应该建立培训体系, 定期召集相应的各市局和属下信息中心数据维护人员进行培训,培训的方向不仅仅要包括上述的技术相关的内容,还应该包括对数据质量的认知、数据思维方面来提升对数据管理控制的重视程度。 

2) 可以从一个单位的应用系统来切入,待整个流程成熟和成型之后再扩大到整个市局体系。同时可以考虑完善相关文档、视频课程的方式来节约人力和时间成本。 

 

以上所提到的一些方案需要与市局共同探讨,明确可行的思路和方案,问题处理的优先 级。可以由点及面,找出最容易实现和推进的方案点进行验证,如果验证成果则证明以上方案具备一定的可行性,再推进其它相关方案的执行和验证。 

 

在相关资源协调上,市局需要牵头切入与协调,供应商作为数据建设方配合方案的执行、与数据标准规范的定义和推进。 

(调研分析报告完)

政府大数据面临的问题和阻力

除了在案例中提到的基础数据治理之外,还有以下几个问题直接或者间接的形成了无形的阻力。

1. 政府部门、特别是一些职权部门的数据意识、数据开放的意识。意识这个词可能会比较虚、看不见抓不着,但是实际上在很多项目规划和落地、协作和推进的过程中,具备数据意识的职权部门会积极引导大数据项目的规划和推进是朝着一个合理的、正确的方向上前进。该开放的开放,该听取专家建议的就听取专家建议。相反,不具备良好数据意识的决策者和推进者,也有可能好心办坏事,拍脑袋决策,将大数据项目引入歧途,最终以失败而告终。  

2. 政府部门应该看重长期利益、长期规划,避免为做大数据而做大数据。政府大数据有别于企业大数据项目,政府大数据的数据种类繁多、跨行业、跨部门。业务数据质量层次不齐,很多数据是需要从源头重塑,涉及到很多旧业务系统的数据治理、新业务系统的规范化,这个注定是需要很长的一段时间通过制度来健全信息化建设。为了短期上大数据项目,只能是根基不稳,数据质量无法验证和参考,也就无法产生真正有价值的结果。同时,决策部门决策者的变化不应该影响大数据项目的规划,只要经过验证的方案,就应该继续持续的坚持下去。临时换方向、换技术方案、换想法,大数据项目经不起折腾。

3. 政府大数据应该遵循大数据发展的规律,不应片面求全求大,可以整体规划,但要阶段性的划分项目边界,阶段性的出成果。在笔者上面提到的这个案例中,决策者的想法和意识都是非常正确的,但是基层部门在执行上就违背了这种规律,片面的求全求大,导致数据量上有增,但是数据质量上却无法保证。同时,政府大数据涉及到的行业方方面面,应该明确确定阶段性的目标,在哪个阶段追求哪些社会资源数据,解决什么问题,业务场景是什么需要确定下来。

4. 政府大数据应该认真对待各个服务商和合作伙伴。

第一,政府大数据涉及到政府多部门配合、跨行业配合,作为政府外包出去的项目服务商和合作伙伴,他们是没有这种资源能力在各个部门和行业之间协调和沟通,这种跨行业跨部门的合作需要相关决策部门进行引导和协调。

第二,按市场规则和合作流程该结算就结算。大数据项目周期长,投入大,这对各个服务商和合作伙伴的人力、物力的投入也是很大的压力。与政府部门的合作有别于传统市场合作,本质上不管我们承认还是不承认,政府与第三方合作伙伴双方地位是不对等的。这些情况在如今已经有了很大的改善,但是实际上在很多地方依然存在,最终导致项目交付进度和质量无法保障、项目交接上给下家留坑埋雷都会导致项目越做越差麻烦不断。

诸如此类的问题很多,不在此一一总结。

政府大数据是不是一个伪命题? 

最后再来谈这个问题,政府大数据是不是一个伪命题? 坦率来讲,从文章最开始的《纲要》内容和上面的案例中可以看出一些政府是完全具备数据开放思维意识的,从实际的项目规划和实际的落地过程中也做出了很多的努力。但是大数据项目的落地不是一蹴而就的,由于历史原因数据源头的梳理困难重重,政府各部门之间的数据打通需要政府高层站在大的格局下来积极引导和推进,新业务新数据的规范化运作尚需时间和很强的执行力,知易行难。

从长远来看,政府大数据不应该是一个伪命题。但是在实际的操作过程中如果只是流于形式、各部门数据各自为政、协同合作效率低下、过于追求部门利益个人利益而忽略公共利益,所谓的政府大数据就是一个伪命题。

政府作为施政的决策者和领导者,无论从财力、人力、物力、资源协调能力、政策执行和推动能力上来说,在大数据项目的规划和落地过程中本应该拥有得天独厚的优势,也可以很强势。但关键在于怎么利用好这种优势和强势,利用的好,对大数据项目是一种保障。利用的不好,对大数据项目也会起到非常负面的作用,多走弯路或者彻底失败。

总之,政府大数据不会一蹴而就,也一定会总结很多经验和教训。但无论如何,只要开始就好,现在就是最好的时机。

作者:吕品,天善智能联合创始人&运营总监,引用此文需完全保留此段文字和链接 https://ask.hellobi.com/blog/lvpin/5798)

推荐 7
本文由 lvpin 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

关于政府部门上报的数据质量问题,深有体会。有些部门由于涉及他们内部的绩效,会把一些重要的数据略过,只报一些不重要的数据,或者把某些责任人的数据给剔除掉了。而且部门相关人员对数据上相关的业务理解也说不出个所以来。数据整合真的是件耗时耗力的事。
写的很好,赞

要回复文章请先登录注册