数据分析五板斧与里面的屠龙刀(下)

浏览: 2073

作者简介

浩彬老撕,R语言中文社区特邀作者,好玩的IBM数据工程师,立志做数据科学界的段子手。

个人公众号:探数寻理



上篇我们讨论了数据分析的全生命周期,并且也提到“诊断性分析”正在受到越来越多的关注,那么今天,浩彬老撕将和大家继续深入探讨,“诊断性分析”的关键内容。

一般来说,信息通常被分为“结构化”数据(如财务记录、客户数 据和销售统计数据)和“非结构化”数据(如设计文 档、市场情报信息和客户案例报告)。

传统的数据分析与机器学习普遍是针对于结构化数据进行分析,如进行财务风险评价,客户流失分析,销售预测等。但随着机器学习技术水平的不断提高,人们逐渐把分析的领域扩展到非结构化数据的领域,这是另一个更加巨大的数据宝藏。

简单从“量”上看,在数据科学领域,普遍认为世界上80%的数据属于非结构化数据,同时据一项研究分析表明2017年,单单是医疗数据一项的数据增长率就达到了99%,而其中超过85%以上的都来源于分结构化数据。

当然,非结构化数据作为新的宝藏,更加在于它的“质”。传统的数据分析,普遍能够为我们揭示发生了“什么”,而结合了非结构化数据的内容分析,将进一步为我们揭示了它“为什么”发生

例如在客户分析领域,借助于传统的销售分析中,我们可以通过得知“今年我们公司没有完成销售目标”。但是进一步结合“客户之声”(基于客户社交媒体评论,购物投诉,客服反馈进行的内容分析),我们可以获知这是因为“今年某款新产品由于功能缺陷,导致发生了大量的负面情绪意见从而影响了销售”,这也是被称为“诊断性分析”的原因。

当然,这一块最著名的例子还是在2011年,IBM Watson参加美国著名的智力问答竞赛节目《危险边缘》。在节目中,不仅提问的问题涵盖范围非常广泛(涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域),而且参赛选手还得学会解析隐晦含义、反讽与谜语等修辞手法,显然,这些问题的处理并不是传统的电脑所擅长的。但出乎意料的是,Watson在决赛当晚以压倒性的优势最终战胜了其他人类选手,同时也创下了这个问答系列节目27年历史上的最好成绩。

没人想到的是,这场在当时看似平常的人脑vs电脑的电视节目,开启了把人工智能技术应用到各行各业的大序幕。

毫无疑问,相比于传统的数据分析,诊断性分析的核心在于增加了对自然语言处理的过程。通常来说,要完成诊断性分析,我们通常可以分析如下步骤:数据的采集与集成,数据处理,分析建模,结果评估与部署。

1.数据的采集与集成

正所谓巧妇难为无米之炊,数据是我们能够进行分析的首要基础。一般要进行诊断性分析,通常会牵涉到多个数据源的集成。从来源上看,有内部工作文档,工单记录,客服沟通记录,也有外部的数据接入,如网站爬虫,行业合作资料等。

2.数据处理

与结构化数据不同,非结构化数据并不能像传统的数据挖掘一样直接输入到算法进行建模(事实上,传统的数据挖掘也需要大量的特征工程),我们需要把非结构化数据转化为结构化数据后再进行建模。

这里,我们使用UIMA(Unstructured Information Management Architecture),即非结构化信息管理架构,为大家介绍其中的内容。

直观上看,UIMA就像是一个工厂生产标准,这个生产标准规定了一个把非结构化信息转化为结构化信息的一个标准流程。对于每个开发者或者分析师而言,就可以利用这个标准,同时根据自己的需要,创建一个单独属于自己的生产线,这条生产线的输入就是我们的非结构化数据,而产品则是结构化数据。

一个标准的UIMA Pipeline处理过程如下:

当然,上述流程只是一个原始的标准流程,根据实际需要我们可以增减需要应用的注释器。我们不妨以一个只包含了语言分析注释器,词性注释器,命名实体注释器以及事件注释器的简单的例子说明一下.

假如我们接受了一个文本内容为“保时捷在上午11:30于中山大道被偷了”的句子,虽然机器在处理的过程中,并不能很快地确切知道车被偷了这一结论,但是通过对自然语言的处理,机器能够识别出在一个跑车,在中午时分,在广州的中山大道,发生了一起犯罪事件,犯罪的性质是盗窃。以上的过程,即机器对原始文本内容进行整理,分析以及标注的过程,我们称之为自然语言处理。

3.分析建模

当然,经过对非结构化数据的处理后,我们已经获取到用于分析的结构化数据了。接下来,我们就可以对这部分数据进行进一步的分析挖掘,以获取进一步的认知。

这部分的分析思路和传统的数据分析与数据挖掘基本一致,但是由于增加了非结构化数据的输入,将使得分析的维度以及深度大大的增加。

例如我们能做基础的关键词提取,热词分析:

更重要的是我们能够通过对非结构化数据处理后,进一步结合原有的结构化数据进行进一步的机器学习,这将为我们带来更多有助于分析建模的新特征。

借助与对结构化与非结构化数据的有效提取,我们将能获得精度更高的预测模型。

4.结果评估与部署

模型评估,是验证我们的工作是否获得成功的关键。在模型评估阶段,我们除了需要对算法模型进行技术上的评估外,还需要根据在业务理解阶段设定的目标进行业务评估,以确保项目成果能满足实际的业务需求。

而结果部署是最终结果的运用过程,在此阶段我们需要把在数据中获得的洞察应用到具体业务当中,以求实现最终的商业价值。

因此,在进行诊断性分析的时候,模型的最终建立并不是结束,我们还需要行之有效的评估部署手段才能够切实地优化我们的业务决策。

和之前介绍预测性分析一样,我们固然可以通过直接计算或编程完成上述诊断性分析的任务。但是如果你想像使用SPSS一样,能够在图形化界面中快速,准确地完成分析任务,同时又能获得一个直观的可视化结果,那么还有一个更好的选择:Watson Explorer。

事实上,IBM Watson Explorer正是当年危险边缘节目中机器人Watson的进一步商业化版本。Watson Explorer除了覆盖诊断性分析的四个核心步骤外,它主要通过三种高级方式帮助我们优化整个分析任务。

1.探索

 Watson Explorer首先能够对多个不同的异构数据源进行集成,并提供一个统一的用户分析视图。并且在一个统一视图的基础上,它提供了一种自上而下查看数据的分析方式。即分析人员能够直接通过自然语言查询的方式即进行数据探索性分析(如我想查找公司内部2017大数据的资料,只需要输入“2017大数据”,当然你可以可以进一步细化你的查询需求),大大简化了整个搜索分析过程。

2.分析

除了基本的探索外,Watson Explorer提供了强大的内容分析功能。分析人员无需创建高级模型或各种各样的编码,即能在Watson Explorer依据标准的UIMA流程,根据自己的需要创建一个自己的内容分析pipeline。如下,我们可以根据需要创建一个包括四个模块的内容分析pipeline(同时,用户可以在此阶段,定义需要分析的语言,定义个性化词典,命名实体等操作)

在此基础上,Watson Explorer通过“自定义分析窗格”,帮助分析人员完成各种“构面”分析,深入洞察并揭示趋势、模式和联系。例如,它通过分析大量与结构化数据相关的客户反馈和事故报告,及早识别产品问题,使制造商能够 预见并避免人身伤害、成本高昂的产品召回以及负面报道。

3.建议

当然,Watson Explorer还能够进一步集成结构化及非结构化信息,进行机器学习建模。分析人员能够在页面中快速快速锁定数据的重点范围,从而剔除无关紧要的结果,提供具体且相关的信息。

进一步地,针对模型的分析结果,Watson Explorer还能够根据按日期,关键词或其他指标对结果进行排序,筛选以及突出显示等,轻松实现整个过程的直观化。

简单来说,Watson Explorer在功能层面覆盖了整个诊断性分析流程的基础上,还提供了一个更加简单易用的操作界面,更加直观的建模操作和可视化结果,以及更加方便的应用部署能力,用浩彬老撕的不严谨理解就是一个用于非结构化数据的SPSS工具。

最后,如果各位想对数据分析的全生命周期以及IBM Watson Explorer有更深入的了解,欢迎通过最后的原文链接获取更多的资料以及软件的试用。


往期回顾:

统计挖掘的一些事一些情(一)

统计挖掘的一些事一些情(二)——回归分析(附数据)

统计挖掘那些事(三)-超详尽回归分析指南(理论+动手案例)

统计挖掘那些事(四)-9个相关R先生的故事(理论+动手案例)

统计挖掘那些事(五)--(理论+案例)如何通俗地理解极大似然估计?

统计挖掘那些事(六)——强大的逻辑回归(理论+案例)

统计挖掘那些事(七)—— 如何直观地理解过拟合与欠拟合那些事~

统计挖掘那些事(八)—— 分层抽样与交叉验证

数据分析五板斧与里面的屠龙刀(上)


好玩

通俗

易懂

de

机器学习课程

Now

限免

限免

限免

现在扫描下方二维码即可免费学习

点击阅读原文可购买配套教材书籍

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册