【大数据】基于用户数据的大数据平台应用实践

浏览: 2901

公司围绕客户数据,构建大数据平台,源数据主要来自公司门户网站日志、CRM、在线客服、呼叫中心四个系统,通过汇集用户数据构建数据中心,同时为打造智能客服、呼叫中心人员编排、在线客服智能分配、网站优化等提供数据化决策。下面通过详细的说明每个系统相关业务及提供的数据,如何针对客户数据有效的发挥数据价值,并构建大数据平台。

说明:下图中一些技术点并未全部用到,但是作为一个相对通用的大数据平台架构,可以根据实际情况进行选型。

Clipboard Image.png

1、公司门户网站

由于公司业务的特殊性,公司门户网站主要作为和客户沟通的最直接平台和入口,不仅提供客户疑难问题的咨询解答,还有相关业务办理、服务人员评价等功能,最直接与有效的数据为公司客户软件下载日志、问题查询日志数据,在整个数据来源中可用性及有效性相对较低。

数据采集主要使用实时日志采集flume技术,将访问日志记录经过清洗和转换后转存在HDFS中,同时转存到数据仓库中的关系型数据库。未来可能将门户网站的日志数据流改造成以kafka为中心的流式数据处理系统。

门户网站设计中的不足:数据埋点太少,除了以前门户网站设计时必要的日志信息外,没有其它潜在有用数据埋点,收集数据单一。在这刚好提一下天善智能的合作伙伴铂金分析ptenginehttp://www.ptengine.cn/),很好的一款网站用户行为数据分析工具,比自己去做一些埋点->分析->优化网站结构这样的流程要简单和方便很多。

2、CRM

CRM系统内主要涵盖了客户跟公司相关业务往来记录,包括销售记录、服务记录、客户基本信息等。这部分数据结合下面提到的呼叫中心系统数据,支撑和分析客户与公司直接业务关系,挖掘出不同区域客户的服务方式(上门服务、400电话服务、在线远程服务)、服务效率、服务成本、缴费习惯等,最终支撑公司各个业务网点的选址、客户潜在产品推广、服务成本优化。

数据采集主要使用kettle(新版本Pentaho Data Integration,简称PDI,稳定性欠佳),将crm相关数据抽取到数据仓库中的关系型数据库,并进行相应的数据处加工、转换。

在这个过程更,对CRM系统数据进行数据标准化处理,形成统一视图,存到数据仓库,并形成数据字典。这里提一下用到数据探索小工具DBExport2.51 For Oracle,完全采用Excel中VBA开发完成,能给方便的导出数据库中的表结构形成标准的word或者excel文档(工具来源于网络,若有侵权,请联系作者删除)。

3、呼叫中心

公司自建有呼叫中心,月电话量在20万左右,呼叫中心数据主要记录客户来电号码、咨询业务、还有语音数据。该部分数据能给分析出客户中存在一人多户情况(业务上可能存在代理),挖掘出代理客户,除支撑客户侧的来电行为分析外,还能够结合业务周期预测电话量,合理分配坐席以及值班人员安排,切实的降低服务成本,实现数据价值。

数据采集主要使用sqoop,由于来电记录数据量较大,所以将原来存在于关系型数据库中的数据通过sqoop存储到hdfs中,通过spark计算构建用户来电行为特征库。目前对语音数据暂未做分析和处理,未来将结合语音识别技术,对录音进行识别,自动提取生成知识库,实现服务智能化的目标,降低服务成本。

呼叫中心系统一般都由专业厂商构建,能给采集到数据差不多就是电话记录和录音了,来电定位等高级功能暂未实现。

4、在线客服

在线客服是公司实现服务智能化迈出的关键一步,前期采用企业QQ和第三方智能客服,虽然企业QQ功能强大,但产生的相关数据无法提取。公司首先采购一款在线客服系统,本地化部署,优势除了能给将相关数据转存到本地外,还支持基于网页的语音、视频、共享桌面、远程等服务,还支持二次开发。有了在线客服数据,结合呼叫中心、CRM、日志数据,开发出一套智能问答系统,自动化推荐问题。

智能问答系统中用到的关键技术是基于余弦定理的文本相似度算法,参照https://my.oschina.net/leejun2005/blog/116291,相对目前一些复杂的机器学习算法和语音识别等技术而言,这种方法更加简单和有效(已经过试运行并分析问题解答率和人工客服转化率),就能达到一定的效果,不要为了追求“高大上”的技术含量,使用各种复杂的算法模型,大家可以体验一下淘宝、滴滴、京东的智能客服会发现,智能化程度都并没有你想象中的完美。目前在线聊天数据一个关键点在于根据文本聊天内容自动生成问答库,只有将问答库丰富了,才能在智能问答阶段解决客户的问题,也能最大限度的降低服务成本。

数据采集主要使用kettle,将在线客服聊天记录定时同步到数据仓库中做统一管理和分析。由于在线客服系统为采购系统,暂无法做到实时流数据传输。

客服系统的一个核心原则是“争取一次服务,不再服务”,即不要让用户在一种服务渠道解决不了的时候不停的转向其它服务渠道。下图是目前服务流转路线图

znkf.png

5、构建数据仓库和可视化展示

上述四个系统数据在提取使用过程中做相应的转换、形成统一数据视图,数据分析和机器学习均基于构建的数据仓库数据进行。

用户数据爬取目前阶段暂未开展,后续会逐步丰富数据,做外部数据采集。

对于数据可视化应用包括基本的报表、业务分析、实时大屏可视化。

未来将开发标准的数据接口,提供标准数据API供公司内部各业务系统使用。


写在最后:欢迎大家一起交流与学习,文章内容若有不对,请多多指教,谢谢!

个人微信weixin.png

推荐 3
本文由 w卫东 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册