当数据挖掘不再唬人

发表: 2019-03-21 浏览: 1236

数据挖掘与人工智能

数据挖掘，你想到了什么？

聊到数据挖掘话题时，大多数人的第一反应是什么？

就是那些教授学者搞得研究吧，能用吗？
都是唬人的吧？
再现实一点，数据挖掘能商用不？
这玩意应该还是停留在学术界吧，能商用了？不信
企业凭什么要用数据挖掘？
学术界的研究都是理想化的，实际生产中业务复杂得多，怎么用？
数据挖掘能给企业带来价值？

也许你的心中也有上述类似问题，甚至你已经知道企业需要数据挖掘但是不知道能不能做或者做出来怎么样而还在观望。

第一个吃螃蟹的勇士

鲁迅先生曾言：“第一个吃螃蟹的人是很令人佩服的，不是勇士谁敢吃它呢？”

从七月份至今，在帆软的客户中，吃了螃蟹的已经有好几位，这些勇士用他们的实际行动证明了数据挖掘在企业生产中的价值，同时也一一解答了上述的各种问题。

首先来解答一下最关心的问题，数据挖掘能给企业带来什么价值？能商用吗？

本次我们聚焦一下，一起来看看制造业行业企业是如何来吃数据挖掘这只螃蟹的，他们的数据挖掘是如何来做的，在供应链（SCM）中又有怎样的作用，是否能够真正为企业带来价值，从而使企业的运营优于之前。

对于该制药企业来讲，关注的点一是希望能够知道未来三个月的销量从而根据销量来做智能排产与物流调度，二是希望能够知道所有产品未来的销量从而针对性的对某些产品进行投入以此来促进销售额的增长。

但是之前人为预测的销量误差太大，不足以用来指导实际生产，因此，考虑使用数据挖掘来实现销量预测。

那该企业数据挖掘实施的结果如何，能准到足够用来指导实际生产活动吗？

该企业总共有69个产品，由于数据质量问题，最终能够用于做销量预测的产品总共49个产品，销量预测误差率如下图所示：

微信图片_20190321152420.jpg

实现销量预测所有产品中只有4个产品的误差率高于百分之十，并且这4个产品在实际生产环境中由于数量的增加引起之数据质量的提升，误差率也进一步降低。

该项目预测成果具有足够的可信度运用到实际生产中，帮助该制药企业加速实现智能排产与智能物流调度，降低企业运营成本从而使企业利益达到最大化。

帆软数据挖掘

微信图片_20190321152427.jpg

企业如何来用？

如上图：帆软数据挖掘项目架构图，主要分为模型开发与模型应用两个环节，模型开发包括数据准备、数据处理、特征工程构建、模型训练、模型评估、模型优化等，模型应用包括数据更新、模型自动更新、模型应用、应用管理等。

下面，我们着重介绍模型一下开发的部分环节。

如何实现数据挖掘？

数据准备与数据处理

销量预测的目的是用于排产与调度，其作用的基本单位是产品，产品之间相互独立，如果能够做到产品粒度的销量预测对于企业来说是极好的。所以结合企业需求以及数据情况，最终选择预测单产品销售额，该粒度的销售额预测对于企业来讲价值是最大的。

首先对数据进行探索，以此来帮助我们选择合适的预测方法，对产品历史销售数据进行可视化展示，如下图：

微信图片_20190321152433.jpg

通过产品销量的可视化分析，发现产品销量具有很强的自回归性，且与时间存在强相关性，多具有季节性、周期性等性质，因此，综合考虑使用时间序列预测来作为销量预测方法。

由于使用时间序列预测来预测销量，所以选择过滤掉历史销量数据不连续的产品，即产品需要满足2016年1月至2017年12月有24个月的销售额，如下所示：

微信图片_20190321152437.jpg

模型构建与训练

将不满足连续24个月销售额的产品删除后，分析每个产品的历史销量情况，发现每个产品的销量都与时间相关，但是变化趋势各不相同，有的产品适合用移动平均算法来预测、有的产品适合用holt-winters算法来预测、有的产品适合用arima算法来预测，因此，无法使用同一个算法模型来实现所有产品的销量预测。

基于此，帆软实现了一套时间序列全自动预测系统，能分析各产品的历史数据规律从而自动适配最合适且预测结果最好的时间序列预测模型，以此来解决多产品多次实现算法模型导致的工作量繁重问题。

ok，实现了产品的销量预测，那么预测的准还是不准？又有多准？如果不够准确企业自然不会选择使用，毕竟对于企业而言，很多决策都是牵一发而动全身的。

模型评估

在讲预测准确性之前先做一个名词解释,MAPE:后验加权误差，按照0.5*第一期的误差率+0.3*第二期的误差率+0.2*第三期误差率（由于时序预测模型都只适合做短期预测，所以给第一期的误差率较大权重而不求三期平均值）。

如上图所示，绝大部分的产品预测值MAPE值都小于0.1，证明这些产品的预测模型是准确且稳定的，对于MAPE值大于0.1的产品，预测结果都通过了白噪声检验，证明这些产品模型已经调到最优，由于数据属性的原因导致预测结果不准，这部分产品在拥有更多的销量数据之后模型将自动优化。

模型优化与应用

项目测试误差如上，那么部署到实际生产环境中去，准确性会提升吗？

微信图片_20190321152441.jpg

如上图，相比于项目开发过程，部署到实际环境中，单产品所拥有的销量数据多于2016年、2017年两年的销售数据，从预测结果以及误差验证结果来看，模型准确性进一步提升，其中开发过程中误差高于百分之十的产品，在实际生产环境中误差降到了百分之十以内。

能够发现，模型会随着数据的更新而重新训练更新，并且数据越多，在一定程度上对于模型的准确性有着促进作用。所以，随着数据与模型的迭代更新，产品预测销售额会更加准确，对于指导实际生产会具备更高的指导意义。

应用价值

供应链（SCM）最早来源于彼得.德鲁克提出的"经济链",而后经由迈克尔.波特发展成为"价值链",最终日渐演变为"供应链"。供应链的核心目的是为了降低采购成本和物流成本，提高企业对市场和最终顾客需求的响应速度，从而提高企业产品的市场竞争力。

该项目的产品销量预测的主要作用就是提前预知相对当前时间未来三个月的销量，然后实现智能排产与物流调配，做到按量排产、按量调配。从而做到减少库存，提高企业发货供货能力；减少工作流程周期，提高生产率，降低供应链成本；减少总体采购成本，缩短生产周期，加快市场响应速度。最终实现企业利益最大化。

对于该制药企业来讲，通过帆软的销量预测功能实现对产品的销量预测，提前预知产品未来三个月的销量，为企业排产与物流调配提供了极大的数据支撑，为企业创造了巨大的经济价值。

世界上不缺吃螃蟹的人

上文讲述的某制药企业的销量预测案例传达一个信息----------数据挖掘不再是唬人的，已经在青螃蟹转变为红螃蟹的道路上了。

数据挖掘之于这个时代类似蒸汽机之于第一次工业革命，回顾一下，自十八世纪六十年代截止至今，共经历四次工业革命，分别是：

第一次工业革命：起约18世纪60年代直到19世纪30年代，以蒸汽机为代表，使生产从手工转向蒸汽动力，成就了英国的霸主地位。

第二次工业革命：19世纪70年代到20世纪20年代，以电力为代表，使生产从蒸汽动力转向电力，成就了美国，为其奠定了资本主义唯一超级大国的基础。

第三次工业革命：20世纪40年代至今，以计算机代表，使生产从机械和模拟电路转向数字电路，成就了美国的霸主地位。

第四次工业革命：21世纪，以互联网产业化、人工智能为代表，使生产转向自动化、数据转变为价值，又将成就谁？

来找一下历史上三次工业革命的共同点？

是不是都有领导者、跟随者、不作为者三种角色？即第一个吃螃蟹的人、跟着吃螃蟹的人、不吃螃蟹的人。

然后再回顾一下，每次工业革命的最后，成就的是领导者与跟随者，失败的是不作为者吧？

此时，已然证明数据挖掘这只螃蟹可吃。

转自：帆软微信公众号

0 个评论

要回复文章请先登录或注册