15年10月,IBM宣布20亿美金收购The Weather Company(天气公司)。当时这条信息引起了很多人的好奇,因为这与传统IT公司的收购截然不同,不是大数据也不是云计算,不是软件也不是硬件,那么这次收购究竟是为了什么?或者说,收购了The Weather Company经过半年之后,IBM做了什么?
(图片来源IBM中国)
这看似并不传统的收购实际上暗示了很多信息。IBM作为一个传统大而全的“IT工具厂商”而闻名,但是它现在已经不甘心只是作为其中的工具提供者,它的意愿,它的野心是希望一头扎进这片大数据运营经济的蓝海,从“工具提供”变为“新的数据源头”,它希望掌控数据,而The Weather Company将是它“小试牛刀”的第一步,但显然,这绝不会是最后的一步。
事实上,IBM已经做了很多。
IBM进军“天气领域”的一大步是“IBM Insight DataPackages for Weather”,该项服务已经整合到IBM数据洞察云服务上。它将为关键行业量身定制,从实时恶劣天气预警到季节性预测,例如帮助政府部门在气候灾害都来之前实现早期预测,提前制定好公共服务应急计划并及时发布天气警告,当然这项服务也能够帮助零售从业者利用天气数据更好地进行营销及运营优化,从而更好地发现新的商机以及提升客户满意度。
(图片来源IBM中国)
分析教程
说了这么久,那么我们能利用IBM这些天气数据吗?答案是绝对可以!下面为大家分享详细教程:
实际上,最近也有读者在咨询浩彬老撕怎样利用外部数据优化零售商场运营预测的问题。
例如最近就职于广州某大型商场负责数据分析的阿翔就问:
“浩彬老撕,最近业务部门提出说能不能很好地预测商场的客流量,从而可以帮助他们提前做好运营准备以及促销预热”
于是浩彬老撕就问,你们现在的经过分析或者是通过业务经验,得到的成果是?
“我们现在能够理解的就是节假日对于客流量的影响,例如工作日的平均客流大概就在15万人次左右,而周末的平均客流大概在33万人次左右,但是业务部门认为这个预测还是比较粗,希望有更加准确的方式”
“当然,我们认为除了节假日因素,天气因素也很重要,例如温度,湿度,天气状况等这些都是影响客流量的关键指标,但问题是这些数据我们都拿不到啊”
好的,实际上现在问题都很清楚了,我们需要借助天气数据结合预测性模型,从而帮助我们更好地进行客流预测,而这一次我们都可以
直接在IBM SPSS Modeler中
完成
首先我们先看看阿翔提供过来的数据文件:
原始数据包含某商场3.1-3.30号的广州某商场客流量情况
接下来,我们将使用IBM SPSS Modeler示范如何自动获取天气数据并预测建模
从上图可以看出,利用SPSS Modeler抓取天气数据以及进行预测还是比较简单的,只需要12个节点就能完成读取数据,获取天气数据,数据整理,建模以及结果输出等工作,具体步骤如下:
首先我们利用Excel源节点读取数据,可以看到原始数据一共有三列,第一列为日期,第二列为地区(SPSS Modeler天气节点要求的输入格式为拼音或所在地区的机场码),第三列为当天的商场客流量
在节点1后我们先接类型节点,实例化数据。
根据阿翔提供的业务经验,节假日属于强影响因子,因此我们需要在导出节点中利用日期字段计算出当天是工作日还是周末
语句:datetime_weekday(日期)
通过节点3,我们已经知道所在的日期为星期几(在modeler中,周日将识别为1,周一识别为2,一直到周六识别为7)。
根据阿翔的业务分享,一般周五以及周日都会有周末影响因子的作用,其中周五影响因子的作用约为周六与周日的一半,因此我们初始化周六与周日的影响因子为1,周五影响因子为0.5。
语句:
if 星期 = 6
then 0.5
elseif 星期 = 7 or 星期 = 1
then 1
else 0
endif
在天气节点中,我们只需要输入所在地区以及日期,就能获取当天的天气数据,包括温度,湿度,风速,能见度,天气情况(晴朗,多云,薄雾,小雨,雷阵雨等10个天气指标)
考虑到我们只有30个记录,输入的预测指标不宜过多,因此只保留日期,地区,商场客流量,周末影响因子,温度,湿度以及天气状况共计7个指标
考虑到原始的天气状况种类比较多,同样因为记录不多,我们对天气状况进行相近类别压缩,最后剩下的天气状况为:晴朗,普通,多云,阴天,小雨,雷暴雨等6种情况
其中我们把商场客流量设定为预测目标;
周末影响因子,温度,湿度,天气情况(简单)设定为输入;
日期,地区以及天气状况设定为无;
考虑到本次建模主要用于示例,因此直接选择Modeler的自动数值节点(Modeler的自动数值节点将根据分析人员的需要一次性运行多个用于预测数值的模型,并从中选择最优模型),其中浩彬老撕选择了回归,广义线性回归,LSVM,CHAID以及神经网络模型
从模型结果可以得知,广义线性模型相关性最强,神经网络次之,回归模型第三,但是各个模型差异不大;另外Modeler也提供了预测变量重要性排序,分别为:周末影响因子>湿度>温度>天气情况(简单)
考虑到比较方便,我们计算偏差值——预测值与实际值的绝对值
语句:abs('$XR-商场客流量'-商场客流量)
可以看到我们的客流预测结果与实际结果相差不远,偏差都非常的少,证明了我们的思路是正确的,结合天气数据以及其他相关因素,能够非常有效地帮助我们预测商场的客流情况
最后,我们通过图形节点更能直观发现预测结果有效性,其中下方蓝色线条为偏差值。
更多服务
(1)如果你希望通过其他方式获取天气数据,你可以通过IBM Bluemix云平台上的Insight for Weather天气服务,你可以通过github找到相关服务的Sample程序:
https://github.com/IBM-Bluemix/insights-weather
(2)IBM所能提供的绝不仅仅是ToB的服务,IBM团队已经将这些服务整合为The Weather Channel APP,可以在AppleStore直接下载,该APP提供精确到小时和区域的精确天气情况,同时也有超长15天天气预报服务,浩彬老撕表示亲测非常精确!
(3)如想更加详细了解IBM SPSS Modeler 天气节点,可以点击原文链接,将为你跳转到华南IBM大数据支持团队的相关文章
关于浩彬老撕
浩彬老撕正在努力做一些事情,希望能够以比较轻松的方式为大家讲述一些统计学,数据挖掘的知识,包括算法,包括工具使用问题,也包括一些科技八卦,同时也会举办一些送书活动,希望大家能够喜欢。另外如果你想联系我,欢迎在公众号中直接发送你想说的话与浩彬老撕直接交流~
长按二维码即可关注!如果你觉得浩彬老撕的内容还不错,希望你可以推荐给其他小伙伴↓↓↓
更多书籍更多数据挖掘知识,敬请期待