从0开始,教你做数据分析-07篇

浏览: 1223

image.png

 HI~!最近过得好吗?零一可是忙死了,呵呵。今天继续跟大家分享。


上次跟大家说过数据分析的4个任务,今天讲第一个任务,预测


预测这个任务在很多场景可以应用到。比如


预测某行业未来的市场走势


预测买家会不会响应我们的营销主张


预测股票走势/预测福利彩票开奖号码


预测我们自己的体重/身高


大家可以发现,无论是商业还是生活都可以应用到,作为一名【业务】数据分析师而言(以下简称数据分析师,但特指业务数据分析师),当然不会什么事情都去做分析,那么,是什么因素决定了我们要去做分析呢?


答案是【商业价值】。

 

作为一名数据分析师应该以【商业价值】作为导向,我们的分析产生了商业价值,那么我们作为一名数据分析师才能有相应的价值。数据分析师的身价也因此而来。

 

数据分析师必不可少的4要素是

 

【思维】+【业务】+【工具】+【数据】


【思维】指分析思维,大家可以发现我正在一点一滴地传播给大家。


【业务】指业务能力,只有深入了解企业或者我们自己的业务需求,才能【点数成金】,如果今天我不小心请了一个完全不懂电商的数据分析师来帮我分析,那结果是堪忧的。因为他可能不知道什么是UV,什么是PV,什么是ROI,什么是直通车/钻展。


如果把数据分析师比喻成剑客,那【思维】和【业务】就是这个剑客的任督二脉了。


【工具】古人有云:工欲善其事,必先利其器,有工具才能高效、精准地做出分析。【工具】就像剑客手中的宝剑一样。


【数据】数据分析师手里没有数据,也就不存在数据分析师了。【数据】就像剑客身体中的血液,连血液都木有,就活不下去了。


在Excel中,结合数据挖掘套件,可以非常简单地完成【预测】这个任务。

 

虽然鼠标点几下就可以完成【预测】,但是做【预测】的方法有好几种,分别是在不同的情况下应用的。如果用错了方法,可能程序就会报错。哪怕不报错,出来的结果也可能是差强人意的。

 

具体用哪种方法,我们根据的是什么呢?

 

答案是【数据类型】

 

数据分成3种类型,当然你们去看一些数据分析、数据挖掘的书籍里面的分法可能会跟我的不一样。

 

【数据类型】分为【定量】,【定性】和【时间序列】。

 

【定量】就是我们的数字,1,2,3,4,5,6,7,8,9,0组成的数值,当数据是这种数值的时候,我们就可以把他归类为【定量】数据类型。

 

【定性】一般是字符型的数据,比如,中文、英文就是一种字符型的数据。

 

【时间序列】跟定量非常接近,但不同的就是时间序列是时间格式的数据,那么我们看下电脑系统的时间,就是时间格式的数据,称之为【时间序列】。


对应的分析方法(不局限以下方法)

 

【定量】-【线性回归】


【定性】-【逻辑回归】


【时间序列】-【时间序列预测】

 

怎么选择就看我们要预测的维度,是根据哪种数据的变化来预测的。

 

比如,我们已知时间和销量,要预测未来的销量。只要维度里面有一个维度是时间,就应该选择【时间序列预测】。

 

如果已知高质宝贝数和成交量,要根据高质宝贝数啦预测成交量,就是通过【定量】预测【定量】,因而选择【线性回归】。

 

如果已知买家的地域,下单金额和购买件数,来预测买家会不会响应我的促销活动,我们预测的就是买家是否会重复购买,那就是会或不会的问题,是通过【定量】预测【定性】,类似这种预测结果是A或B或C……这种分类情况,就应该选择【逻辑回归】


下面3个例子来帮助大家掌握【预测】

 

1、已知时间和成交量,要预测未来几个月的成交量

 

源数据如下

image.png

源数据挺多,仅截图一部分。

image.png

image.png

源数据可以是表也可以是我们选择的区域也是可以外部数据源,这里我们直接在表内选择数据区域。

image.png

时间戳会自动识别,前提是数据必须是日期格式的。(excel里面时间序列是日期格式)

image.png

image.png

查看模型结果

image.png

可以指定要预测多少个单位时间。

image.png

可以看到使用的是ARIMA算法,其实算法我们还可以在建立模型的时候进行设置,这里不解释太多。

image.png

模型建立后,可以用查询工具

image.png

image.png

image.png

image.png

image.png

结果如下图所示,给出时间戳、预测的成交量和标准偏差。

image.png

2、手上有高质宝贝数和成交量两个数据,假如现在已知未来几个月的高质宝贝数,通过这个来预测成交量。

 

数据源如下

image.png

image.png

image.png

image.png

image.png

参数中,我们可以选择算法还可以配置参数,这里我们选择线性回归即可,参数不解释。

image.png

定性集(国内翻译叫训练集)和测试集是数据挖掘中非常重要的一个概念。也是别于统计学的一个思想。统计学中是用统计方法来检验模型是否靠谱,而数据挖掘中,是将数据源拆分成两部分,一部分用来建立模型,这一部分数据称之为训练集。另一部分在模型建立后,回代入模型中,进行测试,看模型的准确率有高,这一部分数据称之为测试集。现在数据量很少,而且作为示例,可以把测试集的百分比设置为0,也就是不拆分数据,将所有的数据都用在建立模型上面。

 image.png

image.png

在模型的窗口中会看到回归方程,如果不懂回归方程的,可以找一本高等数学的教材看看或者直接度娘。

image.png

打开查询工具,让模型做出预测。

image.png

下图中看到的高质宝贝数是已知条件,已知高质宝贝数,但成交量未知,这时模型会做出预测。

image.png

image.png

predict是预测的意思。这里是添加预测值作为输出。

image.png

image.png

image.png

输出结果如下,输出 1这个字段就是模型预测出来的结果。

image.png

3、手头上有历史买家订单数据,买家的地域,下单金额和购买件数(只要处理下源数据,就可以得到是否重复购买这个数据,1表示会重复购买,0表示不会)


image.png

image.png

image.png

image.png

image.png

image.png

image.png

模型浏览中可以看到会重复购买的买家的特性,和不会重复购买的买家的特性。

image.png

假设下面是新的买家数据,那么我们要来预测下,这4位新的买家是否会重复购买,成为回头客。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

结果如下,模型判定只有王六会重复购买。

image.png

析的一个大忌(当然某些时候不是)
 

看下时间,又是凌晨2点多。这个星期只睡了十几个小时,周末补眠。

 

这是中阶的内容,我发现如果要细讲,是讲不完的。。。大家跟上。

 

文中用到的工具下载地址和教程:http://pan.baidu.com/share/link?shareid=1490988699&uk=2164472865

推荐 0
本文由 零一老师 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册