R语言实战:评分与销量有相关性吗?

浏览: 1503

作者:韩琦儿  算法工程师R语言中文社区专栏作者。知乎专栏:https://www.zhihu.com/people/han-qi-er-11/posts


公众号后台回复“大众点评”下载数据集

前言

之前有一篇文章分析了价格和评分(好吃程度)的关系,今天来看下吃的人(点评人)越多,是否说明越好吃呢?在这片文章里我们以大众点评上的上海美食数据为例,来分析这个问题。

爬虫数据获取

首先,我随机爬取大众点评上750条上海美食的数据,包括,销量(点评数),人均价格,口味,环境,服务 ,菜系,商区。这里把点评数近似看成销量。

爬取的数据如下:

> head(lxy1)
     name   class        dp   price taste environment service  score   sq
1荣新馆(1号店) 日本菜      22156   369  9.1   9.2    9.2           9.17 虹桥
2海底捞火锅(长寿路店) 火锅 11155   123   8.4  8.5    9.2         8.70   长寿路
3红辣椒(杨浦店)   川菜    20056    89   8.8   8.6    9.1    8.83 五角场/大学区

数据分析

然后,我们来分析得分和销量的关系:
1. 得分和销量的散点图

发现评价和销量的相关性并不强,
进一步对他们做回归分析,

lxy2<-lxy1[which(lxy1$dp>500),]#筛选出销量大于500的
> lm1<-lm(score~dp,data=lxy2)
> summary(lm1)

Call:
lm(formula = score ~ dp, data = lxy2)

Residuals:
    Min       1Q   Median       3Q      Max
-0.47643 -0.03495  0.01273  0.06497  0.24049

Coefficients:
             Estimate Std. Error  t value Pr(>|t|)    
(Intercept)  9.068e+00  7.959e-03 1139.348   <2e-16 ***
dp          -3.924e-06  1.703e-06   -2.304   0.0218 *  

p值为0.02183,说明是有相关性的,回归方程是
score= -3.924e-06 * dp + 9.068
这里回归系数是-3.924e-06 ,几乎就是0 了,令人意外的是截距项值是9.0688,也就是说销量的增长对得分的影响很小很小,但是,销量大于500,得分几乎都是9分多的,

2. 意外发现

①海底捞(长寿路店)在所有火锅类得分倒数第一,但点评人数却很高(可能是虚高,应该是有一部分没有写评语的习惯的用户,因为太难吃了,特意写点评发泄,造成点评数虚高)

②不难发现上海所有海底捞店的口味确实比服务差很多。

小结

  • 销量的增长对得分的影响很小,但是销量大,是可以得出评分高

  • 不推荐去海底捞吃火锅


PS:本吃货也吃过上海不少火锅店,像小辉哥,小三宝,巴实重庆火锅(真心辣),潮汕牛肉火锅,个人觉得海底捞口味真心一般,那种过于热情的服务我也不喜欢。


image.png

公众号后台回复关键字即可学习

回复 R               R语言快速入门免费视频 
回复 统计          统计方法及其在R中的实现
回复 用户画像   民生银行客户画像搭建与应用 
回复 大数据      大数据系列免费视频教程
回复 可视化      利用R语言做数据可视化
回复 数据挖掘   数据挖掘算法原理解释与应用
回复 机器学习   R&Python机器学习入门 

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册