作者:韩琦儿 算法工程师,R语言中文社区专栏作者。知乎专栏:https://www.zhihu.com/people/han-qi-er-11/posts
公众号后台回复“大众点评”下载数据集
前言
之前有一篇文章分析了价格和评分(好吃程度)的关系,今天来看下吃的人(点评人)越多,是否说明越好吃呢?在这片文章里我们以大众点评上的上海美食数据为例,来分析这个问题。
爬虫数据获取
首先,我随机爬取大众点评上750条上海美食的数据,包括,销量(点评数),人均价格,口味,环境,服务 ,菜系,商区。这里把点评数近似看成销量。
爬取的数据如下:
> head(lxy1)
name class dp price taste environment service score sq
1荣新馆(1号店) 日本菜 22156 369 9.1 9.2 9.2 9.17 虹桥
2海底捞火锅(长寿路店) 火锅 11155 123 8.4 8.5 9.2 8.70 长寿路
3红辣椒(杨浦店) 川菜 20056 89 8.8 8.6 9.1 8.83 五角场/大学区
数据分析
然后,我们来分析得分和销量的关系:
1. 得分和销量的散点图
发现评价和销量的相关性并不强,
进一步对他们做回归分析,
lxy2<-lxy1[which(lxy1$dp>500),]#筛选出销量大于500的
> lm1<-lm(score~dp,data=lxy2)
> summary(lm1)
Call:
lm(formula = score ~ dp, data = lxy2)
Residuals:
Min 1Q Median 3Q Max
-0.47643 -0.03495 0.01273 0.06497 0.24049
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.068e+00 7.959e-03 1139.348 <2e-16 ***
dp -3.924e-06 1.703e-06 -2.304 0.0218 *
p值为0.02183,说明是有相关性的,回归方程是
score= -3.924e-06 * dp + 9.068
这里回归系数是-3.924e-06 ,几乎就是0 了,令人意外的是截距项值是9.0688,也就是说销量的增长对得分的影响很小很小,但是,销量大于500,得分几乎都是9分多的,
2. 意外发现
①海底捞(长寿路店)在所有火锅类得分倒数第一,但点评人数却很高(可能是虚高,应该是有一部分没有写评语的习惯的用户,因为太难吃了,特意写点评发泄,造成点评数虚高)
②不难发现上海所有海底捞店的口味确实比服务差很多。
小结
PS:本吃货也吃过上海不少火锅店,像小辉哥,小三宝,巴实重庆火锅(真心辣),潮汕牛肉火锅,个人觉得海底捞口味真心一般,那种过于热情的服务我也不喜欢。
公众号后台回复关键字即可学习
回复 R R语言快速入门免费视频
回复 统计 统计方法及其在R中的实现
回复 用户画像 民生银行客户画像搭建与应用
回复 大数据 大数据系列免费视频教程
回复 可视化 利用R语言做数据可视化
回复 数据挖掘 数据挖掘算法原理解释与应用
回复 机器学习 R&Python机器学习入门