爬虫数据分析【旅游篇】

浏览: 2030

挖数 腾讯数据产品经理 & 段子手

个人微信公号:washu66

往期回顾

99.9%的数据分析师,都做不到这些


Kindle里有一本刷了3遍的书,一直不舍得删,这本书的名字叫做《不去会死》,讲述一个普通日本上班族在经历了一场病痛之后,毅然抛下工作,去践行他儿时环游世界的梦想。

一人一车,接连穿越美洲、欧洲、非洲、中东,整场旅行耗时7年半。

有人问他得到了什么,他去的时候两手空空,回来的时候也空空两手,但是,他去过玛雅文明最早的遗迹 - 笛卡尔神殿,在清晨雾气浮沉的时候,登上塔尖,等待神秘的金字塔群在迷雾中一座座浮现;他曾经驾着独木舟,在加拿大的育空河里赏着极光钓着鲑鱼;他曾经驾着单薄的自行车,在非洲大陆,与大象、长颈鹿一同驰骋。

image.png

每次读这本书,都有一种冲破枷锁的冲动。

于是乎,我带着对旅游的向往,爬取了某旅游网站国内和国外不同城市地区的游记数据,目的在于洞察最受欢迎的旅游地区,以及不同地区随时间变化的游记数量。

image.png

国内共计爬取了46个旅游城市,从游记数量来看,有以下分布:

image.png

image.png

Top10 旅游城市分别是

image.png

如果你决定去北京旅游,想避开旺季的话要怎么做呢?

image.png

答案是避开7,8月,如果是杭州的话呢?

image.png


答案是避开3,4月。

image.png

爬取了 日本、泰国、蒙古、斯里兰卡、台湾、新加坡、香港、马来西亚、印度尼西亚、马尔代夫、越南、尼泊尔、韩国、印度 11个国家和地区的数据,游记数量有如下分布:

image.png

亚洲地区最受欢迎的旅游地区是 香港,第二名是 韩国,第三名是 泰国,第四名是 台湾,第五名是 日本。

image.png

image.png

而从近两年的数据看,韩国 已经取代 香港 成为亚洲第一受欢迎旅游地区。

image.png

从近半年来的数据看更明显,韩国 一骑绝尘,香港 跌到第三被 泰国 超过, 印尼 挤下 台湾 进入前5。

如果从节假日来看,今年五一劳动节,各个地方旅游的分布是

image.png

最多人去 印度尼西亚,看来炎炎夏日大多数人还是选择去海岛玩。

去年的国庆节呢?

image.png

国庆节,天气凉爽了许多,巴厘岛立刻被大多数人抛弃,韩国 成了大多数人的选择,不可忽视的是 台湾,很多人选择国庆节过去。

春节呢?

image.png

泰国 是春节最热门的旅游地区,不可忽视的是冲进Top5的 新加坡。


=THE END=


 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册