R语言实战:爬取天猫纸尿裤商品数据并进行价格分析

浏览: 3022

rvest是R语言一个用来做网页数据抓取的包,其中html_nodes()函数查找标签的功能非常好用。本文使用rvest包爬取天猫纸尿裤的商品数据并进行价格分析,爬取时间是2017年7月24日,数据虽不全面,可能存在一定程度的偏差,但仍可以为这一行业提供一些参考。

 

一、数据采集

1、天猫搜索框搜索关键字“拉拉裤”,按照销量降序排序,按下CTRL+SHIFT+C,当鼠标放到该宝贝页面的任何位置时,可以看到相应的源代码。宝贝的图片、价格、品牌名称、卖家以及月销量等数据都是包含在<div class="product-iWrap">...</div>块中。

2、启动Rstudio,使用rvest包抓取商品数据。其操作过程可参考无鱼二饼的文章《R语言学习:使用rvest包抓取网页数据》

数据爬取代码如下:

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

将爬取单页数据改成for循环语句爬取多个网页数据,在操作过程中,发现无法执行循环,总是无限爬取首页数据,搜索了解决办法,无果,所以只能一页一页的进行数据抓取,然后将所有数据汇总。

合并的数据代码如下:

Clipboard Image.png

抓取关键字“纸尿裤”、“纸尿片”商品数据过程与上面类似,不在赘述。


二、数据处理

保存后的CSV数据如下:

Clipboard Image.png

对itemTitle列的数据做分列处理,分离出品牌、包装规格和尺码,部分不规范的需要手动调整;对volume列的文字字符进行替换;将price除以包装规格得到单片价格perprice的新字段;对perprice进行分组处理得到新字段group;对缺失值和异常值进行删除处理。

处理后的数据如下:

Clipboard Image.png


三、数据分析

1、单片价的直方图和核密度图

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

2、单片价与销量关系图

Clipboard Image.png

Clipboard Image.png

3、尺码均价图和销量占比图

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

4、品牌销量和单品榜

Clipboard Image.png

Clipboard Image.png

Clipboard Image.png

5、品牌四象限图

Clipboard Image.png

Clipboard Image.png

纸尿裤和纸尿片的分析与拉拉裤类似,不在赘述

6、拉拉裤/纸尿裤/纸尿片单片价分布对比图

Clipboard Image.png

Clipboard Image.png

 

四、小结

对于纸尿裤市场三个品类的分析结论如下:

1、单片均价整体情况:拉拉裤1.48>纸尿裤1.22>纸尿片0.81

2、低价区间产品扎堆,趋于饱和,中高端价格区间存在一定市场潜力,有待开发

3、帮宝适、好奇等国际品牌主导市场

推荐 7
本文由 花花_Angel 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

4 个评论

这个可以有,我们家也需要
代码弄成 coding形式就好了
第一次编辑,没发现那个功能
下次一定写成coding形式
对呀,弄成Coding方便拷贝,自己练习。R语言中文社区公众号 到时候也连载下,很不错的。

要回复文章请先登录注册