双十二来了,我爬取了淘宝上所有的羽绒服|想找到最大折扣

浏览: 1566

这是菜鸟学Python的第122篇原创文章

阅读本文大概需要3分钟

     天气越来越冷,北方已经开始下雪了,而在南方的我此刻也冻着瑟瑟发抖,棉衣棉裤早就穿上了,还是取暖基本靠抖!明天就是双十二了,我想买件羽绒服,于是我爬取了淘宝上所有的卖羽绒服的商家,看看折扣如何,有多少商家打折~~

1.工具选择

淘宝的网站还是比较复杂的,我偷懒直接用了selenium取爬!现在爬虫的工具是在是太多了,有很多第三方的数据采集工具,甚至你不用写一行代码就可以轻松爬取几千几万条的数据!

其实它也是集成了一些爬虫的框架和常见的库,只是做成了一个商业软件封装好了,你可以直接使用!我现在还是喜欢动手写代码来爬数据~~,以后快捷的话可以尝试用一些工具去爬取!

2.网站分析

我们点击关键字搜索"羽绒服"进行页面搜索,发现有这样一些漂亮的页面

image.png

然后我审查元素,进行网站分析,发现大部分都是js代码,动态加载的!不是非常好分析,如果你用request加cookies去爬取,爬的内容都是空的,为了简单些,我直接用selenium模拟爬去.

3.爬取过程

整个的思路和爬取拉勾网有点类似,大概分下面几个步骤:

1).安装chrome和selenium库

2).启动chrome进入页面输入关键字"羽绒服"

3).出现搜索页面之后,找到总的页数,进入下一页

4).循环爬取每一页的数据

5).存入json文件或者数据库中

辛苦了半天我们看一下数据的样子:

image.png

4.数据分析的几个亮点

我一共爬取了4000多条羽绒服的信息,下面是我分析的几个关键数据:

1.只有6成的商家有折扣

参与双十二的有2706家商户,只有60%的商家打折.清一色的满300减30

image.png

2.羽绒服的商家城市前10名

image.png

发现排名第一的是杭州,商户的数量非常占了40%以上,非常厉害!其次就是苏州.

3.国内和海外地区

image.png

发现海外也有一些羽绒服在卖,海淘果然无处不在,其中加拿大特别多,是不是因为那边比较冷啊!

4.最贵和最便宜的羽绒服:

image.png

最便宜的是福建 泉州的一家只要49块,最贵的是深圳的诗篇官方要7980块,天价羽绒服!


5.男女羽绒服的比例

对数据进行简单的过滤分析,发现有男款,女款和通用款三种类型:

女     2244  50.9%
男 1924 43.6%
其他 236 5%

女款占了一半以上,女款还是比较多滴.


6.我最关心的价格和折扣:

image.png

基本价格在598,699的羽绒服非常多,其中598的打折满300-30有66家,打折最多的是699的,有91家打折!最厉害的是1299的羽绒服里面有50家打折,占了98%,也就是说1299的羽绒服几乎全部打折!

结论:


数据分析的过程其实非常有意思,限于篇幅我没有深入挖掘数据的内在联系,当然如果数据量大一点话会更好玩,挖掘出的价值会更高,

image.png

推荐 0
本文由 菜鸟学Python 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册