Python抓取淘宝女装信息(二)

浏览: 2561

继上周的淘宝女装连衣裙信息爬虫进一步完善,进行了次级页面信息的抓取、支持多进程。

数据说明

本次爬取淘宝女装连衣裙共8个字段信息,包括:商品ID、店铺ID、店铺地址、店铺名称、商品名称、销量、价格、商品详情链接。其中商品ID设为数据库存储的主键,防止了存储重复信息。共抓取 20258条数据。

淘宝连衣裙数据链接:百度网盘 密码:52r5

有兴趣的可以做分析,上周我们就抓取的部分数据做了简要分析

程序Github—Taobao_dress

爬取逻辑

image.png

一、首页信息

image.png

以连衣裙的种类为划分,每个种类如“棉麻连衣裙、长袖连衣裙、雪纺连衣裙、针织连衣裙等”分别对应一个起始链接,共设置15个链接作为一级页面的爬取入口。

在一级页面的抓取过程中,可在该页面的<head></head>标签内提取出本页商品信息,这里页面中信息是以字典的形式存储,我们用json.loads解析出每个商品的信息,即存储到MySQL的8个字段。将其中的商品ID、店铺ID 作为关键信息,可帮助我们生成链接进入下一级爬取页面。

image.png

二、二级页面信息

我们根据在一级页面抓取过程中提取出的商品ID、店铺ID进入该商品的详情页,该页面下方一般会对与本产品相关的产品设置推广介绍,如下图。我们默认连衣裙页面的推广产品也是与连衣裙相关的同类产品,对其进行抓取,后续再进行数据的有效性分析。

image.png

在程序运行的过程中,我们查看存储在MySQL中的数据,可以发现在存储的商品信息中不完全都是与连衣裙有关的,在二级页面信息的抓取过程中我们虽然扩大了抓取范围,但是同时也降低了信息的有效性,可以看到有的数据与连衣裙无关,如果要精确分析还需要对数据进一步清洗。

image.png

三、信息抓取、保存

将抓取到的重复商品数据丢弃

image.png

保存抓取的商品数据

image.png

推荐 5
本文由 watermelon 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册