Python抓取淘宝女装信息（二）

发表: 2017-02-13 浏览: 2561

数据分析爬虫 Python

继上周的淘宝女装连衣裙信息爬虫进一步完善，进行了次级页面信息的抓取、支持多进程。

数据说明：

本次爬取淘宝女装连衣裙共8个字段信息，包括：商品ID、店铺ID、店铺地址、店铺名称、商品名称、销量、价格、商品详情链接。其中商品ID设为数据库存储的主键，防止了存储重复信息。共抓取 20258条数据。

淘宝连衣裙数据链接：百度网盘密码：52r5

有兴趣的可以做分析，上周我们就抓取的部分数据做了简要分析

爬取逻辑：

以连衣裙的种类为划分，每个种类如“棉麻连衣裙、长袖连衣裙、雪纺连衣裙、针织连衣裙等”分别对应一个起始链接，共设置15个链接作为一级页面的爬取入口。

在一级页面的抓取过程中，可在该页面的<head></head>标签内提取出本页商品信息，这里页面中信息是以字典的形式存储，我们用json.loads解析出每个商品的信息，即存储到MySQL的8个字段。将其中的商品ID、店铺ID 作为关键信息，可帮助我们生成链接进入下一级爬取页面。

我们根据在一级页面抓取过程中提取出的商品ID、店铺ID进入该商品的详情页，该页面下方一般会对与本产品相关的产品设置推广介绍，如下图。我们默认连衣裙页面的推广产品也是与连衣裙相关的同类产品，对其进行抓取，后续再进行数据的有效性分析。

在程序运行的过程中，我们查看存储在MySQL中的数据，可以发现在存储的商品信息中不完全都是与连衣裙有关的，在二级页面信息的抓取过程中我们虽然扩大了抓取范围，但是同时也降低了信息的有效性，可以看到有的数据与连衣裙无关，如果要精确分析还需要对数据进一步清洗。

将抓取到的重复商品数据丢弃

保存抓取的商品数据

推荐 5

本文由 watermelon 创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录或注册