爬取起点24小时热销榜前200名排名信息

发表: 2017-11-21 浏览: 2925

爬虫

周末两天的培训结束了，非常感谢这段时间老师的热情指导，现对起点小说排名信息的爬取已完成，具体思路如下:

第一步：首先选取起点的网站网址:https://www.qidian.com/rank/hotsales,先尝试用代理和cookies进入网址，发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息

使用代理和headers运行程序：

火狐截图_2017-11-22T00-58-14.393Z.png

不使用代理运行程序结果:

火狐截图_2017-11-21T13-59-06.541Z.png

第二步：查看起点排行榜多个界面，发现只是后面的page=不同，取出所有的源代码信息，发现所有内容都在class=book-mid-info的a标签上，然后用BS4来对整个网页内容的提取，使用find_all和css的select方法都可以得到结果，结果如下：

find_all方法：

火狐截图_2017-11-22T01-12-09.970Z.png

select方法：

火狐截图_2017-11-22T01-15-52.602Z.png

第三步：在这里使用css的select方法提取数据，然后把数据转变为pandas的DataFrame格式，因为数据都是在同一列，需要对数据进行切片及去掉原有索引，然后用pandas的concat把书名、作者等信息进行合并

数据传入DataFrame结果：

火狐截图_2017-11-21T14-35-31.738Z.png

用pandas的concat把作者等信息进行合并运行后的结果：

火狐截图_2017-11-21T14-36-45.016Z.png

最后就是保存在csv中，因为格式不同，需要对数据使用gbk格式写入

下图即是所有的代码：

火狐截图_2017-11-22T01-22-58.046Z.png

推荐 5

本文由走马兰台创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

不错不错

很不错！加油

要回复文章请先登录或注册