爬取起点24小时热销榜前200名排名信息

浏览: 2925

周末两天的培训结束了,非常感谢这段时间老师的热情指导,现对起点小说排名信息的爬取已完成,具体思路如下:

第一步:首先选取起点的网站网址:https://www.qidian.com/rank/hotsales,先尝试用代理和cookies进入网址,发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息

    使用代理和headers运行程序:

火狐截图_2017-11-22T00-58-14.393Z.png

        不使用代理运行程序结果:

火狐截图_2017-11-21T13-59-06.541Z.png

第二步:查看起点排行榜多个界面,发现只是后面的page=不同,取出所有的源代码信息,发现所有内容都在class=book-mid-info的a标签上,然后用BS4来对整个网页内容的提取,使用find_all和css的select方法都可以得到结果,结果如下:

     find_all方法:

火狐截图_2017-11-22T01-12-09.970Z.png

    select方法

火狐截图_2017-11-22T01-15-52.602Z.png

第三步:在这里使用css的select方法提取数据,然后把数据转变为pandas的DataFrame格式,因为数据都是在同一列,需要对数据进行切片及去掉原有索引,然后用pandas的concat把书名、作者等信息进行合并

    数据传入DataFrame结果:

火狐截图_2017-11-21T14-35-31.738Z.png

     用pandas的concat把作者等信息进行合并运行后的结果:

火狐截图_2017-11-21T14-36-45.016Z.png

最后就是保存在csv中,因为格式不同,需要对数据使用gbk格式写入

下图即是所有的代码:

火狐截图_2017-11-22T01-22-58.046Z.png

推荐 5
本文由 走马兰台 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

不错不错
很不错!加油

要回复文章请先登录注册