爬取起点小说网

发表: 2017-11-20 浏览: 2144

爬虫

两天的爬虫线下培训结束了，感谢大伟老师和工作人员们的辛苦付出，以下为本次作业的简述：

一、先处理单页信息的爬取：

输出结果后发现网页被重定向至其他网页，并非需要爬取的排行榜，于是加入代理及异常机制尝试：

输出结果正常：

接着，加入解析器，通过循环，把需要的信息先放入字典，再将全部信息分类汇总入列表：

引入pandas，将信息转化为DataFrame：

输出结果第一页所需信息：

至此，单页爬取完成。

二、爬取前200名的信息：

单页爬取成功，加入循环，实现多页爬取，并输出结果，以下为完整代码：

以下为完整输出结果：

如有发现问题，欢迎各位老师同学的批评指正。

再次感谢大伟老师，各位天善的工作人员及各位同学！

推荐 10

本文由柳冬创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

4 个评论

非常不错，加油，好好学习

在for循环的，getinfo(url) 为什么传入url

确实这步多余了，getinfo不用定义，直接接下去去执行就行了

加油！

要回复文章请先登录或注册