爬取起点小说网

浏览: 2144

两天的爬虫线下培训结束了,感谢大伟老师和工作人员们的辛苦付出,以下为本次作业的简述:

一、先处理单页信息的爬取:

1.png

输出结果后发现网页被重定向至其他网页,并非需要爬取的排行榜,于是加入代理及异常机制尝试:

2.png

输出结果正常:

3.png

接着,加入解析器,通过循环,把需要的信息先放入字典,再将全部信息分类汇总入列表:

4.png

引入pandas,将信息转化为DataFrame:

5.png

输出结果第一页所需信息:

6.png

至此,单页爬取完成。


二、爬取前200名的信息:

单页爬取成功,加入循环,实现多页爬取,并输出结果,以下为完整代码:

11.png

以下为完整输出结果:

8.png

9.png


如有发现问题,欢迎各位老师同学的批评指正。

再次感谢大伟老师,各位天善的工作人员及各位同学!

推荐 10
本文由 柳冬 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

4 个评论

非常不错,加油,好好学习
在for循环的,getinfo(url) 为什么传入url
确实这步多余了,getinfo不用定义,直接接下去去执行就行了
加油!

要回复文章请先登录注册