作者: 张小鸡 Python爱好者社区专栏作者
知乎ID:https://www.zhihu.com/people/mr.ji
个人公众号:鸡仔说
前言
scrapy的强大相信大家已早有耳闻,之前用的时候只是感觉它爬取效率高,内部的异步封装很友好。殊不知我看到的知识冰山一角,它还有很多提高开发效率的功能,今天就以一个实例带大家窥探一二
工具环境
语言:python3.6
编辑器:Pycharm
数据库:MongoDB
框架:scrapy1.5.1
温馨提示
阅读此文可能需要对scrapy框架有基本的了解,对xpath解析有一个基本的了解
爬取思路
爬取站点:dytt8.net/
这样的站点我一眼望过去就想给站长打Q币,为什么啊?这站点简直是为爬虫而生啊?你看,一点花里胡哨的东西都没有,我们小眼一瞅便知,和我们不相关的就只是游戏部分的资源。我们需要如果要进入爬取更多的页面就只需要点击导航页
当我点开这些导航页,我都要惊喜的哭了,你们谁也别拦我,我要给站长打钱,对爬虫简直太友好了,我们其实只需要跟踪带有index页面的链接,然后深入下去爬取内页即可
当我们到达内页,再看下哪里可以深入,这里其实也很简单,翻到最底下发现,只需要继续跟踪下一页链接即可
show me the code
1. 新建项目文件
scrapy startproject www_dytt8_net
得到一个如下结构的文件目录