你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
没有找到相关结果
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-06-13 回答
赞同来自: 朝菌 、seng
# coding=utf-8 __author__ = 'MuRui' # 引入相关的第三方lib import scrapy from bs4 import BeautifulSoup # 爬虫的抓取类 class DouBanSpider(scrapy.Spider): # 爬虫在scrapy中识别的名称 name = "douban_spider" # 需要抓取的网页地址 start_urls = ["豆瓣的地址"] # 异步加载,得到抓取后的正文,然后自定义处理 def parse(self, response): # 利用BeautifulSoup解析网页 soup = BeautifulSoup(response.body, "html.parser") item = soup.find(name="a",attrs={"class":"p1"} ) next_url = item["href"] yield scrapy.Request(next_url, callback=self.more_movies) # 解析后面重新发起,抓取下来的页面 def more_movies(self, response): meta = response.meta
要回复问题请先登录或注册
学渣乙
推荐一份编程学习资源,包含了各类编程语言学习进阶路线图、视频教程、配套书籍文档、数百份面经,各大厂面试真题。编程语言包括:Java、前端、PHP、Python、Linux运维、软件测试、数据解构与算法、C语言、go语言等
微信扫码关注公众号,发送 "编程"获取资源
1 个回复
牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-06-13 回答
赞同来自: 朝菌 、seng
代码没有进行测试,大概的逻辑就是上面的这样。