请问我要用python爬取豆瓣的影评,但是那个影评在初始页面只有部分显示,要跳链接再在链接里提取文本 这个要怎么搞?

0
1.png
已邀请:
2

牟瑞 - 大数据 Hadoop 讲师 Hadoop入门课程地址:http://www.hellobi.com/course/39 有架构师,技术总监,CTO的职位请联系我! 2016-06-13 回答

拿到这个链接地址,重新发起一个请求,把这个页面重新抓取下来。
# coding=utf-8
__author__ = 'MuRui'

# 引入相关的第三方lib
import scrapy
from bs4 import BeautifulSoup

# 爬虫的抓取类
class DouBanSpider(scrapy.Spider):
# 爬虫在scrapy中识别的名称
name = "douban_spider"
# 需要抓取的网页地址
start_urls = ["豆瓣的地址"]

# 异步加载,得到抓取后的正文,然后自定义处理
def parse(self, response):
# 利用BeautifulSoup解析网页
soup = BeautifulSoup(response.body, "html.parser")
item = soup.find(name="a",attrs={"class":"p1"} )

next_url = item["href"]

yield scrapy.Request(next_url, callback=self.more_movies)

# 解析后面重新发起,抓取下来的页面
def more_movies(self, response):
meta = response.meta
代码没有进行测试,大概的逻辑就是上面的这样。

要回复问题请先登录注册