python网络爬虫入门（一）——糗事百科热门帖

发表: 2017-04-08 浏览: 1187

Python

Python小白，刚学习爬虫不久,会一般的静态网页抓取，动手来写第一个例子。

一、目标

1、抓取糗事百科热门帖，获取其发布者、评论、点赞数、评论等信息

2、将信息清洗并打印，循环输出

3、设计程序，使可以选择抓取的页面范围

4、将每一页的信息保存到文本

二、开发环境介绍

phthon 2.7.13

IDE:PyCharm

采用库：re、requests、time

三、步骤

1、获取源码

首先用requests库的get方法获取首页源代码

<span style="font-size:14px;">user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

headers={'User_agent': user_agent}

r=requests.get(url,headers=headers)

result=r.text

print result</span>

结果输出如下

2、正则匹配

打开360浏览器，右键点击审查元素，可以清晰的看到发布者、年龄、发布内容、评论数等的分布及标签构造，根据各种关键词可以匹配正则设置循环，打印输

<span style="font-size:14px;">pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>',re.S)

items=re.findall(pattern,result)

 <span style="white-space:pre">	</span>number=1

        for item in items:

            print u''

            print number,u'楼',u'\n楼主：',item[0],u'',item[1],u'岁',u'\n发言:',self.tool.replace(item[2]),u'\n好笑：',item[3],u'\n评论：',item[4],u'\n赞：',item[5],u'\n踩：',item[6]

            time.sleep(0.1)

            number+=1</span>

3、面向对象

<span style="font-size:14px;">#定义一个Spider类

class Spider(object):

    #初始化参数

    def __init__(self):

        self.siteURL ='http://www.qiushibaike.com/'

        self.tool=Tool()

    #获取网页源码

    def getSource(self,url):

        user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

        headers = {'User_agent': user_agent}

        r=requests.get(url,headers=headers)

        result=r.text

        return result

    #获取详情页信息，并循环打印输出

    def getDetailPage(self,detailURL):

        source=self.getSource(detailURL)

        pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>',re.S)

        items=re.findall(pattern,source)

        number=1

        for item in items:

            print u''

            print number,u'楼',u'\n楼主：',item[0],u'',item[1],u'岁',u'\n发言:',self.tool.replace(item[2]),u'\n好笑：',item[3],u'\n评论：',item[4],u'\n赞：',item[5],u'\n踩：',item[6]

            time.sleep(0.1)

            number+=1

        return items</span><strong>

</strong>

4、数据清洗

可以看到所得代码中含较多的</br><br><br />等标签，可以定义一个Tool类进行清洗

class Tool():

    def replace(self,x):

        x=re.sub(re.compile('<br>|</br>|/>|<br'),"",x)

        return x.strip()

5、文本保存

定义一个saveDetailPage函数，传入文件名和数据，在此不赘述

6、获取多页

上面的内容我们已经成功用正则表达式匹配出想要的内容，想获取多页，只需设置一个循环即可

所以关键内容来啦！

观察底面标签可知热门评论共35页，观察网页地址栏可发现规律：

首页 url即'http://www.qiushibaike.com/',从第二页开始为 url+/8hr/page/x/?s=4964698 ，可以推测：8hr为8小时内最热门，x即页数，后面s=4964698,博主猜测是访问该网站的总次数，因为如果在同一个会话中，s是相同的，反之另外打开访问时s又不同，且每次发现s有增加！

由以上分析，我们要遍历这35页，要分情况讨论。

最后来看抓取的结果：

四、奉上源码

<span style="font-size:14px;">#usr/bin/env python

# -*- coding: utf-8 -*-

import re

import requests

import time

#定义一个Tool类，方便用replace方法把换行符等删除

class Tool():

    def replace(self,x):

        x=re.sub(re.compile('<br>|</br>|/>|<br'),"",x)

        return x.strip()

#定义一个Spider类

class Spider(object):

    #初始化参数

    def __init__(self):

        self.siteURL ='http://www.qiushibaike.com/'

        self.tool=Tool()

    #获取网页源码

    def getSource(self,url):

        user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

        headers = {'User_agent': user_agent}

        r=requests.get(url,headers=headers)

        result=r.text

        return result

    #获取详情页信息，并循环打印输出

    def getDetailPage(self,detailURL):

        source=self.getSource(detailURL)

        pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>',re.S)

        items=re.findall(pattern,source)

        number=1

        for item in items:

            print u''

            print number,u'楼',u'\n楼主：',item[0],u'',item[1],u'岁',u'\n发言:',self.tool.replace(item[2]),u'\n好笑：',item[3],u'\n评论：',item[4],u'\n赞：',item[5],u'\n踩：',item[6]

            time.sleep(0.1)

            number+=1

        return items

    #保存信息写入文件

    def saveDetailPage(self,data,name):

        fileName='page'+name+'.'+'txt'

        f=open(fileName,'wb')

        f.write(data.encode('utf-8'))

        print u'',u'成功将数据保存入文件',fileName

        f.close()

    #对一页的操作

    def OnePage(self,detailURL,name):

        data=self.getDetailPage(detailURL)

        self.saveDetailPage(str(data),str(name))

    #对很多页的操作

    #分两种情况讨论，start页等于1\start页大于1

    def getAllPage(self,start,end):

        if start==1:

            print u'正在获取第1页的数据...'

            detailURL=self.siteURL

            self.OnePage(detailURL,start)

            number=2

            for page in range(2, end+1):

                print u'正在获取第', number, u'页的数据...'

                detailURL = self.siteURL + '8hr/page/' + str(page) + '/?s=4964625'

                self.OnePage(detailURL,number)

                time.sleep(2)

                number +=1

            if number==end+1:

                print u'',u'\n加载结束！'

                return False

        elif start>1:

            number=start

            for page in range(start,end+1):

                print u'',u'\n正在获取第',number,u'页的数据...'

                detailURL=self.siteURL + '8hr/page/' +str(page)+ '/?s=4964625'

                self.OnePage(detailURL,number)

                time.sleep(2)

                number += 1

            if number==end+1:

                print u'',u'加载结束！'

                return False

spider=Spider()

spider.getAllPage(start=int(raw_input('请输入起始页数：')),end=int(raw_input('请输入结束页数））</span>

0 个评论

要回复文章请先登录或注册