Python网络爬虫（二）- urllib爬虫案例

发表: 2017-10-16 浏览: 1759

Python

Python网络爬虫（一）- 入门基础
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（四）- XPath
Python网络爬虫（五）- Requests和Beautiful Soup
Python网络爬虫（六）- Scrapy框架
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

urllib的爬虫案例－通过最原始的爬虫方式

爬虫之前如果抓包工具Fiddler证书安装失败，采用以下方法

1、打开cmd
2、进入fillder的目录
如下：
里面的路径改成你自己的安装路径
cd /d "D:\Program Files (x86)\Fiddler2"
然后再执行下面命令
makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b 09/05/2012
下面提共一个批处理，打开你的fiddler2的目录把下面代码保存成一个creat.bat文件直接双击运行
cd %cd%

makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, >O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky >signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b >09/05/2012

pause

另外GET和POST数据传送的却别在于GET方式是直接以链接形式访问，链接中包含了所有的参数，同时也包含了自己密码，包含了密码的话是一种不安全的选择，不过优点在于可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数。

代码操作（一）爬取百度贴吧数据（GET方式爬取数据
,这里爬取的是战狼2贴吧的html）

# -*- coding:utf-8 -*-



#引入需要的模块

import urllib #用于进行中文编码

import urllib2  #用于进行爬虫核心处理



#定义一个函数，用于爬取对应的数据

def load_url(url,file_name):

    '''

    作用：针对指定的url地址，进行数据的获取

    :param url: 要爬取数据的具体url地址

    :param file_name: 要保存的文件名称；在当前函数中，只做提示使用

    :return: 爬取的数据

    '''

    print('开始爬取%s的内容'%file_name)

    #爬取程序

    my_headers={

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',

    }

    request = urllib2.Request(url,headers=my_headers)

    content = urllib2.urlopen(request).read()

    print('爬取%s的内容完成！'%file_name)

    return content



#定义一个函数，用于保存数据

def save_data(data,file_name):

    '''

    作用：主要用于进行数据存储

    :param data: 要存储的数据

    :param file_name: 要存储的文件名称

    :return: 无

    '''

    print('开始保存%s的内容'%file_name)



    with open(file_name,'w') as f:

        f.write(data)

    print('保存%s的内容完成！'%file_name)





#定义函数，进行爬虫的核心处理功能

def spider(url,kw,begin,end):

    '''

    用于进行核心爬虫功能的调度

    :param url: 要爬取的地址

    :param kw: 贴吧名称

    :param begin: 起始页码

    :param end: 结束页码

    :return: 无

    '''

    for page in range(begin,end+1):

        #计算需要的页码

        pn = (page-1)*50

        #进行kw参数的编码

        kw = urllib.urlencode({'kw':kw})

        #拼接url地址

        full_url = url + kw +'&pn=' +str(pn)

        #定义一个保存文件的名称

        file_name = '网页'+str(page) +'.html'

        #开始爬取数据

        html=load_url(full_url,file_name)

        #保存数据到文件

        save_data(html,file_name)



#主程序运行入口

if __name__ == '__main__':

    #用户输入相关数据

    url='http://tieba.baidu.com/f?'

    kw = raw_input('请输入要爬取的贴吧名称：')

    begin = int(raw_input('请输入开始页码：'))

    end = int(raw_input('请输入结束页码：'))



    #调用爬虫开始执行

    spider(url,kw,begin,end)

得到两个文件，分别是战狼2贴吧首页和第二页的html代码

代码操作（二）爬取百度清纯妹子图(GET方式爬取Ajax数据)

# -*- coding:utf-8 -*-

import urllib

import urllib2



url = 'http://image.baidu.com/search//acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn=30&rn=30&gsm=1e&1502192101260='

#请求头描述信息

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',

}



#包装请求对象

request = urllib2.Request(url,headers=header)



#根据请求对象发送数据请求，获取服务器返回的响应对象

response = urllib2.urlopen(request)



#获取响应对象中的数据

content = response.read()



#将获取的数据保存在文件中

with open('qing.json','w') as f:

    f.write(content)

爬取的图片链接

代码操作（三）爬取豆瓣电影数据(POST方式爬取Ajax数据)

# -*- coding:utf-8



import urllib

import urllib2



url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'



#要传递的post方式嗯对数据，有可能会有多组数据

submit_data = {

    'start':20,

    'tags':'喜剧'

}

#编码

data = urllib.urlencode(submit_data)



#构造请求头，创建请求对象

headers = {

    "Accept" : "application/json, text/plain, */*",

    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36",

    "Accept-Language" : "zh-CN,zh;q=0.8"

}



request = urllib2.Request(url,data,headers)



#发送请求，获取服务器响应数据

response = urllib2.urlopen(request)



#获取爬取到的数据

content = response.read()



#保存数据

with open('movies.json','w') as f:

    f.write(content)

代码操作（四）爬取qq空间数据(验证登录，在创建请求对象时，需加入cookie)

# -*- coding:utf-8 -*-



#引入需要的模块

import urllib

import urllib2



url = 'https://user.qzone.qq.com/695282462/infocenter'



my_header = {

    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

 Chrome/60.0.3112.7 Safari/537.36",

    "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,

image/apng,*/*;q=0.8",

    "Accept-Language" : "zh-CN,zh;q=0.8",

    'Cookie':'ptisp=ctc; RK=WY0mdGAKSq; ptcz=ed3988f5c1d469e118b8b58fd5afcda9770e51b2ed

2891a36c3445bd76a9efe7; pt2gguin=o0(QQ号码); uin=o0(QQ号码); skey=@ctrB6l4vj'

}



request = urllib2.Request(url,headers=my_header)



response = urllib2.urlopen(request)



html = response.read()



with open('qzone.html','w') as f:

    f.write(html)

爬取到个人空间当前显示内容的html代码

0 个评论

要回复文章请先登录或注册

Python网络爬虫（二）- urllib爬虫案例

目录：

urllib的爬虫案例－通过最原始的爬虫方式

0 个评论