python爬虫-异常处理

发表: 2017-08-16 浏览: 1146

Python

URLerror产生原因：

网络未连接（即不能上网）
服务器不存在

 #-*-coding:utf-8-*-

 import urllib2

 request=urllib2.Request('http://www.wujiadong.com')
#这是一个不能打开的网址

response=urllib2.urlopen(request)

 html=response.read()

 print(html)

报错情况：

下面我们对可能出现异常进行处理，一般通过try-except语句来包围并捕获相应的异常。我们先尝试一下：

#-*-coding:utf-8-*-

import urllib2

 try:

    request=urllib2.Request('http://www.wujiadong.com')

    response=urllib2.urlopen(request)

    html=response.read()

  except:

    print('something wrong')

 else:

    print(html)

常用另一种：

import urllib2

 request=urllib2.Request('http://www.wujiadong.com')

 try: 
      urllib2.urlopen(request)

except: 
      urllib2.URLError,e:

    print(e.reason)

异常处理的终极完整形态

 try:
# 框住了你感觉会抛出异常的代码    

    print(a[6])

 except:
#try代码块里的代码如果抛出异常了，该执行什么内容

     print('haha')

 else:
#try代码块里的代码如果没有跑出异常，就执行这里

    print('hehe')

 finally:
#不管如何，finally里的代码，是总会执行的

    print('xixi')

HTTPError

在你利用urlopen方法发出一个请求时，服务器上都会对应一个应答对象response，其中它包含

一个数字”状态码。例如:假如response是一个"重定向"，需要客户端从别的地址获取文档，

urllib2将为你处理。其他不能处理的，urlopen会产生一个HTTPError。

典型的错误包含"404"(页面无法找到)，"403"(请求禁止)，和"401"(带验证请求)。

HTTP状态码表示HTTP协议所返回的响应的状态。

比如客户端向服务器发送请求，如果成功地获得请求的资源，则返回的状态码为200，表示响应成功。

如果请求的资源不存在，则通常返回404错误。

HTTP状态码通常分为5种类型，分别以1～5五个数字开头，由3位整数组成：

     100：继续  客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。



    101： 转换协议  在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。



    102：继续处理   由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。



   200：请求成功      处理方式：获得响应的内容，进行处理

 

     201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到    处理方式：爬虫中不会遇到



     202：请求被接受，但处理尚未完成    处理方式：阻塞等待

 

     204：服务器端已经实现了请求，但是没有返回新的信 息。如果客户是用户代理，则无须为此更新自身的文档视图。    处理方式：丢弃



   300：该状态码不被HTTP/1.0的应用程序直接使用， 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃

     301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源    处理方式：重定向到分配的URL

 

    302：请求到的资源在一个不同的URL处临时保存     处理方式：重定向到临时的URL



     304：请求的资源未更新     处理方式：丢弃

 

     400：非法请求     处理方式：丢弃

 

    401：未授权     处理方式：丢弃

 

     403：禁止     处理方式：丢弃

 

    404：没有找到     处理方式：丢弃



    500：服务器内部错误  服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。

 

    501：服务器无法识别  服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。



   502：错误网关  作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。

 

     503：服务出错   由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

HTTPError实例产生后会有一个整型'code'属性，是服务器发送的相关错误号。

Error Codes错误码

因为默认的处理器处理了重定向(300以外号码)，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

import urllib2

request=urllib2.Request('http://bbs.csdn.net/callmewhy')

 try: urllib2.urlopen(request)

 except urllib2.URLError,e:

   print(e.code)

 #  print(e.reason)

 # print(e.read())

错误代号是403，错误原因是Forbidden，说明服务器禁止访问。

方法一：加入 hasattr属性提前对属性进行判断，来处理异常

from urllib2 import Request,urlopen,URLError,HTTPError

 request=Request('http://blog.csdn.net/cqcre')

 try:

    response=urlopen(request)

 

 except URLError,e:



    if hasattr(e,'code'):

     print('the server couldn\'t fulfill the request')

       print('Error code:',e.code)

    elif hasattr(e,'reason'):

     print('we failed to reach a server')

      print('Reason:',e.reason)

else:

   print('no exception was raised')

   # everything is ok

0 个评论

要回复文章请先登录或注册