python网络爬虫入门（三）—— 做个简陋的pixabay 图片下载器

发表: 2017-04-10 浏览: 1705

Python

今天，我们用Python来开发一个简陋的图片搜索下载器。

由于网站使用JavaScript和ajax动态加载技术，还有验证码机制，对小白来说想要获得原图实在太难啦。

所以能获取缩略图，主要提供基本思路。

选择的是pixabay，挺有名的高品质图片网站，免费的，相信许多人对此并不陌生。

图片.png

一、目标：

1、实现输入关键词，自动搜索到图片

2、获取图片链接

3、批量下载图片，命名保存入文件

4、代码优化，不中段、无重复，并且可指定下载范围

二、步骤：

1、首先观察分析。

点击进入官网，好家伙和百度一样的瀑布流模式，查看源码发现关键字‘ajax'，及异步加载模式

果不其然，要点击页面才能看到缩略图，还要点击图片才能下载。审查元素里面并不是原图的链接，源码中也没有，点开图片后还有上方的地址也并不是原图地址，按照一般的思路的话，并不能获取原图（可能要用到PhantomJS、Selenium等）。可是我还没有学到PhantonJ和Selenium呀，所以只能先试试缩略图啦。（不过最小的那一个下载模式要大一些）/2013/10/16/14/45/是时间，flower为关键词，结合源码分析196360应该是每一个图片的特殊代号。

图片.png

事情由此变得简单了，只要我们用正则匹配出时间、特殊代号，再构造出原图地址就可以得到可爱的链接啦！

2、具体步骤

1）匹配图片数量的正则

 pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)

2）匹配时间、特殊代号正则



pattern=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)



pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

刚开始时用的是最先这个，结果只能返回16个图。百思不得解，还去看了下别的网站，准备放弃之际，

查看源码发现，我勒个去，正好与这带下划线链接的16个项吻合，而后面的图片项发现皆带有'data-lazy'。也就是说，前16和后16根本采用不是一个模式啊！这可能也是为了反恶意爬虫吧，总之厉害了我的哥^_^。后面就简单，分别匹配正则并讨论。

3）创建目录，保存入文件和之间如出一辙，不再赘述。

4）下载保存一页图片时detailURL分情况讨论。i<=16和 i>16的情况。

5）接下来对多页进行循环，发现第1页和第2页之后的url又不相同啦，具体分析之后，构造如下

url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)

url2='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

6）最后优化环节：

a、检查链接错误减少下载中断

b、去掉图片下载重复（即每一次重新开始就不用重新下载之前的内容）

c、设计交互（raw_input)、优化注释

d、最后还是觉得太low又改了一下，可以选择下载页数（下多少页呀），及起始页数（从哪开始）。经验发现一页100张。这回方便了，不用每次从头开始了。

嘿嘿，这就是一个下载器的基本思路啦

三、代码如下

<span style="font-family:Microsoft YaHei;font-size:14px;">#  -*-coding:utf-8 -*-

__author__='WYY'

__date__='2017.03.17'



#【原创】爬虫实战小项目：pixabay 图片下载器

import re

import os

import requests

import urllib2

import time



class Spider():

    #初始化参数

    def __init__(self):

        self.keyword=raw_input(u'欢迎使用pixabay 图片搜索下载神器\n请输入搜索关键词(英文)：')

        self.siteURL='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'



    #获取详情页源码

    def getSource(self,url):

        result=requests.get(url).text.encode('utf-8')

        return result



    #获取图片页数

    def getPageNum(self):

        result=self.getSource(self.siteURL)

        pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)

        items=re.search(pattern,result)

        if items.group(1)>=1:

            print u'\n这个主题共有图片', items.group(1), u'页'

        else:

            print u'\n哎呀，木有您想要的图呢。。。'

        return items.group(1)



    #匹配正则1

    def getItem1(self,url):

        result=self.getSource(url)

        pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

        items=re.findall(pattern1, result)

        return items



    #匹配正则2

    def getItem2(self,url):

        result=self.getSource(url)

        pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

        items=re.findall(pattern2,result)

        return items



    #保存图片入文件

    def saveImage(self,detailURL,name):

        try:

            picture=urllib2.urlopen(detailURL)

            fileName=name+'.jpg'

            string='F:\Desktop\code\pixabay\%s\%s' % (self.path, fileName)

            E=os.path.exists(string)

            if not E:

                f=open(string, 'wb')

                f.write(picture.read())

                f.close()

            else:

                print u'图片已经存在，跳过！'

                return False

        except (urllib2.HTTPError,urllib2.URLError), e:

            print e.reason

            return None





    #创建目录

    def makeDir(self, path):

        self.path=path.strip()

        E=os.path.exists(os.path.join('F:\Desktop\code\pixabay', self.path))

        if not E:

            # 创建新目录,若想将内容保存至别的路径（非系统默认），需要更环境变量

            # 更改环境变量用os.chdir()

            os.makedirs(os.path.join('F:\Desktop\code\pixabay',self.path))

            os.chdir(os.path.join('F:\Desktop\code\pixabay',self.path))

            print u'成功创建名为', self.path, u'的文件夹'

            return self.path

        else:

            print u'名为', self.path, u'的文件夹已经存在...'

            return False



    #对一页的操作

    def saveOnePage(self,url):

        i=1

        items=self.getItem1(url)

        for item in items:

            detailURL='https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+ '_960_720.jpg'

            print u'\n', u'正在下载并保存图片', i, detailURL

            self.saveImage(detailURL, name='Num'+str(i))

            time.sleep(0.5)

            i+=1

        if i>16:

            items=self.getItem2(url)

            i=17

            for item in items:

                detailURL = 'https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+'_960_720.jpg'

                print u'\n', u'正在下载并保存图片', i, detailURL

                self.saveImage(detailURL,name='Num'+str(i))

                time.sleep(0.5)

                i += 1



    #对多页图片的操作

    def saveMorePage(self):

        numbers=self.getPageNum()

        Num=int(raw_input(u'一页共100张图，\n请输入要下载的页数(默认页数大于等于1）：'))

        Start=int(raw_input(u'请输入下载起始页数：'))

        if numbers>=1:

            for page in range(Start,Start+Num):

                if page==1:

                    print u'\n',u'正在获取第1页的内容......'

                    self.url1=self.siteURL

                    self.makeDir(path=self.keyword + 'page' + str(page))

                    self.saveOnePage(url=self.url1)

                else:

                    print u'\n',u'正在获取第',page, u'页的内容'

                    self.url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)

                    self.makeDir(path=self.keyword + 'page' + str(page))

                    self.saveOnePage(url=self.url2)



        else:

            return False



        print  u'\n',u'圆满成功!!!'



spider=Spider()

spider.saveMorePage()</span>