python网络爬虫入门(三)—— 做个简陋的pixabay 图片下载器

浏览: 1705

今天,我们用Python来开发一个简陋的图片搜索下载器。

由于网站使用JavaScript和ajax动态加载技术,还有验证码机制,对小白来说想要获得原图实在太难啦。

所以能获取缩略图,主要提供基本思路。

选择的是pixabay,挺有名的高品质图片网站,免费的, 相信许多人对此并不陌生。

图片.png

一、目标

1、实现输入关键词,自动搜索到图片

2、获取图片链接

3、批量下载图片,命名保存入文件

4、代码优化,不中段、无重复,并且可指定下载范围

二、步骤:

1、首先观察分析

点击进入官网,好家伙和百度一样的瀑布流模式,查看源码发现关键字‘ajax',及异步加载模式

果不其然,要点击页面才能看到缩略图,还要点击图片才能下载。审查元素里面并不是原图的链接,源码中也没有,点开图片后还有上方的地址也并不是原图地址,按照一般的思路的话,并不能获取原图(可能要用到PhantomJS、Selenium等)。可是我还没有学到PhantonJ和Selenium呀,所以只能先试试缩略图啦。(不过最小的那一个下载模式要大一些)/2013/10/16/14/45/是时间,flower为关键词,结合源码分析196360应该是每一个图片的特殊代号。

图片.png


事情由此变得简单了,只要我们用正则匹配出时间、特殊代号,再构造出原图地址就可以得到可爱的链接啦!

2、具体步骤

   1)匹配图片数量的正则

 pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)

2)匹配时间、特殊代号正则


pattern=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

刚开始时用的是最先这个,结果只能返回16个图。百思不得解,还去看了下别的网站,准备放弃之际,

查看源码发现,我勒个去,正好与这带下划线链接的16个项吻合,而后面的图片项发现皆带有'data-lazy'。也就是说,前16和后16根本采用不是一个模式啊!这可能也是为了反恶意爬虫吧,总之厉害了我的哥^_^。后面就简单,分别匹配正则并讨论。

3)创建目录,保存入文件和之间如出一辙,不再赘述。

4)下载保存一页图片时detailURL分情况讨论。i<=16和 i>16的情况。

5)接下来对多页进行循环,发现第1页和第2页之后的url又不相同啦,具体分析之后,构造如下

url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
url2='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

6)最后优化环节:

a、检查链接错误减少下载中断

b、去掉图片下载重复(即每一次重新开始就不用重新下载之前的内容)

c、设计交互(raw_input)、优化注释

d、最后还是觉得太low又改了一下,可以选择下载页数(下多少页呀),及起始页数(从哪开始)。经验发现一页100张。这回方便了,不用每次从头开始了。

嘿嘿,这就是一个下载器的基本思路啦

三、代码如下

<span style="font-family:Microsoft YaHei;font-size:14px;">#  -*-coding:utf-8 -*-
__author__='WYY'
__date__='2017.03.17'

#【原创】爬虫实战小项目:pixabay 图片下载器
import re
import os
import requests
import urllib2
import time

class Spider():
#初始化参数
def __init__(self):
self.keyword=raw_input(u'欢迎使用pixabay 图片搜索下载神器\n请输入搜索关键词(英文):')
self.siteURL='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

#获取详情页源码
def getSource(self,url):
result=requests.get(url).text.encode('utf-8')
return result

#获取图片页数
def getPageNum(self):
result=self.getSource(self.siteURL)
pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)
items=re.search(pattern,result)
if items.group(1)>=1:
print u'\n这个主题共有图片', items.group(1), u'页'
else:
print u'\n哎呀,木有您想要的图呢。。。'
return items.group(1)

#匹配正则1
def getItem1(self,url):
result=self.getSource(url)
pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
items=re.findall(pattern1, result)
return items

#匹配正则2
def getItem2(self,url):
result=self.getSource(url)
pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
items=re.findall(pattern2,result)
return items

#保存图片入文件
def saveImage(self,detailURL,name):
try:
picture=urllib2.urlopen(detailURL)
fileName=name+'.jpg'
string='F:\Desktop\code\pixabay\%s\%s' % (self.path, fileName)
E=os.path.exists(string)
if not E:
f=open(string, 'wb')
f.write(picture.read())
f.close()
else:
print u'图片已经存在,跳过!'
return False
except (urllib2.HTTPError,urllib2.URLError), e:
print e.reason
return None


#创建目录
def makeDir(self, path):
self.path=path.strip()
E=os.path.exists(os.path.join('F:\Desktop\code\pixabay', self.path))
if not E:
# 创建新目录,若想将内容保存至别的路径(非系统默认),需要更环境变量
# 更改环境变量用os.chdir()
os.makedirs(os.path.join('F:\Desktop\code\pixabay',self.path))
os.chdir(os.path.join('F:\Desktop\code\pixabay',self.path))
print u'成功创建名为', self.path, u'的文件夹'
return self.path
else:
print u'名为', self.path, u'的文件夹已经存在...'
return False

#对一页的操作
def saveOnePage(self,url):
i=1
items=self.getItem1(url)
for item in items:
detailURL='https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+ '_960_720.jpg'
print u'\n', u'正在下载并保存图片', i, detailURL
self.saveImage(detailURL, name='Num'+str(i))
time.sleep(0.5)
i+=1
if i>16:
items=self.getItem2(url)
i=17
for item in items:
detailURL = 'https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+'_960_720.jpg'
print u'\n', u'正在下载并保存图片', i, detailURL
self.saveImage(detailURL,name='Num'+str(i))
time.sleep(0.5)
i += 1

#对多页图片的操作
def saveMorePage(self):
numbers=self.getPageNum()
Num=int(raw_input(u'一页共100张图,\n请输入要下载的页数(默认页数大于等于1):'))
Start=int(raw_input(u'请输入下载起始页数:'))
if numbers>=1:
for page in range(Start,Start+Num):
if page==1:
print u'\n',u'正在获取第1页的内容......'
self.url1=self.siteURL
self.makeDir(path=self.keyword + 'page' + str(page))
self.saveOnePage(url=self.url1)
else:
print u'\n',u'正在获取第',page, u'页的内容'
self.url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
self.makeDir(path=self.keyword + 'page' + str(page))
self.saveOnePage(url=self.url2)

else:
return False

print u'\n',u'圆满成功!!!'

spider=Spider()
spider.saveMorePage()</span>

四、看结果

第一页

图片.png

最后一页

图片.png

实现了去重

图片.png

看看文件里的变化,食物已经乖乖躺在指定文件夹啦~
图片.png

本篇只设计基本的思路,之后带我学好了如何爬取动态网页再进行补充。

推荐 2
本文由 waking_up88688 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册