Python爬取百度图片及py文件转换exe

发表: 2017-03-06 浏览: 1846

Python 爬虫

最近看到有一个百度图片下载的Python爬取，很感兴趣，并在原来的基础上将py文件转换为exe文件。具体操作如下：

环境：Python3.5

1、写爬虫。

#coding:utf-8

import requests

import os

import re

import json

import itertools

import urllib

import sys



str_table = {

    '_z2C$q': ':',

    '_z&e3B': '.',

    'AzdH3F': '/'

}



char_table = {

    'w': 'a',

    'k': 'b',

    'v': 'c',

    '1': 'd',

    'j': 'e',

    'u': 'f',

    '2': 'g',

    'i': 'h',

    't': 'i',

    '3': 'j',

    'h': 'k',

    's': 'l',

    '4': 'm',

    'g': 'n',

    '5': 'o',

    'r': 'p',

    'q': 'q',

    '6': 'r',

    'f': 's',

    'p': 't',

    '7': 'u',

    'e': 'v',

    'o': 'w',

    '8': '1',

    'd': '2',

    'n': '3',

    '9': '4',

    'c': '5',

    'm': '6',

    '0': '7',

    'b': '8',

    'l': '9',

    'a': '0'

}

char_table = {ord(key): ord(value) for key, value in char_table.items()}



def decode(url):

	for key,value in str_table.items():

		url = url.replace(key,value)

	return url.translate(char_table)



def buildUrls(word):

    word = urllib.parse.quote(word)

    url = r"http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&st=-1&ic=0&word={word}&face=0&istype=2nc=1&pn={pn}&rn=60"

    urls = (url.format(word=word, pn=x) for x in itertools.count(start=0, step=60))

    return urls



re_url = re.compile(r'"objURL":"(.*?)"')

def resolveImgUrl(html):

	imgUrls = [decode(x) for x in re_url.findall(html)]

	return imgUrls



def downImg(imgUrl,dirpath,imgName):

	filename = os.path.join(dirpath,imgName)

	try:

		res = requests.get(imgUrl,timeout=15)

		if str(res.status_code)[0] == '4':

			print(str(res.status_code),":",imgUrl)

			return False

	except Exception as e:

		print('抛出异常:',imgUrl)

		print(e)

		return False

	with open(filename+'.jpg','wb') as f:

		f.write(res.content)

	return True

def mkDir(dirName):

    dirpath = os.path.join(sys.path[0], dirName)

    if not os.path.exists(dirpath):

        os.mkdir(dirpath)

    return dirpath



if __name__ == '__main__':

    print("欢迎使用百度图片下载脚本！\n目前仅支持单个关键词。")

    print("下载结果保存在脚本目录下的img文件夹中。")

    print("=" * 50)

    word = input("请输入你要下载的图片关键词：\n")



    dirpath = mkDir("img")



    urls = buildUrls(word)

    index = 0

    for url in urls:

        print("正在请求：", url)

        html = requests.get(url, timeout=10).content.decode('utf-8')

        imgUrls = resolveImgUrl(html)

        if len(imgUrls) == 0:  # 没有图片则结束

            break

        for url in imgUrls:

            if downImg(url, dirpath, str(index) + ".jpg"):

                index += 1

                print("已下载 %s 张" % index)