最近发现requests比python3中的urllib.request(python2中的urllib,urllib2好用多了)
重复昨天的工作,以后课程尽量用requests库
import requests
from bs4 import BeautifulSoup
import time
num = 1
start_time = time.time()
url = 'https://read.douban.com/columns/category/all?sort=hot&start='
for i in range(0, 1650, 10):
html = requests.get('https://read.douban.com/columns/category/all?sort=hot&start=%d' % i).content
bsObj = BeautifulSoup(html, 'lxml')
print('==============' + '第%d页' % (i / 10 + 1) + '==============')
h4_node_list = bsObj.find_all('h4')
for h4_node in h4_node_list:
title = h4_node.contents[0].string
title = '<<' + title + '>>'
print('第%d本书' % num, title)
num = num + 1
time.sleep(1)
end_time = time.time()
duration_time = end_time - start_time
print('运行时间共:%.2f' %duration_time + '秒')
print('共抓到%d本书名' % num)
运行结果:
......
第1647本书 <<你常常在梦中欢快地笑出声来>>
第1648本书 <<诡故事不是鬼故事>>
第1649本书 <<海底喋血——核潜艇>>
第1650本书 <<猪八戒与嫦娥>>
运行时间共:385.77秒
共抓到1651本书名