Python-2016-10-30-作业

浏览: 976

1. 浏览器伪装技术

2. 爬取的链接内容写入文件中

import urllib.request
import re

url = 'http://blog.csdn.net'
headers = ('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')
opener = urllib.request.build_opener()
opener.addheaders=[headers]
data = opener.open(url).read()
pat='<h3 class="tracking-ad" data-mod="popu_254"><a href="https://ask.hellobi.com/(http://blog.csdn.net/.+?)"'
allurl = re.compile(pat).findall(str(data))
num = len(allurl)
for i in range(num):
thisurl = allurl[i]
file = 'blog.csdn/'+str(i)+'.html'
print(file,thisurl)
try:
openerfile = urllib.request.build_opener()
openerfile.addheaders=[headers]
datafile = openerfile.open(thisurl).read()
fh = open(file,'wb')
fh.write(datafile)
fh.close()
except Exception as err:
print(err)


推荐 1
本文由 ☆→宝山←☆ 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

博客真有意思 我编辑的时候显示:pat='href="(http://blog.csdn.net/.+?)"'
编辑完成发布显示:pat='href="https://ask.hellobi.com/(http://blog.csdn.net/.+?)"'
pat='<h3 class="tracking-ad" data-mod="popu_254"><a href="(http://blog.csdn.net/.+?)"'

要回复文章请先登录注册