请问怎么用python编写通用爬虫程序提取网页内容呢?

0
之前是通过直接解析网页结构写的程序,现在想实现一个通用的爬虫程序,能提取出不同网页的文本内容,应该怎么做呢?
已邀请:
0

Jason_Huang 2017-04-17 回答

import requests
from lxml import etree
from fake_useragent import UserAgent
ua = UserAgent()

url = ''
headers = {'User-Agent':'ua.random'}
r = requests.get(url,headers=headers).text
s = etree.HTML(r)
print(s.xpath())
使用requests获取源码,xpath解析

要回复问题请先登录注册