你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

爬虫数据挖掘 Python

请问怎么用python编写通用爬虫程序提取网页内容呢？

0

之前是通过直接解析网页结构写的程序，现在想实现一个通用的爬虫程序，能提取出不同网页的文本内容，应该怎么做呢？

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

1 个回复

0

Jason_Huang 2017-04-17 回答

import requests

from lxml import etree

from fake_useragent import UserAgent

ua = UserAgent()



url = ''

headers = {'User-Agent':'ua.random'}

r = requests.get(url,headers=headers).text

s = etree.HTML(r)

print(s.xpath())

使用requests获取源码，xpath解析

要回复问题请先登录或注册