你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
今天遇到一个好玩的库,用来解析新闻类网页特别好用。基本上你不用分析网页,不用标签定位。
直接告诉脚本你想爬的url,goose就会将清理好的数据返回给你。
缺点是goose不支持python3,为此我特点装了python2.7尝试写今天这篇文章。
goose项目https://github.com/grangier/python-goose
直接上代码截图
1、新闻标题
2、新闻发布网址域名
3、新闻关键词
4、新闻摘要
5、新闻详情
提醒大家下,代码中
from goose.text import StopWordsChinese
大家还是去掉吧,要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。
崔斯特呀
要回复文章请先登录或注册