你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

不会写爬虫的快来Goose一下

发表: 2017-04-06 浏览: 1582

爬虫 Python

今天遇到一个好玩的库，用来解析新闻类网页特别好用。基本上你不用分析网页，不用标签定位。

直接告诉脚本你想爬的url，goose就会将清理好的数据返回给你。

缺点是goose不支持python3，为此我特点装了python2.7尝试写今天这篇文章。

goose项目https://github.com/grangier/python-goose

直接上代码截图

1、新闻标题

2、新闻发布网址域名

3、新闻关键词

4、新闻摘要

5、新闻详情

提醒大家下，代码中

from goose.text import StopWordsChinese

大家还是去掉吧，要不然运行会慢很多。我加上这行代码是为了增加对中文分词更好的支持。

推荐 1

本文由邓旭东HIT 创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

这个挺好玩的

要回复文章请先登录或注册