Python爬虫之九派新闻

浏览: 1639

以前一直不知道如何爬取动态内容,知道看了@Lerther 的文章,才知道。下面拿九派新闻来试试。 原文知乎专栏

Clipboard Image.png

1、寻找URL

进入九派新闻内容页九派号,“F12”——“Network”——“F5”,勾选“XHR”,发现多个文件。

Clipboard Image.png

经过一个一个寻找,在Preview中先测试,发现就是内容页的新闻,打开Headers,寻找我们要的URL,GET请求。

Clipboard Image.png

2、爬取内容

先上代码

import requests
import json


url = 'http://appjph.jiupaicn.com/app/content/recommend_pc/list?deviceId=888&type=1&page=1&pageSize=15&_=1485163767294'
webdata = requests.get(url).text

data = json.loads(webdata)
news = data['resultData']

for n in news:
title = n['title']
name = n['memberName']
News_url = 'http://jphao.jiupaicn.com/index.php?m=content&c=jiupaihao&a=article&' + '&id=' + n['id'] + '&memberId=' + n['memberId']
print(title,name,News_url)

Clipboard Image.png

OK,大功告成,和头条不一样的是,九派新闻URL有所改变,是id + numberId 组成,只需要在最后修改下就可以了,但是只能爬取十多条。慢慢学,慢慢来吧。

至于为什么要爬取九派,哼哼,,,

Clipboard Image.png

推荐 5
本文由 崔斯特呀 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

简单易懂

要回复文章请先登录注册