新浪新闻不能正常爬取,王大伟老师能帮助一下吗

0
import requests
from bs4 import BeautifulSoup
import re

res = requests.get('http://news.sina.com.cn/china/')
res.encoding = 'utf-8'
 
soup = BeautifulSoup(res.text, 'html.parser')
newsary = []
for link in soup.select('.news-item'):
    if len(link.select('h2 a')) > 0:
              newsary.append(getArticle(link.select('h2 a')[0]['href']))
 
def getArticle(url):
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser') 
    dic = {}
    #dic['title'] = soup.select('body > div.main-content.w1240 > h1')[0].text
    dic['content'] = ''.join(soup.select('#article')[0].text.split())   
    dic['sourse'] = soup.select('.date-source')[0].text
    dic['keywords'] = soup.select('.keywords')[0].text              
    return dic   
                
已邀请:
0

ID王大伟 - 人生苦短,我选Python。 2018-04-09 回答

不能正常爬取 指的具体是什么?爬到内容缺失还是无内容   还是说有抛出异常呢
0

晨枫 2018-04-11 回答

感谢王老师回复,具体问题如下:
1. 爬取http://news.sina.com.cn/china/ 下最新消息新闻内容,具体贴图;
2. 发出代码是仅仅可以爬一小部分,但下拉到最后的分页不能爬
屏幕快照_2018-04-09_23.10_.12_.png
0

晨枫 2018-04-11 回答

屏幕快照_2018-04-09_23.10_.12_.png

感谢王老师回复,爬取新浪新闻http://news.sina.com.cn/china/​  最新消息的内容,下拉最后,
就是分页内容爬不了,抛出异常。

要回复问题请先登录注册