前面学习了requests库的基本使用,今天来学习一下实际应用中会出现的问题。这里我们只简单爬取某一个页面的商品,给大家一个参考。
实战1:爬取京东图书“数据实践之美”页面
数据实践之美URL:https://item.jd.com/12106224.html
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。
下面看完整代码:
import requests
URL = "https://item.jd.com/12106224.html"
try:
r = requests.get(URL)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("获取失败")
实战2:爬取亚马逊图书“极简”页面
极简url = “https://www.amazon.cn/gp/product/B01M8L5Z3Y”
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。但是注意,此时页面编码变成了UTF-8,同时这里我们添加了headers,即user-agent,有时候访问页面需要添加headers信息,亚马逊就是如此。
下面看完整代码:
import requests
URL = "https://item.jd.com/12106224.html"
try:
kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url, headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[1000:2000])
except:
print("获取失败")
好了,上面就是Python中requests库的实际操作应用。
希望通过上面的内容能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。
如果想快速联系我,欢迎关注微信公众号:AiryData。
欢迎访问原文链接查看更多内容。requests实战之爬取京东和亚马逊商品的区别