requests实战之爬取京东和亚马逊商品的区别

浏览: 2201

前面学习了requests库的基本使用,今天来学习一下实际应用中会出现的问题。这里我们只简单爬取某一个页面的商品,给大家一个参考。

实战1:爬取京东图书“数据实践之美”页面

数据实践之美URL:https://item.jd.com/12106224.html
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。

下面看完整代码:

import requests
URL = "https://item.jd.com/12106224.html"
try:
    r = requests.get(URL)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("获取失败")

实战2:爬取亚马逊图书“极简”页面

极简url = “https://www.amazon.cn/gp/product/B01M8L5Z3Y
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。但是注意,此时页面编码变成了UTF-8,同时这里我们添加了headers,即user-agent,有时候访问页面需要添加headers信息,亚马逊就是如此。

下面看完整代码:

import requests
URL = "https://item.jd.com/12106224.html"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("获取失败")

好了,上面就是Python中requests库的实际操作应用。
希望通过上面的内容能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。
如果想快速联系我,欢迎关注微信公众号:AiryData。

欢迎访问原文链接查看更多内容。requests实战之爬取京东和亚马逊商品的区别

推荐 3
本文由 Airy 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

2 个评论

谢谢
不客气,欢迎关注,转发分享。谢谢支持。

要回复文章请先登录注册