requests实战之爬取京东和亚马逊商品的区别

发表: 2017-03-10 浏览: 2201

前面学习了requests库的基本使用，今天来学习一下实际应用中会出现的问题。这里我们只简单爬取某一个页面的商品，给大家一个参考。

实战1：爬取京东图书“数据实践之美”页面

数据实践之美URL：https://item.jd.com/12106224.html
下面的截图作为测试，可以看到执行正确，得到了书籍的完整页面信息。

下面看完整代码：

import requests
URL = "https://item.jd.com/12106224.html"
try:
r = requests.get(URL)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("获取失败")

实战2：爬取亚马逊图书“极简”页面

极简url = “https://www.amazon.cn/gp/product/B01M8L5Z3Y”
下面的截图作为测试，可以看到执行正确，得到了书籍的完整页面信息。但是注意，此时页面编码变成了UTF-8，同时这里我们添加了headers，即user-agent，有时候访问页面需要添加headers信息，亚马逊就是如此。

下面看完整代码：

import requests
URL = "https://item.jd.com/12106224.html"
try:
kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url, headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[1000:2000])
except:
print("获取失败")

好了，上面就是Python中requests库的实际操作应用。
希望通过上面的内容能帮助大家。如果你有什么好的意见，建议，或者有不同的看法，我都希望你留言和我们进行交流、讨论。
如果想快速联系我，欢迎关注微信公众号：AiryData。