Python网络数据采集Urllib库的基本使用

浏览: 1403

作为一个数据科学家,从网络获取数据是必备的手段之一。今天来说一下使用Python来采集数据,虽然很多人更想叫它爬虫,但是本人更愿意叫网络数据采集。

下面说一下Python中Urllib库的基本使用。

在Python2.7中还有urllib2库,但是在Python3中,已经没有urllib2了,它们被整合到了一起成为urllib库。

先看一个简单的小栗子:

#coding:utf-8
import urllib2

# 构造Request
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
# read方法,可以返回获取到的网页内容
print response.read()

然后我们看一下GET和POST数据传送:

#coding:utf-8
import urllib
import urllib2

#GET数据传送,
values = {}
values['username'] = "xxxxx@163.com"
values['password'] = "********"
data = urllib.urlencode(values)
# 模拟登陆CSDN
url = "https://passport.csdn.net/account/login"
geturl = url + "?" + data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()


#下面是POST数据传输
#coding:utf-8
import urllib
import urllib2

# POST数据传送
# values = {}
# values['username'] = "xxxxxx@163.com"
# values['password'] = "********"
values = {"username":"xxxxxx@163.com","password":"********"}
data = urllib.urlencode(values)
# 模拟登陆CSDN
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url, data)
response = urllib2.urlopen(request)
print response.read()

注意:上面的xxxx和*****请替换成自己的用户名和密码。

希望通过上面的操作能帮助大家获取一些想要的数据。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。

如果想快速联系我,欢迎关注微信公众号:AiryData。

欢迎访问我的网站数据之美

推荐 1
本文由 Airy 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册