爬去某宝的数据以及可视化分析(顺便记录下)

浏览: 1528

1、本文是基于Python2.x版本的爬虫爬去某宝上的信息(该爬虫可以根据需要自己修改查询关键字)

2、爬虫爬去后的数据如下:

   image.png

3、通过Jupyte

     a、导入输入 

       # -*- coding: utf-8 -*-

       import pandas as pd  

       import matplotlib.pyplot as plt

       %matplotlib inline

       data = pd.read_excel('SearchpythonResults.xls',names = ['Title','Pirce','Buy','Ispost','Istiam','are','Shop','Url']) #从新命名列明

       data.head(5) #查看前5行数据

      image.png

   b 、因为数据标题存在“<span class=H>”干扰信息所以进行处理:

        data['Title'] = data['Title'].str.replace('<span class=H>.*?</span>',',')

        data.head(5) #处理完成后查询前5行数据

        image.png

    c 、找出价格最低商品

     data[data['Pirce'] == data['Pirce'].min()].head(2) #找出价格最低的商品并且现实前2行

     image.png

  d 、进行groupby 聚合 找出各个地区买家的数量

         data1 = data.groupby(['are']).count().head(2) 

        data2 = data1.reset_index() #特别注意需要进行索引转换

         data2.iloc[:,0:2] #显示数据

         image.png

e、绘制饼图

font = {

    'family' : 'SimHei'

};

matplotlib.rc('font', **font);  #解决汉族无法显示的问题

plt.pie(data2['Title'],labels = data2['are'],autopct='%.0f%%'); #绘图

image.png

OK,手工

总结通过数据可视化发现,Python在某宝上的买家主要分布在上海和四川 万万没想到四川竟然这么多(只爬去了前10页的)

PS:虽然这个没啥吊用,但是我还是要记录下的


          

        

     

推荐 2
本文由 Infor 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册