1、本文是基于Python2.x版本的爬虫爬去某宝上的信息(该爬虫可以根据需要自己修改查询关键字)
2、爬虫爬去后的数据如下:
3、通过Jupyte
a、导入输入
# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_excel('SearchpythonResults.xls',names = ['Title','Pirce','Buy','Ispost','Istiam','are','Shop','Url']) #从新命名列明
data.head(5) #查看前5行数据
b 、因为数据标题存在“<span class=H>”干扰信息所以进行处理:
data['Title'] = data['Title'].str.replace('<span class=H>.*?</span>',',')
data.head(5) #处理完成后查询前5行数据
c 、找出价格最低商品
data[data['Pirce'] == data['Pirce'].min()].head(2) #找出价格最低的商品并且现实前2行
d 、进行groupby 聚合 找出各个地区买家的数量
data1 = data.groupby(['are']).count().head(2)
data2 = data1.reset_index() #特别注意需要进行索引转换
data2.iloc[:,0:2] #显示数据
e、绘制饼图
font = {
'family' : 'SimHei'
};
matplotlib.rc('font', **font); #解决汉族无法显示的问题
plt.pie(data2['Title'],labels = data2['are'],autopct='%.0f%%'); #绘图
OK,手工
总结通过数据可视化发现,Python在某宝上的买家主要分布在上海和四川 万万没想到四川竟然这么多(只爬去了前10页的)
PS:虽然这个没啥吊用,但是我还是要记录下的