Python-matplotlib统计图之箱线图漫谈

浏览: 1690

作者:博观厚积

链接:https://www.jianshu.com/p/b2f70f867a4a

來源:简书


(1)

箱线图,又称箱形图(boxplot)或盒式图,不同于一般的折线图、柱状图或饼图等传统图表,只是数据大小、占比、趋势等等的呈现,其包含一些统计学的均值、分位数、极值等等统计量,因此,该图信息量较大,不仅能够分析不同类别数据平均水平差异(需在箱线图中加入均值点),还能揭示数据间离散程度、异常值、分布差异等等。

在python中常用matplotlib的boxplot来绘制,最简单绘制的如下:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
np.random.seed(2) #设置随机种子
df = pd.DataFrame(np.random.rand(5,4),
columns=['A', 'B', 'C', 'D'])#先生成0-1之间的5*4维度数据,再装入4列DataFrame中
df.boxplot() #也可用plot.box()
plt.show()

Paste_Image.png

从图形可以看出,A、B、C、D四组数A、D数据较集中(大部分在上下四分位箱体内),但都有异常值,C的离散程度最大(最大值与最小值之间距离),以均值为中心,B分布都有明显右偏(即较多的值分布在均值的右侧),A、C则有明显左偏。

(2)
从分析的角度来说,上面boxplot最初始图形已经够用,但是在matplotlib库下boxplot函数中包含n多参数,涉及到对框的颜色及形状、线段线型、均值线、异常点的形状大小等等设置,由于大多并不常用,用了几个常用参数,作图如下:

df.boxplot(sym='r*',vert=False,patch_artist=True,meanline=False,showmeans=True)
plt.show()

Paste_Image.png

其中,sym='r*',表示异常点的形状,

vert=False,表示横向还是竖向(True),,

patch_artist=True,(上下四分位框内是否填充,True为填充)

meanline=False,showmeans=True,是否有均值线及其形状,meanline=True时,均值线也像中位数线一样是条红色线段,这样容易与中位数线混淆。

另外,还有其他参数,比如notch表示中间箱体是否缺口,whis为设置数据的范围,showcaps、showbox是否显示边框,可以参见

http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.boxplot,如该网页中图形:

Paste_Image.png

左上图是默认图形,中上、右上是显示均值点及形状,左下是是否显示箱体边框,中下是带缺口的箱体,右下是是否显示异常值。

(3)

前边说过,很多参数使用很少,但对于图形来说,可能还能用到的就是美化,比如各条线的颜色,粗细程度等等。这里可用for循环来构造。

f=df.boxplot(sym='r*',patch_artist=True)
for box in f['boxes']:
# 箱体边框颜色
box.set( color='#7570b3', linewidth=2)
# 箱体内部填充颜色
box.set( facecolor = '#1b9e77' )
for whisker in f['whiskers']:
whisker.set(color='r', linewidth=2)
for cap in f['caps']:
cap.set(color='g', linewidth=3)
for median in f['medians']:
median.set(color='DarkBlue', linewidth=3)
for flier in f['fliers']:
flier.set(marker='o', color='y', alpha=0.5)
plt.show()

Paste_Image.png

其中,boxes, 是25分位值和75分位值构成的box,
medians, 是中位值的横线, 每个median是一个Line2D对象
whiskers, 是指从box 到error bar之间的竖线.
fliers, 是指error bar线之外的离散点.
caps, 是指error bar横线.
means, 是均值的横线,

(4)
还可以做子图,如我们在最开始的DataFrame数据中加入分类数据列:

df['E'] = np.random.choice(['X', 'Y'], size=20)#加入以X、Y随机分类的E列
print(df)
plt.figure()
df.boxplot(by='E')
plt.show()

Paste_Image.png

这样我们就可以比较,不同类别X、Y在同一列下的数据分布情况及其差异。

推荐 1
本文由 Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册