你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

BI 社区商业智能社区

Python数据分析系列（2）——美国纽约皇后区空气质量分析

发表: 2017-12-20 浏览: 5277

Python

前言

继续在kaggle找不错的数据集

传送门：

https://www.kaggle.com/sogun3/uspollution

这次是美国空气污染的数据

图片.png

数据集介绍：

这个数据集涉及到美国的污染问题。美国环境保护署详细记录了美国的污染情况，但下载所有的数据并按照数据科学家感兴趣的格式进行安排是一件痛苦的事情。因此，我从2000年至2016年每天收集四种主要污染物（二氧化氮，二氧化硫，一氧化碳和臭氧），并将它们整齐地放置在一个csv文件中。

数据探索

将数据下载到本地，使用pandas打开：

图片.png

我们先去除掉无意义的字段（列）：

图片.png

接着看一下各字段信息：

图片.png

发现数值型的值很多，很棒~

内容

总共有28个字段：

州代码：由美国环保局分配给每个州的代码

县代码：由美国环保署分配的特定州的代码

地点编号：由美国环保局分配的特定县的地点编号

地址：监测站点的地址

状态：监测点的状态

县：县监测站点

城市：监测点的城市

日期本地：监视日期

四种污染物（NO2，O3，SO2和O3）各有5个专栏。例如，对于NO2：

NO2单位：测量NO2的单位

NO2平均值：给定日内NO2浓度的算术平均值

NO2 AQI：一天内NO2计算的空气质量指数

NO2第一最大值：给定日期的NO2浓度的最大值

NO2第1小时：指在某一天记录的最大NO2浓度的小时数

观察总数超过140万。

对于这么大一个数据集分析是比较困难的，而且是随时间变化的

我们仔细观察一下数据:

图片.png

发现每四个是重复的数据，看后面的字段部分：

图片.png

发现有缺失值，并且有少量字段数据是不一样的，为什么会产生这种情况呢？

图片.png

在kaggle的讨论区找到了答案，建议使用平均值

图片.png

经过观察，发现每四个相似数据只有一个是没有缺失值的

为了方便分析，去除有缺失值的记录（行）

图片.png

再看一下信息：

图片.png

此时已经没有缺失值了

我们把剩下的新数据写入新的csv文件，然后打开文件：

图片.png

稍作处理后，我们筛选出皇后区的数据：

图片.png

将日期转换成pandas中的时间格式：

图片.png

图片.png

图片.png

ok，我们看一下皇后区2000年每个月二氧化氮的平均值：

图片.png

数据可视化

绘制出二氧化氮的平均值变化曲线

图片.png

再将其他三种污染物的变化图画出：

图片.png

图片.png

图片.png

发现二氧化氮和一氧化碳的波动比较大，臭氧和二氧化硫有类似负相关的关系

接下来我们看一下2000年-2016年皇后区的四项污染物的年平均值

图片.png

图片.png

图片.png

图片.png

通过观察，发现除了臭氧，其他三种空气污染物随着时间变化，总体呈现下降趋势！

AQI空气质量指数

通过查阅百度百科：

图片.png

发现AQI分为六级，值越大，空气质量越差：

计算时按照如下方式：

各种污染物的AQI值分别算出来后，取数值最大的那个即为最终报告的AQI值。比如SO2浓度为20.5μg/m3，算出来对应的 AQI为29；PM10浓度为150.8μg/m3，对应的AQI为98；PM2.5浓度为130.7μg/m3，对应的AQI为190。最终报告的 AQI值就是190，而贡献了那个最大值的PM2.5则称为首要污染物。

参考：https://www.guokr.com/post/431588/focus/0143499827/

所以我们取出2000-2016每天皇后区的AQI值：

图片.png

图片.png

看一下数据的分布情况：

图片.png

按照每年365天算，2000-2016年有17年，共有6205天，现在的数据有6047条

因为2016年数据并不是到年底的

通过查看数据，发现只是到四月底的：

图片.png

我们看一下美国标准的划分：

图片.png

我们使用map函数对pandas的AQI列分等级（依照实际得分）

图片.png

图片.png

通过查看前五项数据：

图片.png

发现搞定啦~

我们对空气质量统计一下：

图片.png

图片.png

发现空气质量GOOD占比很大

为了看出比重，我们做个饼图：

图片.png

图片.png

发现占比超过3/4

通过此次分析，大体可以看出：

1.纽约皇后区总体空气质量越来越好（时间序列）

2.从总体上看，空气质量良好占比非常大。

推荐 9

本文由 ID王大伟创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。
转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

6 个评论

有才

核医学科玩会手机

注册不了

核医学科玩会手机

可不可以发下数据集

老师请问2000-2016年的那些污染物年平均可视化曲线代码时什么啊

ID王大伟回复周肖康

关注微信公众号 Python爱好者社区回复皇后

数据清洗处理重复值那部分是在python里用sql的包做的？

要回复文章请先登录或注册

文章目录