使用工具:RStudio
使用包:RMySQL,Tidyverse,Openair
数据来源:真气网
绘图所用数据:长春市每日数据
前言:
在前期的文章中,
我们学会了如何用
Python实现各地空气质量数据的抓取,
往期文章:Python爬取真气网天气数据
那时的我们迈出了走向人生巅峰的第一步,
学会了如何获取大量可靠的数据。
这样就满足了吗?
不可能的,
这辈子都不可能的。
在这篇文章中,
我们来学习如何利用RStudio实现数据可视化,
看看一年有多少天适宜户外活动。
春天到了,
又到了一年一度的~~~
一、获取所需数据
往期文章:Python爬取真气网天气数据
二、加载所用包and读取数据
本次所用的数据存储在MySQL数据库,
如果你的数据存储在Excel或TXT中,
可以使用readr这个包读取数据,
具体过程不再此赘述.
library(RMySQL)#RMySQL用于连接MySQL数据库
library(tidyverse)#非常强大的包,提供数据导入、分析、可视化一条龙服务
library(openair) #绘制日历图
conn=dbConnect(MySQL(),host='localhost',user='root',password='lixq9010',dbname='changchun',port=3306)#连接数据库
dbSendQuery(conn =conn,'set names gbk') #防止出现中文乱码
<MySQLResult:2,0,0>#运行结果
dbListTables(conn= conn) #返回数据库中的所有表格
[1]"air_quality" #运行结果
res <-dbSendQuery(conn = conn,'select * from air_quality') #建立air_quality查询对象
air <-dbFetch(res = res,n=-1) #(n=-1)表示提取res对象中的所有数据
三、整理数据
整理数据时出现的问题,
1、日期数据必须为Date类型,
转换函数:as.Date()
2、转化数据时涉及data frame的操作
air$date表示操作air名称表格中的date列。
class(air) #返回air的数据类型,方便后期对air进行操作
[1]"data.frame" #数据框类型
air <-air[,-2:-3] #删除air中的第二及第三列
head(air) #返回air的前几行数据
date PM2.5 PM10SO2 CO NO2 O31 2017-01-01 173 194 74 2.5 54 402 2017-01-02 87 108 69 2.0 52 563 2017-01-03 56 78 60 1.7 50 544 2017-01-04 75 102 79 1.9 73 305 2017-01-05 113 132 69 2.0 80 426 2017-01-06 119 138 94 2.3 80 46air$date <-as.Date(air$date) #将air中date的字符串类型转换为日期类型(重要,不转换后期会报错)
air <-as_tibble(air) #将air转换为tibble类型
head(air) #返回air的前几行(观察到第二行多了各个数据的类型,不用单独查了,实在是太方便)
# A tibble: 6 x 7Date PM2.5 PM10 SO2 CO NO2 O3
<date> <int> <int> <int><dbl> <int> <int>1 2017-01-01 173 194 74 2.5 54 40
2 2017-01-02 87 108 69 2 52 56
3 2017-01-03 56 78 60 1.7 50 54
4 2017-01-04 75 102 79 1.9 73 30
5 2017-01-05 113 132 69 2 80 42
6 2017-01-06 119 138 94 2.3 80 46
air <-dplyr::arrange(air,date) #将air按照date的大小排序head(air) #返回air的前几行
# A tibble: 6 x 7 Date PM2.5 PM10 SO2 CO NO2 O3<date> <int> <int> <int><dbl> <int> <int>1 2014-01-01 26 51 50 0.6 25 55
2 2014-01-02 47 100 64 1 44 47
3 2014-01-03 90 136 79 1.1 54 40
4 2014-01-04 109 148 72 1.5 63 43
5 2014-01-05 195 264 92 2.3 82 37
6 2014-01-06 129 172 94 1.5 61 53
air2017 <-air[1035:1399,] #返回air的1035至1399行数据并赋给air2017
四、绘制时间序列曲线
1、数据记录时间:2014-01-01至2018-10-14
plot.ts(subset(air,select=-date),col='red')#绘制时间序列图
image
数据显示结果非常有趣,可以看到长春市的六种环境检测物质呈现出一定的周期性。尤其是SO2,这峰型也太TM标准了。而且其波动高度逐年降低,由此可以推测长春市环保部门对环境保护工作的认识也在逐渐加深,监管力度逐渐增强。
2、当然了我们也可以使用summaryplot()函数快速概览数据整体的情况,时间序列变化、统计指标、频数分布等等
summaryPlot(air) #快速概览数据整体情况
image
五、绘制污染物日历图
这样还是不过瘾,我们想做出一张日历,
这样每天看看日历就能今天是否适宜出行。
通过调用openair中的calendarplot()函数绘制出污染物日历图。本次以PM2.5为例,当我们要出门时不妨看看我们自己绘制的污染物日历图,
嗯,今日不宜出行,
还是接着睡觉吧
calendarPlot(air2017,pollutant= 'PM2.5') #绘制日历图
image
我们根据有关部门的标准,按照标准将PM2.5日均浓度分为几个等级并绘制污染物日历图,使数据结果更直观。
levels <-c(0,35,75,115,150,250,350) #空气质量分类
labels <-c("优","良","轻度污染","中度污染","重度污染","严重污染")
cols <- c('green','yellow','orange','red','purple','maroon') #定义颜色
calendarPlot(air2017,pollutant= 'PM2.5',breaks = levels,labels = labels,cols = cols,statistic ='mean',main='Daily PM2.5 in 2017 Changchun') #绘制日历图
image
由此图可以看到,长春市PM2.5的时间分布,长春每年的十月份至四月份空气中PM2.5含量较多,空气质量相对较差,其他月份优良天数全部满格。欢迎大家5~9月来长春玩,费用自理蛤。
image
硬广:个人公众号:此地古同
网友评论