RStudio实现空气质量数据可视化

作者: 鲨瓜 | 来源:发表于2018-10-21 22:47 被阅读6次

    使用工具:RStudio
    使用包:RMySQL,Tidyverse,Openair
    数据来源:真气网
    绘图所用数据:长春市每日数据
    前言:
    在前期的文章中,
    我们学会了如何用
    Python实现各地空气质量数据的抓取,
    往期文章:Python爬取真气网天气数据
    那时的我们迈出了走向人生巅峰的第一步,
    学会了如何获取大量可靠的数据。
    这样就满足了吗?
    不可能的,
    这辈子都不可能的。
    在这篇文章中,
    我们来学习如何利用RStudio实现数据可视化,
    看看一年有多少天适宜户外活动。
    春天到了,
    又到了一年一度的~~~
    一、获取所需数据
    往期文章:Python爬取真气网天气数据
    二、加载所用包and读取数据
    本次所用的数据存储在MySQL数据库,
    如果你的数据存储在Excel或TXT中,
    可以使用readr这个包读取数据,
    具体过程不再此赘述.

    library(RMySQL)#RMySQL用于连接MySQL数据库
    library(tidyverse)#非常强大的包,提供数据导入、分析、可视化一条龙服务
    library(openair) #绘制日历图
    conn=dbConnect(MySQL(),host='localhost',user='root',password='lixq9010',dbname='changchun',port=3306)#连接数据库
    dbSendQuery(conn =conn,'set names gbk') #防止出现中文乱码
    <MySQLResult:2,0,0>#运行结果
    dbListTables(conn= conn) #返回数据库中的所有表格
    [1]"air_quality" #运行结果
    res <-dbSendQuery(conn = conn,'select * from air_quality') #建立air_quality查询对象
    air <-dbFetch(res = res,n=-1) #(n=-1)表示提取res对象中的所有数据
    

    三、整理数据
    整理数据时出现的问题,
    1、日期数据必须为Date类型,
    转换函数:as.Date()
    2、转化数据时涉及data frame的操作
    air$date表示操作air名称表格中的date列。

    class(air) #返回air的数据类型,方便后期对air进行操作
    [1]"data.frame" #数据框类型
    air <-air[,-2:-3] #删除air中的第二及第三列
    head(air) #返回air的前几行数据
    date PM2.5 PM10SO2  CO NO2 O31 2017-01-01   173 194  74 2.5  54 402 2017-01-02    87 108  69 2.0  52 563 2017-01-03    56  78  60 1.7  50 544 2017-01-04    75 102  79 1.9  73 305 2017-01-05   113 132  69 2.0  80 426 2017-01-06   119 138  94 2.3  80 46air$date <-as.Date(air$date) #将air中date的字符串类型转换为日期类型(重要,不转换后期会报错)
    air <-as_tibble(air) #将air转换为tibble类型
    head(air) #返回air的前几行(观察到第二行多了各个数据的类型,不用单独查了,实在是太方便)
    # A tibble: 6 x 7Date       PM2.5 PM10   SO2    CO  NO2    O3
    <date>     <int> <int> <int><dbl> <int> <int>1 2017-01-01   173  194    74   2.5   54    40
    2 2017-01-02    87  108    69   2     52    56
    3 2017-01-03    56   78    60   1.7    50   54
    4 2017-01-04    75  102    79   1.9   73    30
    5 2017-01-05   113  132    69   2     80    42
    6 2017-01-06   119  138    94   2.3   80    46
    air <-dplyr::arrange(air,date) #将air按照date的大小排序head(air) #返回air的前几行
    # A tibble: 6 x 7 Date       PM2.5 PM10   SO2    CO  NO2    O3<date>     <int> <int> <int><dbl> <int> <int>1 2014-01-01    26   51    50   0.6   25    55
    2 2014-01-02    47  100    64   1     44    47
    3 2014-01-03    90  136    79   1.1   54    40
    4 2014-01-04   109  148    72   1.5   63    43
    5 2014-01-05   195  264    92   2.3   82    37
    6 2014-01-06   129  172    94   1.5   61    53
    air2017 <-air[1035:1399,]  #返回air的1035至1399行数据并赋给air2017
    

    四、绘制时间序列曲线
    1、数据记录时间:2014-01-01至2018-10-14

    plot.ts(subset(air,select=-date),col='red')#绘制时间序列图
    
    image

    数据显示结果非常有趣,可以看到长春市的六种环境检测物质呈现出一定的周期性。尤其是SO2,这峰型也太TM标准了。而且其波动高度逐年降低,由此可以推测长春市环保部门对环境保护工作的认识也在逐渐加深,监管力度逐渐增强。
    2、当然了我们也可以使用summaryplot()函数快速概览数据整体的情况,时间序列变化、统计指标、频数分布等等

    summaryPlot(air) #快速概览数据整体情况
    
    image

    五、绘制污染物日历图
    这样还是不过瘾,我们想做出一张日历,
    这样每天看看日历就能今天是否适宜出行。
    通过调用openair中的calendarplot()函数绘制出污染物日历图。本次以PM2.5为例,当我们要出门时不妨看看我们自己绘制的污染物日历图,
    嗯,今日不宜出行,
    还是接着睡觉吧

    calendarPlot(air2017,pollutant= 'PM2.5') #绘制日历图
    
    image

    我们根据有关部门的标准,按照标准将PM2.5日均浓度分为几个等级并绘制污染物日历图,使数据结果更直观。

    levels <-c(0,35,75,115,150,250,350) #空气质量分类
    labels <-c("优","良","轻度污染","中度污染","重度污染","严重污染")
    cols <- c('green','yellow','orange','red','purple','maroon') #定义颜色
    calendarPlot(air2017,pollutant= 'PM2.5',breaks = levels,labels = labels,cols = cols,statistic ='mean',main='Daily PM2.5 in 2017 Changchun') #绘制日历图
    
    image 由此图可以看到,长春市PM2.5的时间分布,长春每年的十月份至四月份空气中PM2.5含量较多,空气质量相对较差,其他月份优良天数全部满格。欢迎大家5~9月来长春玩,费用自理蛤。 image

    硬广:个人公众号:此地古同

    相关文章

      网友评论

        本文标题:RStudio实现空气质量数据可视化

        本文链接:https://www.haomeiwen.com/subject/ttgizftx.html