美文网首页零基础-一起学爬虫
【零基础学爬虫】爬虫实战:成都近五年的温度、空气质量变化趋势

【零基础学爬虫】爬虫实战:成都近五年的温度、空气质量变化趋势

作者: 大菜鸟_ | 来源:发表于2019-04-10 16:11 被阅读14次

    简介

    博主是电子科技大学、信息与通信工程在亚特、研三在读,硕士在成都待了三年,毕业后即将前往北京字节跳动大数据开发岗位,进入人生的另一阶段。

    临近毕业,意味着即将告别人生中最后不到三个月的学生生涯。在离开天府之国之前,总想留下点什么,于是产生了本文。

    正文

    本文是一次爬虫实战,文章主要分析了成都近五年的温度、降雨、空气质量变化趋势。文章主要分为两个部分:

    • 温度、降雨的趋势统计
    • 空气质量的统计

    一、温度、降雨量统计

    降雨量和温度的统计主要来源于:历史天气查询网站
    该网站收录了2011年到现在的历史天气数据

    1.url分析
    url:https://m.tianqi.com/lishi/chengdu/201904
    从url可以看出规律:https://m.tianqi.com/lishi/ + 城市名字全拼 + 两位数的月份
    基于这一点这部分数据直接采用requests请求即可
    2.页面分析
    下图是url: https://m.tianqi.com/lishi/chengdu/201904 返回的页面


    上图中包含了2019年4月份的所有天气数据:有这个月的平均高低温统计和当前月每一天的天气数据,对于以上的数据,文章只需要一下几个:
    • 平均低温和平均高温:主要由于统计近五年长度的天气变化情况



      平均低温指的是当前月每一天的最低温平均值,对应于上图中左边一列数据的平均值,平均高温也是类似

    • 天气情况:即对应下图数据

      这部分数据用于统计成都近五年的下雨天数变化情况
      网站的页面也比较简单:
      (1)平均高低温数据

      这部分数据是以表格形式组织的,文章使用pyquery进行解析
      (2)天气数据

      只需要提取上图职工的<a标签中的数据即可,文章使用pyquery解析数据

    二、空气质量统计

    空气质量(AQI)数据;来源于网站PM2.5历史数据
    网站值收录了2014年到现在的历史数据
    1.url分析:
    https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903
    改变url中的城市和month即可得到需要的数据
    使用requests可以实现
    2.页面分析
    下图是url: https://www.aqistudy.cn/historydata/daydata.php?city=成都&month=201903 返回的页面


    上图包含了当前月每一天的详细AQI数据,在本文章只需要提取AQI这一列对应的数据即可,提取到AQI,之后根据下图即可转化为对应的空气质量等级:

    根据上图,本文对提取到的AQI数据划分为以下几个类别,并统计对应类别的天数:
    • 优:AQI <= 50
    • 良以上(包含良和优):AQI <= 100
    • 轻度污染以上(包含轻度污染、良和优):AQI <= 150
    • 轻度污染以下(包含中度、重度和严重污染):AQI >= 151

    在提取数据前都需要对网页的源码进行分享,上图的网页源码如下:


    在源码分析时发现一个问题,源码只有表头数据,表格内容数据并没有直接出现,并且没有发现有AJAX请求,进一步分析:

    数据获取的关键函数是getServerData函数,但是进一步追踪下去并还是没有找到服务器返回给浏览器的json数据,之后便放弃了requests,转而使用selenium,简单来说selenium获取到的是js渲染后的页面源码,更多关于selenium的介绍请看历史文章。使用selenium获取到的页面源码如下如所示:

    上图是浏览器渲染后的页面源码,本文使用pyquery进行解析获取数据,更多关于pyquery的介绍请看历史文章

    代码实现和结果分析

    (1)程序实现时主要分为以下几个模块

    • 获取、拼接url
    • 访问上面url,并返回页面源码
    • 页面数据解析、和数据存储
    • 数据可视化

    (2)下面是成都天气数据的可视化
    下图中的的横坐标都是代表月份:1到12月

    上图看出:18年7月下了27天的雨,而且剩余三天:两天是阴一天是多云
    另外,18年1到5月份以及9月到11月的整体下雨天数比前几年少,整体而言,18年的下雨天数明显减少

    2012年全年有190天在下雨,全年一半以上都有雨。
    一个很奇怪的现象:17年后下雨的天数断崖式下降!!!

    每年成都的温度数据较为规律,七、八月份是一年中最热的时候:此时平均低温23摄氏度左右、平均高温32度左右


    近五年的数据表明,污染主要出现在:1月、2月以及12月

    上图可以看出:

    • 成都空气质量为优的天数逐渐增加
    • 良以上的空气质量天数增加
    • 轻度污染以上的天数也是增加
    • 中度、重度和严重污染的天数在减少
    • 整体而言,成都的空气质量在逐步改善

    源码


    扫描下方二维码,公众号菜鸟名企梦后台发送关键词“成都”即可获取本文的完整源码和详细程序注释

    扫码关注,及时获取更多精彩内容。(博主今日头条大数据工程师)

    公众号菜鸟名企梦专注:互联网求职面经javapython爬虫大数据等技术、海量资料分享
    公众号菜鸟名企梦后台发送“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务;
    公众号菜鸟名企梦后台发送“资料”:即可领取5T精品学习资料java面试考点java面经总结,以及几十个java、大数据项目资料很全,你想找的几乎都有

    相关文章

      网友评论

        本文标题:【零基础学爬虫】爬虫实战:成都近五年的温度、空气质量变化趋势

        本文链接:https://www.haomeiwen.com/subject/ayuniqtx.html