文·blogchong
写在之前
听说最近帝都又被雾霾攻陷了,想想身处千里之外的大深圳,年初逃离大北京,庆幸自己又逃过一劫!
据朋友圈中一些北京朋友发的照片,大概是这样子滴:
朋友圈 - 北京雾霾照片额,真不是他们手机像素不好,哈哈,还是记忆中熟悉的颜色(好像有点幸灾乐祸了~~惭愧)。
并且,这两天身边发生了两起小故事:
一个在北京待了八九年的朋友在他技术公众号发了一篇关于“帝都雾霾”的文章,宣告即将离开北京。
前天,深圳的一个朋友去北京出差,飞机飞到北京上空愣是不敢降落,最终迫降在呼和浩特,然后转火车到北京。
从12年到16年初,在北京算是待了四年多,对于北京的雾霾可算是切身体会。
在外头,咱也可以拍着胸脯说:咱也是吸过帝都雾霾的人!(玩笑 哈哈)
所以,多少还是有些“雾霾情节”的人,趁着这波北方的雾霾,结合“数据虫巢”自身的数据技术,从数据层面,我们来“拨开雾霾”的迷雾:
看看全中国到底哪些省份一直深受雾霾毒害?
看看吸了好几年的帝都霾到底是不是对“醇厚”的?
再看看雾霾的变化趋势到底是怎么样的?
我们根据京东雾霾口罩为主以及相应周边物品的售卖情况,来分析如上这些关于雾霾的问题。
当然,我们也知道京东并未对外暴露提供商品的销售量,所以,我们只是从商品售卖评论情况来做分析。
同时,我们也知道,并不是只有京东有雾霾口罩相关的商品售卖,某宝也有,其他地方也有。
所以,我们的分析本着以下的认知基本原则:
第一,我们认为各个省份、各个时段的用户去往京东购买雾霾相关物品,以及其他购物平台购买,其分布是均匀的。
第二,我们认为各个省份、各个时段的用户,从京东平台购买雾霾口罩以及相关雾霾物品,以及对购买的物品进行评价,其分布是均匀的。
基于统计分析抽样的理论,如果上面这些假设大致认可,那么下面的数据分析的结论则具有一定的参考性。
所以,我们不看总量,只看各个平行维度的横向对比分布情况,再在这个基础上乘以K,则为我们全局的数据分布情况。
SO,不要再纠结于更细的精确数据了,一边吸着天空中醇厚的雾霾,一边看这份“业余”的雾霾分析报告,岂不乐哉!
IF,如果你还对此持严重怀疑态度,那么,可以绕道了,下面的内容也许并不适合你。
上正文前,我们最后再来看一张有趣的图片:
数据抓取以及预处理
截止2016年12月20日X时,数据虫巢以搜索“雾霾口罩”为爬取入口,爬取了以防霾口罩为主共63页,1617个相关物品累计804812条评论。
JD - 搜索雾霾口罩基于样本准确性问题,我们会对异常样本进行删除,例如一些地理位置标记为空、为乱码,或者海外的评论信息,且认为整体分布依然是均匀的,所以样本抽取依然是可用的。
JD - 对应商品评论此外,由于京东评论的数据每个最多获取1400多条,所以,我们在做关于月份地理位置的分析时,会取其中能够获取到全量或者近似全量(最起码会覆盖一年12个月份)的样本数据做进一步的分析。
(上一篇《豆瓣5.3的《长城》,用数据挖一挖水军的力量到底有多强大》有被吐槽不够严谨,那这篇咱就略微严谨点)
雾霾影响分析
在分析雾霾影响之前,我们先来确定几个点:
在JD购买防霾相关物品,从地区分布分析中,无法直接表述该地区雾霾的严重程度,比如,万一很多地方就算雾霾重也不买口罩呢,确实会存在这种情况,但一定程度上可以侧面反映雾霾。
这份雾霾影响数据分析报告中涉及地域相关的分析,更侧重的是雾霾对该地区造成影响后,该地区人们对于雾霾的响应程度(购买防霾物品是一种响应措施),也可以说是雾霾对该地区造成的影响情况。
首先来看一下全国各个省份的雾霾影响分布。
雾霾影响 - 全局地域分布其中,北京包括北京周边地带,河北、山东、辽宁、天津等地,颜色略深,当然北京自身是当之无愧的NO.1,这意味着这几个省市对于雾霾影响的略重,这符合大家对于这几个地方的预期。
为了更详细的看,我们把Top15的名单拉出来。
雾霾影响 - 地域TopN除了北京附近的几个省份,包括京津唐地区,确实如大家想的那般,受雾霾毒害甚重,但四川是一个容易受到大家忽视的地方,其实整体来说,这几年四川东部地区,包括成都,空气质量一度不算太好,只是受到媒体的关注度较小而已(不信可以核查部分相关资料进行了解)。
从这里,我们一不小心把四川给暴露了出来,罪过~罪过~
比较怪异的是广东,上海,江苏等沿海地区,从认知上,我们知道这几个省市整体来说雾霾的情况不算严重,但对于防霾物品的购买程度,也是略高。
正如上面所说,这里的分布不能严格代表雾霾的严重情况,但能很大程度上体现各个地方对于雾霾或者说空气质量等的响应情况,或许这些沿海发达地区对于生命看得比较重(霾不严重也天天带着口罩瞎逛)?
我们再来分析一下雾霾随着每个月的变化情况。
雾霾影响 - 随月份变化趋势在这里,其实是可以一定程度上以这个影响来表征雾霾的全局严重情况的,因为这里跟地区分析不同。
看柱状变化趋势我们知道,从9月份开始,雾霾开始变得严重,并且紧接着10月份进入雾霾的高发期,并且一直高居不下,俨然与其他季度成断崖式的对比,直到持续到1月份,国民开始逐渐进入安全时期。
整个这个分析图表,想必大伙儿还是比较容易接受的,受中国气候特点影响,冬季容易出现逆温现象,并且冬季采暖污染物排放加大,所以整体来说,从9月直到1月的雾霾波动,就很容易理解了。
我们再来看看大伙儿购买防霾物品的时间点,会发现什么有趣的事。
雾霾影响 - 购买相关物品变化趋势凌晨区间的低潮期,我们就不多分析了,谁大半夜起来买防霾口罩啊,那得受雾霾毒害多深才会半夜起来抢JD的口罩啊!
整体分布来看,上午10点左右是个高峰期,并且整体来看上午的时段占比比较大。
其实很也好理解,上班一出门,我次奥,这TM是天要黑了吗?!
结合上面的照片,脑补一下场景,反正当年俺在北京的时候是遇到过,上班一出地铁口,天黑压压的,没睡醒的还以为天还没亮呢,到了办公室分分钟先买一打口罩再说。
鉴于对帝都的深厚感情,以及对于帝都霾那醇厚感深深的怀念,特地把北京地区的数据拿出来看看。
其实就是想看看北京人民什么时候受雾霾毒害最深,哈哈。
北京 - 雾霾影响时间变化趋势
进入10月份后,每个月北京人民都要“高潮迭起”几次,对应变化曲线:
2016年10月19号北京发布雾霾黄色预警 -- 网络信息标题摘录。
2016年11月2日起北京气温回升至10℃以上雾霾再袭 -- 网络信息标题摘录。
2016年11月13日,北京PM2.5将再次爆表 -- 网络信息标题摘录。//数据虫巢标注:该次雾霾持续到20号,北京降雪
2015北京雾霾12月18日停课放假通知 -- 网络信息标题摘录。//就前几天
哈哈,玩笑,不过,酱紫看来,回到标题,要说雾霾,到底还是北京的醇厚啊!
PS:此外,文中所有报告图表,均截图于数据虫巢官网,可查看详细图表以及相应数据。
(全文完)
网友评论