随着一篇《疫苗之王》的刷屏,问题疫苗引发了社会各界的广泛讨论和关注。个中缘由相信大家都已经有所了解,小编作为一名数据从业人员,总希望能从自己的专业角度为大家提供一些有价值的信息。
接下来小编将为大家复现本人从疫苗数据采集到数据可视化的全过程,并最终通过数据分析得到了相关结论。希望这篇文章能够起到抛砖引玉的效果,感兴趣的朋友可以尝试该方法采集分析更多维度或更多领域的数据来得出结论。
文章目录
一、数据采集
用性价比高的方法找到所需数据
二、数据清洗
实用小技巧get
三、数据分析及可视化
图表选择、数据细查、得出结论
四、小结
一、数据采集
误区:
1、想以“一己之力”拿到所有相关数据;
2、只有会爬虫的技术人员才有可能拿到所有数据。
正解:
善于“搜索”:一般热点问题发生之后的2-3天后,总会出现很多侠义之士无私分享多个维度的有用数据,我们需要做的就是善于搜索,不借助任何代码,去收集这些数据。当然如果你是非常厉害的数据爬虫专家,可以自己去拿。
“问题疫苗”数据采集过程:
1、百度搜索框输入“疫苗数据搜集”,并选择右下角搜索工具,将时间范围限制在“1天内”
2、点击第一篇文章,发现里面只有结果,却没有放数据集(很多网站出于自己的考虑,发表文章都会隐去数据集)。
如何应对呢?
答:从文章里面随便复制一段内容,然后粘贴到搜索框继续搜索,这样就可以找到百度收录的所有相关文章。
(文章内容,随便选择一段复制)
(搜索结果)
我们同样点击查看第一条搜索结果的具体内容;
功夫不负有心人,在这篇文章里,将数据集的地址给到了我们。
如果第一条搜索内容没有,我们可以接着查看第二条第三条的数据;
如果百度搜索没有,我们还可以尝试搜狗微信搜索、微博搜索、垂直搜索(例如v2ex等程序猿聚集的地方);总会找到你需要的数据的!
3、进入上面文章中提到的网址(https://github.com/fuckcqcs/fuckcqcs),找到需要的资源,点击下载。
二、数据清洗
注意:即使原作者已经将数据尽可能的结构化了,但是要想让这些数据为你所用,仍需要做一些工作,遇到问题别慌,大部分的问题都能通过百度解决哦:)
“问题疫苗”数据清洗过程:
1、解压上一步中我们下载的数据包,找到csv文件
2、刚拿到这些数据是不是特别兴奋,但是打开后却发现是乱码
3、其实从网络上下载的很多csv文件都有这个问题,通过百度可以get解决这个问题的小技巧:
第一步:将文件以记事本方式打开;
第二步:另存为选择“全部文件”、再选择编码方式为“ANSI”。
再次打开数据,就可以发现乱码问题轻松解决啦!
4、整合及清洗数据
作者提供了26个省的数据,散落在26个csv文件中,不利于后续的数据分析,所以首先要将这26个文件整合成1个文件。
通过观察,我们发现整合过程中主要有三个问题:
第一:price列,有的带计量单位,有的没有计量单位;
第二:浙江省的csv文件中,字段名称与其他25个表略有不同,另外还有错别字问题;
第三:吉林省的数据里有空格;
如何应对?
第一:利用excel的“数据-分列”功能,将不必要的计量单位隔离出来,删掉;
第二:浙江省的数据将src和name两个字段混合成了一个字段,疫苗名称不标准,并且增加了很多不必要的包装信息。处理这种情况则需要重复利用“数据-分列”功能,将多余的信息完全分离出来,输出标准化的“name”,并将其他字段按顺序补充完整;最后再替换相关错别字;
第三:选中吉林省数据,利用“查找-替换”功能,去掉所有空格。
三、数据分析及可视化
1、将数据导入Data Analytics
2、根据自己的分析目的,迅速拖拽生成图表,并排列组合形成看板备用。
(视频教程链接:https://www.datahunter.cn/user/videos.html 只需要看图表制作和看板制作两小节就够了,共计5分钟)
第一步:明确分析目的
我想通过这些数据分析哪些问题呢?(每个人的出发点不同,最后输出的数据可视化内容也就不同)
宏观问题:26个省的疫苗的进口/国产采购比率如何?疫苗生产大厂有哪些?
微观问题:问题疫苗生产厂家都往哪些省市销售过疫苗?主要生产的疫苗名称是什么?
第二步:根据上述目的生成相关图表
a、将src字段拖入维度和度量,通过生成环图来查看26个省份采购数据中的国产和进口疫苗比例对比。
很明显可以观察到,26个省,国产疫苗采购比例高达96%。
b、将prov字段拖入维度,name拖入度量项,查看近两年26省疫苗采购数据记录数。
如下图所示,内蒙古、江西、贵州的疫苗采购记录数最多,其他省份相对较少,我们也希望未来能如原数据采集者所愿,有关部门能扩大采购信息公开程度。
c、我们再看看问题疫苗企业在各省的销售分布(非特指问题疫苗)
颜色越深,说明该省份采购问题企业的疫苗记录越多。
d、问题企业涉及的疫苗产品
可以看到,问题疫苗企业生产的疫苗产品涵盖了绝大多数的二类疫苗。
第三步:将上述图表排列组成看板,通过联动过滤或数据下钻,进一步细查数据。
四:小结
1、前期的数据准备工作会占到整个可视化过程70%以上的时间
数据采集、数据清洗的过程会耗费较多时间,如果你不熟悉相关技巧的话,可能会需要更多;
2、善于搜索
大多数的问题都可以通过搜索解决,比起学会代码,对小白来说,“搜商”的提高更重要;
3、善于利用工具
如果用excel出图、做数据可视化,可能要多出2-3个小时的工作量,利用像Data Analytics这样的BI产品,可以提高在数据可视化这一环节的工作效率;
最后希望通过本文,能让大家简单了解数据可视化的整套流程,帮助更多的朋友通过数据探索世界。
网友评论