SunCOOL
马上开学,作为一名准大一,ni知道你的同学都来自哪吗?
怀着好奇心,我打开了山东农业大的招生信息网。点击这里
(不得不说,这个页面比教务系统的页面好看多了!!!)
作为一名Python玩家
正确玩法应该是把数据搞下来,慢慢玩!
这么多的数据,总不能一个一个输进Excle吧!
看好了,下面是Python玩法
右手下意识的按下F12
发现数据都在<tr></tr>标签中,每一个值都在<td></td>
看到这里,我又点了几个<tr></tr>标签,发现每一行的数据都是这样,看到这里很开心!结构和简单,只需要用对应的规则去提取就好。
开干
注意到域名是下图
可以初步判断这是用Get请求向服务器请求数据
为了严谨,我再次打开F12,使用谷歌浏览器自带的抓包
可以发现,只要将网址处最后的数字改一下,就可以请求的2018年的数据,同理2019年的数据也只需要改成2019即可。
下面开始写代码(具体的方法后期会单独讲)
代码逻辑如下
首先请求数据=>解析数据=>提取数据=>存储数据
下面就是我们获取的数据
获得了数据,下面我们对它进行可视化
首先看一下除山东省外的生源分布
可以看出,19年与18年的计划招生人数没有变化,人数最多的是贵州省,最少的是北京市。
接下来,看一下招收人数较少的省主要都是在哪些专业?这里我以20人为界
得到了以下省份的专业分布
(有幸认识一个新疆人,我的室友
)
![](https://img.haomeiwen.com/i16185579/5fa52994e8d9bb43.png)
如果开学后,班里有同学是这些地方的,请珍惜ta
下面看一下每个专业(这里做了模糊处理)的分布情况
(2018年专业分布)
(2019年专业分布)
由于今年大类招生,19年“专业”较18年有大幅减少
好了,终极问题来了,山东人都去学啥专业啦
大多数人还是选择了经济学类和工商管理类
今天的分析就到这里
想看高清大图可点击阅读原文(可交互)
附上可视化部分代码
以后会对爬虫知识进行讲解
欢迎感兴趣的同学私信
关注微信公众号SUNCOOL定期推送python小应用
![](https://img.haomeiwen.com/i16185579/71e8873fde6419e9.jpg)
网友评论