美文网首页
毕业去哪?该做什么?帮你分析看看

毕业去哪?该做什么?帮你分析看看

作者: 回声与倒影 | 来源:发表于2018-12-28 01:24 被阅读10次

这是一个职位分析小工具,由简单的爬虫和分析库帮你完成。因为不涉及框架,所以如果你对爬虫只闻其名的话,本文会带读者初步地了解爬虫(python爬虫)到底是如何运行的。而如果你已经具备python基础,那么你在本文最后将得到这个程序的源代码并尝试着使用它。

第一步:准备url,并发送请求

这第一步就好比你准备上哪家网站搜集信息,并访问请求。

访问url.PNG

这个方法用来访问网址,并返回一个网页源代码。

第二步:提取需要的数据

这第二步是爬虫的核心也是难点。怎么提取?有三种方法:
-xpath: 先分组,再提取
-正则表达式: 匹配条件
-beautifuleSoup: 直接匹配html或css标签
这三种方法,优劣各异,没有最好的方法,只有在特定情形下最合适的方法。


beau提取.PNG
xpath提取.PNG

上两图分别为BeautifulSoup和xpath方法,因为牵扯到的信息量很杂乱,因此这两种方法在此处食用更佳。
然后把爬取(收集)到的数据返回。


返回数据.PNG

这里用到的是yield而不是return的原因是:节省你的内存空间。反正都是用一次就丢到数据库去了,没必要用列表(内存)装满这些数据再一次性发送。而爬虫往往都是海量数据,这要留意一下。

第三步:保存数据

这里有两种处理方式,保存在本地,和保存到数据库。
-保存到本地,txt、json、csv
-保存到数据库中,MySQL,Redis,MongoDB


主函数.PNG

这是程序的主函数,糅合了前面介绍的两个步骤。此外,KEYWORDS和args是我配置文件中设好的参数。详见请看下图:


配置文件.PNG

if name =='main':就是一个调兵遣将的地方。在这里使用了两个技巧,进程池加快爬取效率,笛卡儿积拼接url的参数。

开始.PNG
以上,爬取数据并下载到数据库就完成了。接下来是从数据库中拿取下载好的数据进行数据可视化。其中用到了matplotlib、numpy、pandas、wordcloud等专业的数据分析库。但城市样本选取地不太好,导致分析效果欠缺。不过,这是可以自己配置的。效果图如下:
饼图.PNG
词云图.PNG
附上本程序源代码 https://github.com/chrishfz/Job-search-analyzer
往后,我会写关于爬虫的scrapy框架的知识,让爬虫程序更加模块化。敬请期待。谢谢~~

相关文章

  • 毕业去哪?该做什么?帮你分析看看

    这是一个职位分析小工具,由简单的爬虫和分析库帮你完成。因为不涉及框架,所以如果你对爬虫只闻其名的话,本文会带读者初...

  • 怎样才算是一个好的竞品分析?

    写在前面 那我们来看看,为什么要做竞品分析 竞品分析该做些什么 竞品分析该怎么做 提到竞品分析大家可以看一下《用户...

  • 毕业了,去哪

    又是一个毕业季的到来,看着路上熙熙攘攘的人流,世界虽大,但适合自己去的地方很小。 在学校生活了二十多年,那种凭靠考...

  • 毕业你去哪了

    有没有睡着的时候飘着的小雨再把熟睡的我惊起, 当你在梦中的时候。 我却爬起来, 望向窗外。 有一丝的光线, 雨点穿...

  • 毕业之后,你去哪?

    终于赶在三月末将这篇文章写出来了。 2017.3.21是学校举行毕业典礼的日子。学校的春天气息变得浓郁起来,迎春花...

  • 毕业后,去哪工作

    毕业以后,在老家,还是去大城市工作? 我的志气不高,我比较重视真的幸福吗。只要自己觉得有意义,也是幸福的,那我...

  • 论文中数据分析

    毕业论文中的数据分析从哪下手? 最近有很多小伙伴已经开始准备毕业论文了,但是对于论文中数据如何进行分析,选择什么方...

  • 设计模式--代理模式

    一, 什么是代理 简单来讲,代理就是帮助【目标对象】去完成应该做,但是不想活不擅长做的事情,比如媒婆帮你找对象,黄...

  • 独立的今天

    作为应届毕业生,临近毕业时我的生活充满了忧虑:“毕业后我该做些什么事情?该到什么地方去?”“我能找到工作吗?万一...

  • 疑惑 | 毕业后,你去哪?

    毕业了,你去哪? 对于那些不考研的大四学生来说,大都会被问这个问题。 大一大二自由散漫,大三大四哭喊迷茫。 我开始...

网友评论

      本文标题:毕业去哪?该做什么?帮你分析看看

      本文链接:https://www.haomeiwen.com/subject/ilbbzftx.html