美文网首页
(一)刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)

(一)刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)

作者: 爱折腾的胖子 | 来源:发表于2018-09-19 03:49 被阅读0次

前面介绍了发送HTTP请求获取服务器返回的数据、数据通过re库进行数据提取。这节就写一个小案例,爬一下boss直聘中关于爬虫的招聘信息。

打开boss直聘官网,输入爬虫,点击搜索按钮。

进入到列表页面,点击第二页,第三页等等,观察url路径的变化,可以发现page=2就是第二页,后面的那个ka=page-2没什么用,

记录一下url地址,然后使用urllib.request模块,发送一个HTTP请求,测试一下是否是我们需要的数据。

OK,此时已经拿到了整个页面的HTML代码,接下来就是数据分析和提取了

这个页面的HTML里面,需要的数据只有招聘的信息,<div class="job-primary">...</div>标签中的数据就是一条招聘信息。

接下来使用正则表达式进行匹配,先获取整个<ul>,然后再批量获取<li>:

self.deal_page(content_list)是提取数据的函数,self.write_page()是将数据写入文本的函数

接下来根据每一个<li>,提取有价值的信息,保存到一个模型类中,并且统一存放到一个列表里:

模型类 信息提取结束

接下来需要将提取的数据写入本地,这里使用写入到记事本中:

运行程序,在文件的当前目录中,就会有招聘信息

随便打开一个文本文件,查看一下里面的内容,

到此Boss直聘上有关爬虫的招聘信息,抓取完毕。

完整代码。。。

相关文章

网友评论

      本文标题:(一)刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)

      本文链接:https://www.haomeiwen.com/subject/cvopnftx.html