scrapy爬虫框架实现51job武汉地区所有IT岗位爬取

scrapy爬虫框架实现51job武汉地区所有IT岗位爬取

作者: 平常心即是禅 | 来源:发表于2018-10-12 17:46 被阅读0次

scrapy爬虫框架实现51job武汉地区所有IT岗位爬取
python爬虫框架Scrapy
Scrapy与scrapy-redis分布式爬虫抓取
Python爬虫之Scrapy框架爬取XXXFM音频文件
爬虫练习_使用scrapy爬取淘宝
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
Scrapy架构及流程
Python + Scrapy爬取高逼格音乐网站《落网》
51job'python'岗位分析
2021-07-21

这一篇是直接写实现过程了，如果刚接触的话，建议先去看上一篇一个关于scrapy框架爬虫的简单又全面的爬虫项目大纲。

先看文件目录。

1.scrapy配置settings文件。

log在settings里配置

写入log日志

日志里面的log

接着配置爬虫相关的。

基本配置

关于配置settings的详情，我这里不多写了，主要写当前项目中用到的，详细的给提供两个参考。

2.官方settings文档

代理ip的自定义中间件配置（敲黑板）

这里先插放代理ip和用户USER_AGENTS

当然方法不止这一种，也可以通过自定义中间件去切换或者spiders中去切换。更多种方案这里不再提供了。51job没有反爬虫。各位的碗不会被踢翻的😁

下面我们开始配置下代理ip的自动切换两种方案。

1.settings中设置代理ip。

自定义的代理指向是在settings里面我们刚配置过的

如图

别忘记了倒包，目的是通过log计入日志

2.通过自定义middlewares的代理IP中间件去请求代理ip的api接口实现切换。

这种方法和第一种区别就在于自动化程度更好，不需要手动切换ip，直接自定义代理中间件中去调用代理ip接口就可以实现

初学教程，51job较为简单且没有反爬虫协议，我们这里用第一种方案去实现。

接下来，我们需要在items.py中配置我们需要的字段。

如图

好了，到这一步，我们就可以正式开始写爬虫也就是spiders文件了。

如图

再来看一眼，我们爬虫的爬取范围的配置文件。所谓范围就是对爬取URL链接的控制。

如图

job51_CityLen和job51_ItNameLen都是划定爬取最大限度，不听话的虫子不是个好虫子。

如图

看到这里有没有有一种豁然开朗的感觉？？？？

每次启动爬虫，都需要先去读取jobUrl文件

这一步的目的是通过读取文本判断是否是第一次爬取。第一次就正常爬取，不是的话，就读取并且替换当前所有导致爬虫URL翻页的所有是元素的变量，如下图：

如图

聪明的你是不是早已恍然大悟！！

当然有读了，也得有写，这里我们同样思路，没页爬取完毕要更改URL链接时，先写入txt文件。

如图

如图

到这里，你又学会了，以最LOW的方法实现中断续爬。恭喜恭喜。举国欢庆！！！

当然也有官方方案，这里我贴下图

可是那又怎样，我不喜欢用

我感觉txt保存url链接实现的中断续爬可能更好用些。当然你可以尝试官方的解决方案。这是链接

接着，跟着我步伐我们简单的走一遍爬取逻辑。

如图

如图所示，我们每次爬取翻页后，就切换相对应的URL中起翻页，切换岗位，切换城市的变量。

这里还要强调log的重要性，数据量大时，你需要通过变量对应元素的变化去判断自己的爬取逻辑是否符合规范

好了，这一步就完成了。接下来我们讲下如果清洗数据。这一步让你的爬虫瞬间提成一个层次。

这些数据不整理归类，那么再大的数据也毫无意义

看到这里你疯了吗？

我们将所有薪资转换成标准单位（千/月）。按照天的的短期工作直接忽略。估计看到下面代码，你已经懵逼了，其实我写完再看时，也是懵逼的.......

薪资保存最大值和最小值

最后一步没得说，先保存txt文档吧！

完成数据

方便了后期mongdb聚合操作。

源码为了方便使用，我直接打包上传百度云了，如有需要请点击链接下载——————>链接

源码分享密码:a2i4

源码分享密码:a2i4

最后感谢大家的光临，后期看到源码，还请各位多多指点，共同学习，共同进步！！！

相关文章

scrapy爬虫框架实现51job武汉地区所有IT岗位爬取
这一篇是直接写实现过程了，如果刚接触的话，建议先去看上一篇一个关于scrapy框架爬虫的简单又全面的爬虫项目大纲。...
python爬虫框架Scrapy
爬虫框架Scrapy(一) 框架Scrapy是使用python实现的一个爬取网站数据、提取数据的异步网络框架，加快...
Scrapy与scrapy-redis分布式爬虫抓取
Scrapy爬虫框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途...
Python爬虫之Scrapy框架爬取XXXFM音频文件
本文介绍使用Scrapy爬虫框架爬取某FM音频文件。框架介绍 Scrapy是一个为了爬取网站数据，提取结构性数据...
爬虫练习_使用scrapy爬取淘宝
使用爬虫框架scrapy爬取淘宝一.创建项目 1.安装scrapy pip install scrapy 2.选...
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
由于说到Python爬虫一定绕不过Scrapy框架，所以这次也就尝试将之前的爬虫用Scrapy框架爬取拉勾网,这个...
Scrapy架构及流程
Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录...
Python + Scrapy爬取高逼格音乐网站《落网》
最近，在学习Python的爬虫框架scrapy。现在利用scrapy框架，把之前写过的一个落网爬虫重新实现一遍。爬...
51job'python'岗位分析
项目介绍使用python requests爬取51job的13925条有关北京地区python的岗位信息，分析岗...
2021-07-21
Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...

网友评论

本文标题：scrapy爬虫框架实现51job武汉地区所有IT岗位爬取

本文链接：https://www.haomeiwen.com/subject/hpvwaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|scrapy爬虫框架实现51job武汉地区所有IT岗位爬取|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！