无编程爬虫就是这么简单

作者: 续写前生今世 | 来源:发表于2019-12-18 20:09 被阅读0次

无编程爬虫就是这么简单
简单的Python爬虫-就是这么简单
Java 网络爬虫，就是这么的简单
一个简单的网络爬虫
为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫
Python 爬虫零基础教程(0):简介及准备
Python爬虫的两套解析方法和四种爬虫实现！早日入门爬虫！
Python爬虫的两套解析方法和四种爬虫实现！早日入门爬虫！
各语言简单爬虫
Python爬虫解析与爬虫实现的方式，实战归纳，大乱斗！

文章背景：最近在研究爬虫技术的时候，接触到一些运营人员，发现他们的需求有的其实很简单，不一定非要用Python来编写定制化爬虫代码即可实现，下面我就介绍一种很容易上手的办法爬取一些业务场景不是很复杂的数据。

爬取原理：利用谷歌内核的浏览器插件Webscraper定制化爬取规则，让浏览器自动执行爬取操作，下面让我们以时光电影热度为例从零开始教你使用该插件爬取你想要的数据。

工作准备：首先，你需要一个谷歌内核的浏览器，比如谷歌浏览器、360浏览器等;然后你需要下载Webscraper插件，下载地址在文章末尾。

安装介绍

你需要打开你的浏览器，然后将下载好的插件拖拽到浏览器中，这时浏览器应该会提示是否添加扩展程序，确认添加即可。如下图操作所示

添加完成之后，在浏览器中单击右键选择检查选项并点击，这时我们可以看到如下图所示的情况，即说明插件安装成功了。如果插件安装过程提示程序包无效，那么你需要查看你的浏览器版本，去百度搜索适合你的浏览器的Webscraper插件。

插件介绍

安装成功后可以观察插件的内容如下图所示，这个插件分为三部分内容，其一所已经创建好的爬虫规则列表，其二对应爬虫规则的操作命令，比如启动爬虫、导出爬虫规则，导出爬虫数据等；其三是创建或导入爬虫规则。

定制爬虫规则

点击Create new sitemap创建一个新的爬虫规则，

创建完成后，我们需要创建具体的爬取项，简单理解就是你需要获取的数据

首先我们需要获取列表页的每一个详情页的链接地址，按照我下图中的操作指示，首先填写ID，这个可以随便填写，对应的就是导出的数据的字段名称，其次选择Type，应为我们要获取的是详情页的链接地址，所以选择Link选项，然后点击第三步的Select，然后移动鼠标选中页面中详情页的标题，然后勾选第四步的单选框，然后滑动页面到底部，看看是不是需要的数据都被选中了，确认之后点击第六步的Done selecting，然后我们可以在第七步种的Data preview按钮点击后预览爬取的数据，然后点击Save selector保存爬取项。

保存好详情页的规则后，我们需要进入详情页，设置爬取的详细信息，因为这个页面直接点击详情页标题会新开一个页面，我们需要用到一个小技巧保证页面停留在当前页，因此需要按照如下图操作去设置

设置完成后点击详情页的标题

进入详情页，我们继续添加爬取项，如标题、导演等信息，操作步骤和上一个爬取项设置类似，只是要注意三点，第一只选择需要的数据即可，并且不要勾选Multiple这个地方的选择框；第二，Parent Selectors这个位置需要选择到详情页上而不是默认的_root，第三是Type选择Text或者你需要的其他类型。下面以爬取标题的数据为例