数据爬虫入门与进阶

作者: CJDUDU | 来源:发表于2017-09-12 00:11 被阅读0次

说明：本文章内容学习自“三节课”平台的《人人都能学会的数据爬虫课》。

产品和运营工作中，经常需要做出大量的决策，在很多时候决策的做出是需要靠数据进行支撑的，数据能够让我们避免自己的主观判断。

如何获取到未经行业机构处理过的数据，拿到热乎的一手资料呢？爬虫，能实现大部分（80%）的网站数据的抓取。

一、爬虫的应用场景

1、爬虫（网络爬虫/spider/数据抓取）：自动抓取万维网的程序或脚本。

2、常见应用场景和功能

（1）市场营销

a、搜索引擎优化（Search Engine Optimization）：获取本品和竞品排名，优化搜索引擎方案。

b、市场研究（Market Research）：市场容量的研究和市场行业趋势的变化。

c、潜在客户/线索（Lead Generation）：对知乎等各种话题关注者，微博粉丝进行定向推送。

（2）竞品分析

a、舆情分析（Reviews and Sentiments）：社交媒体/购物网站里评论里收集反馈与舆情分析。

b、竞品社交媒体发布及其粉丝（Content Approach and Followers）：竞品最近发布了什么内容，转化粉丝。

c、价格对照（Price Comparison）：根据CPI（居民消费价格指数）价格动态波动。

d、变化检测（Change Detection）：竞品促销，价格变化，品类扩充。

（3）职业发展与个人生活

a、求职招聘（Job Hunting and Recruiting）：求职者定向求职，Hr定向挖人。

b、产品和服务（Products and Services）：比较价格和口碑。

c、财务规划（Financial Planning）：证券专家的评论。

d、买/租/卖（Looking to Buy/Rent/Sell）。

二、常见抓取工具

1、excel。（简单的table布局适用）

2、第三方工具：火车头，八爪鱼。

3、web Scraper。

4、Python Scraper。

三、Excel抓取简单的数据

操作步骤说明

1、打开可抓取的网页，F12检查元素，NetWork项，选择Filter，刷新重新加载页面，得到对应的xml文件，右键 open in new tab就可以看到相应网站内所有要抓取的信息。

2、打开Excel，选择数据标签页，点击自网站，输入要抓取的信息网址，黄色标记点绿，加载完后点击导入即可。

Excel作为抓取工具的总结：

1、用excel的学习成本较低，上手快；

2、可以用excel的一些工具对数据进行操作，比如上图中的全部刷新（实时获取网站数据），以及分列，合并计算等小工具的使用；

3、局限性较大，只能对一些老的以table布局的网站起作用。

四、爬虫插件 web Scraper

能翻墙的请直接在谷歌应用商店，搜索webscraper，添加扩展程序，自动安装好后就可以直接使用了。不能翻墙的请自行百度。

1、页面可视范围内基本元素的抓取

新建站点地图create new sitemap（import sitemap 需要用到JSON格式的特殊代码），选择multiple，再点击select，点选页面要选中的元素，点选两个之后，插件就可以自动识别到所有要点选的同类元素。（从代码的角度设想该插件的原理应该是，批量获取页面中同种级别元素内的text文本内容）

建好选择器之后，我们就可以预览各种效果，然后可以开始抓取了：点击Scrape，直接Start Scraping，抓取完毕之后会有成功的提示，此时我们可以把抓取好的数据，选择是否导出（点击Export Date As CSV）。

此方法只能下载一个页面初始加载时的数据量。这个不难想象，因为页面的数据是由鼠标滚轮滚动时访问数据库进行页面加载的，元素的内容都是页面事件触发后生成的，所以获取不到。

开个脑洞：如果能写个脚本，让程序自动触发鼠标的滚动事件，那是不是就能获取到更多呢？

2、分页的所有元素抓取

元素分页的规律性，对要抓取的网页page进行限定。

对新建的站点地图进行编辑，Edit Metadata，对照url上呈现的翻页规则，将Start URL里对应的翻页规则进行改变。规则是：[想抓取的初始页码值-想抓取得结束页码值:页码差值]。

比如豆瓣这个网页的翻页规律是start参数依次加25，等差数列，差值为25，所以可以写成：

https://movie.douban.com/top250?start=[0-500:25]&filter=

一般规律为page，一页一页加法，所以写成 page=[1-23]

建好之后，遵照 1、的方法，新建selector，最后进行scrape就可以了。

3、多元素抓取---进阶

（1）、一个页面如何抓取多个元素呢？

（2）、现今流行的滚动或交互式动态加载（不规则分页）模式下又该如何抓取元素内容呢？

（3）、快捷键快速选中某个元素；

（4）、用链接采集二级三级页面；

（5）、抓取图片和表单的方法；

概念总结：以上各种方法其实根据的原理都是页面元素，模拟浏览器事件，对浏览器加载出来的页面中的元素内容或者资源进行提取。

4、详细进阶方式（80%）

（1）一个页面抓取多个元素（一般是相关联的元素）

同之前的例子，先新建一个站点地图。

为此站点新建一个选择器，type为element，Multiple多选，选中所有大标签，done selecting后可预览一下选中的项

选中大层级元素

保存好外层选择器后，点击选择器，进入子选择器页面，再次add selector，添加子层选择器。

选中子层级元素

添加了多个子层选择器后，可以预览一下效果是否如你所愿。

多个选择器可以先预览效果

抓取得到的元素结果集预览

最后，就可以用之前的招数，开始进行scrape抓取，生成csv了。

（2）不规律分页的抓取

初始步骤同上，新建站点地图，再新建选择器，如下图，选择好要抓取的元素，选择好需要浏览器自动执行点击事件的元素“加载更多”，点击类型选择click more，告诉浏览器要一直加载完成方能结束，click element uniqueness 告诉浏览器，当点击选择器变成什么样子了就不需要再继续进行了，一般有 unique text（文本变化），html + text（网址或文本变化），html （网页变化），css selecor（选择器的样式变化）。