【爬虫学习】Web Scraper爬取知乎账户关注的问题

作者: 产品经理充电宝 | 来源:发表于2018-11-22 19:20 被阅读6次

文：小欧

图片来自漫画长颈鹿但丁

现在各个网站对于反爬虫这一块的投入力度应该是越来越大了，找了网上比较多的方法来学习，比如爬取 B站的弹幕，但是现在已经找不到 xml 文档了；想爬取公众号的数据，但是微信只显示最近最近10条文章标题，如果直接搜索关键字，那其他的公众号只要用了这个关键字也会爬取进来，数据就不准确了。

目前是用 Web scraper 插件来学习抓取知乎的粉丝，也可以爬取自己回答的问题，接下来说明如何爬取知乎上自己关注的所有问题。

一、准备阶段

主要是需要谷歌浏览器和插件准备。我自己平常就是用谷歌浏览器，这个在网上可以随时找到，Web scraper 插件在网上也是很容易找到的。下载好插件之后，就要放到谷歌浏览器的插件中心，之前学习Axure有用过插件，这一步对我来说很快完成了。

谷歌浏览器下载链接：https://www.google.cn/chrome/

二、数据爬取

1、进入到指定网页。我们是要爬取自己在知乎关注问题的标题，打开之后进入个人中心，然后按下【F12】或者【右键——检查】，出现开发者模式。出现屏幕之后一般是上下分屏会比较便于操作，如果是左右分屏的，可以点击“三点”那里，然后选择上下分屏就好。

2、创建站点地图。点击【Web scraper】，再点击【Create new sitamap】中的Create sitemap，就会进入到创造新的站点地图页面。

创建站点地图

3、多页面的时候先了解规则

多页面的时候，了解排序规则，然后在末尾把1改成[1-X]就可以了，延迟是说点击两个不同数据之间的时间间隔，页面加载时间是抓取时换页面所用的时间。

设置页面爬取详情

4、下载数据

爬取数据

下载数据

成果

网友评论

本文标题：【爬虫学习】Web Scraper爬取知乎账户关注的问题

本文链接：https://www.haomeiwen.com/subject/lvlrqqtx.html

【爬虫学习】Web Scraper爬取知乎账户关注的问题