文:小欧
图片来自漫画 长颈鹿但丁现在各个网站对于反爬虫这一块的投入力度应该是越来越大了,找了网上比较多的方法来学习,比如爬取 B站的弹幕,但是现在已经找不到 xml 文档了;想爬取公众号的数据,但是微信只显示最近最近10条文章标题,如果直接搜索关键字,那其他的公众号只要用了这个关键字也会爬取进来,数据就不准确了。
目前是用 Web scraper 插件来学习抓取知乎的粉丝,也可以爬取自己回答的问题,接下来说明如何爬取知乎上自己关注的所有问题。
一、准备阶段
主要是需要谷歌浏览器和插件准备。我自己平常就是用谷歌浏览器,这个在网上可以随时找到,Web scraper 插件在网上也是很容易找到的。下载好插件之后,就要放到谷歌浏览器的插件中心,之前学习Axure有用过插件,这一步对我来说很快完成了。
谷歌浏览器下载链接:https://www.google.cn/chrome/
Web scraper插件下载:https://www.google.cn/chrome/
谷歌浏览器如何安装第三方插件:https://jingyan.baidu.com/article/e5c39bf56286ae39d6603374.html
二、数据爬取
1、进入到指定网页。我们是要爬取自己在知乎关注问题的标题,打开之后进入个人中心,然后按下【F12】或者【右键——检查】,出现开发者模式。出现屏幕之后一般是上下分屏会比较便于操作,如果是左右分屏的,可以点击“三点”那里,然后选择上下分屏就好。
2、创建站点地图。点击【Web scraper】,再点击【Create new sitamap】中的Create sitemap,就会进入到创造新的站点地图页面。
创建站点地图3、多页面的时候先了解规则
多页面的时候,了解排序规则,然后在末尾把1改成[1-X]就可以了,延迟是说点击两个不同数据之间的时间间隔,页面加载时间是抓取时换页面所用的时间。
设置页面爬取详情4、下载数据
爬取数据 下载数据 成果
网友评论