美文网首页我的日更计划每天写1000字程序员
【爬虫学习】Web Scraper爬取知乎账户关注的问题

【爬虫学习】Web Scraper爬取知乎账户关注的问题

作者: 产品经理充电宝 | 来源:发表于2018-11-22 19:20 被阅读6次

    文:小欧

    图片来自漫画 长颈鹿但丁

    现在各个网站对于反爬虫这一块的投入力度应该是越来越大了,找了网上比较多的方法来学习,比如爬取 B站的弹幕,但是现在已经找不到 xml 文档了;想爬取公众号的数据,但是微信只显示最近最近10条文章标题,如果直接搜索关键字,那其他的公众号只要用了这个关键字也会爬取进来,数据就不准确了。

    目前是用 Web scraper 插件来学习抓取知乎的粉丝,也可以爬取自己回答的问题,接下来说明如何爬取知乎上自己关注的所有问题。

    一、准备阶段

    主要是需要谷歌浏览器和插件准备。我自己平常就是用谷歌浏览器,这个在网上可以随时找到,Web scraper 插件在网上也是很容易找到的。下载好插件之后,就要放到谷歌浏览器的插件中心,之前学习Axure有用过插件,这一步对我来说很快完成了。

    谷歌浏览器下载链接:https://www.google.cn/chrome/

    Web scraper插件下载:https://www.google.cn/chrome/

    谷歌浏览器如何安装第三方插件:https://jingyan.baidu.com/article/e5c39bf56286ae39d6603374.html

    二、数据爬取

    1、进入到指定网页。我们是要爬取自己在知乎关注问题的标题,打开之后进入个人中心,然后按下【F12】或者【右键——检查】,出现开发者模式。出现屏幕之后一般是上下分屏会比较便于操作,如果是左右分屏的,可以点击“三点”那里,然后选择上下分屏就好。

    2、创建站点地图。点击【Web scraper】,再点击【Create new sitamap】中的Create sitemap,就会进入到创造新的站点地图页面。

    创建站点地图


    3、多页面的时候先了解规则

    多页面的时候,了解排序规则,然后在末尾把1改成[1-X]就可以了,延迟是说点击两个不同数据之间的时间间隔,页面加载时间是抓取时换页面所用的时间。

    设置页面爬取详情


    4、下载数据

    爬取数据 下载数据 成果

    相关文章

      网友评论

        本文标题:【爬虫学习】Web Scraper爬取知乎账户关注的问题

        本文链接:https://www.haomeiwen.com/subject/lvlrqqtx.html