美文网首页我的日更计划每天写1000字程序员
【爬虫学习】Web Scraper爬取知乎账户关注的问题

【爬虫学习】Web Scraper爬取知乎账户关注的问题

作者: 产品经理充电宝 | 来源:发表于2018-11-22 19:20 被阅读6次

文:小欧

图片来自漫画 长颈鹿但丁

现在各个网站对于反爬虫这一块的投入力度应该是越来越大了,找了网上比较多的方法来学习,比如爬取 B站的弹幕,但是现在已经找不到 xml 文档了;想爬取公众号的数据,但是微信只显示最近最近10条文章标题,如果直接搜索关键字,那其他的公众号只要用了这个关键字也会爬取进来,数据就不准确了。

目前是用 Web scraper 插件来学习抓取知乎的粉丝,也可以爬取自己回答的问题,接下来说明如何爬取知乎上自己关注的所有问题。

一、准备阶段

主要是需要谷歌浏览器和插件准备。我自己平常就是用谷歌浏览器,这个在网上可以随时找到,Web scraper 插件在网上也是很容易找到的。下载好插件之后,就要放到谷歌浏览器的插件中心,之前学习Axure有用过插件,这一步对我来说很快完成了。

谷歌浏览器下载链接:https://www.google.cn/chrome/

Web scraper插件下载:https://www.google.cn/chrome/

谷歌浏览器如何安装第三方插件:https://jingyan.baidu.com/article/e5c39bf56286ae39d6603374.html

二、数据爬取

1、进入到指定网页。我们是要爬取自己在知乎关注问题的标题,打开之后进入个人中心,然后按下【F12】或者【右键——检查】,出现开发者模式。出现屏幕之后一般是上下分屏会比较便于操作,如果是左右分屏的,可以点击“三点”那里,然后选择上下分屏就好。

2、创建站点地图。点击【Web scraper】,再点击【Create new sitamap】中的Create sitemap,就会进入到创造新的站点地图页面。

创建站点地图


3、多页面的时候先了解规则

多页面的时候,了解排序规则,然后在末尾把1改成[1-X]就可以了,延迟是说点击两个不同数据之间的时间间隔,页面加载时间是抓取时换页面所用的时间。

设置页面爬取详情


4、下载数据

爬取数据 下载数据 成果

相关文章

  • 【爬虫学习】Web Scraper爬取知乎账户关注的问题

    文:小欧 现在各个网站对于反爬虫这一块的投入力度应该是越来越大了,找了网上比较多的方法来学习,比如爬取 B站的弹幕...

  • 2017.07.20

    scrapy 爬虫,能够将知乎上的问题和答案爬取并入库 item, itemloader, mysqldb 使用 ...

  • Python 实战项目

    web机器人 web实战 博客BBS论坛系统 成绩管理系统 新闻系统 爬取知乎 爬取豆瓣 爬取京东 爬取新浪微博 ...

  • Python爬虫学习(八)爬取知乎关注用户

    当我们想查看自己的知乎关注列表时,首先面临的情况就是,我们得登录。 登录之后,我们就可以看到自己的关注列表, 使用...

  • 环京UGC1

    目的: 1.学习爬虫,爬取豆瓣小组,贴吧,知乎问题,聚焦在外地人在北京的交友,婚恋,生活。 2.学习微信公众号运营...

  • Web Scraper教程(四)爬虫进阶之知乎热点的滚动加载爬取

    进阶知识点:滚动到页面底部才会加载新内容的页面爬取查看结构图,理解选择器结点的关系 一、如何在知乎追热点 B站凭借...

  • Web Scraper 爬取表格

    参考: 有关webscraper的问题,看这个就够了(建议收藏)少年派web Scraper介绍卤蛋实验室-web...

  • 爬取知乎问题

    https://github.com/dingtom/python/blob/master/%E7%88%AC%E...

  • selenium+python+BeautifulSoup爬取知

    知乎推荐文章页面的爬取是比较复杂的,应为其涉及大量ajax/js解析和知乎的验证码登录,这给爬虫爬取造成了好多麻烦...

  • Python学习博客

    廖雪峰 runoob github 知乎回答练手项目 Python学习路线 虫师 有哪些网站用爬虫爬取能得到很有价...

网友评论

    本文标题:【爬虫学习】Web Scraper爬取知乎账户关注的问题

    本文链接:https://www.haomeiwen.com/subject/lvlrqqtx.html