美文网首页我的工作室黑科技网络技术收集
不用写代码的爬虫:采集知乎数据之抓取知乎大V的文章标题

不用写代码的爬虫:采集知乎数据之抓取知乎大V的文章标题

作者: 不用写代码的爬虫 | 来源:发表于2019-08-20 20:00 被阅读0次

    我们的教程直接点,不来虚的,先给个实战案例大家,过过瘾吧。

    不用写代码的爬虫实战案例:采集知乎数据之抓取知乎大V的文章标题。

    这位大V是:https://www.zhihu.com/people/a-hun/posts

    用QQ浏览器打开上面的网址

    ​​

    在页面上点击鼠标右键,会出现一个菜单选项,然后点击“检查”

    ​​

    点击“检查”后

    ​​

    如果Web Scraper不在底部显示,就设置一下

    ​​

    按下图操作,很简单就设置成功了

    ​​

    成功了

    ​​

    按下图操作,进入Web Scraper的页面

    ​​

    进入后,按下图点击“Create new sitemap”

    ​​

    会弹出菜单,接着,点击"Create Sitemap",会出现下图的输入框

    ​​

    “Sitemap name” 这个就是让你给这次采集数据的任务随便起个名字,当然起个有含义的名字好点,方便一看就知道是干什么的,是采集哪个网站的。名字,只能输入拼音或英文啊,不接受中文的。

    这里我输入的名字是:zhihu-da-v

    “Start URL” 这个就是我们要采集的网址,直接复制上面的网址进来就可以了。

    ​​

    最后,点击那个按钮“Create Sitemap” ,就会保存好,设置成功了。

    ​​

    点击“Add new selector”后

    ​​

    接着就是按照下图,点击"Select"

    ​​

    点击后,进入了选择状态了。在网页上移动鼠标,你会有惊奇的发现。

    按下图操作吧

    ​​

    接着,就是按照上面的操作,点击其他文章标题,当你点击第二个、第三个之后,你会发现所有的文章标题都自动选中了。

    ​​

    最后,就是按照下图操作,保存了。

    ​​

    保存好,如下图所示:

    ​​

    继续按照下图操作,点击“Scrape”

    ​​

    最后,按下图操作,点击“Start scraping”

    ​​

    采集过程中,会弹出一个浏览器窗口,打开的网址正是上面知乎大V的网址。

    等窗口自动关闭后,就是采集完数据了。

    ​​

    点击“refresh”按钮后:

    ​​

    可以导出采集到的数据,直接导出到excel表格中:

    ​​

    将excel表格保持到电脑里:

    ​​

    这里打开看看excel表格,看看效果吧:

    ​​

    好了,都学会了吧。

    是不是很简单呢?完全不用写一句代码哦。

    这次只是抓了一页的数据而已,下次我教大家可以一次抓多页的方法。

    就是一次性将所有的文章标题都抓下来。

    我们先从简单的来吧,慢慢来!

    边操作,边学,效果最好了!

    更多教程,请关注公众号:不用写代码的爬虫

    相关文章

      网友评论

        本文标题:不用写代码的爬虫:采集知乎数据之抓取知乎大V的文章标题

        本文链接:https://www.haomeiwen.com/subject/ltemsctx.html