美文网首页@产品爬虫专题产品提升
不写代码,你也可以抓取任意公众号

不写代码,你也可以抓取任意公众号

作者: 明白1 | 来源:发表于2018-08-11 20:21 被阅读163次

    如题目所言,本文介绍一个小技能,可以让大家自己动手,统计到公众号所有历史标题,和发布时间。

    这个技能也叫做爬虫,不过爬虫需要写代码,门槛比较高,明白给大家分享一个谷歌插件 webscraper,不仅可以实现爬虫的功能,而且一行代码都不用写

    这里就拿公众号抛砖引玉,举个例子。

    这个过程很简单,大家只需要点点鼠标就行。

    一、 下载安装软件

    webscraper 是运行在谷歌浏览器之中,所以我们需要实际需要安装两个软件

    • 谷歌浏览器
    • webscraper

    这两个软件如果大家之前用过,就可以直接跳到第二步。

    如果没有,可以看下面这个视频,里面详细介绍了安装步骤。

    https://v.qq.com/x/page/j0753l7ki12.html

    二、 抓取数据

    我因为手头只有 mac 系统,所有我介绍一下 mac 的抓取方式。

    1、从浏览器打开公众号历史列表

    打开 mac 版微信,进入某个公众号,点开历史文章页面,如下图——


    image.png

    点击历史文章页面图标(上图标注2)后,会弹出一个窗口,可以看到下面的图片——


    image.png

    这块如果你看到的是其他浏览器图标,则需要将系统默认浏览器设置为谷歌浏览器。这块自己百度一下

    点击上图标注的浏览器logo,即可在浏览器查看公众号历史文章列表,这个页面,记为 A,不要关闭。

    这个网页URL,也就是浏览器地址栏的信息,复制到某个地方保存下来,记为 B,这个很重要。
    如下图


    image.png

    如果你点开出现下面的情况——


    image.png

    说明你的微信版本太高,最新版的微信内置浏览器,所以无法通过浏览器查看。需要退回到上一个版本的微信,公众号「多元思维Hack」后台回复“微信”,即可下载重新安装

    2、开始抓取数据

    (1)在上面的 A 网页,点击鼠 右键 ——> 审查元素(检查)

    可以看到下方界面,如果和图片不一致,可以翻看上面的视频演示。

    图片下方的一大列信息请忽略,能看到红框标注的 web scraper即可。

    (2)点击 Create new sitemap ——> Import Sitemap,如下图。

    image.png

    点击 Import Sitemap 后,可以看到下面界面——


    在 Sitemap JSON 右侧输入下面信息:

    {"_id":"testwechat","startUrl":["https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzI3ODU2MTUwOA==&scene=124&#wechat_redirect"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_media_box","multiple":true,"delay":"3000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0}]}


    注意!!上面加粗的链接,大家需要换成自己想要抓取的公众号历史文章界面的网址,这个网址,上面让大家复制保存记为 B了。(忘了的可以上拉看下)

    Rename Sitemap,就是重新起个名字,你抓的哪个公众号,就取什么最好,做到顾名思义。(也可以不写,默认为 testwechat)

    填完点击最下面的 Import Sitemap即可。

    (3)开始抓取,点击中间栏 “Sitemap 你起的名字” ——> Scrape。

    如下图——

    image.png

    出现下方界面,需要填两个信息,默认即可。

    image.png

    点击“Start scraping”,就是见证奇迹的时刻。

    浏览器会弹出一个新窗口,这个窗口会自动下拉,直到将公众号的文章全部抓取完毕才会停止,这个过程,你可以去做其他任何事情,但是不要关闭这个弹出窗口。

    如果你出现下面这个界面,提示“验证”,卡住不动,说明你没有做上面的修改链接步骤,请回到上面第(2)步。

    image.png

    等到数据抓取完毕,可以看到下面这个界面,点击 “refresh”
    一定等抓完再点 refresh

    image.png

    (4)导出excel到电脑上:点击中间栏 “Sitemap 你起的名字” ——> Export data as CSV

    如下图——

    点击 Download now! ,如下图

    image.png

    至此,我们已经将一个公众号的所有标题,以及发文日期抓取完毕。下载的 CSV 文件可以用excel打开。

    excel里面的内容,大家关注自己需要的即可,无关的列,可以删掉。

    如果大家想看某篇文章的内容,可以复制标题,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原生内容。

    不足之处

    1、使用webscraper,无法抓取点赞数、评论。但是可以采用第三方插件——西瓜插件(http://chajian.xiguaji.com/),效果如下图

    2、由于公众号网页端的限制,使用webscraper 无法抓取文章对应的链接。
    所以,如果对于抓取好的公众号,如果想要查看某篇文章内容,可以复制标题到 搜狗微信搜索(http://weixin.sogou.com/)。

    如果你是 每篇 都需要看内容,那我建议你使用 p大叔(http://pdfuncle.com/),可以将公众号文章批量导出为 PDF,这样阅读起来体验更好。

    3、由于抓取格式设置,只抓取了文章,没有抓取文字和图片。如果某天公众号发的是纯文字或图片,则会出现内容是null。
    (完)


    如果觉得文章不错,可以转发给需要的朋友。

    相关文章

      网友评论

      • 阿轩的未来简史:教程逻辑清晰,图文并茂,让小白也能立即上手,且这项工具的实用价值很大,回去立马试试,感谢分享!

      本文标题:不写代码,你也可以抓取任意公众号

      本文链接:https://www.haomeiwen.com/subject/scmgvftx.html