美文网首页python机器学习爬虫互联网科技scrapy
爬虫|使用python爬取微信公众号全部的文章(永久链接)——技

爬虫|使用python爬取微信公众号全部的文章(永久链接)——技

作者: 小怪聊职场 | 来源:发表于2017-10-12 19:18 被阅读2816次

    前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

    一、先说破解之道

    破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

    进入微信公众号后台-素材管理-新建图文素材-新建图文消息 超链接-查找文章(公众号)

    二、具体破解方法

    2.1 通过selenium+webdriver获取公众号的Cookie

    因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

    获取Cookie

    2.2 通过微信公众号获取公众号文章接口获取文章

    1)微信公众号登陆地址:https://mp.weixin.qq.com/

    2)登录之后获取token。

    3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

    搜索公众号

    并且通过接口返回的内容获取公众号的fakeid。

    获取公众号的fakeid

    4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

    5)文章列表翻页及内容获取。

    文章列表第一页 翻页和内容

    三、完整代码

    完成代码

    四、这个可是技术难点呢,点个赞呗

    相关文章

      网友评论

      • 啃饼小白:倒不如利用号内搜进行爬取呢
      • 小法19:@小怪聊职场,有个问题请教下,在服务器端爬取公众号文章如何获取有效cookie?谢谢
      • 781289028952:selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"./*//input[@id='1921286587@qq.com']"}
      • 781289028952:抓取某个公众号数据,目前还有哪些有效方法。可否提供一下
        小怪聊职场:@校哥 这篇文章说的在微信公众号就可以
        781289028952:@小怪聊职场 主要抓取某个号全部文章做分析啦,搜狗只能抓10条
        小怪聊职场:@校哥 搜狗、新榜

      本文标题:爬虫|使用python爬取微信公众号全部的文章(永久链接)——技

      本文链接:https://www.haomeiwen.com/subject/etyoyxtx.html