美文网首页
Python抓取微信公众号全部文章

Python抓取微信公众号全部文章

作者: Cristianoo | 来源:发表于2019-08-27 15:48 被阅读0次

    这是我第一条写关于爬虫的文章

    一、抓取微信公众号的文章有如下几点需要注意的地方

    1、利用微信接口进行抓取,每天-每个公众号只能调用1000次,而且,不能连续调用,也就是说,你调用300次左右,可能会被封一个小时左右,但总的来说,一天调用的上线是1000次

    2、可能在你调用100多次的时候,会出现一个反爬的情况,就是当你获取文章列表的时候,点击获取,发现返回来的是空值,这时候,就要写个递归,继续调用,经过3-4次就会成功(亲身经历)

    3、ip代理是必要的,无论是调用微信的接口还是搜狗微信,如果想持续并且获得大量的数据,没有ip,爬不了多少数据的

    4、接下来,我将贴出我的代码

        4.1 引入用到的库:

    4.2 初始化一些信息:

    定义抓取成功的时候,通过邮件通知:

    利用selenium进行模拟登陆:

    内容的抓取,以及对反爬手段的处理:

    程序执行的入口:

    代码就如上面所示了,操作步骤:

    url: 微信公众平台

    注册登陆后:

    1、在首页的,点击素材管理:

    2、点击:

    3、点击:

    4:根据下图操作:

    点击公众号的名称,就会显示所有的历史文章信息

    上面的代码就是我爬取微信公众号的代码,如有疑问,可以评论或者私聊我

    尚未解决,需要等高人指点:

    微信公众号登陆的有效期,好像不到24小时,超过这个期限,就要重新扫码登陆,这是有点不方面的,未能做到全自动,这个需要等待有缘人来帮忙解决了

    本人知乎链接(源码链接):知乎源码链接

    相关文章

      网友评论

          本文标题:Python抓取微信公众号全部文章

          本文链接:https://www.haomeiwen.com/subject/yeueectx.html