Python抓取微信公众号全部文章

作者: Cristianoo | 来源:发表于2019-08-27 15:48 被阅读0次

这是我第一条写关于爬虫的文章

一、抓取微信公众号的文章有如下几点需要注意的地方

1、利用微信接口进行抓取，每天-每个公众号只能调用1000次，而且，不能连续调用，也就是说，你调用300次左右，可能会被封一个小时左右，但总的来说，一天调用的上线是1000次

2、可能在你调用100多次的时候，会出现一个反爬的情况，就是当你获取文章列表的时候，点击获取，发现返回来的是空值，这时候，就要写个递归，继续调用，经过3-4次就会成功（亲身经历）

3、ip代理是必要的，无论是调用微信的接口还是搜狗微信，如果想持续并且获得大量的数据，没有ip，爬不了多少数据的

4、接下来，我将贴出我的代码

4.1 引入用到的库：

4.2 初始化一些信息：

定义抓取成功的时候，通过邮件通知：

利用selenium进行模拟登陆：

内容的抓取，以及对反爬手段的处理：

程序执行的入口：

代码就如上面所示了，操作步骤:

注册登陆后：

1、在首页的，点击素材管理：

2、点击：

3、点击：

4:根据下图操作：

点击公众号的名称，就会显示所有的历史文章信息

上面的代码就是我爬取微信公众号的代码，如有疑问，可以评论或者私聊我

尚未解决，需要等高人指点：

微信公众号登陆的有效期，好像不到24小时，超过这个期限，就要重新扫码登陆，这是有点不方面的，未能做到全自动，这个需要等待有缘人来帮忙解决了

本人知乎链接（源码链接）：知乎源码链接

网友评论

本文标题：Python抓取微信公众号全部文章

本文链接：https://www.haomeiwen.com/subject/yeueectx.html

Python抓取微信公众号全部文章