这是我第一条写关于爬虫的文章
一、抓取微信公众号的文章有如下几点需要注意的地方
1、利用微信接口进行抓取,每天-每个公众号只能调用1000次,而且,不能连续调用,也就是说,你调用300次左右,可能会被封一个小时左右,但总的来说,一天调用的上线是1000次
2、可能在你调用100多次的时候,会出现一个反爬的情况,就是当你获取文章列表的时候,点击获取,发现返回来的是空值,这时候,就要写个递归,继续调用,经过3-4次就会成功(亲身经历)
3、ip代理是必要的,无论是调用微信的接口还是搜狗微信,如果想持续并且获得大量的数据,没有ip,爬不了多少数据的
4、接下来,我将贴出我的代码
4.1 引入用到的库:
4.2 初始化一些信息:
定义抓取成功的时候,通过邮件通知:
利用selenium进行模拟登陆:
内容的抓取,以及对反爬手段的处理:
程序执行的入口:
代码就如上面所示了,操作步骤:
url: 微信公众平台
注册登陆后:
1、在首页的,点击素材管理:
2、点击:
3、点击:
4:根据下图操作:
点击公众号的名称,就会显示所有的历史文章信息
上面的代码就是我爬取微信公众号的代码,如有疑问,可以评论或者私聊我
尚未解决,需要等高人指点:
微信公众号登陆的有效期,好像不到24小时,超过这个期限,就要重新扫码登陆,这是有点不方面的,未能做到全自动,这个需要等待有缘人来帮忙解决了
本人知乎链接(源码链接):知乎源码链接
网友评论