Python 搜狗微信文章/公众号爬虫

作者: czzww | 来源:发表于2019-05-04 22:52 被阅读38次

Python爬虫项目整理
爬虫案例
Python网络爬虫实战项目代码大全（长期更新，欢迎补充）
23个Python爬虫开源项目代码Python爬虫开源项目代码
Python 爬虫进公司必会项目
【零基础学爬虫】用代理抓取微信文章
基于搜狗微信搜索的微信公众号爬虫
19个Python爬虫项目让你一次吃到撑
Python 搜狗微信文章/公众号爬虫
Python爬虫之路（一）| 从零开始

Sgwc

搜狗微信文章、公众号爬虫接口。
项目地址

安装

pip3 install sgwc --upgrade

使用

from sgwc import get_official, search_officials, search_articles, get_hot_articles

official = get_official(official_id='official_id')  # 通过微信号获取指定公众号
officials = search_officials(keyword='keyword')  # 通过关键字搜索公众号
articles = search_articles(keyword='keyword')  # 通过关键字搜索文章
articles = get_hot_articles()  # 获取热门文章

从 Article、Official 实例对象提取相关信息

article.url
article['url']  # 可以像字典类型一样, 提取信息(但不是字典类型)
article.items()  # 返回可遍历的(键, 值) 元组数组

setting

from sgwc import setting

# 自定义设置获取session对象函数, 返回: Session对象
# 详见: https://2.python-requests.org//en/master/user/advanced/#session-objects
setting.get_session = get_session

# 自定义搜狗验证码回调函数, 参数: 验证码图片(pillow Image 对象), 返回: 验证码
setting.sougo_captcha_callback = sougo_captcha_callback

# 自定义微信验证码回调函数, 参数: 验证码图片(pillow Image 对象), 返回: 验证码
setting.wechat_captcha_callback = wechat_captcha_callback

# 微信链接异常回调函数(系统出错/链接过期), 参数: 链接
self.wechat_link_error_callback = _wechat_link_error_callback

# 验证码/代理错误(代理不可用或超时)重复次数, 超过重复次数将跳过
setting.repeat_times = 3

# 自定义获取代理函数
# 返回格式: {'http': 'http://127.0.0.1:80', 'https': 'http://127.0.0.1:80'}
# 详见: https://2.python-requests.org//en/master/user/advanced/#proxies
setting.get_proxy = get_proxy 

setting.proxy_timeout = 10  # 代理超时设置

# 代理使用失败回调函数(当代理失败达到重复次数将会调用), 参数: 链接
setting.proxy_error_callback = proxy_error_callback

当设置了 get_proxy 函数，将不会执行验证码回调函数

API

get_official(official_id)

official_id: 微信号
返回 Official 对象或 None

search_officials(keyword, pages=1, begin_page=1)

keyword: 搜索关键字
pages: 获取页面数量
begin_page: 起始页
返回 Official-Generator 对象

search_articles(keyword, pages=1, begin_page=1)

keyword: 搜索关键字
pages: 获取页面数量
begin_page: 起始页
返回 Article-Generator 对象

get_hot_articles(pages=2, article_type=0)

pages: 获取页面数量
article_type: 文章类型
返回 Article-Generator 对象

article_type 对照表

数值	类型
0	热门
1	搞笑
2	养生堂
3	私房话
4	八卦精
5	科技咖
6	财经迷
7	汽车控
8	生活家
9	时尚圈
10	育儿
11	旅游
12	职场
13	美食
14	历史
15	教育
16	星座
17	体育
18	军事
19	游戏
20	萌宠

Article

属性	返回类型	说明
url	str	链接
title	str	标题
date	str	发布日期
image_url	str	图片链接
digest	str	文章概述
official_url	str	公众号链接
official_name	str	公众号名称
save_article(save_path='.')	None	保存文章为 Markdown 文件(save_path: 保存路径)
items()	list	返回可遍历的(键, 值) 元组数组
get_html()	str	返回文章html

Official

属性	返回类型	说明
url	str	链接
official_id	str	微信号
name	str	公众号名称
avatar_url	str	公众号头像链接
qr_code_url	str	公众号二维码链接
profile_desc	str	公众号简介
status	tuple	公众号每月状态, (每月发文数, 每月访问数)
recent_article	Article	最新文章 Article 实例
articles	[Article]	公众号文章 Article 实例数组
authenticate	str	认证
from_url(url)	Official	类方法, 通过公众号链接生成 Official 实例
items()	list	返回可遍历的(键, 值) 元组数组

网友评论

本文标题：Python 搜狗微信文章/公众号爬虫

本文链接：https://www.haomeiwen.com/subject/jshqoqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python 搜狗微信文章/公众号爬虫

Sgwc

安装

使用

从 Article、Official 实例对象提取相关信息

setting

API

get_official(official_id)

search_officials(keyword, pages=1, begin_page=1)

search_articles(keyword, pages=1, begin_page=1)

get_hot_articles(pages=2, article_type=0)

article_type 对照表

Article

Official

相关文章

Python爬虫项目整理

爬虫案例

Python网络爬虫实战项目代码大全（长期更新，欢迎补充）

23个Python爬虫开源项目代码Python爬虫开源项目代码

Python 爬虫进公司必会项目

【零基础学爬虫】用代理抓取微信文章

基于搜狗微信搜索的微信公众号爬虫

19个Python爬虫项目让你一次吃到撑

Python 搜狗微信文章/公众号爬虫

Python爬虫之路（一）| 从零开始

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫工具

公众号爬虫