Python 爬取公众号文章、评论

作者: OnceChange | 来源:发表于2019-03-08 18:46 被阅读0次

Python 爬取公众号文章、评论
微信公众号及服务号文章爬取
Python 简单关键字爬取公众号文章
2019-02-21
python爬取公众号
微信公众号批量爬取Java版
Python 爬取微信公众号文章和评论 (基于 Fiddler
Python 爬取微信公众号文章和评论 (基于 Fiddler
Python爬取《活着》热评，看看大家怎么说
微信公众号文章爬取方法汇总(上)

前段时间有个爬取公众号评论小需求，花了几天查了不少资料，实现方案有好几种，最后其中一种得以实现。参考【Python爬虫】微信公众号历史文章和文章评论API分析。

本人是 Python 小白，会忽略比较多的具体说明，只记录关键的几点，以便能快速实现。给同样有兴趣的童鞋提供个浅显的参考。

也建议正在尝试的童鞋静下心来，一步步尝试下去，毕竟我这个小白都成功了呢。当然有错误的地方也欢迎指正。

使用环境：

Mac 、 Anaconda、MySQL 和 MySQL workbench。

很多博客里使用的 Windows 安装的 Python。但是 Mac 也没关系，Anaconda 传送门, MySQL传送门, MySQL workbench 传送门。

Anaconda 中的 Spyder 用来运行 Python 代码；
MySQL 是连接 Python 运行结果和数据库的桥梁 (这个有个坑点：安装 MySQL 只是作为一个桥梁，并不能作为数据库使用，所以要创建数据库，否则会报错)；
MySQL workbench 用来创建、查看数据库，并可以到处 csv 格式的文件。

准备工作

首先需要提供公众号文章列表链接和评论链接，用于分析修改 Python 代码（具体的 Python 代码实现，我只看懂了流程，但是不会写）。那么就需要抓包了，有一些博客是使用 Fiddler，不过我使用 Charles 也完全足够了。只要能拿到接口相关数据即可。（不会抓包的请自行查阅资料）

公众号文章列表流程：打开要爬取的公众号 - 点击右上角的 '人物' 图标 - 点击 '消息'底部的 '全部消息'
尝试了几次，刚打开文章列表，并没有文章列表的接口，可以上拉刷新一下。

抓包数据中找到微信 mp.weixin.qq.com 的域名。会有很多接口，使用 Focus 功能只关注微信的，这里简化寻找过程，直接贴出来： https://mp.weixin.qq.com/mp/profile_ext?action=getmsg ：即为公众号的文章列表接口；
https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment ：即为公众号某篇文章的评论接口。

文章列表抓包截图

文章列表抓包示意图.png

文章评论抓包截图

评论抓包示意图 1.png

评论数据示意图.png

我需要的就是 elected_comment 列表中每个 Object 中的 content 内容。Python 代码已实现获取逻辑。

Python 代码中需要提供接口中的几个参数：__biz、pass_ticket、app_msg_token、wap_sid2 和 cookie。具体作用可参顶部博客的说明。

正式爬数据

提供代码中所需的几个字段后，可以在 Anaconda 中的 Spyder 运行 Python 代码（代码在文末），然后替换其中的字段。即下面的几个字

biz = 'MzIwNTc4NTEwOQ=='  # "码农有道公众号"   mnyd_article  mnyd_comment
pass_ticket = 'ZS3nqLX1df5GhZ+zf/t0FYyf7Nfp52yUJ+PuyJUKvQtyln78R3QzBU21Xo528IE+'
app_msg_token = '986_G0Sy%252FL2pNlAGA9PIXcqTRipxsKaGLurexidEyg~~'     # 历史文章
wap_sid2 = 'CL3qgfIFElxMOFBzZ2dZOHQ1WTcxamRQLXUyMGFiU0tvNkZzUEJmRURhZmtJTkhLcEtYWU9rNm5WYmUtd29qd3Q3UmVqbmpZXzFxS21GMG13amVjM1NEaUVPajZNZG9EQUFBfjDH8K3gBTgNQAE='
cookie = 'wxuin=1581282621; version=2607033b; pass_ticket={}; wap_sid2={}'.format(pass_ticket, wap_sid2)

在开始运行代码后开始遇到问题：
1 ModuleNotFoundError: No module named 'pymysql'；

需要安装数据库，比如安装 MySQL。
然后在代码中替换自己的密码

self.db = pymysql.connect(
       host="localhost",
       user="root",
       password="123456",
       port=3306,
       use_unicode=True,
       #charset="utf8",
       database="sunshine")
       self.cursor = self.db.cursor()

2 需要创建数据库，比如代码中数据库名字为 sunshine；

3 代码中 offset 大部分是 10，不过有些公众号是 20，但是 10 也可以正常运行，不用担心；

4 因为是模拟手机接口，爬取完数据后可能会出现 '操作频繁，请稍后再试'，这个没有关系，等下再刷新就正常了。

基本上 Anaconda 等软件安装正确，数据库已安装，抓包数据没错，替换 biz 等参数，替换数据库配置密码（或数据库名），是可以正常运行并且保存至数据库。

注意
Python 代码中需要修改的，都以 # ** 提示

当时比较紧急，很多错误没有保存，现在回忆也零零散散。有需要的凑合看参考下吧。

发布文章要既要绑定手机号又要绑定微信，让人很不爽 (小声BB)

代码示例

作者： cacho_37967865

# -!- coding: utf-8 -!-
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者：cacho_37967865
#博客：https://blog.csdn.net/sinat_37967865
#文件：wechatArticleList.py
#日期：2018-12-08
#备注：通过Fiddler抓包，获取微信公众号历史文章信息和文章评论信息存储到mysql数据库表   
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
 
import requests
import json
import pymysql
from datetime import datetime
import re
 
 
class wechatArticle:
 
    def __init__(self,_biz,_pass_ticket,_appmsg_token,_cookie,_offset=0):
        self.offset = _offset       # 不同公众号不一样
        self.biz = _biz
        self.pass_ticket = _pass_ticket
        self.appmsg_token = _appmsg_token
        self.headers = {
            'cookie':_cookie,
            'User-Agent':'Mozilla/5.0 (Linux; Android 8.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132'
        }
        self.db = pymysql.connect(

            # ** password 需要替换为自己的。数据库名 database 视情况，是否修改看个人需要

            host="localhost",
            user="root",
            password="123456",
            port=3306,
            use_unicode=True,
            #charset="utf8",
            database="sunshine")
        self.cursor = self.db.cursor()
 
 
    def get_article_list(self):
        offset = self.offset
        while True:
            api = 'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz={0}&f=json&offset={1}&count=10&is_ok=1&scene=126&uin=777&key=777&pass_ticket={2}&wxtoken=&appmsg_token={3}&x5=1&f=json'.format(self.biz, offset, self.pass_ticket, self.appmsg_token)
            resp = requests.get(api, headers=self.headers).json()
            print(type(resp), resp)  # 字典类型
            ret, status = resp.get('ret'), resp.get('errmsg')     # 状态信息
            if ret == 0 or status == 'ok':
                offset = resp['next_offset']
                general_msg_list = resp['general_msg_list']
                #print(type(general_msg_list),general_msg_list)    # json类型
                msg_list = json.loads(general_msg_list)['list']    # 先转化为字典类型再获取列表类型
                for msg in msg_list:
                    comm_msg_info = msg['comm_msg_info']           # 字典类型，每次推送的消息（一次三篇）
                    msg_id = comm_msg_info['id']                   # 推送消息的id
                    post_time = datetime.fromtimestamp(comm_msg_info['datetime'])     # 发布时间
                    try:
                        app_msg_ext_info = msg['app_msg_ext_info']  # 字典类型，文章信息（一次三篇）
                        first_article_id = app_msg_ext_info['fileid']
                        first_article_title = app_msg_ext_info['title']  # 本次推送的首条文章标题
                        first_article_digest = app_msg_ext_info['digest']  # 本次推送的首条文章摘要
                        first_article_url = app_msg_ext_info['content_url']
                        self.get_article_detail(first_article_id,first_article_url)
                        first_url = first_article_url.replace('amp;', '').split('&chksm')[0]
                        self.article_to_mysql(msg_id, first_article_id, first_article_title, first_article_digest,first_url, post_time)
                        multi_app_msg_item_list = app_msg_ext_info.get('multi_app_msg_item_list')
                        for article in multi_app_msg_item_list:
                            article_id = article['fileid']
                            multi_article_title = article['title']
                            multi_article_digest = article['digest']
                            multi_article_url = article['content_url']
                            self.get_article_detail(article_id,multi_article_url)
                            multi_url = multi_article_url.replace('amp;', '').split('&chksm')[0]
                            self.article_to_mysql(msg_id, article_id, multi_article_title, multi_article_digest,multi_url, post_time)
 
                    except Exception as f:
                        print(str(f))
 
 
    def get_article_detail(self,article_id,content_url):
        try:
            url = content_url.replace('amp;', '').replace('#wechat_redirect', '').replace('http', 'https')
            html = requests.get(url, headers=self.headers).text
            #print(html)
        except:
            print('获取评论失败' + content_url)
        else:
            str_comment = re.search(r'var comment_id = "(.*)" \|\| "(.*)" \* 1;', html)
            str_msg = re.search(r"var appmsgid = '' \|\| '(.*)'\|\|", html)   # 文章的id
            str_token = re.search(r'window.appmsg_token = "(.*)";', html)
 
            if str_comment and str_msg and str_token:
                comment_id = str_comment.group(1)  # 评论id(固定)
                app_msg_id = str_msg.group(1)      # 票据id(非固定)
                appmsg_token = str_token.group(1)  # 票据token(非固定)
 
                # 缺一不可
                if comment_id and app_msg_id and appmsg_token:
                    print("爬取评论的链接:" + url,html)
                    self.get_article_comments(app_msg_id,comment_id,appmsg_token,article_id)
 
 
    def get_article_comments(self,app_msg_id,comment_id,appmsg_token,article_id):
        api = 'https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment&scene=0&__biz={0}&appmsgid={1}&idx=2&comment_id={2}&offset=0&limit=100&uin=777&key=777&pass_ticket={3}&wxtoken=777&devicetype=android-26&clientversion=2607033b&appmsg_token={4}&x5=1&f=json'.format(
            self.biz, app_msg_id, comment_id, self.pass_ticket, appmsg_token)
        resp = requests.get(api, headers=self.headers).json()
        ret, status = resp['base_resp']['ret'], resp['base_resp']['errmsg']
        if ret =='0' or status == 'ok':
            elected_comment = resp['elected_comment']
            for comment in elected_comment:
                content_id = comment.get('content_id') # 评论ID
                nick_name = comment.get('nick_name')  # 评论人昵称
                like_num = comment.get('like_num')     # 点赞
                comment_time = datetime.fromtimestamp(comment.get('create_time'))  # 评论时间
                content = comment.get('content')       # 评论内容
                #print("评论内容文章：",article_id,nick_name)
                self.comment_to_mysql(article_id,content_id,comment_time,nick_name,like_num,content)
 
 
    def create_article_table(self):
        sql1 = 'drop table if exists mnyd_article;'
        sql2 = 'create table mnyd_article(No INT(11) NOT NULL AUTO_INCREMENT,msg_id VARCHAR(15),article_id VARCHAR(15),post_time timestamp(2),title VARCHAR(200),digest VARCHAR(200),article_url varchar(300),PRIMARY KEY (No));'
        self.cursor.execute(sql1)
        self.cursor.execute(sql2)
        self.db.commit()
 
    def article_to_mysql(self,msg_id, article_id,title,digest,article_url,post_time):
        sql = "insert into mnyd_article(msg_id,article_id,title,digest,article_url,post_time) values('%s','%s','%s','%s','%s','%s')" % (msg_id,article_id,title, digest,article_url,post_time)
        try:
            # 使用 cursor() 方法创建一个游标对象 cursor
            self.cursor.execute(sql)
        except Exception as e:
            # 发生错误时回滚
            self.db.rollback()
            print(str(e))
        else:
            self.db.commit()  # 事务提交
            print('事务处理成功')
 
 
 
    def create_comment_table(self):
        sql1 = 'drop table if exists mnyd_comment;'
        sql2 = "create table mnyd_comment(No INT(11) NOT NULL AUTO_INCREMENT,article_id VARCHAR(15),content_id VARCHAR(20),comment_time timestamp(2),nick_name VARCHAR(50),like_num int,content varchar(1000),PRIMARY KEY (No)) COLLATE='utf8mb4_unicode_ci';"
        self.cursor.execute(sql1)
        self.cursor.execute(sql2)
        self.db.commit()
 
    def comment_to_mysql(self,article_id,content_id,comment_time,nick_name,like_num,content):
        sql = "insert into mnyd_comment(article_id,content_id,comment_time,nick_name,like_num,content) values('%s','%s','%s','%s','%i','%s')" % (article_id,content_id,comment_time, nick_name,like_num,content)
        try:
            # 使用 cursor() 方法创建一个游标对象 cursor
            self.cursor.execute(sql)
        except Exception as e:
            # 发生错误时回滚
            self.db.rollback()
            print(str(e))
        else:
            self.db.commit()  # 事务提交
            print('事务处理成功')
 
 
 
if __name__ == '__main__':
    #  ** 以下几个字段需要替换为自己需要的，每个公众号都是不同的
    biz = 'MzIwNTc4NTEwOQ=='  # "码农有道公众号"   mnyd_article  mnyd_comment
    pass_ticket = 'ZS3nqLX1df5GhZ+zf/t0FYyf7Nfp52yUJ+PuyJUKvQtyln78R3QzBU21Xo528IE+'
    app_msg_token = '986_G0Sy%252FL2pNlAGA9PIXcqTRipxsKaGLurexidEyg~~'     # 历史文章
    wap_sid2 = 'CL3qgfIFElxMOFBzZ2dZOHQ1WTcxamRQLXUyMGFiU0tvNkZzUEJmRURhZmtJTkhLcEtYWU9rNm5WYmUtd29qd3Q3UmVqbmpZXzFxS21GMG13amVjM1NEaUVPajZNZG9EQUFBfjDH8K3gBTgNQAE='
    cookie = 'wxuin=1581282621; version=2607033b; pass_ticket={}; wap_sid2={}'.format(pass_ticket, wap_sid2)

    # 以上信息不同公众号每次抓取都需要借助抓包工具做修改
    wxarticles = wechatArticle(biz, pass_ticket, app_msg_token, cookie)
    wxarticles.create_article_table()         # 创建数据库表记录文章
    wxarticles.create_comment_table()         # 创建数据库表记录评论
    wxarticles.get_article_list()              # 开始爬取文章和评论

Python 爬取公众号文章、评论
前段时间有个爬取公众号评论小需求，花了几天查了不少资料，实现方案有好几种，最后其中一种得以实现。参考【Pytho...
微信公众号及服务号文章爬取
使用Python爬取公众号文章主要两种方法：通过爬取第三方公众号聚合网站通过微信公众平台引用文章接口通过爬取...
Python 简单关键字爬取公众号文章
序原文地址：Python 简单关键字爬取公众号文章爬取目标：微信公众号“纵梦广科”中“表白墙”（可选“吐槽墙”）...
2019-02-21
爬取微信公众号文章的经验总结爬取微信公众号的文章不少，但是现在爬取微信公众号越来越难了，微信对于这方面管控是越来...
python爬取公众号
是1 2年前做的了现在应该有点不一样了。发出来记录参考：https://blog.csdn.net/qq_28...
微信公众号批量爬取Java版
最近需要爬取微信公众号的文章信息。在网上找了找发现微信公众号爬取的难点在于公众号文章链接在pc端是打不开的，要用微...
Python 爬取微信公众号文章和评论 (基于 Fiddler
背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太...
Python 爬取微信公众号文章和评论 (基于 Fiddler
背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太...
Python爬取《活着》热评，看看大家怎么说
Python爬取《活着》热评，看看大家怎么说学习更多？请关注本人公众号：Python无忧
微信公众号文章爬取方法汇总(上)
经常有朋友需要帮忙做公众号文章爬取，这次来做一个各种方法的汇总说明。目前爬取微信公众号的方法主要有3种：通过爬取...

Python 爬取公众号文章、评论

使用环境：

准备工作

正式爬数据

代码示例

相关文章

Python 爬取公众号文章、评论

微信公众号及服务号文章爬取

Python 简单关键字爬取公众号文章

2019-02-21

python爬取公众号

微信公众号批量爬取Java版

Python 爬取微信公众号文章和评论 (基于 Fiddler

Python 爬取微信公众号文章和评论 (基于 Fiddler

Python爬取《活着》热评，看看大家怎么说

微信公众号文章爬取方法汇总(上)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

坚持低调赚大钱的自媒体