美文网首页
记录微信公众号历史文章采集(三、爬取历史文章信息和原文地址)

记录微信公众号历史文章采集(三、爬取历史文章信息和原文地址)

作者: hojun | 来源:发表于2018-09-21 23:44 被阅读86次

    参考自知乎专题微信公众号内容的批量采集与应用,作者:飯口組組長
    原作者(飯口組組長)有一句话:我的方法来源于许多同行的分享精神,所以我也会延续这个精神,将我的成果分享出来。
    这系列的文章也是为了延续这份分享精神!
    该系列文章是根据知乎专题的教程一步一步实现过程,以及实现过程中踩过的一些坑。
    关于原理介绍这里就不重复了,大家可以参考知乎专题。
    前期的代码可以在专题中找到。

    PHP代码修改

    在完善php代码之前,我们要先准备一份链接数据的代码。这里也没准备用啥框架实现,就直接写了个简单的获取pdo链接的函数:

    <?
    function getConnection()
    {
      $dbms='mysql';     //数据库类型
      $host='localhost'; //数据库主机名
      $dbName='weixin';    //使用的数据库
      $port='3307';    //使用的数据库
      $user='root';      //数据库连接用户名
      $pass='root';          //对应的密码root
      $dsn="$dbms:host=$host;port=$port;dbname=$dbName";
      try {
          $pdo = new PDO($dsn, $user, $pass); //初始化一个PDO对象
          $pdo->exec("SET NAMES 'utf8';");
          $pdo->setAttribute(PDO::ATTR_ERRMODE,PDO::ERRMODE_EXCEPTION);
          return $pdo;
      }catch (PDOException $e) {
          echo $e->getMessage();
      }
    }
    

    代码这里就不做详细解释了,感兴趣的可以去了解下pdo。

    接下来完善getMsgJson.php,这个文件。该php就能实现爬取历史页面的文章信息和原文地址了。但爬取微信文章内容还需要其他代码。
    嗯嗯,直接给改好的代码吧,有不懂的可以私聊问作者吧,有空尽量回。

    <?
    include 'getConnection.php';
    $str = $_POST['str'];
    $url = $_POST['url'];//先获取到两个POST变量
    
    //先针对url参数进行操作
    parse_str(parse_url(htmlspecialchars_decode(urldecode($url)),PHP_URL_QUERY ),$query);//解析url地址
    $biz = $query['__biz'];//得到公众号的biz
    //接下来进行以下操作
    //从数据库中查询biz是否已经存在,如果不存在则插入,这代表着我们新添加了一个采集目标公众号。
    $pdo = getConnection();
    $sql = 'SELECT * FROM weixin WHERE biz = ?';
    $stmt = $pdo->prepare($sql);
    $stmt->bindParam(1, $biz);
    $stmt->execute();
    $res = $stmt->fetch(PDO::FETCH_ASSOC);
    if (!$res) {
        $sql = 'INSERT INTO weixin (biz, collect) VALUES (?, ?)';
        $stmt = $pdo->prepare($sql);
        $stmt->execute(array($biz, strtotime("now")));
    }
    
    //再解析str变量
    $json = urldecode($str);//首先进行json_decode
    file_put_contents('./his.txt', $json);
    // $json = htmlspecialchars_decode($json);//首先进行json_decode
    $json = json_decode($json, true);//首先进行json_decode
    if(!$json){
        $json = json_decode(htmlspecialchars_decode($str),true);//如果不成功,就增加一步htmlspecialchars_decode
    }
    
    
    foreach($json['list'] as $k=>$v){
        $type = $v['comm_msg_info']['type'];
        if($type==49){//type=49代表是图文消息
            $content_url = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['content_url']));//获得图文消息的链接地址
            $is_multi = $v['app_msg_ext_info']['is_multi'];//是否是多图文消息
            $datetime = $v['comm_msg_info']['datetime'];//图文消息发送时间
            //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容)
            $sql = 'SELECT id FROM tmplist WHERE content_url = ?';
            $stmt = $pdo->prepare($sql);
            $stmt->bindParam(1, $content_url);
            $stmt->execute();
            $res = $stmt->fetch(PDO::FETCH_ASSOC);
            if (!$res) {
                $sql = 'INSERT INTO tmplist (content_url) VALUES (?)';
                $stmt = $pdo->prepare($sql);
                $stmt->bindParam(1, $content_url);
                $res = $stmt->execute();
                $post = array();
                $post['field_id'] = $v['app_msg_ext_info']['fileid'];//一个微信给的id
                $post['title'] =  $v['app_msg_ext_info']['title'];//文章标题
                $post['title_encode'] = urlencode(str_replace("&nbsp;", "", $post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了
                $post['digest'] = $v['app_msg_ext_info']['digest'];//文章摘要
                $post['source_url']  = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['source_url']));//阅读原文的链接
                $post['cover'] =  str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['cover']));//封面图片
    
                $post['is_top'] = 1;//标记一下是头条内容
                $post['is_multi'] = $is_multi;
                $post['biz'] = $biz;
                $post['content_url'] = $content_url;
                $post['zdatetime'] = $datetime;//文章摘要
                //现在存入数据库
                $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_top, is_multi, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_top, :is_multi, :zdatetime)';
                $stmt = $pdo->prepare($sql);
                $res = $stmt->execute($post);
            }
            if($is_multi==1){//如果是多图文消息
                foreach($v['app_msg_ext_info']['multi_app_msg_item_list'] as $kk=>$vv){//循环后面的图文消息
                    $content_url = str_replace("\\","",htmlspecialchars_decode($vv['content_url']));//图文消息链接地址
                    //这里再次根据$content_url判断一下数据库中是否重复以免出错
                    $sql = 'SELECT id FROM tmplist WHERE content_url = ?';
                    $stmt = $pdo->prepare($sql);
                    $stmt->bindParam(1, $content_url);
                    $stmt->execute();
                    $res = $stmt->fetch(PDO::FETCH_ASSOC);
                    if (!$res) {
                        $sql = 'INSERT INTO tmplist (content_url) VALUES (?)';
                        $stmt = $pdo->prepare($sql);
                        $stmt->bindParam(1, $content_url);
                        $res = $stmt->execute();
                        //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容)
                        $post = array();
                        $post['title'] = $vv['title'];//文章标题
                        $post['field_id'] = $vv['fileid'];//一个微信给的id
                        $post['title_encode'] = urlencode(str_replace("&nbsp;","",$post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了
                        $post['digest'] = htmlspecialchars($vv['digest']);//文章摘要
                        $post['source_url'] = str_replace("\\","",htmlspecialchars_decode($vv['source_url']));//阅读原文的链接
                        $post['cover'] = str_replace("\\","",htmlspecialchars_decode($vv['cover']));//封面图片
                        //$cover = getCover(str_replace("\\","",htmlspecialchars_decode($vv['cover'])));
                        $post['zdatetime'] = $datetime;
                        $post['is_multi'] = $is_multi;
                        $post['is_top'] = 0;
                        $post['biz'] = $biz;
                        $post['content_url'] = $content_url;
                        //现在存入数据库
                        $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_multi, is_top, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_multi, :is_top, :zdatetime)';
                        $stmt = $pdo->prepare($sql);
                        $res = $stmt->execute($post);
                    }
                }
            }
        }
    }
    

    想要看效果的可以把getWxHis.php、getWxPost.php中的echo语句注释掉。

    // echo "<script>setTimeout(function(){window.location.href='".$url."';},2000);</script>";//将下一个将要跳转的$url变成js脚本,由anyproxy注入到微信页面中。
    

    未完待续......To be Continued......

    相关文章

      网友评论

          本文标题:记录微信公众号历史文章采集(三、爬取历史文章信息和原文地址)

          本文链接:https://www.haomeiwen.com/subject/nqltoftx.html