美文网首页
我用PHP刷某站的阅读量

我用PHP刷某站的阅读量

作者: 丶或情 | 来源:发表于2018-05-17 00:00 被阅读0次

    之前逛掘金帖子的时候,发现一个群的群主拿Python刷了他在某个博客的阅读量,今天我也用世界上最好的语言 : ) PHP来 刷一刷某站点的阅读量。

    框架用的是 PHPSpider一个比较轻量的爬虫框架。本爬虫主要用了其中的 request库selector库。想要了解这个框架的可以链过去看看。

    进入正题:

    1.瞎几把分析一波:进入文章详情页,刷新几遍,发现阅读量上去了,说明刷阅读量方法可行。


    第一次
    第三次

    2.先直接访问文章详情页

    include __DIR__."/../autoloader.php";
    use spider\core\requests;
    $url = "https://www.jianshu.com/p/26c2eca28dc5";
    $html = requests::get($url);//简单的get
    

    php cli 之,然后刷新页面,发现没增加次数,说明肯定存在某种方式的验证。万金油先加referer header

    include __DIR__."/../autoloader.php";
    use spider\core\requests;
    $url = "https://www.jianshu.com/p/26c2eca28dc5";
    $referer = "https://www.jianshu.com";
    requests::set_referer($referer);
    $html = requests::get($url);//简单的get
    

    cli然后刷新,还是没用,那就再复制这个页面的 cookie

    include __DIR__."/../autoloader.php";
    use spider\core\requests;
    $url = "https://www.jianshu.com/p/26c2eca28dc5";
    $referer = "https://www.jianshu.com";
    $cookie = "自己复制,太长就不贴了"
    requests::set_referer($referer);
    requests::set_cookie($referer,$cookie);
    $html = requests::get($url);//简单的get
    

    发现还是没用,难道是userAgent?加了发现还是不行,那么就可能存在JS动态获取阅读量的可能。F12一波,看下XHR,这个mark_viewd.json明显就是加阅读量的方法了,看了下返回204,not data,说明阅读量是下次刷新生效。

    增加阅读量的请求
    请求内容:
    请求体

    找波规律:
    1.请求的url中有该文章的关键字
    2.post 有个奇怪的uuid和 referer
    说明请求的url notes/后跟的是这个文章的资源ID;至于uuid发现其他AJAX请求没有给到这个值,极有可能是事先渲染好的,果断在Elements 中Ctrl+F一波

    文章页中的uuid
    发现文章详情页的Script 有个JSON包含这个uuid,那么逻辑就可以理顺了,先验证是否是这个请求增加阅读量的。
    $url = "https://www.jianshu.com/notes/5764256f0c43/mark_viewed.json";
    $referer = "https://www.jianshu.com/p/5764256f0c43";
    requests::set_referer($referer);//必须将referer调成当前页面
    $data = [
    "uuid"=>"912e01f5-6da4-4bfd-8e71-4d1b62499709",
    "referer"=>"https://www.jianshu.com/"
    ];
    requests::post($url,json_encode($data));
    

    执行之后发现次数增加了,需要注意的是 request::referer() 请求体referer要设置成该页面的值,不然不会加阅读量,设置成www.jianshu.com我没测试。

    那么接下来就是撸波代码,用上多进程同时刷我自己的其他文章:

    Code
    <?php
    /**
     * Created by PhpStorm.
     * User: lins
     * Date: 14/05/2018
     * Time: 11:26 PM
     */
    
    //简书 刷阅读量
    include __DIR__."/../autoloader.php";
    use spider\core\requests;
    use spider\core\selector;
    
    $url = "https://www.jianshu.com/u/6b1fa1764b51";
    $referer = "https://www.jianshu.com";
    $urll = "https://www.jianshu.com/p/26c2eca28dc5";
    $userAgent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36";
    $cookie = "_ga=GA1.2.1446998420.1512720610; read_mode=day; default_font=font2; locale=zh-CN; web-note-ad-fixed=1524537468387; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1526200190,1526220098,1526282339,1526312631; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22160352cb5d7300-071265b68a5aa1-17396d57-1296000-160352cb5d8d37%22%2C%22%24device_id%22%3A%22160352cb5d7300-071265b68a5aa1-17396d57-1296000-160352cb5d8d37%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.google.co.jp%2F%22%2C%22%24latest_referrer_host%22%3A%22www.google.co.jp%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%2C%22%24latest_utm_source%22%3A%22desktop%22%2C%22%24latest_utm_medium%22%3A%22not-signed-in-like-button%22%2C%22%24latest_utm_campaign%22%3A%22maleskine%22%2C%22%24latest_utm_content%22%3A%22note%22%7D%2C%22first_id%22%3A%22%22%7D; _m7e_session=9cfeba4267a7645d2058d2a971670be3; signin_redirect=https%3A%2F%2Fwww.jianshu.com%2Fp%2F26c2eca28dc5; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1526391092";
    requests::set_referer($referer);
    
    requests::set_cookie($referer,$cookie);
    
    requests::set_useragent($userAgent);
    
    
    $html = requests::get($url);
    
    $result = selector::select($html,'//div[@class="content"]/a/@href');//选择器拿到用户下的所有文章
    
    $result = array_map(function ($e)use($referer){
        $word = explode('/',$e);//word关键词用来拼接json
        $word = $word[2];
        $ref = $referer.$e;//文章地址
        return ['word'=>$word,'referer'=>$ref];
    },(array)$result);
    
    //玩下fork
    
    $num = 4;
    $runTimes = 7200;
    if(count($result) < $num){
        $num = count($result);
    }
    var_dump($num);
    for ($i = 0;$i<$num;$i++){
    
        $pid = pcntl_fork();
        if(0 < $pid){
            //father
            //准备回收
            pcntl_signal(SIGCHLD,function() use( $pid ) {
                echo "收到子进程退出".PHP_EOL;
                pcntl_waitpid( $pid, $status, WNOHANG );
            });
    //        pcntl_alarm(1);
            pcntl_signal_dispatch();
    
        }elseif(0 == $pid){
            $time = time() + $runTimes;
            while(time() < $time){
                $url = toSee($i,$result,$num);
                file_put_contents('debug.json',json_encode($url).PHP_EOL,FILE_APPEND);
    
                sleep(rand(1,5));
            }
            echo $pid."*$i run finished ".date('Y-m-d H:i:s').PHP_EOL;
            exit;
        }else {
            echo 'fork error';
        }
    }
    function toSee(int $i,array $result,int $num){
        $referer = "https://www.jianshu.com/u/6b1fa1764b51";
        $url = [];
        $reNums = count($result);
        //将抓到的文章资源平均分配到子进程中
        if ($reNums == $num){
            $url[] = $result[$i];
        }else {
            do{
                $url[] = $result[$i];
                $i = $i+$num;
            }while(isset($result[$i]));
    
        }
        foreach ($url as $key) {
            $ulas = "https://www.jianshu.com/notes/%s/mark_viewed.json";
            $res = requests::get($key['referer']);//拿到文章详情页
    
            $path = "/html/body/script[1]/text()";
    
            $ress = selector::select($res,$path);//拿到script 下的json
            $ress = json_decode($ress);
    
            $data = [
                "referer" => $referer,//这个值好像随意是jianshu的域名就可以
                'uuid' => $ress->note_show->uuid
            ];
            $ulas = sprintf($ulas,$key['word']);
            echo $ulas.PHP_EOL;
            requests::set_referer($key['referer']);//必须将referer调成当前页面
            requests::post($ulas,json_encode($data));
        
        }
        return $url;
    }
    

    本文用的抓取语法是XPATH有兴趣的可以了解下。
    保存,然后丢到服务器,开个定时脚本跑,大功告成。

    PS:这段代码请放在项目的demo文件夹里,然后php 文件名.php就可以了。

    值得注意的是,有些*unix服务器curl是 nss 方式 请求ssl的 pctnl_frok的时候会报错,需要将curl 请求ssl的nss 变为 openssl,方法如下:

    先yum update openssl
    
    再yum update curl
    
    curl -V 
    

    如果不是下面的 openssl

    curl -V
    那就看下这个链接吧,
    https://www.cnblogs.com/showker/p/4706271.html

    以上。
    撒花。:)
    小刷怡情,大刷伤身。

    2018-05-20 22:27 更新 ,因为会被jianshu大佬ban Ip 所以我另外写了爬虫抓取免费的ip代理,相关更新代码和更新版本请异步小弟的 GayHub

    相关文章

      网友评论

          本文标题:我用PHP刷某站的阅读量

          本文链接:https://www.haomeiwen.com/subject/joxvdftx.html