美文网首页学习
Curl多线程及原理

Curl多线程及原理

作者: 架构飞毛腿 | 来源:发表于2017-05-08 16:16 被阅读160次

    class ManyCurl {

    //异步加载多个url请求

    //用例:

    //      $url_array = array(

    //          'http://example.com/sleep.php?time=5',

    //          'http://example.com/sleep.php?time=10',

    //          'http://example.com/sleep.php?time=7',

    //          'http://example.com/sleep.php?time=5',

    //        );

    //    

    public function async_get_url($url_array, $wait_usec = 0) {

    if (!is_array($url_array))

    return false;

    $wait_usec = intval($wait_usec);

    $data    = array();

    $handle  = array();

    $running = 0;

    $mh = curl_multi_init(); // multi curl handler

    $i = 0;

    foreach($url_array as $url) {

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 获取页面内容,不直接输出到页面

    curl_setopt($ch, CURLOPT_TIMEOUT, 30);//超时时间

    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');//在HTTP请求中包含一个”user-agent”头的字符串。

    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect

    curl_setopt($ch, CURLOPT_MAXREDIRS, 7);//以限定递归返回的数量

    curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl handler 裡

    //作用是向curl批处理会话中添加单独的curl句柄资源。curl_multi_add_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。

    $handle[$i++] = $ch;

    }

    /* 執行 */

    /* 此種做法會造成 CPU loading 過重 (CPU 100%)

    do {

    curl_multi_exec($mh, $running);

    if ($wait_usec > 0) // 每個 connect 要間隔多久

    usleep($wait_usec); // 250000 = 0.25 sec

    } while ($running > 0);

    */

    /* 此做法就可以避免掉 CPU loading 100% 的問題 */

    // 參考自: http://www.hengss.com/xueyuan/sort0362/php/info-36963.html

    do {

    $mrc = curl_multi_exec($mh, $active);

    } while ($mrc == CURLM_CALL_MULTI_PERFORM);//CURLM_CALL_MULTI_PERFORM=-1

    while ($active and $mrc == CURLM_OK) {//CURLM_OK=0

    if (curl_multi_select($mh) != -1) {

    do {

    $mrc = curl_multi_exec($mh, $active);

    } while ($mrc == CURLM_CALL_MULTI_PERFORM);//CURLM_CALL_MULTI_PERFORM=-1

    }

    }

    /*因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用、//curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。

    // curl_multi_exec的返回值是用來返回多線程處裡時的錯誤,正常來說返回值是0,也就是說只用$mrc捕捉返回值當成判斷式的迴圈只會運行一次,而真的發生錯誤時,有拿$mrc判斷的都會變死迴圈。

    // 而curl_multi_select的功能是curl發送請求後,在有回應前會一直處於等待狀態,所以不需要把它導入空迴圈,它就像是會自己做判斷&自己決定等待時間的sleep()。

    do {

    curl_multi_exec($mh, $running);

    curl_multi_select($mh);

    } while ($running > 0);

    */

    /* 讀取資料 */

    foreach($handle as $i => $ch) {

    $content  = curl_multi_getcontent($ch);

    $data[$i] = (curl_errno($ch) == 0) ? $content : false;

    }

    /* 移除 handle*/

    foreach($handle as $ch) {

    curl_multi_remove_handle($mh, $ch);

    }

    curl_multi_close($mh);

    return $data;

    }

    相关文章

      网友评论

        本文标题:Curl多线程及原理

        本文链接:https://www.haomeiwen.com/subject/cinmtxtx.html