美文网首页学习
Curl多线程及原理

Curl多线程及原理

作者: 架构飞毛腿 | 来源:发表于2017-05-08 16:16 被阅读160次

class ManyCurl {

//异步加载多个url请求

//用例:

//      $url_array = array(

//          'http://example.com/sleep.php?time=5',

//          'http://example.com/sleep.php?time=10',

//          'http://example.com/sleep.php?time=7',

//          'http://example.com/sleep.php?time=5',

//        );

//    

public function async_get_url($url_array, $wait_usec = 0) {

if (!is_array($url_array))

return false;

$wait_usec = intval($wait_usec);

$data    = array();

$handle  = array();

$running = 0;

$mh = curl_multi_init(); // multi curl handler

$i = 0;

foreach($url_array as $url) {

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 获取页面内容,不直接输出到页面

curl_setopt($ch, CURLOPT_TIMEOUT, 30);//超时时间

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');//在HTTP请求中包含一个”user-agent”头的字符串。

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect

curl_setopt($ch, CURLOPT_MAXREDIRS, 7);//以限定递归返回的数量

curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl handler 裡

//作用是向curl批处理会话中添加单独的curl句柄资源。curl_multi_add_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。

$handle[$i++] = $ch;

}

/* 執行 */

/* 此種做法會造成 CPU loading 過重 (CPU 100%)

do {

curl_multi_exec($mh, $running);

if ($wait_usec > 0) // 每個 connect 要間隔多久

usleep($wait_usec); // 250000 = 0.25 sec

} while ($running > 0);

*/

/* 此做法就可以避免掉 CPU loading 100% 的問題 */

// 參考自: http://www.hengss.com/xueyuan/sort0362/php/info-36963.html

do {

$mrc = curl_multi_exec($mh, $active);

} while ($mrc == CURLM_CALL_MULTI_PERFORM);//CURLM_CALL_MULTI_PERFORM=-1

while ($active and $mrc == CURLM_OK) {//CURLM_OK=0

if (curl_multi_select($mh) != -1) {

do {

$mrc = curl_multi_exec($mh, $active);

} while ($mrc == CURLM_CALL_MULTI_PERFORM);//CURLM_CALL_MULTI_PERFORM=-1

}

}

/*因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用、//curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。

// curl_multi_exec的返回值是用來返回多線程處裡時的錯誤,正常來說返回值是0,也就是說只用$mrc捕捉返回值當成判斷式的迴圈只會運行一次,而真的發生錯誤時,有拿$mrc判斷的都會變死迴圈。

// 而curl_multi_select的功能是curl發送請求後,在有回應前會一直處於等待狀態,所以不需要把它導入空迴圈,它就像是會自己做判斷&自己決定等待時間的sleep()。

do {

curl_multi_exec($mh, $running);

curl_multi_select($mh);

} while ($running > 0);

*/

/* 讀取資料 */

foreach($handle as $i => $ch) {

$content  = curl_multi_getcontent($ch);

$data[$i] = (curl_errno($ch) == 0) ? $content : false;

}

/* 移除 handle*/

foreach($handle as $ch) {

curl_multi_remove_handle($mh, $ch);

}

curl_multi_close($mh);

return $data;

}

相关文章

网友评论

    本文标题:Curl多线程及原理

    本文链接:https://www.haomeiwen.com/subject/cinmtxtx.html