美文网首页ios地图
我这样抓取百度地图的数据

我这样抓取百度地图的数据

作者: 正在天马行空 | 来源:发表于2015-01-15 21:46 被阅读16181次

    最近公司需要抓取百度地图中所有药店数据,本人比较愚笨,断断续续花了2天时间才完成此次任务。期间遇到的各种小坑,但目前进度良好。以下记录的是我进行任务的整个流程。

    1、熟悉百度API,调用API获得数据。

    既然要拿百度地图的数据,那自然首选在地图API入手。经过了解,发现了 place api 可以使用。

    Place API 提供区域检索POI服务、POI详情服务与团购信息检索服务、商家团购详情查询。

    区域检索POI服务提供三种区域检索方法:

    城市内检索(对应JavaScriptAPI的Search方法)

    矩形检索(对应JavaScript API的SearchInBound方法)

    圆形区域检索(对应JavaScript的SearchNearBy方法)。

    调用此API也非常简单,只需要用PHP生成一条URL,并生成get请求即可得到数据。由于API的每次调用默认只返回10条信息,所以为了能够获得更多的信息,需要设置page_num参数进行翻页操作。这时候使用一个递归函数完成比较好。

    class DataCollector{
    public function getShopDataByCity($cityName,$keyword){
        $this->_getShopDataByCity($cityName,$keyword);
        return $this->shopData;
    }
    private function _getShopDataByCity($cityName,$keyword,$page_num=0){
        $url = "http://api.map.baidu.com/place/v2/search?q=$keyword&region=$cityName&output=json&ak=597a11f21bf9dfd3ab95632271b3832c&page_num=$page_num";
        $curl = new \Common\Lib\Curl();
        $result = $curl->get($url);
        $resultData = json_decode($result);
    
        if($resultData->results != null){
            foreach ($resultData->results as $value) {
                $value = $this->objectToArray($value);
                $this->shopData[] = $value;
            }
            //继续寻找下一页
            $this->_getShopDataByCity($cityName,$keyword,$page_num+1);
        }
        
    }
    }
    

    运行一下,成功了返回数据。

    2、发现数据不够,并填坑

    然而当我换了几个城市名调用的时候,发现API返回的数据最多是760条,这远远是不够的。一个大城市的药店总数能超过5000,而一些二线城市的药店总数也能接近一千。看来百度在API上做了手脚,强行阻止了用户扒她的数据。于是我继续研究了她提供的API,发现给API支持矩形检索。好,那就试试吧。

    public function getShopDataByBounds($bounds,$keyword){
        $this->_getShopDataByBounds($bounds,$keyword);
        return $this->shopData;
    }
    private function _getShopDataByBounds(array $bounds,$keyword,$page_num=0){
        $url = "http://api.map.baidu.com/place/v2/search?query=$keyword&bounds=$bounds[0],$bounds[1],$bounds[2],$bounds[3]&output=json&ak=".DataCollector::AK."&page_num=$page_num";
        $result = $this->curl->get($url);
        $resultData = json_decode($result);
        $this->msg= $resultData->message;
    
        if($resultData->results != null){
            foreach ($resultData->results as $value) {
                $value = $this->objectToArray($value);
                $this->shopData[] = $value;
            }
            //继续寻找下一页
            $this->_getShopDataByBounds($bounds,$keyword,$page_num+1);
        }
    }
    

    好了,如果bounds的经纬度间隔足够小,就能够拿到充足的数据。但是我们的大中国是由无数个小矩形组成的,这意味着获得全部的数据,就必须遍历无数的矩形。但显然没什么好办法,那就遍历下去吧。

    3、内存溢出

    我先使用上面的函数将中国这个大公鸡的头部拿下了,先用矩形框住公鸡头,在百度的拾取系统中找到矩形的左下角和右上角的大概的经纬度,分别是:(26,95)(31,122.6)。使用下面的循环反复调用getShopDataByBounds()函数,即可得到大公鸡头部的数据了。

    for($i=26;$i<=31; $i = $i+0.1){
        for($j=95;$j<=122.6;$j=$j+0.1){
            $shopData = $cotor->getShopDataByBounds(array($i,$j,$i+0.1,$j+0.1),'药店');
        }
    }
    print_r($shopData);
    

    但是很不幸的是,程序运行了10分钟左右,爆出了内存溢出的错误,函数被意外终断了。

    4、解决问题

    到底是怎么回事呢?其实重新审视一遍自己的代码,很快就发现了问题,_getShopDataByBounds()函数使用到了class中的一个私有数组resultData。每次我调用_getShopDataByBounds()后,这个数组并没有被重置,以至于它越来越大,到最后撑爆了内存,爆出严重错误。因此,需要在调用外部函数getShopDataByBounds()的时候,必须先重置数组。

    public function getShopDataByCity($cityName,$keyword){
        unset($this->shopData);
        unset($this->msg);
        $this->_getShopDataByCity($cityName,$keyword);
        return $this->shopData;
    }
    

    再次运行程序,OK了再也不出现内存溢出情况了。

    5、继续调优

    程序安静平稳的运行了差不多两个小时,这是突然发现后面再也不能获取到数据了,而且在这两个小时的时间里产生的数据只有1W多,效率太慢了。其实获取不到数据,是由于百度限制了每个AK的调用次数,当AK的调用次数达到了上限,就不再能够获取数据了。所以程序程序必须要能智能切换AK,同时为了提高效率,还应该多起几个进程进行采集任务。小菜程序还需要花很多精力去完善才能变得健壮起来呢。
    代码的精益求精能使得自己的能力更上一层楼,所以抓取数据的活在未来慢慢完善。就写到这了。

    相关文章

      网友评论

      • f629c5216ad9:感谢您的分享非常谢谢
      • 扎西卓玛_ee77:厉害,不会技术的朋友,可以试一下同企数据:http://www.tongqishuju.com/index.php?v=listing&cid=60同企数据收录全网(百度地图商户信息、赶集网商户信息、高德地图、美团网信息、大众点评、1688信息、58同城、饿了么等平台)的商户数据。你想要的数据里面应有尽有
      • 糊涂一X:如果要爬取百度地图的道路信息,该怎么做啊
      • 爬一爬数据采集:最好用,最简单的免费网页数据采集器爬一爬,你可以试试看,http://www.pa1pa.com
      • b5fe82579faf:如果采集要求较高,可以了解一下 数荟集——分布式大数据采集平台(网络爬虫),能够采集各种复杂环境下的数据,数据采集延时在分钟级,日采集量达千万级别,7*24小时稳定运行,远领先于同类产品,详细了解请网上搜“数荟集”

        http://www.shuhuiji.com
      • 魂断蓝桥x1:每天2000次,每次返回20条,请问楼主这两个是怎么处理,把间距设小,然后去重复?2000次又怎么破呢?
        TryerLee:@魂断蓝桥x1 同问 ! 兄弟有没有解决这个问题 :grin:
      • 一盆饭:接下来还有吗,我也在用python写
        69973d748dd6:可以参考下这个博客的导出百度地图商家数据:
        http://www.cnblogs.com/data2016/p/5860990.html
        70581c33cb19:@六六666 邮箱是2082033@QQ.COM,谢谢
        70581c33cb19:@六六666 你好,能分享下你的python 源代码吗?我也正在学习着弄。

      本文标题:我这样抓取百度地图的数据

      本文链接:https://www.haomeiwen.com/subject/cajcxttx.html