美文网首页
PHP解析15w行kml文件

PHP解析15w行kml文件

作者: 彩虹的夜晚 | 来源:发表于2017-08-30 21:08 被阅读425次

    要解析kml文件,首先是必须要知道kml是什么,其次还要了解kml的语法,然后才能谈得上解析它,这些都会了之后,假如我们遇到了10多(M)的文件的时候,又该如何来解析呢,下面我们就从这几个方面来入手,详细了解如何解析15w行的kml文件。


    一、kml是什么

    根据百度百科,我们可以知道:

    KML,是标记语言(Keyhole Markup Language)的缩写,最初由Keyhole公司开发,是一种基于XML 语法与格式的、用于描述和保存地理信息(如点、线、图像、多边形和模型等)的编码规范,可以被 Google Earth 和 Google Maps 识别并显示。

    上面说了这么一大堆,说白了就是一句话:kml就是一种xml格式的文件。因此我们就可以使用PHP对xml文件的解析函数或者是类来解析它,现在我们只是知道了可以使用像simplexml_load_string()这样的函数来解析kml文件,但是kml文件中数据的结构到底是怎么样的,我们一点也不了解,所以我们要学习kml文件的语法。

    说到kml语法的话,因为它被谷歌公司广泛采用,那我们就要会翻墙----免费翻墙。现在我们假定所有的阅读的人,都已经知道如何翻墙了。

    二、kml的语法

    翻墙之后直接输入:KML Document 进行搜索,也可以点击这个网址kml文档,可以大致做一个了解。下面我们就需要看我们的kml文件有哪些东西,如下图:

    15万行数据的kml文件

    接着就是具体的样式数据和经纬度数据,如下图:

    区域和线的样式 区域数据的格式 线数据的格式

    现在我们对我们自己需要解析的数据格式已经了解了,下面我们就来解析这个kml文件。终于到正题了。

    三、解析kml

    我们可以自己封装一个方法,只需要传入文件名就可以解析kml文件,先来代码:

    /**
     * 解析kml文件返回一个解析后的数据
     * @param $file
     * @return array
     */
    function parseKML($file)
    {
        // 获得文件内容
        $xml = simplexml_load_file($file);
        // 输出KML数据数组
        $result = array();
        
        // 读取document标签
        $values = $xml->Document;
        $floderArr = array();
        foreach ($values->Folder as $folder) {
            $floderArr[] = $folder;
        }
    
        // 读取style标签
        $styleArrs = array();
        foreach ($values->Style as $style) {
            $jsonStyle = xmlToArray($style);
            $key = $jsonStyle["@attributes"]["id"];
            $styleArrs[$key] = $jsonStyle;
         }
    
        // 分别获得线和区域的数据
        $placeMarksCache = array();
        foreach ($floderArr as $key => $value) {
            $name = (string)$value->name;
            if ($name == 'Area Features') {
                foreach ($value->Placemark as $placeMark) {
                    $placeMarksCache['area'][] = $placeMark;
                }
            } else {
                foreach ($value->Placemark as $placeMark) {
                    $placeMarksCache['lines'][] = $placeMark;
                }
            }
        }
    
        // 循环输出数据
        foreach ($placeMarksCache as $k => $place){
            // 获取要输出的点集
            $placeMarkOutCache = array();
            // 将点集read出来
            foreach ($place as $placeMark) {
                $styleCache = (string)$placeMark->styleUrl;
                $styleCache = str_replace("#", "", $styleCache);
                $styleCache = $styleArrs[$styleCache];
                if (!$styleCache) {
                    $styleCache = "00000000";
                }
                // 获取点集合
                $strCache = $placeMark->Polygon;
                if ($strCache) {
                    $styleCache = "#" . $styleCache["PolyStyle"]["color"];
                    $strCache = (string)$strCache->outerBoundaryIs->LinearRing->coordinates;
                    $strCache = explode("\n              ", trim($strCache));
                } else {
                    $styleCache = "#" . $styleCache["LineStyle"]["color"];
                    $strCache = (string)$placeMark->LineString->coordinates;
                    $strCache = explode("\n          ", trim($strCache));
                }
                // 分割点集 作为数组进行保存
                foreach ($strCache as $sc) {
                    $args = explode(",", $sc);
                    $coords[] = array($args[0], $args[1], $args[2]);
                }
                // 将color 和 points 作为对象保存到result中
                $result[$k][] = array("color" => $styleCache, "points" => $coords);
                // 将这个数组清空
                $coords = array();
           }
       }
       // 最后返回集合点数据
       return $result;
    }
    

    初步的代码已经完成,但是这样的解析方式在数据量少的时候还可以接受,但是当数据量达到了15W行的时候,无论怎样写,都会出现了内存溢出的问题,由此就引出了,采用分页的方式来进行解析kml文件的办法。

    四、 采用分页的方式解析kml文件

    思路:既然我们采用上面的这种方式会出现内存溢出的错误,那么我们可以一次不要将数据全部都解析出来,而是采用先解析一部分,继而循环解析的方式来解析kml文件。
    有了思路之后我们就需要进行分析,具体要怎样才能实现。
    分析:

    1. 使用simplexml_load_file()函数来引入要解析的kml文件;
    2. 计算要从哪个点开始读取;
    3. 解析document和style以及folder标签;
    4. 解析folder标签中的数据,判断是这个folder是Area数据还是Line数据,而且这2部分所采用的标签的层级是不一样的,因此需要分开来解析;
    5. 判断是否要输出数据,如果不是,则计算数据的总量;
    6. 循环总的点集数组,获得要输出的点集数组。
    7. 循环输出的点集数组,解析数据;
    8. 解析时,将对应的点集的样式也解析出来;
    9. 解析时,更需要判断要解析的数据是area数据还是line数据,对于不同的数据,采用不同方式进行分割,并将点集保存起来。
    10. 解析完毕之后,需要计算以哪种方式进行输出,这是因为这2个folder标签中的数据不是一样多;
    11. 输出数据。
      代码如下:
        /**
         * 按照区域来解析kml文件
         * @param $file
         * @param int $page
         * @param int $size
         * @param bool $outData
         * @return array
         */
        public function parseKMLByArea($file, $page = 0, $size = 2, $outData = true)
        {
            $xml = simplexml_load_file($file);
            $result = array();
            // 计算起始位置
            if ($page < 0) {
                $page = 0;
            }
            $start = $page * $size;
    
            $values = $xml->Document;
            $floderArr = array();
            foreach ($values->Folder as $folder) {
                $floderArr[] = $folder;
            }
    
            // 读取样式标签
            $styleArrs = array();
            foreach ($values->Style as $style) {
                $jsonStyle = xmlToArray($style);
                $key = $jsonStyle["@attributes"]["id"];
                $styleArrs[$key] = $jsonStyle;
            }
    
            $placeMarksCache = array();
            foreach ($floderArr as $key => $value) {
                $name = (string)$value->name;
                if ($name == 'Area Features') {
                    foreach ($value->Placemark as $placeMark) {
                        $placeMarksCache['area'][] = $placeMark;
                    }
                } else {
                    foreach ($value->Placemark as $placeMark) {
                        $placeMarksCache['lines'][] = $placeMark;
                    }
                }
            }
    
            // 判断是否需要数据输出数据
            if($outData==true){
                foreach ($placeMarksCache as $k => $place){
                    // 获取要输出的点集
                    $placeMarkOutCache = array();
                    for ($j = 0; $j < $size; $j++) {
                        // 判断是否超出数组的长度
                        if ($start+$j>=count($place)) {
                            break;
                        } else {
                            $placeMarkOutCache[] = $place[$start + $j];
                        }
                    }
                    // 将点集read出来
                    foreach ($placeMarkOutCache as $placeMark) {
                        $styleCache = (string)$placeMark->styleUrl;
                        $styleCache = str_replace("#", "", $styleCache);
                        $styleCache = $styleArrs[$styleCache];
                        if (!$styleCache) {
                            $styleCache = "00000000";
                        }
                        // 获取点集合
                        $strCache = $placeMark->Polygon;
                        if ($strCache) {
                            $styleCache = "#" . $styleCache["PolyStyle"]["color"];
                            $strCache = (string)$strCache->outerBoundaryIs->LinearRing->coordinates;
                            $strCache = explode("\n              ", trim($strCache));
                        } else {
                            $styleCache = "#" . $styleCache["LineStyle"]["color"];
                            $strCache = (string)$placeMark->LineString->coordinates;
                            $strCache = explode("\n          ", trim($strCache));
                        }
                        // 分割点集 作为数组进行保存
                        foreach ($strCache as $sc) {
                            $args = explode(",", $sc);
                            //$coords[] = array($args[0], $args[1], $args[2]);
                            $coords[] = array($args[0]+0.0050, $args[1]-0.0030);
                        }
                        // 将color 和 points 作为对象保存到result中
                        $result[$k][] = array("color" => $styleCache, "points" => $coords);
                        // 将这个数组清空
                        $coords = array();
                    }
                }
            }
            // 计算placeMark的总数
            $areaNum = sizeof($placeMarksCache['area']);
            $lineNum = sizeof($placeMarksCache['line']);
            $placeMarksCacheCount = $areaNum > $lineNum ? $areaNum : $lineNum;
            // 计算总页数
            $countCache=$placeMarksCacheCount/$size;
            // 存在余数进1
            $countCache=ceil($countCache);
            // 封装返回数据
            $resultData = array(
                "data"=>$result,
                "totalPage"=>$countCache,
                "size"=>$size,
                "currPage"=>$page
            );
            return $resultData;
        }
    

    当然这是我个人的一种解析方法,肯定还有更好的解决办法,请不吝赐教。最后,需要配置一张解析完毕之后的图。

    解析之后的图

    相关文章

      网友评论

          本文标题:PHP解析15w行kml文件

          本文链接:https://www.haomeiwen.com/subject/tbsadxtx.html