美文网首页有趣的蜘蛛侠
爬取marintraffic图像相关

爬取marintraffic图像相关

作者: 在河之简 | 来源:发表于2015-08-30 09:16 被阅读37次

    简述

    因中心工程和科研需求,需要下载大量船只的图片。而在marintraffic这个网站上拥有大量的船只,并且包含的信息极其丰富,可以满足我们科研和工程的需求。因此希望在此网站上下载船只图片。

    marintraffic这个网站的数据比较规整,可以在这里看到所有船只的信息。包括国别、MMSI、IMO、NAME、最近发现的位置等;

    所有船只.PNG

    在这里可以根据某一艘船的shipid找到该船在这个网站上的所有图片,图片包含的信息也比较丰富,包括图片本身信息、拍摄人和船只的诸多信息,非常有价值。

    船只信息.PNG

    我们需要的信息

    我们的目标是获取船只唯一标识语船只图像的对应关系,我们希望得到的标识是MMSI、IMO、Vessel Name等


    有用的信息.PNG

    找到一艘船的所有图像是根据它在这个网站上的唯一标识shipid得到的

    根据shipid获得船只图像.PNG

    所以我们希望得到的是这样的一个对应关系的数据库
    shipid-MMSI-IMO-NAME
    也就是这个网页源代码里的这些

    对应关系.PNG

    下载图片注意

    我们希望下载得到的图片保存得比较有规律,
    一个shipid一般对应多个图片,我们希望将这多个图片以方便管理的方式存放。同时保存每张图片的拍摄时间和地点,地点包括地点名称和经纬度

    图片信息.PNG

    资源

    网站上大概有1923545个图片,按照平均每分钟下载15张的速度看,单线程下载需要80多天才能下载完,由于网站限制不能连续下载,根据之前学长的经验再1-10秒的随机时间下载是可以避免网站的爬虫检测的。当然我试过8秒也可以,具体多少合适还不清楚。但是如果网站认为该计算机涉嫌爬虫行为,就会加入黑名单,几个星期下载不了,因此这个爬虫需要协调时间,计算机台数等信息再合理的时间下载完。

    另外这个网站上的每个图像都有大小两种尺寸,我们希望把这两种尺寸都下载下来,如果两种尺寸合起来按50kB算,大概需要100G左右的存储空间

    小尺寸.PNG 大尺寸

    这是我几个星期前用的一个代码,可参考了解网站特点。

    相关文章

      网友评论

        本文标题:爬取marintraffic图像相关

        本文链接:https://www.haomeiwen.com/subject/xwgkcttx.html