简述

因中心工程和科研需求，需要下载大量船只的图片。而在marintraffic这个网站上拥有大量的船只，并且包含的信息极其丰富，可以满足我们科研和工程的需求。因此希望在此网站上下载船只图片。

marintraffic这个网站的数据比较规整，可以在这里看到所有船只的信息。包括国别、MMSI、IMO、NAME、最近发现的位置等；

所有船只.PNG

在这里可以根据某一艘船的shipid找到该船在这个网站上的所有图片，图片包含的信息也比较丰富，包括图片本身信息、拍摄人和船只的诸多信息，非常有价值。

船只信息.PNG

我们需要的信息

我们的目标是获取船只唯一标识语船只图像的对应关系，我们希望得到的标识是MMSI、IMO、Vessel Name等

有用的信息.PNG

找到一艘船的所有图像是根据它在这个网站上的唯一标识shipid得到的

根据shipid获得船只图像.PNG

所以我们希望得到的是这样的一个对应关系的数据库
shipid-MMSI-IMO-NAME
也就是这个网页源代码里的这些

对应关系.PNG

下载图片注意

我们希望下载得到的图片保存得比较有规律，
一个shipid一般对应多个图片，我们希望将这多个图片以方便管理的方式存放。同时保存每张图片的拍摄时间和地点，地点包括地点名称和经纬度

图片信息.PNG

资源

网站上大概有1923545个图片，按照平均每分钟下载15张的速度看，单线程下载需要80多天才能下载完，由于网站限制不能连续下载，根据之前学长的经验再1-10秒的随机时间下载是可以避免网站的爬虫检测的。当然我试过8秒也可以，具体多少合适还不清楚。但是如果网站认为该计算机涉嫌爬虫行为，就会加入黑名单，几个星期下载不了，因此这个爬虫需要协调时间，计算机台数等信息再合理的时间下载完。

另外这个网站上的每个图像都有大小两种尺寸，我们希望把这两种尺寸都下载下来，如果两种尺寸合起来按50kB算，大概需要100G左右的存储空间