美文网首页
Python分布式爬虫-必须掌握的Docker基础!

Python分布式爬虫-必须掌握的Docker基础!

作者: JAVAandPython君 | 来源:发表于2019-08-01 09:42 被阅读0次

          没看第一篇文章的朋友,点这里Python爬虫|不会分布式爬虫?带你一步一步写!

          大家都知道在性能方面,Linux系统是远远优于Windows系统的,所以我们整个分布式爬虫的部署也是在Linux的子系统centos上,所以大家都要有一定的Linux基础。

          因为我们使用到Docker技术,所以第一步就是要在我们的服务器上安装上Docker:

    安装Docker的指令:

    yum-y install docker

            大家静静等待一下就可以安装成功了

           安装成功之后,我给大家简单介绍一下Docker的相关基础,主要有Docker的启动、Docker镜像搜索、Docker镜像下载、Docker容器的创建、Docker容器的查看、Docker容器的命名、Docker容器的启动这几个方面。

          对于我们只需要写分布式爬虫,学习这几个基础就差不多了,总体来说并不困难,也就那几句Linux命令。

    Docker的启动和停止

    Docker的启动:

    systemctl  start docker

    Docker的停止:

    systemctl  stop docker

    我们可以通过docker -v来验证我们是否启用成功

    Docker的镜像搜索和下载

     首先,我来给大家简单介绍镜像这个东西,镜像其实有点类似于压缩包,它也是把多个文件压缩到另一个文件当中,只不过后缀名不是我们熟知的zip,rar。很多人可能听说过windows镜像,其实就是一个意思。

           我们使用Docker技术来进行虚拟化容器,我们就得向每个容器里面安装镜像,例如可以安装Ubuntu镜像,Linux镜像,centos镜像等等。镜像我们是不能去改变它本身的内容,但是我们能向容器中安装不同的镜像。

          Docker的虚拟化容器技术就会给我们带来轻部署、省成本、部署迁移方便的各种优势。

          简单介绍了一下镜像,接下来我们正式来学一学镜像搜索

    镜像搜索:

    docker  search 关键字

    这里说明一下这个关键字,比如我们想搜索python有关的镜像,我们就可以

    docker search python

    如果我们想搜索ubantu有关的镜像,我们就可以:

    docker search ubantu

    搜索之后,我们就会看到有很多的搜索结果出来了

    我们要怎么去下载这些镜像呢?

    docker pull NAME

    这个NAME就是在我们搜索之后可以看见的,例如我想下载第一个ubantu:

    docker pull docker.io/ubuntu

    我们整个教程也是下载的第一个Ubuntu。

    下载完之后,我们如何查看我们已经下载好的镜像?

    docker images

    上图就可以看到我们已经下载的Ubuntu镜像,里面的TAG表示的是我们下载的版本。

    Docker容器的创建和查看

    我们把镜像下载好了,接下来就可以用镜像来装我们的容器

    docker run -tid3556

    这里的“3556”就是我们Ubuntu的IMAGE ID的前4位,我们直接通过前4位就可识别到是这个镜像。

    创建完容器,我们怎么去查看它?

    docker ps -a

    Docker进入容器及不停止退出

    创建完容器,我们可以进去玩一玩,怎么进呢?

    docker attach container id

    啥意思呢?大家可以看到上图,里面有一个container id列,我们直接选取其前四位,例如我现在要进入Ubuntu的容器:

    docker attach cea2

    可以看到我们成功的进入到cea2的容器中,这就相当于另外一台服务器。

    当我们进入之后,我们肯定是需要退出的,但是我们这个容器中可能是有爬虫在运行的,那么我们该如何不停止这个容器运行又完美退出呢?我们可以同时按ctrl+P+Q 三个按键来进行不停止退出。

    Docker容器的命名

    从上图中可以看到最右边,我们容器也是有名字的,但是系统是随机生成的,我们怎样去创建一个自己设定名字的容器?

    docke rrun -tid --name javaandpython 3556

    运行之后就是上面的效果!

    Docker的启动停止的容器

    当我们想去启动一个停止的容器时,要怎样操作?

    docker start id

    这里的id同样是取前四位字母,我这里就不演示了。

    根据已有的容器封装成镜像

    当我们创建一个容器时,我们会在容器内搭建好整个爬虫运行的环境,但是我们需要创建很多这种容器(子节点),我们不可能每个容器都去搭建一遍,所以接下来教大家如何把我们已经搭建好的环境进行封装成镜像,然后直接使用该镜像去创建容器即可。

    docker commit 471c mytest:v1

    这里做个简单的解释,471c是已有容器的id,mytest是我们封装成镜像的名称,冒号后面的v1则是镜像的版本名。

    显示这个就表明创建成功,我们再去查看一下镜像列表

    可以看到列表中多了一个mytest,也就是我们封装的镜像。

    Docker网络配置基础

    之前给大家介绍过我们整个分布式的难点就是容器之间的通信,上面所写的知识可以帮助我们去创建容器,但是每个容器都是一个独立的个体,我们怎样去使其相互连通呢?

    我们首先创建一个子节点容器,名字命名为h1

    docker run -tid --name h1 mytest:v1

    然后我们再创建一个容器,让这个容器和h1进行通信:

    docker run -tid --name h2 --link h1 5953

    我们该如何知道他们之间就相互通信了呢?

    大家可以看图,我们首先进入h2的容器中,然后输入 cat /etc/hosts

    可以看到有 172.18.0.4 是h1的ip地址,我们可以通过ping这个网址来判断是否真正通信成功

    可以看到我们通信是成功的!

    写了很多,大家一次性可能不能完全消化,但是大家最好收藏起来,忘记哪个命令的时候可以进行查看,如果文章里面有错误,可以私聊我,我会及时改正。

    分布式爬虫是一个系列的文章,大家持续关注!

    欢迎大家关注笔者的微信公众号:JAVAandPython君

    相关文章

      网友评论

          本文标题:Python分布式爬虫-必须掌握的Docker基础!

          本文链接:https://www.haomeiwen.com/subject/vmbfdctx.html