美文网首页
MPI集群的搭建

MPI集群的搭建

作者: 一个扫地的垃圾 | 来源:发表于2019-08-08 20:09 被阅读0次

1 使用虚拟机搭建小型集群

1.1 预备条件

  • 真实计算机系统:macOS Mojave 10.14.6
  • 虚拟机软件:VMware 11.0.1
  • 虚拟机个数:2
  • 虚拟机连接方式:桥接
  • Linux操作系统:CentOS 7
  • MPICH版本:3.3.1

1.2 小型虚拟集群搭建

  由于MPI是以进程方式进行并行计算,我们在使用MPI是要以真实的分布式集群作为程序运行条件,但是可以用个人电脑上的虚拟机来实现模拟集群的搭建过程,MPI并行环境的建立主要有三个关键步骤。

  一是利用SSH配置好节点间的通信,具体要实现集群内部各节点之间无需密码访问,因为MPICH在进行计算时需要在各个节点机交换数据和文件,集群内的各个节点应该为互相信任的节点。

  二是利用NFS服务来共享制定的文件夹,例如共享的安装文件夹、数据文件夹和程序的文件夹,这样就可以避免在所有节点上重复安装或者复制数据或分发程序

  三是对MPICH的配置、编译以及安装的过程。

1.2.1 主机名称重命名

  为了能够清晰地分辨不同的主机,我们可以对主机的名称进行修改。将第一台主机的名称修改为node1:hostnamectl set-hostname node1,第二台主机的名称为node2:hostnamectl set-hostname node2

1.2.2 修改hosts文件

  hosts文件是用来对主机名或域名做IP地址解析,如果修改此文件将主机名和IP地址关联,则我们在后面遇到关于输入IP地址的操作都可以用主机名称代替,当然也选择始终输入IP地址而无需更改此文件。使用vim命令打开并编辑/etc/hosts文件,在末尾加上IP地址 主机名称,需要注意的是要在所有节点下修改hosts文件。

#在node1和node2中都修改hosts文件才可生效
vim /etc/hosts
#文件内容如下
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
172.27.80.248 node1 #此行为添加的内容
172.27.80.247 node2 #此行为添加的内容                 

  在node1和node2节点机分别按照上述修改hosts文件之后,可以使用ping操作验证node1和node2是否相互解析成功。

[root@node1 ~]# ping node2 
PING node2 (172.27.80.248) 56(84) bytes of data.
64 bytes from node2 (172.27.80.247): icmp_seq=1 ttl=64 time=0.074 ms
64 bytes from node2 (172.27.80.247): icmp_seq=2 ttl=64 time=0.032 ms
···
[root@node2 ~]# ping node1
PING node1 (172.27.80.248) 56(84) bytes of data.
64 bytes from node1 (172.27.80.248): icmp_seq=1 ttl=64 time=0.367 ms
64 bytes from node1 (172.27.80.248): icmp_seq=2 ttl=64 time=0.906 ms
···

1.2.3 设置SSH

useradd和adduser的区别:

  • useradd在后面不添加任何选项时,会创建一个没有主目录、没有密码、没有系统shell的用户。
  • adduser会提示用户去设置密码、创建目录。

adduser适合初学者但是较为繁琐,对于高级用而言可以使用useradd命令加上选项快速完成创建用户操作。

步骤一:在两台节点机下分别创建相同的用户mpi,并设置相同的密码方便记忆。使用useradd命令,并使用-u选项创建用户,-u选项的后面紧接uid号码,uid号码为用户的自行设置,在CentOS 7中要大于1000

[root@node1 ~]# useradd -u 1100 mpi
[root@node1 ~]# passwd mpi
[root@node2 ~]# useradd -u 1100 mpi
[root@node2 ~]# passwd mpi

步骤二:在node1节点机下使用su命令切换到mpi用户下

[root@node1 ~]# su - mpi
[mpi@node1 ~]$ 

步骤三:使用ssh-keygen生成证书密钥(公钥和私钥),存放在/home/mpi/.ssh下

[mpi@node1 ~]$ ssh-keygen -t dsa
#接下来遇到提示回车即可

步骤四:使用ssh-copy-id分别复制证书公钥到node1、node2节点机上,第一次复制证书时提示须输入yes,然后按照提示输入密码

[mpi@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub mpi@node1
[mpi@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub mpi@node2

步骤五:在node1节点上使用ssh登陆node2节点,无需密码即为免密登录成功

[mpi@node1 ~]$ ssh node2
[mpi@node2 ~]$ exit #退出node2远程登录

步骤六:使用scp复制证书私钥到node2节点机上,以实现相互免密登录

[mpi@node1 ~]$ scp .ssh/id_dsa node2:/home/mpi/.ssh

步骤七:在node2节点上使用ssh登录node1节点机,无需密码即为免密登录成功

[mpi@node2 ~]$ ssh node1
[mpi@node1 ~]$ exit #退出node1远程登录

1.2.4 关闭SELinux和防火墙

  SELinux(Security-Enhanced Linux) 是美国国家安全局(NSA)对于强制访问控制的实现,是 Linux历史上最杰出的新安全子系统。

  • 临时关闭SELinux:setenforce 0
  • 永久关闭SELinux:修改/etc/selinux/config文件信息,将SELINUX的等号右端改为disabled

  防火墙等安全设置是一项用于协助确保安全信息的设备,它会按照特定的规则,允许或是限制传输的数据通过。虽然说采用防火墙会保护用户数据的使用安全,但在一定程度上看会限制一些网络功能。由于CentOS 6和CentOS 7在防火墙的关闭操作上有很大区别,这里详细描述如何关闭CentOS 7的防火墙操作,CentOS 7默认使用的是firewall作为防火墙,具体关闭防火墙操作如下:

  • 查看防火墙状态:firewall-cmd --state
  • 停用防火墙:systemctl stop firewalld.service
  • 禁止开机启动防火墙:systemctl disable firewalld.service

  需要注意的是,在设置NFS之前应该关闭所有节点机的SELinux和防火墙,如果没有关闭则会导致SSH免密登陆和共享文件失败。

1.2.5 设置NFS

步骤一:安装NFS主程序的软件包nfs-utils和PRC主程序的软件包rpcbind(NFS的RPC服务在CentOS 5中的名称为portmap,在CentOS 6和CentOS 7中的名称为rpcbind)

yum -y install nfs-utils
yum -y install rpcbind

步骤二:编辑配置文件/etc/exports

vim /etc/exports

编辑内容的格式为[要共享的目录] IP地址或网段号([选项],[选项],···)

选项:

  • rw:表示读写操作
  • sync:表示同步操作
  • no_all_squash:表示远程用户不映射到nfsnobody

假如我们要共享有限个主机,只需按行分别写出IP地址后面加上以CIDR方式标注的子网掩码(/"二进制子网掩码中1的个数"),具体的IP地址和子网掩码请使用ipconfig命令查看并自行换算;假如我们要共享整个网段的主机,则直接填写网段号后面同样加上以CIDR方式标注的子网掩码。具体编辑配置文件的内容如下:

#若共享有限个主机,共享/home/mpi文件夹
/home/mpi 172.27.80.248/16 (rw,sync,no_all_squash)
/home/mpi 172.27.80.247/16 (rw,sync,no_all_squash)
#若共享整个网段,共享/home/mpi文件夹
/home/mpi 172.27.80.0/16 (rw,sync,no_all_squash)

步骤三:启动rpcbind服务和nfs服务使配置文件生效,需要注意的是在启动nfs服务之前需要启动rpcbind

systemctl start rpcbind #启动rpcbind服务
systemtctl start nfs #启动nfs服务

步骤四:在其他节点机上挂载nfs共享目录,此时node2节点机共享node1节点机的/home/mpi目录

[root@node2 mpi]# mount 172.27.80.248:/home/mpi /home/mpi #在node2节点下共享node1节点的文件
[root@node2 mpi]# su - mpi #切换到mpi用户下
Last login: Thu Aug  8 11:32:53 CST 2019 on pts/0
[mpi@node2 ~]$ touch test #在node2节点机下创建文件
[root@node1 mpi]# ls -l /home/mpi #在node1节点机下查看
total 0
drwxr-xr-x. 2 mpi mpi 40 Aug  7 20:50 Desktop
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Documents
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Downloads
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Music
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Pictures
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Public
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Templates
-rw-rw-r--  1 mpi mpi  0 Aug  8 11:34 test #文件存在
drwxr-xr-x. 2 mpi mpi  6 Aug  7 10:17 Videos

此时,nfs共享服务已经配置成功,需要注意的是假如我们在重新启动集群时,需要分别在不同的节点机上断开防火墙,重新启动rpcbind服务和nfs服务,再进行文件夹的挂载共享。

1.26 MPICH3.3.1安装

  此部分主要的安装过程和之前的文章《MPICH3.3.1 安装》大致相同,此时需要注意的是安装文件目录需改为/home/mpi/mpich-3.3.1,因为我们在之前配置NFS服务时已经将共享的文件目录设置为/home/mpi,同时需要将使用MPICH的root用户修改为mpi用户chown -R mpi:mpi /home/mpi

2 使用真实主机搭建小型集群

  需要使用交换机将真实主机连接在同一局域网下,使用手工配置网络,其余步骤相同。

相关文章

网友评论

      本文标题:MPI集群的搭建

      本文链接:https://www.haomeiwen.com/subject/ecpfjctx.html