1 使用虚拟机搭建小型集群
1.1 预备条件
- 真实计算机系统:macOS Mojave 10.14.6
- 虚拟机软件:VMware 11.0.1
- 虚拟机个数:2
- 虚拟机连接方式:桥接
- Linux操作系统:CentOS 7
- MPICH版本:3.3.1
1.2 小型虚拟集群搭建
由于MPI是以进程方式进行并行计算,我们在使用MPI是要以真实的分布式集群作为程序运行条件,但是可以用个人电脑上的虚拟机来实现模拟集群的搭建过程,MPI并行环境的建立主要有三个关键步骤。
一是利用SSH配置好节点间的通信,具体要实现集群内部各节点之间无需密码访问,因为MPICH在进行计算时需要在各个节点机交换数据和文件,集群内的各个节点应该为互相信任的节点。
二是利用NFS服务来共享制定的文件夹,例如共享的安装文件夹、数据文件夹和程序的文件夹,这样就可以避免在所有节点上重复安装或者复制数据或分发程序
三是对MPICH的配置、编译以及安装的过程。
1.2.1 主机名称重命名
为了能够清晰地分辨不同的主机,我们可以对主机的名称进行修改。将第一台主机的名称修改为node1:hostnamectl set-hostname node1
,第二台主机的名称为node2:hostnamectl set-hostname node2
1.2.2 修改hosts文件
hosts文件是用来对主机名或域名做IP地址解析,如果修改此文件将主机名和IP地址关联,则我们在后面遇到关于输入IP地址的操作都可以用主机名称代替,当然也选择始终输入IP地址而无需更改此文件。使用vim
命令打开并编辑/etc/hosts
文件,在末尾加上IP地址 主机名称
,需要注意的是要在所有节点下修改hosts文件。
#在node1和node2中都修改hosts文件才可生效
vim /etc/hosts
#文件内容如下
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
172.27.80.248 node1 #此行为添加的内容
172.27.80.247 node2 #此行为添加的内容
在node1和node2节点机分别按照上述修改hosts文件之后,可以使用ping操作验证node1和node2是否相互解析成功。
[root@node1 ~]# ping node2
PING node2 (172.27.80.248) 56(84) bytes of data.
64 bytes from node2 (172.27.80.247): icmp_seq=1 ttl=64 time=0.074 ms
64 bytes from node2 (172.27.80.247): icmp_seq=2 ttl=64 time=0.032 ms
···
[root@node2 ~]# ping node1
PING node1 (172.27.80.248) 56(84) bytes of data.
64 bytes from node1 (172.27.80.248): icmp_seq=1 ttl=64 time=0.367 ms
64 bytes from node1 (172.27.80.248): icmp_seq=2 ttl=64 time=0.906 ms
···
1.2.3 设置SSH
useradd和adduser的区别:
- useradd在后面不添加任何选项时,会创建一个没有主目录、没有密码、没有系统shell的用户。
- adduser会提示用户去设置密码、创建目录。
adduser适合初学者但是较为繁琐,对于高级用而言可以使用useradd命令加上选项快速完成创建用户操作。
步骤一:在两台节点机下分别创建相同的用户mpi,并设置相同的密码方便记忆。使用useradd命令,并使用-u选项创建用户,-u选项的后面紧接uid号码,uid号码为用户的自行设置,在CentOS 7中要大于1000
[root@node1 ~]# useradd -u 1100 mpi
[root@node1 ~]# passwd mpi
[root@node2 ~]# useradd -u 1100 mpi
[root@node2 ~]# passwd mpi
步骤二:在node1节点机下使用su
命令切换到mpi用户下
[root@node1 ~]# su - mpi
[mpi@node1 ~]$
步骤三:使用ssh-keygen生成证书密钥(公钥和私钥),存放在/home/mpi/.ssh下
[mpi@node1 ~]$ ssh-keygen -t dsa
#接下来遇到提示回车即可
步骤四:使用ssh-copy-id分别复制证书公钥到node1、node2节点机上,第一次复制证书时提示须输入yes,然后按照提示输入密码
[mpi@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub mpi@node1
[mpi@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub mpi@node2
步骤五:在node1节点上使用ssh登陆node2节点,无需密码即为免密登录成功
[mpi@node1 ~]$ ssh node2
[mpi@node2 ~]$ exit #退出node2远程登录
步骤六:使用scp复制证书私钥到node2节点机上,以实现相互免密登录
[mpi@node1 ~]$ scp .ssh/id_dsa node2:/home/mpi/.ssh
步骤七:在node2节点上使用ssh登录node1节点机,无需密码即为免密登录成功
[mpi@node2 ~]$ ssh node1
[mpi@node1 ~]$ exit #退出node1远程登录
1.2.4 关闭SELinux和防火墙
SELinux(Security-Enhanced Linux) 是美国国家安全局(NSA)对于强制访问控制的实现,是 Linux历史上最杰出的新安全子系统。
- 临时关闭SELinux:
setenforce 0
- 永久关闭SELinux:修改
/etc/selinux/config
文件信息,将SELINUX的等号右端改为disabled
防火墙等安全设置是一项用于协助确保安全信息的设备,它会按照特定的规则,允许或是限制传输的数据通过。虽然说采用防火墙会保护用户数据的使用安全,但在一定程度上看会限制一些网络功能。由于CentOS 6和CentOS 7在防火墙的关闭操作上有很大区别,这里详细描述如何关闭CentOS 7的防火墙操作,CentOS 7默认使用的是firewall作为防火墙,具体关闭防火墙操作如下:
- 查看防火墙状态:
firewall-cmd --state
- 停用防火墙:
systemctl stop firewalld.service
- 禁止开机启动防火墙:
systemctl disable firewalld.service
需要注意的是,在设置NFS之前应该关闭所有节点机的SELinux和防火墙,如果没有关闭则会导致SSH免密登陆和共享文件失败。
1.2.5 设置NFS
步骤一:安装NFS主程序的软件包nfs-utils和PRC主程序的软件包rpcbind(NFS的RPC服务在CentOS 5中的名称为portmap,在CentOS 6和CentOS 7中的名称为rpcbind)
yum -y install nfs-utils
yum -y install rpcbind
步骤二:编辑配置文件/etc/exports
vim /etc/exports
编辑内容的格式为[要共享的目录] IP地址或网段号([选项],[选项],···)
选项:
- rw:表示读写操作
- sync:表示同步操作
- no_all_squash:表示远程用户不映射到nfsnobody
假如我们要共享有限个主机,只需按行分别写出IP地址后面加上以CIDR方式标注的子网掩码(/"二进制子网掩码中1的个数"),具体的IP地址和子网掩码请使用ipconfig
命令查看并自行换算;假如我们要共享整个网段的主机,则直接填写网段号后面同样加上以CIDR方式标注的子网掩码。具体编辑配置文件的内容如下:
#若共享有限个主机,共享/home/mpi文件夹
/home/mpi 172.27.80.248/16 (rw,sync,no_all_squash)
/home/mpi 172.27.80.247/16 (rw,sync,no_all_squash)
#若共享整个网段,共享/home/mpi文件夹
/home/mpi 172.27.80.0/16 (rw,sync,no_all_squash)
步骤三:启动rpcbind服务和nfs服务使配置文件生效,需要注意的是在启动nfs服务之前需要启动rpcbind
systemctl start rpcbind #启动rpcbind服务
systemtctl start nfs #启动nfs服务
步骤四:在其他节点机上挂载nfs共享目录,此时node2节点机共享node1节点机的/home/mpi
目录
[root@node2 mpi]# mount 172.27.80.248:/home/mpi /home/mpi #在node2节点下共享node1节点的文件
[root@node2 mpi]# su - mpi #切换到mpi用户下
Last login: Thu Aug 8 11:32:53 CST 2019 on pts/0
[mpi@node2 ~]$ touch test #在node2节点机下创建文件
[root@node1 mpi]# ls -l /home/mpi #在node1节点机下查看
total 0
drwxr-xr-x. 2 mpi mpi 40 Aug 7 20:50 Desktop
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Documents
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Downloads
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Music
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Pictures
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Public
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Templates
-rw-rw-r-- 1 mpi mpi 0 Aug 8 11:34 test #文件存在
drwxr-xr-x. 2 mpi mpi 6 Aug 7 10:17 Videos
此时,nfs共享服务已经配置成功,需要注意的是假如我们在重新启动集群时,需要分别在不同的节点机上断开防火墙,重新启动rpcbind服务和nfs服务,再进行文件夹的挂载共享。
1.26 MPICH3.3.1安装
此部分主要的安装过程和之前的文章《MPICH3.3.1 安装》大致相同,此时需要注意的是安装文件目录需改为/home/mpi/mpich-3.3.1
,因为我们在之前配置NFS服务时已经将共享的文件目录设置为/home/mpi
,同时需要将使用MPICH的root用户修改为mpi用户chown -R mpi:mpi /home/mpi
。
2 使用真实主机搭建小型集群
需要使用交换机将真实主机连接在同一局域网下,使用手工配置网络,其余步骤相同。
网友评论