美文网首页BG-Linux
详解rsync,一款卓越的增量同步工具(一)

详解rsync,一款卓越的增量同步工具(一)

作者: 木石文若 | 来源:发表于2018-08-02 16:26 被阅读0次

    一、Rsync是什么?

    Rsync (remote rsync) 是可以实现增量备份的远程(和本地)文件复制工具,目的是实现本地主机和远程主机上的文件同步(包括本地推到远程,远程拉到本地两种同步方式),也可以实现本地不同路径下(不同目录、分区之间)文件的同步,但不能实现远程路径1到远程路径2之间的同步(scp可以实现)。配合计划任务,rsync能实现定时或周期同步;配合inotify或sersync,可以实现触发式的实时同步

    本篇文章主要介绍rsync的使用方法和它常用的功能。
    rsync官方网站: https://rsync.samba.org/

    二、 rsync同步过程讲解

    不考虑rsync的实现细节,就文件同步而言,涉及了源文件和目标文件的概念,还涉及了以哪边文件为同步基准。例如,想让目标主机上的文件和本地文件保持同步,则是以本地文件为同步基准,将本地文件作为源文件推送到目标主机上。反之,如果想让本地主机上的文件和目标主机上的文件保持同步,则目标主机上的文件为同步基准,实现方式是将目标主机上的文件作为源文件拉取到本地。当然,要保持本地的两个文件相互同步,rsync也一样能实现,这就像Linux中cp命令一样,以本地某文件作为源,另一文件作为目标文件,但请注意,虽然rsync和cp能达到相同的目的,但它们的实现方式是不一样的。

    既然是文件同步,在同步过程中必然会涉及到源和目标两文件之间版本控制的问题,例如是否要删除源主机上没有但目标上多出来的文件,目标文件比源文件更新(newer than source)时是否仍要保持同步,遇到软链接时是拷贝软链接本身还是拷贝软链接所指向的文件,目标文件已存在时是否要先对其做个备份等等。

    rsync同步过程中由两部分模式组成:决定哪些文件需要同步的检查模式以及文件同步时的同步模式。

    (1).检查模式是指按照指定规则来检查哪些文件需要被同步,例如哪些文件是明确被排除不传输的。默认情况下,rsync使用"quick check"算法快速检查源文件和目标文件的大小、mtime(修改时间)是否一致,如果不一致则需要传输。当然,也可以通过在rsync命令行中指定某些选项来改变quick check的检查模式,比如"--size-only"选项表示"quick check"将仅检查文件大小不同的文件作为待传输文件。rsync支持非常多的选项,其中检查模式的自定义性是非常有弹性的。

    (2).同步模式是指在文件确定要被同步后,在同步过程发生之前要做哪些额外工作。例如上文所说的是否要先删除源主机上没有但目标主机上有的文件,是否要先备份已存在的目标文件,是否要追踪链接文件等额外操作。rsync也提供非常多的选项使得同步模式变得更具弹性。

    相对来说,为rsync手动指定同步模式的选项更常见一些,只有在有特殊需求时才指定检查模式,因为大多数检查模式选项都可能会影响rsync的性能。

    三、 rsync三种工作方式

    以下是rsync的语法:

     Local: rsync [OPTION...] SRC... [DEST] 
    
    Access via remote shell:
    
    Pull: rsync [OPTION...] [USER@]HOST:SRC... [DEST]
    
    Push: rsync [OPTION...] SRC... [USER@]HOST:DEST 
    
    Access via rsync daemon: 
    
    Pull: rsync [OPTION...] [USER@]HOST::SRC... [DEST]
    
    rsync [OPTION...] rsync://[USER@]HOST[:PORT]/SRC... [DEST]
    
    Push: rsync [OPTION...] SRC... [USER@]HOST::DEST
    
    rsync [OPTION...] SRC... rsync://[USER@]HOST[:PORT]/DEST 
    

    由此语法可知,rsync有三种工作方式:

    (1).本地文件系统上实现同步。命令行语法格式为上述"Local"段的格式。
    (2).本地主机使用远程shell和远程主机通信。命令行语法格式为上述"Access via remote shell"段的格式。
    (3).本地主机通过网络套接字连接远程主机上的rsync daemon。命令行语法格式为上述"Access via rsync daemon"段的格式。

    前两者的本质是通过管道通信,即使是远程shell。而方式(3)则是让远程主机上运行rsync服务,使其监听在一个端口上,等待客户端的连接。

    但是,还有第四种工作方式:

    (4).通过远程shell也能临时启动一个rsync daemon,这不同于方式(3),它不要求远程主机上事先启动rsync服务,而是临时派生出rsync daemon,它是单用途的一次性daemon,仅用于临时读取daemon的配置文件,当此次rsync同步完成,远程shell启动的rsync daemon进程也会自动消逝。此通信方式的命令行语法格式同"Access via rsync daemon",但要求options部分必须明确指定"--rsh"选项或其短选项"-e"。

    四、 Rsync优势

    • 速度快:除首次全拷贝外,其他时候实现增量拷贝,传输速度快

    • 更安全:传输数据时可用ssh加密传输

    • 带宽占用更少:rsync可对数据进行分块压缩传输,相比其他文件传输工具占用更少带宽

    • 权限限制:非root用户也可安转和执行rsync命令

    • 支持目录层级递归拷贝,可以镜像保存整个目录树和文件系统

    • 支持限速

    • 支持断点续传

    • 支持128位MD4校验(3.0以后版本使用MD5加密)

    • 可以很容易做到保持原来文件的权限、时间、软硬链接等等

    五、 Rsync服务器端+客户端环境部署【yum安装】

    如需源码安装,请关注即将发布的《详解Rsync,一款卓越的增量同步工具(二)》

    系统环境:

    服务器配置:阿里云ECS 11G

    操作系统:CentOS7.2

    rsync 版本:3.1.2

    rsync 服务器:rsync-server (10.168.152.72)

    rsync 客户端:rsync-client (10.117.217.172)

    5.1 服务器端安装、配置rsync服务
    • 5.1.1 安装

    检查rsync 是否已经安装

    yum list installed | grep rsync
    

    若已安装,无需重新安装;若未安装,用以下命令安装:

    yum install rsync -y
    
    • 5.1.2 服务器端配置
    vim /etc/rsyncd.conf
    

    写入以下配置到该文件:

    # /etc/rsyncd: configuration file for rsync daemon mode
    # See rsyncd.conf man page for more options.
    
    # GLOBAL OPTIONS
    uid = root                         
    gid = root                                  
    use chroot = no                             
    max connections = 0                                                   
    pid file = /var/run/rsyncd.pid             
    #This will give you a separate log file
    log file = /var/log/rsync.log               
    motd file = /etc/rsyncd/rsyncd.motd    
    lock file = /var/run/rsyncd.lock
    secrets file = /etc/rsyncd/rsyncd.secrets        
    #This will log every file transferred - up to 85,000+ per user, per sync
    transfer logging = yes                    
    log format = %t %a %m %f %b
    timeout = 300
    
    # MODULE OPTIONS
    [appdata]                               
    path = /appdata/                                                                                
    auth users = root                         
    comment = app data            
    exclude = photos/ 
    
    • 5.1.3 建立/etc/rsyncd/rsyncd.secrets文件
    vim /etc/rsyncd/rsyncd.secrets
    

    输入,格式是“用户名:口令”,用户不要求是系统用户
    root:pwd123456

    • 5.1.4 为了密码的安全性,修改secrets文件权限为600
    chmod 600 /etc/rsyncd/rsyncd.secrets
    
    • 5.1.5 建立连接到服务器的客户端看到的欢迎信息文件/etc/rsyncd/rsyncd.motd
    vim /etc/rsyncd/rsyncd.motd
    

    输入:
    ======welcome to synchronize appdata======

    • 5.1.6 启动rsync服务
    rsync --daemon
    
    • 5.1.7 查看873端口是否起来
    netstat -tunpl
    

    如果rsync启动成功,可以看到873端口已经在监听了。

    5.2 客户端服务器配置
    • 5.2.1 安装

    检查rsync 是否已经安装

    yum list installed | grep rsync
    

    若已安装,无需重新安装;若未安装,用以下命令安装:

    yum install rsync -y
    
    • 5.2.2 启动rsync服务
    rsync --daemon
    
    5.3 通过rsync客户端同步数据
    image.png

    更多同步数据的场景演示,请关注即将发布的《详解Rsync,一款卓越的增量同步工具(二)》

    六、Rsync配置文件全解析

    配置文件 rsyncd.conf 由全局配置和若干模块配置组成。配置文件的语法为:

    • 模块以 [模块名] 开始

    • 参数配置行的格式是 name = value ,其中 value 可以有两种数据类型:

      • 字符串(可以不用引号定界字符串)

      • 布尔值(1/0 或 yes/no 或 true/false)

    • 以 # 或 ; 开始的行为注释

    • \ 为续行符

    全局参数

    在文件中 [module] 之外的所有配置行都是全局参数。当然也可以在全局参数部分定义模块参数,这时该参数的值就是所有模块的默认值。

    参数 说明 默认值
    address 在独立运行时,用于指定的服务器运行的 IP 地址。由 xinetd 运行时将忽略此参数,使用命令行上的 –address 选项替代。 本地所有IP
    port 指定 rsync 守护进程监听的端口号。 由 xinetd 运行时将忽略此参数,使用命令行上的–port 选项替代。 873
    motd file 指定一个消息文件,当客户连接服务器时该文件的内容显示给客户。
    pid file rsync 的守护进程将其 PID 写入指定的文件。
    log file 指定 rsync 守护进程的日志文件,而不将日志发送给 syslog。
    syslog facility 指定 rsync 发送日志消息给 syslog 时的消息级别。 daemon
    socket options 指定自定义 TCP 选项。

    模块参数

    模块参数主要用于定义 rsync 服务器哪个目录要被同步。模块声明的格式必须为 [module] 形式,这个名字就是在 rsync 客户端看到的名字,类似于 Samba 服务器提供的共享名。而服务器真正同步的数据是通过 path 来指定的。可以根据自己的需要,来指定多个模块,模块中可以定义以下参数:

    a. 基本模块参数

    参数 说明 默认值
    path 指定当前模块在 rsync 服务器上的同步路径,该参数是必须指定的。
    comment 给模块指定一个描述,该描述连同模块名在客户连接得到模块列表时显示给客户。

    b. 模块控制参数

    参数 说明 默认值
    use chroot 若为 true,则 rsync 在传输文件之前首先 chroot 到 path 参数所指定的目录下。这样做的原因是实现额外的安全防护,但是缺点是需要 root 权限,并且不能备份指向 path 外部的符号连接所指向的目录文件。 true
    uid 指定该模块以指定的 UID 传输文件。 nobody
    gid 指定该模块以指定的 GID 传输文件。 nobody
    max connections 指定该模块的最大并发连接数量以保护服务器,超过限制的连接请求将被告知随后再试。 0(没有限制)
    lock file 指定支持 max connections 参数的锁文件。 /var/run/rsyncd.lock
    list 指定当客户请求列出可以使用的模块列表时,该模块是否应该被列出。如果设置该选项为 false,可以创建隐藏的模块。 true
    read only 指定是否允许客户上传文件。若为 true 则不允许上传;若为 false 并且服务器目录也具有读写权限则允许上传。 true
    write only 指定是否允许客户下载文件。若为 true 则不允许下载;若为 false 并且服务器目录也具有读权限则允许下载。 false
    ignore errors 指定在 rsync 服务器上运行 delete 操作时是否忽略 I/O 错误。一般来说 rsync 在出现 I/O 错误时将将跳过 –delete 操作,以防止因为暂时的资源不足或其它 I/O 错误导致的严重问题。 true
    ignore nonreadable 指定 rysnc 服务器完全忽略那些用户没有访问权限的文件。这对于在需要备份的目录中有些不应该被备份者获得的文件时是有意义的。 false
    timeout 该选项可以覆盖客户指定的 IP 超时时间。从而确保 rsync 服务器不会永远等待一个崩溃的客户端。对于匿名 rsync 服务器来说,理想的数字是 600(单位为秒)。 0 (未限制)
    dont compress 用来指定那些在传输之前不进行压缩处理的文件。该选项可以定义一些不允许客户对该模块使用的命令选项列表。必须使用选项全名,而不能是简称。当发生拒绝某个选项的情况时,服务器将报告错误信息然后退出。例如,要防止使用压缩,应该是:”dont compress = *”。 *.gz *.tgz *.zip *.z *.rpm *.deb *.iso *.bz2 *.tbz

    c. 模块文件筛选参数

    参数 说明 默认值
    exclude 指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 exclude 列表中。这等同于在客户端命令中使用 –exclude 来指定模式。
    exclude from 指定一个包含 exclude 规则定义的文件名,服务器从该文件中读取 exclude 列表定义。
    include 指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 include 列表中。这等同于在客户端命令中使用 –include 来指定模式 。
    include from 指定一个包含 include 规则定义的文件名,服务器从该文件中读取 include 列表定义。
    • 一个模块只能指定一个exclude 参数、一个include 参数。
    • 结合 include 和 exclude 可以定义复杂的exclude/include 规则 。
    • 这几个参数分别与相应的rsync 客户命令选项等价,唯一不同的是它们作用在服务器端。
    • 关于如何书写规则文件的内容请参考http://www.howtocn.org/rsync:use_rsync

    d. 模块用户认证参数

    参数 说明 默认值
    auth users 指定由空格或逗号分隔的用户名列表,只有这些用户才允许连接该模块。这里的用户和系统用户没有任何关系。用户名和口令以明文方式存放在 secrets file 参数指定的文件中。 (匿名方式)
    secrets file 指定一个 rsync 认证口令文件。只有在 auth users 被定义时,该文件才起作用。
    strict modes 指定是否监测口令文件的权限。若为 true 则口令文件只能被 rsync 服务器运行身份的用户访问,其他任何用户不可以访问该文件。 true
    • rsync 认证口令文件的权限一定是 600,否则客户端将不能连接服务器。
    • rsync 认证口令文件中每一行指定一个 用户名:口令对,
      格式为:username:passwd
    • 一般来说口令最好不要超过8个字符。若您只配置匿名访问的 rsync 服务器,则无需设置上述参数。

    e. 模块访问控制参数

    参数 说明 默认值
    hosts allow 用一个主机列表指定哪些主机客户允许连接该模块。不匹配主机列表的主机将被拒绝。 *
    hosts deny 用一个主机列表指定哪些主机客户不允许连接该模块。

    客户主机列表定义可以是以下形式:

    • 单个IP地址。例如:192.168.0.1
    • 整个网段。例如:192.168.0.0/24,192.168.0.0/255.255.255.0
    • 可解析的单个主机名。例如:centos,centos.bsmart.cn
    • 域内的所有主机。例如:*.bsmart.cn
    • “*”则表示所有。
    • 多个列表项要用空格间隔。

    f. 模块日志参数

    参数 说明 默认值
    transfer logging 使 rsync 服务器将传输操作记录到传输日志文件。 false
    log format 指定传输日志文件的字段。 ”%o %h [%a] %m (%u) %f %l”

    设置了”log file”参数时,在日志每行的开始会添加”%t [%p]“。
    可以使用的日志格式定义符如下所示:

    • %a - 远程IP地址

    • %h - 远程主机名

    • %l - 文件长度字符数

    • %p - 该次 rsync 会话的 PID

    • %o - 操作类型:”send” 或 “recv”

    • %f - 文件名

    • %P - 模块路径

    • %m - 模块名

    • %t - 当前时间

    • %u - 认证的用户名(匿名时是 null)

    • %b - 实际传输的字节数

    • %c - 当发送文件时,记录该文件的校验码

    相关文章

      网友评论

        本文标题:详解rsync,一款卓越的增量同步工具(一)

        本文链接:https://www.haomeiwen.com/subject/udfqvftx.html