美文网首页
文档的完全备份和增量备份

文档的完全备份和增量备份

作者: 隔壁python | 来源:发表于2019-07-11 22:36 被阅读0次

    要求:

    • 周一完全备份,其他时间增量备份
    • 源文件:/tmp/demo/security
    • 目标文件:/tmp/demo/backup
    • md5文件:/tmp/demp/backup/md5.data
    import hashlib                        #导入哈希模块,用于计算哈希值
    import tarfile                           #导入备份模块
    from time import strftime      #导入时间模块
    import os                  
    import pickle                        #pickle用于将任意类型数据以二进制写入文件
    
    def check_md5(fname):        #定义计算md5值的函数
        m = hashlib.md5()             #因一个文件对应一个md5值,所以使用字典
    
        with open(fname, 'rb') as fobj:    #打开要计算的文件,作为一个对象
            while True:
                data = fobj.read(4096)        #一次读取4k字节
                if not data:
                    break
                m.update(data)                    #如果读取到数据,就更新md5值
    
        return m.hexdigest()                  #计算完之后,返回md5值字典
      
    def full_backup(src, dst, md5file):                #定义完全备份函数
        fname = '%s_full_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d'))              #定义文件名:xxx_full_20190710.tar.gz
    #将文件名和路径组合:/tmp/demp/backup/xxx_full_20190710.tar.gz
        fname = os.path.join(dst, fname)      
    
        # 打压缩包
        tar = tarfile.open(fname, 'w:gz')        #以gz格式压缩
        tar.add(src)
        tar.close()                                        #压缩完成之后要关闭文件
    
        # 计算每个文件的md5值
        md5dict = {}                    #以字典类型保存md5值
    #os.walk输出的格式为[路径][文件夹名][文件名]
        for path, folders, files in os.walk(src):      
            for file in files:          
    #一个文件中可能有多个文件和文件夹,使用此方法可以遍历所有文件
                key = os.path.join(path, file)      #将路径和文件名组合起来
                md5dict[key] = check_md5(key)    #计算md5值
    
        # 把md5值字典保存到文件
    #wb方式打开,若文件有则清空,若无则创建
        with open(md5file, 'wb') as fobj:          
            pickle.dump(md5dict, fobj)      #使用pickle.dump写入
    
    #定义增量备份函数
    #思路:先计算当前目录的md5值,然后把前一天的md5值取出来比较,若不一样则备份
    
    def incr_backup(src, dst, md5file):            
        fname = '%s_incr_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d'))      #xxx_incr_20190710.tar.gz
    #/tmp/demo/backup/xxx_incr_20190710.tar.gz
        fname = os.path.join(dst, fname)  
    
        # 计算当前目录下文件的md5值
        md5dict = {}
        for path, folders, files in os.walk(src):
            for file in files:
                key = os.path.join(path, file)
                md5dict[key] = check_md5(key)
    
        # 取出前一天的文件md5值
        with open(md5file, 'rb') as fobj:
            old_md5 = pickle.load(fobj)
    
        # 找出变化的文件和新增的文件,把它们压缩
        tar = tarfile.open(fname, 'w:gz')
        for key in md5dict:      #遍历当前目录下的md5值
    #有两种情况,old_md5.get(key)为空,则为新文件,old_md5.get(key)和新的md5值不一样,则文件发送改变
            if old_md5.get(key) != md5dict[key]:      
                tar.add(key)
        tar.close()
    
        # 把当前的md5字典写到文件中,以便下一次比较使用
        with open(md5file, 'wb') as fobj:
            pickle.dump(md5dict, fobj)
    
    if __name__ == '__main__':  
        src = '/tmp/demo/security'          #源文件,要备份的文件
        dst = '/tmp/demo/backup'          #备份后的文件
        md5file = '/tmp/demo/backup/md5.data'        #md5值文件
        if strftime('%a') == 'Mon':                #周一执行完全备份
            full_backup(src, dst, md5file)
        else:
            incr_backup(src, dst, md5file)
    
    

    相关文章

      网友评论

          本文标题:文档的完全备份和增量备份

          本文链接:https://www.haomeiwen.com/subject/kdvjkctx.html