[转]复制文件空洞问题(cat与cp)的区别

作者: 文蜘蛛 | 来源:发表于2019-12-07 19:58 被阅读0次

[转]复制文件空洞问题(cat与cp)的区别
文件管理
Hadoop常用shell命令
7月8日关于文件的命令
Linux 文件与目录管理 ---学习笔记
Linux 简单命令
linux下文件的复制、移动与删除
linux每日学习（一）
linux清空日志文件内容的几种常用方法
Ubuntu文件的复制、移动和删除命令

上次课上学了lseek这个函数，可以制造出“空洞”文件。演示中，我们发现，用vi或者od命令查看带空洞的文件，空洞部分填满了字符0。于是产生了：

问题一：空洞文件和用字符0写同样长度的文件一样吗？

我们来写一个2000000个’/0’的文件write0.file，再创建一个有长2000000的空洞的文件hole.file。具体方法就不用赘述了(前面直接写，后面lseek)。然后用ls –ls命令查看(当然也可以用du，不过比较麻烦)，发现write0.file的大小为1960k，而hole.file只有8k。所以：

问题一的答案是：不一样。虽然我们用vi或者od读取这两个文件，内容都是显示的一样的，但是这两个文件是有本质的区别的。

问题二：用我们自己写的文件mycp(或者cat)，拷贝出两个文件，是什么效果？

用./mycp<write0.file>mycp.write0.file和./mycp<hole.file>mycp.hole.file。再ls –ls一下发现：拷贝出来的两个文件都是1960k！看来我们的拷贝并没有真正复制到文件全部的信息。

问题二的答案是：结果是一样的。有空洞的文件拷贝完成后，所占磁盘空间变大了。我们写的那个拷贝有bug，所以：

问题三：用shell里面的cp拷贝的结果一样吗？

用cp write0.file cp.write0.file和cp hole.file cp.hole.file 。再ls –ls一下发现：拷贝出来的两个文件和源文件所占磁盘空间是一样的！应该说，shell里面的那个cp比咱们的要牛一些，它不会丢失文件的信息。man一下cp发现一个参- -sparse，这个参数专门用来处理文件空洞，它的值有三：auto（默认的，原来有洞，拷贝出来就有洞。原来没洞，拷贝出来也没洞）；always（有没有洞都填满0），never（有没有洞都不填）。

答案三：cp比mycp功能强大。于是：

问题四：cp是怎么实现的？

这种问题有个万能解决办法——看源码。

#if HAVE_STRUCT_STAT_ST_BLOCKS
if (x->sparse_mode == SPARSE_AUTO && S_ISREG (sb.st_mode))
{
    /* Use a heuristic to determine whether SRC_PATH contains any sparse blocks. */
    if (fstat (source_desc, &sb))
    {
        error (0, errno, _("cannot fstat %s"), quote (src_path));
        return_val = -1;
        goto close_src_and_dst_desc;
    }
    /* If the file has fewer blocks than would normally be needed for a file of its size, then at least one of the blocks in the file is a hole. */
    if (S_ISREG (sb.st_mode) && sb.st_size / ST_NBLOCKSIZE > ST_NBLOCKS (sb))
         make_holes = 1;
}

关键在最后一个if判断，通过注释可以看出，它通过比较sb.st_size/ ST_NBLOCKSIZE（sb是被拷文件的stat，表示inode里面存放的文件的长度）和ST_NBLOCKS (sb)（表示所占的实际磁盘大小）。来判断有没有空洞，进行处理。如果有空洞，就跳，如果没有空洞，就写0。具体实现在这里：


if (make_holes)
{
    buf[n_read] = 1;   /* Sentinel to stop loop.  */
    /* Find first nonzero *word*, or the word with the sentinel.  */

    ip = (int *) buf;
    while (*ip++ == 0)
        ;

    /* Find the first nonzero *byte*, or the sentinel.  */
    cp = (char *) (ip - 1);
    while (*cp++ == 0)
        ;

    /* If we found the sentinel, the whole input block was zero, and we can make a hole.  */
    if (cp > buf + n_read)
    {
        /* Make a hole.  */
        if (lseek (dest_desc, (off_t) n_read, SEEK_CUR) < 0L)
        {
            error (0, errno, _("cannot lseek %s"), quote (dst_path));
            return_val = -1;
            goto close_src_and_dst_desc;
        }
        last_write_made_hole = 1;
    }
    else
        /* Clear to indicate that a normal write is needed. */
        ip = 0;
}

问题四答案：嗯！确实比咱们的mycp考虑的周全，但是有没有别的问题呢？

问题五：如果一个文件里面既有空洞，又有人故意写了许多0字符。那么cp还能正确拷贝出源文件的大小吗？

先想一想，如果要我做，我该怎么实现，想来想去发现这个问题好难实现。难处在于就算通过判断文件大小分析出确实存在空洞，但是要找到哪里有空洞，还是需要一个一个读。但是是空洞的地方读出来就是0字符，和专门写的0字符没有办法分辨。看看上面cp的源码，好像也没有考虑这个问题。于是我试验了一下，创建一个文件cp.test，先lseek了1000000然后又继续写了1000000个0字符。先用ls –ls看看结果，发现它的长度为2000000，占用空间为984k。好，分别用sparse的三个参数拷贝出三个文件：cp.auto;cp.always;cp.never。再查看大小，发现cp.auto和cp.always都是只有8k，cp.never有1960k。没有一个是源程序的大小984k。看来真的没有办法分别空洞和0字符的位置了。

问题五答案：cp也有拷贝不正确的时候。从这里看出，感觉auto和always参数都是一个意思，设计的有些重复了。

得到许多结论：

一、空洞和单纯的0字符并不完全一样，只是空洞被读时会输出0字符。

二、咱们写的那个mycp的程序并不完善，并不能实现cp空洞文件的功能。

三、shell的cp工具也不完善，处理空洞文件时也是有bug的。虽然可以判断出文件有没有空洞，但是不能知道哪里是真正的空洞，哪里是“伪装的空洞”。

四、从cp的源码里面学到sb.st_size和ST_NBLOCKS (sb)，一般来说，这两个东西所代表的是不一样的。

网友评论

本文标题：[转]复制文件空洞问题(cat与cp)的区别

本文链接：https://www.haomeiwen.com/subject/vmzugctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[转]复制文件空洞问题(cat与cp)的区别

相关文章