二进制文件IO与大小端

作者: wuzhiguo | 来源:发表于2016-09-23 16:54 被阅读472次

二进制文件IO与大小端
Minio设置永久下载链接
IO流2
前端常见下载功能
java二进制文本读写操作示例
文件
Scipy文件输入/输出/Mp3/图片
Golang I/O笔记
Prometheus监控系统简介(2.1.0)
io

1. 判断本机的大小端

C语言简单判断本地机器是大端还是小端原文链接

int isBigEndian()
{
    unsigned short test = 0x1234;//2 Bytes usigned integer for test Endian mode
    if(*((unsigned char*)&test)==0x12)
        return 1;
    else
        return 0;
}

指针的威力可见一斑！

取test地址，并强制转化为unsigned char指针。

(unsigned char*)&test

以unsigned char 规则来访问test首地址的一个字节

*((unsigned char*)&test)

判断该字节的值与0x12还是0x34相等，若与0x12相等，则本地低地址存高字节，是大端；若与0x34相等，则本机低地址存低字节，是小端。

2. 二进制文件IO

2.1 文件格式

所有文件，笼统意义上将可以区分为两类，一类是文本文件，一类是二进制文件。

(1) 文本文件

文本文件用记事本等文本编辑器打开，我们可以看懂上面的信息。所以使用比较广泛。通常一个文本文件分为很多很多行，作为数据储存时，还有列的概念。实际上，储存在硬盘或其他介质上，文件内容是线一样储存的，列是用空格或 Tab 间隔，行是用回车和换行符间隔。
文本文件的编码方式举例：

'Big5'
'ISO-8859-1'
'GB2312'
'GBK'
'US-ASCII'
'UTF-8'

(2) 二进制文件

二进制文件，是无格式有数据类型的。比如上面的 10 11 12 三个数。但二进制文件没有行的概念。我们要紧凑地储存他们。（当然也可以中间加入一些空白的字节）
　　从数据类型上来说，我们首先考虑整型。如果把 10 11 12 当作 2 字长的整型。则 10 表示为：0Ah 00h。因为 0Ah 对应十进制 10。而后面的 00h 是空白位。2 字长的整型如果不足 FFh，也就是不足 255，则需要一个空白位。类似的：11 表示为 0Bh 00h，12 表示为 0Ch 00h。
　　当整型数据超过 255 时，我们需要 2 个字节来储存。比如 2748（ABCh），则表示为：BCh 0Ah。要把低位写在前面（BCh），高位写在后面（0Ah）。
　　当整型数据超过 65535 时，我们就需要 4 个字节来储存。比如 439041101（1A2B3C4Dh），则表示成：4Dh 3Ch 2Bh 1Ah。当数据再大时，我们就需要 8 字节储存了。
　　二进制文件的实型数据也有字节长度的区分，比如 4 字长，8 字长。但实型数据的长度并不仅仅代表它的表达的范围，更多的代表精度。所以，8 字长的我们又称为双精度。关于实型数据如何储存为 2 进制。则有很多套规则。现在都广泛使用的是 IEEE 标准浮点格式。关于这样的规则，我还正在了解，比较麻烦。就不多说了。在这里也没有必要了解。
　　二进制文件也可以储存字符型数据，储存方法和文本文件一样。都是使用 ASCII 编码储存的。所以我们用记事本打开某些二进制文件时，也能看到一些有意义的字符串。（无意义的乱码我们可以认为是整型或实型，不过记事本程序当作字符来解释，因此造成了乱码）

(3)为什么要使用二进制文件？

第一是二进制文件比较节约空间，这两者储存字符型数据时并没有差别。但是在储存数字，特别是实型数字时，二进制更节省空间，比如储存 Real*4 的数据：3.1415927，文本文件需要 9 个字节，分别储存：3 . 1 4 1 5 9 2 7 这 9 个 ASCII 值，而二进制文件只需要 4 个字节（DB 0F 49 40）
第二个原因是，内存中参加计算的数据都是用二进制无格式储存起来的，因此，使用二进制储存到文件就更快捷。如果储存为文本文件，则需要一个转换的过程。在数据量很大的时候，两者就会有明显的速度差别了。
第三，就是一些比较精确的数据，使用二进制储存不会造成有效位的丢失。

(4)如何解释二进制存储文件的内容？

列举一个二进制文件如下：

二进制存储.png

这里列出的是在 UltraEdit（UE）里看到的东西。其实只有红色部分是文件内容。前面的是 UE 加入的行号。后面的是 UE 尝试解释为字符型的参考。

这个文件一共有 32 字节长。显示为两列，每列 16 个字节。实际上，这仅仅是 UE 的显示而已。真实的文件并不分行。仅仅知道这个文件的内容，如果我们没有任何说明的话，是不能看出任何有用信息的。

下面我规定一下说明：我们认为，前 4 个字节是一个 4 字节的整型数据（0F 01 00 00 十六进制：10Fh 十进制：271）。这 4 个字节之后的 4 个字节是另一个 4 字节的整型数据（0F 03 00 00 十六进制：30Fh 十进制：783）。其后的 4 个字节（12 53 21 45 ）表示一个 4 字节的实型数据：2.5811919E+3。再其后的 4 个字节（58 62 35 34）表示另一个 4 字节的实行数据：1.6892716E-7。而只后的 16 个字节（41 42 43 44 45 46 47 48 49 47 4B 4C 4D 4E 4F 50）我们认为是 16 个字节的字符串（ABCDEFGHIGKLMNOP）

实际上，二进制文件只是储存数据，并不写明数据类型，比如上面的第 9 字节到第 16 字节（12 53 21 45 58 62 35 34），我们刚才认为是 2 个 4 字节的实型，其实也可以认为是 8 个字节的字符型（ S!EXb54）。而后面的 16 个字节的字符串（ABCDEFGHIGKLMNOP），我们也可以认为是 2 个 8 字节的整型，或者 4 个 4 字节的整型，甚至 2 个 8 字节的实型，4 个 4 字节的实型，等等等等。

因此，面对一个二进制文件，我们不能准确地知道它的含义，我们需要他的数据储存方式的说明。这个说明告诉我们第几个字节到第几个字节是什么类型的数据，储存的数据是什么含义。否则的话，我们只能猜测，或者无能为力。

网友评论

本文标题：二进制文件IO与大小端

本文链接：https://www.haomeiwen.com/subject/lovtyttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！