注意:base64 只是一种编码,并不适合用来加密数据。
一、组成
base64 编码就是用 64 个可打印的字符作为一个字符集来表示数据。这 64 个字符包括A-Z
、a-z
、0-9
这62个常见字符,另外还有两个可打印字符在不同的系统中可能会有所不同,常见的是+
和/
这两个字符。
二、base64的编码过程
将每 3 个字节放入一个 24 位的缓冲区中,最后不足 3 个字节的,缓冲区的剩余部分用 0 来填补。然后每次取出 6 位(2 的 6 次方为 64,使用 64 个字符即可表示所有),将高 2 位用 0 来填充,组成一个新的字节,计算出这个新字节的十进制值,对应上面的编码表,输出相应的字符。这样不断地进行下去,就可完成对所有数据的编码工作。
按照以上规则对文本 Man 编码如下:这样就把文本 Man 编码为了 TWFu。
按照这种编码规则,原来的 24 位(3 个字节)最后变成了 4 个新的字节(32 位),所以编码后的数据比原数据略长 1/3。
注意最后不足 3 个字节的部分用 0 来填补了,那么最后计算出来的十进制值是 0,但是不能对应编码表中的 A(尽管 A 对应 0),因为用来填补的 0 不是有效数据,所以 base64 编码使用 = 来代替 A 表示无效的 0。
因为 = 并不表示有效数据,所以用于对有效数据编码的是 64 个字符,而不是 65 个,所以是 base64,而非 base65!
因为 base64 的应用如此广泛,所以好多编程语言都自带了 base64 的编解码函数,比如 C#、Java、python等自身都有对应 base64 的编解码函数。
三、为什么要使用64个字符
如果每次取更多的位(多于 6 位)来计算,那么字符集的范围将大大增加,编码的应用范围将受到限制。如果每次取更少的位(少于 6 位)来计算,那么编码之后的数据长度就会增加,同样的数据编码之后就需要传输更多的字符。所以,每次取 6 位(2 的 6 次方为 64,使用 64 个字符即可表示所有)来计算刚好平衡了以上这两点。
网友评论