美文网首页web开发
base64编码原理

base64编码原理

作者: caohaoyu | 来源:发表于2019-09-25 11:31 被阅读0次

    一、背景

    公司业务中调用接口需要通过网关转换,网关内的一些规则导致*在传递的过程中存在问题,所以决定使用base64进行编码处理。

    在使用过程中发现网关对'='也有处理,导致我的传参到接口方会丢失掉最后的等号,但是经过解码后的竟然是正确的!

    于是发现这么长的时间,经常使用base64,但是对这个编码的原理并不理解,所以就有了这篇学习记录。

    二、基础知识了解

    1.常见的编码:

    • ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
    • UTF-8(8-bit Unicode Transformation Format)可用1~4个字节表示一个字符(unicode的实现方式)
    • GBK 汉字内码扩展规范

    2.计算机本质都是二进制,最小的数据单位是比特bit,一个字节有8个bit。

    3.base64作用:计算机中任何数据都是按ascii码存储的,而ascii码的128~255之间的值是不可见字符。而在网络上交换数据时,比如说从A地传到B地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,这是不利于传输的。所以就先把数据先做一个Base64编码,统统变成可见字符,降低错误率。

    三、编码原理

    是基于A-Z、a-z、0-9以及'+' 和'/'共64个字符的编码方式,因为2的6次方等于64,所以说只需要6个比特即可表示一个base64的字符。

    编码表:'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/'
    

    核心原理是将二进制数据进行分组,以6位一组进行分组,并在每组前面都填两个高位 0,然后将 8 bit 的字节转换成十进制,对照 BASE64 编码表 (上表),得到对应编码后的字符。

    四、等号是哪里来的?

    一个字节是8bit,一个base64的字符6bit,24是最小公倍数,所以3个字节可以完整转化为4个base64字符;

    但是我们无法控制需要编码的数据正好是3的倍数,所以要进行补零---在不足3的倍数的字符串末尾用0x00进行填充;

    因为base64编码中的下标0对应的字符是'A',而末尾填充上的0x00在分组补零后同样是下标0x00,这样就无法分辨出到底是末尾填充的0x00还是二进制数据中的0x00。

    所以引进了等号,这就是'='字符不在Base64字符集中,但是也出现在Base64编码的原因了。

    五、编码过程

    以对6666P进行base64编码的步骤说明
    每个字符转化为8bit:
    6----->00110110
    6----->00110110
    6----->00110110
    6----->00110110
    P----->01010000
    补位----->00000000
    整体拼接结果:
    001101100011011000110110001101100101000000000000
    以6bit一组进行分割:
    001101  100011  011000  110110  001101  100101  000000  000000
    转化为base64编码脚标:
    13  35  24  54  13  37  0  0
    获取对应的base64编码:
    N  j  Y  2  N  l  A  A
    得到结果:string(8) "NjY2NlA="
    

    六、关于解码

    由编码过程可知,编码的结果的长度一定是4的倍数,所以当解码的长度不等于4的倍数时,需要用等号进行补位。

    这也就是去掉末尾的等号后进行解码得出的原文不会出错的原因了!

    了解过编码过程后逆向回去即为解码过程,在此就不再详细叙述了。

    七、base64的变种

    但是标准的base64并不能满足所有场景的需要,比如URL编码器会把中的“/”和“+”字符变为形如“%XX”的形式,所以也就出现了实现思路一致的编码变种:

    (1)适应url的变种改进:不在末尾填充’=’号,并将“+”和“/”分别改成了“-”和“_”

    (2)适应正则表达式的变种:将“+”和“/”改成了“!”和“-”

    八、实践代码

    <?php
    
    $a = "6666P";
    
    $decbinStr= '';
    //计算补位
    $end = (3 - strlen($a)%3)%3;
    for($i=0;$i<strlen($a);$i++){
        //每个字符转化为8bit
        $decbin = str_pad(decbin(ord($a[$i])),8,"0",STR_PAD_LEFT);
        $decbinStr .= $decbin ;
    }
    //增加补位
    $decbinStr = $decbinStr. str_pad("",$end*8,"0");
    //以6bit一组进行分割
    $arr = str_split($decbinStr,6);
    //转化成对应的base64编码
    $result = implode("", array_map("getBase64Str",$arr));
    //末尾补位的数据处理
    for($j=0;$j<$end;$j++){
        if($result[strlen($result)-1-$j] == 'A'){
          $result[strlen($result)-1-$j] = "=";
        }
    }
    //验证下跟自带的base64_encode结果是否一致
    var_dump($result);
    var_dump(base64_encode($a));
    
    exit();
    
    function getBase64Str($sixStr){
        $number = bindec($sixStr);
        $baseHash = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';
        return $baseHash[$number];
    }
    

    当然也可以使用位运算等方式进行实现,以上代码仅代表个人的思路。

    相关文章

      网友评论

        本文标题:base64编码原理

        本文链接:https://www.haomeiwen.com/subject/fuggyctx.html