美文网首页
浮点定点的存储

浮点定点的存储

作者: AAAAAAIIIIII | 来源:发表于2018-05-26 00:05 被阅读0次

    比如单精度浮点数(32位),阶码8位,尾数那就是24位咯(尾数中内含一位符号位);

    比如双精度浮点数(64位),阶码11位,尾数那就是53位(一样)。

    浮点型变量在计算机内存中占用4字节(Byte),即32-bit。遵循IEEE-754格式标准。
    一个浮点数由2部分组成:底数m 和 指数e。
    ±mantissa × 2exponent
    (注意,公式中的mantissa 和 exponent使用二进制表示)
    底数部分 使用2进制数来表示此浮点数的实际值。
    指数部分 占用8-bit的二进制数,可表示数值范围为0-255。 但是指数应可正可负,所以IEEE规定,此处算出的次方须减去127才是真正的指数。所以float的指数可从 -126到128.
    底数部分实际是占用24-bit的一个值,由于其最高位始终为 1 ,所以最高位省去不存储,在存储中只有23-bit。
    到目前为止, 底数部分 23位 加上指数部分 8位 使用了31位。那么前面说过,float是占用4个字节即32-bit,那么还有一位是干嘛用的呢? 还有一位,其实就是4字节中的最高位,用来指示浮点数的正负,当最高位是1时,为负数,最高位是0时,为正数。
    浮点数据就是按下表的格式存储在4个字节中:
    Address+0 Address+1 Address+2 Address+3
    Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM S: 表示浮点数正负,1为负数,0为正数
    E: 指数加上127后的值的二进制数
    M: 24-bit的底数(只存储23-bit)
    主意:这里有个特例,浮点数 为0时,指数和底数都为0,但此前的公式不成立。因为2的0次方为1,所以,0是个特例。当然,这个特例也不用认为去干扰,编译器会自动去识别。

    今天看NVIDIA的帕斯卡架构介绍时,看到了fp16浮点数格式,以前没见过,想弄清楚他的格式和表示范围,几经查找,终于搞懂了。主要参考:fp16-wiki

         如图,一个fp16数据占据两个字节,其中1位符号位,5位指数位,10位有效精度。
    
    image

    符号位:0:代表正数;

               1:代表负数。
    

    指数位:与15的偏差。

           max_e=11110-01111=15;
    
           min_e=00001-01111=-14;
    
          00000和11111有其他意义。
    

    10位精度位,我理解的计算方式是:

          0000 0000 01:1+2^-10
    

    0000 0000 11:1+2-9+2-10

     1111 1111 11:1+2^0-2^-10
    

    数值计算公式为:(-1)^signbit * 2^(e) * (1+significantbits)

    最大值为:0 11110 1111111111=(-1)^0 * 2^15 * (1+1-2^-10)=65504

    最小值为:0 00001 0000000000=2^-14=6.10 * 10^-5

    相关文章

      网友评论

          本文标题:浮点定点的存储

          本文链接:https://www.haomeiwen.com/subject/ytepjftx.html