美文网首页大继的收藏
IEEE-754浮点标准简介

IEEE-754浮点标准简介

作者: cntlb | 来源:发表于2018-11-18 19:32 被阅读0次

    IEEE-754浮点标准[1]

    直至20世纪70年代末, 实数(十进制数)被不同的计算机厂商表示成不同的二进制形式, 这使得许多程序与不同的机器不兼容. 1980年IEEE委员会将实数的浮点数据表示进行了标准化. 该标准大部分由Intel基于8087数学协处理器定制的. 认识到不同的程序需要不同的精度, 因此建立了单精度和双精度. 而今几乎所有的软件和硬件公司都遵循这些标准, 因此有必要做一些了解.

    IEEE-754单精度浮点数

    IEEE单精度浮点数使用32位数据表示\displaystyle 2^{128}\displaystyle 2^{-126}范围内的正负实数. 转换为十进制大约是\displaystyle 1.2^{-38}\displaystyle 3.4^{+38}的正负实数. 这种单精度浮点数有时也叫短实数. 32位单精度形式的赋值如下图所示:

    i3e-single-precision-floating-point-numbers.png

    为了数学处理器的硬件设计更简单以及更少的晶体管消耗, 指数部分被加上一个常数\displaystyle \text{0x7F}(127_{10})作为偏置指数. 从实数转换为浮点有以下步骤:

    1. 实数转换为二进制形式.

    2. 科学计数法表示二进制: 1.xxx E yyy (\displaystyle {1.xxx} \times 2^{yyy}).

    3. 第31位填充0(正数)或1(负数).

    4. 指数部分, yyy加上0x7F作为偏置指数, 填充第30~23位.

    5. 有效数字部分填充第22~0位.

    例子

    例1: 将\displaystyle 9.75_{10}转换成单精度(短实数)浮点.

    \displaystyle 9.75_{10} = \displaystyle 1001.11_2 = 二进制科学计数法 1.00111 E 3

    正数b31 = 0

    偏置指数b30-23为1000 0010(3+7F=82H)

    有效数字位b22-0为 001110000000000000000…00.

    综合给出二进制形式, 下面一行是16进制值

    0100 0001 0001 1100 0000 0000 0000 0000
    4    1    1    C    0    0    0    0
    

    例2: Convert decimal 15.575 to IEEE single-precision standard.

    化成二进制形式
        15 = 0xF = 0b1111
        0.575 * 2 = 1.15    1
        0.15  * 2 = 0.3     0
        0.3 * 2 = 0.6       0
    
        0.6 * 2 = 1.2       1
        0.2 * 2 = 0.4       0
        0.4*2 = 0.8         0
        0.8*0.2 = 1.6       1
    
        15.575 = 1111.100 1001 1001... = 1.111 1001 0011 0011 E 3
    指数: 3+0x7F = 0x82 = 1000 0010
    浮点: 0100 0001 0111 1001 0011 0011... = 0x41793333
    

    例3: Convert decimal –0.00075 to IEEE single-precision standard.

    使用16进制转换为二进制形式
        0.00075 * 16 = 0.012    0
                     = 0.192    0
                     = 3.072    3
                     = 1.152    1
                     = 2.432    2
                     = 6.912    6
                     = 14.592   E
                     = 9.472    9
                     = 7.552    7
    二进制形式: 0.00075 = 0x0.3126E97 E -2= 0b 1.1000100100110111010010111 E -11
    指数: -0xB+0x7F = 0x74 = 0b 0111 0100
    浮点: 1011 1010 0100 0100 1001 1011 1010 0110 = 0xBA449BA6
    

    验证程序(c):

    • c版本

      float x = -0.00075f;
      printf("0x%X\n", *(int*)&x);
      int y = 0xBA449BA6;
      printf("%f\n", *(float*)&y);
      
    • java版本

      float x = -0.00075f;
      System.out.println(Integer.toHexString(Float.floatToIntBits(x)).toUpperCase());
      

    应用

    1. libminecraftpe.so某个函数的反汇编

      ; _DWORD ExperiencePotion::getThrowPower(ExperiencePotion *__hidden this)
                      EXPORT _ZN16ExperiencePotion13getThrowPowerEv
                      MOV.W           R0, #0x3F000000
                      BX              LR
      

      我们来算一下这个浮点值(怎么确定这是个浮点?):

      0x3F000000 = 0b 0011 1111 0000 ...0000
      b31=0, 正数
      指数: 0b011 1111 0 = 7E, 7E-7F=-1
      有效数字:0
      结果: 1.0 E -1(二进制) = 0.5(十进制)
      
    2. 下面代码的输出结果

      float a = 0x7FFFFFFF;
      float b = 0x7FFFFFFE;
      System.out.println(a == b);
      

      对于float类型加1不会产生任何影响的最小数是\displaystyle 2^{25} = 33,554,432, 而对于 double 类型最小 数是 \displaystyle 2^{54} \approx 1.8 × 10^{16}. 相邻的浮点数值之间的距离被称为一个ulp[3], 它是"最小单位 (unit in the last
      place)"的缩写. java中引入了Math.ulp方法来计算float或 double数值的ulp。

      例如, ulp(1.0f)=1.19xxE-7, ulp(0x7FFFFFC0) = 128.0, 于是(float)0x7FFFFFC0 = 0x7FFFFFFF.

    3. 是否存在一个数a使得:a==a+1 && a==a+2为true?

    4. 是否存在a,使得 a != a ?

    5. 是否存在a,使得 a != a+0 ?

    6. 下面代码输出结果什么?

      int start = 2_0000_0000;
      int count = 0;
      for (float f = start; f < start+20; f++){
          count++;
      }
      System.out.println(count);
      

    IEEE-754双精度浮点数

    双精度浮点数(Intel称之为长实数)可以表示\displaystyle 2.3^{-308}\displaystyle 1.7^{+308}的正负实数. 52位有效数字, 11位指数, 第63位表示符号. 转换过程和单精度浮点一样, 首先表成1.xxx E yyy, 然后yyy加3FF得到偏置指数. 如下图所示:

    i3e-double-precision-floating-point-numbers.png

    例4: Convert decimal 152.1875 to double-precision FP.

    152.1875 = 二进制10011000.0011 = 科学二进制1.00110000011 E 7

    b63 = 0

    偏置指数b62-53 = 10000000110 (7+3FF=406)

    有效数字位b52-0 = 00110000011000…..000

    0100 0000 0110 0011 0000 0110 0000 0000 0000 ...  0000
    4    0    6    3    0    6    0    0    0    ...  0
    

    参考资料

    [1]. Muhammad Ali Mazidi etc. ARM Assembly Language Programming & Architecture [M]. section5.3

    [2].IEEE_754

    [3].Unit in the last place

    相关文章

      网友评论

        本文标题:IEEE-754浮点标准简介

        本文链接:https://www.haomeiwen.com/subject/whngfqtx.html