IEEE754 浮点数详解 - 深入 JavaScript 的

作者: 零小白 | 来源:发表于2017-01-05 21:26 被阅读166次

今天聊一点计算机的基础——浮点数，具体我们探讨 IEEE754 格式的浮点数，大多数语言都采用该格式来表示小数，通常又分为单精度和双精度浮点数。

在 JavaScript 中，不区分整形和小数，唯一表示数值的类型 Number 就是采用 IEEE754 格式中的双精度浮点数来表示的。

因为单精度和双精度浮点数在原理上完全一致，所以本文只集中分析双精度浮点数。我会依次说一下原理、定义和一些结论。

原理

我们都知道任何一个数都可以用科学计数法，例如：

1.234 * 10 ^ 2    // => 123.4

其中，^ 代表指数，下同。

同理，我们也可以不局限与 10 进制，采用任意进制 R，指数用 e 表示，m 表示基数，正负数用 (-1) ^ S 表示，其中 S 为 0 或 1，结果用 N 表示，于是：

N = (-1) ^ S * m * R ^ e

这就是我们的原理，十分简单。另外很容易得出，对了任何非 0 的数，m 都可以限定在大于等于 1 且小于 R 的范围内，即 [1, R)。当 R = 2 的时候，m 取值为 [1, 2)。可以如下表示：

m = 1 + M     (0 <= M < 1)

定义

双精度浮点数就是采用上面的原理，底数 R = 2。

双精度浮点数用 8 个字节表示，也就是 64 bit。例如数值 100.25 在内存中的情况如下：

0,10000000101,100100010~0 //  ~代表了若干个 0

为了分析，我将 64 bit 分为 3 个部分。

第一部分是符号位(S)，占 1 bit，代表符号，正数 0，负数1。当前例子中，符号位为 0 表示这是一个正数。

第三部分是尾数位(M)，占 52 bit，代表基数的小数部分，采用二进制表示。当前例子中 100100010~0 换算成十进制的小数为 1/2 + 1/16 + 1/256 = 0.56640625。

第二部分是阶码位(E)，占 11 bit，代表指数部分。

因为基数始终是 1.xxx 的小数，所以为了表示 0，规定当阶码和尾码全是 0 的时候，表示值 0 。因为前面还有符号位，所有有 +0 和 -0 之分。
同时规定，当阶码全为 1 ，尾码全为0 的时候，表示 ∞。同理，有 +∞ 和 -∞。
因为 2^11 = 2048，排除上面两种特殊情况，能表示的值为 1~2046，但是为了表示小数，我们指数需要用到负数，因此我们设置一个偏码值 1023，指数的实际值 e = E - 1023，例如上面实例中 [10000000101]2 = 1029，因此实际的指数值 e = 6 = 1029 - 1023;

讲解完毕，关于浮点数的格式推导出真实值的公式也就如下：

(-1) ^ S * (1 + M) * 2 ^ (E - 1023) = N

对应我们上面的示例：

(-1) ^ 0 * (1 + 0.56640625) * 2 ^ (1029 - 1023) = 1.56640625 * 2 ^ 6 = 100.25

是不是很简单，没看懂的童鞋还可以再看2遍。

指数 e 的取值范围为 (1-1023) ~ (2046 - 1023)，也就是 -1022 ~ 1023。
基数的小数部分 M 的取数值范围为 0 ~ (1 - 1 / (2 ^ 52))，大约是 0 ~ 1。
意味着，能表示数值的范围是 -(1 + 1 - 1 / (2 ^ 52)) * 2 ^ 1023 ~ (1 + 1 - 1 / (2 ^ 52)) * 2 ^ 1023，即 -1.79e+308 ~ 1.79e+308。其中最大值对应的是 JavaScript 中的 Number.MAX_VALUE。
当我们用上面的公式表示一个数的时候，一旦确定了指数 e ，同时也确定了在该指数下所表示值的最小精度，即 2 ^ (e - 52)。因此双精度浮点数能够表示的最小精度为 2 ^ ( -1022 - 52) = 2 ^ -1074 = 5e-324，也就是我们 JavaScript 中 Number.MIN_Value 的值。同理，当我们要精确的表示一个整数时，也就是我们精度值要小于 1，简单倒推可得此时的 e<= 52，也就是说，当 e = 52 时我们依旧能够精确的表示一个整数。因此 JavaScript 能够精确表示一个整数的最大值为 (1 + (1 - 1 / (2 ^ 52))) * 2 ^ 52 = 2 ^ 53 - 1 = 9007199254740991，能精确表示一个整数的最小值自然就是 -9007199254740991，对应我们 JavaScript 中的 Number. Number.MAX_SAFE_INTEGER 和 Number.MIN_SAFE_INTEGER。