今天聊一点计算机的基础——浮点数,具体我们探讨 IEEE754 格式的浮点数,大多数语言都采用该格式来表示小数,通常又分为单精度和双精度浮点数。
在 JavaScript 中,不区分整形和小数,唯一表示数值的类型 Number 就是采用 IEEE754 格式中的双精度浮点数来表示的。
因为单精度和双精度浮点数在原理上完全一致,所以本文只集中分析双精度浮点数。我会依次说一下原理、定义和一些结论。
原理
我们都知道任何一个数都可以用科学计数法,例如:
1.234 * 10 ^ 2 // => 123.4
其中,^
代表指数,下同。
同理,我们也可以不局限与 10 进制,采用任意进制 R,指数用 e 表示,m 表示基数,正负数用 (-1) ^ S
表示,其中 S 为 0 或 1,结果用 N 表示,于是:
N = (-1) ^ S * m * R ^ e
这就是我们的原理,十分简单。另外很容易得出,对了任何非 0 的数,m 都可以限定在大于等于 1 且小于 R 的范围内,即 [1, R)。当 R = 2 的时候,m 取值为 [1, 2)。可以如下表示:
m = 1 + M (0 <= M < 1)
定义
双精度浮点数就是采用上面的原理,底数 R = 2
。
双精度浮点数用 8 个字节表示,也就是 64 bit。例如数值 100.25 在内存中的情况如下:
0,10000000101,100100010~0 // ~代表了若干个 0
为了分析,我将 64 bit 分为 3 个部分。
第一部分是符号位(S),占 1 bit,代表符号,正数 0,负数1。当前例子中,符号位为 0 表示这是一个正数。
第三部分是尾数位(M),占 52 bit,代表基数的小数部分,采用二进制表示。当前例子中 100100010~0
换算成十进制的小数为 1/2 + 1/16 + 1/256 = 0.56640625
。
第二部分是阶码位(E),占 11 bit,代表指数部分。
-
因为基数始终是
1.xxx
的小数,所以为了表示 0,规定当阶码和尾码全是 0 的时候,表示值 0 。因为前面还有符号位,所有有 +0 和 -0 之分。 -
同时规定,当阶码全为 1 ,尾码全为0 的时候,表示 ∞。同理,有 +∞ 和 -∞。
-
因为
2^11 = 2048
,排除上面两种特殊情况,能表示的值为1~2046
,但是为了表示小数,我们指数需要用到负数,因此我们设置一个偏码值1023
,指数的实际值e = E - 1023
,例如上面实例中[10000000101]2 = 1029
,因此实际的指数值e = 6 = 1029 - 1023
;
讲解完毕,关于浮点数的格式推导出真实值的公式也就如下:
(-1) ^ S * (1 + M) * 2 ^ (E - 1023) = N
对应我们上面的示例:
(-1) ^ 0 * (1 + 0.56640625) * 2 ^ (1029 - 1023) = 1.56640625 * 2 ^ 6 = 100.25
是不是很简单,没看懂的童鞋还可以再看2遍。
结论
-
指数 e 的取值范围为
(1-1023) ~ (2046 - 1023)
,也就是-1022 ~ 1023
。 -
基数的小数部分 M 的取数值范围为
0 ~ (1 - 1 / (2 ^ 52))
,大约是0 ~ 1
。
意味着,能表示数值的范围是-(1 + 1 - 1 / (2 ^ 52)) * 2 ^ 1023 ~ (1 + 1 - 1 / (2 ^ 52)) * 2 ^ 1023
,即-1.79e+308 ~ 1.79e+308
。其中最大值对应的是 JavaScript 中的Number.MAX_VALUE
。 -
当我们用上面的公式表示一个数的时候,一旦确定了指数 e ,同时也确定了在该指数下所表示值的最小精度,即
2 ^ (e - 52)
。因此双精度浮点数能够表示的最小精度为2 ^ ( -1022 - 52) = 2 ^ -1074 = 5e-324
,也就是我们 JavaScript 中Number.MIN_Value
的值。同理,当我们要精确的表示一个整数时,也就是我们精度值要小于 1,简单倒推可得此时的e<= 52
,也就是说,当e = 52
时我们依旧能够精确的表示一个整数。因此 JavaScript 能够精确表示一个整数的最大值为(1 + (1 - 1 / (2 ^ 52))) * 2 ^ 52 = 2 ^ 53 - 1 = 9007199254740991
,能精确表示一个整数的最小值自然就是-9007199254740991
,对应我们 JavaScript 中的Number. Number.MAX_SAFE_INTEGER
和Number.MIN_SAFE_INTEGER
。
综上,我们依次阐述了双精度浮点数的原理、定义和一些结论。而单精度浮点数只有在阶码和尾数的位数有所不同,原理完全一致,自然不用赘述。
最后,依旧是如果发现什么没有阐述清楚或者有问题的地方,欢迎反馈。
网友评论