浮点数处理

作者: 月见樽 | 来源:发表于2019-05-28 23:17 被阅读0次

浮点数处理
Q格式（Q domain）-用整数运算小数
Deep-Learning-with-PyTorch-3.1 以
浮点数
JS中 0.1 + 0.2 为什么 !== 0.3?
py_28 Decimal处理小数计算精度问题
python处理浮点数
浮点数如何比较是否相等
C 笔记十三常量
[Java] BigDecimal的使用

本文首发于个人博客

浮点数表达

IEEE754标准是用于规范浮点数运算的IEEE标准，用于解决浮点数标准混乱的问题。其被认证后不久，几乎所有的处理器生产商都采用这一标准，极大的推动了软件的发展。浮点数存储的格式如下：

float.png

浮点数由符号位，指数位和尾数三个部分组成，表达公式如下式：
$X = (-1)^{s} \times f \times 2^{e}$
在IEEE754标准中，主要规定了单精度浮点（float）和双精度浮点（double）两种浮点数：

类型	符号位数	指数位数	尾数位数
单精度浮点（float）	1	8	23
双精度浮点（double）	1	11	52

首先考虑符号位，当该符号位为0时，表示该数为正数，符号位为1时，表示该数为负数。指数可以为负数，一般使用移码表示，移码表示为：
$E = e- bias$
E为真实的指数，e为浮点数中存储的尾数，bias为移位，有 $bias = 2^{len(e) - 1} - 1$ 。以单精度浮点为例，指数位数 $len(e) = 8$ ，则有bias=127，真实指数和存储的关系为 $E = e - 127$ ，表示范围为-126~127（e=0和e=255用于表示特殊字符）。尾数为规格化的尾数，即尾数的二进制表示 $f_b$ 前有一个隐藏的二进制1，即如下表示：
$X = (-1)^{s} \times 1.f_b \times 2^{e-bias}$
当e=0时，该浮点数为非规格化数，表示的数如下所示：
$X = (-1)^s \times 0.f_b \times 2^{-126}$
该标准内还定义了几个特殊值：

特殊值	说明
0	指数部分和尾数部分均为1
无穷大	指数部分为 $2^{len(e)} - 1$ （指数最大值），尾数部分为0
NaN	指数部分为 $2^{len(e)} - 1$ （指数最大值），尾数部分不为0

浮点数计算

浮点数乘法

浮点数的乘法分为以下几个步骤：

计算符号位：通过异或操作计算符号位，若两个操作数符号位相同，则结果符号位为0，否则结果符号为1
计算原始尾数：两个操作数的尾数相乘，得到原始尾数
计算原始指数：将两个操作数的指数相加，得到原始指数
规格化与舍入：对原始尾数和原始指数进行规格化，获得结果的指数，再对尾数进行舍入，获得结果的尾数

mul_flow.png

对于科学计数法表示的乘法，有：
$[(-1)^{s_1} \times 1.f_1 \times 2^{e_1}] \times [(-1)^{s_2} \times 1.f_2 \times 2^{e_2}] = (-1)^{s_1 \ XOR \ s_2} \times (1.f_1\times 1.f_2) \times 2^{e_1+e_2}$
现考虑32位的单精度浮点数（float），其指数为8位，尾数为23位，获得原始指数和原始尾数为：

原始指数：原始指数为两个8位的指数相加，共9位
原始尾数：原始尾数为两个23位的尾数相乘，共46位

获得原始指数和尾数后进行规格化，若原始指数小于-126，则小于表示范围，将原始尾数右移，每右移一位，原始指数+1，直到原始指数到达-126，此时形成非规格化数。若原始尾数不小于-126，进行正常的标准化：

两个规格化数相乘：，结果在1~4之间，即最高2位有以下几种可能性：
- 最高2位为01：原始尾数向左移位2位（包括移除隐含的1），原始指数直接为获得规格化的指数，小数部分还剩44位，在舍入部分处理。若原始指数-2后为-127，则在移位后尾数前添加1，使用非规格化表示
- 最高2位为10或11：原始尾数向左移位1位（移除隐含的1），原始指数+1获得规格化的指数，小数部分还剩45位，在舍入部分处理。
非规格数和规格化相乘： $1.f_1 \times 0.f_2$ ，结果在0~2之间，操作方式与上述类似
非规格化数和非规格化数相乘：原始指数为-252，尾数部分仅有46位，无论如何都不可能使指数规格化到-126，直接为0

进行规格化后，原始指数被修正为指数 $e_3$ ，此时若尾数的位数超过23位，还需要进行舍入操作。将规格化后的尾数使用 $sf$ 表示， $sf[h:h-23]$ 表示高23位的指数， $sf[h-24:0]$ 表示24位以后尾数。舍入使用“四舍六入”的方式，舍入规则如下所示：

若 $sf[h-24:0] < 1000...0$ ：抛弃，舍入结果为 $sf[h:h-23]$ （四舍）
若 $sf[h-24:0] > 1000...0$ ：进位，舍入结果为 $sf[h:h-23]+1$ （六入）
若 $sf[h-24:0] == 1000...0$ ：舍向偶数，即使 $sf[h:h-23]$ 变为偶数（ $sf[h:h-23]$ 为奇数时进位，否则抛弃）

进行舍入后，原始尾数被修正为尾数 $f_3$ ，乘法计算完成。

浮点数加法

浮点数的加法分为以下几个步骤：

对阶：将指数较小的浮点数进行尾数向右移位，指数同步增大，直到两个操作数的指数等
求和：对尾数进行求和
规格化：对指数和尾数做规格化，并对尾数进行舍入

add_flow.png

对于科学计数法表示的加法，有：
$[(-1)^{s_1} \times 1.f_1 \times 2^{e_1}] + [(-1)^{s_2} \times 1.f_2 \times 2^{e_2}] = [(-1)^{s_1} \times 1.f_1 \times 2^{e_1-e_2}+ (-1)^{s_2} \times 1.f_2] \times 2^{e_2}$
第一步为对阶，即将指数变为相同以实现加法，规定小阶向大阶对阶，即原始指数 $e=\max\{e_1,e_2\}$ ，对于指数较小的操作数，需要将尾数向右移位，每移动一位，指数加1，移位直到阶数相等即完成对阶，对阶过程可表示为：
$\begin{cases}(-1)^{s_1} \times 1.f_1 \times 2^{e_1} \\ (-1)^{s_2} \times 1.f_2 \times 2^{e_2}\end{cases} \to \begin{cases}[(-1)^{s_1} \times 1.f_1 \times 2^{e_1 - \max\{e_1,e_2\}}] \times 2^{\max\{e_1,e_2\}} \\ [(-1)^{s_2} \times 1.f_2 \times 2^{e_2 - \max\{e_1,e_2\}}] \times 2^{\max\{e_1,e_2\}}\end{cases}$
第二步为求和，即对阶完成后，两个尾数可以直接求和获得原始尾数，求和过程如下所示：
$\begin{cases}[(-1)^{s_1} \times 1.f_1 \times 2^{e_1 - \max\{e_1,e_2\}}] \times 2^{\max\{e_1,e_2\}} \\ [(-1)^{s_2} \times 1.f_2 \times 2^{e_2 - \max\{e_1,e_2\}}] \times 2^{\max\{e_1,e_2\}}\end{cases} \to \\ [(-1)^{s_1} \times 1.f_1 \times 2^{e_1 - \max\{e_1,e_2\}} + (-1)^{s_2} \times 1.f_2 \times 2^{e_2 - \max\{e_1,e_2\}}] \times 2^{\max\{e_1,e_2\}}$
第三步为规格化和舍入，原始尾数 $f = (-1)^{s_1} \times 1.f_1 \times 2^{e_1 - \max\{e_1,e_2\}} + (-1)^{s_2} \times 1.f_2 \times 2^{e_2 - \max\{e_1,e_2\}}$ ，原始指数 $e=\max\{e_1,e_2\}$ ，对其进行规格化和舍入操作，获得新的指数 $e_3$ 和尾数 $f_3$ ，操作方式与乘法相同，即完成浮点数的加法。

浮点数处理
本文首发于个人博客浮点数表达 IEEE754标准是用于规范浮点数运算的IEEE标准，用于解决浮点数标准混乱的问题...
Q格式（Q domain）-用整数运算小数
定义由于成本与功耗受限的原因，对于DSP处理器，遇到浮点数无法处理，所以需要利用定点数进行浮点数的运算，而DSP...
Deep-Learning-with-PyTorch-3.1 以
3.1 以浮点数表示的世界由于浮点数是网络处理信息的方式，因此我们需要将要处理的那种真实世界的数据编码成可被网络...
浮点数
浮点数 @(Python入门) [TOC] 导言浮点数在python中可以直接处理的数据类型之一，那么什么是浮点...
JS中 0.1 + 0.2 为什么 !== 0.3?
计算计处理浮点数（小数）的精准度问题（前端 & 后端都一样）计算计处理浮点数的都会存在精准度的问题，这不是浏览器...
py_28 Decimal处理小数计算精度问题
python Decimal这个类处理浮点数精度浮点数在内存中存储的时候因为存储机制的原因，天然存在精度丢失的现...
python处理浮点数
问题来源：想把一个‘17.99’的字符串转化成字符串1799，于是用了下面的方法：预期：real_price=‘...
浮点数如何比较是否相等
由于浮点数伴随着无法精确表示而进行近似或舍入，处理器是32位还是64位都会导致浮点数值不一样，所以浮点数不能够使用...
C 笔记十三常量
整型常量如果一个整数太大以至于无法用 int 类型表示时，也将被当作 long类型处理。浮点数常量浮点数常量...
[Java] BigDecimal的使用
BigDecimal BigDecimal位于java.math.BigDecimal包，用于处理浮点数高精度运算...

浮点数处理

浮点数表达

浮点数计算

浮点数乘法

浮点数加法

相关文章

浮点数处理

Q格式（Q domain）-用整数运算小数

Deep-Learning-with-PyTorch-3.1 以

浮点数

JS中 0.1 + 0.2 为什么 !== 0.3?

py_28 Decimal处理小数计算精度问题

python处理浮点数

浮点数如何比较是否相等

C 笔记十三常量

[Java] BigDecimal的使用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读