byte 为什么是从-128到127?
标签 : 随手记
计算机表示数据的规则:
前提:我们假设一个数字用4位来表示。
这个问题的解释要从符号位说起,在计算机的世界里,数字的表示采用的是二进制的规则,如果自然界只存在正数,那么计算机的编码方式将无比简单,直接就能使用二进制来表示。比如十进制的八,直接就用1000表示就可以。
但是自然界还存在负数,在现实社会中我们使用正号和负号来表示,但是对于计算机来说,要添加正号和负号不是那么容易的事情,会带来电路复杂度成倍的上升。于是,所谓的符号位出现了,采用最高位来表示符号位,0为正数,1为负数(为什么?后面会有猜测)。好多文章都说是为了解决减法问题才引入的符号位。我觉得本质上符号位就是为了解决计算机如何表示负数而出现的。
原码、反码、补码
综述
有了正数和负数,下面说说运算的问题,根据冯诺依曼计算机体系得知,一台计算机由运算器,控制器,存储器,输入输出设备组成,其中运算器只有加法运算器(其他的运算全部转换成加法运算来完成),所以呢,计算机世界的减法只能用加法表示。
比如 4-2 只能用4+(-2)运算
原码
那么问题来了,-2怎么表示?最直观的表示方法表示为1010,最高位是符号位。
这样的表示方式,我们称为原码表示法。然后我们就愉快的开始了运算。
4-2=0100+1010=1110=-6
2-2=0010+1010=1100=-4
很明显结果是不对的,所以不能用原码来表示负数。
但是主要的问题是因为两个相反数相加不等于0导致其他运算的结果错误。
假设解决了相反数相加等于0:
4-2=2+2-2=2,那么其他的运算也是可以得到正确结果的。
反码
为了解决这个问题,我们引入了反码
反码的思想是啥呢?
负数是一个正数的相反数,所以我们将一个正数全部按位取反来表示一个负数,这种表示负数的方式就是反码。
比如:
2是0010,那么-2就是1101,然后我们再来开始愉快的运算之路。
4-2=0100+1101=0001(反码)=0001=1
2-2=0010+1101=1111(反码)=1000=-0
-4-2=1011+1101=1000(反码)=1111=-7
-1-2=1110+1101=1011(反码)=1100=-4
实验发现除了两个相反数相加稍微接近我们所熟知的结果,其他的结果简直不忍直视,所以用反码来表示负数也是不靠谱的。
TIPS:实际上,反码是可以用来做运算的
我们发现当符号位存在进位的时候,此时你的运算的结果可能跟你的预期是有差距的,但是是可以通过修正结算过程来达到期望的结果的。修正的方法就是如果符号位有进位的情况下,将进位加到结果的最后一位就可以对结果达成修正。
比如:
4-2=0100+1101=0001+1=0010=2 结果正确
-4-2=1011+1101=1000(反码)+1=1001(反码)=1110=-6 结果正确
-1-2=1110+1101=1011(反码)+1=1100(反码)=1011=-3 结果正确
这说明反码是可以用来进行减法计算的,但是需要付出额外的代价,并且没有解决+0和-0的问题
补码
补码的登场:
那怎么办呢,怎么来解决负数的表示问题呢?
(噔噔登噔,前方高能)伟大的科学家们观察自然界的运行规律,总结出了两个很牛逼的概念,一个叫"模",一个叫"补数"。
啥是模?(肉夹馍,东北的馍馍,咳)
官方术语:“模”是指一个计量系统的计数范围.如时钟、日历等.计算机也可以看成一个计量机器,它也有一个计量范围.只要有一个计量范围,即都存在一个“模”.“模”实质上是计量器产生“溢出”的量,它的值在计量器上表示不出来,计量器上只能表示出模的余数.
比如说,十二小时制的时钟采用的是十二进制来表示时间,一到了12点,再向后就又从1开始了,所以12是时钟系统的模。12是一个范围,超过了十二一切从头来过。好多文章都说时钟系统的计量范围是0到11,但是没有解释为什么,我这边猜测是因为时钟采用的是12进制,如果不发生进位的话,那它就只能表示0到11这12个数。这跟我们的现实生活是对应得上的,我们一般讲的12点其实是0点,所以12本来是在时钟表示不出来的值,是一个溢出的量,但是为了方便人们的理解,才有了十二点的表示方式。
啥是补数?(歌手朴树?)
民间解释:当M是系统的模的时候,如果|A|+|B|=M,我们就说A的补数是B,这个概念跟补角的概念类似,如果两个角相加为180°,那么称两个角互补。(实际上补数还有一些别的解释,但是目前我觉得这种解释比较合理)。
说清楚了模和补码,然后最重要的一个发现来了,在有模的系统中,减去一个数等于加上它的补数
还是以时钟为例:如果我们把顺时针看成正,把逆时针看成负,现在是2点,如果想要变成1点,可以逆时针转一格,也可以顺时针转11格,写成数学式子就是
2-1=2+11
为什么?除了补数可以解释,还有说法是一个有模的系统里,如果发生数的溢出,那么溢出的这个数表示的数就是对M求模的结果。(因为我们知道时钟的取值范围是0-11,超过了11,将又从0开始)
2+11=1+12=1或者2+11=13 mod 12=1
将时钟迁移到计算机系统:比如一个4位的二进制,最多可以表示2^4=16个数,最大的数是1111=15,超过1111就会发生进位的情况,变成10000,因为只有四位,所以表示的是0000=0,然后再加一,变成0001=1,开始了循环,那么模的值就是16这个溢出的值。
由于有了上面的基础,我们很轻松的就可以将减法直接变成加法来计算。
还是以前的例子:
4-2=4+14=0100+1110=0010=2
其中用14来表示-2的方式称为补码的方式,-2的补码就是1110,只不过它刚好等于反码加一而已。
2-2=2+14=0010+1110=0000=0
而且看起来连正0和负0的问题解决,而且符号位可以直接参与运算。
-4-2=12+14=1100+1110=1010(补码)=-2=14=1110=-6
-1-2=15+14=1111+1110=1101(补码)=-5=11=1011=-3
这样计算机的设计只需要支持加法计算器,支持补码的编码方式就行,电路会负担比较小。
到此,负数的编码告一段落,还有一个问题就是为什么在符号位1表示负数,0表示正数
猜测:最高位是符号位这点是必须的(因为需要表示负数),所以是剩下的位数来表示数的值,拿4位来说,三位的正数最大是111=7,0到7,然后4位表示的数只能有16个数,所以还剩下8个数,所以负数最小不会小于-8,范围可能是-1到-8,那-1到-8的话,补数就是8到15全是比8大的数,所以最高位肯定是1,所以负数的补码最高位肯定是1,也许这就是负数的符号位是1的原因。
ps:其实我下面的参考文献里面是有原码、反码、补码的来历的,为了印象深刻,自己重新写一遍。
byte的取值范围
回到正题,为啥byte的范围是-128到正的127
java 里面的数不支持无符号类型,全是有符号类型的数。
首先,因为byte是8位,然后又因为二进制的最高位是符号位,正数是0,负数是1,所以表示大小的就是剩下的位数。
对于byte来说就是七位,七位正数最大的就是1111111 转换成十进制就是127,从 2的0次方加到2的6次方。
然后负数呢,涉及到负数的编码方式:
这里模是256,所以10000000到11111111其实表示的范围是-128到-1
因为10000000是128,补数是-128,11111111是255,补数是-1。
所以,byte的范围是-128到127,一共256个数。
网友评论