弱类型语言、ASCII与Unicode、非相等运算符

作者: darkTi | 来源:发表于2021-11-02 15:26 被阅读0次

弱类型语言、ASCII与Unicode、非相等运算符
前端(运算符)
HTML-11day
HTML 日常了解10(js篇)
为什么我不使用JS的==运算符
前端笔记9
关于if(xx)和a==b的判断
运算符
21Hive函数（hive学习4）
3.Hive函数

弱类型语言和强类型语言

强类型和弱类型主要是根据变量类型处理的角度来分类的；
强类型不允许隐式变量类型转换，如Java；
弱类型则允许隐式变量类型转换（就是它自己悄悄咪咪会把你的数据类型转换掉，还不报错，真是可气！！），如javascript、php；

ASCII与Unicode的区别

1、位bit（比特），缩写为b，用来表示二进制位，它是计算机内部数据储存的最小单位；
2、字节Byte（拜特），缩写为B，它是计算机数据处理的基本单位；
1Byte = 8bit，1字节等于8位

一、ASCII码

计算机内部，所有信息最终都是一个二进制值，8个二进制位可以组合出256种状态，所以一个字节一共可以用来表示256种不同的状态，每一个状态都对应一个符号，也就是256个符号，从00000000到11111111;
所以在上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。
ASCII 码一共规定了128个字符的编码（包含32个不能打印出来的控制符号），比如空格SPACE是32（二进制00100000），大写A是65（二进制01000001），且只占用了一个字节的最后7位，最前面的一位统一规定为0。

二、非ASCII编码

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。
但是对于其他国家，不同的国家有不同的字母，哪怕它们都使用256个符号的编码方式，代表的字母却不一样，所以亟需需要一种全世界通用的编码，这时，Unicode就出来了；

三、Unicode

正如上面所说，世界上存在多种编码方式，即使是同一个二进制数字也有可能被解析成不同的符号。所以，当我们打开一个文件时，必须清楚它的编码格式，否则用错误的编码打开，那么它就会出现乱码。为什么电子邮件常常会出现乱码，就是因为发件人和收件人所用的编码格式不一致。
Unicode是一个很大的符号集合，现在的规模可以容纳100多万个符号，每个符号的编码都不一样。具体的Unicode对应符号，可以查询网站。

四、Unicode的问题

Unicode只是一个符号集，它只规定了每个符号对应的二进制代码，但却没有规定它该如何在计算机内储存；
比如，汉字严的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），就说明它需要2个字节来表示。还有一些更加复杂的符号，可能需要3个或4个字节来表示；
这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的；
所以这时，急需一种统一的编码方式；

五、UTF-8

UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。其他的编码方式还包括UTF-16（字符用两个字节或四个字节表示）和 UTF-32（字符用四个字节表示），不过在互联网上基本不用。
UTF-8可以根据不同的符号而变化字节长度，它的编码规则是：
①对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。
②对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0（所以有就是说如果大于1个字节，那么就看第一个字节上有几个1，有几个1就说明它有几个字节），后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。可以看下图，字母x表示可用编码的位：

UTF-8.png
根据上表，解读 UTF-8 编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。
还是以汉字严为例，演示如何实现 UTF-8 编码：
严的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5

非相等运算符

对于非相等运算符（>、<、>=、<=）的算法，先比较两者是否都是字符串，若都是字符串，就按照Unicode码点一个字符一个字符来比较；若都不是，则先将它两都转成数值，再比较数值大小；

1、字符串的比较

字符串按照字典顺序进行比较；
JavaScript 引擎内部首先比较首字符的 Unicode 码点。如果相等，再比较第二个字符的 Unicode 码点，以此类推。

'cat' > 'Cat'    // true'

2、非字符串的比较

如果两个运算子之间，至少有一个不是字符串，则需要分为以下两种情况：

（1）简单类型

如果两个运算子都是简单类型的值，则是先转成数值再比较

5 > '4' // true
// 等同于 5 > Number('4')
// 即 5 > 4

true > false // true
// 等同于 Number(true) > Number(false)
// 即 1 > 0

2 > true // true
// 等同于 2 > Number(true)
// 即 2 > 1

这里需要注意与NaN的比较。任何值（包括NaN本身）与NaN使用非相等运算符进行比较，返回的都是false。

1 > NaN // false
1 <= NaN // false
'1' > NaN // false
'1' <= NaN // false
NaN > NaN // false
NaN <= NaN // false

（2）对象

如果运算子是对象，会转为原始类型的值，再进行比较

网友评论

本文标题：弱类型语言、ASCII与Unicode、非相等运算符

本文链接：https://www.haomeiwen.com/subject/tzbmwktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

弱类型语言、ASCII与Unicode、非相等运算符

弱类型语言和强类型语言

ASCII与Unicode的区别

一、ASCII码

二、非ASCII编码

三、Unicode

四、Unicode的问题

五、UTF-8

非相等运算符

1、字符串的比较

2、非字符串的比较

（1）简单类型

（2）对象

相关文章

弱类型语言、ASCII与Unicode、非相等运算符

前端(运算符)

HTML-11day

HTML 日常了解10(js篇)

为什么我不使用JS的==运算符

前端笔记9

关于if(xx)和a==b的判断

运算符

21Hive函数（hive学习4）

3.Hive函数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读