美文网首页
前端系统班 - 02. 计算机是如何存储数据的

前端系统班 - 02. 计算机是如何存储数据的

作者: 诸葛战鹰 | 来源:发表于2018-05-02 21:44 被阅读0次

    课程 01:

    编程基础:

    首先成为程序员,再成为前端开发工程师。而一个程序员需要知道:

    • 硬件与软件:计算机的运行原理;(荐书《编码》)
    • 最大的软件:操作系统;
    • 自己写软件:数据结构和算法;(荐书《数据结构与算法结构》)
    • 多人写软件:软件工程。(荐书《代码大全》)

    前端为什么学编程基础?——防止成为井底之蛙

    计算机存储汉字的过程:

    1. 内存内部的电容通过充电与否来存储 0 和 1,存储 1 就充电,存储 0 就不充电;而读取时,电量大于 50% 就识别为 1,电量小于 50% 就识别为 0;这样便实现了二进制数的存储。


      RAM 存储 0 和 1 的过程
    2. 通过十进制和二进制之间的转换,计算机便可以只用二进制数 0 和 1 来存储十进制数;为了方便书写,一般会将二进制数写为十六进制数,因为单个十六进制数正好可以存 4 位二进制数。(扩展:负数使用补码形式存储,小数使用浮点数形式存储。
    3. 用数字可以为字符编号,于是出现了字符集,例如 ASCII(美国信息交换标准代码);按照这个标准,如果要存储字母 a,那么就存储十进制数 97 对应的二进制数 0110 0001(十六进制数为 61)。
    4. 既然可以存储字符,那么汉字也不是问题,扩充字符集就可以了,将每个汉字对应不同的编号。例如最早的汉字字符集 GB2312 (中国国家标准简体中文字符集),和一度被广泛使用的微软推出的 GBK 字符集。
    5. 为了统一存储世界上所有的字符,Unicode 联盟推出了 Unicode 字符集 。
    6. 解决了所有字符的存储方法,但还缺乏一种高性价比的存储方式,于是出现了字符编码。如果使用 Unicode 字符集最初的低效方式,存储字母 a 和汉字“你”的方式如下:
      a => 00000000 00000000 00000000 01100001 = 0061
      你 => 00000000 00000000 01001111 01100000 = 4F60
      这样的方式浪费了存储资源,从而出现了比较节省存储资源的方式——字符编码:
      a => 01100001
      你 => 11100100 10111101 10100000
      当存储的是单个字母的时候,使用 1 个字节(Byte)来存储,而存储汉字或其他字符,则用两个或以上的字节来存储;第一个字节带有识别后续字节的编码,后续字节的前两位用来作为让第一个字节识别的标识,这就是 UTF-8 编码:
      1字节 0xxxxxxx
      2字节 110xxxxx 10xxxxxx
      3字节 1110xxxx 10xxxxxx 10xxxxxx
      4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
      5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
      6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    现实问题:

    由于历史原因,早期的软件和网站是在 GBK 字符集的年代诞生的,而没有赶上 Unicode 字符集和 UTF-8 编码,所以还是有大量应用 GBK 字符集的软件和网站。

    也是由于时间原因,JavaScript 使用了 Unicode 字符集,却没有使用 UTF-8 编码,所以 ES5 及之前的标准无法表示 \uFFFF 之后的字符,某些情况下会出 bug。例如 JavaScript 会将一个超出范围的单个字符的长度识别为 2:

    var str1 = '\u1D306';
    alert(str1); //ᴰ6,一个字符和数字字符6;
    var str2 = '𝌆';
    alert(str2.length); //明明是一个字符,却显示长度为2;
    

    所以,现在在各种编程当中,一定都要用 UTF-8 编码!

    相关文章

      网友评论

          本文标题:前端系统班 - 02. 计算机是如何存储数据的

          本文链接:https://www.haomeiwen.com/subject/lkhhrftx.html