美文网首页
Java基础day21笔记:字符编码|“联通”|练习

Java基础day21笔记:字符编码|“联通”|练习

作者: 楠楠喜欢泡枸杞 | 来源:发表于2019-01-21 23:03 被阅读0次

    2019/7/11 17:04     三刷留念


        07-字符编码

            既然讲到了字符编码,我们就讲一讲编码解码的问题。所谓编码解码就是为了对数据进行转换,把看得懂的变成看不懂的,或者把看不懂的变成看得懂的。

            编码:字符串变成字节数组。

            String-->byte[];  str.getBytes(charsetName);

            解码:字节数组变成字符串。

            byte[]-->String:new String(byte[],charsetName);

            代码示例:

            编码:

            四个字节,对着呢~

            指定用“GBK”:

            会发生异常:

            我们采取偷懒一点的处理方式,抛出异常:

            这时运行结果就跟刚开始是一样的:

            解码:

            或者指定用“GBK”解码,结果也是一样的:

            编码如果发生了错误,解码出来也是错的,没有办法补救,比如像下面这个:

            因为ISO8859-1中没有中文,所以编码的时候它会找到和我们要编码的中文字符相似的符号,将那个字符的编码拿出来,所以后面再解码解的肯定也都是错的。

            但是如果编码正常,解码出了问题,比如像这样:

            这个时候还是有办法补救的:

            用代码表示一下上面图示的过程:

            其实这个过程在我们开发中就会遇见的,当我们在浏览器中输入网址点击提交之后,会提到服务端,服务端里面就有一个Tomcat服务器,这个服务器默认的解码方式是ISO8859-1。

            如果这时我们输入了汉字,解码后就会是:

            这时我们就会用到刚刚的方法,再给它编码、解码,最后得到正确的信息。

            那可不可以不要这么麻烦,直接将服务器的码表改成GBK可以吗?

            服务器中会有很多网站,比如新浪服务、搜狐服务,假设新浪服务用的编码表是GBK,就不会出现乱码,搜狐服务是UTF-8,就会乱码。所以指定GBK不可行,还是用ISO8859-1再编一次解一次比较好。

            看一下浏览器,里面有一堆文字:

            发现它默认的编码方式是GBK:

            我们将它改成UTF-8试试:

            发现乱码了:

            我们可以看到网页源文件中指定的编码方式是GBK:

            再回到代码中来,如果我们换成UTF-8再用这种方式就会出错:

            并没有拿到原先的编码:

            我们再把中文字符改成“哈哈”:

            我们发现两次运行的结果很相似。

            这是为什么呢?

            在UTF-8码表中,也支持连续三个负数的文字。第一次解码的时候,先拿着前三/两个负数去编码表中查找,并没有找到符合这个编码的数据,它就去编码表中除了对应数据区以外的那部分:未知字符区域中查找,查完了之后返回一堆相似的字符“???”返回了。这时查出来的字已经变化了,不是原先的字了。

            造成这个问题的原因是GBK和UTF-8都识别中文,所以这块一定要小心呢。

        08-字符编码-联通

            我们来演示一个问题,在记事本中存入“联通”:

            保存,关闭记事本,再重新打开,发现乱码了:        

            我们另存为一下,发现编码变成了UTF-8,可是我们明明用的是默认的GBK呀:

            我们来了解UTF-8的一个知识,它有一个标识头,根据这个标识头的数值,会决定它一次读几个字节:

            用这个规律,我们读下面这串字节的过程就是这样的:

            下面我们来拆解一下“联通”:

            还不够,我们需要用二进制形式表示:

            这样数字又太多了,其实有效位就后八位,于是我们再取后八位:

            这时我们就发现,“联通”的编码前几位完全满足了UTF-8的规律,所以记事本读着读着发现,咦,这是UTF-8呀,于是就转成了UTF-8的编码表。“联通”的编码是非常特殊的存在呢。

            那怎么解决这个问题呢?

            就是在存入“联通”之前,前面一定要有其他汉字,这样就不会乱码啦:

        09-练习

            啊啊,时间有点紧张呢,为了节省时间,我就使用大面积截屏啦,手打太浪费时间了(委屈脸)。

            做一个练习:

           我们需要做:

            思想:

            代码:

            Student类:

            工具类:

            到这里,学生信息都存入了集合并进行了排序。

            下一步就是将集合信息写入文件,继续在这个工具类中写一个存入文件的方法:

            好了,基本动作结束。 

            下面演示一下:

            录入:

            基本上没有什么大问题,就是后面总成绩有点小问题,我们发现stu.getSum()是一个整数,给后面加上+"",就可以强转成字符串了:

            这下就好啦:

            刚刚我们是按成绩从低到高排,现在我们想按成绩从高到低排,该怎么做呢?

            原先的比较器是默认的写死的,我们不能对它进行修改,但是我们可以指定其它比较器,这里对工具类中的代码进行一些小的修改,将一个方法分割成两个:按默认比较器排和按指定比较器排,修改如下:

            主函数中,我们只需要将原先的比较器进行逆转,就得到一个反向比较器:

            OK,实现了按成绩从高到低排:

    相关文章

      网友评论

          本文标题:Java基础day21笔记:字符编码|“联通”|练习

          本文链接:https://www.haomeiwen.com/subject/egehjqtx.html