Java文件编码

作者: ToO_day | 来源:发表于2016-03-16 17:19 被阅读0次

Java 中的 Unicode 编码
Java文件编码
intelliJ IDEA
Java文件读取乱码问题解决
Java I/0输入输出流、文件基础
java 更改文件编码
四、文件传输基础——Java IO流
java中读取文件和存储文件
文件传输基础-Java IO流
SparkStreaming从kafka读取数据编码问题（Jav

Java文件编码

处理文本文件时，经常会碰上乱码。那么，乱码是怎么产生的呢？

文件以一定的编码规则存储在计算机中，却又以字符的形式显示在屏幕上。为了能有效节省存储空间，又提高转化为字符的效率，人们研究出多种编码格式。例如，utf-16,utf-8,gbk,gb18030..

大家知道，所有文件在计算机中都以二进制的形式存在。在java中，我们自然可以选择使用字节流来处理文件，更常用的还是字符流。

编码原理

java的nio中，Reader是所有输入字符流的父类，InputStream是所有输入字节流的父类。

字符 -> 编码 -> 字节

字节 -> 解码 -> 字符

当我们使用utf-8进行编码时，就必须使用utf-8解码。

picture1

当使用GBK编码，iso-8859-1解码时，会出现以下情况：

picture2

编码解码的不可逆性

byte ge[] = { (byte) 0xb8, (byte) 0xf6 };

若使用

  String s = new String(ge, "gbk");

打印出s，为个

再按几种编码格式对 s 进行编码：

  //则取出的字节值为：-28，-72，-86。
  //‘个’的utf8编码  
  s.getBytes("utf8") 

  //得到0xb8,0xf6。‘个’的gbk编码  
  s.getBytes("gbk")

若使用

  String s = new String(ge, "utf8");

此时s已经是乱码。

  //得到-17,-65,-67,-17,-65,-67  
  s.getBytes("utf8")

此时s的内容已经完全乱掉了，所以再用

  s.getBytes("gbk");

得到的数据也是乱的，无法逆向出真正的内容来。

两种正确解析方式

采用开源库：CpDetector进行自动检测文本编码

使用字符流

  Charset charset = codepageDetectorProxy.detectCodepage(inputStream,100);
  
  bufferedReader = new BufferedReader(new InputStreamReader(inputStream,charset.name()));
  
  while((line = bufferedReader.readLine()) != null) {
      contentTxt += line;
  }

使用字节流

  BufferedInputStream bufferedInputStream = new BufferedInputStream(inputStream);
  
  Charset charset = codepageDetectorProxy.detectCodepage(inputStream,100);
  
  bytes = new byte[bufferedInputStream.available()];
  
  bufferedInputStream.read(bytes);
  
  contentTxt += Charset.forName(charset.name()).decode(ByteBuffer.wrap(bytes)).toString();

结尾

参考链接：

time：30min

网友评论

本文标题：Java文件编码

本文链接：https://www.haomeiwen.com/subject/bggqlttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Java文件编码

Java文件编码

编码原理

编码解码的不可逆性

两种正确解析方式

结尾

相关文章

Java 中的 Unicode 编码