字符编码简介
计算机中存储的数据都是二进制的数字,我们看到的文字信息是将二进制转换之后显示的,两者之间存在编码与解码的过程,其互相转换必须遵循某种规则,即编码和解码都遵循同一种规则才能将文字信息正常显示,如果编码跟解码使用了不同的规则,就会出现乱码的情况。之前接触过的ASCII编码,这个主要是用来显示英文,除此之外还有别的编码规则常用的有:
gb2312,gbk,utf-8,big5
使用字符流读取不同编码的文本
这里先创建两个文本文档,一个使用utf-8进行编码,文件名命名为utf-8.txt,里面随便写点中文,比如我写了一个"小猴子",另一个使用gbk进行编码,文件名命名为gbk.txt。
需求:将utf-8.txt中的内容读取并写出到gbk.txt中
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
/**
* 将utf-8.txt中的内容读取并写出到gbk.txt中
*
*/
public class ContentCopy {
public static void main(String[] args) {
try (BufferedReader br = new BufferedReader(new FileReader("utf-8.txt"));
BufferedWriter bw = new BufferedWriter(new FileWriter("gbk.txt"));) {
String msg;
while ((msg = br.readLine()) != null) {
bw.write(msg);
}
bw.flush();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e1) {
e1.printStackTrace();
}
}
}
上面程序出现了乱码问题,因为gbk.txt和utf-8.txt中使用的编码不一致。
转换流
如果要解决上面问题,需要使用InputStreamReader和OutputStreamWriter指明文本文件的编码,这两个类都属于字符流,可以将字节流输出为字符流。
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.UnsupportedEncodingException;
/**
* 使用转换流解决文本文件编码不一致导致的乱码问题
*
*/
public class TransferCopy {
public static void main(String[] args) {
// 使用FileInputStream读取文本内容,然后通过InputStreamReader和指定的编码将字符转换为字节
try (BufferedReader br = new BufferedReader(
new InputStreamReader(new FileInputStream("utf-8.txt"), "utf-8"));
BufferedWriter bw = new BufferedWriter(
new OutputStreamWriter(new FileOutputStream("gbk.txt"), "gbk"));) {
String msg;
while((msg = br.readLine()) != null){
bw.write(msg);
}
bw.flush();
} catch (UnsupportedEncodingException | FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e1) {
e1.printStackTrace();
}
}
}
上面的代码中再FileInputStream对象上使用了InputStreamReader装饰,从而将字节转换为字符,之后再InputStreamReader对象上又使用了BufferedReader将字符进行缓冲,从而提高效率。
网友评论