hadoop mapper读取文本编码乱码问题

hadoop mapper读取文本编码乱码问题

作者: atok | 来源:发表于2018-08-21 08:24 被阅读0次

hadoop mapper读取文本编码乱码问题
IDEA设置项目和properties文件编码为UTF-8
hadoop和spark读取GBK编码乱码
9. 字符编码与Python之文件操作
Java文件读取乱码问题解决
python读取ANSI文本乱码问题
插入数据库出现中文乱码问题
编码解码以及乱码
vi中文乱码问题
RStudio中，出现中文乱码问题的解决方案

问题原因

hadoop 在编码时都是写死的utf-8，如果文件编码为GBK，就会出现乱码。

解决方法

在mapper或reducer读取文本的时候，将Text转换下编码即可。编码转换使用下面的transformTextToUtf8(Text text, String encoding)。

将输入的Text类型的value转换为字节数组，使用String的构造器String(byte[] bytes, int offset, int length, Charset charset)，通过使用指定的charset解码指定的byte子数组，构造一个新的String。

如果需要map/reduce输出其它编码格式的数据，需要自己实现OutputFormat，在其中指定编码方式，而不能使用默认的TextOutputFormat。


public static Text transformTextToUTF8(Text text, String encoding) {

    String value = null;

    try {

    value = new String(text.getBytes(), 0, text.getLength(), encoding);

    } catch (UnsupportedEncodingException e) {

        e.printStackTrace();

    }

    return new Text(value);

}

相关文章

hadoop mapper读取文本编码乱码问题
问题原因 hadoop 在编码时都是写死的utf-8，如果文件编码为GBK，就会出现乱码。解决方法在mappe...
IDEA设置项目和properties文件编码为UTF-8
解决使用Properties读取中文乱码问题IntelliJ IDEA设置项目和properties文件编码为UT...
hadoop和spark读取GBK编码乱码
转自 https://www.cnblogs.com/teagnes/p/6112019.html 其实在很久之前...
9. 字符编码与Python之文件操作
字符编码 1 字符在内存与硬盘中的编码对应关系 2 文本文件存取乱码问题 3 解决Python解释器读文件时不乱码...
Java文件读取乱码问题解决
使用java读取磁盘文件内容容易出现乱码，问题是由于java使用的编码和被读取文件的编码不一致导致的。假设有一...
python读取ANSI文本乱码问题
文本文件是ANSI保存，以ISO-8859-1保存，Python读取报错: 修改方式如下： line为什么不直接d...
插入数据库出现中文乱码问题
插入数据库出现中文乱码问题出现这种乱码问题，肯定是编码除了问题，编码和解码不是同一种编码格式就会出现乱码情况！ ...
编码解码以及乱码
每一个编码表都有自己一定的编码规则乱码：造成的原因是在写的时候和读取的时候使用的码表不相同。解决乱码就要保证读取写...
vi中文乱码问题
问题：在vi和less查看文本的时候发现中文乱码，如下： 1、将Xshell的编码语言设置为UTF-8，文本保存为...
RStudio中，出现中文乱码问题的解决方案
RStudio中，出现中文乱码问题的解决方案解决步骤：1、设置RStudio文本显示的默认编码：RStudio菜单...

网友评论

本文标题：hadoop mapper读取文本编码乱码问题

本文链接：https://www.haomeiwen.com/subject/anfdiftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|hadoop mapper读取文本编码乱码问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！