MapReduce

作者: 王龙江_3c83 | 来源:发表于2019-03-28 19:05 被阅读0次

    1. 应用开发

    1.1 词频统计

    1.2 计算每年的最高温度

    1.3 全排序

    如何用 Hadoop 产生全局有序的文件?最简单的方法是使用一个分区(a single partition)。替代方案:首先,创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要的思路是使用一个 partitioner 来描述全局排序的输出。

    1.4 二次排序

    1.5 大小表连接

    1.6 大大表连接

    4. 数据类型和格式

    4.1 MapReduce 的数据类型

    4.2 输入格式

    格式 功能
    DBInputFormat 用于使用 JDBC 从关系型数据库中读取数据。
    DBOutputFormat 将作业输出数据转储到数据库中。
    MultipleInputs
    TableInputFormat 让 MapReduce 操作存放在 HBase 表的数据。
    TableOutputFormat 把 MapReduce 的输出写入到 Hbase 表。

    4.3 输出格式

    参考资料

    实战代码

    相关文章

      网友评论

          本文标题:MapReduce

          本文链接:https://www.haomeiwen.com/subject/xpxnmqtx.html