美文网首页大数据开发我爱编程
[SQL]SparkS/Hive/HBase整合

[SQL]SparkS/Hive/HBase整合

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-21 19:43 被阅读129次

    Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
    http://lxw1234.com/archives/2016/05/673.htm
    Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:

    Hive的版本和Spark的版本要匹配;


    SparkSQL读取HBase数据 – lxw的大数据田地
    http://lxw1234.com/archives/2015/07/330.htm
    通过Hive和spark-sql去访问HBase表,只是为统计分析提供了一定的便捷性,个人觉得性能上的优势并不明显。
    可能Spark通过API去读取HBase数据,性能更好些吧,以后再试。
    另外,spark-sql有一点好处,就是可以先把HBase中的数据cache到一张内存表中,然后在这张内存表中,
    通过SQL去统计分析,那就爽多了。


    Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 – lxw的大数据田地
    http://lxw1234.com/archives/2015/06/294.htm
    Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。
    在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,
    那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,因此迫不及待将Spark1.4下载试用一下。

    相关文章

      网友评论

        本文标题:[SQL]SparkS/Hive/HBase整合

        本文链接:https://www.haomeiwen.com/subject/asecuttx.html