美文网首页大数据开发
[业界]数据仓库(批处理/ETL,交互式分析,BI查询,交互式B

[业界]数据仓库(批处理/ETL,交互式分析,BI查询,交互式B

作者: 葡萄喃喃呓语 | 来源:发表于2016-10-21 22:59 被阅读68次

    如何选择满足需求的SQL on Hadoop系统 - 文章
    http://weibo.com/p/1001603864171165928729
    特别是目前Spark社区把Spark SQL朝向DataFrame发展,目标是提供一个类似R或者Pandas的接口,把这个作为主要的发展方向。DataFrame这个功能使得Spark成为机器学习和数据科学领域不可或缺的一个组件,但是在数据仓库(ETL,交互式分析,BI查询)领域感觉已经不打算作为他们主要的发展目标了。

    总的来说,目前来看Hive依然是批处理/ETL 类应用的首选。Hive on Spark能够降低Hive的延迟,但是还是达不到交互式BI查询的需求。目前交互式BI查询最好的选择是Impala。Spark SQL/DataFrame是Spark用户使用SQL或者DataFrame API构建Spark pipeline的一种选择,并不是一个通用的支持交互式查询的引擎,更多的会用在基于Spark的机器学习任务的数据处理和准备的环节。

    相关文章

      网友评论

        本文标题:[业界]数据仓库(批处理/ETL,交互式分析,BI查询,交互式B

        本文链接:https://www.haomeiwen.com/subject/rwbcuttx.html