美文网首页
Spark核心API发展史:RDD、DataFrame、Data

Spark核心API发展史:RDD、DataFrame、Data

作者: ALTHE | 来源:发表于2016-06-02 21:07 被阅读362次

    一、Spark第一代api:RDD
    RDD:五大核心特征:


    QQ图片20160602195119.png

    二、Spark第二代API:DataFrame
    DataFrame核心特征:
    *包含了已ROW为单位的每行数据的列的信息,此时DataFrame就是Table;
    *Tungsten:新的执行引擎
    *Catalyst:新的语法解析框架
    提升计算效率、减少数据读取、底层计算优化;

    三、Spark第三代API:DataSet
    DataSet的核心价值和好处:Encoder
    *编译时的类型安全检查,不需要在执行时期才发现类型不匹配;
    *性能极大的提升
    *内存使用极大降低、减少GC...
    *极大的减少网络数据的传输...
    *极大的减少采用scala和java变成代码的差异性...

    补充:
    1、DataSet会同时可以兼顾Functional和Relational Programming;
    2、DataSet可以统一流计算、SQL、ML等的API编程;
    3、DataSet最最重要的是效率;底层Tungsten的优化、Encoder、数据在内存和磁盘的存储等等;

    相关文章

      网友评论

          本文标题:Spark核心API发展史:RDD、DataFrame、Data

          本文链接:https://www.haomeiwen.com/subject/xdykdttx.html