美文网首页
防止数据偏移的方法

防止数据偏移的方法

作者: luomoxyz | 来源:发表于2016-12-07 11:27 被阅读37次

    一般的聚合往往有这样运算

    RRD1 运算 RDD2 正确结果
    key 1 key (1, 7)
    key 2 key (2, 7)
    key 3 join key 7 = key (3, 7)
    key 4 key (4, 7)
    key 5 key (5, 7)

    RDD1加随机 RDD2只加随机不扩容 则

    1_key 1 0_key (2, 7) key (2, 7)
    0_key 2 1_key (1, ()) key (3, ())
    2_key 3 join 0_key 7 = 2_key (3, ()) 去掉前缀 key (1, ()) 错误结果
    3_key 4 3_key (4, ()) key (4, ())
    4_key 5 4_key (5, ()) key (5, ())

    RDD1 加随机, RDD2加随机又扩容

    1_key 1 0_key 7 0_key (2, 7) key (2, 7)
    0_key 2 4_key 7 1_key (1, 7) key (1, 7)
    2_key 3 join 1_key 7 = 2_key (3, 7) 去掉前缀 key (3. 7) 这才是正确结果
    3_key 4 3_key 7 3_key (4, 7) key (4, 7)
    4_key 5 2_key 7 4_key (5, 7) key (5, ())

    相关文章

      网友评论

          本文标题:防止数据偏移的方法

          本文链接:https://www.haomeiwen.com/subject/mmudmttx.html