美文网首页
2022-08-21

2022-08-21

作者: 此生也有生 | 来源:发表于2022-08-21 21:04 被阅读0次

1.

org.apache.spark.sql.catalyst.optimizer.ColumnPruning

org.apache.spark.sql.catalyst.optimizer.ReplaceIntersectWithSemiJoin

org.apache.spark.sql.catalyst.optimizer.ReplaceDistinctWithAggregate

org.apache.spark.sql.catalyst.optimizer.ReorderJoin

org.apache.spark.sql.catalyst.optimizer.PushDownPredicates

org.apache.spark.sql.catalyst.optimizer.PushDownLeftSemiAntiJoin

org.apache.spark.sql.catalyst.optimizer.CollapseProject

org.apache.spark.sql.catalyst.optimizer.EliminateLimits

org.apache.spark.sql.catalyst.optimizer.ConstantFolding

org.apache.spark.sql.catalyst.optimizer.RemoveNoopOperators

org.apache.spark.sql.catalyst.optimizer.InferFiltersFromConstraints

org.apache.spark.sql.catalyst.optimizer.RewritePredicateSubquery

PushDownPredicates 这个规则通过其他的操作把 filter 操作下推到离数据源更近的地方,这样做可以将计算转移至数据源端,减少 spark 加载和计算的数据量,但不是所有的操作都支持。比如,如果表达式不是确定性的,这就不行,假如我们使用类似 first,last,collect_set,collect_list,rand 等,filters 操作就不能通过这些操作而进行下推,因为这些函数是不确定性的。

ReorderJoin 规则对 join 进行了重新排序,并将所有的条件下推到 join 中,使得过滤操作可以尽早发生。实则是贪心算法,基于代价的优化器,Spark 会根据 join 的成本选择代价最小的 join 操作,也就是有多个表 join,cbo 优化会按特定的顺序进行 join。多表连接顺序优化算法使用了动态规划寻找最优 join 顺序,优势在于动态规划算法能够求得整个搜索空间中最优解,而缺点在于当联接表数量增加时,算法需要搜索的空间增加的非常快,计算最优联接顺序代价很高。

2.

在 lambda 架构中,通过双线计算,用离线补充实时数据,完成整体数据输出+展示。

lambda 架构优点:

职责边界清晰。离线和实时各自计算各自范围内的数据;

容错性。离线数据可以补充实时计算历史统计的数据;

复杂性隔离。离线数据,可以很好的掌控。采用增量算法处理实时数据,复杂性比离线要高很多。通过分开离线和实时计算,把复杂性隔离到实时计算,可以很好的提高整个系统的鲁棒性和可靠性。

lambda 架构缺点:

针对 lambda 模式来说,存在以下几个问题点:

同样需求两套代码

集群资源使用增多,因为离线任务+实时任务

离线结果和实时结果不一致问题

批量计算 T+1,当数据量大的时候,可能晚上计算不完,导致依赖任务延时

存储成本增大

相关文章

  • 2022-08-21 思考成长周复盘(第111/130周)

    一 时间 2021-08-14 ~ 2022-08-21 二 行动回顾与反思 1 生活作息(2022年度早起目标:...

  • 222天--放大和缩小2022-08-21

    222天--放大和缩小2022-08-21 ?放大与缩小? 把困难放大,恩典缩小,你就是一个痛苦的人。 把恩典放大...

  • 内卷

    2022-08-21 周日 天气晴 去年双汇的“内卷”,印像极深,造成我直接对双汇的评级减了一级。后来双汇的表现,...

  • 2022-08-21

    Nature | 良性和恶性组织高分辨率的克隆拷贝数改变地图 原创榴莲不酥图灵基因2022-08-21 21:25...

  • 为了掌控自己的生活,我就是很倔

    幸福日志2022-08-21 周日 晴 我一直在努力的生活,经常我觉得不累,可是已经很累了。 我还是个孩子时,天真...

  • 风语||摩天轮

    2022-08-21/晴/星期三 摩天轮最大的特点就是高,它没有过山车的速度,直冲而下。而是从地面缓缓到达高空,再...

  • 0293|个人成长故事2.0:觉知

    2022-08-21 北京 看了日出很美好 “祸兮福之所倚,福兮祸之所伏”。命运的安排总是让人捉摸不定。 你的成长...

  • Oxford牛津名字的来历,兼Stanford

    2022-08-21随手翻起一本 打开一颗心 的小说。我还未来得及品味作者Westaby的风采,先在推荐序中享受一...

  • 想象往往比理性更具有价值

    想象往往比理性更具有价值 2022-08-21 记得看过一个故事,说是如果将一块木板放在两座大楼楼顶之上,基本上没...

  • 82|周末没学习

    2022-08-21 星期日 晴 今天老婆的表弟们来看小臭臭,一行四个人,来吃了顿饭,然后他们就回去了! 说来有点...

网友评论

      本文标题:2022-08-21

      本文链接:https://www.haomeiwen.com/subject/prcbgrtx.html