面试 | Spark知识点@20190104

作者: digger30 | 来源:发表于2019-01-04 23:28 被阅读6次

面试 | Spark知识点@20190104
面试题汇总：Spark
Spark面试知识点
Spark 题
数据挖掘之Spark学习
Spark--SparkCore面试知识点总结
面试 | Spark知识点@20190103
面试 | Spark知识点@20190102
面试 | Spark知识点@20190105
面试 | Spark知识点@20190101

RDD cache

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用，以提升计算效率。

RDD checkpoint容错机制

缓存有可能丢失，或者存储于内存的数据由于内存不足而被删除。通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个partition是相对独立的，因此只需要计算丢失的那一部分数据即可，并不需要重新计算全部partition。但是多次迭代后数据丢失的重新计算，会影响这个效率。因此，RDD的缓存容错机制保证了即使缓存丢失也能保证快速的恢复，而不是重新计算。checkpoint是保存在hdfs目录中，保证了存储的可靠性。

行存储和列存储优缺点

行存储的写入是一次性完成的，消耗的时间比列存储少，并且能够保证数据的完整性，缺点是数据读取过程中会产生冗余数据，如果数据量大会影响到数据的处理效率
列存储在写入效率，保证数据完整性方面不如行存储，但是他的优势在于读取过程，不会产生冗余数据

列式存储在大数据存储中的优势

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量
由于同一列的数据类型时一样的，所以可以使用更搞笑的压缩编码方式，最大限度的节约存储空间
只读取需要的列，能够获取更好的扫描性能

网友评论

本文标题：面试 | Spark知识点@20190104

本文链接：https://www.haomeiwen.com/subject/qzulrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

面试 | Spark知识点@20190104

RDD cache

RDD checkpoint容错机制

行存储和列存储优缺点

列式存储在大数据存储中的优势

相关文章

面试 | Spark知识点@20190104

面试题汇总：Spark

Spark面试知识点

Spark 题

数据挖掘之Spark学习

Spark--SparkCore面试知识点总结

面试 | Spark知识点@20190103

面试 | Spark知识点@20190102

面试 | Spark知识点@20190105

面试 | Spark知识点@20190101

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读