大数据工程师(存储)面试系列（3）

作者: 司小幽 | 来源:发表于2016-11-16 20:36 被阅读209次

1.固态硬盘为什么会比机械硬盘快？

固态硬盘为什么会比机械硬盘快

2.闪存（flash）的实现原理？

flash百度百科

3.Python在爬取网页的时候用到的库?将网页中的，全部替换为.如何实现?网页中的图片如何爬取？

①urllib
②re.sub：

③键查看源码，找到图片的相应匹配规则（当时想的深了，想着图片的编码怎么在爬取的时候转换和普通文本一致。。。。）比如jpg文件那么.jpg就是一个很好的匹配过滤条件，以爬取百度图片-------hello为例：

图形页面：

源码界面：

具体爬取方式：
Python爬虫爬取网页图片

4.利用MapReduce实现group by的功能？

MapReduce实现基本SQL操作的原理-join和group by，以及Dinstinct

5.Hive与HBase的区别？

之前看过一篇文章，所以就着文章笃定的答道：Hive是遍历全表查询的，忽略了前提条件，可以说是不严谨，那个前提条件就是Hive不做分区表的情况下：

HBase 与 Hive 的区别和关系
 hive与hbase的联系与区别
 hive中partition如何使用

6.什么是ETL？

ETL百度百科
 数据清洗百度百科
 脏数据百度百科
 元数据百度百科

7.Sqoop在超大数据的情况下，性能不佳，如何解决？

这个问题不是面试官问我的，而是出于疑惑，我请教面试官的，因为之前的一些面试，都谈到Sqoop好不好用这个问题？基于Sqoop 的使用效果，我垂直搜索了一下，发现，无非两类：一是Sqoop2较Sqoop1的架构上的演进，以及Sqoop和淘宝的DataX，还有Kettel相比性能之优越，插件之丰富，然而我要的是关于Sqoop的一些负面的文章，垂直搜索的时候并没有搜到。请教了面试官后，面试官给出了解答:Spark dataFrame，大量异构数据同步的一种框架级解决方案！！！

Hadoop教程：Hadoop数据传输工具Sqoop
大数据同步工具DataX与Sqoop之比较
 Spark DataFrame小试牛刀

8.HBase二级索引如何建立？

HBase二级索引的设计(案例讲解)

大数据工程师(存储)面试系列（3）

1.固态硬盘为什么会比机械硬盘快？

2.闪存（flash）的实现原理？

3.Python在爬取网页的时候用到的库?将网页中的，全部替换为.如何实现?网页中的图片如何爬取？

4.利用MapReduce实现group by的功能？

5.Hive与HBase的区别？

6.什么是ETL？

7.Sqoop在超大数据的情况下，性能不佳，如何解决？

8.HBase二级索引如何建立？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

IT相关

大数据面试精选

学习小殿

玩转大数据

程序员

互联网&大数据应用学习

我爱编程