美文网首页
2020-03-15

2020-03-15

作者: 梦境中_i | 来源:发表于2020-03-15 17:07 被阅读0次

    首先处理大数据的面试题,有些基本概念要清楚:

    (1)1Gb = 109bytes(1Gb = 10亿字节):1Gb = 1024Mb,1Mb = 1024Kb,1Kb = 1024bytes;

    (2)基本流程是,分解大问题,解决小问题,从局部最优中选择全局最优;(当然,如果直接放内存里就能解决的话,那就直接想办法求解,不需要分解了。)

    (3)分解过程常用方法:hash(x)%m。其中x为字符串/url/ip,m为小问题的数目,比如把一个大文件分解为1000份,m=1000;

    (4)解决问题辅助数据结构:hash_map,Trie树,bit map,二叉排序树(AVL,SBT,红黑树);

    (5)top K问题:最大K个用最小堆,最小K个用最大堆。(至于为什么?自己在纸上写个小栗子,试一下就知道了。)

    (6)处理大数据常用排序:快速排序/堆排序/归并排序/桶排序

    相关文章

      网友评论

          本文标题:2020-03-15

          本文链接:https://www.haomeiwen.com/subject/cdqyehtx.html