jr记录

作者: justonemoretry | 来源:发表于2019-06-03 11:54 被阅读0次

    first:

    1、将www.baidu.com 转成com.baidu.www,只允许利用单个char的额外空间

    2、不断有流式数据注入,计算这些数据的99%的分位数,数据量特别大,不能直接建队列排序

    方法之一,随机取样,假设队列长度为k,整体流数据为第i个,此时,按k / i的概率去计算第i个数据要不要替换长度为k的队列中的一个,这么计算是为了保证整体抽样过程的概率均等,具体推导过程这里见下面文章。

    参考大数据之蓄水池:https://blog.csdn.net/bitcarmanlee/article/details/52719202

    方法之二,维护一个队列,队列长度满了以后,就求出对应的分位数,然后清空队列,每次获取的分位数累加,然后除以分位数的总数,做平均数求值。

    second:

    1、C++中如何使用kafka消息队列

    2、map、reduce里面,怎么保证多个reduce的情况下,计算结果是有序的

    3、设计题,10亿个网页,每个网页20KB,设计一种存储架构,能扛住100W的qps请求,要求尽可能节省机器。

    相关文章

      网友评论

          本文标题:jr记录

          本文链接:https://www.haomeiwen.com/subject/krwatctx.html