first:
1、将www.baidu.com 转成com.baidu.www,只允许利用单个char的额外空间
2、不断有流式数据注入,计算这些数据的99%的分位数,数据量特别大,不能直接建队列排序
方法之一,随机取样,假设队列长度为k,整体流数据为第i个,此时,按k / i的概率去计算第i个数据要不要替换长度为k的队列中的一个,这么计算是为了保证整体抽样过程的概率均等,具体推导过程这里见下面文章。
参考大数据之蓄水池:https://blog.csdn.net/bitcarmanlee/article/details/52719202
方法之二,维护一个队列,队列长度满了以后,就求出对应的分位数,然后清空队列,每次获取的分位数累加,然后除以分位数的总数,做平均数求值。
second:
1、C++中如何使用kafka消息队列
2、map、reduce里面,怎么保证多个reduce的情况下,计算结果是有序的
3、设计题,10亿个网页,每个网页20KB,设计一种存储架构,能扛住100W的qps请求,要求尽可能节省机器。
网友评论