美文网首页程序员
某工程性概率问题(sstable分裂)

某工程性概率问题(sstable分裂)

作者: littlersmall | 来源:发表于2016-01-15 20:43 被阅读93次

周二的时候接到一个新的任务,统计分块大小对系统的读写影响。
具体的描述一下:(注:由于oceanbase已开源,不涉及泄密问题)在我们的系统中,每天要做一次增量合并的操作,比如说整体数据为1到1000,增量数据为1到100,我们按大小把整体数据分为10块。那么第一块数据的范围为1-100,第二块为101-200,以此类推。我们系统的读写是按块来的,也就是说,一次要把所有的一整块(100个数据)都读到内存中,这样的话,当增量数据为1-100时,全部请求都落在了1号块上,那么合并中涉及到的块数量为1;如果增量数据稍微分散一下,变成随机的100个数,很可能造成这100个数落在了不同的块上,那么一次合并操作涉及到的块的数量就可能为10个。
我们需要做的事情就是如何选择块的大小,使得系统中被修改的块的数量比上总块数量的这个比率尽可能小。

最开始这个事情是一个实习生同学负责的,后来由于各种原因,被交接到我这里。
那天接到任务的时候,觉得这其实是一个数学问题,或者说,一个概率问题。
我们可以将这个问题抽象一下,假设所有的数据全部随机,同时,增量数据也全部随机,在这样的前提下,这个问题可以转化为:

将u个不同的小球放入y个不同的盒子中,在操作完成后,不为空的盒子的数量的期望为多少?

将u个不同的小球放入y个不同的盒子中,一共可能有


种方式。
那么,将u个不同的小球都放入同一个盒子中时,概率为:



将u个不同的小球放入2个不同的盒子中时,概率为:



以此类推,在考虑将u个小球放入n个不同的盒子中时,概率应该为:



合并这些子概率,可以得到最终的结果为:

本来以为这样是正确的了,发邮件出去的时候,同事提醒我第二个式子有问题,那个累加是没有必要的,后来仔细思考了一下,发现确实是不对的,推导过程如下:

假设Si为n个球放入i个盒子中,且每一个盒子不空,那么可以得到:



如上证明,可以得到正确的期望为:

当使用这个式子进行模拟实验时,发现在一些情况下会出现负值。也就是说,这个式子的结果仍然是错误的,我们又一次得到的是一个看似正确的结论。
今天一个下午都在思考这个问题,终于发现错误的原因。
我们在使用减法处理空盒情况时,其实违反了互斥原理。
考虑3个盒子的情况,假设集合{Ai,第i个盒子为空,i=1,2,3}。
总的方式为


所以可以得到:



*(注意:其中的“+”) *
这个值的计算,其实来源一个经典问题:
【定义】n个有区别的球放到m个相同的盒子中,要求无一空盒,其不同的方案数用S(n,m)表示,称为第二类Stirling数。
【定理】S(n,m)=mS(n-1,m)+S(n-1,m-1) (n>1,m>1)
在相同盒子的基础上,我们只要乘以盒子数的全排列,就可以得到不同盒的情况。
所以,我们的结论公式应该为:

其中,

每一个看似正确的地方都可能蕴含着无数的错误和谬论。
**The simple things are always hard. **
over
原文时间(2013-9-4 )

相关文章

  • 某工程性概率问题(sstable分裂)

    周二的时候接到一个新的任务,统计分块大小对系统的读写影响。具体的描述一下:(注:由于oceanbase已开源,不涉...

  • 【转载】 odds、OR和RR的计算公式和实际意义

    1. Odds Odds 的意思为机率、可能性,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。假如某...

  • Cassandra write path(2)

    SSTable SSTable是磁盘中对应CQL的存储结构, 如前所述, 当满足一定条件时, Cassandra会...

  • 2019-03-13

    言语表达 数学运算 计算问题、行程问题、工程问题、几何问题、排列组合、概率问题、容斥问题、 利润问题、极值问题、浓...

  • Influxdb

    @[TOC] SSTable SSTable是一种拥有持久化,有序且不可变的的键值存储结构它的key和value都...

  • SSTable - 概念

    SSTable是一种拥有持久化,有序且不可变的的键值存储结构它的key和value都是任意的字节数组,并且了提供了...

  • 概率问题

    概率真是个有趣的东西 前几天说的天气预报20%下雨了然后真的下雨了 游戏暴击99.9% 然而竟然不暴击 说出来你可...

  • 概率问题

    1 从一副52张扑克牌中随机抽两种,颜色相等的概率 C(4,1)*C(13,2)/C(52,2) 2 54张牌,分...

  • 非对称性规律与概率思维

    昨天,在读书中突然碰撞到了概率思维,大意是说做事要遵循大概率思维,去做大概率的事,成功的可能性更高。 我把这个问题...

  • 剑桥9阅读总结

    disruptive 破坏的; 分裂性的;disrupt 破坏; 使混乱; 使分裂disrupt the de...

网友评论

    本文标题:某工程性概率问题(sstable分裂)

    本文链接:https://www.haomeiwen.com/subject/jlmhkttx.html