不看后悔一辈子：使用Explore/Exploit算法实现人生幸

作者: 望月从良 | 来源:发表于2019-03-07 15:54 被阅读4次

不看后悔一辈子：使用Explore/Exploit算法实现人生幸
推荐系统
超搞笑拳皇(不看后悔一辈子)
找女朋友的标准
计算机组成原理实践
Java虚拟机垃圾收集算法实现
基础之全排列
POST模块、后门
LRUCache 原理
计算机安全学-第四次实践作业-2018/4/17

艾默生说：一个人对世界最大的贡献就是让自己过得幸福。毫无疑问，人生在世莫过于让自己尽可能过得开心和快乐，问题在于你如何衡量人生快乐度。管理学创始人德鲁克说，任何无法量化的东西都无法管理，这意味着如果我们不能量化幸福，那么我们就无法有意识的管控或设计自己的生活方式，以便让自己的人生幸福最大化。

人生幸福可不是满足当下欲望这么简单。斯坦福大学曾做过一个很有名的棉花糖实验，他们找来一组儿童，给他们一个好吃的棉花糖，同时对他们说，如果你能忍住十分钟不吃，那么他可以再被奖励一个棉花糖。孩子对时间的感受力很强，让孩子等十分钟相当于成年人等一个小时，而且还要在巨大的诱惑力面前控制自己，这是一件非常困难的事情。有些孩子实在忍不住，很快就把棉花糖吃了，那些自制力好的孩子，控制住了自己的欲望，最后赢得两个棉花糖。实验持续跟踪这些孩子成年后的人生发展发现，忍住一时欲望赢得两个棉花糖的孩子，在职业发展和家庭美满程度上，要远远高于忍不住的孩子，我们可以说，赢得两个棉花糖的孩子人生比只有一个棉花糖的孩子人生更幸福。

酒杯.png

实验中的孩子无形中执行了一种名为Explore/Exploit的算法。Explore的意思是探索，研究，发现；Exploit的意思是利用，享受，压榨；通俗点说Explore对应积累，挣钱；Exploit对应消费，花钱；有些一生只会Explore，这类人对应于守财奴，一味的挣钱积蓄并尽可能的少消费，喜欢为了省几毛钱而多走几公里路；有些人一生总是Exploit，总是过度消费然后负债累累，例如月光族，卡奴等，他们的策略是尽可能使当前利益最大化而不考虑将来后果，按李白的话说就是”且乐生前一杯酒，何须身后千载名“。

幸福最大化本质是对Explore和Exploit的巧妙平衡。显然上面说的两类人其实都不幸福，而且Explore和Exploit的关系绝不像上班拿工资那么简单，Explore对应财富创造，Exploit对应财富消费，创造的好坏决定了你能消费的多寡，但Explore需要成本，需要付出，因此两者如何平衡实现产出最大化，在数学上曾经是一个极为困难的命题。

bandits.png

追求人生幸福本质上如同玩老虎机。人生无非是做一连串选择，选择正确的次数越多，人生收获的幸福就越大。这被数学家简化为一个老虎机赌博场景，假设你面前有一排老虎机，往里投币然后拉杆，如果赢了它会吐出很多金币，输了你的金币就被吃掉，你口袋里的金币是有限的，你如何选择老虎机，使得金币回报最大化。人生选择不就是拉杆过程吗，无论是选择职业，还是选择伴侣，本质都是选择老虎机进行投币拉杆过程。显然我们必须在信息不完备情况下做选择，就如同我们不知道各个老虎机赢率的情况下投币，我们该采取怎样的策略让自己赢面尽可能大？这个问题曾经困扰数学家几十年。

任何认知开始都建立在瞎蒙的基础上。一开始我们当然是随机选取若干个老虎机随意尝试，这个阶段基本不可能有明显的收获。人与人不同在于，有些人一辈子瞎蒙，一些人在试错中总结经验，以便指导未来行动，我们当然要做后一种人。假设你当前试了两台老虎机，第一台玩9局赢了6局，第二台玩两局，赢了一局，接下来该作何选择，选第一台持续投入，还是继续尝试第二台，或者探索,也就是Explore其他老虎机？

好的选择需要考虑时间成本。如果我们能玩的时间不多了，假设游戏还剩10分钟，此时我们应该选择赢率最大那台持续投入，因为第一台赢率是60%以上，因此剩下时间里，我们要把金币都投入这台，尽可能去Eploit它。道理不难理解，Explore需要时间成本，假设真有其他老虎机比第一台赢率更高，但你找到它需要一定的时间，假设你运气好真找到了，剩下的时间可能不足以让你赢得足够多回报了。

loss.jpeg

你对Explore和Exploit的选择展现出你的生命活力。在街边的一个茶馆，我经常看到一个老头坐在那，旁边新开出不少茶馆，但他从来不去，只去这固定的一家。我一直以为老年人保守，后来才知道那是他的智慧。因为他感知到生命日益萎缩，即使新茶馆味道比现在好，但要找到更好的茶馆需要消耗很多时间，对于时日无多的人而言，时间最宝贵，即使找到新茶馆，在口味上的收获显然远远弥补不了寻找它所失去的光阴。探索，试错，重头再来永远是年轻人的特权。

将时间成本放入考量，可以让我们在很多选择面前少纠结。你到新城市旅游，你是选当前知道的最好餐厅，还是尝试其他没吃过的，取决于你还要呆多久。如果过两天你就走了，显然要Explore，也就是选择当前最好餐厅。回到前面的棉花糖实验，如果观察长度不是放到人生几十年，而是实验那几十分钟，选择一个棉花糖的孩子未必不比选择两个的幸福。首先他不用忍耐等待的痛苦，选择两个棉花糖孩子的幸福度需要减去等待时忍受的痛苦。其次棉花糖带来的回报遵循递减原则，吃第二个棉花糖得到的幸福感远不如第一个。

你对Explore和Exploit的选择展现你对未来的信心。当某个行业或事态走下坡路时，身处其中的人会不自觉的吃老本，一个显著例子是好莱坞。近来好莱坞大片热衷于投资续集或前传，例如星球大战系列，变形金刚系列，复仇者联盟已经有好几集了，这意味着电影公司感觉行业发展前景黯淡，在成本上涨收入下降的情况下，把有限资源投入到当前看来回报最好的项目上是理智的。对个人而言，喜欢尝试还是偏向保守，也展示他对自己能力和未来的自信度。很多追求稳定，一味的挤入公务员，拿事业单位铁饭碗的人，其本质上是不相信自己在未来能找到更好回报的工作，因此要拼命抓住当前认为的最好选择，他们认为未来将是水漫金山的洪灾，因此现在最要紧的是抓紧一块木板，以便到时候浮起来。

随波.png

人生不是朝生暮死，而是未雨绸缪。短期决策时要尽可能的收益最大化，那么中长期决策需要怎样的算法呢，我们先看看中期的规划，当你时间足够多时，我们有两种算法可以采用，一种是数学家罗宾森提出的Win-Stay,Lose-Shift，意思是赢了我就继续，输了我就换道。假设你面临两台老虎机，你就随机选一台，如果投币拉杆后赢了，我们就一直在这台老虎机投币，直到输了我们就切换到另一台。换到生活场景，如果你发现一家餐厅味道不错，那么你一直在那吃，直到有一天菜不行或吃烦了，你就选另一家。

数学证明这种方法比随机选择的效果好很多。“失败是成功之母”是用地沟油勾兑的心灵鸡汤，失败是失败之母，成功是成功之母。那些自夸为”连续创业者“其实就是连续失败者。一件事成功了很可能是你无意中把握了事情本质，照猫画虎做下去再次获得成功的概率很大，相反失败了，你确实知道此路不通，但哪一条路是通的，你几乎没有任何头绪，但是走过通路的人，他找准下一条通路的概率就相对要大，因为他知道通路应该有怎样的特点。

Win stay Lost Shift其缺点照样明显。假设有一家你很喜欢的餐厅，你白吃不厌，但是有一次老板失恋了，做菜时控制不好放盐多了，你这次觉得不好吃就应该立马换地方吗？事态发展总是有起有落，就如再好的股票也不可能只涨不跌，问题在于什么时候我们该放弃，什么时候我们又该坚持呢？

win stay.png

当你犹豫不决，举棋不定时，基廷斯指数出来救场。1970年联合利华公司请数学家基廷斯帮忙优化他们的药品测试流程：面对有好几种化学成分，如何才能快速检测出哪种化学成分对疾病治疗最有效。这个问题跟我们前面看到的老虎机问题本质相同，如果能快速找到有效成分，公司能避免资金浪费在无用成分上，从而实现利润最大化。

基廷斯使用效用递减原则很好的解决这个问题。试想你肚子很饿时，吃第一个包子获得幸福感最强，吃第二个幸福感显然要打个折扣，吃后续包子获得的幸福感会持续降低。你出去吃饭，今晚饭菜的味道肯定比明晚饭菜味道更重要，一周后饭菜味道如何对现在来说就更不重要了，因此收获感或幸福感随着时间的推移以一个固定比率P降低。不难想象在我还年轻，血气方刚时获得美女垂青所获得的满足感比我80岁垂垂老矣时再得到美女垂青时所获得的幸福感根本不可同日而语，所以李白才说”今朝有酒今朝醉，莫使金樽空对月“。

屏幕快照 2019-01-18 下午3.45.16.png

基廷斯提出著名的基廷斯系数表有效的解决了问题。上图就是P=0.9时的选择表，假设你尝试两台老虎机，第一台2局1胜1负，第二台15局9胜6负，接下来你该如何选择？此时我们查表，对应9胜6负，我们找第6行第9列发现指数为0.6300。对于1胜1负，我们找第1行第1列指数为0.6346,根据这个结果我们应该选择第一台老虎机持续投币，直到他的输赢率通过上表得到的指数小于0.6300后才切换回第二台。

基廷斯指数有一点值得注意。那就是玩第一把就输了，也就是1局1负0胜，对应基廷斯表的第1行第0列其指数为0.5001大于0.5，它意味着尽管旗开得败，你还是应该继续尝试。随着你不断尝试，胜败比率不断变化，对应指数也跟着变化，我们可以根据指数切换我们的选择，有了基廷斯表我们终于可以治好纠结病。注意看第0行第0列，指数为0.7029大于0.5，这表明面对全新机遇，它鼓励你大胆去尝试一下！

如果决策时长拉长到一生，那么我们需要更高级的眼光去制定更宏伟的框架。当今世界首富贝佐斯在创办亚马逊前在华尔街投资公司任职，收入相当丰厚，毅然决然放弃令人垂涎的身份地位和收入，投入到前途不定的创业里，他一定是具备及其宽广的心胸才会有这样的勇气，他辞职时老板极力挽留，于是他说出了自己的心声：

The framework I found, which made the decision is incredibly easy.was that I called--which only a nerd would call--a "regret minimization framework".So I wanted to project myself forward to age 80 and say "Okay, Now I am looking back on my life, I want to have minimized the number of regrets I have". I knew that when I was 80 I was not going to regret having tried this. I was not going to regret trying to participate in this thing called the Internet that I thought was going to be a really big deal. I knew that if I failed I wounldn't regret that, but I knew the one thing I might regret is not ever having tried. I knew that that would haunt me every day. and so, when I thought about it that way it was an incredibly easy decision

后悔.jpg

注意关键词"regret minimization framework",遗憾最小框架。如果从一生的角度审视人生，我们做决定不再是追求即时回报，也不重视几年后回报，甚至是不求回报，而只求此生无憾，这就是贝佐斯为何甘愿放弃丰裕生活选择艰苦创业的原因。最近贝佐斯绯闻缠身，因为与女主播偷情而与老婆离婚，并赔了将近600亿美金家产，不知这是贝佐斯一时兴起还是根据最少后悔框架，觉得不偷情就遗憾终生的决定。

所谓后悔最少不是没有后悔，而是让后悔在人生中呈指数级下降。后悔最小框架要求你在年轻时尽可能多的去尝试，去失败，从这些经历中尽可能的抽取经验。随着年龄增长，性格成熟，再加上先前的经验积累，你要让30到40岁之间犯的错误不多于24到30岁所犯错误，然后让40岁之后到人生结束所犯的错误不多于30到40岁。

信心区间.png

执行”后悔最小框架“的算法叫置信区间上确界。据统计，世界上绝大多数事情的性质分别都像上图，绝大多数情况稳定在中间，极好和极坏出现在两旁。例如从收入看，绝大多数人是工薪阶层处于中间部分，马云，马化腾，李彦宏这些大富豪是极少数，处于右边末尾，同时一无所有的乞丐属于左边末尾部分。

置信区间随着信息量的增加而缩小。当一件事情做的人越多，人们对它的了解越清晰，那么它的置信区间就越小。当一件新事物出现时，人们对它很陌生，那么它的置信区间就很大。按照”后悔最小框架“算法，你选择时尽可能去选择那些新鲜的，了解的人少，做的人也少的事情，通俗点说就是走人少的路。

让我们后悔的大多是因为错过。最近一波快速实现财务自由的方法就是比特币，试想10年它出现时人们根本看不懂，看懂的并出手了的人到现在已经是亿万富翁，即使比特币近来暴跌，比特币就是置信区间算法优越性的最佳展示。两台老虎机，你玩第一台结果是两局一胜，第二台是10局5胜，根据置信区间算法，由于第一台尝试得少，因此值得你继续投入得就是第一台。

人少.jpg

置信区间上确界说白了就是：久利之事无为，众争之地勿往。很多人都做的事你也去做，极大概率下你会后悔，因为你会在拥挤狭隘的通道里为争夺一个身位而耗尽一生。《闻香识女人》重奥斯卡影帝中艾尔.帕西诺饰演的盲人中校说过极为精彩的一句话：”当我走到人生的十字路口，我总是知道那条路是对的，毫无例外，我知道，但我从来不走，为什么？他妈的太难了！“

绝大多数人，最终会他妈的后悔，我相信你不会！

请关注公众号，让我们共同学习进步

qrcode_for_gh_00f6e6bb0b6c_258.jpg

不看后悔一辈子：使用Explore/Exploit算法实现人生幸
艾默生说：一个人对世界最大的贡献就是让自己过得幸福。毫无疑问，人生在世莫过于让自己尽可能过得开心和快乐，问题在于你...
推荐系统
推荐系统 Overview 6、什么是推荐系统 7、Exploit&Explore问题 8、推荐系统的评价指标有哪...
超搞笑拳皇(不看后悔一辈子)
超搞笑拳皇(不看后悔一辈子)
找女朋友的标准
找女朋友的标准，男人不看后悔一辈子找女朋友的标准，男人不看后悔一辈子！！！注意！！但凡看完此帖不回者不但这辈...
计算机组成原理实践
一、章节导学实现双向链表实现置换算法先进先出算法最近最少使用算法最不经常使用算法 1. 先进先出算法(F...
Java虚拟机垃圾收集算法实现
垃圾收集算法实现垃圾收集算法实现必须考虑运行效率。对象存活判定算法实现对象存活判定算法都使用可达性分析算法实...
基础之全排列
很基本的算法，使用DFS实现
POST模块、后门
msf exploit(psexec) > use exploit/multi/handlermsf exploi...
LRUCache 原理
LruCache算法，又称为近期最少使用算法。 LruCache 中 Lru 算法的实现就是通过 LinkedHa...
计算机安全学-第四次实践作业-2018/4/17
[new] 1、用Python或Sage实现RSA算法的加密、解密、签名/验证签名使用sage实现RSA算法进行加...