美文网首页忘忧社每天写1000字每天写500字
不看后悔一辈子:使用Explore/Exploit算法实现人生幸

不看后悔一辈子:使用Explore/Exploit算法实现人生幸

作者: 望月从良 | 来源:发表于2019-03-07 15:54 被阅读4次

艾默生说:一个人对世界最大的贡献就是让自己过得幸福。毫无疑问,人生在世莫过于让自己尽可能过得开心和快乐,问题在于你如何衡量人生快乐度。管理学创始人德鲁克说,任何无法量化的东西都无法管理,这意味着如果我们不能量化幸福,那么我们就无法有意识的管控或设计自己的生活方式,以便让自己的人生幸福最大化。

人生幸福可不是满足当下欲望这么简单。斯坦福大学曾做过一个很有名的棉花糖实验,他们找来一组儿童,给他们一个好吃的棉花糖,同时对他们说,如果你能忍住十分钟不吃,那么他可以再被奖励一个棉花糖。孩子对时间的感受力很强,让孩子等十分钟相当于成年人等一个小时,而且还要在巨大的诱惑力面前控制自己,这是一件非常困难的事情。有些孩子实在忍不住,很快就把棉花糖吃了,那些自制力好的孩子,控制住了自己的欲望,最后赢得两个棉花糖。实验持续跟踪这些孩子成年后的人生发展发现,忍住一时欲望赢得两个棉花糖的孩子,在职业发展和家庭美满程度上,要远远高于忍不住的孩子,我们可以说,赢得两个棉花糖的孩子人生比只有一个棉花糖的孩子人生更幸福。

酒杯.png

实验中的孩子无形中执行了一种名为Explore/Exploit的算法。Explore的意思是探索,研究,发现;Exploit的意思是利用,享受,压榨;通俗点说Explore对应积累,挣钱;Exploit对应消费,花钱;有些一生只会Explore,这类人对应于守财奴,一味的挣钱积蓄并尽可能的少消费,喜欢为了省几毛钱而多走几公里路;有些人一生总是Exploit,总是过度消费然后负债累累,例如月光族,卡奴等,他们的策略是尽可能使当前利益最大化而不考虑将来后果,按李白的话说就是”且乐生前一杯酒,何须身后千载名“。

幸福最大化本质是对Explore和Exploit的巧妙平衡。显然上面说的两类人其实都不幸福,而且Explore和Exploit的关系绝不像上班拿工资那么简单,Explore对应财富创造,Exploit对应财富消费,创造的好坏决定了你能消费的多寡,但Explore需要成本,需要付出,因此两者如何平衡实现产出最大化,在数学上曾经是一个极为困难的命题。

bandits.png

追求人生幸福本质上如同玩老虎机。人生无非是做一连串选择,选择正确的次数越多,人生收获的幸福就越大。这被数学家简化为一个老虎机赌博场景,假设你面前有一排老虎机,往里投币然后拉杆,如果赢了它会吐出很多金币,输了你的金币就被吃掉,你口袋里的金币是有限的,你如何选择老虎机,使得金币回报最大化。人生选择不就是拉杆过程吗,无论是选择职业,还是选择伴侣,本质都是选择老虎机进行投币拉杆过程。显然我们必须在信息不完备情况下做选择,就如同我们不知道各个老虎机赢率的情况下投币,我们该采取怎样的策略让自己赢面尽可能大?这个问题曾经困扰数学家几十年。

任何认知开始都建立在瞎蒙的基础上。一开始我们当然是随机选取若干个老虎机随意尝试,这个阶段基本不可能有明显的收获。人与人不同在于,有些人一辈子瞎蒙,一些人在试错中总结经验,以便指导未来行动,我们当然要做后一种人。假设你当前试了两台老虎机,第一台玩9局赢了6局,第二台玩两局,赢了一局,接下来该作何选择,选第一台持续投入,还是继续尝试第二台,或者探索,也就是Explore其他老虎机?

好的选择需要考虑时间成本。如果我们能玩的时间不多了,假设游戏还剩10分钟,此时我们应该选择赢率最大那台持续投入,因为第一台赢率是60%以上,因此剩下时间里,我们要把金币都投入这台,尽可能去Eploit它。道理不难理解,Explore需要时间成本,假设真有其他老虎机比第一台赢率更高,但你找到它需要一定的时间,假设你运气好真找到了,剩下的时间可能不足以让你赢得足够多回报了。

loss.jpeg

你对Explore和Exploit的选择展现出你的生命活力。在街边的一个茶馆,我经常看到一个老头坐在那,旁边新开出不少茶馆,但他从来不去,只去这固定的一家。我一直以为老年人保守,后来才知道那是他的智慧。因为他感知到生命日益萎缩,即使新茶馆味道比现在好,但要找到更好的茶馆需要消耗很多时间,对于时日无多的人而言,时间最宝贵,即使找到新茶馆,在口味上的收获显然远远弥补不了寻找它所失去的光阴。探索,试错,重头再来永远是年轻人的特权。

将时间成本放入考量,可以让我们在很多选择面前少纠结。你到新城市旅游,你是选当前知道的最好餐厅,还是尝试其他没吃过的,取决于你还要呆多久。如果过两天你就走了,显然要Explore,也就是选择当前最好餐厅。回到前面的棉花糖实验,如果观察长度不是放到人生几十年,而是实验那几十分钟,选择一个棉花糖的孩子未必不比选择两个的幸福。首先他不用忍耐等待的痛苦,选择两个棉花糖孩子的幸福度需要减去等待时忍受的痛苦。其次棉花糖带来的回报遵循递减原则,吃第二个棉花糖得到的幸福感远不如第一个。

你对Explore和Exploit的选择展现你对未来的信心。当某个行业或事态走下坡路时,身处其中的人会不自觉的吃老本,一个显著例子是好莱坞。近来好莱坞大片热衷于投资续集或前传,例如星球大战系列,变形金刚系列,复仇者联盟已经有好几集了,这意味着电影公司感觉行业发展前景黯淡,在成本上涨收入下降的情况下,把有限资源投入到当前看来回报最好的项目上是理智的。对个人而言,喜欢尝试还是偏向保守,也展示他对自己能力和未来的自信度。很多追求稳定,一味的挤入公务员,拿事业单位铁饭碗的人,其本质上是不相信自己在未来能找到更好回报的工作,因此要拼命抓住当前认为的最好选择,他们认为未来将是水漫金山的洪灾,因此现在最要紧的是抓紧一块木板,以便到时候浮起来。

随波.png

人生不是朝生暮死,而是未雨绸缪。短期决策时要尽可能的收益最大化,那么中长期决策需要怎样的算法呢,我们先看看中期的规划,当你时间足够多时,我们有两种算法可以采用,一种是数学家罗宾森提出的Win-Stay,Lose-Shift,意思是赢了我就继续,输了我就换道。假设你面临两台老虎机,你就随机选一台,如果投币拉杆后赢了,我们就一直在这台老虎机投币,直到输了我们就切换到另一台。换到生活场景,如果你发现一家餐厅味道不错,那么你一直在那吃,直到有一天菜不行或吃烦了,你就选另一家。

数学证明这种方法比随机选择的效果好很多。“失败是成功之母”是用地沟油勾兑的心灵鸡汤,失败是失败之母,成功是成功之母。那些自夸为”连续创业者“其实就是连续失败者。一件事成功了很可能是你无意中把握了事情本质,照猫画虎做下去再次获得成功的概率很大,相反失败了,你确实知道此路不通,但哪一条路是通的,你几乎没有任何头绪,但是走过通路的人,他找准下一条通路的概率就相对要大,因为他知道通路应该有怎样的特点。

Win stay Lost Shift其缺点照样明显。假设有一家你很喜欢的餐厅,你白吃不厌,但是有一次老板失恋了,做菜时控制不好放盐多了,你这次觉得不好吃就应该立马换地方吗?事态发展总是有起有落,就如再好的股票也不可能只涨不跌,问题在于什么时候我们该放弃,什么时候我们又该坚持呢?

win stay.png

当你犹豫不决,举棋不定时,基廷斯指数出来救场。1970年联合利华公司请数学家基廷斯帮忙优化他们的药品测试流程:面对有好几种化学成分,如何才能快速检测出哪种化学成分对疾病治疗最有效。这个问题跟我们前面看到的老虎机问题本质相同,如果能快速找到有效成分,公司能避免资金浪费在无用成分上,从而实现利润最大化。

基廷斯使用效用递减原则很好的解决这个问题。试想你肚子很饿时,吃第一个包子获得幸福感最强,吃第二个幸福感显然要打个折扣,吃后续包子获得的幸福感会持续降低。你出去吃饭,今晚饭菜的味道肯定比明晚饭菜味道更重要,一周后饭菜味道如何对现在来说就更不重要了,因此收获感或幸福感随着时间的推移以一个固定比率P降低。不难想象在我还年轻,血气方刚时获得美女垂青所获得的满足感比我80岁垂垂老矣时再得到美女垂青时所获得的幸福感根本不可同日而语,所以李白才说”今朝有酒今朝醉,莫使金樽空对月“。

屏幕快照 2019-01-18 下午3.45.16.png

基廷斯提出著名的基廷斯系数表有效的解决了问题。上图就是P=0.9时的选择表,假设你尝试两台老虎机,第一台2局1胜1负,第二台15局9胜6负,接下来你该如何选择?此时我们查表,对应9胜6负,我们找第6行第9列发现指数为0.6300。对于1胜1负,我们找第1行第1列指数为0.6346,根据这个结果我们应该选择第一台老虎机持续投币,直到他的输赢率通过上表得到的指数小于0.6300后才切换回第二台。

基廷斯指数有一点值得注意。那就是玩第一把就输了,也就是1局1负0胜,对应基廷斯表的第1行第0列其指数为0.5001大于0.5,它意味着尽管旗开得败,你还是应该继续尝试。随着你不断尝试,胜败比率不断变化,对应指数也跟着变化,我们可以根据指数切换我们的选择,有了基廷斯表我们终于可以治好纠结病。注意看第0行第0列,指数为0.7029大于0.5,这表明面对全新机遇,它鼓励你大胆去尝试一下!

如果决策时长拉长到一生,那么我们需要更高级的眼光去制定更宏伟的框架。当今世界首富贝佐斯在创办亚马逊前在华尔街投资公司任职,收入相当丰厚,毅然决然放弃令人垂涎的身份地位和收入,投入到前途不定的创业里,他一定是具备及其宽广的心胸才会有这样的勇气,他辞职时老板极力挽留,于是他说出了自己的心声:

The framework I found, which made the decision is incredibly easy.was that I called--which only a nerd would call--a "regret minimization framework".So I wanted to project myself forward to age 80 and say "Okay, Now I am looking back on my life, I want to have minimized the number of regrets I have". I knew that when I was 80 I was not going to regret having tried this. I was not going to regret trying to participate in this thing called the Internet that I thought was going to be a really big deal. I knew that if I failed I wounldn't regret that, but I knew the one thing I might regret is not ever having tried. I knew that that would haunt me every day. and so, when I thought about it that way it was an incredibly easy decision

后悔.jpg

注意关键词"regret minimization framework",遗憾最小框架。如果从一生的角度审视人生,我们做决定不再是追求即时回报,也不重视几年后回报,甚至是不求回报,而只求此生无憾,这就是贝佐斯为何甘愿放弃丰裕生活选择艰苦创业的原因。最近贝佐斯绯闻缠身,因为与女主播偷情而与老婆离婚,并赔了将近600亿美金家产,不知这是贝佐斯一时兴起还是根据最少后悔框架,觉得不偷情就遗憾终生的决定。

所谓后悔最少不是没有后悔,而是让后悔在人生中呈指数级下降。后悔最小框架要求你在年轻时尽可能多的去尝试,去失败,从这些经历中尽可能的抽取经验。随着年龄增长,性格成熟,再加上先前的经验积累,你要让30到40岁之间犯的错误不多于24到30岁所犯错误,然后让40岁之后到人生结束所犯的错误不多于30到40岁。

信心区间.png

执行”后悔最小框架“的算法叫置信区间上确界。据统计,世界上绝大多数事情的性质分别都像上图,绝大多数情况稳定在中间,极好和极坏出现在两旁。例如从收入看,绝大多数人是工薪阶层处于中间部分,马云,马化腾,李彦宏这些大富豪是极少数,处于右边末尾,同时一无所有的乞丐属于左边末尾部分。

置信区间随着信息量的增加而缩小。当一件事情做的人越多,人们对它的了解越清晰,那么它的置信区间就越小。当一件新事物出现时,人们对它很陌生,那么它的置信区间就很大。按照”后悔最小框架“算法,你选择时尽可能去选择那些新鲜的,了解的人少,做的人也少的事情,通俗点说就是走人少的路。

让我们后悔的大多是因为错过。最近一波快速实现财务自由的方法就是比特币,试想10年它出现时人们根本看不懂,看懂的并出手了的人到现在已经是亿万富翁,即使比特币近来暴跌,比特币就是置信区间算法优越性的最佳展示。两台老虎机,你玩第一台结果是两局一胜,第二台是10局5胜,根据置信区间算法,由于第一台尝试得少,因此值得你继续投入得就是第一台。

人少.jpg

置信区间上确界说白了就是:久利之事无为,众争之地勿往。很多人都做的事你也去做,极大概率下你会后悔,因为你会在拥挤狭隘的通道里为争夺一个身位而耗尽一生。《闻香识女人》重奥斯卡影帝中艾尔.帕西诺饰演的盲人中校说过极为精彩的一句话:”当我走到人生的十字路口,我总是知道那条路是对的,毫无例外,我知道,但我从来不走,为什么?他妈的太难了!“

绝大多数人,最终会他妈的后悔,我相信你不会!

请关注公众号,让我们共同学习进步


qrcode_for_gh_00f6e6bb0b6c_258.jpg

相关文章

网友评论

    本文标题:不看后悔一辈子:使用Explore/Exploit算法实现人生幸

    本文链接:https://www.haomeiwen.com/subject/wctidqtx.html