美文网首页星座那些事儿星座控其他
如何看待星座?用大数据和机器学习揭开十二星座的真实面目!

如何看待星座?用大数据和机器学习揭开十二星座的真实面目!

作者: wwqqer | 来源:发表于2017-09-09 08:02 被阅读1285次

    原标题:细思恐极的星座分析(上)——用大数据和机器学习揭开十二星座的真实面目

    作者wwqqer,2017年7月第一版,首发于经管之家。未经允许,不得转载!

    “为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出这样的疑问。那么今天我就用星座,真实的数据和“高大上”的机器学习来帮大家分析一下原因。首先声明,我不是宿命论的支持者。本文也不是教大家如何成功,但利用本文的研究成果,可以帮助大家少走些弯路。不管大家之前对星座分析持何种态度,我希望大家耐心读完本文之后,能对星座与天赋有全新的认识。

    温馨提示:本文完全从科学的角度探讨人类的天赋,期间会借用一些星相学中的名词,但请不要将本文与占星术或星盘混为一谈。本文很长,分上下两部分,上半部分主要讨论太阳星座,下半部分将涉及月亮星座等。而且,有同学可能将天文学中的星座(Constellation)与星相学中的星座(Zodiac Sign)混淆,关于这个的科普请见本文下半部分的附录二。另外,本文讨论天赋与星座的关系,所使用的是客观的数据,不以个人的意志而转移,不会产生所谓“巴纳姆”效应,请个人不要对号入座,因为普通人努力都不够,还没资格谈天赋呢。最后,本文中的“天赋”其实用“本性”更合适些,因为它还包括了性格等因素。

    本文的研究方法很简单:聚天下之天才而观察之。把各行各业中的天才们收集起来,看看他们哪个星座人数多,哪个星座人数少。方法简单,人人都会。但操作细节很重要,这样做出来的结果才会有意思(本文研究方法的具体细节见文末【附录一】)。我们先来看一下有哪些天才被我当成了“小白鼠”。“表一”总结了本文所使用的数据。

    表一:数据总结表

    本文共选择了27个行业,总共5700多个样本,其中华人约占350个,女性约占600个,南半球约占300个。如果没有特别注明,各行业数据的历史一般是从该奖项(如果有的话)设立开始,直到2017年为止。有些行业有严格的筛选过程,比如每年评选的诺贝尔奖,各种体育竞技项目的国际比赛等,我们就可以利用它们来确定样本。然而,另一些行业没有固定的筛选过程,尤其是艺术类。所以,我们只能靠“时间”来筛选。具体来说,就是用搜索引擎搜索“历史上著名XXX”(XXX为职业名,比如,建筑师,作家等),来挑选举世公认的行业领军人物。本文使用的数据的总时间跨度大约是最近300年左右。

    既然介绍了数据,那么我们就来看一下使用所有的数据统计出的星座分布(图一)(注:由于每个星座内的天数稍有不同,我用得到的每个星座的人数除以该星座的天数,从而算出星座分布的日均数,以排除天数不同带来的影响。本文之后所有的计算和结论都建立在诸如此类的日均数上)。图一的四种颜色分别代表土(黄色),水(蓝色),火(红色),风(灰色)四大星象。从图一中,我们看到射手人数最少,而与之相邻的摩羯座人数最多,两者的平均数接近全部星座的平均数15.5。另外,两头的白羊座和双鱼座人数也不少。除此之外,就很难看出有其它什么规律了。如果本文的星座分析是这样的话,就太”图样图森破“了。所以,让我们接着往下看。

    图一:星座人数总分布图

    关于天赋的星座分析

    我把判断显著差别的计分法则(见文末【附录一】)运用到“表一”的27个行业上,我们就得到了“表二”(简单理解,正2分表示“人数非常多”,正1分表示“人数比较多”,负1分表示“人数比较少”,负2分表示“人数非常少”,0分则表示“人数不多不少,处于平均水平”)。请记住“表二”,因为它是本文上半部分最重要的成果,它记录了星座与人类天赋的关系!

    表二:十二星座行业得分表

    我在表的上方标注了每个行业可能需要的"(主要)能力"(以我这个外行的角度),有些能力是几个行业共享的。另外,“表二”是仅仅基于北半球的样本所得结果(至于为什么分南北半球,我将在本文下半部分作详细解释)。行文至此,星座与天赋之间的关系就在“表二”建立起来了。是不是表中出现2分的情况比你想的要多得多?请注意,由于我是分行业统计,我并不需要了解全体人口的星座分布(比如,白羊座的总人数多于狮子座,等等),而是要更关心每个行业内的星座分布,比如:“表中某星座在某行业得了2分,说明这个星座在这个行业的领军人物的人数要超过其他星座,会不会是因为这个星座从事这行业的人本来就多呢?”要回答这个问题,就得调查这个行业的所有从业人员的星座了,可惜相关数据很难获得。另外,如果从事这行业的某星座人数很多,这本身就是一个很有意思的现象。与本文的研究并不矛盾。

    言归正传,鉴于此表的信息量很大,我们可以先计算各个星座的大类(科研,艺术,体育)平均得分,这样看起来可以更直观一些。如下表所示,在科研方面,处女座和狮子座这两个相邻星座分别占据着科研的头名和末名。在艺术方面,白羊座是当仁不让的第一,而双子座,处女座和摩羯座则并列最后。在体育方面,摩羯座表现突出,而天蝎座则表现不佳。总的来说,这些星座如果在某一方面特别强,那么在其它方面就会差一点,甚至很差。反倒是巨蟹座和天秤座虽然没有最强的某一方面,但是在全部三个方面都优于平均水平,属于均衡发展型。

    表三:十二星座大类行业平均得分表

    下面我就基于“表二”对十二个星座依次进行分析。(请注意,下文括号内的代表人物是一些个例,是按影响力大小选择的,并不一定符合这里统计意义上的性格特征描述)

    一,白羊座(代表人物:欧拉,格里高利·派克,黑泽明,卡拉扬,梵高)

    白羊座在艺术类得分之高,无人能出其右,尤其是需要运用感情和强烈的肢体语言来表达的表演,指挥和钢琴演奏。再加上导演和绘画,网络上对白羊座的评价是:冲动,积极,思维活跃。我觉得还是有些靠谱的。同时,也说明他们擅长表达和诠释事物的内涵。这样才能做出出色的数学研究,去诠释世间美妙的真谛!白羊座在计算机和围棋上得分很低,说明他们不喜欢按部就班地进行计算和算计。

    二,金牛座(代表人物:高斯,萨缪尔森,哈耶克,贝聿铭,范斯哲,奥黛丽·赫本)

    金牛座在艺术类中的导演和时装设计得分比较高但绘画得分一般,说明他们画面感很强,而且善于运用到实际中。金牛座在斯诺克和宇航员这两项中得分较高,说明网络上流传的“金牛座可靠,有耐心”并非空穴来风。优秀的斯诺克选手需要时刻保持绅士风度,斯诺克本身就是一项需要克制情绪的运动,如果过度兴奋或者过度悲观,都难以打好。至于宇航员更是如此。众所周知,宇航员的选拔条件非常严苛,必须具有非常坚强的意志品质和忍耐力来面对各种恶劣的生存环境。金牛座在网球项目上得到了为数不多的负2分,这更说明他们“稳重,缺少爆发力” 。至于金牛座的其它性格,比如,吝啬,古板,我们无法从行业表现中得到答案。

    三,双子座(代表人物:纳什,赫伯特·西蒙,特朗普,吴清源)

    双子座不擅长做“大生意”,而喜欢“耍小聪明”,摆弄“小玩意儿”,比如,下个棋,照个相。他们也不擅长需要热情冲动的行业,比如,表演,绘画,时装设计等,而且在斯诺克上表现也不好。这倒挺符合网络对双子座的评价:“机智,善变,不安分”。即使是做研究也是关注“小”的方面,比如,在诺贝尔经济学奖获得者中,有10位是双子座的,竟无一人研究宏观经济学。倒是有4人研究博弈论(John Harsanyi,Lloyd S. Shapley,Robert Aumann,John Nash),4人研究微观经济学(Maurice Allais ,Herbert Simon,George Akerlof,William Vickrey)。

    四,巨蟹座(代表人物:图灵,梅丽尔·斯特里普,乔治·阿玛尼,伊隆·马斯克)

    巨蟹座在表演,尤其是时装设计中得了高分。如果把表演细分成男演员和女演员,巨蟹座在女演员分布中的得分比在细分前还要高(仅次于天蝎座,“蛇蝎美人”原来是有数据支持的!呵呵。)。再结合他们在时装设计中的抢眼表现,果然如同网络所说,这是一个“母性泛滥”的星座!照这个情况,巨蟹座不应该在钢琴演奏中获得低分。获得低分的原因可能是因为它们对于枯燥的反复训练缺乏坚持下去的毅力。这一点得到了宇航员的佐证。在重压之下,巨蟹座早早地就躲进了自己的蟹壳中,呵呵。尽管如此,巨蟹座因为他们的小心谨慎使得他们在玩德州扑克时立于不败之地。难道这是传说中的凯利公式(Kelly Formula)的真实写照?(注:在重复赌局中,凯利公式根据赢输的概率及获利多少来决定投资(赌注)的大小使得(长期的)总预期收益最大,使用此公式就永远不会有破产无注可投的情况出现。)而且,巨蟹座的小心谨慎帮助他们在科研中取得成就,巨蟹座在科研中的得分超过十二星座的平均水平。

    五,狮子座(代表人物:香奈尔,聂卫平,雷-达里奥,索罗斯,李嘉诚)

    自信大胆且具有大局观的狮子座在商界和投资界傲视群雄,果然名不虚传!这点也体现在了下棋,建筑,文学和时装设计上。另一方面,过分自信的狮子座就会变得武断鲁莽,做事不仔细考虑,观察力不强,这一点在高尔夫球和哲学上表现尤具代表性。与之相关的,他们在绘画,作曲,物理,医学表现也不佳。

    六,处女座(代表人物:黎曼,安藤忠雄,歌德,小泽征尔,巴菲特)

    处女座是个很有意思的星座。他们在科研类中的得分是十二个星座里最高的,尤其擅长关注结构里的细节。而他们在艺术类的得分是最低的之一。另外,如同金牛座,处女座的忍耐力也是杠杠的,他们在斯诺克和宇航员这两项中取得高分。由此可见,处女座既仔细又有忍耐力,但不按部就班,还有很强的观察力,这是他们在搞科研时的制胜法宝。但另一方面,不感情用事的处女座缺少艺术创作中的那“神来一笔”。处女座在网上的评价,“完美主义,吹毛求疵,头脑清晰”。这一点在这里应该是说得通的。

    七,天秤座(代表人物:霍洛维茨,李云迪,李安,艾略特,张爱玲,杨振宁)

    天秤座的平衡感强,擅长分析处理结构问题,比如,化学,建筑,尤其是文学。天秤座出人意料地在网球项目上得了高分,这可能也得益于他们的平衡感吧。在十二个星座中,天秤座在27个行业里得到的负分最少,所以,他们没有明显的短板。这里,我们无法验证天秤座是否如网络所说“平易近人,轻浮,优柔寡断”。

    八,天蝎座(代表人物:费雯丽,居里夫人,比尔盖茨,毕加索,莫奈,屠格涅夫)

    天蝎座在哲学和绘画上都得到了超高分,而且在表演方面也很强。这表明他们敏感,思想复杂,具有很强的洞察力。仅凭他们在哲学上的优异表现,天蝎座就无愧于十二星座中“最理性星座”的称号!由此可以推断,他们已把感性的绘画和表演提升到了理性的高度。然而,过分强调“形而上”的天蝎座在实际科研(比如,计算机,化学)及其它行业(比如,钢琴演奏,网球,斯诺克)中显出了缺乏耐心,不注意细节的弱点。天蝎座不擅长变魔术,应该也是理性思考的后遗症吧。这里无法验证网络上评价天蝎座的“疑心,善妒,报复心强”。

    九,射手座(代表人物:劳伦斯萨莫斯,马克吐温,斯皮尔伯格,李政道)

    与天蝎座正好相反,射手座在哲学和数学方面表现不佳,这可能与他们热情开放的性格,以及缺乏缜密思维的特质有关。而且,缺少耐心和忍耐力的他们在斯诺克,宇航员,及商业等行业中难有建树。所以,网上评价射手座“浮躁,做事易半途而废”,好像有点道理。不过,值得一提的是,射手座在经济研究方面的表现突出。一共有六位诺贝尔经济学奖获得者,以及五位克拉克奖获得者。与双子座相比,研究宏观经济学的射手座经济学家的数量明显增加,比如,Finn Kydland,Gunnar Myrdal,Eric Maskin,Trygve Haavelmo,Martin Feldstein,Lawrence Summers等。有意思的是,双子座与射手座在经济研究上都表现很好(仅管擅长的方面不同),但他们在商业领域表现都很糟糕。

    十,摩羯座(代表人物:牛顿,史蒂文·索德伯格,舒马赫,老虎伍兹)

    摩羯座是十二星座里唯一一个在德州扑克和(尤其是)F1赛车都得高分的星座,难怪他们被网上评为“最有原则”的星座。如同小心谨慎的巨蟹座一样,脚踏实地的摩羯座在计算机研究领域优于其它星座。然而,专注有余的摩羯座想象力和创造力有点不足,这点可以从他们在建筑,时装设计,和魔术上的不佳表现看出。与此相关,分析处理结构问题也需要想象力和发散性思维(比如,化学,建筑,文学,尤其是物理),但过于严谨的摩羯座并不擅长此类问题,即使有牛顿这样的巨擎撑腰也无济于事。

    十一,水瓶座(代表人物:保罗纽曼,莫扎特,舒伯特,狄更斯,爱迪生)

    都说水瓶座充满智慧,可是“表二” 并没有反应出这点。相反,水瓶座在科研类和文艺类的得分都处于十二个星座的下游。在体育类中,也只有高尔夫球是个亮点。崇尚自由的水瓶座确实不适合从事德州扑克,斯诺克和摄影等需要克制情绪的行业。顺便提一下,水瓶座在表演行业中处于中游,但如果把表演行业细分成男演员和女演员,水瓶座可以在男演员中排第二位(仅次于白羊座),接近一个标准差。所以,水瓶座的男同学们只要负责耍帅,打打高尔夫球就行啦。

    十二,双鱼座(代表人物:乔布斯,默多克,肖邦,爱因斯坦,雨果,加加林)

    在我看来,双鱼座大概是十二星座里最神奇的星座了。首先,与天蝎座相似,双鱼座依靠缜密的思维来思考“形而上”的哲学问题,但面对需要具体计算的计算机研究和德州扑克时都表现不佳。但与天蝎座不同的是,双鱼座有较强的忍耐力和专注力,这帮助他们在商界大展身手。而且,双鱼座是唯一一个既擅长高尔夫又擅长网球的星座,真是“静如处子,动如脱兔”。更重要的是,双鱼座还是个会耍酷炫魔术的高手,说明他们在理性之中还带有感性,可能还具有一定的胆量。总之,许多事物的两面性都体现在这个星座中,真是件奇妙的事情。这些表现与网络上对双鱼座的评价“感性,滥情,意志力薄弱”很不相同。我觉得《名侦探柯南》中那个神出鬼没,风流倜傥的怪盗基德更像是双鱼座的(仅管他被设定为与漫画作者本人一样的双子座),呵呵。

    行文至此,我把每个星座所擅长和不擅长的能力都分析了一遍,而且还借此验证了网上流行的星座性格分析是否靠谱。尽管性格与能力有密切联系,但是它们终究是两个概念。所以,正如大家在上文中看到的,在大多数情况下,我只能验证其中的一部分。验证的结果总结如下(见表四):有些星座的分析,经过验证是比较靠谱的,比如表最左侧的双子座,狮子座,处女座,巨蟹座和摩羯座。但还有一些,我只能检验其中的一部分。有时甚至一点也不能,比如,表最右侧的天秤座和双鱼座。

    表四:十二星座验证表

    在这里我想插一个花絮:大家可能知道菲尔兹奖首位(也是迄今唯一一位)女性获得者,伊朗著名数学家玛丽安·米尔扎哈尼(Maryam Mirzakhani)最近(2017年7月)英年早逝,年仅40岁。当我在阅读她的生平时(见【1】),发现了一些有意思的事情。

    玛丽安的家里没人是科学家,她从没想过要学数学,但一直被鼓励自立和追求兴趣。跟所有女孩一样喜欢看小说。想当小文青的她非但不是学霸,还对数学很头痛,老师也说她没天分。直到高二,她才在一个偶然的情况下发现了自己的数学天赋。米尔扎哈尼说自己很慢,是个“慢”数学家。到高二才发掘天分,解题也是耐心组合出办法。当她从事数学研究时,她的心思都在研究上,说自己是“慢人”,不靠灵光一闪解决难题,“有些问题已经研究了十几年,但经过数月甚至数年,你才能发现问题不同的一面。”有斯坦福大学同事说,她最独特的是研究方法,能创新地将不同事物连接在一起,对难题特别兴奋,毫无惧色。这种“慢”和“稳”的性格不光在工作上,生活上也一样。玛丽安的丈夫也是科学家。两人一起去跑步。老公高大健壮,一开始跑前面,她体格娇小,一直没有放慢脚步,半个小时以后,老公精疲力竭,她还保持着最初的速度。米尔扎哈尼给世界留下过一句话:“只要有耐心,孩子总会发现数学之美。我不认为每个人都应该成为数学家,但我相信许多人不曾给数学一个真正的机会。”

    当我读完她的生平,我几乎能90%地肯定她应该是金牛座。于是去查了她的生日(5月3日),发现果然就是!当然,这毕竟只是一个个例。在上文的星座分析中,我不做个例分析,是为了强调结果的统计属性,避免给大家造成“以偏概全”的错觉。不过,玛丽安·米尔扎哈尼的例子是最近发生的,且非常具有传奇性,所以就谈一下,在下文中还会被提及。

    言归正传,这里需要指出的是,我对这27个行业中的大部分都不是很熟悉,所以,只能从外行的角度给这些行业加上所需的能力。这样能够帮助完成分析,并尽量避免无法解释某些星座表现的情况发生。每个人对这些行业的理解不同,就有可能导致分析的结论不同。非常欢迎大家提出宝贵意见。

    上述的十二星座分析只停留在文字描述,下面我要对“表二”进行量化分析。对数学不感兴趣的同学可以略过,直接跳到小结部分。

    星座量化分析

    上文“表二”中的每一列是一个行业,也可以看成是一列数组,所以我们可以计算它们之间的关联系数。按道理,这应该是一个27乘27的相关系数矩阵,但篇幅有限,我只报告相关性最高的那些行业。而且,我比较关心大类与大类之间的行业相关性,而不是大类内部行业的相关性(比如,数学和物理属于科研大类,绘画和作曲属于艺术大类,等等)。注意,这里的相关性不一定是我们平常认知里行业间的相关性,而可能是由于十二个星座在行业中的表现造成的相关性。所以,我们会看到一些出乎意料的结果。

    “表五”列出了相关系数大于0.5的行业(不等于零的显著性都超过至少95%)。其中有些比较容易理解,比如,商业和投资。有一些乍看不明白,但稍微想一下就理解的,比如,德州扑克和计算机,哲学与绘画,宇航员和斯诺克。但有好些就不那么容易理解了,比如,相关系数高达0.83的指挥与数学,以及紧接着的作曲与医学(相关系数0.82)。就拿指挥与数学来说,其相关系数高的原因是白羊座在这两项都得了高分,而双子座都得了低分,其它星座没有一高一低相冲突的情况出现。

    表五:行业相关性列表

    具体来说,双子座得低分可能是因为他们机智善变的性格不擅长思考“形而上”的数学或哲学问题(双子座绘画也不行,而绘画与哲学相关性高达0.8)。同样,这种性格也不适合从事需要投入感情的行业,比如,指挥。另外,他们在斯诺克的低分和围棋的高分,更证实了他们机智而不稳重的一面。再看白羊座,情况稍稍复杂一些。冲动的白羊座不仅在指挥,还在表演和钢琴演奏中取得高分,这是可以理解的。但他们在数学中的优异表现就不能单单用“冲动”来解释了,我只能认为他们还擅长发掘事物的内涵,尤其从抽象的角度。这点可以由他们在绘画中的表现来佐证。

    纵向看完“表二”后,我们再横向看一下。表中的每一行也是一列数组,按道理,我们也可以计算行与行的相关性。不过,我在这里使用一个新方法:层次聚类(Hierarchical Clustering)。这个方法的原理很简单:每列数组在初始时刻各自为一个类别,然后由下往上(agglomerative),每一次迭代选取距离最近的两个类别(这里使用的是Euclidean距离),把他们合并,直到最后只剩下一个类别为止,这样“一棵树”就构造完成了。这种方法的好处是不用在一开始就确定聚类数(number of clusters),可以等到建立树形图后再确定。这也是机器学习中的一种分类方法(非监督学习)。“表二”的聚类树形图和8个聚类(红框)如下。

    图二:十二星座层次聚类树形图

    如“图二”所示,水瓶座与双鱼座,还有金牛座与处女座距离很近,所以它们最先分别组成一个聚类。倒是巨蟹座与射手座的结合有点出乎意料。再向上一层,天秤座与狮子座相近,所以他们归为一个聚类。在树形图中,越往上,差异越大(距离越远),例如,双子座,摩羯座,白羊座,天蝎座。另外,除了同为土象的金牛座与处女座距离较近以外,土水火风四大星象的说法并没有从“图二”得到支持。顺便提一下,本方法用到的距离与相关系数实际上是一回事:(已标准化的)数组间的相关系数等于数组间的距离(Euclidean距离)的倒数,即两个数组相关系数越大,它们之间的距离就越小。这个结论符合一般认知,也可以从它们的数学定义中证得。由于篇幅有限,此处不再赘述。

    最后,我对“表二”进行主成分分析(PCA,也属于机器学习中非监督学习的一种)。如“图三”所示,第一个因子(PC1),也是最重要的因子,只能解释“表二”中20%的方差。要想累计贡献率达到90%,必须用到前8个因子。这种情况是符合一般认知的,因为我们知道十二个星座之间有明显差异,很难用一两个因子就解释全部信息。在进行主成分分析时,原有的分类被打破,所以很难解释所得到的结果。这也是主成分分析的一个弱点。

    图三和表六:主成分分析方差累计贡献率及相关星座

    因此,我计算了前四个主成分因子与12个星座的相关性,并把其中系数绝对值最大的星座列在了“表六”。这样我们可以大致了解这些主成分因子所代表的含义。比如说,第一个因子与双子座的相关性高达93%,与白羊座为-70%。那么,我们可以大致认为双子座与白羊座的反面是十二星座里最主要的星座,尽管它们只能解释所有信息中的五分之一。以此类推,由于越往后,所剩信息越少,所以因子与星座的相关性会变弱。但我们还是能够看出个大概。值得注意的是,“表六”列出的星座与前文中的层次聚类树形图最上方的星座大体相符,例如,双子座,摩羯座,狮子座,白羊座等,说明这些星座的确比较特别一些(类似于矩阵中的基)。

    小结与应用

    我在本文(上半部分)考查了星座与天赋之间的关系。通过观察十二星座在总共27个行业中的表现,我们把每个星座和它们各自的强项和弱项联系了起来。其次,借助星座们在行业中的表现,我对网络上的星座评价进行验证。有些星座经过验证是靠谱的(比如,双子座,狮子座),但有些我们只能验证一部分,甚至于还有一些我们无法验证(比如,天秤座,双鱼座)。最后,通过量化分析,我们了解了十二星座大致可以分成8个聚类(cluster),其中有些星座比较相似,比如,水瓶座与双鱼座,还有金牛座与处女座。但有些星座与其它星座比起来更不同一些,比如,双子座,摩羯座,狮子座,白羊座等。另外,我们需要至少8个主成分因子,才能使累计贡献率达到90%。

    看到这里,有同学可能会问:“我只是个普通人,你分析了一大堆关于天才的数据,那与我何干?” 这个可以从三方面来回答:挖掘个人潜能,改进个人短处,以及人际交往

    虽然本文探讨的不是如何挖掘普通人的潜能,但本文的研究结果可以提供一个参考。从体育类及艺术类行业来说,一个初入某一新行业的成年人,要想通过挖掘潜能成为这一行业的领军人物不太现实,但经过一定课时的基本训练,把潜能发展成兴趣爱好还是可行的。当然,我不是说其它星座的同学不能做,而是说这些星座的同学的性格比较适合玩这些项目。举个例子,机智灵巧的双子座同学可以试着学学围棋,玩玩摄影。小心谨慎的巨蟹座同学可以玩玩德州扑克。冲动热情的白羊座同学可以开发的项目就更多了,从表演,绘画,到钢琴,甚至导演。在如今“自媒体”横行的时代,白羊座有了一个很好的施展的平台。说不定哪天,又会出来一个类似papi酱(水瓶座)的网红。

    另一方面,本文可以帮助大家更有的放矢地改进自己的短处。比如,小心谨慎的巨蟹可以试着加强韧劲和自信,在工作和学习中有意识地大声说出自己的想法,遇到困难时不轻易打退堂鼓。当然,我不是说巨蟹座的同学一定就缺乏自信,而是说这种情况较其它星座更有可能发生。而且,我们也不一定要改进得与金牛和狮子不相上下。如果能做到他们的一半,甚至只有三四成,那和原来的巨蟹比起来,已经是不小的进步了。其它星座也可仿效此方法对自己的短处进行改进。无论是挖掘长处,还是改进短处,后天的自我完善和自我升华,无论对个人还是对国家,都会有是有益的。

    本文的研究结果也可以应用于平常的人际交往中。举个例子,如果你老板(公司里或学校里)是狮子座,那就经常性地给他(她)带高帽子,让自信的狮子更出风头。这样你即使出点小错,粗心的狮子也不会在意的。相反,你老板如果是处女座,那你只能辛苦一下,必须比他(她)还仔细,否则既仔细又有忍耐力的处女会把你逼疯的。又假如你老板是白羊座,那你做事最好不要拖沓,冲动的白羊总是希望立马看到效果。如果你老板是双子座,那他(她)倒不会怎么为难你,因为他(她)自己也飘忽不定,不过你要时刻准备着应付他(她)不知从哪儿冒出来的“鬼点子”。再假如你老板是金牛座,那就要避免与他(她)正面冲突或争论(即使你是对的一方),否则他(她)会和你死扛到底。剩下的星座,我就不一一点评了,大家自己慢慢琢磨吧。

    以上这些观点也适用于恋爱中的男女朋友!而且,本文的量化分析结果也可以帮助大家“速配”。比如,金牛座和处女座,还有水瓶座和双鱼座这两个容易凑到一起,可能他们之间的思维方式和性格比较相似一些吧。不过,如果我说得不准,大家不要怪我,要怪就怪机器学习吧,呵呵。

    最后,在结束本文上半部分前,再次提醒一下大家,以上所有结论都建立在北半球的数据上,至于南半球的结论如何,以及为何要南北半球分开分析,这些都将在本文下半部分讨论。当然,下半部分要讨论的远远不止这些,内容非常劲爆!请看这里:http://www.jianshu.com/p/b8181b22ffe1


    附录一:本文研究方法的具体细节

    一,如何选择行业?

    在“表一”中,27个行业的选择遵循以下三个原则:

    1. 要能够突显单个星座的特质。比如,诺贝尔和平奖得主没有被选为研究对象,因为他们大多是政治家,后天因素起了主要作用,不符合本文的初衷。又比如,许多体育项目没有被选中,因为大多数项目是集体活动,即使产生了许多体育明星,也很难区分他们的成功是由于团队的力量还是个人的天赋造就的。而且,兴奋剂在体育界的滥用也是另一个重要原因。

    2. 要有可靠的(经过筛选的)且样本数不是太小的数据。比如,历年诺贝尔奖得主就是很好的数据,仅管有些科目越来越强调团队合作(比如,化学,医学),从而掩盖了单个星座的特质。

    3. 选择范围尽量地广。人类的天赋具有多面性,所以选择的行业要尽可能覆盖它们,比如想象力,逻辑推断力,表达能力,等等。

    当然,我也不敢肯定这27个行业就一定能代表人类的所有天赋。但由于数据的限制,要想选出符合上述三个原则的行业并不是很容易。欢迎大家多提宝贵意见。

    二,为什么要选择每个行业中的天才?

    这是因为在他们身上所体现的某些特质较普通人明显,仅管(在研究前)我们暂时不知道到底是哪些特质。而且,他们在行业中的表现是客观存在的,不会受到他人主观评价的影响。其次,如同上文提及的,天才们是经过了严格的筛选后得到的,数据可靠且容易获得。

    最后也是最重要的一点,如上所述,本文不是讨论如何挖掘天赋,而是假设天赋已显露出来后,研究它与星座的关系(请个人不要对号入座,因为普通人努力都不够,还没资格谈天赋呢)。我不是宿命论的支持者,一个人的天赋与他(她)最后取得的成就没有必然联系,因为会受到许多后天因素的影响。我使用‘天才’们的数据恰恰可以控制这些后天因素,尤其是学术类和体育类行业,使得我更有效地观察星座与天才之间的关系。

    打个比方,我们可以不失一般性地认为诺贝尔经济学奖获得者的经济学基本理论知识都很扎实,并且背景相似(都具有博士学位,都在高等学校任教,等等)。而且,我们也无法推断说今年的诺奖获得者比往届的都要勤奋刻苦。至于艺术类,后天因素的影响就更小了,有人天生对声音敏感,而有人天生对色彩敏感,诸如此类。即使有老师指导,也只是起辅助作用。所以,如果在后天因素被控制的情况下,某个星座的人数相较其它星座还存在显著差别,那么我们有理由怀疑造成这种差别的原因不是来自后天,而是先天!

    三,如何判断一个星座的人数比另一个星座的人数多(或少)?

    这里我使用简单的统计学方法。假设给定一个行业的星座分布(如图一),我可以算出分布的平均值与标准差。如果某个星座在离开平均数1个标准差附近,那么情况就“有点意思” 了,计正(负)0.5分。如果明显超过1个标准差,那么情况就 “很有意思” 了,计正(负)1分。如果超过2个标准差,那么情况就“非常有意思” 了,计正(负)2分。如果是在1个标准差以内,则视为 “无差别”,计0分。这样做的好处是可以排除某些行业样本数过大带来的影响(注1:所有行业的星座分布都是人数分布,除了围棋。每位围棋选手按水平高低有一个实力评分,围棋的星座分布建立在这些评分上)。


    参考文献

    【1】小时候被指没天分,长大却成天才少女,她的生命很短但惊艳了世界(http://www.weidu8.net/wx/1017150055433484

    相关文章

      网友评论

      本文标题:如何看待星座?用大数据和机器学习揭开十二星座的真实面目!

      本文链接:https://www.haomeiwen.com/subject/lcrojxtx.html