在 2014 年的巴西世界杯上,卫冕冠军西班牙连续两场失利,小组赛即遭淘汰,不仅让西班牙球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。下面选取国内外主要的世界杯预测机构,对他们的预测方法进行简要的分析,看看谁的更准一些。
百度分析最传统
据验证, 2014 年全国高考作文题目 18 卷中 12 卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器学习等人工智能技术,开始预测世界杯。
百度大数据通过分析过去5 年987 支球队的 3.7 万场比赛数据,共涉及 29610 名球员, 112,285,543条相关数据,构建了足球赛事预测模型。据说为了验证模型是否准确,百度用 2010 年南非世界杯的淘汰赛数据进行了准确性验证, 输入2010年世界杯期间的比赛、球队、球员等相关数据,由预测模型计算出淘汰赛比赛结果,与当时的比赛结果进行对比,准确率为 75%。
评:百度用的是传统统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法,但受意外因素(如天气、伤病、裁判等)影响较大。
德银推算最胡闹
德银根据各个球队的 FIFA 排名、历史战绩、球员构成和赌场赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格,从夺冠概率表格中挑选出了前 10 强,依据“轮流转周期”,由此排除了 2014 年巴西、意大利和西班牙夺冠的可能性。
然后根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。最后,本届英格兰队有6 名队员来自利物浦,而正是在利物浦的球员最多的 1966年,英格兰获得了历史上唯一一次世界杯冠军。同时,德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。
评:还好,德银报告主笔不是中国队的球迷!
高盛模型最神秘
高盛对世界杯决赛周32 支国家队的胜算,有它自己的一套评估方法 (命名为 Elo) , 在所有因素中分量最重。 Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。为此,分析师要收集多项数据,包括:世界各个国家足球队历史成绩数据库给出的各队排名得分;比赛中双方球队过去10 场和 5 场比赛的进球数;比赛双方是不是巴西主场;比赛球队是不是美洲球队;还有以往各队在世界杯的进球数优于平时多少个。
最后,他们把这几项数据按照一定的权重相加到一起, 可以得出每一个球队在对阵另外某一个球队时平均会进多少个球。按照这样的方式,从小组赛一路到最后决赛,每一场比赛双方的进球数都可以期望一番,最后获得一个“最平均”的世界杯全程模拟结果。
评:投行一贯用神秘模型来忽悠投资者, Elo 模型就是高深黑洞,关键环节恕不奉告,至于准确与否,只有神知道。
严格地讲,以上几家世界杯预测都不能算“大数据分析”,只是传统的统计分析,虽然数据“大”,但并未融合多种因素综合考虑,可见在专业领域还是相信经典理论。
以下这些不靠谱的预测才是大数据
科隆体育最繁琐
德国科隆体育学院根据复杂的计算机模拟测算得出的本届世界杯预测结果:科隆体育学院的格罗尔教授领导研究小组以自己设计的计算机模拟算式一共进行了10万次测算,综合考虑各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素。他们预测,巴西队与阿根廷队将争冠,卫冕冠军西班牙有可能止步小组赛,从西荷大战那个惊悚的5 比 1 赛果,看来德国人的模拟测算还是靠谱的。
评:德国人的严谨是出了名的,而且竟然没有预测德国队夺冠,对于西班牙却一语中的,最后德国队的夺冠让这个预测显得很不靠谱。
熊猫预测夭折了
世界杯开幕前,据媒体报道,中国保护大熊猫研究中心称将派出一到两岁的熊猫宝宝来预测世界杯。小组赛阶段,主办方会拿出三个竹筐代表主队的胜平负,熊猫宝宝则通过选择哪个筐里的食物来预测比赛结果。等到了淘汰赛,熊猫宝宝们还会通过爬树和赛跑来预测结果。前者是让熊猫爬上挂有一方球队国旗的树木来预测,后者则是两个熊猫宝宝分别穿上两队球衣,通过谁先跑到目的地来预测比赛结果。
评:本来要顶替章鱼保罗的国宝没了用武之地,国人还是缺乏点娱乐精神,借此机会宣传下大熊猫, 有何不可,万一要是预测对了,那大熊猫基地岂不成了大师圣地,还愁旅游不火?
微软相信Excel
微软必应大数据之前曾多次成功预测奥斯卡奖项、投票大选。微软的预测考虑过往比赛历史、主场客场、地理位置、草坪状况、天气及“群众智慧”等多种因素,还使用大量的公开数据——博彩市场、民意调查、社交媒体及其他在线数据,利用大数据分析来判断每场比赛的结果。据说这一切都是用Excel 来完成的,我们权当其是软件推广策划吧。
评:相信Excel是万能的, 但预测足球估计是万万不能的,不过,人家说奥斯卡、大选都预测对了。
雅虎相信网络流言
雅虎用轻博客网站Tumblr 的数据来估计每支国家队的优势,最终计算出最可能获胜的是巴西队。雅虎研究小组分析的前提是,Tumblr上所有有关世界杯的讨论都具有一定价值。为了查明哪些国家将相互较量,小组会根据之前比赛的结果为每支队伍赋予优势值。针对每一次比赛,雅虎会利用名为泊松分布的不同参数的概率论来估计每一支队伍可能的进球数量。
评:雅虎相信的是目前最火的社交网络数据,据说可以预测传染病和犯罪现场。
当然,虽然很多人相信大数据能够帮助我们预测世界杯,也有不可预测派。美国的洛斯·阿拉莫斯国家实验室的三位统计物理学家曾经对大型体育比赛的赛况进行数据化分析,发现在棒球、曲棍球、篮球、橄榄球及足球五大项目中,足球比赛是其中最具悬念,赛果最具不确定性的,弱旅战胜强队的概率居高不下,即使使用科学方法也未能得到准确的预测。
说实话,作为统计专业人士,对足球预测不敢太相信,体育比赛确实可以预测,足球也不例外,但足球项目影响因素太多,特别是世界杯足球比赛,相对场次不多、间隔周期太长,致使数据量很小,比赛中又有太多的主观因素(比如裁判) ,有时候这种比赛的预测和算命没什么差别。
小结:如果要问为何总有人预测正确?正如一家报纸所说,每届世界杯都会有无数的“保罗”,大部分都在前几次猜测失败后从媒体视线中消失。贝利也不是真正的乌鸦嘴,只不过他预测成功的时候没有后续报道。预测大师都是这样炼成的!
文章来源:
内容简介
本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
网友评论