美文网首页统计及应用
来吧,一起来预测一下冠军

来吧,一起来预测一下冠军

作者: tiger007lw | 来源:发表于2022-12-16 10:44 被阅读0次

    一、 世界杯比赛结果预测

      世界杯冠军之夜开到了,除了好好欣赏足球运动的魅力外,各队的比赛结果也是大家茶余饭后的重要谈资。小组赛冷们迭出,德国被淘汰,亚洲表现神勇……现在来到了淘汰赛,过程重要,比赛结果当然也很重要,除了胜负平外,甚至还有赢几个球等的结果猜测。我们个人在预测两只队伍交锋情况时 ,一般会首先看两只队伍过往交锋成绩,要看小组赛成绩,然后还有两个队的硬实力等。上述这个过程实际上是我们人类普遍进行预测和推理的一个方法,就是根据当前情况,结合过去经验来预测,这种方法被证明是自然而有效的,这让人不禁想起大热的机器学习怎样预测。机器有多种预测方法,其中,与上述我们常规的基于经验和当下表现来共同进行推断使用的就是贝叶斯方法。

    二、 经典统计与贝叶斯统计

      统计主要包括描述性统计和推断性统计,后者又包括经典统计和贝叶斯统计。还有新的统计决策等分支。我们平时熟悉的都是经典统计,今天说说贝叶斯统计。
      根据样本推断总体的性质,这就是经典统计的目的。贝叶斯统计则是要加上过去的经验信息一起来推断总体性质。
      经典统计中,认为参数是一个固定的值。直接通过样本信息来对总体进行推断。样本信息 ⇒ 总体信息。
      贝叶斯统计则认为要估计的参数也是一个随机变量,先验分布 + 样本信息 ⇒ 后验分布 ,其对总体的推断完全是依赖于后验分布。把先验经验(先验密度函数)结合分布信息(似然函数分布函数)和抽样信息(构成似然函数的乘法联合密度)来预测。利用抽样信息来矫正先验经验,最后得到关于总体的分布情况(密度函数)。
      二者的关系如 图 1 经典统计和贝叶斯统计所示。


    图片.png

    图 1 经典统计和贝叶斯统计

      回顾我们刚开始学古典概率的时候,有两个重要的公式,一个是全概公式,一个是逆概公式,也叫贝叶斯公式,
    P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)}⋯⓪\qquad

      是不是有印象了,其中一种解释是“结果推原因”,不过,这个公式可远远不仅仅是可以这样解读,在这里我们要先介绍其连续形式。

      在贝叶斯统计,其核心公式就是:
    π(θ|x)=\frac{L(x|θ)π(θ)}{\int_{Θ}{L(x|θ)π(θ)}{dθ}}⋯①\quad
      这个公式看起来有些吓人,其实翻译成下面这个公式就好理解了。

    图片.png

    贝叶斯统计所有的推断都依赖于后验分布来进行!计算后验分布有两种方法,一种是计算②中右边的三个部分,一种是直接在后验分布中抽样。今天就简单地说一下第一种方法。举个🌰
    小王进行射击训练,我们把结果只分为上靶和脱靶两种情况。共打了n次,命中了r次,怎样估计小王的命中概率θ?对于经典统计,只使用样本信息,θ的估计值\widehat{θ}_c=\frac{r}{n}, n = r = 10时,即10次打靶10次上靶,\widehat{θ}_c=1,这个估计值我们觉得是比较合理的,如果 n = r = 1,即只有一次打靶,然后上靶了,\widehat{θ}_c=1,如果 n = 1, r = 0,即只有一次打靶,然后脱靶了,\widehat{θ}_c=0,这样的估计结果绝对是不能让人信服的。这个时候,贝叶斯统计就可以大显身手了。

      经典统计认为参数,如本例中估计的成功概率是一个确定的值。贝叶斯统计则认为参数服从某个分布,也就是②式中右边的先验分布,这就是对先验知识的应用。回顾一下我们的概率知识,事件(打靶)只有两个结果(上靶、脱靶),单个事件服从两点分布,多个相互独立的事件构成的总体就服从二项分布。②式中似然函数是将取得的一组观察值中每一个具体的值作为常量带入总体的密度函数中,然后再连乘。在总体服从二项分布时,根据已经有的研究成果,参数θ的先验分布取Beta分布,又共轭分布理论知道,后验分布与先验分布属于同类(分布形式相同),故此后验分布也取Beta分布。根据这样原理,得到的参数θ的贝叶斯估计(后验期望)为 \widehat{θ}_B=\frac{r+1}{n+2}.
      这里,当 n = r = 1时,\widehat{θ}_B=\frac{2}{3} ,n = r =10时,\widehat{θ}_B=\frac{11}{12}
      从这里可以看出,至少在此事件上,参数θ的贝叶斯估计比经典统计更合理一些。
      可以认为估计结果(后验分布)就是用样本信息(似然函数)来修正经验信息(先验分布)。样本数据越大,对估计结果的影响也越大。

    三、 朴素贝叶斯及足球结果预测应用

      言归正传,背景知识介绍了,我们来看看怎么样用贝叶斯方法来预测足球淘汰赛和决赛的赛果。预测的结果只有两种类别,胜或者负。当然,结果还可以有多种类别,但是为了简化说明故这样设计。比赛的两只队伍,比如巴西和克罗地亚。两只队伍在本届杯上前期的表现及本次队伍的基本情况,如小组赛上成绩、队伍中的球星、主力队员的年龄结构等。我们还可以找出影响球队的许多因素,有一个条件,这样因素之间\color{green}{相\,互\,独\,立\,}的。当然,这个条件很难得到完全满足,其实,稍微有一点关联也没有关系。后面我们再说怎样使用这些信息。
      朴素贝叶斯分类器是根据贝叶斯定理和特征条件独立假设实现的一种分类模型。有着坚实的数学基础以及稳定的分类效率。通过贝叶斯公式比较样本属于多个类的后验概率,其类别决策原则为采用后验概率最大的那一个类,这样可以使总体错误率最小。比如,根据当前多个因素具有的值的情况下,巴西队胜队概率大于输的概率,就估计巴西队胜。
      朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,能同时处理离散数据和连续数据,算法也相对简单。朴素贝叶斯的“朴素”二字指“属性条件独立假设”,用通俗的话来讲,就是一个具有特定属性值的属性,或者就是我们这里说的特征,相互之间是独立的。
    在把贝叶斯公式应用到分类任务时,具体到我们的分类应用,再次将⓪式做一个变换,转化为③式就非常清晰了

    图片.png
      我们假设都从巴西队的角度来说,P(类别)表示比赛结果,要么是胜,要么是负。 P(特征|类别)是一个条件概率,表示巴西队在\color{olive}{历\;史\;上\;}胜(负)克罗地亚的时侯,统计的小组赛上成绩、队伍中的球星、主力队员的年龄结构等。P(类别|特征),是在\color{olive}{本\;届\;杯\;赛\;}上既定的小组赛上成绩、队伍中的球星、主力队员的年龄结构等基础上获胜/失败的后验概率。P(特征)是一个常数, 计算非常复杂,求最大后验假设可以直接利用③式中分子来比较大小,从而避开对P(特征)的求解。看吧,通过这个简单的方法就可以进行预测。不要看起来简单,其实如果影响因素如果选择得比较好,效果并不差。事实上,预测的类别不仅可以是{胜,负}还可以是{胜,负,平},完全没有压力的,甚至可以是赢几个球,当然,这个的准确性要打很大折扣了。
      足球是圆的,本身存在极大的不确定性,各种预测方法甚至专业开盘的机构都有很大的不确定性。
      马上就进入本届世界杯的决赛了,让我们一同来为梅西挂帅的阿根廷队大战卫冕冠军法兰西加油!享受一番纯粹的快乐!

    相关文章

      网友评论

        本文标题:来吧,一起来预测一下冠军

        本文链接:https://www.haomeiwen.com/subject/unpdqdtx.html