世界杯翻译自 https://towardsdatascience.com/can-linear-models-predict-a-footballers-value-33d772211e5d
原标题:Can Linear Models predict a Footballer’s Value?
作者: Shubham Maurya
2018世界杯激战正酣,我也决定将最近做的有趣项目分享出来,结合了我最爱的数据科学与足球!目标是研究下英超联赛中球员的受欢迎程度与其身价的关联(考虑到很多情况下球员的数据并不能代表一切,最典型的代表就是防守型后腰,数据不显眼,但是对于球队来说可能确是无价之宝),同时我也会偶尔跑个题,研究下英超六大豪门的一些有趣数据。
本文使用的数据主要来源于transfermrkt.com和Fantasy Premier League(以下简称FPL),FPL网站上有每只球队的球员列表,并提供了较为一致的球员身价。例如曼联年轻中场Scott McTominay在FPL就位列球员名单,但确被排除在transfermrkt数据库之外,本文以2017/18赛季数据为准,可能因为后续签约存在部分差异。
本文使用了一些很酷的技术,如RVest于Selenium,可以访问我的github获取源码。
一些初步分析
谁是英超的最有价值球员
最有价值球员不出所料,都是些我们熟悉的大牌球星。
谁是英超最受欢迎的球员
最受欢迎球员鲁尼小胖夺魁,在红魔曼联期间的高光表现无愧于传奇两字。
球员身价分布
球员身价分布情理之中,意料之外!身价显然是非正态分布。一只球队往往只有少量的明星球员,更多的则是中低身价球员。而如果我们取每只球队一线队身价前15名的球员来统计,则基本服从正态分布(提出了低身价的边缘及年轻球员)。
六大豪门与普通球队差距是否明显?
左图为6只豪门,右图为其他球队有点意思!六大豪门的球员身价分布宽泛,而其他球队则大量球员身价都在1000万以下(transfermrkt网站的估值,莫喷)。
受欢迎度分布
页面访问量分布受欢迎程度与身价的分布情况类似,除了两个明显的异常点——鲁尼和博格巴。鲁尼已经是当今英国足坛最为知名(受欢迎程度存疑?)的球星,他打破了博比查尔顿爵士的曼联进球记录,因其在曼联一贯的优秀表现,获得了非常高的关注度。博格巴,则是因为其以当时世界最高身价重返曼联吸引了很高的热度,当然他本身也是一名非常优秀的球员。
六大豪门vs其余球队
左图为6只豪门,右图为其他球队与身价类似,六大豪门球员的热门程度分布较为均匀。因为鲁尼现在效力于埃弗顿,解释了图中的异常点。
详细分析
显然,我正在试图证明球员的身价与其热门程度存在关联。这很有趣,因为能力和表现在足球运动中很难精准的量化出来,与球员踢的位置、教练的战术、对手、所在联赛、队友的能力等等都息息相关。所以对球员进行评分是极其困难的一件事,当然还是有人乐此不疲:)
像WhoScored 之类的网站,提供两两球员间的比较,FPL网站则提供了球员的总体能力值。让我们来看看球员的热门程度能否可以解释其能力,我会使用线性回归模型来进行以下实验。
FPL评分
FPL评分从结果看FPL评分与transfermrkt身价数据非常一致,尽管FPL的评估显然更受短期表现的影响,所以年龄因素没有作为模型中的因素。来看看统计图右下角的球员——低身价,能力值高,年龄大,比如切赫和亚亚图雷。
身价/FPL比率目前来看我们的猜测基本正确,如果FPL能力值可作为转会价格的等价物,使用转会价格除以FPL能力值,应该会得到一个常数系数。但是实际上FPL值最低为4,所以就导致年轻球员及未得到足够表现机会的球员的比率值很低,与此类似,另外一端,身价极低的老球员也会被低估,在赛季中仍然可能体现很高的价值。
非常有意思的是,可以看到前锋从32岁开始比率断崖式下降,可能体现了转会市场对于高龄前锋的低估值。
身价与年龄
直觉告诉我们,年纪越大,身价应该也就越低。但这只是一个初步的臆想。
身价&年龄
高能力值的球员基本集中在24-32的年龄区间,在27岁附近达到巅峰水准。能力与年龄显然不存在线性关系,所以在线性回归中,我是将年龄分组来进行的。你也可以使用变换点回归法——构建两个模型,年龄大于小于阈值分别构建。
球队各位置储备
曼城有令人疯狂的锋线及攻击性前腰,但他们的防守却是一塌糊涂(希望门迪、沃克尔和丹尼洛的到来能有所改善,但他们不在这个数据集中) 。我们来看看六大豪门在各位置上的储备如何?
位置储备
曼城进攻球员的总身价远超其他球队。然而他们和利物浦的防守相对薄弱,当然曼城经过引援目前有所改善。曼联门线上有德赫亚和罗梅罗的双保险,稍稍领先。
热门程度能否替代能力值?
下一部分,我们将对“能力与热门程度存在关联”的假设进行检验。球员能力很难通过比赛统计进行衡量与对比。在本文中,假设FPL的评分是球员能力的一个公允度量。
热门程度=>能力值
图中可看到虽然可能并不非常完美,仍然可以清晰地看到能力与热门程度间的存在线性关系。可以看到鲁尼仍然是一个明显的异常值。
好了,我们开始下面的模型!
回归模型
我们的主要目的是为了来看看身价评估过程中,能否使用球员热门程度来代替能力值。球员的身价我们姑且通过如下公式定义:
身价~能力+位置+年龄
注:身价为能力、位置、年龄确定的一个函数
后两个决定因素很容易得到,但是能力是一个难以评估的因素。有很多的度量方式,这里我使用一个简单的替代——热门程度(过去一年中该球员维基百科的访问量)。我使用维基百科的原因如下:
- 与Twitter/Facebook相比,不依赖于球员是否开通其个人账号
- Facebook/Instagram 过于主观,依赖于球员自身po的内容
- 容易获取指定时间片数据——例如我想排除五月-七月的数据,因为正值转会期,部分球员的热门程度会有一定程度的高估。
不过简单的使用访问量也存在一些问题:
- 来自英格兰本土的球员点击量更高,因为他们本土作战。
- 不同类型的球员获得的关注度不同——例如锋线球员获得的关注度往往要远远高于防守球员
- 新签约球员会获得更高的关注度,有时候甚至比转会期还要高
- 豪门往往有更多的国际球迷
- 突然爆发的球员可能获得更多的点击,因为他们之前的默默无闻。比如2016-17赛季的拉什福德。
- 长期受伤的球员因为其缺乏出场机会,点击率会比较低。
在模型中,我考虑了1-4,忽略了5、6两点,因为需要额外的工作去获取突然爆发球员及受伤球员,后续模型可能会考虑进来。
针对影响因素1-4:
我对球员国籍进行了检索,把他们分为了4组:
1:英格兰本土球员
2:欧盟球员(英国退欧使得这成为一个显然的分类)
3:美洲球员
4:其他国家球员
新增了一列——球员来自区域,该列有四个选项。
- 考虑了位置与访问量的关联
- 标记了16-17赛季的新引援,考虑了其对访问量的影响
- 新增了一列——豪门标识,包含曼联、曼城、切尔西、阿森纳、利物浦和热刺六支球队,
除了这些,年龄也作为一个分类变量被包含其中。
数据处理
- 没有包含升班马,因为英超联赛获得的关注度高太多,这些球队在前一赛季中没有得到足够曝光。
- 同样原因,17-18赛季新的海外引援也没有包含,但联赛内部的转会被保留了。比如林德洛夫就没有包含,而卢卡库则包含在内。
- 使用身价的开方值,因为身价有明显的右偏,可能会导致异方差。
我们绘制市值开方与访问量的散点图如下:
身价开方-访问量散点图
不能很直观的看到线性关系,于是我对访问量也进行了开方操作:
身价开方-访问量开方散点图
粗略已经可以看出线性关系,又是鲁尼那个异常点。
使用多元线性回归模型,可以得到R方值高达70%!而且访问量的系数非常显著。市场开方与访问量开方值间具有明显的线性关系。
残差图告诉我们什么?
使用残差图,我们可以检查数据是否存在异方差性。
残差图看起来误差都是随机的,使用
Q–Q plot
可以确认残差是服从正态分布的。Q–Q plot
英超联赛受欢迎程度
还有一个有趣的副产品——与其他联赛相比,英超联赛到底有多受欢迎?
因为从外国联赛引援个数有限,此方法可能不够精确,但是差异也足够说明这绝不是噪声引起的。
预测国外引援身价
因为外部联赛引援身价往往被低估,我们知道这个模型是有效的。原因在于——一个2000w身价的球员在英超联赛的点击量要比其他联赛更多,而因为这个原因,在英超中每次点击量的价值更小,模型使用英超联赛的数据,系数也来源于英超,所以来自非热门联赛的球员的身价就会被低估。
Enjoy~
可以在kaggle上获取数据与代码。
网友评论