美文网首页@IT·互联网Python文集python机器学习爬虫
2018世界杯数据分析——让你知道谁才是真正的黑马!!

2018世界杯数据分析——让你知道谁才是真正的黑马!!

作者: 我叫钱小钱 | 来源:发表于2018-06-29 23:45 被阅读575次

特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。

2018_world_cup.jpg
  • 全文概要

2018俄罗斯世界杯正在如火如荼的举行,各种比赛预测多如牛毛,就在前两天看到一篇AI预测世界杯赛事很火,就自己也就尝试了一下,但是发现用机器学习模型预测比赛有几个问题。

  • 第一:以国家为主体去预测听起来没毛病,但是一个球员的生涯最多15年,那么每支球队的球员其实在不断变化的。

  • 第二:那么就算球队的球员是固定的,那么也只能取近15年的比赛作为样本,历史近15年32支球队互相交锋的场次并不多,满足不了机器学习样本数量要求。

所以放弃了预测的念头,就比较简单粗暴方法,分析了一下各队的性价比,话不多说先上图,快速预览请直接看黑体加粗。

  • 看图说话

  • 横轴:是当前国际足联官网披露的世界排名,X轴刻度做了归一化处理所以可以忽略,越靠右世界排名越靠前,当前德国是世界排名第一。
  • 纵轴:是统计近10年32支国家队互相比赛的胜率,越往上胜率越高(比赛的场次与对手可能会造成统计偏差,这里作为次要参考依据)
  • 大小:表示球队的总身价,本届世界杯总身价最高的3支球队分别是,法国10.8亿欧元、西班牙10.4亿欧元、巴西9.5亿欧元



由于图太大,很多国家标签没有显示,那么拆分成左右2块细看一下。

  • 左侧(综合实力较弱)


  • 右侧(综合实力较强)


  • 夺冠热门大多为总身价较高的球队,如西班牙、巴西、德国等第一集群阵营中,在第一集群整阵营出现了比利时的身影无论从总身价还是近年国际比赛表现都相当好,比利时也很可能成为夺冠黑马。

再来看下32支球队分布的情况,欧洲、美洲明显占据绝大区域。
好了~!分析一波就到这里了,剩下的大家自己看图分析吧。

  • 其他相关

  • 数据来源:
    收集数据是大部分人会碰到的门槛,这里只选用官方原始数据,可以使统计更为精确。
  1. 在Kaggle上获取数据集,上面有从1872年到2018年的所有世界足球比赛结果数据(但是需要翻墙)
    官方链接:https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017
  1. FIFA国际足联官方网站,排名,身价等(用Python抓取,当然也就32个队伍,百度搜一下复制黏贴也是可以的)
    官网链接:https://www.fifa.com/worldcup/players/
  • 数据清洗:

1.官网抓取的国际实际上和Kaggle的数据集国家英文关联不上,需要重新统一
2.Kaggle的历史的净胜球与主客场划分,需要划分时间进行拆分把他们拉到一个维度进行加权

最后再亮一下整理出来的本届世界杯32支球队的数据集


到这里就全部完成了,期待下一次分析请点关注,喜欢点赞~ !谢谢!

相关文章

网友评论

    本文标题:2018世界杯数据分析——让你知道谁才是真正的黑马!!

    本文链接:https://www.haomeiwen.com/subject/qzsoyftx.html