美文网首页体育产品经理
Python爬取3万+条球员记录,看看中国和其它国家的差别

Python爬取3万+条球员记录,看看中国和其它国家的差别

作者: 迷途小球迷 | 来源:发表于2019-05-23 13:37 被阅读19次

    一直想做一篇和足球数据分析相关的文章,结合python的爬虫和数据分析,这里和大家分享一篇直播吧3万多足球运动的数据分析,数据内容挺多的,只是从其中提取部分进行比较和分析。可视化部分用到的是pyechart。

    1、分析直播吧球员数据页面:

    1)从域名看(https://data.zhibo8.cc/html/player.html?player_id=1),player_id这个参数代表了每个球员的编号,这里看了一下,最高编号大概到9万多,中间会有断层。爬虫的基本步骤就是循环获取每个球员页面的数据即可。

    2)然后再查看每个球员页面的数据如何获取,一般这类数据都是通过json格式传入的,所以只需要获取该域名的json数据即可。通过右键copy该json的域名是:https://db.qiumibao.com/f/index/player?pid=1,好了,下一步就是直接跑代码了。

    2、运行爬虫代码:

    就短短十几行代码,就把3万+条球员记录存到DataFrame里面:

    注:如果某条记录报错,可以直接从下一条记录再开始运行即可

    3、数据分析

    3.1 通过年龄分析球员

    爬取到的数据有33102条,通过查看这批球员的年龄分布,查看是否都是现役球员。

    通过图表可以发现,球员主要集中在20-30岁之间,非常符合现役职业球员的分布。

    当然了,最主要还是看我们中国球员的年龄分布:

    好像有点反规律哦,为什么23岁以下的球员芳儿比23,25的球员多呢?是不是因为U23政策,哈哈。

    3.2 哪个国家的球员最多

    排名前15位的国家,令人意外的是日本球员居然排名第五。这个数量只能代表各个国家的顶级联赛职业球员数量,无法代表实际足球人口,这个比较可惜。

    3.3 分析球员的进球数据

    其中,梅西598,C罗600,可见梅罗独一档有多恐怖,排名第三的伊布只有428,而且伊布比他们还大好几岁。

    3.4 三大球王数据对比

    就到这里吧,如果需要代码或者数据,可以联系作者微信公众号,搜索公众号:Tou票票,回复‘球员’即可,或者添加我的微信号:xnm0768

    相关文章

      网友评论

        本文标题:Python爬取3万+条球员记录,看看中国和其它国家的差别

        本文链接:https://www.haomeiwen.com/subject/gxvvzqtx.html