美文网首页大数据 爬虫Python AI SqlPython学习分享程序员
Python爬取3万+条球员记录,看看中国和其它国家的差别

Python爬取3万+条球员记录,看看中国和其它国家的差别

作者: 烟雨丿丶蓝 | 来源:发表于2019-05-23 15:42 被阅读13次

一直想做一篇和足球数据分析相关的文章,结合python的爬虫和数据分析,这里和大家分享一篇直播吧3万多足球运动的数据分析,数据内容挺多的,只是从其中提取部分进行比较和分析。可视化部分用到的是pyechart。

1、分析直播吧球员数据页面:

image

1)从域名看(https://data.zhibo8.cc/html/player.html?player_id=1),player_id这个参数代表了每个球员的编号,这里看了一下,最高编号大概到9万多,中间会有断层。爬虫的基本步骤就是循环获取每个球员页面的数据即可。

2)然后再查看每个球员页面的数据如何获取,一般这类数据都是通过json格式传入的,所以只需要获取该域名的json数据即可。通过右键copy该json的域名是:https://db.qiumibao.com/f/index/player?pid=1,好了,下一步就是直接跑代码了。

image

2、运行爬虫代码:

image

就短短十几行代码,就把3万+条球员记录存到DataFrame里面:


image

注:如果某条记录报错,可以直接从下一条记录再开始运行即可

3、数据分析

3.1 通过年龄分析球员

爬取到的数据有33102条,通过查看这批球员的年龄分布,查看是否都是现役球员。


image

通过图表可以发现,球员主要集中在20-30岁之间,非常符合现役职业球员的分布。

当然了,最主要还是看我们中国球员的年龄分布:

image

好像有点反规律哦,为什么23岁以下的球员芳儿比23,25的球员多呢?是不是因为U23政策,哈哈。

3.2 哪个国家的球员最多

image

排名前15位的国家,令人意外的是日本球员居然排名第五。这个数量只能代表各个国家的顶级联赛职业球员数量,无法代表实际足球人口,这个比较可惜。

3.3 分析球员的进球数据

image

其中,梅西598,C罗600,可见梅罗独一档有多恐怖,排名第三的伊布只有428,而且伊布比他们还大好几岁。

3.4 三大球王数据对比

image
image

如果你对Python编程感兴趣,那么记得来小编的Python学习扣群:556370268,这里有资源共享,技术解答,大家可以在一起交流Python编程经验,还有小编整理的一份Python学习教程,希望能帮助大家更好的学习python。

相关文章

网友评论

    本文标题:Python爬取3万+条球员记录,看看中国和其它国家的差别

    本文链接:https://www.haomeiwen.com/subject/cmcbzqtx.html