用K-Means对亚洲足球队分了个类

作者: Birdy潇 | 来源:发表于2018-01-20 22:23 被阅读0次

用K-Means对亚洲足球队分了个类
05 聚类算法 - 二分K-Means、K-Means++、K-
Python机器学习随笔之K-Means聚类的实现
确定聚类分析中的类别个数的方法
07 聚类算法 - 代码案例三 - K-Means算法和Mini
06 聚类算法 - 代码案例二 - K-Means算法和Mini
08 聚类算法 - 聚类算法的衡量指标
02-15
【算法周】光说不练都是假的！K-means实践篇来啦~
K-means算法小记

1.18号FIFA刚对全球足球队伍进行了排名，国足给力前进了一名现全球排名70，亚洲排名第6。这两天也正好在复习机器学习算法，打算用K-Means对亚洲的足球队伍进行自动聚类，看看国足到底属于哪个档次。

Rank.png

K-Means简介

K-Means 是一种无监督学习算法，能对一系列无标签的数据进行聚类，发现数据中所包含的隐藏信息和结构。说简单点，你现在手上有一堆没有标签的数据，而你现在需要将其分成K类，K-Means要解决的任务就是在不知道数据标签，不知道数据的归属情况下，对其聚类。

算法思想：

初始化K个聚类中心
遍历所有样本计算与聚类中心的欧氏距离，并将其分类到距离最近的中心形成簇
重新计算K个簇的中心，计算方式取簇中所有元素各自维度的均值
将样本按新的聚类中心重新聚类
重复步骤4，直到结果收敛
输出结果

那怎么依据球队数据进行自动聚类呢？

首先，数据！数据！数据！获取数据是第一步，有时候一个优质的数据集对计算结果有很大影响。从FIFA官网给出的数据可以看到，每支球队的当前排名是由最近四年的分数加权平均得到，离得越近权重越大。分数来源是对每支队伍的参赛成绩进行统计，踢得多，赢球场次多，分数也就高。

那我们就简单点来，拿球队2015-2018的分数作为数据集（去除加权），取前20支队伍作为聚类样本，那么每支球队也就有四个维度的数据，数据收集如下：

sample.png

数据有了那就开始写算法吧~~
这一部分用于计算距离，这里我用的欧氏距离，将样本划分到最近的聚类中心

def findClosestCentroids(X,centroids):
    #read the input information
    (m,n)=X.shape
    idx=np.zeros((m,1))
    K=centroids.shape[0]
    #compute the cluster
    K_value = np.zeros((K, 1))
    for i in range(m):
        for j in range(K):
            K_value[j]=np.linalg.norm(X[i,:]-centroids[j,:],2)
        idx[i,0]=np.where(K_value==np.min(K_value))[0][0]
    return idx

这一部分计算各簇中所有元素各自维度的均值用来更新簇中心。

#compute the new centroids by means
def computeCentroids(idx,X,K):
    #read the input information
    (m,n)=X.shape
    new_centroids=np.zeros((K,n))
    #compute means
    for i in range(K):
        centroids_temp=np.zeros((1,n))
        for j in range(m):
            if int(idx[j])==i:
                centroids_temp=np.vstack((centroids_temp,X[j,:]))
        new_centroids[i,:]=np.mean(centroids_temp,axis=0)
    return new_centroids

此外，还需要迭代上面的计算过程直到结果收敛：

ef runKmeans(X,centroids,maxiter):
    K=centroids.shape[0]
    for i in range(maxiter):
        idx=findClosestCentroids(X,centroids)
        centroids=computeCentroids(idx,X,K)
    return centroids,idx

好，算法写完了，可以试试我们的数据了
将队伍档次分成三档，一流，二流和三流，设置K=3，初始化聚类中心为伊朗，卡塔尔和吉尔吉斯斯坦，求取结果如下

levels.png
有点出乎预料啊，国足竟然冲到亚洲一流的档次上了，赶紧做个可视化看看情况。由于数据维度是四维的，为了可视化只取前2-3维数据。

figure1.png
这是二维聚类图，数据的分类情况还行，蓝色的点是一流档次，绿色的是二流，红色的是三流，叉是最终的聚类中心。

figure2.png
这是三维情况的图，从图示信息可以看到K-Means还是能清楚的将数据自动聚类。Ok, it works 但国足真的已经强到能在亚洲处于一流的地位吗？听说国足会打很多热身赛，热身赛也对分数也有贡献所以取这样的数据样本是有瑕疵的，应该用一些国际杯赛数据。先这样，明天再用世界杯和亚洲杯的数据做一次分析(还有很多小东西可以发掘，先Mark）。

隔了几天重新收集了一波数据，我采集了三年的世界杯数据和三年的亚洲杯数据，评分规则如下：
对于世界杯，如果打入决赛圈则取其最终排名作为得分，未能进入决赛圈的按其能否进入世界杯预选赛八强或十强（注：2006年亚洲预选赛为八强，后两届为十强）的标准评分，若进入八强或十强则赋40（因为世界杯决赛圈32强，用40作为一个区分），未能进入的则赋50。
对于亚洲杯，如果进入四强则取其最终排名作为得分，进入八强的赋予5，进入十六强的赋予9，预选赛未能出线的赋予17。