美文网首页
分类问题建模

分类问题建模

作者: iriscong | 来源:发表于2019-04-10 16:29 被阅读0次

    本文以python内置数据集iris为例,对分类问题中常用的算法进行总结。

    一、导入文件

    import pandas as pd
    # from sklearn.cross_validation import train_test_split,cross_val_score # sklearn 版本0.17使用
    from sklearn.model_selection import train_test_split,cross_val_score # sklearn 版本0.20.2使用
    from sklearn import datasets
    

    确定自变量和因变量:

    rawfile = datasets.load_iris()
    rawfile.feature_names # 获取自变量名称
    rawfile.data # 获取自变量取值
    rawfile.target # 获取因变量取值,0=setosa,1=versicolor,2=virginica
    file = pd.DataFrame(data=rawfile.data, columns=rawfile.feature_names)
    x = file
    y = rawfile.target
    file.head()
    

    数据展示:

        sepal length (cm)   sepal width (cm)    petal length (cm)   petal width (cm)
    0   5.1     3.5     1.4     0.2
    1   4.9     3.0     1.4     0.2
    2   4.7     3.2     1.3     0.2
    3   4.6     3.1     1.5     0.2
    4   5.0     3.6     1.4     0.2
    

    二、建模

    (一)逻辑回归

    1. 原理简述:
      创建逻辑函数,如果有了一个或多个自变量,输出的y值在[0,1]之间,表示概率。如果f(x)的值在0.5以上则为1,在0.5以下,则为0。仅适用于二元分类。
    from sklearn.linear_model.logistic import LogisticRegression
    model = LogisticRegression()
    model.fit(x_train, y_train)
    

    (二)knn近邻

    原理简述:
    1)计算测试数据与各个训练数据之间的距离;
    2)按照距离的递增关系进行排序;
    3)选取距离最小的K个点;
    4)确定前K个点所在类别的出现频率;
    5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

    如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。


    knn近邻原理图示.png
    from sklearn.neighbors import KNeighborsClassifier
    model = KNeighborsClassifier()
    model.fit(x_train, y_train)
    

    三、评估

    (一)准确率accuracy

    (TP+TN)/(TP+TN+FP+FN)预测对的/所有。
    局限性:
    1、无法区分假阴和假阳
    2、在总体比例一边倒的情况下,准确率并不有效。比如信用卡中的虚假交易很少,但是大部分正常交易都能预测为正常交易,很高的准确率并不能说明虚假交易预测很好。这时需要结合看精确率和召回率,尤其要重点关注不同y标签的精确率和召回率,具体看是预测哪个标签时经常出错:比如体检更关心假阳而非假音。但是准确率无法看出来。

    # 方法一:
    print(model.score(x_test, y_test))  # 在对模型训练后,输入测试集的x,以及正确的y
    # 方法二:
    from sklearn import metrics
    print('accuracy_score:', metrics.accuracy_score(y_test, y_test_model))  # 输入正确的y & 模型训练出来的y
    

    (二)精确率precision

    TP/(TP+FP) 表示测试集中预测为正的样本中,有多少真的是正。猜测将标签中为1的值返回。

    print('precision_score:', metrics.precision_score(y_test, y_test_model))
    

    (三)召回率recall

    TP/(TP+FN) 表示测试集中真正为正的样本中,有多少被正确预测了。猜测将标签中为1的值返回。

    print('recall_score:', metrics.recall_score(y_test, y_test_model))
    

    (四)f1值

    综合评价指标(F1 measure)是精确率和召回率的调和均值(harmonic mean),或加权平均值,也称为F-measure或fF-score。

    print('f1:', metrics.f1_score(y_test, y_test_model))
    

    评估报告

    精确率+召回率+f1值+标签训练结果出现次数

    print(classification_report(y_test, y_test_model))  # 把生存规定为正类,和把没有生存规定为正类,计算出来的精确率和召回率是不一样的。但是准确率的计算都相同。
    

    相关文章

      网友评论

          本文标题:分类问题建模

          本文链接:https://www.haomeiwen.com/subject/pjhoiqtx.html