美文网首页
ML 监督学习 分类 逻辑回归

ML 监督学习 分类 逻辑回归

作者: XinY_VV | 来源:发表于2020-03-16 06:00 被阅读0次

    逻辑回归(logistic regression)又称“对数几率回归。虽然它的名字是回归,但却是一种分类学习方法。逻辑回归也可以从二元分类扩展到多分类,这就是多项式回归。

    1.构造预测函数h(x)


    Sigmoid Function

    对数几率函数是一种“Sigmoid"函数,Sigmoid的函数输出是介于(0,1)之间,中间值是0.5。sig(t)<0.5则说明当前数据属于反类/0类;sig(t)>0.5则说明当前数据属于正类/1类。所以可以将sigmoid函数看成样本数据的概率密度函数。

    2.构造损失函数
    用最大似然法估计参数,优点:大样本数据中参数的估计稳定,偏差小,估计方差小。
    概率函数:

    因为样本数据(m个)独立,取似然函数为:

    取对数似然函数:

    基于最大似然估计推导得到Cost函数和J函数:

    3.梯度下降求最小值

    模型的改进

    避免过拟合---正则化
    让准确率最大化---SVM

    Kernal Logistics Regression

    请参考别人写的文章https://blog.csdn.net/qq_34993631/article/details/79345889
    配视频
    https://www.youtube.com/watch?v=AbaIkcQUQuo

    L1,L2正则化比较

    L2是收缩,L2稀疏性
    L2比L1要快
    建议用逻辑回归是至少用一个正则化,特征要标准化。

    线性回归与逻辑回归的比较
    逻辑回归与朴素贝叶斯的比较

    因为朴素贝叶斯对数据做出了更强的假设,但需要更少的示例来估计参数

    例子
    import pandas as pd
    import matplotlib.pyplot as plt
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import roc_curve,roc_auc_score,accuracy_score,confusion_matrix
    from sklearn.linear_model import LogisticRegression
    
    candidates = {'gmat': [780,750,690,710,680,730,690,720,740,690,610,690,710,680,770,610,580,650,540,590,620,600,550,550,570,670,660,580,650,660,640,620,660,660,680,650,670,580,590,690],
                  'gpa': [4,3.9,3.3,3.7,3.9,3.7,2.3,3.3,3.3,1.7,2.7,3.7,3.7,3.3,3.3,3,2.7,3.7,2.7,2.3,3.3,2,2.3,2.7,3,3.3,3.7,2.3,3.7,3.3,3,2.7,4,3.3,3.3,2.3,2.7,3.3,1.7,3.7],
                  'work_experience': [3,4,3,5,4,6,1,4,5,1,3,5,6,4,3,1,4,6,2,3,2,1,4,1,2,6,4,2,6,5,1,2,4,6,5,1,2,1,4,5],
                  'admitted': [1,1,1,1,1,1,0,1,1,0,0,1,1,1,1,0,0,1,0,0,0,0,0,0,0,1,1,0,1,1,0,0,1,1,1,0,0,0,0,1]
                  }
    
    df = pd.DataFrame(candidates,columns= ['gmat', 'gpa','work_experience','admitted'])
    
    X = df[['gmat', 'gpa','work_experience']]
    y = df['admitted']  
    
    X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)  #train is based on 75% of the dataset, test is based on 25% of dataset
    
    logistic_regression= LogisticRegression()  #逻辑回归
    logistic_regression.fit(X_train,y_train)   #训练
    y_pred=logistic_regression.predict(X_test) #预测
    
    print (X_test) #test dataset
    print (y_pred) #predicted values
    
    print(confusion_matrix(y_test, y_pred))
    print("Accuracy:",accuracy_score(y_test, y_pred))
    
    #Plot ROC curve
    y_pred_proba = logistic_regression.predict_proba(X_test)[::,1]
    fpr, tpr, _ = roc_curve(y_test,  y_pred_proba)
    auc = roc_auc_score(y_test, y_pred_proba)
    plt.plot(fpr,tpr,label="data 1, auc="+str(auc))
    plt.legend(loc=4)
    plt.show()
    
    ROC Curve

    ROC曲线的纵轴是“真正例率”,横轴是“假正例率”。

    总结
    Conclusion

    相关文章

      网友评论

          本文标题:ML 监督学习 分类 逻辑回归

          本文链接:https://www.haomeiwen.com/subject/sjhashtx.html